/[suikacvs]/markup/html/whatpm/Whatpm/CSS/Tokenizer.pm

Diff of /markup/html/whatpm/Whatpm/CSS/Tokenizer.pm

Parent Directory | Revision Log | View Patch Patch

-revision 1.5 by wakaba,
Sat Sep  8 03:25:05 2007 UTC
+revision 1.13 by wakaba,
Sat Sep  8 17:43:41 2007 UTC
 Line 36 
 sub NUMBER_TOKEN () { 11 }
  sub DIMENSION_TOKEN () { 12 }
  sub PERCENTAGE_TOKEN () { 13 }
  sub UNICODE_RANGE_TOKEN () { 14 }
- sub UNICODE_RANGE_INVALID_TOKEN () { 15 }
  sub DELIM_TOKEN () { 16 }
  sub PLUS_TOKEN () { 17 }
  sub GREATER_TOKEN () { 18 }
-Line 60 
 sub CDC_TOKEN () { 35 }
+Line 59 
 sub CDC_TOKEN () { 35 }
  sub COMMENT_TOKEN () { 36 }
  sub COMMENT_INVALID_TOKEN () { 37 }
  sub EOF_TOKEN () { 38 }
+ sub MINUS_TOKEN () { 39 }
+ sub STAR_TOKEN () { 40 }
+ sub VBAR_TOKEN () { 41 }
+ sub DOT_TOKEN () { 42 }
+ sub COLON_TOKEN () { 43 }
+ sub MATCH_TOKEN () { 44 }
+ sub EXCLAMATION_TOKEN () { 45 }
  our @TokenName = qw(
 IDENT ATKEYWORD HASH FUNCTION URI URI_INVALID URI_PREFIX URI_PREFIX_INVALID
    STRING INVALID NUMBER DIMENSION PERCENTAGE UNICODE_RANGE
-   UNICODE_RANGE_INVALID DELIM PLUS GREATER COMMA TILDE DASHMATCH
+DELIM PLUS GREATER COMMA TILDE DASHMATCH
    PREFIXMATCH SUFFIXMATCH SUBSTRINGMATCH INCLUDES SEMICOLON
    LBRACE RBRACE LPAREN RPAREN LBRACKET RBRACKET S CDO CDC COMMENT
-   COMMENT_INVALID EOF
+   COMMENT_INVALID EOF MINUS STAR VBAR DOT COLON MATCH EXCLAMATION
  );
  sub new ($) {
-Line 103 
 sub get_next_token ($) {
+Line 109 
 sub get_next_token ($) {
      if ($self->{state} == BEFORE_TOKEN_STATE) {
        if ($self->{c} == 0x002D) { # -
          ## NOTE: |-| in |ident| in |IDENT|
-         $self->{t} = {type => IDENT_TOKEN, value => '-'};
+         $self->{t} = {type => IDENT_TOKEN, value => '-', hyphen => 1};
          $self->{state} = BEFORE_NMSTART_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
-Line 116 
 sub get_next_token ($) {
+Line 122 
 sub get_next_token ($) {
                (0x0041 <= $self->{c} and $self->{c} <= 0x0046) or # A..F
                (0x0061 <= $self->{c} and $self->{c} <= 0x0066) or # a..f
                $self->{c} == 0x003F) { # ?
-             $self->{t}->{value} .= '+' . chr $self->{c};
+             $self->{t}->{value} = chr $self->{c};
              $self->{t}->{type} = UNICODE_RANGE_TOKEN;
              $self->{c} = $self->{get_char}->();
              C: for (2..6) {
-Line 252 
 sub get_next_token ($) {
+Line 258 
 sub get_next_token ($) {
          } else {
            # stay in the state.
            # reprocess
-           return {type => DELIM_STATE, value => '/'};
+           return {type => DELIM_TOKEN, value => '/'};
            #redo A;
          }
        } elsif ($self->{c} == 0x003C) { # <
-Line 260 
 sub get_next_token ($) {
+Line 266 
 sub get_next_token ($) {
          $self->{c} = $self->{get_char}->();
          if ($self->{c} == 0x0021) { # !
            $self->{c} = $self->{get_char}->();
-           if ($self->{c} == 0x002C) { # -
+           if ($self->{c} == 0x002D) { # -
              $self->{c} = $self->{get_char}->();
-             if ($self->{c} == 0x002C) { # -
+             if ($self->{c} == 0x002D) { # -
                $self->{state} = BEFORE_TOKEN_STATE;
                $self->{c} = $self->{get_char}->();
                return {type => CDO_TOKEN};
                #redo A;
              } else {
-               unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '!'};
+               unshift @{$self->{token}}, {type => EXCLAMATION_TOKEN};
                ## NOTE: |-| in |ident| in |IDENT|
                $self->{t} = {type => IDENT_TOKEN, value => '-'};
                $self->{state} = BEFORE_NMSTART_STATE;
-Line 277 
 sub get_next_token ($) {
+Line 283 
 sub get_next_token ($) {
                #redo A;
              }
            } else {
-             unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '!'};
+             unshift @{$self->{token}}, {type => EXCLAMATION_TOKEN};
              $self->{state} = BEFORE_TOKEN_STATE;
              #reprocess
              return {type => DELIM_TOKEN, value => '<'};
-Line 290 
 sub get_next_token ($) {
+Line 296 
 sub get_next_token ($) {
            #redo A;
          }
        } elsif (my $t = {
-x003B => SEMICOLON_TOKEN, # ;
+x0021 => EXCLAMATION_TOKEN, # !
-x007B => LBRACE_TOKEN, # {
+x002D => MINUS_TOKEN, # -
-x007D => RBRACE_TOKEN, # }
+x002E => DOT_TOKEN, # .
-x0028 => LPAREN_TOKEN, # (
+x003A => COLON_TOKEN, # :
-x0029 => RPAREN_TOKEN, # )
+x003B => SEMICOLON_TOKEN, # ;
-x005B => LBRACKET_TOKEN, # [
+x003D => MATCH_TOKEN, # =
-x005D => RBRACKET_TOKEN, # ]
+x007B => LBRACE_TOKEN, # {
+x007D => RBRACE_TOKEN, # }
+x0028 => LPAREN_TOKEN, # (
+x0029 => RPAREN_TOKEN, # )
+x005B => LBRACKET_TOKEN, # [
+x005D => RBRACKET_TOKEN, # ]
                 }->{$self->{c}}) {
          # stay in the state
          $self->{c} = $self->{get_char}->();
-Line 349 
 sub get_next_token ($) {
+Line 360 
 sub get_next_token ($) {
            $self->{c} = $self->{get_char}->();
            return {type => $v};
            #redo A;
+         } elsif ($v = {
+x002A => STAR_TOKEN, # *
+x007C => VBAR_TOKEN, # |
+                       }->{$c}) {
+           # stay in the state.
+           # reprocess
+           return {type => $v};
+           #redo A;
          } else {
            # stay in the state
            # reprocess
-Line 409 
 sub get_next_token ($) {
+Line 428 
 sub get_next_token ($) {
          $self->{c} = $self->{get_char}->();
          redo A;
        } elsif ($self->{c} == 0x005C) { # \
- ## TODO: 12-\X, 12-\{nl}
          $self->{state} = ESCAPE_OPEN_STATE; $q = 0;
          $self->{c} = $self->{get_char}->();
          redo A;
-       } elsif ($self->{c} == 0x002D and # -
+       } elsif ($self->{c} == 0x002D) { # -
-                $self->{t}->{type} == IDENT_TOKEN) {
+         if ($self->{t}->{type} == IDENT_TOKEN) {
-         $self->{c} = $self->{get_char}->();
-         if ($self->{c} == 0x003E) { # >
-           $self->{state} = BEFORE_TOKEN_STATE;
            $self->{c} = $self->{get_char}->();
-           return {type => CDC_TOKEN};
+           if ($self->{c} == 0x003E) { # >
-           #redo A;
+             $self->{state} = BEFORE_TOKEN_STATE;
+             $self->{c} = $self->{get_char}->();
+             return {type => CDC_TOKEN};
+             #redo A;
+           } else {
+             ## NOTE: |-|, |-|, $self->{c}
+             #$self->{t} = {type => IDENT_TOKEN, value => '-'};
+             # stay in the state
+             # reconsume
+             return {type => MINUS_TOKEN};
+             #redo A;
+           }
+         } elsif ($self->{t}->{type} == DIMENSION_TOKEN) {
+           $self->{c} = $self->{get_char}->();
+           if ($self->{c} == 0x003E) { # >
+             unshift @{$self->{token}}, {type => CDC_TOKEN};
+             $self->{t}->{type} = NUMBER_TOKEN;
+             $self->{t}->{value} = '';
+             $self->{state} = BEFORE_TOKEN_STATE;
+             $self->{c} = $self->{get_char}->();
+             return $self->{t};
+             #redo A;
+           } else {
+             ## NOTE: |-|, |-|, $self->{c}
+             my $t = $self->{t};
+             $t->{type} = NUMBER_TOKEN;
+             $t->{value} = '';
+             $self->{t} = {type => IDENT_TOKEN, value => '-', hyphen => 1};
+             unshift @{$self->{token}}, {type => MINUS_TOKEN};
+             # stay in the state
+             # reconsume
+             return $t;
+             #redo A;
+           }
          } else {
-           ## NOTE: |-|, |-|, $self->{c}
+           #
-           #$self->{t} = {type => IDENT_TOKEN, value => '-'};
-           # stay in the state
-           # reconsume
-           return {type => DELIM_TOKEN, value => '-'};
-           #redo A;
          }
        } else {
-         if ($self->{t}->{type} == NUMBER_TOKEN) {
+         #
-           ## NOTE: |-| after |NUMBER|.
+       }
-           unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '-'};
-           $self->{state} = BEFORE_TOKEN_STATE;
+       if ($self->{t}->{type} == DIMENSION_TOKEN) {
-           # reconsume
+         ## NOTE: |-| after |NUMBER|.
-           $self->{t}->{value} = $self->{t}->{number};
+         unshift @{$self->{token}}, {type => MINUS_TOKEN};
-           delete $self->{t}->{number};
+         $self->{state} = BEFORE_TOKEN_STATE;
-           return $self->{t};
+         # reprocess
-         } else {
+         $self->{t}->{type} = NUMBER_TOKEN;
-           ## NOTE: |-| not followed by |nmstart|.
+         $self->{t}->{value} = '';
-           $self->{state} = BEFORE_TOKEN_STATE;
+         return $self->{t};
-           $self->{c} = $self->{get_char}->();
+       } else {
-           return {type => DELIM_TOKEN, value => '-'};
+         ## NOTE: |-| not followed by |nmstart|.
-         }
+         $self->{state} = BEFORE_TOKEN_STATE;
+         # reprocess
+         return {type => MINUS_TOKEN};
        }
      } elsif ($self->{state} == AFTER_AT_STATE) {
        if ((0x0041 <= $self->{c} and $self->{c} <= 0x005A) or # A..Z
-Line 486 
 sub get_next_token ($) {
+Line 531 
 sub get_next_token ($) {
            return {type => DELIM_TOKEN, value => '@'};
            #redo A;
          } else {
-           unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '-'};
+           unshift @{$self->{token}}, {type => MINUS_TOKEN};
            $self->{t} = {type => IDENT_TOKEN, value => '-'};
            $self->{state} = BEFORE_NMSTART_STATE;
            # reprocess
-Line 499 
 sub get_next_token ($) {
+Line 544 
 sub get_next_token ($) {
          $self->{c} = $self->{get_char}->();
          redo A;
        } else {
-         unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '-'};
+         unshift @{$self->{token}}, {type => MINUS_TOKEN};
          $self->{state} = BEFORE_TOKEN_STATE;
          # reprocess
          return {type => DELIM_TOKEN, value => '@'};
-Line 507 
 sub get_next_token ($) {
+Line 552 
 sub get_next_token ($) {
      } elsif ($self->{state} == AFTER_NUMBER_STATE) {
        if ($self->{c} == 0x002D) { # -
          ## NOTE: |-| in |ident|.
+         $self->{t}->{hyphen} = 1;
          $self->{t}->{value} = '-';
+         $self->{t}->{type} = DIMENSION_TOKEN;
          $self->{state} = BEFORE_NMSTART_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
-Line 524 
 sub get_next_token ($) {
+Line 571 
 sub get_next_token ($) {
        } elsif ($self->{c} == 0x005C) { # \
          ## NOTE: |nmstart| in |ident| in |IDENT|
          $self->{t}->{value} = '';
+         $self->{t}->{type} = DIMENSION_TOKEN;
          $self->{state} = ESCAPE_OPEN_STATE; $q = 0;
          $self->{c} = $self->{get_char}->();
          redo A;
-Line 557 
 sub get_next_token ($) {
+Line 605 
 sub get_next_token ($) {
          redo A;
        } else {
          $self->{state} = BEFORE_TOKEN_STATE;
-         $self->{c} = $self->{get_char}->();
+         # reprocess
          return {type => DELIM_TOKEN, value => '#'};
          #redo A;
        }
-Line 766 
 sub get_next_token ($) {
+Line 814 
 sub get_next_token ($) {
          redo A;
        } elsif (0x0061 <= $self->{c} and $self->{c} <= 0x0066) { # a..f
          ## NOTE: second character of |unicode| in |escape|.
-         $char = $self->{c} - 0x0061 - 0xA;
+         $char = $self->{c} - 0x0061 + 0xA;
          $self->{state} = ESCAPE_STATE; $i = 2;
          $self->{c} = $self->{get_char}->();
          redo A;
        } elsif ($self->{c} == 0x000A or # \n
                 $self->{c} == 0x000C) { # \f
          if ($q == 0) {
-           ## NOTE: In |escape| in ... in |ident|.
+           #
-           $self->{state} = BEFORE_TOKEN_STATE;
-           unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '\\'};
-           return $self->{t};
-           # reconsume
-           #redo A;
          } elsif ($q == 1) {
            ## NOTE: In |escape| in |URI|.
            $self->{t}->{type} = {
-Line 800 
 sub get_next_token ($) {
+Line 843 
 sub get_next_token ($) {
          }
        } elsif ($self->{c} == 0x000D) { # \r
          if ($q == 0) {
-           ## NOTE: In |escape| in ... in |ident|.
+           #
-           $self->{state} = BEFORE_TOKEN_STATE;
-           unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '\\'};
-           return $self->{t};
-           # reconsume
-           #redo A;
          } elsif ($q == 1) {
+           ## NOTE: In |escape| in |URI|.
            $self->{t}->{type} = {
                URI_TOKEN, URI_INVALID_TOKEN,
                URI_INVALID_TOKEN, URI_INVALID_TOKEN,
                URI_PREFIX_TOKEN, URI_PREFIX_INVALID_TOKEN,
                URI_PREFIX_INVALID_TOKEN, URI_PREFIX_INVALID_TOKEN,
            }->{$self->{t}->{type}};
-           $self->{t}->{value} .= "\x0D\x0A";
+           $self->{t}->{value} .= "\x0D";
-           $self->{state} = URI_UNQUOTED_STATE;
+           $self->{state} = ESCAPE_BEFORE_LF_STATE;
            $self->{c} = $self->{get_char}->();
            redo A;
          } else {
            ## Note: In |nl| in ... in |string| or |ident|.
-           $self->{t}->{value} .= "\x0D\x0A";
+           $self->{t}->{value} .= "\x0D";
            $self->{state} = ESCAPE_BEFORE_LF_STATE;
            $self->{c} = $self->{get_char}->();
            redo A;
          }
+       } elsif ($self->{c} == -1) {
+         #
        } else {
          ## NOTE: second character of |escape|.
          $self->{t}->{value} .= chr $self->{c};
-Line 832 
 sub get_next_token ($) {
+Line 873 
 sub get_next_token ($) {
          $self->{c} = $self->{get_char}->();
          redo A;
        }
+       if ($q == 0) {
+         if ($self->{t}->{type} == DIMENSION_TOKEN) {
+           if ($self->{t}->{hyphen} and $self->{t}->{value} eq '-') {
+             $self->{state} = BEFORE_TOKEN_STATE;
+             # reprocess
+             unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '\\'};
+             unshift @{$self->{token}}, {type => MINUS_TOKEN};
+             $self->{t}->{type} = NUMBER_TOKEN;
+             $self->{t}->{value} = '';
+             return $self->{t};
+             #redo A;
+           } elsif (length $self->{t}->{value}) {
+             $self->{state} = BEFORE_TOKEN_STATE;
+             # reprocess
+             unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '\\'};
+             return $self->{t};
+             #redo A;
+           } else {
+             $self->{state} = BEFORE_TOKEN_STATE;
+             # reprocess
+             unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '\\'};
+             $self->{t}->{type} = NUMBER_TOKEN;
+             $self->{t}->{value} = '';
+             return $self->{t};
+             #redo A;
+           }
+         } else {
+           if ($self->{t}->{hyphen} and $self->{t}->{value} eq '-') {
+             $self->{state} = BEFORE_TOKEN_STATE;
+             # reprocess
+             unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '\\'};
+             return {type => MINUS_TOKEN};
+             #redo A;
+           } elsif (length $self->{t}->{value}) {
+             $self->{state} = BEFORE_TOKEN_STATE;
+             # reprocess
+             unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '\\'};
+             return $self->{t};
+             #redo A;
+           } else {
+             $self->{state} = BEFORE_TOKEN_STATE;
+             # reprocess
+             return {type => DELIM_TOKEN, value => '\\'};
+             #redo A;
+           }
+         }
+       } elsif ($q == 1) {
+         $self->{state} = URI_UNQUOTED_STATE;
+         $self->{c} = $self->{get_char}->();
+         redo A;
+       } else {
+         unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '\\'};
+         $self->{t}->{type} = {
+           STRING_TOKEN, INVALID_TOKEN,
+           URI_TOKEN, URI_INVALID_TOKEN,
+           URI_PREFIX_TOKEN, URI_PREFIX_INVALID_TOKEN,
+         }->{$self->{t}->{type}} || $self->{t}->{type};
+         $self->{state} = BEFORE_TOKEN_STATE;
+         # reprocess
+         return $self->{t};
+         #redo A;
+       }
      } elsif ($self->{state} == ESCAPE_STATE) {
        ## NOTE: third..seventh character of |unicode| in |escape|.
        if (0x0030 <= $self->{c} and $self->{c} <= 0x0039) { # 0..9
-Line 845 
 sub get_next_token ($) {
+Line 949 
 sub get_next_token ($) {
          $self->{c} = $self->{get_char}->();
          redo A;
        } elsif (0x0061 <= $self->{c} and $self->{c} <= 0x0066) { # a..f
-         $char = $char * 0x10 + $self->{c} - 0x0061 - 0xA;
+         $char = $char * 0x10 + $self->{c} - 0x0061 + 0xA;
          $self->{state} = ++$i == 7 ? ESCAPE_BEFORE_NL_STATE : ESCAPE_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
-Line 894 
 sub get_next_token ($) {
+Line 998 
 sub get_next_token ($) {
      } elsif ($self->{state} == ESCAPE_BEFORE_LF_STATE) {
        ## NOTE: |\n| in |\r\n| in |unicode| in |escape|.
        if ($self->{c} == 0x000A) { # \n
-         $self->{t}->{value} .= chr $char;
+         $self->{t}->{value} .= chr $self->{c};
          $self->{state} = $q == 0 ? NAME_STATE :
              $q == 1 ? URI_UNQUOTED_STATE : STRING_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
        } else {
-         $self->{t}->{value} .= chr $char;
          $self->{state} = $q == 0 ? NAME_STATE :
              $q == 1 ? URI_UNQUOTED_STATE : STRING_STATE;
-         # reconsume
+         # reprocess
          redo A;
        }
      } elsif ($self->{state} == STRING_STATE) {
-Line 930 
 sub get_next_token ($) {
+Line 1033 
 sub get_next_token ($) {
                 $self->{c} == 0x000D or # \r
                 $self->{c} == 0x000C or # \f
                 $self->{c} == -1) {
-         $self->{t}->{type} = INVALID_TOKEN;
+         $self->{t}->{type} = {
+           STRING_TOKEN, INVALID_TOKEN,
+           INVALID_TOKEN, INVALID_TOKEN,
+           URI_TOKEN, URI_INVALID_TOKEN,
+           URI_INVALID_TOKEN, URI_INVALID_TOKEN,
+           URI_PREFIX_TOKEN, URI_PREFIX_INVALID_TOKEN,
+           URI_PREFIX_INVALID_TOKEN, URI_PREFIX_INVALID_TOKEN,
+         }->{$self->{t}->{type}};
          $self->{state} = BEFORE_TOKEN_STATE;
          # reconsume
          return $self->{t};
-Line 967 
 sub get_next_token ($) {
+Line 1077 
 sub get_next_token ($) {
          $self->{c} = $self->{get_char}->();
          redo A;
        } else {
-         unshift @{$self->{token}}, {type => DELIM_STATE, value => '.'};
+         unshift @{$self->{token}}, {type => DOT_TOKEN};
          $self->{t}->{number} = $self->{t}->{value};
          $self->{t}->{value} = '';
          $self->{state} = BEFORE_TOKEN_STATE;
-Line 984 
 sub get_next_token ($) {
+Line 1094 
 sub get_next_token ($) {
          redo A;
        } else {
          $self->{state} = BEFORE_TOKEN_STATE;
-         $self->{c} = $self->{get_char}->();
+         # reprocess
-         return {type => DELIM_TOKEN, value => '.'};
+         return {type => DOT_TOKEN};
          #redo A;
        }
      } elsif ($self->{state} == NUMBER_DOT_NUMBER_STATE) {

 Legend:



Removed from v.1.5
 


changed lines


 
Added in v.1.13
 Legend:



Removed from v.1.5
 


changed lines


 
Added in v.1.13
-Removed from v.1.5
+Added in v.1.13

admin@suikawiki.org	ViewVC Help
Powered by ViewVC 1.1.24