/[suikacvs]/markup/html/whatpm/Whatpm/CSS/Tokenizer.pm

Diff of /markup/html/whatpm/Whatpm/CSS/Tokenizer.pm

Parent Directory | Revision Log | View Patch Patch

-revision 1.1 by wakaba,
Fri Aug 17 11:53:52 2007 UTC
+revision 1.6 by wakaba,
Sat Sep  8 05:57:05 2007 UTC
 Line 1
  package Whatpm::CSS::Tokenizer;
  use strict;
+ sub BEFORE_TOKEN_STATE () { 0 }
+ sub BEFORE_NMSTART_STATE () { 1 }
+ sub NAME_STATE () { 2 }
+ sub ESCAPE_OPEN_STATE () { 3 }
+ sub STRING_STATE () { 4 }
+ sub HASH_OPEN_STATE () { 5 }
+ sub NUMBER_STATE () { 6 }
+ sub NUMBER_FRACTION_STATE () { 7 }
+ sub AFTER_NUMBER_STATE () { 8 }
+ sub URI_BEFORE_WSP_STATE () { 9 }
+ sub ESCAPE_STATE () { 10 }
+ sub ESCAPE_BEFORE_LF_STATE () { 11 }
+ sub ESCAPE_BEFORE_NL_STATE () { 12 }
+ sub NUMBER_DOT_STATE () { 13 }
+ sub NUMBER_DOT_NUMBER_STATE () { 14 }
+ sub DELIM_STATE () { 15 }
+ sub URI_UNQUOTED_STATE () { 16 }
+ sub URI_AFTER_WSP_STATE () { 17 }
+ sub AFTER_AT_STATE () { 18 }
+ sub AFTER_AT_HYPHEN_STATE () { 19 }
+ sub IDENT_TOKEN () { 1 }
+ sub ATKEYWORD_TOKEN () { 2 }
+ sub HASH_TOKEN () { 3 }
+ sub FUNCTION_TOKEN () { 4 }
+ sub URI_TOKEN () { 5 }
+ sub URI_INVALID_TOKEN () { 6 }
+ sub URI_PREFIX_TOKEN () { 7 }
+ sub URI_PREFIX_INVALID_TOKEN () { 8 }
+ sub STRING_TOKEN () { 9 }
+ sub INVALID_TOKEN () { 10 }
+ sub NUMBER_TOKEN () { 11 }
+ sub DIMENSION_TOKEN () { 12 }
+ sub PERCENTAGE_TOKEN () { 13 }
+ sub UNICODE_RANGE_TOKEN () { 14 }
+ sub DELIM_TOKEN () { 16 }
+ sub PLUS_TOKEN () { 17 }
+ sub GREATER_TOKEN () { 18 }
+ sub COMMA_TOKEN () { 19 }
+ sub TILDE_TOKEN () { 20 }
+ sub DASHMATCH_TOKEN () { 21 }
+ sub PREFIXMATCH_TOKEN () { 22 }
+ sub SUFFIXMATCH_TOKEN () { 23 }
+ sub SUBSTRINGMATCH_TOKEN () { 24 }
+ sub INCLUDES_TOKEN () { 25 }
+ sub SEMICOLON_TOKEN () { 26 }
+ sub LBRACE_TOKEN () { 27 }
+ sub RBRACE_TOKEN () { 28 }
+ sub LPAREN_TOKEN () { 29 }
+ sub RPAREN_TOKEN () { 30 }
+ sub LBRACKET_TOKEN () { 31 }
+ sub RBRACKET_TOKEN () { 32 }
+ sub S_TOKEN () { 33 }
+ sub CDO_TOKEN () { 34 }
+ sub CDC_TOKEN () { 35 }
+ sub COMMENT_TOKEN () { 36 }
+ sub COMMENT_INVALID_TOKEN () { 37 }
+ sub EOF_TOKEN () { 38 }
+ our @TokenName = qw(
+IDENT ATKEYWORD HASH FUNCTION URI URI_INVALID URI_PREFIX URI_PREFIX_INVALID
+   STRING INVALID NUMBER DIMENSION PERCENTAGE UNICODE_RANGE
+DELIM PLUS GREATER COMMA TILDE DASHMATCH
+   PREFIXMATCH SUFFIXMATCH SUBSTRINGMATCH INCLUDES SEMICOLON
+   LBRACE RBRACE LPAREN RPAREN LBRACKET RBRACKET S CDO CDC COMMENT
+   COMMENT_INVALID EOF
+ );
  sub new ($) {
-   my $self = bless {token => []}, shift;
+   my $self = bless {token => [], get_char => sub { -1 },
+                     onerror => sub { }}, shift;
    return $self;
  } # new
-Line 10 
 sub init ($) {
+Line 79 
 sub init ($) {
    my $self = shift;
    $self->{state} = BEFORE_TOKEN_STATE;
    $self->{c} = $self->{get_char}->();
+   #$self->{t} = {type => token-type, value => value, number => number};
  } # init
  sub get_next_token ($) {
-Line 18 
 sub get_next_token ($) {
+Line 88 
 sub get_next_token ($) {
      return shift @{$self->{token}};
    }
-   my $current_token;
    my $char;
    my $num; # |{num}|, if any.
    my $i; # |$i + 1|th character in |unicode| in |escape|.
-   my $q; # |$q == 0 ? "in |ident|" : "in |string$q| or in |invalid$q|"|
+   my $q;
+       ## NOTE:
+       ##   0: in |ident|.
+       ##   1: in |URI| outside of |string|.
+       ##   0x0022: in |string1| or |invalid1|.
+       ##   0x0027: in |string2| or |invalid2|.
    A: {
      if ($self->{state} == BEFORE_TOKEN_STATE) {
        if ($self->{c} == 0x002D) { # -
          ## NOTE: |-| in |ident| in |IDENT|
-         $current_token = {type => IDENT_TOKEN, value => '-'};
+         $self->{t} = {type => IDENT_TOKEN, value => '-'};
          $self->{state} = BEFORE_NMSTART_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
-       } elsif ((0x0041 <= $self->{c} or $self->{c} <= 0x005A) or # A..Z
+       } elsif ($self->{c} == 0x0055 or $self->{c} == 0x0075) { # U or u
-                (0x0061 <= $self->{c} or $self->{c} <= 0x007A) or # a..z
+         $self->{t} = {type => IDENT_TOKEN, value => chr $self->{c}};
+         $self->{c} = $self->{get_char}->();
+         if ($self->{c} == 0x002B) { # +
+           $self->{c} = $self->{get_char}->();
+           if ((0x0030 <= $self->{c} and $self->{c} <= 0x0039) or # 0..9
+               (0x0041 <= $self->{c} and $self->{c} <= 0x0046) or # A..F
+               (0x0061 <= $self->{c} and $self->{c} <= 0x0066) or # a..f
+               $self->{c} == 0x003F) { # ?
+             $self->{t}->{value} .= '+' . chr $self->{c};
+             $self->{t}->{type} = UNICODE_RANGE_TOKEN;
+             $self->{c} = $self->{get_char}->();
+             C: for (2..6) {
+               if ((0x0030 <= $self->{c} and $self->{c} <= 0x0039) or # 0..9
+                   (0x0041 <= $self->{c} and $self->{c} <= 0x0046) or # A..F
+                   (0x0061 <= $self->{c} and $self->{c} <= 0x0066) or # a..f
+                   $self->{c} == 0x003F) { # ?
+                 $self->{t}->{value} .= chr $self->{c};
+                 $self->{c} = $self->{get_char}->();
+               } else {
+                 last C;
+               }
+             } # C
+             if ($self->{c} == 0x002D) { # -
+               $self->{c} = $self->{get_char}->();
+               if ((0x0030 <= $self->{c} and $self->{c} <= 0x0039) or # 0..9
+                   (0x0041 <= $self->{c} and $self->{c} <= 0x0046) or # A..F
+                   (0x0061 <= $self->{c} and $self->{c} <= 0x0066)) { # a..f
+                 $self->{t}->{value} .= '-' . chr $self->{c};
+                 $self->{c} = $self->{get_char}->();
+                 C: for (2..6) {
+                   if ((0x0030 <= $self->{c} and $self->{c} <= 0x0039) or # 0..9
+                       (0x0041 <= $self->{c} and $self->{c} <= 0x0046) or # A..F
+                       (0x0061 <= $self->{c} and $self->{c} <= 0x0066)) { # a..f
+                     $self->{t}->{value} .= chr $self->{c};
+                     $self->{c} = $self->{get_char}->();
+                   } else {
+                     last C;
+                   }
+                 } # C
+                 #
+               } else {
+                 my $token = $self->{t};
+                 $self->{t} = {type => IDENT_TOKEN, value => '-'};
+                 $self->{state} = BEFORE_NMSTART_STATE;
+                 # reprocess
+                 return $token;
+                 #redo A;
+               }
+             }
+             $self->{state} = BEFORE_TOKEN_STATE;
+             # reprocess
+             return $self->{t};
+             #redo A;
+           } else {
+             unshift @{$self->{token}}, {type => PLUS_TOKEN};
+             $self->{state} = BEFORE_TOKEN_STATE;
+             # reprocess
+             return $self->{t};
+             #redo A;
+           }
+         } else {
+           $self->{state} = NAME_STATE;
+           # reprocess
+           redo A;
+         }
+       } elsif ((0x0041 <= $self->{c} and $self->{c} <= 0x005A) or # A..Z
+                (0x0061 <= $self->{c} and $self->{c} <= 0x007A) or # a..z
                 $self->{c} == 0x005F or # _
                 $self->{c} > 0x007F) { # nonascii
          ## NOTE: |nmstart| in |ident| in |IDENT|
-         $current_token = {type => IDENT_TOKEN, value => chr $self->{char}};
+         $self->{t} = {type => IDENT_TOKEN, value => chr $self->{c}};
          $self->{state} = NAME_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
        } elsif ($self->{c} == 0x005C) { # \
          ## NOTE: |nmstart| in |ident| in |IDENT|
-         $current_token = {type => IDENT_TOKEN, value => ''};
+         $self->{t} = {type => IDENT_TOKEN, value => ''};
          $self->{state} = ESCAPE_OPEN_STATE; $q = 0;
          $self->{c} = $self->{get_char}->();
          redo A;
        } elsif ($self->{c} == 0x0040) { # @
          ## NOTE: |@| in |ATKEYWORD|
-         $current_token = {type => ATKEYWORD_TOKEN, value => ''};
+         $self->{t} = {type => ATKEYWORD_TOKEN, value => ''};
-         $self->{state} = BEFORE_NMSTART_STATE;
+         $self->{state} = AFTER_AT_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
-       } elsif ($self->{c} == 0x0022) { # "
+       } elsif ($self->{c} == 0x0022 or $self->{c} == 0x0027) { # " or '
-         ## NOTE: |"| in |string1| in |string| in |STRING|, or
+         $self->{t} = {type => STRING_TOKEN, value => ''};
-         ## |"| in |invalid1| in |invalid| in |INVALID|.
+         $self->{state} = STRING_STATE; $q = $self->{c};
-         $current_token = {type => STRING_TOKEN, value => ''};
-         $self->{state} = STRING_STATE; $q = 1;
-         $self->{c} = $self->{get_char}->();
-         redo A;
-       } elsif ($self->{c} == 0x0027) { # '
-         ## NOTE: |'| in |string2| in |string| in |STRING|, or
-         ## |'| in |invalid2| in |invalid| in |INVALID|.
-         $current_token = {type => STRING_TOKEN, value => ''};
-         $self->{state} = STRING_STATE; $q = 2;
          $self->{c} = $self->{get_char}->();
          redo A;
        } elsif ($self->{c} == 0x0023) { # #
          ## NOTE: |#| in |HASH|.
-         $current_token = {type => HASH_TOKEN, value => ''};
+         $self->{t} = {type => HASH_TOKEN, value => ''};
          $self->{state} = HASH_OPEN_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
        } elsif (0x0030 <= $self->{c} and $self->{c} <= 0x0039) { # 0..9
          ## NOTE: |num|.
-         $current_token = {type => NUMBER_TOKEN, value => chr $self->{c}};
+         $self->{t} = {type => NUMBER_TOKEN, value => chr $self->{c}};
          $self->{state} = NUMBER_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
        } elsif ($self->{c} == 0x002E) { # .
          ## NOTE: |num|.
-         $current_token = {type => NUMBER_TOKEN, value => '.'};
+         $self->{t} = {type => NUMBER_TOKEN, value => '0'};
          $self->{state} = NUMBER_FRACTION_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
+       } elsif ($self->{c} == 0x002F) { # /
+         $self->{c} = $self->{get_char}->();
+         if ($self->{c} == 0x002A) { # *
+           C: {
+             $self->{c} = $self->{get_char}->();
+             if ($self->{c} == 0x002A) { # *
+               D: {
+                 $self->{c} = $self->{get_char}->();
+                 if ($self->{c} == 0x002F) { # /
+                   #
+                 } elsif ($self->{c} == 0x002A) { # *
+                   redo D;
+                 } else {
+                   redo C;
+                 }
+               } # D
+             } elsif ($self->{c} == -1) {
+               # stay in the state
+               # reprocess
+               return {type => COMMENT_INVALID_TOKEN};
+               #redo A;
+             } else {
+               redo C;
+             }
+           } # C
+           # stay in the state.
+           $self->{c} = $self->{get_char}->();
+           redo A;
+         } else {
+           # stay in the state.
+           # reprocess
+           return {type => DELIM_STATE, value => '/'};
+           #redo A;
+         }
        } elsif ($self->{c} == 0x003C) { # <
          ## NOTE: |CDO|
          $self->{c} = $self->{get_char}->();
-Line 100 
 sub get_next_token ($) {
+Line 269 
 sub get_next_token ($) {
              } else {
                unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '!'};
                ## NOTE: |-| in |ident| in |IDENT|
-               $current_token = {type => IDENT_TOKEN, value => '-'};
+               $self->{t} = {type => IDENT_TOKEN, value => '-'};
                $self->{state} = BEFORE_NMSTART_STATE;
                #reprocess
                return {type => DELIM_TOKEN, value => '<'};
-Line 119 
 sub get_next_token ($) {
+Line 288 
 sub get_next_token ($) {
            return {type => DELIM_TOKEN, value => '<'};
            #redo A;
          }
-       } elsif ({
+       } elsif (my $t = {
-x003B => 1, # ;
+x003B => SEMICOLON_TOKEN, # ;
-x007B => 1, # {
+x007B => LBRACE_TOKEN, # {
-x007D => 1, # }
+x007D => RBRACE_TOKEN, # }
-x0028 => 1, # (
+x0028 => LPAREN_TOKEN, # (
-x0029 => 1, # )
+x0029 => RPAREN_TOKEN, # )
-x005B => 1, # [
+x005B => LBRACKET_TOKEN, # [
-x005D => 1, # ]
+x005D => RBRACKET_TOKEN, # ]
                 }->{$self->{c}}) {
          # stay in the state
          $self->{c} = $self->{get_char}->();
-         return {type => chr $self->{c}};
+         return {type => $t};
          # redo A;
        } elsif ({
 x0020 => 1, # SP
-Line 172 
 sub get_next_token ($) {
+Line 341 
 sub get_next_token ($) {
 x0024 => SUFFIXMATCH_TOKEN, # $
 x002A => SUBSTRINGMATCH_TOKEN, # *
                         }->{$self->{c}}) {
+         my $c = $self->{c};
          $self->{c} = $self->{get_char}->();
          if ($self->{c} == 0x003D) { # =
            # stay in the state
-Line 181 
 sub get_next_token ($) {
+Line 351 
 sub get_next_token ($) {
          } else {
            # stay in the state
            # reprocess
-           return {type => DELIM_TOKEN, value => chr $self->{c}};
+           return {type => DELIM_TOKEN, value => chr $c};
            #redo A;
          }
        } elsif ($self->{c} == 0x002B) { # +
-Line 219 
 sub get_next_token ($) {
+Line 389 
 sub get_next_token ($) {
          #redo A;
        } else {
          # stay in the state
-         $current_token = {type => DELIM_TOKEN, value => chr $self->{c}};
+         $self->{t} = {type => DELIM_TOKEN, value => chr $self->{c}};
          $self->{c} = $self->{get_char}->();
-         return $current_token;
+         return $self->{t};
          #redo A;
        }
      } elsif ($self->{state} == BEFORE_NMSTART_STATE) {
-       ## NOTE: |nmstart| in |ident| in (|IDENT| or |ATKEYWORD|)
+       ## NOTE: |nmstart| in |ident| in (|IDENT|, |DIMENSION|, or
-       if ((0x0041 <= $self->{c} or $self->{c} <= 0x005A) or # A..Z
+       ## |FUNCTION|)
-           (0x0061 <= $self->{c} or $self->{c} <= 0x007A) or # a..z
+       if ((0x0041 <= $self->{c} and $self->{c} <= 0x005A) or # A..Z
+           (0x0061 <= $self->{c} and $self->{c} <= 0x007A) or # a..z
            $self->{c} == 0x005F or # _
            $self->{c} > 0x007F) { # nonascii
-         $current_token->{value} .= chr $self->{char};
+         $self->{t}->{value} .= chr $self->{c};
+         $self->{t}->{type} = DIMENSION_TOKEN
+             if $self->{t}->{type} == NUMBER_TOKEN;
          $self->{state} = NAME_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
        } elsif ($self->{c} == 0x005C) { # \
+ ## TODO: 12-\X, 12-\{nl}
          $self->{state} = ESCAPE_OPEN_STATE; $q = 0;
          $self->{c} = $self->{get_char}->();
          redo A;
        } elsif ($self->{c} == 0x002D and # -
-                $current_token->{type} == IDENT_TOKEN) {
+                $self->{t}->{type} == IDENT_TOKEN) {
          $self->{c} = $self->{get_char}->();
          if ($self->{c} == 0x003E) { # >
            $self->{state} = BEFORE_TOKEN_STATE;
-Line 248 
 sub get_next_token ($) {
+Line 422 
 sub get_next_token ($) {
            #redo A;
          } else {
            ## NOTE: |-|, |-|, $self->{c}
-           #$current_token = {type => IDENT_TOKEN, value => '-'};
+           #$self->{t} = {type => IDENT_TOKEN, value => '-'};
            # stay in the state
            # reconsume
            return {type => DELIM_TOKEN, value => '-'};
            #redo A;
          }
        } else {
-         if ($current_token->{type} == NUMBER_TOKEN) {
+         if ($self->{t}->{type} == NUMBER_TOKEN) {
-           ## NOTE: |-| after |num|.
+           ## NOTE: |-| after |NUMBER|.
            unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '-'};
            $self->{state} = BEFORE_TOKEN_STATE;
-           $self->{c} = $self->{get_char}->();
+           # reconsume
-           return $current_token;
+           $self->{t}->{value} = $self->{t}->{number};
-         } elsif ($current_token->{type} == ATKEYWORD_TOKEN) {
+           delete $self->{t}->{number};
-           ## NOTE: |-| after |@|.
+           return $self->{t};
-           unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '@'};
-           $self->{state} = BEFORE_TOKEN_STATE;
-           $self->{c} = $self->{get_char}->();
-           return $current_token;
          } else {
            ## NOTE: |-| not followed by |nmstart|.
            $self->{state} = BEFORE_TOKEN_STATE;
-Line 274 
 sub get_next_token ($) {
+Line 444 
 sub get_next_token ($) {
            return {type => DELIM_TOKEN, value => '-'};
          }
        }
+     } elsif ($self->{state} == AFTER_AT_STATE) {
+       if ((0x0041 <= $self->{c} and $self->{c} <= 0x005A) or # A..Z
+           (0x0061 <= $self->{c} and $self->{c} <= 0x007A) or # a..z
+           $self->{c} == 0x005F or # _
+           $self->{c} > 0x007F) { # nonascii
+         $self->{t}->{value} .= chr $self->{c};
+         $self->{state} = NAME_STATE;
+         $self->{c} = $self->{get_char}->();
+         redo A;
+       } elsif ($self->{c} == 0x002D) { # -
+         $self->{t}->{value} .= '-';
+         $self->{state} = AFTER_AT_HYPHEN_STATE;
+         $self->{c} = $self->{get_char}->();
+         redo A;
+       } elsif ($self->{c} == 0x005C) { # \
+         $self->{state} = ESCAPE_OPEN_STATE; $q = 0;
+         $self->{c} = $self->{get_char}->();
+         redo A;
+       } else {
+         $self->{state} = BEFORE_TOKEN_STATE;
+         # reprocess
+         return {type => DELIM_TOKEN, value => '@'};
+       }
+     } elsif ($self->{state} == AFTER_AT_HYPHEN_STATE) {
+       if ((0x0041 <= $self->{c} and $self->{c} <= 0x005A) or # A..Z
+           (0x0061 <= $self->{c} and $self->{c} <= 0x007A) or # a..z
+           $self->{c} == 0x005F or # _
+           $self->{c} > 0x007F) { # nonascii
+         $self->{t}->{value} .= chr $self->{c};
+         $self->{state} = NAME_STATE;
+         $self->{c} = $self->{get_char}->();
+         redo A;
+       } elsif ($self->{c} == 0x002D) { # -
+         $self->{c} = $self->{get_char}->();
+         if ($self->{c} == 0x003E) { # >
+           unshift @{$self->{token}}, {type => CDC_TOKEN};
+           $self->{state} = BEFORE_TOKEN_STATE;
+           $self->{c} = $self->{get_char}->();
+           return {type => DELIM_TOKEN, value => '@'};
+           #redo A;
+         } else {
+           unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '-'};
+           $self->{t} = {type => IDENT_TOKEN, value => '-'};
+           $self->{state} = BEFORE_NMSTART_STATE;
+           # reprocess
+           return {type => DELIM_TOKEN, value => '@'};
+           #redo A;
+         }
+       } elsif ($self->{c} == 0x005C) { # \
+         ## TODO: @-\{nl}
+         $self->{state} = ESCAPE_OPEN_STATE; $q = 0;
+         $self->{c} = $self->{get_char}->();
+         redo A;
+       } else {
+         unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '-'};
+         $self->{state} = BEFORE_TOKEN_STATE;
+         # reprocess
+         return {type => DELIM_TOKEN, value => '@'};
+       }
      } elsif ($self->{state} == AFTER_NUMBER_STATE) {
        if ($self->{c} == 0x002D) { # -
          ## NOTE: |-| in |ident|.
-         $current_token->{value} = '-';
+         $self->{t}->{value} = '-';
          $self->{state} = BEFORE_NMSTART_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
-       } elsif ((0x0041 <= $self->{c} or $self->{c} <= 0x005A) or # A..Z
+       } elsif ((0x0041 <= $self->{c} and $self->{c} <= 0x005A) or # A..Z
-                (0x0061 <= $self->{c} or $self->{c} <= 0x007A) or # a..z
+                (0x0061 <= $self->{c} and $self->{c} <= 0x007A) or # a..z
                 $self->{c} == 0x005F or # _
                 $self->{c} > 0x007F) { # nonascii
          ## NOTE: |nmstart| in |ident|.
-         $current_token->{value} = chr $self->{char};
+         $self->{t}->{value} = chr $self->{c};
+         $self->{t}->{type} = DIMENSION_TOKEN;
          $self->{state} = NAME_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
        } elsif ($self->{c} == 0x005C) { # \
          ## NOTE: |nmstart| in |ident| in |IDENT|
-         $current_token->{value} = '';
+         $self->{t}->{value} = '';
          $self->{state} = ESCAPE_OPEN_STATE; $q = 0;
          $self->{c} = $self->{get_char}->();
          redo A;
        } elsif ($self->{c} == 0x0025) { # %
-         $current_token->{type} = PERCENTAGE_TOKEN;
+         $self->{t}->{type} = PERCENTAGE_TOKEN;
          $self->{state} = BEFORE_TOKEN_STATE;
          $self->{c} = $self->{get_char}->();
-         return $current_token;
+         return $self->{t};
          #redo A;
        } else {
          $self->{state} = BEFORE_TOKEN_STATE;
          # reprocess
-         return $current_token;
+         return $self->{t};
          #redo A;
        }
      } elsif ($self->{state} == HASH_OPEN_STATE) {
        ## NOTE: The first |nmchar| in |name| in |HASH|.
-       if ((0x0041 <= $self->{c} or $self->{c} <= 0x005A) or # A..Z
+       if ((0x0041 <= $self->{c} and $self->{c} <= 0x005A) or # A..Z
-           (0x0061 <= $self->{c} or $self->{c} <= 0x007A) or # a..z
+           (0x0061 <= $self->{c} and $self->{c} <= 0x007A) or # a..z
-           (0x0030 <= $self->{c} or $self->{c} <= 0x0039) or # 0..9
+           (0x0030 <= $self->{c} and $self->{c} <= 0x0039) or # 0..9
            $self->{c} == 0x002D or # -
            $self->{c} == 0x005F or # _
            $self->{c} > 0x007F) { # nonascii
-         $current_token->{value} .= chr $self->{char};
+         $self->{t}->{value} .= chr $self->{c};
          $self->{state} = NAME_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
-Line 332 
 sub get_next_token ($) {
+Line 562 
 sub get_next_token ($) {
        }
      } elsif ($self->{state} == NAME_STATE) {
        ## NOTE: |nmchar| in (|ident| or |name|).
-       if ((0x0041 <= $self->{c} or $self->{c} <= 0x005A) or # A..Z
+       if ((0x0041 <= $self->{c} and $self->{c} <= 0x005A) or # A..Z
-           (0x0061 <= $self->{c} or $self->{c} <= 0x007A) or # a..z
+           (0x0061 <= $self->{c} and $self->{c} <= 0x007A) or # a..z
-           (0x0030 <= $self->{c} or $self->{c} <= 0x0039) or # 0..9
+           (0x0030 <= $self->{c} and $self->{c} <= 0x0039) or # 0..9
            $self->{c} == 0x005F or # _
            $self->{c} == 0x002D or # -
            $self->{c} > 0x007F) { # nonascii
-         $current_token->{value} .= chr $self->{char};
+         $self->{t}->{value} .= chr $self->{c};
          # stay in the state
          $self->{c} = $self->{get_char}->();
          redo A;
        } elsif ($self->{c} == 0x005C) { # \
-         $self->{state} = ESCAPE_OPEN_STATE; # $q = 0;
+         $self->{state} = ESCAPE_OPEN_STATE; $q = 0;
          $self->{c} = $self->{get_char}->();
          redo A;
        } elsif ($self->{c} == 0x0028 and # (
-                $current_token->{type} == IDENT_TOKEN) { # (
+                $self->{t}->{type} == IDENT_TOKEN) { # (
-         if (not $current_token->{has_escape} and
+         my $func_name = $self->{t}->{value};
-             {url => 1, Url => 1, uRl => 1, urL => 1,
+         $func_name =~ tr/A-Z/a-z/; ## TODO: Unicode or ASCII case-insensitive?
-              URl => 1, UrL => 1, uRL => 1, URL => 1}
+         if ($func_name eq 'url' or $func_name eq 'url-prefix') {
-             ->{$current_token->{value}}) {
+           if ($self->{t}->{has_escape}) {
-           $current_token->{type} = URI_TOKEN;
+             ## TODO: warn
+           }
+           $self->{t}->{type}
+               = $func_name eq 'url' ? URI_TOKEN : URI_PREFIX_TOKEN;
+           $self->{t}->{value} = '';
            $self->{state} = URI_BEFORE_WSP_STATE;
            $self->{c} = $self->{get_char}->();
-           ## NOTE: This version of the tokenizer does not support the |URI|
-           ## token type.  Note that browsers disagree in how to tokenize
-           ## |url| function.
-           $current_token->{type} = FUNCTION_TOKEN;
-           $self->{state} = BEFORE_TOKEN_STATE;
-           $self->{c} = $self->{get_char}->();
-           return $current_token;
            redo A;
          } else {
-           $current_token->{type} = FUNCTION_TOKEN;
+           $self->{t}->{type} = FUNCTION_TOKEN;
            $self->{state} = BEFORE_TOKEN_STATE;
            $self->{c} = $self->{get_char}->();
-           return $current_token;
+           return $self->{t};
            #redo A;
          }
        } else {
          $self->{state} = BEFORE_TOKEN_STATE;
          # reconsume
-         return $current_token;
+         return $self->{t};
          #redo A;
        }
+     } elsif ($self->{state} == URI_BEFORE_WSP_STATE) {
+       while ({
+x0020 => 1, # SP
+x0009 => 1, # \t
+x000D => 1, # \r
+x000A => 1, # \n
+x000C => 1, # \f
+              }->{$self->{c}}) {
+         $self->{c} = $self->{get_char}->();
+       }
+       if ($self->{c} == -1) {
+         $self->{t}->{type} = {
+             URI_TOKEN, URI_INVALID_TOKEN,
+             URI_INVALID_TOKEN, URI_INVALID_TOKEN,
+             URI_PREFIX_TOKEN, URI_PREFIX_INVALID_TOKEN,
+             URI_PREFIX_INVALID_TOKEN, URI_PREFIX_INVALID_TOKEN,
+         }->{$self->{t}->{type}};
+         $self->{state} = BEFORE_TOKEN_STATE;
+         $self->{c} = $self->{get_char}->();
+         return $self->{t};
+         #redo A;
+       } elsif ($self->{c} < 0x0020 or $self->{c} == 0x0028) { # C0 or (
+         ## TODO: Should we consider matches of "(" and ")"?
+         $self->{t}->{type} = {
+             URI_TOKEN, URI_INVALID_TOKEN,
+             URI_INVALID_TOKEN, URI_INVALID_TOKEN,
+             URI_PREFIX_TOKEN, URI_PREFIX_INVALID_TOKEN,
+             URI_PREFIX_INVALID_TOKEN, URI_PREFIX_INVALID_TOKEN,
+         }->{$self->{t}->{type}};
+         $self->{state} = URI_UNQUOTED_STATE;
+         $self->{c} = $self->{get_char}->();
+         redo A;
+       } elsif ($self->{c} == 0x0022 or $self->{c} == 0x0027) { # " or '
+         $self->{state} = STRING_STATE; $q = $self->{c};
+         $self->{c} = $self->{get_char}->();
+         redo A;
+       } elsif ($self->{c} == 0x0029) { # )
+         $self->{state} = BEFORE_TOKEN_STATE;
+         $self->{c} = $self->{get_char}->();
+         return $self->{t};
+         #redo A;
+       } elsif ($self->{c} == 0x005C) { # \
+         $self->{state} = ESCAPE_OPEN_STATE; $q = 1;
+         $self->{c} = $self->{get_char}->();
+         redo A;
+       } else {
+         $self->{t}->{value} .= chr $self->{c};
+         $self->{state} = URI_UNQUOTED_STATE;
+         $self->{c} = $self->{get_char}->();
+         redo A;
+       }
+     } elsif ($self->{state} == URI_UNQUOTED_STATE) {
+       if ({
+x0020 => 1, # SP
+x0009 => 1, # \t
+x000D => 1, # \r
+x000A => 1, # \n
+x000C => 1, # \f
+           }->{$self->{c}}) {
+         $self->{state} = URI_AFTER_WSP_STATE;
+         $self->{c} = $self->{get_char}->();
+         redo A;
+       } elsif ($self->{c} == -1) {
+         $self->{t}->{type} = {
+             URI_TOKEN, URI_INVALID_TOKEN,
+             URI_INVALID_TOKEN, URI_INVALID_TOKEN,
+             URI_PREFIX_TOKEN, URI_PREFIX_INVALID_TOKEN,
+             URI_PREFIX_INVALID_TOKEN, URI_PREFIX_INVALID_TOKEN,
+         }->{$self->{t}->{type}};
+         $self->{state} = BEFORE_TOKEN_STATE;
+         $self->{c} = $self->{get_char}->();
+         return $self->{t};
+         #redo A;
+       } elsif ($self->{c} < 0x0020 or {
+x0022 => 1, # "
+x0027 => 1, # '
+x0028 => 1, # (
+       }->{$self->{c}}) { # C0 or (
+         ## TODO: Should we consider matches of "(" and ")", '"', or "'"?
+         $self->{t}->{type} = {
+             URI_TOKEN, URI_INVALID_TOKEN,
+             URI_INVALID_TOKEN, URI_INVALID_TOKEN,
+             URI_PREFIX_TOKEN, URI_PREFIX_INVALID_TOKEN,
+             URI_PREFIX_INVALID_TOKEN, URI_PREFIX_INVALID_TOKEN,
+         }->{$self->{t}->{type}};
+         # stay in the state.
+         $self->{c} = $self->{get_char}->();
+         redo A;
+       } elsif ($self->{c} == 0x0029) { # )
+         $self->{state} = BEFORE_TOKEN_STATE;
+         $self->{c} = $self->{get_char}->();
+         return $self->{t};
+         #redo A;
+       } elsif ($self->{c} == 0x005C) { # \
+         $self->{state} = ESCAPE_OPEN_STATE; $q = 1;
+         $self->{c} = $self->{get_char}->();
+         redo A;
+       } else {
+         $self->{t}->{value} .= chr $self->{c};
+         # stay in the state.
+         $self->{c} = $self->{get_char}->();
+         redo A;
+       }
+     } elsif ($self->{state} == URI_AFTER_WSP_STATE) {
+       if ({
+x0020 => 1, # SP
+x0009 => 1, # \t
+x000D => 1, # \r
+x000A => 1, # \n
+x000C => 1, # \f
+           }->{$self->{c}}) {
+         # stay in the state.
+         $self->{c} = $self->{get_char}->();
+         redo A;
+       } elsif ($self->{c} == -1) {
+         $self->{t}->{type} = {
+             URI_TOKEN, URI_INVALID_TOKEN,
+             URI_INVALID_TOKEN, URI_INVALID_TOKEN,
+             URI_PREFIX_TOKEN, URI_PREFIX_INVALID_TOKEN,
+             URI_PREFIX_INVALID_TOKEN, URI_PREFIX_INVALID_TOKEN,
+         }->{$self->{t}->{type}};
+         $self->{state} = BEFORE_TOKEN_STATE;
+         $self->{c} = $self->{get_char}->();
+         return $self->{t};
+         #redo A;
+       } elsif ($self->{c} == 0x0029) { # )
+         $self->{state} = BEFORE_TOKEN_STATE;
+         $self->{c} = $self->{get_char}->();
+         return $self->{t};
+         #redo A;
+       } elsif ($self->{c} == 0x005C) { # \
+         $self->{state} = ESCAPE_OPEN_STATE; $q = 1;
+         $self->{c} = $self->{get_char}->();
+         redo A;
+       } else {
+         ## TODO: Should we consider matches of "(" and ")", '"', or "'"?
+         $self->{t}->{type} = {
+             URI_TOKEN, URI_INVALID_TOKEN,
+             URI_INVALID_TOKEN, URI_INVALID_TOKEN,
+             URI_PREFIX_TOKEN, URI_PREFIX_INVALID_TOKEN,
+             URI_PREFIX_INVALID_TOKEN, URI_PREFIX_INVALID_TOKEN,
+         }->{$self->{t}->{type}};
+         # stay in the state.
+         $self->{c} = $self->{get_char}->();
+         redo A;
+       }
      } elsif ($self->{state} == ESCAPE_OPEN_STATE) {
-       $current_token->{has_escape} = 1;
+       $self->{t}->{has_escape} = 1;
        if (0x0030 <= $self->{c} and $self->{c} <= 0x0039) { # 0..9
          ## NOTE: second character of |unicode| in |escape|.
          $char = $self->{c} - 0x0030;
-Line 392 
 sub get_next_token ($) {
+Line 763 
 sub get_next_token ($) {
          $self->{state} = ESCAPE_STATE; $i = 2;
          $self->{c} = $self->{get_char}->();
          redo A;
-       } elsif (0x0061 <= $self->{c} or $self->{c} <= 0x0066) { # a..f
+       } elsif (0x0061 <= $self->{c} and $self->{c} <= 0x0066) { # a..f
          ## NOTE: second character of |unicode| in |escape|.
          $char = $self->{c} - 0x0061 - 0xA;
          $self->{state} = ESCAPE_STATE; $i = 2;
-Line 404 
 sub get_next_token ($) {
+Line 775 
 sub get_next_token ($) {
            ## NOTE: In |escape| in ... in |ident|.
            $self->{state} = BEFORE_TOKEN_STATE;
            unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '\\'};
-           return $current_token;
+           return $self->{t};
            # reconsume
            #redo A;
+         } elsif ($q == 1) {
+           ## NOTE: In |escape| in |URI|.
+           $self->{t}->{type} = {
+               URI_TOKEN, URI_INVALID_TOKEN,
+               URI_INVALID_TOKEN, URI_INVALID_TOKEN,
+               URI_PREFIX_TOKEN, URI_PREFIX_INVALID_TOKEN,
+               URI_PREFIX_INVALID_TOKEN, URI_PREFIX_INVALID_TOKEN,
+           }->{$self->{t}->{type}};
+           $self->{t}->{value} .= chr $self->{c};
+           $self->{state} = URI_UNQUOTED_STATE;
+           $self->{c} = $self->{get_char}->();
+           redo A;
          } else {
            ## Note: In |nl| in ... in |string| or |ident|.
-           $current_token->{value} .= chr $self->{c};
+           $self->{t}->{value} .= chr $self->{c};
            $self->{state} = STRING_STATE;
            $self->{c} = $self->{get_char}->();
            redo A;
-Line 419 
 sub get_next_token ($) {
+Line 802 
 sub get_next_token ($) {
            ## NOTE: In |escape| in ... in |ident|.
            $self->{state} = BEFORE_TOKEN_STATE;
            unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '\\'};
-           return $current_token;
+           return $self->{t};
            # reconsume
            #redo A;
+         } elsif ($q == 1) {
+           $self->{t}->{type} = {
+               URI_TOKEN, URI_INVALID_TOKEN,
+               URI_INVALID_TOKEN, URI_INVALID_TOKEN,
+               URI_PREFIX_TOKEN, URI_PREFIX_INVALID_TOKEN,
+               URI_PREFIX_INVALID_TOKEN, URI_PREFIX_INVALID_TOKEN,
+           }->{$self->{t}->{type}};
+           $self->{t}->{value} .= "\x0D\x0A";
+           $self->{state} = URI_UNQUOTED_STATE;
+           $self->{c} = $self->{get_char}->();
+           redo A;
          } else {
            ## Note: In |nl| in ... in |string| or |ident|.
-           $current_token->{value} .= "\x0D\x0A";
+           $self->{t}->{value} .= "\x0D\x0A";
            $self->{state} = ESCAPE_BEFORE_LF_STATE;
            $self->{c} = $self->{get_char}->();
            redo A;
          }
        } else {
          ## NOTE: second character of |escape|.
-         $current_token->{value} .= chr $self->{c};
+         $self->{t}->{value} .= chr $self->{c};
-         $self->{state} = $q == 0 ? NAME_STATE : STRING_STATE;
+         $self->{state} = $q == 0 ? NAME_STATE :
+             $q == 1 ? URI_UNQUOTED_STATE : STRING_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
        }
-Line 448 
 sub get_next_token ($) {
+Line 843 
 sub get_next_token ($) {
          $self->{state} = ++$i == 7 ? ESCAPE_BEFORE_NL_STATE : ESCAPE_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
-       } elsif (0x0061 <= $self->{c} or $self->{c} <= 0x0066) { # a..f
+       } elsif (0x0061 <= $self->{c} and $self->{c} <= 0x0066) { # a..f
          $char = $char * 0x10 + $self->{c} - 0x0061 - 0xA;
          $self->{state} = ++$i == 7 ? ESCAPE_BEFORE_NL_STATE : ESCAPE_STATE;
          $self->{c} = $self->{get_char}->();
-Line 457 
 sub get_next_token ($) {
+Line 852 
 sub get_next_token ($) {
                 $self->{c} == 0x000A or # \n
                 $self->{c} == 0x0009 or # \t
                 $self->{c} == 0x000C) { # \f
-         $current_token->{value} .= chr $char;
+         $self->{t}->{value} .= chr $char;
-         $self->{state} = $q == 0 ? NAME_STATE : STRING_STATE;
+         $self->{state} = $q == 0 ? NAME_STATE :
+             $q == 1 ? URI_UNQUOTED_STATE : STRING_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
        } elsif ($self->{c} == 0x000D) { # \r
-Line 466 
 sub get_next_token ($) {
+Line 862 
 sub get_next_token ($) {
          $self->{c} = $self->{get_char}->();
          redo A;
        } else {
-         $current_token->{value} .= chr $char;
+         $self->{t}->{value} .= chr $char;
-         $self->{state} = $q == 0 ? NAME_STATE : STRING_STATE;
+         $self->{state} = $q == 0 ? NAME_STATE :
+             $q == 1 ? URI_UNQUOTED_STATE : STRING_STATE;
          # reconsume
          redo A;
        }
-Line 477 
 sub get_next_token ($) {
+Line 874 
 sub get_next_token ($) {
            $self->{c} == 0x000A or # \n
            $self->{c} == 0x0009 or # \t
            $self->{c} == 0x000C) { # \f
-         $current_token->{value} .= chr $char;
+         $self->{t}->{value} .= chr $char;
-         $self->{state} = $q == 0 ? NAME_STATE : STRING_STATE;
+         $self->{state} = $q == 0 ? NAME_STATE :
+             $q == 1 ? URI_UNQUOTED_STATE : STRING_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
        } elsif ($self->{c} == 0x000D) { # \r
-Line 486 
 sub get_next_token ($) {
+Line 884 
 sub get_next_token ($) {
          $self->{c} = $self->{get_char}->();
          redo A;
        } else {
-         $current_token->{value} .= chr $char;
+         $self->{t}->{value} .= chr $char;
-         $self->{state} = $q == 0 ? NAME_STATE : STRING_STATE;
+         $self->{state} = $q == 0 ? NAME_STATE :
+             $q == 1 ? URI_UNQUOTED_STATE : STRING_STATE;
          # reconsume
          redo A;
        }
      } elsif ($self->{state} == ESCAPE_BEFORE_LF_STATE) {
        ## NOTE: |\n| in |\r\n| in |unicode| in |escape|.
        if ($self->{c} == 0x000A) { # \n
-         $current_token->{value} .= chr $char;
+         $self->{t}->{value} .= chr $char;
-         $self->{state} = $q == 0 ? NAME_STATE : STRING_STATE;
+         $self->{state} = $q == 0 ? NAME_STATE :
+             $q == 1 ? URI_UNQUOTED_STATE : STRING_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
        } else {
-         $current_token->{value} .= chr $char;
+         $self->{t}->{value} .= chr $char;
-         $self->{state} = $q == 0 ? NAME_STATE : STRING_STATE;
+         $self->{state} = $q == 0 ? NAME_STATE :
+             $q == 1 ? URI_UNQUOTED_STATE : STRING_STATE;
          # reconsume
          redo A;
        }
-Line 508 
 sub get_next_token ($) {
+Line 909 
 sub get_next_token ($) {
        ## NOTE: A character in |string$Q| in |string| in |STRING|, or
        ## a character in |invalid$Q| in |invalid| in |INVALID|,
        ## where |$Q = $q == 0x0022 ? 1 : 2|.
+       ## Or, in |URI|.
        if ($self->{c} == 0x005C) { # \
          $self->{state} = ESCAPE_OPEN_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
        } elsif ($self->{c} == $q) { # " | '
-         $self->{state} = BEFORE_TOKEN_STATE;
+         if ($self->{t}->{type} == STRING_TOKEN) {
-         $self->{c} = $self->{get_char}->();
+           $self->{state} = BEFORE_TOKEN_STATE;
-         return $current_token;
+           $self->{c} = $self->{get_char}->();
-         #redo A;
+           return $self->{t};
+           #redo A;
+         } else {
+           $self->{state} = URI_AFTER_WSP_STATE;
+           $self->{c} = $self->{get_char}->();
+           redo A;
+         }
        } elsif ($self->{c} == 0x000A or # \n
                 $self->{c} == 0x000D or # \r
                 $self->{c} == 0x000C or # \f
                 $self->{c} == -1) {
-         $current_token->{type} = INVALID_TOKEN;
+         $self->{t}->{type} = INVALID_TOKEN;
          $self->{state} = BEFORE_TOKEN_STATE;
          # reconsume
-         return $current_token;
+         return $self->{t};
          #redo A;
        } else {
-         $current_token->{value} .= chr $self->{c};
+         $self->{t}->{value} .= chr $self->{c};
          # stay in the state
          $self->{c} = $self->{get_char}->();
          redo A;
-Line 535 
 sub get_next_token ($) {
+Line 943 
 sub get_next_token ($) {
      } elsif ($self->{state} == NUMBER_STATE) {
        ## NOTE: 2nd, 3rd, or ... character in |num| before |.|.
        if (0x0030 <= $self->{c} and $self->{c} <= 0x0039) {
-         $current_token->{value} .= chr $self->{c};
+         $self->{t}->{value} .= chr $self->{c};
          # stay in the state
          $self->{c} = $self->{get_char}->();
          redo A;
-Line 544 
 sub get_next_token ($) {
+Line 952 
 sub get_next_token ($) {
          $self->{c} = $self->{get_char}->();
          redo A;
        } else {
-         $self->{number} = $self->{value};
+         $self->{t}->{number} = $self->{t}->{value};
-         $self->{value} = '';
+         $self->{t}->{value} = '';
          $self->{state} = AFTER_NUMBER_STATE;
          # reprocess
-         return $current_token;
+         redo A;
-         #redo A;
        }
      } elsif ($self->{state} == NUMBER_DOT_STATE) {
        ## NOTE: The character immediately following |.| in |num|.
        if (0x0030 <= $self->{c} and $self->{c} <= 0x0039) {
-         $current_token->{value} .= chr $self->{c};
+         $self->{t}->{value} .= '.' . chr $self->{c};
          $self->{state} = NUMBER_DOT_NUMBER_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
        } else {
          unshift @{$self->{token}}, {type => DELIM_STATE, value => '.'};
-         $self->{number} = $self->{value};
+         $self->{t}->{number} = $self->{t}->{value};
-         $self->{value} = '';
+         $self->{t}->{value} = '';
          $self->{state} = BEFORE_TOKEN_STATE;
          # reprocess
-         return $current_token;
+         return $self->{t};
          #redo A;
        }
      } elsif ($self->{state} == NUMBER_FRACTION_STATE) {
        ## NOTE: The character immediately following |.| at the beginning of |num|.
        if (0x0030 <= $self->{c} and $self->{c} <= 0x0039) {
-         $current_token->{value} .= chr $self->{c};
+         $self->{t}->{value} .= '.' . chr $self->{c};
          $self->{state} = NUMBER_DOT_NUMBER_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
-Line 583 
 sub get_next_token ($) {
+Line 990 
 sub get_next_token ($) {
      } elsif ($self->{state} == NUMBER_DOT_NUMBER_STATE) {
        ## NOTE: |[0-9]| in |num| after |.|.
        if (0x0030 <= $self->{c} and $self->{c} <= 0x0039) {
-         $current_token->{value} .= chr $self->{c};
+         $self->{t}->{value} .= chr $self->{c};
          # stay in the state
          $self->{c} = $self->{get_char}->();
          redo A;
        } else {
-         $self->{number} = $self->{value};
+         $self->{t}->{number} = $self->{t}->{value};
-         $self->{value} = '';
+         $self->{t}->{value} = '';
          $self->{state} = AFTER_NUMBER_STATE;
          # reprocess
-         return $current_token;
+         redo A;
-         #redo A;
        }
      } else {
        die "$0: Unknown state |$self->{state}|";
      }
    } # A
-   ## TODO: |URI|, |UNICODE-RANGE|, |COMMENT|
  } # get_next_token
 ;

 Legend:



Removed from v.1.1
 


changed lines


 
Added in v.1.6
 Legend:



Removed from v.1.1
 


changed lines


 
Added in v.1.6
-Removed from v.1.1
+Added in v.1.6

admin@suikawiki.org	ViewVC Help
Powered by ViewVC 1.1.24