/[suikacvs]/markup/html/whatpm/Whatpm/CSS/Tokenizer.pm

Diff of /markup/html/whatpm/Whatpm/CSS/Tokenizer.pm

Parent Directory | Revision Log | View Patch Patch

-revision 1.9 by wakaba,
Sat Sep  8 11:44:32 2007 UTC
+revision 1.16 by wakaba,
Wed Oct 17 10:46:26 2007 UTC
 Line 1
  package Whatpm::CSS::Tokenizer;
  use strict;
+ our $VERSION=do{my @r=(q$Revision$=~/\d+/g);sprintf "%d."."%02d" x $#r,@r};
+ require Exporter;
+ push our @ISA, 'Exporter';
  sub BEFORE_TOKEN_STATE () { 0 }
  sub BEFORE_NMSTART_STATE () { 1 }
-Line 59 
 sub CDC_TOKEN () { 35 }
+Line 63 
 sub CDC_TOKEN () { 35 }
  sub COMMENT_TOKEN () { 36 }
  sub COMMENT_INVALID_TOKEN () { 37 }
  sub EOF_TOKEN () { 38 }
+ sub MINUS_TOKEN () { 39 }
+ sub STAR_TOKEN () { 40 }
+ sub VBAR_TOKEN () { 41 }
+ sub DOT_TOKEN () { 42 }
+ sub COLON_TOKEN () { 43 }
+ sub MATCH_TOKEN () { 44 }
+ sub EXCLAMATION_TOKEN () { 45 }
  our @TokenName = qw(
 IDENT ATKEYWORD HASH FUNCTION URI URI_INVALID URI_PREFIX URI_PREFIX_INVALID
-Line 66 
 our @TokenName = qw(
+Line 77 
 our @TokenName = qw(
 DELIM PLUS GREATER COMMA TILDE DASHMATCH
    PREFIXMATCH SUFFIXMATCH SUBSTRINGMATCH INCLUDES SEMICOLON
    LBRACE RBRACE LPAREN RPAREN LBRACKET RBRACKET S CDO CDC COMMENT
-   COMMENT_INVALID EOF
+   COMMENT_INVALID EOF MINUS STAR VBAR DOT COLON MATCH EXCLAMATION
+ );
+ our @EXPORT_OK = qw(
+   IDENT_TOKEN ATKEYWORD_TOKEN HASH_TOKEN FUNCTION_TOKEN URI_TOKEN
+   URI_INVALID_TOKEN URI_PREFIX_TOKEN URI_PREFIX_INVALID_TOKEN
+   STRING_TOKEN INVALID_TOKEN NUMBER_TOKEN DIMENSION_TOKEN PERCENTAGE_TOKEN
+   UNICODE_RANGE_TOKEN DELIM_TOKEN PLUS_TOKEN GREATER_TOKEN COMMA_TOKEN
+   TILDE_TOKEN DASHMATCH_TOKEN PREFIXMATCH_TOKEN SUFFIXMATCH_TOKEN
+   SUBSTRINGMATCH_TOKEN INCLUDES_TOKEN SEMICOLON_TOKEN LBRACE_TOKEN
+   RBRACE_TOKEN LPAREN_TOKEN RPAREN_TOKEN LBRACKET_TOKEN RBRACKET_TOKEN
+   S_TOKEN CDO_TOKEN CDC_TOKEN COMMENT_TOKEN COMMENT_INVALID_TOKEN EOF_TOKEN
+   MINUS_TOKEN STAR_TOKEN VBAR_TOKEN DOT_TOKEN COLON_TOKEN MATCH_TOKEN
+   EXCLAMATION_TOKEN
  );
+ our %EXPORT_TAGS = ('token' => [@EXPORT_OK]);
  sub new ($) {
    my $self = bless {token => [], get_char => sub { -1 },
                      onerror => sub { }}, shift;
-Line 115 
 sub get_next_token ($) {
+Line 141 
 sub get_next_token ($) {
                (0x0041 <= $self->{c} and $self->{c} <= 0x0046) or # A..F
                (0x0061 <= $self->{c} and $self->{c} <= 0x0066) or # a..f
                $self->{c} == 0x003F) { # ?
-             $self->{t}->{value} .= '+' . chr $self->{c};
+             $self->{t}->{value} = chr $self->{c};
              $self->{t}->{type} = UNICODE_RANGE_TOKEN;
              $self->{c} = $self->{get_char}->();
              C: for (2..6) {
-Line 267 
 sub get_next_token ($) {
+Line 293 
 sub get_next_token ($) {
                return {type => CDO_TOKEN};
                #redo A;
              } else {
-               unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '!'};
+               unshift @{$self->{token}}, {type => EXCLAMATION_TOKEN};
                ## NOTE: |-| in |ident| in |IDENT|
                $self->{t} = {type => IDENT_TOKEN, value => '-'};
                $self->{state} = BEFORE_NMSTART_STATE;
-Line 276 
 sub get_next_token ($) {
+Line 302 
 sub get_next_token ($) {
                #redo A;
              }
            } else {
-             unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '!'};
+             unshift @{$self->{token}}, {type => EXCLAMATION_TOKEN};
              $self->{state} = BEFORE_TOKEN_STATE;
              #reprocess
              return {type => DELIM_TOKEN, value => '<'};
-Line 289 
 sub get_next_token ($) {
+Line 315 
 sub get_next_token ($) {
            #redo A;
          }
        } elsif (my $t = {
-x003B => SEMICOLON_TOKEN, # ;
+x0021 => EXCLAMATION_TOKEN, # !
-x007B => LBRACE_TOKEN, # {
+x002D => MINUS_TOKEN, # -
-x007D => RBRACE_TOKEN, # }
+x002E => DOT_TOKEN, # .
-x0028 => LPAREN_TOKEN, # (
+x003A => COLON_TOKEN, # :
-x0029 => RPAREN_TOKEN, # )
+x003B => SEMICOLON_TOKEN, # ;
-x005B => LBRACKET_TOKEN, # [
+x003D => MATCH_TOKEN, # =
-x005D => RBRACKET_TOKEN, # ]
+x007B => LBRACE_TOKEN, # {
+x007D => RBRACE_TOKEN, # }
+x0028 => LPAREN_TOKEN, # (
+x0029 => RPAREN_TOKEN, # )
+x005B => LBRACKET_TOKEN, # [
+x005D => RBRACKET_TOKEN, # ]
                 }->{$self->{c}}) {
          # stay in the state
          $self->{c} = $self->{get_char}->();
-Line 348 
 sub get_next_token ($) {
+Line 379 
 sub get_next_token ($) {
            $self->{c} = $self->{get_char}->();
            return {type => $v};
            #redo A;
+         } elsif ($v = {
+x002A => STAR_TOKEN, # *
+x007C => VBAR_TOKEN, # |
+                       }->{$c}) {
+           # stay in the state.
+           # reprocess
+           return {type => $v};
+           #redo A;
          } else {
            # stay in the state
            # reprocess
-Line 408 
 sub get_next_token ($) {
+Line 447 
 sub get_next_token ($) {
          $self->{c} = $self->{get_char}->();
          redo A;
        } elsif ($self->{c} == 0x005C) { # \
- ## TODO: 12-\X, 12-\{nl}
          $self->{state} = ESCAPE_OPEN_STATE; $q = 0;
          $self->{c} = $self->{get_char}->();
          redo A;
-       } elsif ($self->{c} == 0x002D and # -
+       } elsif ($self->{c} == 0x002D) { # -
-                $self->{t}->{type} == IDENT_TOKEN) {
+         if ($self->{t}->{type} == IDENT_TOKEN) {
-         $self->{c} = $self->{get_char}->();
-         if ($self->{c} == 0x003E) { # >
-           $self->{state} = BEFORE_TOKEN_STATE;
            $self->{c} = $self->{get_char}->();
-           return {type => CDC_TOKEN};
+           if ($self->{c} == 0x003E) { # >
-           #redo A;
+             $self->{state} = BEFORE_TOKEN_STATE;
+             $self->{c} = $self->{get_char}->();
+             return {type => CDC_TOKEN};
+             #redo A;
+           } else {
+             ## NOTE: |-|, |-|, $self->{c}
+             #$self->{t} = {type => IDENT_TOKEN, value => '-'};
+             # stay in the state
+             # reconsume
+             return {type => MINUS_TOKEN};
+             #redo A;
+           }
+         } elsif ($self->{t}->{type} == DIMENSION_TOKEN) {
+           $self->{c} = $self->{get_char}->();
+           if ($self->{c} == 0x003E) { # >
+             unshift @{$self->{token}}, {type => CDC_TOKEN};
+             $self->{t}->{type} = NUMBER_TOKEN;
+             $self->{t}->{value} = '';
+             $self->{state} = BEFORE_TOKEN_STATE;
+             $self->{c} = $self->{get_char}->();
+             return $self->{t};
+             #redo A;
+           } else {
+             ## NOTE: |-|, |-|, $self->{c}
+             my $t = $self->{t};
+             $t->{type} = NUMBER_TOKEN;
+             $t->{value} = '';
+             $self->{t} = {type => IDENT_TOKEN, value => '-', hyphen => 1};
+             unshift @{$self->{token}}, {type => MINUS_TOKEN};
+             # stay in the state
+             # reconsume
+             return $t;
+             #redo A;
+           }
          } else {
-           ## NOTE: |-|, |-|, $self->{c}
+           #
-           #$self->{t} = {type => IDENT_TOKEN, value => '-'};
-           # stay in the state
-           # reconsume
-           return {type => DELIM_TOKEN, value => '-'};
-           #redo A;
          }
        } else {
-         if ($self->{t}->{type} == NUMBER_TOKEN) {
+         #
-           ## NOTE: |-| after |NUMBER|.
+       }
-           unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '-'};
-           $self->{state} = BEFORE_TOKEN_STATE;
+       if ($self->{t}->{type} == DIMENSION_TOKEN) {
-           # reprocess
+         ## NOTE: |-| after |NUMBER|.
-           $self->{t}->{value} = $self->{t}->{number};
+         unshift @{$self->{token}}, {type => MINUS_TOKEN};
-           delete $self->{t}->{number};
+         $self->{state} = BEFORE_TOKEN_STATE;
-           return $self->{t};
+         # reprocess
-         } else {
+         $self->{t}->{type} = NUMBER_TOKEN;
-           ## NOTE: |-| not followed by |nmstart|.
+         $self->{t}->{value} = '';
-           $self->{state} = BEFORE_TOKEN_STATE;
+         return $self->{t};
-           # reprocess
+       } else {
-           return {type => DELIM_TOKEN, value => '-'};
+         ## NOTE: |-| not followed by |nmstart|.
-         }
+         $self->{state} = BEFORE_TOKEN_STATE;
+         # reprocess
+         return {type => MINUS_TOKEN};
        }
      } elsif ($self->{state} == AFTER_AT_STATE) {
        if ((0x0041 <= $self->{c} and $self->{c} <= 0x005A) or # A..Z
-Line 485 
 sub get_next_token ($) {
+Line 550 
 sub get_next_token ($) {
            return {type => DELIM_TOKEN, value => '@'};
            #redo A;
          } else {
-           unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '-'};
+           unshift @{$self->{token}}, {type => MINUS_TOKEN};
            $self->{t} = {type => IDENT_TOKEN, value => '-'};
            $self->{state} = BEFORE_NMSTART_STATE;
            # reprocess
-Line 498 
 sub get_next_token ($) {
+Line 563 
 sub get_next_token ($) {
          $self->{c} = $self->{get_char}->();
          redo A;
        } else {
-         unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '-'};
+         unshift @{$self->{token}}, {type => MINUS_TOKEN};
          $self->{state} = BEFORE_TOKEN_STATE;
          # reprocess
          return {type => DELIM_TOKEN, value => '@'};
-Line 506 
 sub get_next_token ($) {
+Line 571 
 sub get_next_token ($) {
      } elsif ($self->{state} == AFTER_NUMBER_STATE) {
        if ($self->{c} == 0x002D) { # -
          ## NOTE: |-| in |ident|.
+         $self->{t}->{hyphen} = 1;
          $self->{t}->{value} = '-';
+         $self->{t}->{type} = DIMENSION_TOKEN;
          $self->{state} = BEFORE_NMSTART_STATE;
          $self->{c} = $self->{get_char}->();
          redo A;
-Line 523 
 sub get_next_token ($) {
+Line 590 
 sub get_next_token ($) {
        } elsif ($self->{c} == 0x005C) { # \
          ## NOTE: |nmstart| in |ident| in |IDENT|
          $self->{t}->{value} = '';
+         $self->{t}->{type} = DIMENSION_TOKEN;
          $self->{state} = ESCAPE_OPEN_STATE; $q = 0;
          $self->{c} = $self->{get_char}->();
          redo A;
-Line 787 
 sub get_next_token ($) {
+Line 855 
 sub get_next_token ($) {
            redo A;
          } else {
            ## Note: In |nl| in ... in |string| or |ident|.
-           $self->{t}->{value} .= chr $self->{c};
            $self->{state} = STRING_STATE;
            $self->{c} = $self->{get_char}->();
            redo A;
-Line 803 
 sub get_next_token ($) {
+Line 870 
 sub get_next_token ($) {
                URI_PREFIX_TOKEN, URI_PREFIX_INVALID_TOKEN,
                URI_PREFIX_INVALID_TOKEN, URI_PREFIX_INVALID_TOKEN,
            }->{$self->{t}->{type}};
-           $self->{t}->{value} .= "\x0D";
            $self->{state} = ESCAPE_BEFORE_LF_STATE;
            $self->{c} = $self->{get_char}->();
            redo A;
          } else {
            ## Note: In |nl| in ... in |string| or |ident|.
-           $self->{t}->{value} .= "\x0D";
            $self->{state} = ESCAPE_BEFORE_LF_STATE;
            $self->{c} = $self->{get_char}->();
            redo A;
-Line 826 
 sub get_next_token ($) {
+Line 891 
 sub get_next_token ($) {
        }
        if ($q == 0) {
-         $self->{state} = BEFORE_TOKEN_STATE;
+         if ($self->{t}->{type} == DIMENSION_TOKEN) {
-         # reprocess
+           if ($self->{t}->{hyphen} and $self->{t}->{value} eq '-') {
-         if ($self->{t}->{hyphen} and $self->{t}->{value} eq '-') {
+             $self->{state} = BEFORE_TOKEN_STATE;
-           unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '\\'};
+             # reprocess
-           return {type => DELIM_TOKEN, value => '-'};
+             unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '\\'};
-           #redo A;
+             unshift @{$self->{token}}, {type => MINUS_TOKEN};
-         } elsif (length $self->{t}->{value}) {
+             $self->{t}->{type} = NUMBER_TOKEN;
-           unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '\\'};
+             $self->{t}->{value} = '';
-           return $self->{t};
+             return $self->{t};
-           #redo A;
+             #redo A;
+           } elsif (length $self->{t}->{value}) {
+             $self->{state} = BEFORE_TOKEN_STATE;
+             # reprocess
+             unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '\\'};
+             return $self->{t};
+             #redo A;
+           } else {
+             $self->{state} = BEFORE_TOKEN_STATE;
+             # reprocess
+             unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '\\'};
+             $self->{t}->{type} = NUMBER_TOKEN;
+             $self->{t}->{value} = '';
+             return $self->{t};
+             #redo A;
+           }
          } else {
-           return {type => DELIM_TOKEN, value => '\\'};
+           if ($self->{t}->{hyphen} and $self->{t}->{value} eq '-') {
-           #redo A;
+             $self->{state} = BEFORE_TOKEN_STATE;
+             # reprocess
+             unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '\\'};
+             return {type => MINUS_TOKEN};
+             #redo A;
+           } elsif (length $self->{t}->{value}) {
+             $self->{state} = BEFORE_TOKEN_STATE;
+             # reprocess
+             unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '\\'};
+             return $self->{t};
+             #redo A;
+           } else {
+             $self->{state} = BEFORE_TOKEN_STATE;
+             # reprocess
+             return {type => DELIM_TOKEN, value => '\\'};
+             #redo A;
+           }
          }
        } elsif ($q == 1) {
          $self->{state} = URI_UNQUOTED_STATE;
-Line 916 
 sub get_next_token ($) {
+Line 1012 
 sub get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ESCAPE_BEFORE_LF_STATE) {
-       ## NOTE: |\n| in |\r\n| in |unicode| in |escape|.
+       ## NOTE: |\n| in |\r\n| in |nl| in |escape|.
        if ($self->{c} == 0x000A) { # \n
-         $self->{t}->{value} .= chr $self->{c};
          $self->{state} = $q == 0 ? NAME_STATE :
              $q == 1 ? URI_UNQUOTED_STATE : STRING_STATE;
          $self->{c} = $self->{get_char}->();
-Line 953 
 sub get_next_token ($) {
+Line 1048 
 sub get_next_token ($) {
                 $self->{c} == 0x000D or # \r
                 $self->{c} == 0x000C or # \f
                 $self->{c} == -1) {
-         $self->{t}->{type} = INVALID_TOKEN;
+         $self->{t}->{type} = {
+           STRING_TOKEN, INVALID_TOKEN,
+           INVALID_TOKEN, INVALID_TOKEN,
+           URI_TOKEN, URI_INVALID_TOKEN,
+           URI_INVALID_TOKEN, URI_INVALID_TOKEN,
+           URI_PREFIX_TOKEN, URI_PREFIX_INVALID_TOKEN,
+           URI_PREFIX_INVALID_TOKEN, URI_PREFIX_INVALID_TOKEN,
+         }->{$self->{t}->{type}};
          $self->{state} = BEFORE_TOKEN_STATE;
          # reconsume
          return $self->{t};
-Line 990 
 sub get_next_token ($) {
+Line 1092 
 sub get_next_token ($) {
          $self->{c} = $self->{get_char}->();
          redo A;
        } else {
-         unshift @{$self->{token}}, {type => DELIM_TOKEN, value => '.'};
+         unshift @{$self->{token}}, {type => DOT_TOKEN};
          $self->{t}->{number} = $self->{t}->{value};
          $self->{t}->{value} = '';
          $self->{state} = BEFORE_TOKEN_STATE;
-Line 1008 
 sub get_next_token ($) {
+Line 1110 
 sub get_next_token ($) {
        } else {
          $self->{state} = BEFORE_TOKEN_STATE;
          # reprocess
-         return {type => DELIM_TOKEN, value => '.'};
+         return {type => DOT_TOKEN};
          #redo A;
        }
      } elsif ($self->{state} == NUMBER_DOT_NUMBER_STATE) {
-Line 1031 
 sub get_next_token ($) {
+Line 1133 
 sub get_next_token ($) {
    } # A
  } # get_next_token
+ =head1 LICENSE
+ Copyright 2007 Wakaba <w@suika.fam.cx>
+ This library is free software; you can redistribute it
+ and/or modify it under the same terms as Perl itself.
+ =cut
 ;
  # $Date$

 Legend:



Removed from v.1.9
 


changed lines


 
Added in v.1.16
 Legend:



Removed from v.1.9
 


changed lines


 
Added in v.1.16
-Removed from v.1.9
+Added in v.1.16

admin@suikawiki.org	ViewVC Help
Powered by ViewVC 1.1.24