/[suikacvs]/markup/html/whatpm/Whatpm/HTML/Tokenizer.pm

Diff of /markup/html/whatpm/Whatpm/HTML/Tokenizer.pm

Parent Directory | Revision Log | View Patch Patch

-revision 1.1 by wakaba,
Tue Oct 14 02:27:58 2008 UTC
+revision 1.8 by wakaba,
Wed Oct 15 04:38:22 2008 UTC
 Line 2 
 package Whatpm::HTML::Tokenizer;
  use strict;
  our $VERSION=do{my @r=(q$Revision$=~/\d+/g);sprintf "%d."."%02d" x $#r,@r};
+ BEGIN {
+   require Exporter;
+   push our @ISA, 'Exporter';
+   our @EXPORT_OK = qw(
+     DOCTYPE_TOKEN
+     COMMENT_TOKEN
+     START_TAG_TOKEN
+     END_TAG_TOKEN
+     END_OF_FILE_TOKEN
+     CHARACTER_TOKEN
+     PI_TOKEN
+     ABORT_TOKEN
+   );
+   our %EXPORT_TAGS = (
+     token => [qw(
+       DOCTYPE_TOKEN
+       COMMENT_TOKEN
+       START_TAG_TOKEN
+       END_TAG_TOKEN
+       END_OF_FILE_TOKEN
+       CHARACTER_TOKEN
+       PI_TOKEN
+       ABORT_TOKEN
+     )],
+   );
+ }
+ ## Token types
+ sub DOCTYPE_TOKEN () { 1 }
+ sub COMMENT_TOKEN () { 2 }
+ sub START_TAG_TOKEN () { 3 }
+ sub END_TAG_TOKEN () { 4 }
+ sub END_OF_FILE_TOKEN () { 5 }
+ sub CHARACTER_TOKEN () { 6 }
+ sub PI_TOKEN () { 7 } # XML5
+ sub ABORT_TOKEN () { 8 } # Not a token actually
  package Whatpm::HTML;
+ BEGIN { Whatpm::HTML::Tokenizer->import (':token') }
  ## Content model flags
  sub CM_ENTITY () { 0b001 } # & markup in data
-Line 72 
 sub HEXREF_HEX_STATE () { 48 }
+Line 114 
 sub HEXREF_HEX_STATE () { 48 }
  sub ENTITY_NAME_STATE () { 49 }
  sub PCDATA_STATE () { 50 } # "data state" in the spec
- ## Token types
+ ## XML states
+ sub PI_STATE () { 51 }
- sub DOCTYPE_TOKEN () { 1 }
+ sub PI_TARGET_STATE () { 52 }
- sub COMMENT_TOKEN () { 2 }
+ sub PI_TARGET_AFTER_STATE () { 53 }
- sub START_TAG_TOKEN () { 3 }
+ sub PI_DATA_STATE () { 54 }
- sub END_TAG_TOKEN () { 4 }
+ sub PI_AFTER_STATE () { 55 }
- sub END_OF_FILE_TOKEN () { 5 }
+ sub PI_DATA_AFTER_STATE () { 56 }
- sub CHARACTER_TOKEN () { 6 }
  ## Tree constructor state constants (see Whatpm::HTML for the full
  ## list and descriptions)
-Line 142 
 sub _initialize_tokenizer ($) {
+Line 183 
 sub _initialize_tokenizer ($) {
    #$self->{level}
    #$self->{set_nc}
    #$self->{parse_error}
+   #$self->{is_xml} (if XML)
    $self->{state} = DATA_STATE; # MUST
-   #$self->{s_kwd}; # state keyword - initialized when used
+   $self->{s_kwd} = ''; # state keyword
    #$self->{entity__value}; # initialized when used
    #$self->{entity__match}; # initialized when used
    $self->{content_model} = PCDATA_CONTENT_MODEL; # be
-Line 185 
 sub _initialize_tokenizer ($) {
+Line 227 
 sub _initialize_tokenizer ($) {
  ##        ->{value}
  ##        ->{has_reference} == 1 or 0
  ##   ->{data} (COMMENT_TOKEN, CHARACTER_TOKEN)
+ ##   ->{has_reference} == 1 or 0 (CHARACTER_TOKEN)
  ## NOTE: The "self-closing flag" is hold as |$self->{self_closing}|.
  ##     |->{self_closing}| is used to save the value of |$self->{self_closing}|
  ##     while the token is pushed back to the stack.
-Line 328 
 sub _get_next_token ($) {
+Line 371 
 sub _get_next_token ($) {
          }
        } elsif ($self->{nc} == 0x002D) { # -
          if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
-           $self->{s_kwd} .= '-';
+           if ($self->{s_kwd} eq '<!-') {
-           if ($self->{s_kwd} eq '<!--') {
              $self->{escape} = 1; # unless $self->{escape};
              $self->{s_kwd} = '--';
              #
-           } elsif ($self->{s_kwd} eq '---') {
+           } elsif ($self->{s_kwd} eq '-') {
              $self->{s_kwd} = '--';
              #
+           } elsif ($self->{s_kwd} eq '<!' or $self->{s_kwd} eq '-') {
+             $self->{s_kwd} .= '-';
+             #
            } else {
+             $self->{s_kwd} = '-';
              #
            }
          }
-Line 386 
 sub _get_next_token ($) {
+Line 432 
 sub _get_next_token ($) {
            if ($self->{s_kwd} eq '--') {
              delete $self->{escape};
+             #
            } else {
+             #
            }
+         } elsif ($self->{is_xml} and $self->{s_kwd} eq ']]') {
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'unmatched mse', ## TODO: type
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 1);
+           #
          } else {
+           #
          }
          $self->{s_kwd} = '';
          #
+       } elsif ($self->{nc} == 0x005D) { # ]
+         if ($self->{s_kwd} eq ']' or $self->{s_kwd} eq '') {
+           $self->{s_kwd} .= ']';
+         } elsif ($self->{s_kwd} eq ']]') {
+           #
+         } else {
+           $self->{s_kwd} = '';
+         }
+         #
        } elsif ($self->{nc} == -1) {
          $self->{s_kwd} = '';
-Line 412 
 sub _get_next_token ($) {
+Line 479 
 sub _get_next_token ($) {
                     data => chr $self->{nc},
                     line => $self->{line}, column => $self->{column},
                    };
-       if ($self->{read_until}->($token->{data}, q[-!<>&],
+       if ($self->{read_until}->($token->{data}, q{-!<>&\]},
                                  length $token->{data})) {
          $self->{s_kwd} = '';
        }
        ## Stay in the data state.
-       if ($self->{content_model} == PCDATA_CONTENT_MODEL) {
+       if (not $self->{is_xml} and
+           $self->{content_model} == PCDATA_CONTENT_MODEL) {
          $self->{state} = PCDATA_STATE;
        } else {
-Line 466 
 sub _get_next_token ($) {
+Line 534 
 sub _get_next_token ($) {
          ## reconsume
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          return  ({type => CHARACTER_TOKEN, data => '<',
                    line => $self->{line_prev},
                    column => $self->{column_prev},
-Line 507 
 sub _get_next_token ($) {
+Line 576 
 sub _get_next_token ($) {
            $self->{ct}
              = {type => START_TAG_TOKEN,
-                tag_name => chr ($self->{nc} + 0x0020),
+                tag_name => chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020)),
                 line => $self->{line_prev},
                 column => $self->{column_prev}};
            $self->{state} = TAG_NAME_STATE;
-Line 549 
 sub _get_next_token ($) {
+Line 618 
 sub _get_next_token ($) {
                            line => $self->{line_prev},
                            column => $self->{column_prev});
            $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 568 
 sub _get_next_token ($) {
+Line 638 
 sub _get_next_token ($) {
            redo A;
          } elsif ($self->{nc} == 0x003F) { # ?
+           if ($self->{is_xml}) {
-           $self->{parse_error}->(level => $self->{level}->{must}, type => 'pio',
-                           line => $self->{line_prev},
+             $self->{state} = PI_STATE;
-                           column => $self->{column_prev});
-           $self->{state} = BOGUS_COMMENT_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-           $self->{ct} = {type => COMMENT_TOKEN, data => '',
+       $self->{line_prev} = $self->{line};
-                                     line => $self->{line_prev},
+       $self->{column_prev} = $self->{column};
-                                     column => $self->{column_prev},
+       $self->{column}++;
-                                    };
+       $self->{nc}
-           ## $self->{nc} is intentionally left as is
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
-           redo A;
+     } else {
+       $self->{set_nc}->($self);
+     }
+             redo A;
+           } else {
+             $self->{parse_error}->(level => $self->{level}->{must}, type => 'pio',
+                             line => $self->{line_prev},
+                             column => $self->{column_prev});
+             $self->{state} = BOGUS_COMMENT_STATE;
+             $self->{ct} = {type => COMMENT_TOKEN, data => '',
+                            line => $self->{line_prev},
+                            column => $self->{column_prev},
+                           };
+             ## $self->{nc} is intentionally left as is
+             redo A;
+           }
          } else {
            $self->{parse_error}->(level => $self->{level}->{must}, type => 'bare stago',
                            line => $self->{line_prev},
                            column => $self->{column_prev});
            $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
            ## reconsume
            return  ({type => CHARACTER_TOKEN, data => '<',
-Line 613 
 sub _get_next_token ($) {
+Line 701 
 sub _get_next_token ($) {
            ## NOTE: See <http://krijnhoetmer.nl/irc-logs/whatwg/20070626#l-564>.
            $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
            ## Reconsume.
            return  ({type => CHARACTER_TOKEN, data => '</',
                      line => $l, column => $c,
-Line 626 
 sub _get_next_token ($) {
+Line 715 
 sub _get_next_token ($) {
          $self->{ct}
              = {type => END_TAG_TOKEN,
-                tag_name => chr ($self->{nc} + 0x0020),
+                tag_name => chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020)),
                 line => $l, column => $c};
          $self->{state} = TAG_NAME_STATE;
-Line 666 
 sub _get_next_token ($) {
+Line 755 
 sub _get_next_token ($) {
                          line => $self->{line_prev}, ## "<" in "</>"
                          column => $self->{column_prev} - 1);
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 681 
 sub _get_next_token ($) {
+Line 771 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == -1) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'bare etago');
+         $self->{s_kwd} = '';
          $self->{state} = DATA_STATE;
          # reconsume
-Line 730 
 sub _get_next_token ($) {
+Line 821 
 sub _get_next_token ($) {
          } else {
            $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
            ## Reconsume.
            return  ({type => CHARACTER_TOKEN,
                      data => '</' . $self->{s_kwd},
-Line 748 
 sub _get_next_token ($) {
+Line 840 
 sub _get_next_token ($) {
            ## Reconsume.
            $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
            return  ({type => CHARACTER_TOKEN,
                      data => '</' . $self->{s_kwd},
                      line => $self->{line_prev},
-Line 799 
 sub _get_next_token ($) {
+Line 892 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 817 
 sub _get_next_token ($) {
+Line 911 
 sub _get_next_token ($) {
        } elsif (0x0041 <= $self->{nc} and
                 $self->{nc} <= 0x005A) { # A..Z
-         $self->{ct}->{tag_name} .= chr ($self->{nc} + 0x0020);
+         $self->{ct}->{tag_name}
+             .= chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020));
            # start tag or end tag
          ## Stay in this state
-Line 850 
 sub _get_next_token ($) {
+Line 945 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          # reconsume
          return  ($self->{ct}); # start tag or end tag
-Line 920 
 sub _get_next_token ($) {
+Line 1016 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 939 
 sub _get_next_token ($) {
+Line 1036 
 sub _get_next_token ($) {
                 $self->{nc} <= 0x005A) { # A..Z
          $self->{ca}
-             = {name => chr ($self->{nc} + 0x0020),
+             = {name => chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020)),
                 value => '',
                 line => $self->{line}, column => $self->{column}};
          $self->{state} = ATTRIBUTE_NAME_STATE;
-Line 987 
 sub _get_next_token ($) {
+Line 1084 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          # reconsume
          return  ($self->{ct}); # start tag or end tag
-Line 1082 
 sub _get_next_token ($) {
+Line 1180 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 1100 
 sub _get_next_token ($) {
+Line 1199 
 sub _get_next_token ($) {
        } elsif (0x0041 <= $self->{nc} and
                 $self->{nc} <= 0x005A) { # A..Z
-         $self->{ca}->{name} .= chr ($self->{nc} + 0x0020);
+         $self->{ca}->{name}
+             .= chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020));
          ## Stay in the state
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 1149 
 sub _get_next_token ($) {
+Line 1249 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          # reconsume
          return  ($self->{ct}); # start tag or end tag
-Line 1225 
 sub _get_next_token ($) {
+Line 1326 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 1244 
 sub _get_next_token ($) {
+Line 1346 
 sub _get_next_token ($) {
                 $self->{nc} <= 0x005A) { # A..Z
          $self->{ca}
-             = {name => chr ($self->{nc} + 0x0020),
+             = {name => chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020)),
                 value => '',
                 line => $self->{line}, column => $self->{column}};
          $self->{state} = ATTRIBUTE_NAME_STATE;
-Line 1292 
 sub _get_next_token ($) {
+Line 1394 
 sub _get_next_token ($) {
          } else {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
+         $self->{s_kwd} = '';
          $self->{state} = DATA_STATE;
          # reconsume
-Line 1393 
 sub _get_next_token ($) {
+Line 1496 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 1426 
 sub _get_next_token ($) {
+Line 1530 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          return  ($self->{ct}); # start tag or end tag
-Line 1508 
 sub _get_next_token ($) {
+Line 1613 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          return  ($self->{ct}); # start tag or end tag
-Line 1589 
 sub _get_next_token ($) {
+Line 1695 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          return  ($self->{ct}); # start tag or end tag
-Line 1669 
 sub _get_next_token ($) {
+Line 1776 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 1702 
 sub _get_next_token ($) {
+Line 1810 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          return  ($self->{ct}); # start tag or end tag
-Line 1770 
 sub _get_next_token ($) {
+Line 1879 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 1817 
 sub _get_next_token ($) {
+Line 1927 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## Reconsume.
          return  ($self->{ct}); # start tag or end tag
          redo A;
-Line 1847 
 sub _get_next_token ($) {
+Line 1958 
 sub _get_next_token ($) {
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 1879 
 sub _get_next_token ($) {
+Line 1991 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## Reconsume.
          return  ($self->{ct}); # start tag or end tag
          redo A;
-Line 1899 
 sub _get_next_token ($) {
+Line 2012 
 sub _get_next_token ($) {
        if ($self->{nc} == 0x003E) { # >
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 1916 
 sub _get_next_token ($) {
+Line 2030 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == -1) {
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          return  ($self->{ct}); # comment
-Line 1977 
 sub _get_next_token ($) {
+Line 2092 
 sub _get_next_token ($) {
      }
          redo A;
-       } elsif ($self->{insertion_mode} & IN_FOREIGN_CONTENT_IM and
+       } elsif ((($self->{insertion_mode} & IN_FOREIGN_CONTENT_IM and
-                $self->{open_elements}->[-1]->[1] & FOREIGN_EL and
+                  $self->{open_elements}->[-1]->[1] & FOREIGN_EL) or
+                 $self->{is_xml}) and
                 $self->{nc} == 0x005B) { # [
          $self->{state} = MD_CDATA_STATE;
-Line 2137 
 sub _get_next_token ($) {
+Line 2253 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{s_kwd} eq '[CDATA' and
                 $self->{nc} == 0x005B) { # [
+         if ($self->{is_xml} and
+             not $self->{tainted} and
+             @{$self->{open_elements} or []} == 0) {
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'cdata outside of root element',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 7);
+           $self->{tainted} = 1;
+         } else {
+         }
          $self->{ct} = {type => CHARACTER_TOKEN,
                                    data => '',
                                    line => $self->{line_prev},
-Line 2189 
 sub _get_next_token ($) {
+Line 2316 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'bogus comment');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 2208 
 sub _get_next_token ($) {
+Line 2336 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed comment');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          return  ($self->{ct}); # comment
-Line 2251 
 sub _get_next_token ($) {
+Line 2380 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'bogus comment');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 2270 
 sub _get_next_token ($) {
+Line 2400 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed comment');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          return  ($self->{ct}); # comment
-Line 2313 
 sub _get_next_token ($) {
+Line 2444 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed comment');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          return  ($self->{ct}); # comment
-Line 2358 
 sub _get_next_token ($) {
+Line 2490 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == -1) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed comment');
+         $self->{s_kwd} = '';
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          return  ($self->{ct}); # comment
-Line 2385 
 sub _get_next_token ($) {
+Line 2519 
 sub _get_next_token ($) {
        if ($self->{nc} == 0x003E) { # >
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 2423 
 sub _get_next_token ($) {
+Line 2558 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed comment');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          return  ($self->{ct}); # comment
-Line 2491 
 sub _get_next_token ($) {
+Line 2627 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'no DOCTYPE name');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 2510 
 sub _get_next_token ($) {
+Line 2647 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'no DOCTYPE name');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          return  ($self->{ct}); # DOCTYPE (quirks)
-Line 2553 
 sub _get_next_token ($) {
+Line 2691 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == 0x003E) { # >
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 2572 
 sub _get_next_token ($) {
+Line 2711 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed DOCTYPE');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 2615 
 sub _get_next_token ($) {
+Line 2755 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == 0x003E) { # >
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 2634 
 sub _get_next_token ($) {
+Line 2775 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed DOCTYPE');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 2862 
 sub _get_next_token ($) {
+Line 3004 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'no PUBLIC literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 2883 
 sub _get_next_token ($) {
+Line 3026 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed DOCTYPE');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 2929 
 sub _get_next_token ($) {
+Line 3073 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed PUBLIC literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 2950 
 sub _get_next_token ($) {
+Line 3095 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed PUBLIC literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 2998 
 sub _get_next_token ($) {
+Line 3144 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed PUBLIC literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 3019 
 sub _get_next_token ($) {
+Line 3166 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed PUBLIC literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 3097 
 sub _get_next_token ($) {
+Line 3245 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == 0x003E) { # >
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 3117 
 sub _get_next_token ($) {
+Line 3266 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed DOCTYPE');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 3194 
 sub _get_next_token ($) {
+Line 3344 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'no SYSTEM literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 3215 
 sub _get_next_token ($) {
+Line 3366 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed DOCTYPE');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 3261 
 sub _get_next_token ($) {
+Line 3413 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed SYSTEM literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 3282 
 sub _get_next_token ($) {
+Line 3435 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed SYSTEM literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 3330 
 sub _get_next_token ($) {
+Line 3484 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed SYSTEM literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 3351 
 sub _get_next_token ($) {
+Line 3506 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed SYSTEM literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 3397 
 sub _get_next_token ($) {
+Line 3553 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == 0x003E) { # >
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 3416 
 sub _get_next_token ($) {
+Line 3573 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed DOCTYPE');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 3445 
 sub _get_next_token ($) {
+Line 3603 
 sub _get_next_token ($) {
        if ($self->{nc} == 0x003E) { # >
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 3463 
 sub _get_next_token ($) {
+Line 3622 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == -1) {
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          return  ($self->{ct}); # DOCTYPE
-Line 3508 
 sub _get_next_token ($) {
+Line 3668 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == -1) {
+         if ($self->{is_xml}) {
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'no mse'); ## TODO: type
+         } else {
+         }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 3577 
 sub _get_next_token ($) {
+Line 3745 
 sub _get_next_token ($) {
      } elsif ($self->{state} == CDATA_SECTION_MSE2_STATE) {
        if ($self->{nc} == 0x003E) { # >
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 3684 
 sub _get_next_token ($) {
+Line 3853 
 sub _get_next_token ($) {
        if ($self->{prev_state} == DATA_STATE) {
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          return  ({type => CHARACTER_TOKEN, data => '&',
                    line => $self->{line_prev},
-Line 3694 
 sub _get_next_token ($) {
+Line 3864 
 sub _get_next_token ($) {
          $self->{ca}->{value} .= '&';
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          redo A;
        }
-Line 3744 
 sub _get_next_token ($) {
+Line 3915 
 sub _get_next_token ($) {
          if ($self->{prev_state} == DATA_STATE) {
            $self->{state} = $self->{prev_state};
+           $self->{s_kwd} = '';
            ## Reconsume.
            return  ({type => CHARACTER_TOKEN,
                      data => '&#',
-Line 3755 
 sub _get_next_token ($) {
+Line 3927 
 sub _get_next_token ($) {
            $self->{ca}->{value} .= '&#';
            $self->{state} = $self->{prev_state};
+           $self->{s_kwd} = '';
            ## Reconsume.
            redo A;
          }
-Line 3820 
 sub _get_next_token ($) {
+Line 3993 
 sub _get_next_token ($) {
        if ($self->{prev_state} == DATA_STATE) {
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          return  ({type => CHARACTER_TOKEN, data => chr $code,
+                   has_reference => 1,
                    line => $l, column => $c,
                   });
          redo A;
-Line 3830 
 sub _get_next_token ($) {
+Line 4005 
 sub _get_next_token ($) {
          $self->{ca}->{value} .= chr $code;
          $self->{ca}->{has_reference} = 1;
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          redo A;
        }
-Line 3855 
 sub _get_next_token ($) {
+Line 4031 
 sub _get_next_token ($) {
          if ($self->{prev_state} == DATA_STATE) {
            $self->{state} = $self->{prev_state};
+           $self->{s_kwd} = '';
            ## Reconsume.
            return  ({type => CHARACTER_TOKEN,
                      data => '&' . $self->{s_kwd},
-Line 3866 
 sub _get_next_token ($) {
+Line 4043 
 sub _get_next_token ($) {
            $self->{ca}->{value} .= '&' . $self->{s_kwd};
            $self->{state} = $self->{prev_state};
+           $self->{s_kwd} = '';
            ## Reconsume.
            redo A;
          }
-Line 3968 
 sub _get_next_token ($) {
+Line 4146 
 sub _get_next_token ($) {
        if ($self->{prev_state} == DATA_STATE) {
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          return  ({type => CHARACTER_TOKEN, data => chr $code,
+                   has_reference => 1,
                    line => $l, column => $c,
                   });
          redo A;
-Line 3978 
 sub _get_next_token ($) {
+Line 4158 
 sub _get_next_token ($) {
          $self->{ca}->{value} .= chr $code;
          $self->{ca}->{has_reference} = 1;
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          redo A;
        }
-Line 4090 
 sub _get_next_token ($) {
+Line 4271 
 sub _get_next_token ($) {
        if ($self->{prev_state} == DATA_STATE) {
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          return  ({type => CHARACTER_TOKEN,
                    data => $data,
+                   has_reference => $has_ref,
                    line => $self->{line_prev},
                    column => $self->{column_prev} + 1 - length $self->{s_kwd},
                   });
-Line 4102 
 sub _get_next_token ($) {
+Line 4285 
 sub _get_next_token ($) {
          $self->{ca}->{value} .= $data;
          $self->{ca}->{has_reference} = 1 if $has_ref;
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          redo A;
        }
+     ## XML-only states
+     } elsif ($self->{state} == PI_STATE) {
+       if ($is_space->{$self->{nc}} or
+           $self->{nc} == 0x003F or # ? ## XML5: Same as "Anything else"
+           $self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'bare pio', ## TODO: type
+                         line => $self->{line_prev},
+                         column => $self->{column_prev}
+                             - 1 * ($self->{nc} != -1));
+         $self->{state} = BOGUS_COMMENT_STATE;
+         ## Reconsume.
+         $self->{ct} = {type => COMMENT_TOKEN,
+                        data => '?',
+                        line => $self->{line_prev},
+                        column => $self->{column_prev}
+                            - 1 * ($self->{nc} != -1),
+                       };
+         redo A;
+       } else {
+         $self->{ct} = {type => PI_TOKEN,
+                        target => chr $self->{nc},
+                        data => '',
+                        line => $self->{line_prev},
+                        column => $self->{column_prev} - 1,
+                       };
+         $self->{state} = PI_TARGET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       }
+     } elsif ($self->{state} == PI_TARGET_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         $self->{state} = PI_TARGET_AFTER_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no pic'); ## TODO: type
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         ## Reconsume.
+         return  ($self->{ct}); # pi
+         redo A;
+       } elsif ($self->{nc} == 0x003F) { # ?
+         $self->{state} = PI_AFTER_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } else {
+         ## XML5: typo ("tag name" -> "target")
+         $self->{ct}->{target} .= chr $self->{nc}; # pi
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       }
+     } elsif ($self->{state} == PI_TARGET_AFTER_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } else {
+         $self->{state} = PI_DATA_STATE;
+         ## Reprocess.
+         redo A;
+       }
+     } elsif ($self->{state} == PI_DATA_STATE) {
+       if ($self->{nc} == 0x003F) { # ?
+         $self->{state} = PI_DATA_AFTER_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no pic'); ## TODO: type
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         ## Reprocess.
+         return  ($self->{ct}); # pi
+         redo A;
+       } else {
+         $self->{ct}->{data} .= chr $self->{nc}; # pi
+         $self->{read_until}->($self->{ct}->{data}, q[?],
+                               length $self->{ct}->{data});
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         ## Reprocess.
+         redo A;
+       }
+     } elsif ($self->{state} == PI_AFTER_STATE) {
+       if ($self->{nc} == 0x003E) { # >
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # pi
+         redo A;
+       } elsif ($self->{nc} == 0x003F) { # ?
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no s after target', ## TODO: type
+                         line => $self->{line_prev},
+                         column => $self->{column_prev}); ## XML5: no error
+         $self->{ct}->{data} .= '?';
+         $self->{state} = PI_DATA_AFTER_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } else {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no s after target', ## TODO: type
+                         line => $self->{line_prev},
+                         column => $self->{column_prev}
+                             + 1 * ($self->{nc} == -1)); ## XML5: no error
+         $self->{ct}->{data} .= '?'; ## XML5: not appended
+         $self->{state} = PI_DATA_STATE;
+         ## Reprocess.
+         redo A;
+       }
+     } elsif ($self->{state} == PI_DATA_AFTER_STATE) {
+       ## XML5: Same as "pi after state" in XML5
+       if ($self->{nc} == 0x003E) { # >
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # pi
+         redo A;
+       } elsif ($self->{nc} == 0x003F) { # ?
+         $self->{ct}->{data} .= '?';
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } else {
+         $self->{ct}->{data} .= '?'; ## XML5: not appended
+         $self->{state} = PI_DATA_STATE;
+         ## Reprocess.
+         redo A;
+       }
      } else {
        die "$0: $self->{state}: Unknown state";
      }

 Legend:



Removed from v.1.1
 


changed lines


 
Added in v.1.8
 Legend:



Removed from v.1.1
 


changed lines


 
Added in v.1.8
-Removed from v.1.1
+Added in v.1.8

admin@suikawiki.org	ViewVC Help
Powered by ViewVC 1.1.24