/[suikacvs]/markup/html/whatpm/Whatpm/HTML/Tokenizer.pm.src

Diff of /markup/html/whatpm/Whatpm/HTML/Tokenizer.pm.src

Parent Directory | Revision Log | View Patch Patch

-revision 1.2 by wakaba,
Tue Oct 14 04:32:49 2008 UTC
+revision 1.11 by wakaba,
Wed Oct 15 10:50:38 2008 UTC
 Line 114 
 sub HEXREF_HEX_STATE () { 48 }
  sub ENTITY_NAME_STATE () { 49 }
  sub PCDATA_STATE () { 50 } # "data state" in the spec
+ ## XML states
+ sub PI_STATE () { 51 }
+ sub PI_TARGET_STATE () { 52 }
+ sub PI_TARGET_AFTER_STATE () { 53 }
+ sub PI_DATA_STATE () { 54 }
+ sub PI_AFTER_STATE () { 55 }
+ sub PI_DATA_AFTER_STATE () { 56 }
  ## Tree constructor state constants (see Whatpm::HTML for the full
  ## list and descriptions)
-Line 175 
 sub _initialize_tokenizer ($) {
+Line 183 
 sub _initialize_tokenizer ($) {
    #$self->{level}
    #$self->{set_nc}
    #$self->{parse_error}
+   #$self->{is_xml} (if XML)
    $self->{state} = DATA_STATE; # MUST
-   #$self->{s_kwd}; # state keyword - initialized when used
+   $self->{s_kwd} = ''; # state keyword
    #$self->{entity__value}; # initialized when used
    #$self->{entity__match}; # initialized when used
    $self->{content_model} = PCDATA_CONTENT_MODEL; # be
-Line 197 
 sub _initialize_tokenizer ($) {
+Line 206 
 sub _initialize_tokenizer ($) {
  ## A token has:
  ##   ->{type} == DOCTYPE_TOKEN, START_TAG_TOKEN, END_TAG_TOKEN, COMMENT_TOKEN,
- ##       CHARACTER_TOKEN, or END_OF_FILE_TOKEN
+ ##       CHARACTER_TOKEN, END_OF_FILE_TOKEN, PI_TOKEN, or ABORT_TOKEN
  ##   ->{name} (DOCTYPE_TOKEN)
  ##   ->{tag_name} (START_TAG_TOKEN, END_TAG_TOKEN)
+ ##   ->{target} (PI_TOKEN)
  ##   ->{pubid} (DOCTYPE_TOKEN)
  ##   ->{sysid} (DOCTYPE_TOKEN)
  ##   ->{quirks} == 1 or 0 (DOCTYPE_TOKEN): "force-quirks" flag
-Line 207 
 sub _initialize_tokenizer ($) {
+Line 217 
 sub _initialize_tokenizer ($) {
  ##        ->{name}
  ##        ->{value}
  ##        ->{has_reference} == 1 or 0
- ##   ->{data} (COMMENT_TOKEN, CHARACTER_TOKEN)
+ ##        ->{index}: Index of the attribute in a tag.
+ ##   ->{data} (COMMENT_TOKEN, CHARACTER_TOKEN, PI_TOKEN)
+ ##   ->{has_reference} == 1 or 0 (CHARACTER_TOKEN)
+ ##   ->{last_index} (ELEMENT_TOKEN): Next attribute's index - 1.
  ## NOTE: The "self-closing flag" is hold as |$self->{self_closing}|.
  ##     |->{self_closing}| is used to save the value of |$self->{self_closing}|
  ##     while the token is pushed back to the stack.
-Line 311 
 sub _get_next_token ($) {
+Line 324 
 sub _get_next_token ($) {
          }
        } elsif ($self->{nc} == 0x002D) { # -
          if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
-           $self->{s_kwd} .= '-';
+           if ($self->{s_kwd} eq '<!-') {
-           if ($self->{s_kwd} eq '<!--') {
              !!!cp (3);
              $self->{escape} = 1; # unless $self->{escape};
              $self->{s_kwd} = '--';
              #
-           } elsif ($self->{s_kwd} eq '---') {
+           } elsif ($self->{s_kwd} eq '-') {
              !!!cp (4);
              $self->{s_kwd} = '--';
              #
+           } elsif ($self->{s_kwd} eq '<!' or $self->{s_kwd} eq '-') {
+             !!!cp (4.1);
+             $self->{s_kwd} .= '-';
+             #
            } else {
              !!!cp (5);
+             $self->{s_kwd} = '-';
              #
            }
          }
-Line 359 
 sub _get_next_token ($) {
+Line 375 
 sub _get_next_token ($) {
            if ($self->{s_kwd} eq '--') {
              !!!cp (8);
              delete $self->{escape};
+             #
            } else {
              !!!cp (9);
+             #
            }
+         } elsif ($self->{is_xml} and $self->{s_kwd} eq ']]') {
+           !!!cp (9.1);
+           !!!parse-error (type => 'unmatched mse', ## TODO: type
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 1);
+           #
          } else {
            !!!cp (10);
+           #
          }
          $self->{s_kwd} = '';
          #
+       } elsif ($self->{nc} == 0x005D) { # ]
+         if ($self->{s_kwd} eq ']' or $self->{s_kwd} eq '') {
+           !!!cp (10.1);
+           $self->{s_kwd} .= ']';
+         } elsif ($self->{s_kwd} eq ']]') {
+           !!!cp (10.2);
+           #
+         } else {
+           !!!cp (10.3);
+           $self->{s_kwd} = '';
+         }
+         #
        } elsif ($self->{nc} == -1) {
          !!!cp (11);
          $self->{s_kwd} = '';
-Line 385 
 sub _get_next_token ($) {
+Line 422 
 sub _get_next_token ($) {
                     data => chr $self->{nc},
                     line => $self->{line}, column => $self->{column},
                    };
-       if ($self->{read_until}->($token->{data}, q[-!<>&],
+       if ($self->{read_until}->($token->{data}, q{-!<>&\]},
                                  length $token->{data})) {
          $self->{s_kwd} = '';
        }
        ## Stay in the data state.
-       if ($self->{content_model} == PCDATA_CONTENT_MODEL) {
+       if (not $self->{is_xml} and
+           $self->{content_model} == PCDATA_CONTENT_MODEL) {
          !!!cp (13);
          $self->{state} = PCDATA_STATE;
        } else {
-Line 402 
 sub _get_next_token ($) {
+Line 440 
 sub _get_next_token ($) {
        !!!emit ($token);
        redo A;
      } elsif ($self->{state} == TAG_OPEN_STATE) {
+       ## XML5: "tag state".
        if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
          if ($self->{nc} == 0x002F) { # /
            !!!cp (15);
-Line 419 
 sub _get_next_token ($) {
+Line 459 
 sub _get_next_token ($) {
          ## reconsume
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!emit ({type => CHARACTER_TOKEN, data => '<',
                    line => $self->{line_prev},
                    column => $self->{column_prev},
-Line 440 
 sub _get_next_token ($) {
+Line 481 
 sub _get_next_token ($) {
            !!!cp (19);
            $self->{ct}
              = {type => START_TAG_TOKEN,
-                tag_name => chr ($self->{nc} + 0x0020),
+                tag_name => chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020)),
                 line => $self->{line_prev},
                 column => $self->{column_prev}};
            $self->{state} = TAG_NAME_STATE;
-Line 462 
 sub _get_next_token ($) {
+Line 503 
 sub _get_next_token ($) {
                            line => $self->{line_prev},
                            column => $self->{column_prev});
            $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
            !!!next-input-character;
            !!!emit ({type => CHARACTER_TOKEN, data => '<>',
-Line 471 
 sub _get_next_token ($) {
+Line 513 
 sub _get_next_token ($) {
            redo A;
          } elsif ($self->{nc} == 0x003F) { # ?
-           !!!cp (22);
+           if ($self->{is_xml}) {
-           !!!parse-error (type => 'pio',
+             !!!cp (22.1);
-                           line => $self->{line_prev},
+             $self->{state} = PI_STATE;
-                           column => $self->{column_prev});
+             !!!next-input-character;
-           $self->{state} = BOGUS_COMMENT_STATE;
+             redo A;
-           $self->{ct} = {type => COMMENT_TOKEN, data => '',
+           } else {
-                                     line => $self->{line_prev},
+             !!!cp (22);
-                                     column => $self->{column_prev},
+             !!!parse-error (type => 'pio',
-                                    };
+                             line => $self->{line_prev},
-           ## $self->{nc} is intentionally left as is
+                             column => $self->{column_prev});
-           redo A;
+             $self->{state} = BOGUS_COMMENT_STATE;
-         } else {
+             $self->{ct} = {type => COMMENT_TOKEN, data => '',
+                            line => $self->{line_prev},
+                            column => $self->{column_prev},
+                           };
+             ## $self->{nc} is intentionally left as is
+             redo A;
+           }
+         } elsif (not $self->{is_xml} or $is_space->{$self->{nc}}) {
            !!!cp (23);
            !!!parse-error (type => 'bare stago',
                            line => $self->{line_prev},
                            column => $self->{column_prev});
            $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
            ## reconsume
            !!!emit ({type => CHARACTER_TOKEN, data => '<',
-Line 496 
 sub _get_next_token ($) {
+Line 546 
 sub _get_next_token ($) {
                     });
            redo A;
+         } else {
+           ## XML5: "<:" is a parse error.
+           !!!cp (23.1);
+           $self->{ct} = {type => START_TAG_TOKEN,
+                                     tag_name => chr ($self->{nc}),
+                                     line => $self->{line_prev},
+                                     column => $self->{column_prev}};
+           $self->{state} = TAG_NAME_STATE;
+           !!!next-input-character;
+           redo A;
          }
        } else {
          die "$0: $self->{content_model} in tag open";
-Line 504 
 sub _get_next_token ($) {
+Line 564 
 sub _get_next_token ($) {
        ## NOTE: The "close tag open state" in the spec is implemented as
        ## |CLOSE_TAG_OPEN_STATE| and |CDATA_RCDATA_CLOSE_TAG_STATE|.
+       ## XML5: "end tag state".
        my ($l, $c) = ($self->{line_prev}, $self->{column_prev} - 1); # "<"of"</"
        if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
          if (defined $self->{last_stag_name}) {
-Line 516 
 sub _get_next_token ($) {
+Line 578 
 sub _get_next_token ($) {
            ## NOTE: See <http://krijnhoetmer.nl/irc-logs/whatwg/20070626#l-564>.
            !!!cp (28);
            $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
            ## Reconsume.
            !!!emit ({type => CHARACTER_TOKEN, data => '</',
                      line => $l, column => $c,
-Line 529 
 sub _get_next_token ($) {
+Line 592 
 sub _get_next_token ($) {
          !!!cp (29);
          $self->{ct}
              = {type => END_TAG_TOKEN,
-                tag_name => chr ($self->{nc} + 0x0020),
+                tag_name => chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020)),
                 line => $l, column => $c};
          $self->{state} = TAG_NAME_STATE;
          !!!next-input-character;
-Line 544 
 sub _get_next_token ($) {
+Line 607 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
-         !!!cp (31);
          !!!parse-error (type => 'empty end tag',
                          line => $self->{line_prev}, ## "<" in "</>"
                          column => $self->{column_prev} - 1);
          $self->{state} = DATA_STATE;
-         !!!next-input-character;
+         $self->{s_kwd} = '';
+         if ($self->{is_xml}) {
+           !!!cp (31);
+           ## XML5: No parse error.
+           ## NOTE: This parser raises a parse error, since it supports
+           ## XML1, not XML5.
+           ## NOTE: A short end tag token.
+           my $ct = {type => END_TAG_TOKEN,
+                     tag_name => '',
+                     line => $self->{line_prev},
+                     column => $self->{column_prev} - 1,
+                    };
+           !!!next-input-character;
+           !!!emit ($ct);
+         } else {
+           !!!cp (31.1);
+           !!!next-input-character;
+         }
          redo A;
        } elsif ($self->{nc} == -1) {
          !!!cp (32);
          !!!parse-error (type => 'bare etago');
+         $self->{s_kwd} = '';
          $self->{state} = DATA_STATE;
          # reconsume
-Line 562 
 sub _get_next_token ($) {
+Line 644 
 sub _get_next_token ($) {
                   });
          redo A;
-       } else {
+       } elsif (not $self->{is_xml} or
+                $is_space->{$self->{nc}}) {
          !!!cp (33);
-         !!!parse-error (type => 'bogus end tag');
+         !!!parse-error (type => 'bogus end tag',
+                         line => $self->{line_prev}, # "<" of "</"
+                         column => $self->{column_prev} - 1);
          $self->{state} = BOGUS_COMMENT_STATE;
          $self->{ct} = {type => COMMENT_TOKEN, data => '',
                                    line => $self->{line_prev}, # "<" of "</"
-Line 577 
 sub _get_next_token ($) {
+Line 662 
 sub _get_next_token ($) {
          ## generated from the bogus end tag, as defined in the
          ## "bogus comment state" entry.
          redo A;
+       } else {
+         ## XML5: "</:" is a parse error.
+         !!!cp (30.1);
+         $self->{ct} = {type => END_TAG_TOKEN,
+                        tag_name => chr ($self->{nc}),
+                        line => $l, column => $c};
+         $self->{state} = TAG_NAME_STATE; ## XML5: "end tag name state".
+         !!!next-input-character;
+         redo A;
        }
      } elsif ($self->{state} == CDATA_RCDATA_CLOSE_TAG_STATE) {
        my $ch = substr $self->{last_stag_name}, length $self->{s_kwd}, 1;
-Line 593 
 sub _get_next_token ($) {
+Line 687 
 sub _get_next_token ($) {
          } else {
            !!!cp (25);
            $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
            ## Reconsume.
            !!!emit ({type => CHARACTER_TOKEN,
                      data => '</' . $self->{s_kwd},
-Line 611 
 sub _get_next_token ($) {
+Line 706 
 sub _get_next_token ($) {
            !!!cp (26);
            ## Reconsume.
            $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
            !!!emit ({type => CHARACTER_TOKEN,
                      data => '</' . $self->{s_kwd},
                      line => $self->{line_prev},
-Line 652 
 sub _get_next_token ($) {
+Line 748 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # start tag or end tag
-Line 660 
 sub _get_next_token ($) {
+Line 757 
 sub _get_next_token ($) {
        } elsif (0x0041 <= $self->{nc} and
                 $self->{nc} <= 0x005A) { # A..Z
          !!!cp (38);
-         $self->{ct}->{tag_name} .= chr ($self->{nc} + 0x0020);
+         $self->{ct}->{tag_name}
+             .= chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020));
            # start tag or end tag
          ## Stay in this state
          !!!next-input-character;
-Line 683 
 sub _get_next_token ($) {
+Line 781 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          # reconsume
          !!!emit ($self->{ct}); # start tag or end tag
-Line 702 
 sub _get_next_token ($) {
+Line 801 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == BEFORE_ATTRIBUTE_NAME_STATE) {
+       ## XML5: "Tag attribute name before state".
        if ($is_space->{$self->{nc}}) {
          !!!cp (45);
          ## Stay in the state
-Line 723 
 sub _get_next_token ($) {
+Line 824 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # start tag or end tag
-Line 732 
 sub _get_next_token ($) {
+Line 834 
 sub _get_next_token ($) {
                 $self->{nc} <= 0x005A) { # A..Z
          !!!cp (49);
          $self->{ca}
-             = {name => chr ($self->{nc} + 0x0020),
+             = {name => chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020)),
                 value => '',
                 line => $self->{line}, column => $self->{column}};
          $self->{state} = ATTRIBUTE_NAME_STATE;
-Line 760 
 sub _get_next_token ($) {
+Line 862 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          # reconsume
          !!!emit ($self->{ct}); # start tag or end tag
-Line 772 
 sub _get_next_token ($) {
+Line 875 
 sub _get_next_token ($) {
 x003D => 1, # =
              }->{$self->{nc}}) {
            !!!cp (55);
+           ## XML5: Not a parse error.
            !!!parse-error (type => 'bad attribute name');
          } else {
            !!!cp (56);
+           ## XML5: ":" raises a parse error and is ignored.
          }
          $self->{ca}
              = {name => chr ($self->{nc}),
-Line 785 
 sub _get_next_token ($) {
+Line 890 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ATTRIBUTE_NAME_STATE) {
+       ## XML5: "Tag attribute name state".
        my $before_leave = sub {
          if (exists $self->{ct}->{attributes} # start tag or end tag
              ->{$self->{ca}->{name}}) { # MUST
-Line 795 
 sub _get_next_token ($) {
+Line 902 
 sub _get_next_token ($) {
            !!!cp (58);
            $self->{ct}->{attributes}->{$self->{ca}->{name}}
              = $self->{ca};
+           $self->{ca}->{index} = ++$self->{ct}->{last_index};
          }
        }; # $before_leave
-Line 811 
 sub _get_next_token ($) {
+Line 919 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
+         if ($self->{is_xml}) {
+           !!!cp (60.1);
+           ## XML5: Not a parse error.
+           !!!parse-error (type => 'no attr value'); ## TODO: type
+         } else {
+           !!!cp (60.2);
+         }
          $before_leave->();
          if ($self->{ct}->{type} == START_TAG_TOKEN) {
            !!!cp (61);
-Line 825 
 sub _get_next_token ($) {
+Line 941 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # start tag or end tag
-Line 833 
 sub _get_next_token ($) {
+Line 950 
 sub _get_next_token ($) {
        } elsif (0x0041 <= $self->{nc} and
                 $self->{nc} <= 0x005A) { # A..Z
          !!!cp (63);
-         $self->{ca}->{name} .= chr ($self->{nc} + 0x0020);
+         $self->{ca}->{name}
+             .= chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020));
          ## Stay in the state
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x002F) { # /
-         !!!cp (64);
+         if ($self->{is_xml}) {
+           !!!cp (64);
+           ## XML5: Not a parse error.
+           !!!parse-error (type => 'no attr value'); ## TODO: type
+         } else {
+           !!!cp (64.1);
+         }
          $before_leave->();
          $self->{state} = SELF_CLOSING_START_TAG_STATE;
          !!!next-input-character;
-Line 862 
 sub _get_next_token ($) {
+Line 987 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          # reconsume
          !!!emit ($self->{ct}); # start tag or end tag
-Line 871 
 sub _get_next_token ($) {
+Line 997 
 sub _get_next_token ($) {
          if ($self->{nc} == 0x0022 or # "
              $self->{nc} == 0x0027) { # '
            !!!cp (69);
+           ## XML5: Not a parse error.
            !!!parse-error (type => 'bad attribute name');
          } else {
            !!!cp (70);
-Line 881 
 sub _get_next_token ($) {
+Line 1008 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == AFTER_ATTRIBUTE_NAME_STATE) {
+       ## XML5: "Tag attribute name after state".
        if ($is_space->{$self->{nc}}) {
          !!!cp (71);
          ## Stay in the state
-Line 892 
 sub _get_next_token ($) {
+Line 1021 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
+         if ($self->{is_xml}) {
+           !!!cp (72.1);
+           ## XML5: Not a parse error.
+           !!!parse-error (type => 'no attr value'); ## TODO: type
+         } else {
+           !!!cp (72.2);
+         }
          if ($self->{ct}->{type} == START_TAG_TOKEN) {
            !!!cp (73);
            $self->{last_stag_name} = $self->{ct}->{tag_name};
-Line 908 
 sub _get_next_token ($) {
+Line 1045 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # start tag or end tag
-Line 917 
 sub _get_next_token ($) {
+Line 1055 
 sub _get_next_token ($) {
                 $self->{nc} <= 0x005A) { # A..Z
          !!!cp (76);
          $self->{ca}
-             = {name => chr ($self->{nc} + 0x0020),
+             = {name => chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020)),
                 value => '',
                 line => $self->{line}, column => $self->{column}};
          $self->{state} = ATTRIBUTE_NAME_STATE;
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x002F) { # /
-         !!!cp (77);
+         if ($self->{is_xml}) {
+           !!!cp (77);
+           ## XML5: Not a parse error.
+           !!!parse-error (type => 'no attr value'); ## TODO: type
+         } else {
+           !!!cp (77.1);
+         }
          $self->{state} = SELF_CLOSING_START_TAG_STATE;
          !!!next-input-character;
          redo A;
-Line 945 
 sub _get_next_token ($) {
+Line 1090 
 sub _get_next_token ($) {
          } else {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
+         $self->{s_kwd} = '';
          $self->{state} = DATA_STATE;
          # reconsume
-Line 952 
 sub _get_next_token ($) {
+Line 1098 
 sub _get_next_token ($) {
          redo A;
        } else {
+         if ($self->{is_xml}) {
+           !!!cp (78.1);
+           ## XML5: Not a parse error.
+           !!!parse-error (type => 'no attr value'); ## TODO: type
+         } else {
+           !!!cp (78.2);
+         }
          if ($self->{nc} == 0x0022 or # "
              $self->{nc} == 0x0027) { # '
            !!!cp (78);
+           ## XML5: Not a parse error.
            !!!parse-error (type => 'bad attribute name');
          } else {
            !!!cp (82);
-Line 968 
 sub _get_next_token ($) {
+Line 1123 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == BEFORE_ATTRIBUTE_VALUE_STATE) {
+       ## XML5: "Tag attribute value before state".
        if ($is_space->{$self->{nc}}) {
          !!!cp (83);
          ## Stay in the state
-Line 1006 
 sub _get_next_token ($) {
+Line 1163 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # start tag or end tag
-Line 1029 
 sub _get_next_token ($) {
+Line 1187 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          !!!emit ($self->{ct}); # start tag or end tag
-Line 1037 
 sub _get_next_token ($) {
+Line 1196 
 sub _get_next_token ($) {
        } else {
          if ($self->{nc} == 0x003D) { # =
            !!!cp (93);
+           ## XML5: Not a parse error.
            !!!parse-error (type => 'bad attribute value');
+         } elsif ($self->{is_xml}) {
+           !!!cp (93.1);
+           ## XML5: No parse error.
+           !!!parse-error (type => 'unquoted attr value'); ## TODO
          } else {
            !!!cp (94);
          }
-Line 1047 
 sub _get_next_token ($) {
+Line 1211 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ATTRIBUTE_VALUE_DOUBLE_QUOTED_STATE) {
+       ## XML5: "Tag attribute value double quoted state".
        if ($self->{nc} == 0x0022) { # "
          !!!cp (95);
+         ## XML5: "Tag attribute name before state".
          $self->{state} = AFTER_ATTRIBUTE_VALUE_QUOTED_STATE;
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x0026) { # &
          !!!cp (96);
+         ## XML5: Not defined yet.
          ## NOTE: In the spec, the tokenizer is switched to the
          ## "entity in attribute value state".  In this implementation, the
          ## tokenizer is switched to the |ENTITY_STATE|, which is an
-Line 1081 
 sub _get_next_token ($) {
+Line 1250 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          !!!emit ($self->{ct}); # start tag or end tag
          redo A;
        } else {
-         !!!cp (100);
+         if ($self->{is_xml} and $self->{nc} == 0x003C) { # <
+           !!!cp (100);
+           ## XML5: Not a parse error.
+           !!!parse-error (type => 'lt in attr value'); ## TODO: type
+         } else {
+           !!!cp (100.1);
+         }
          $self->{ca}->{value} .= chr ($self->{nc});
          $self->{read_until}->($self->{ca}->{value},
-                               q["&],
+                               q["&<],
                                length $self->{ca}->{value});
          ## Stay in the state
-Line 1098 
 sub _get_next_token ($) {
+Line 1274 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ATTRIBUTE_VALUE_SINGLE_QUOTED_STATE) {
+       ## XML5: "Tag attribute value single quoted state".
        if ($self->{nc} == 0x0027) { # '
          !!!cp (101);
+         ## XML5: "Before attribute name state" (sic).
          $self->{state} = AFTER_ATTRIBUTE_VALUE_QUOTED_STATE;
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x0026) { # &
          !!!cp (102);
+         ## XML5: Not defined yet.
          ## NOTE: In the spec, the tokenizer is switched to the
          ## "entity in attribute value state".  In this implementation, the
          ## tokenizer is switched to the |ENTITY_STATE|, which is an
-Line 1132 
 sub _get_next_token ($) {
+Line 1313 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          !!!emit ($self->{ct}); # start tag or end tag
          redo A;
        } else {
-         !!!cp (106);
+         if ($self->{is_xml} and $self->{nc} == 0x003C) { # <
+           !!!cp (106);
+           ## XML5: Not a parse error.
+           !!!parse-error (type => 'lt in attr value'); ## TODO: type
+         } else {
+           !!!cp (106.1);
+         }
          $self->{ca}->{value} .= chr ($self->{nc});
          $self->{read_until}->($self->{ca}->{value},
-                               q['&],
+                               q['&<],
                                length $self->{ca}->{value});
          ## Stay in the state
-Line 1149 
 sub _get_next_token ($) {
+Line 1337 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ATTRIBUTE_VALUE_UNQUOTED_STATE) {
+       ## XML5: "Tag attribute value unquoted state".
        if ($is_space->{$self->{nc}}) {
          !!!cp (107);
+         ## XML5: "Tag attribute name before state".
          $self->{state} = BEFORE_ATTRIBUTE_NAME_STATE;
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x0026) { # &
          !!!cp (108);
+         ## XML5: Not defined yet.
          ## NOTE: In the spec, the tokenizer is switched to the
          ## "entity in attribute value state".  In this implementation, the
          ## tokenizer is switched to the |ENTITY_STATE|, which is an
-Line 1182 
 sub _get_next_token ($) {
+Line 1376 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # start tag or end tag
-Line 1205 
 sub _get_next_token ($) {
+Line 1400 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          !!!emit ($self->{ct}); # start tag or end tag
-Line 1217 
 sub _get_next_token ($) {
+Line 1413 
 sub _get_next_token ($) {
 x003D => 1, # =
              }->{$self->{nc}}) {
            !!!cp (115);
+           ## XML5: Not a parse error.
            !!!parse-error (type => 'bad attribute value');
          } else {
            !!!cp (116);
-Line 1253 
 sub _get_next_token ($) {
+Line 1450 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # start tag or end tag
-Line 1280 
 sub _get_next_token ($) {
+Line 1478 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## Reconsume.
          !!!emit ($self->{ct}); # start tag or end tag
          redo A;
-Line 1291 
 sub _get_next_token ($) {
+Line 1490 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == SELF_CLOSING_START_TAG_STATE) {
+       ## XML5: "Empty tag state".
        if ($self->{nc} == 0x003E) { # >
          if ($self->{ct}->{type} == END_TAG_TOKEN) {
            !!!cp ('124.2');
-Line 1310 
 sub _get_next_token ($) {
+Line 1511 
 sub _get_next_token ($) {
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # start tag or end tag
-Line 1331 
 sub _get_next_token ($) {
+Line 1533 
 sub _get_next_token ($) {
          } else {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
+         ## XML5: "Tag attribute name before state".
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## Reconsume.
          !!!emit ($self->{ct}); # start tag or end tag
          redo A;
-Line 1352 
 sub _get_next_token ($) {
+Line 1556 
 sub _get_next_token ($) {
        if ($self->{nc} == 0x003E) { # >
          !!!cp (124);
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # comment
-Line 1359 
 sub _get_next_token ($) {
+Line 1564 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == -1) {
          !!!cp (125);
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          !!!emit ($self->{ct}); # comment
-Line 1390 
 sub _get_next_token ($) {
+Line 1596 
 sub _get_next_token ($) {
          $self->{s_kwd} = chr $self->{nc};
          !!!next-input-character;
          redo A;
-       } elsif ($self->{insertion_mode} & IN_FOREIGN_CONTENT_IM and
+       } elsif ((($self->{insertion_mode} & IN_FOREIGN_CONTENT_IM and
-                $self->{open_elements}->[-1]->[1] & FOREIGN_EL and
+                  $self->{open_elements}->[-1]->[1] & FOREIGN_EL) or
+                 $self->{is_xml}) and
                 $self->{nc} == 0x005B) { # [
          !!!cp (135.4);
          $self->{state} = MD_CDATA_STATE;
-Line 1419 
 sub _get_next_token ($) {
+Line 1626 
 sub _get_next_token ($) {
                                    line => $self->{line_prev},
                                    column => $self->{column_prev} - 2,
                                   };
-         $self->{state} = COMMENT_START_STATE;
+         $self->{state} = COMMENT_START_STATE; ## XML5: "comment state".
          !!!next-input-character;
          redo A;
        } else {
-Line 1462 
 sub _get_next_token ($) {
+Line 1669 
 sub _get_next_token ($) {
        } elsif ((length $self->{s_kwd}) == 6 and
                 ($self->{nc} == 0x0045 or # E
                  $self->{nc} == 0x0065)) { # e
-         !!!cp (129);
+         if ($self->{s_kwd} ne 'DOCTYP') {
+           !!!cp (129);
+           ## XML5: case-sensitive.
+           !!!parse-error (type => 'lowercase keyword', ## TODO
+                           text => 'DOCTYPE',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 5);
+         } else {
+           !!!cp (129.1);
+         }
          $self->{state} = DOCTYPE_STATE;
          $self->{ct} = {type => DOCTYPE_TOKEN,
                                    quirks => 1,
-Line 1500 
 sub _get_next_token ($) {
+Line 1716 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{s_kwd} eq '[CDATA' and
                 $self->{nc} == 0x005B) { # [
-         !!!cp (135.2);
+         if ($self->{is_xml} and
+             not $self->{tainted} and
+             @{$self->{open_elements} or []} == 0) {
+           !!!cp (135.2);
+           !!!parse-error (type => 'cdata outside of root element',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 7);
+           $self->{tainted} = 1;
+         } else {
+           !!!cp (135.21);
+         }
          $self->{ct} = {type => CHARACTER_TOKEN,
                                    data => '',
                                    line => $self->{line_prev},
-Line 1532 
 sub _get_next_token ($) {
+Line 1759 
 sub _get_next_token ($) {
          !!!cp (138);
          !!!parse-error (type => 'bogus comment');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # comment
-Line 1541 
 sub _get_next_token ($) {
+Line 1769 
 sub _get_next_token ($) {
          !!!cp (139);
          !!!parse-error (type => 'unclosed comment');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          !!!emit ($self->{ct}); # comment
-Line 1564 
 sub _get_next_token ($) {
+Line 1793 
 sub _get_next_token ($) {
          !!!cp (142);
          !!!parse-error (type => 'bogus comment');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # comment
-Line 1573 
 sub _get_next_token ($) {
+Line 1803 
 sub _get_next_token ($) {
          !!!cp (143);
          !!!parse-error (type => 'unclosed comment');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          !!!emit ($self->{ct}); # comment
-Line 1596 
 sub _get_next_token ($) {
+Line 1827 
 sub _get_next_token ($) {
          !!!cp (146);
          !!!parse-error (type => 'unclosed comment');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          !!!emit ($self->{ct}); # comment
-Line 1613 
 sub _get_next_token ($) {
+Line 1845 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == COMMENT_END_DASH_STATE) {
+       ## XML5: "comment dash state".
        if ($self->{nc} == 0x002D) { # -
          !!!cp (148);
          $self->{state} = COMMENT_END_STATE;
-Line 1621 
 sub _get_next_token ($) {
+Line 1855 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == -1) {
          !!!cp (149);
          !!!parse-error (type => 'unclosed comment');
+         $self->{s_kwd} = '';
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          !!!emit ($self->{ct}); # comment
-Line 1638 
 sub _get_next_token ($) {
+Line 1874 
 sub _get_next_token ($) {
        if ($self->{nc} == 0x003E) { # >
          !!!cp (151);
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # comment
-Line 1645 
 sub _get_next_token ($) {
+Line 1882 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x002D) { # -
          !!!cp (152);
+         ## XML5: Not a parse error.
          !!!parse-error (type => 'dash in comment',
                          line => $self->{line_prev},
                          column => $self->{column_prev});
-Line 1656 
 sub _get_next_token ($) {
+Line 1894 
 sub _get_next_token ($) {
          !!!cp (153);
          !!!parse-error (type => 'unclosed comment');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          !!!emit ($self->{ct}); # comment
-Line 1663 
 sub _get_next_token ($) {
+Line 1902 
 sub _get_next_token ($) {
          redo A;
        } else {
          !!!cp (154);
+         ## XML5: Not a parse error.
          !!!parse-error (type => 'dash in comment',
                          line => $self->{line_prev},
                          column => $self->{column_prev});
-Line 1694 
 sub _get_next_token ($) {
+Line 1934 
 sub _get_next_token ($) {
          !!!cp (158);
          !!!parse-error (type => 'no DOCTYPE name');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # DOCTYPE (quirks)
-Line 1703 
 sub _get_next_token ($) {
+Line 1944 
 sub _get_next_token ($) {
          !!!cp (159);
          !!!parse-error (type => 'no DOCTYPE name');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          !!!emit ($self->{ct}); # DOCTYPE (quirks)
-Line 1726 
 sub _get_next_token ($) {
+Line 1968 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == 0x003E) { # >
          !!!cp (162);
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # DOCTYPE
-Line 1735 
 sub _get_next_token ($) {
+Line 1978 
 sub _get_next_token ($) {
          !!!cp (163);
          !!!parse-error (type => 'unclosed DOCTYPE');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 1758 
 sub _get_next_token ($) {
+Line 2002 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == 0x003E) { # >
          !!!cp (166);
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # DOCTYPE
-Line 1767 
 sub _get_next_token ($) {
+Line 2012 
 sub _get_next_token ($) {
          !!!cp (167);
          !!!parse-error (type => 'unclosed DOCTYPE');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 1895 
 sub _get_next_token ($) {
+Line 2141 
 sub _get_next_token ($) {
          !!!parse-error (type => 'no PUBLIC literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          $self->{ct}->{quirks} = 1;
-Line 1906 
 sub _get_next_token ($) {
+Line 2153 
 sub _get_next_token ($) {
          !!!parse-error (type => 'unclosed DOCTYPE');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 1932 
 sub _get_next_token ($) {
+Line 2180 
 sub _get_next_token ($) {
          !!!parse-error (type => 'unclosed PUBLIC literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          $self->{ct}->{quirks} = 1;
-Line 1943 
 sub _get_next_token ($) {
+Line 2192 
 sub _get_next_token ($) {
          !!!parse-error (type => 'unclosed PUBLIC literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 1971 
 sub _get_next_token ($) {
+Line 2221 
 sub _get_next_token ($) {
          !!!parse-error (type => 'unclosed PUBLIC literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          $self->{ct}->{quirks} = 1;
-Line 1982 
 sub _get_next_token ($) {
+Line 2233 
 sub _get_next_token ($) {
          !!!parse-error (type => 'unclosed PUBLIC literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 2020 
 sub _get_next_token ($) {
+Line 2272 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == 0x003E) { # >
          !!!cp (198);
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # DOCTYPE
-Line 2030 
 sub _get_next_token ($) {
+Line 2283 
 sub _get_next_token ($) {
          !!!parse-error (type => 'unclosed DOCTYPE');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 2067 
 sub _get_next_token ($) {
+Line 2321 
 sub _get_next_token ($) {
          !!!cp (204);
          !!!parse-error (type => 'no SYSTEM literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          $self->{ct}->{quirks} = 1;
-Line 2078 
 sub _get_next_token ($) {
+Line 2333 
 sub _get_next_token ($) {
          !!!parse-error (type => 'unclosed DOCTYPE');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 2104 
 sub _get_next_token ($) {
+Line 2360 
 sub _get_next_token ($) {
          !!!parse-error (type => 'unclosed SYSTEM literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          $self->{ct}->{quirks} = 1;
-Line 2115 
 sub _get_next_token ($) {
+Line 2372 
 sub _get_next_token ($) {
          !!!parse-error (type => 'unclosed SYSTEM literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 2143 
 sub _get_next_token ($) {
+Line 2401 
 sub _get_next_token ($) {
          !!!parse-error (type => 'unclosed SYSTEM literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          $self->{ct}->{quirks} = 1;
-Line 2154 
 sub _get_next_token ($) {
+Line 2413 
 sub _get_next_token ($) {
          !!!parse-error (type => 'unclosed SYSTEM literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 2180 
 sub _get_next_token ($) {
+Line 2440 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == 0x003E) { # >
          !!!cp (216);
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # DOCTYPE
-Line 2189 
 sub _get_next_token ($) {
+Line 2450 
 sub _get_next_token ($) {
          !!!cp (217);
          !!!parse-error (type => 'unclosed DOCTYPE');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
-Line 2208 
 sub _get_next_token ($) {
+Line 2470 
 sub _get_next_token ($) {
        if ($self->{nc} == 0x003E) { # >
          !!!cp (219);
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # DOCTYPE
-Line 2216 
 sub _get_next_token ($) {
+Line 2479 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == -1) {
          !!!cp (220);
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          !!!emit ($self->{ct}); # DOCTYPE
-Line 2234 
 sub _get_next_token ($) {
+Line 2498 
 sub _get_next_token ($) {
        ## NOTE: "CDATA section state" in the state is jointly implemented
        ## by three states, |CDATA_SECTION_STATE|, |CDATA_SECTION_MSE1_STATE|,
        ## and |CDATA_SECTION_MSE2_STATE|.
+       ## XML5: "CDATA state".
        if ($self->{nc} == 0x005D) { # ]
          !!!cp (221.1);
-Line 2241 
 sub _get_next_token ($) {
+Line 2507 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == -1) {
+         if ($self->{is_xml}) {
+           !!!cp (221.11);
+           !!!parse-error (type => 'no mse'); ## TODO: type
+         } else {
+           !!!cp (221.12);
+         }
          $self->{state} = DATA_STATE;
-         !!!next-input-character;
+         $self->{s_kwd} = '';
+         ## Reconsume.
          if (length $self->{ct}->{data}) { # character
            !!!cp (221.2);
            !!!emit ($self->{ct}); # character
-Line 2265 
 sub _get_next_token ($) {
+Line 2539 
 sub _get_next_token ($) {
        ## ISSUE: "text tokens" in spec.
      } elsif ($self->{state} == CDATA_SECTION_MSE1_STATE) {
+       ## XML5: "CDATA bracket state".
        if ($self->{nc} == 0x005D) { # ]
          !!!cp (221.5);
          $self->{state} = CDATA_SECTION_MSE2_STATE;
-Line 2272 
 sub _get_next_token ($) {
+Line 2548 
 sub _get_next_token ($) {
          redo A;
        } else {
          !!!cp (221.6);
+         ## XML5: If EOF, "]" is not appended and changed to the data state.
          $self->{ct}->{data} .= ']';
-         $self->{state} = CDATA_SECTION_STATE;
+         $self->{state} = CDATA_SECTION_STATE; ## XML5: Stay in the state.
          ## Reconsume.
          redo A;
        }
      } elsif ($self->{state} == CDATA_SECTION_MSE2_STATE) {
+       ## XML5: "CDATA end state".
        if ($self->{nc} == 0x003E) { # >
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          if (length $self->{ct}->{data}) { # character
            !!!cp (221.7);
-Line 2299 
 sub _get_next_token ($) {
+Line 2579 
 sub _get_next_token ($) {
          !!!cp (221.11);
          $self->{ct}->{data} .= ']]'; # character
          $self->{state} = CDATA_SECTION_STATE;
-         ## Reconsume.
+         ## Reconsume. ## XML5: Emit.
          redo A;
        }
      } elsif ($self->{state} == ENTITY_STATE) {
-Line 2347 
 sub _get_next_token ($) {
+Line 2627 
 sub _get_next_token ($) {
        if ($self->{prev_state} == DATA_STATE) {
          !!!cp (997);
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          !!!emit ({type => CHARACTER_TOKEN, data => '&',
                    line => $self->{line_prev},
-Line 2357 
 sub _get_next_token ($) {
+Line 2638 
 sub _get_next_token ($) {
          !!!cp (996);
          $self->{ca}->{value} .= '&';
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          redo A;
        }
-Line 2387 
 sub _get_next_token ($) {
+Line 2669 
 sub _get_next_token ($) {
          if ($self->{prev_state} == DATA_STATE) {
            !!!cp (1019);
            $self->{state} = $self->{prev_state};
+           $self->{s_kwd} = '';
            ## Reconsume.
            !!!emit ({type => CHARACTER_TOKEN,
                      data => '&#',
-Line 2398 
 sub _get_next_token ($) {
+Line 2681 
 sub _get_next_token ($) {
            !!!cp (993);
            $self->{ca}->{value} .= '&#';
            $self->{state} = $self->{prev_state};
+           $self->{s_kwd} = '';
            ## Reconsume.
            redo A;
          }
-Line 2443 
 sub _get_next_token ($) {
+Line 2727 
 sub _get_next_token ($) {
        if ($self->{prev_state} == DATA_STATE) {
          !!!cp (992);
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          !!!emit ({type => CHARACTER_TOKEN, data => chr $code,
+                   has_reference => 1,
                    line => $l, column => $c,
                   });
          redo A;
-Line 2453 
 sub _get_next_token ($) {
+Line 2739 
 sub _get_next_token ($) {
          $self->{ca}->{value} .= chr $code;
          $self->{ca}->{has_reference} = 1;
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          redo A;
        }
-Line 2478 
 sub _get_next_token ($) {
+Line 2765 
 sub _get_next_token ($) {
          if ($self->{prev_state} == DATA_STATE) {
            !!!cp (1005);
            $self->{state} = $self->{prev_state};
+           $self->{s_kwd} = '';
            ## Reconsume.
            !!!emit ({type => CHARACTER_TOKEN,
                      data => '&' . $self->{s_kwd},
-Line 2489 
 sub _get_next_token ($) {
+Line 2777 
 sub _get_next_token ($) {
            !!!cp (989);
            $self->{ca}->{value} .= '&' . $self->{s_kwd};
            $self->{state} = $self->{prev_state};
+           $self->{s_kwd} = '';
            ## Reconsume.
            redo A;
          }
-Line 2551 
 sub _get_next_token ($) {
+Line 2840 
 sub _get_next_token ($) {
        if ($self->{prev_state} == DATA_STATE) {
          !!!cp (988);
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          !!!emit ({type => CHARACTER_TOKEN, data => chr $code,
+                   has_reference => 1,
                    line => $l, column => $c,
                   });
          redo A;
-Line 2561 
 sub _get_next_token ($) {
+Line 2852 
 sub _get_next_token ($) {
          $self->{ca}->{value} .= chr $code;
          $self->{ca}->{has_reference} = 1;
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          redo A;
        }
-Line 2643 
 sub _get_next_token ($) {
+Line 2935 
 sub _get_next_token ($) {
        if ($self->{prev_state} == DATA_STATE) {
          !!!cp (986);
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          !!!emit ({type => CHARACTER_TOKEN,
                    data => $data,
+                   has_reference => $has_ref,
                    line => $self->{line_prev},
                    column => $self->{column_prev} + 1 - length $self->{s_kwd},
                   });
-Line 2655 
 sub _get_next_token ($) {
+Line 2949 
 sub _get_next_token ($) {
          $self->{ca}->{value} .= $data;
          $self->{ca}->{has_reference} = 1 if $has_ref;
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          redo A;
        }
+     ## XML-only states
+     } elsif ($self->{state} == PI_STATE) {
+       if ($is_space->{$self->{nc}} or
+           $self->{nc} == 0x003F or # ? ## XML5: Same as "Anything else"
+           $self->{nc} == -1) {
+         !!!parse-error (type => 'bare pio', ## TODO: type
+                         line => $self->{line_prev},
+                         column => $self->{column_prev}
+                             - 1 * ($self->{nc} != -1));
+         $self->{state} = BOGUS_COMMENT_STATE;
+         ## Reconsume.
+         $self->{ct} = {type => COMMENT_TOKEN,
+                        data => '?',
+                        line => $self->{line_prev},
+                        column => $self->{column_prev}
+                            - 1 * ($self->{nc} != -1),
+                       };
+         redo A;
+       } else {
+         $self->{ct} = {type => PI_TOKEN,
+                        target => chr $self->{nc},
+                        data => '',
+                        line => $self->{line_prev},
+                        column => $self->{column_prev} - 1,
+                       };
+         $self->{state} = PI_TARGET_STATE;
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == PI_TARGET_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         $self->{state} = PI_TARGET_AFTER_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'no pic'); ## TODO: type
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         ## Reconsume.
+         !!!emit ($self->{ct}); # pi
+         redo A;
+       } elsif ($self->{nc} == 0x003F) { # ?
+         $self->{state} = PI_AFTER_STATE;
+         !!!next-input-character;
+         redo A;
+       } else {
+         ## XML5: typo ("tag name" -> "target")
+         $self->{ct}->{target} .= chr $self->{nc}; # pi
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == PI_TARGET_AFTER_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } else {
+         $self->{state} = PI_DATA_STATE;
+         ## Reprocess.
+         redo A;
+       }
+     } elsif ($self->{state} == PI_DATA_STATE) {
+       if ($self->{nc} == 0x003F) { # ?
+         $self->{state} = PI_DATA_AFTER_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'no pic'); ## TODO: type
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         ## Reprocess.
+         !!!emit ($self->{ct}); # pi
+         redo A;
+       } else {
+         $self->{ct}->{data} .= chr $self->{nc}; # pi
+         $self->{read_until}->($self->{ct}->{data}, q[?],
+                               length $self->{ct}->{data});
+         ## Stay in the state.
+         !!!next-input-character;
+         ## Reprocess.
+         redo A;
+       }
+     } elsif ($self->{state} == PI_AFTER_STATE) {
+       if ($self->{nc} == 0x003E) { # >
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # pi
+         redo A;
+       } elsif ($self->{nc} == 0x003F) { # ?
+         !!!parse-error (type => 'no s after target', ## TODO: type
+                         line => $self->{line_prev},
+                         column => $self->{column_prev}); ## XML5: no error
+         $self->{ct}->{data} .= '?';
+         $self->{state} = PI_DATA_AFTER_STATE;
+         !!!next-input-character;
+         redo A;
+       } else {
+         !!!parse-error (type => 'no s after target', ## TODO: type
+                         line => $self->{line_prev},
+                         column => $self->{column_prev}
+                             + 1 * ($self->{nc} == -1)); ## XML5: no error
+         $self->{ct}->{data} .= '?'; ## XML5: not appended
+         $self->{state} = PI_DATA_STATE;
+         ## Reprocess.
+         redo A;
+       }
+     } elsif ($self->{state} == PI_DATA_AFTER_STATE) {
+       ## XML5: Same as "pi after state" in XML5
+       if ($self->{nc} == 0x003E) { # >
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # pi
+         redo A;
+       } elsif ($self->{nc} == 0x003F) { # ?
+         $self->{ct}->{data} .= '?';
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } else {
+         $self->{ct}->{data} .= '?'; ## XML5: not appended
+         $self->{state} = PI_DATA_STATE;
+         ## Reprocess.
+         redo A;
+       }
      } else {
        die "$0: $self->{state}: Unknown state";
      }

 Legend:



Removed from v.1.2
 


changed lines


 
Added in v.1.11
 Legend:



Removed from v.1.2
 


changed lines


 
Added in v.1.11
-Removed from v.1.2
+Added in v.1.11

admin@suikawiki.org	ViewVC Help
Powered by ViewVC 1.1.24