/[suikacvs]/markup/html/whatpm/Whatpm/HTML/Tokenizer.pm

Diff of /markup/html/whatpm/Whatpm/HTML/Tokenizer.pm

Parent Directory | Revision Log | View Patch Patch

-revision 1.5 by wakaba,
Tue Oct 14 14:38:59 2008 UTC
+revision 1.12 by wakaba,
Wed Oct 15 12:49:49 2008 UTC
 Line 31 
 BEGIN {
    );
  }
+ ## NOTE: Differences from the XML5 draft are marked as "XML5:".
  ## Token types
- sub DOCTYPE_TOKEN () { 1 }
+ sub DOCTYPE_TOKEN () { 1 } ## XML5: No DOCTYPE token.
  sub COMMENT_TOKEN () { 2 }
  sub START_TAG_TOKEN () { 3 }
  sub END_TAG_TOKEN () { 4 }
  sub END_OF_FILE_TOKEN () { 5 }
  sub CHARACTER_TOKEN () { 6 }
- sub PI_TOKEN () { 7 } # XML5
+ sub PI_TOKEN () { 7 } ## NOTE: XML only.
- sub ABORT_TOKEN () { 8 } # Not a token actually
+ sub ABORT_TOKEN () { 8 } ## NOTE: For internal processing.
+ ## XML5: XML5 has "empty tag token".  In this implementation, it is
+ ## represented as a start tag token with $self->{self_closing} flag
+ ## set to true.
+ ## XML5: XML5 has "short end tag token".  In this implementation, it
+ ## is represented as an end tag token with $token->{tag_name} flag set
+ ## to an empty string.
  package Whatpm::HTML;
-Line 114 
 sub HEXREF_HEX_STATE () { 48 }
+Line 124 
 sub HEXREF_HEX_STATE () { 48 }
  sub ENTITY_NAME_STATE () { 49 }
  sub PCDATA_STATE () { 50 } # "data state" in the spec
+ ## XML-only states
+ sub PI_STATE () { 51 }
+ sub PI_TARGET_STATE () { 52 }
+ sub PI_TARGET_AFTER_STATE () { 53 }
+ sub PI_DATA_STATE () { 54 }
+ sub PI_AFTER_STATE () { 55 }
+ sub PI_DATA_AFTER_STATE () { 56 }
+ sub DOCTYPE_INTERNAL_SUBSET_STATE () { 57 }
+ sub DOCTYPE_INTERNAL_SUBSET_AFTER_STATE () { 58 }
  ## Tree constructor state constants (see Whatpm::HTML for the full
  ## list and descriptions)
-Line 178 
 sub _initialize_tokenizer ($) {
+Line 198 
 sub _initialize_tokenizer ($) {
    #$self->{is_xml} (if XML)
    $self->{state} = DATA_STATE; # MUST
-   $self->{s_kwd} = ''; # state keyword
+   $self->{s_kwd} = ''; # Data state keyword
+   #$self->{kwd} = ''; # State-dependent keyword; initialized when used
    #$self->{entity__value}; # initialized when used
    #$self->{entity__match}; # initialized when used
    $self->{content_model} = PCDATA_CONTENT_MODEL; # be
-Line 208 
 sub _initialize_tokenizer ($) {
+Line 229 
 sub _initialize_tokenizer ($) {
  ## A token has:
  ##   ->{type} == DOCTYPE_TOKEN, START_TAG_TOKEN, END_TAG_TOKEN, COMMENT_TOKEN,
- ##       CHARACTER_TOKEN, or END_OF_FILE_TOKEN
+ ##       CHARACTER_TOKEN, END_OF_FILE_TOKEN, PI_TOKEN, or ABORT_TOKEN
  ##   ->{name} (DOCTYPE_TOKEN)
  ##   ->{tag_name} (START_TAG_TOKEN, END_TAG_TOKEN)
+ ##   ->{target} (PI_TOKEN)
  ##   ->{pubid} (DOCTYPE_TOKEN)
  ##   ->{sysid} (DOCTYPE_TOKEN)
  ##   ->{quirks} == 1 or 0 (DOCTYPE_TOKEN): "force-quirks" flag
-Line 218 
 sub _initialize_tokenizer ($) {
+Line 240 
 sub _initialize_tokenizer ($) {
  ##        ->{name}
  ##        ->{value}
  ##        ->{has_reference} == 1 or 0
- ##   ->{data} (COMMENT_TOKEN, CHARACTER_TOKEN)
+ ##        ->{index}: Index of the attribute in a tag.
+ ##   ->{data} (COMMENT_TOKEN, CHARACTER_TOKEN, PI_TOKEN)
+ ##   ->{has_reference} == 1 or 0 (CHARACTER_TOKEN)
+ ##   ->{last_index} (ELEMENT_TOKEN): Next attribute's index - 1.
+ ##   ->{has_internal_subset} = 1 or 0 (DOCTYPE_TOKEN)
  ## NOTE: The "self-closing flag" is hold as |$self->{self_closing}|.
  ##     |->{self_closing}| is used to save the value of |$self->{self_closing}|
  ##     while the token is pushed back to the stack.
-Line 238 
 my $is_space = {
+Line 265 
 my $is_space = {
 x0009 => 1, # CHARACTER TABULATION (HT)
 x000A => 1, # LINE FEED (LF)
    #0x000B => 0, # LINE TABULATION (VT)
-x000C => 1, # FORM FEED (FF)
+x000C => 1, # FORM FEED (FF) ## XML5: Not a space character.
    #0x000D => 1, # CARRIAGE RETURN (CR)
 x0020 => 1, # SPACE (SP)
  };
-Line 498 
 sub _get_next_token ($) {
+Line 525 
 sub _get_next_token ($) {
        return  ($token);
        redo A;
      } elsif ($self->{state} == TAG_OPEN_STATE) {
+       ## XML5: "tag state".
        if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
          if ($self->{nc} == 0x002F) { # /
-Line 516 
 sub _get_next_token ($) {
+Line 545 
 sub _get_next_token ($) {
            redo A;
          } elsif ($self->{nc} == 0x0021) { # !
-           $self->{s_kwd} = '<' unless $self->{escape};
+           $self->{s_kwd} = $self->{escaped} ? '' : '<';
            #
          } else {
+           $self->{s_kwd} = '';
            #
          }
          ## reconsume
          $self->{state} = DATA_STATE;
-         $self->{s_kwd} = '';
          return  ({type => CHARACTER_TOKEN, data => '<',
                    line => $self->{line_prev},
                    column => $self->{column_prev},
-Line 629 
 sub _get_next_token ($) {
+Line 658 
 sub _get_next_token ($) {
            redo A;
          } elsif ($self->{nc} == 0x003F) { # ?
+           if ($self->{is_xml}) {
-           $self->{parse_error}->(level => $self->{level}->{must}, type => 'pio',
-                           line => $self->{line_prev},
+             $self->{state} = PI_STATE;
-                           column => $self->{column_prev});
-           $self->{state} = BOGUS_COMMENT_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-           $self->{ct} = {type => COMMENT_TOKEN, data => '',
+       $self->{line_prev} = $self->{line};
-                                     line => $self->{line_prev},
+       $self->{column_prev} = $self->{column};
-                                     column => $self->{column_prev},
+       $self->{column}++;
-                                    };
+       $self->{nc}
-           ## $self->{nc} is intentionally left as is
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
-           redo A;
+     } else {
-         } else {
+       $self->{set_nc}->($self);
+     }
+             redo A;
+           } else {
+             $self->{parse_error}->(level => $self->{level}->{must}, type => 'pio',
+                             line => $self->{line_prev},
+                             column => $self->{column_prev});
+             $self->{state} = BOGUS_COMMENT_STATE;
+             $self->{ct} = {type => COMMENT_TOKEN, data => '',
+                            line => $self->{line_prev},
+                            column => $self->{column_prev},
+                           };
+             ## $self->{nc} is intentionally left as is
+             redo A;
+           }
+         } elsif (not $self->{is_xml} or $is_space->{$self->{nc}}) {
            $self->{parse_error}->(level => $self->{level}->{must}, type => 'bare stago',
                            line => $self->{line_prev},
-Line 655 
 sub _get_next_token ($) {
+Line 701 
 sub _get_next_token ($) {
                     });
            redo A;
+         } else {
+           ## XML5: "<:" is a parse error.
+           $self->{ct} = {type => START_TAG_TOKEN,
+                                     tag_name => chr ($self->{nc}),
+                                     line => $self->{line_prev},
+                                     column => $self->{column_prev}};
+           $self->{state} = TAG_NAME_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+           redo A;
          }
        } else {
          die "$0: $self->{content_model} in tag open";
-Line 663 
 sub _get_next_token ($) {
+Line 729 
 sub _get_next_token ($) {
        ## NOTE: The "close tag open state" in the spec is implemented as
        ## |CLOSE_TAG_OPEN_STATE| and |CDATA_RCDATA_CLOSE_TAG_STATE|.
+       ## XML5: "end tag state".
        my ($l, $c) = ($self->{line_prev}, $self->{column_prev} - 1); # "<"of"</"
        if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
          if (defined $self->{last_stag_name}) {
            $self->{state} = CDATA_RCDATA_CLOSE_TAG_STATE;
-           $self->{s_kwd} = '';
+           $self->{kwd} = '';
            ## Reconsume.
            redo A;
          } else {
-Line 724 
 sub _get_next_token ($) {
+Line 792 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'empty end tag',
                          line => $self->{line_prev}, ## "<" in "</>"
                          column => $self->{column_prev} - 1);
          $self->{state} = DATA_STATE;
          $self->{s_kwd} = '';
+         if ($self->{is_xml}) {
+           ## XML5: No parse error.
+           ## NOTE: This parser raises a parse error, since it supports
+           ## XML1, not XML5.
+           ## NOTE: A short end tag token.
+           my $ct = {type => END_TAG_TOKEN,
+                     tag_name => '',
+                     line => $self->{line_prev},
+                     column => $self->{column_prev} - 1,
+                    };
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
        $self->{column_prev} = $self->{column};
-Line 741 
 sub _get_next_token ($) {
+Line 821 
 sub _get_next_token ($) {
        $self->{set_nc}->($self);
      }
+           return  ($ct);
+         } else {
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         }
          redo A;
        } elsif ($self->{nc} == -1) {
-Line 754 
 sub _get_next_token ($) {
+Line 849 
 sub _get_next_token ($) {
                   });
          redo A;
-       } else {
+       } elsif (not $self->{is_xml} or
+                $is_space->{$self->{nc}}) {
-         $self->{parse_error}->(level => $self->{level}->{must}, type => 'bogus end tag');
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'bogus end tag',
+                         line => $self->{line_prev}, # "<" of "</"
+                         column => $self->{column_prev} - 1);
          $self->{state} = BOGUS_COMMENT_STATE;
          $self->{ct} = {type => COMMENT_TOKEN, data => '',
                                    line => $self->{line_prev}, # "<" of "</"
-Line 769 
 sub _get_next_token ($) {
+Line 867 
 sub _get_next_token ($) {
          ## generated from the bogus end tag, as defined in the
          ## "bogus comment state" entry.
          redo A;
+       } else {
+         ## XML5: "</:" is a parse error.
+         $self->{ct} = {type => END_TAG_TOKEN,
+                        tag_name => chr ($self->{nc}),
+                        line => $l, column => $c};
+         $self->{state} = TAG_NAME_STATE; ## XML5: "end tag name state".
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
        }
      } elsif ($self->{state} == CDATA_RCDATA_CLOSE_TAG_STATE) {
-       my $ch = substr $self->{last_stag_name}, length $self->{s_kwd}, 1;
+       my $ch = substr $self->{last_stag_name}, length $self->{kwd}, 1;
        if (length $ch) {
          my $CH = $ch;
          $ch =~ tr/a-z/A-Z/;
-Line 779 
 sub _get_next_token ($) {
+Line 896 
 sub _get_next_token ($) {
          if ($nch eq $ch or $nch eq $CH) {
            ## Stay in the state.
-           $self->{s_kwd} .= $nch;
+           $self->{kwd} .= $nch;
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 798 
 sub _get_next_token ($) {
+Line 915 
 sub _get_next_token ($) {
            $self->{s_kwd} = '';
            ## Reconsume.
            return  ({type => CHARACTER_TOKEN,
-                     data => '</' . $self->{s_kwd},
+                     data => '</' . $self->{kwd},
                      line => $self->{line_prev},
-                     column => $self->{column_prev} - 1 - length $self->{s_kwd},
+                     column => $self->{column_prev} - 1 - length $self->{kwd},
                     });
            redo A;
          }
-Line 816 
 sub _get_next_token ($) {
+Line 933 
 sub _get_next_token ($) {
            $self->{state} = DATA_STATE;
            $self->{s_kwd} = '';
            return  ({type => CHARACTER_TOKEN,
-                     data => '</' . $self->{s_kwd},
+                     data => '</' . $self->{kwd},
                      line => $self->{line_prev},
-                     column => $self->{column_prev} - 1 - length $self->{s_kwd},
+                     column => $self->{column_prev} - 1 - length $self->{kwd},
                     });
            redo A;
          } else {
-Line 827 
 sub _get_next_token ($) {
+Line 944 
 sub _get_next_token ($) {
                = {type => END_TAG_TOKEN,
                   tag_name => $self->{last_stag_name},
                   line => $self->{line_prev},
-                  column => $self->{column_prev} - 1 - length $self->{s_kwd}};
+                  column => $self->{column_prev} - 1 - length $self->{kwd}};
            $self->{state} = TAG_NAME_STATE;
            ## Reconsume.
            redo A;
-Line 959 
 sub _get_next_token ($) {
+Line 1076 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == BEFORE_ATTRIBUTE_NAME_STATE) {
+       ## XML5: "Tag attribute name before state".
        if ($is_space->{$self->{nc}}) {
          ## Stay in the state
-Line 1071 
 sub _get_next_token ($) {
+Line 1190 
 sub _get_next_token ($) {
 x003D => 1, # =
              }->{$self->{nc}}) {
+           ## XML5: Not a parse error.
            $self->{parse_error}->(level => $self->{level}->{must}, type => 'bad attribute name');
          } else {
+           ## XML5: ":" raises a parse error and is ignored.
          }
          $self->{ca}
              = {name => chr ($self->{nc}),
-Line 1094 
 sub _get_next_token ($) {
+Line 1215 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ATTRIBUTE_NAME_STATE) {
+       ## XML5: "Tag attribute name state".
        my $before_leave = sub {
          if (exists $self->{ct}->{attributes} # start tag or end tag
              ->{$self->{ca}->{name}}) { # MUST
-Line 1104 
 sub _get_next_token ($) {
+Line 1227 
 sub _get_next_token ($) {
            $self->{ct}->{attributes}->{$self->{ca}->{name}}
              = $self->{ca};
+           $self->{ca}->{index} = ++$self->{ct}->{last_index};
          }
        }; # $before_leave
-Line 1140 
 sub _get_next_token ($) {
+Line 1264 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
+         if ($self->{is_xml}) {
+           ## XML5: Not a parse error.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'no attr value'); ## TODO: type
+         } else {
+         }
          $before_leave->();
          if ($self->{ct}->{type} == START_TAG_TOKEN) {
-Line 1189 
 sub _get_next_token ($) {
+Line 1321 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x002F) { # /
+         if ($self->{is_xml}) {
+           ## XML5: Not a parse error.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'no attr value'); ## TODO: type
+         } else {
+         }
          $before_leave->();
          $self->{state} = SELF_CLOSING_START_TAG_STATE;
-Line 1233 
 sub _get_next_token ($) {
+Line 1372 
 sub _get_next_token ($) {
          if ($self->{nc} == 0x0022 or # "
              $self->{nc} == 0x0027) { # '
+           ## XML5: Not a parse error.
            $self->{parse_error}->(level => $self->{level}->{must}, type => 'bad attribute name');
          } else {
-Line 1253 
 sub _get_next_token ($) {
+Line 1393 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == AFTER_ATTRIBUTE_NAME_STATE) {
+       ## XML5: "Tag attribute name after state".
        if ($is_space->{$self->{nc}}) {
          ## Stay in the state
-Line 1284 
 sub _get_next_token ($) {
+Line 1426 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
+         if ($self->{is_xml}) {
+           ## XML5: Not a parse error.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'no attr value'); ## TODO: type
+         } else {
+         }
          if ($self->{ct}->{type} == START_TAG_TOKEN) {
            $self->{last_stag_name} = $self->{ct}->{tag_name};
-Line 1337 
 sub _get_next_token ($) {
+Line 1487 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x002F) { # /
+         if ($self->{is_xml}) {
+           ## XML5: Not a parse error.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'no attr value'); ## TODO: type
+         } else {
+         }
          $self->{state} = SELF_CLOSING_START_TAG_STATE;
-Line 1376 
 sub _get_next_token ($) {
+Line 1533 
 sub _get_next_token ($) {
          redo A;
        } else {
+         if ($self->{is_xml}) {
+           ## XML5: Not a parse error.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'no attr value'); ## TODO: type
+         } else {
+         }
          if ($self->{nc} == 0x0022 or # "
              $self->{nc} == 0x0027) { # '
+           ## XML5: Not a parse error.
            $self->{parse_error}->(level => $self->{level}->{must}, type => 'bad attribute name');
          } else {
-Line 1402 
 sub _get_next_token ($) {
+Line 1568 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == BEFORE_ATTRIBUTE_VALUE_STATE) {
+       ## XML5: "Tag attribute value before state".
        if ($is_space->{$self->{nc}}) {
          ## Stay in the state
-Line 1513 
 sub _get_next_token ($) {
+Line 1681 
 sub _get_next_token ($) {
        } else {
          if ($self->{nc} == 0x003D) { # =
+           ## XML5: Not a parse error.
            $self->{parse_error}->(level => $self->{level}->{must}, type => 'bad attribute value');
+         } elsif ($self->{is_xml}) {
+           ## XML5: No parse error.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'unquoted attr value'); ## TODO
          } else {
          }
-Line 1533 
 sub _get_next_token ($) {
+Line 1706 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ATTRIBUTE_VALUE_DOUBLE_QUOTED_STATE) {
+       ## XML5: "Tag attribute value double quoted state".
        if ($self->{nc} == 0x0022) { # "
+         ## XML5: "Tag attribute name before state".
          $self->{state} = AFTER_ATTRIBUTE_VALUE_QUOTED_STATE;
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 1550 
 sub _get_next_token ($) {
+Line 1726 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x0026) { # &
+         ## XML5: Not defined yet.
          ## NOTE: In the spec, the tokenizer is switched to the
          ## "entity in attribute value state".  In this implementation, the
          ## tokenizer is switched to the |ENTITY_STATE|, which is an
-Line 1594 
 sub _get_next_token ($) {
+Line 1772 
 sub _get_next_token ($) {
          redo A;
        } else {
+         if ($self->{is_xml} and $self->{nc} == 0x003C) { # <
+           ## XML5: Not a parse error.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'lt in attr value'); ## TODO: type
+         } else {
+         }
          $self->{ca}->{value} .= chr ($self->{nc});
          $self->{read_until}->($self->{ca}->{value},
-                               q["&],
+                               q["&<],
                                length $self->{ca}->{value});
          ## Stay in the state
-Line 1615 
 sub _get_next_token ($) {
+Line 1799 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ATTRIBUTE_VALUE_SINGLE_QUOTED_STATE) {
+       ## XML5: "Tag attribute value single quoted state".
        if ($self->{nc} == 0x0027) { # '
+         ## XML5: "Before attribute name state" (sic).
          $self->{state} = AFTER_ATTRIBUTE_VALUE_QUOTED_STATE;
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 1632 
 sub _get_next_token ($) {
+Line 1819 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x0026) { # &
+         ## XML5: Not defined yet.
          ## NOTE: In the spec, the tokenizer is switched to the
          ## "entity in attribute value state".  In this implementation, the
          ## tokenizer is switched to the |ENTITY_STATE|, which is an
-Line 1676 
 sub _get_next_token ($) {
+Line 1865 
 sub _get_next_token ($) {
          redo A;
        } else {
+         if ($self->{is_xml} and $self->{nc} == 0x003C) { # <
+           ## XML5: Not a parse error.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'lt in attr value'); ## TODO: type
+         } else {
+         }
          $self->{ca}->{value} .= chr ($self->{nc});
          $self->{read_until}->($self->{ca}->{value},
-                               q['&],
+                               q['&<],
                                length $self->{ca}->{value});
          ## Stay in the state
-Line 1697 
 sub _get_next_token ($) {
+Line 1892 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ATTRIBUTE_VALUE_UNQUOTED_STATE) {
+       ## XML5: "Tag attribute value unquoted state".
        if ($is_space->{$self->{nc}}) {
+         ## XML5: "Tag attribute name before state".
          $self->{state} = BEFORE_ATTRIBUTE_NAME_STATE;
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 1714 
 sub _get_next_token ($) {
+Line 1912 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x0026) { # &
+         ## XML5: Not defined yet.
          ## NOTE: In the spec, the tokenizer is switched to the
          ## "entity in attribute value state".  In this implementation, the
          ## tokenizer is switched to the |ENTITY_STATE|, which is an
-Line 1797 
 sub _get_next_token ($) {
+Line 1998 
 sub _get_next_token ($) {
 x003D => 1, # =
              }->{$self->{nc}}) {
+           ## XML5: Not a parse error.
            $self->{parse_error}->(level => $self->{level}->{must}, type => 'bad attribute value');
          } else {
-Line 1913 
 sub _get_next_token ($) {
+Line 2115 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == SELF_CLOSING_START_TAG_STATE) {
+       ## XML5: "Empty tag state".
        if ($self->{nc} == 0x003E) { # >
          if ($self->{ct}->{type} == END_TAG_TOKEN) {
-Line 1964 
 sub _get_next_token ($) {
+Line 2168 
 sub _get_next_token ($) {
          } else {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
+         ## XML5: "Tag attribute name before state".
          $self->{state} = DATA_STATE;
          $self->{s_kwd} = '';
          ## Reconsume.
-Line 2053 
 sub _get_next_token ($) {
+Line 2258 
 sub _get_next_token ($) {
          ## ASCII case-insensitive.
          $self->{state} = MD_DOCTYPE_STATE;
-         $self->{s_kwd} = chr $self->{nc};
+         $self->{kwd} = chr $self->{nc};
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 2072 
 sub _get_next_token ($) {
+Line 2277 
 sub _get_next_token ($) {
                 $self->{nc} == 0x005B) { # [
          $self->{state} = MD_CDATA_STATE;
-         $self->{s_kwd} = '[';
+         $self->{kwd} = '[';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 2106 
 sub _get_next_token ($) {
+Line 2311 
 sub _get_next_token ($) {
                                    line => $self->{line_prev},
                                    column => $self->{column_prev} - 2,
                                   };
-         $self->{state} = COMMENT_START_STATE;
+         $self->{state} = COMMENT_START_STATE; ## XML5: "comment state".
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 2142 
 sub _get_next_token ($) {
+Line 2347 
 sub _get_next_token ($) {
 x0054, # T
 x0059, # Y
 x0050, # P
-           ]->[length $self->{s_kwd}] or
+           ]->[length $self->{kwd}] or
            $self->{nc} == [
              undef,
 x006F, # o
-Line 2150 
 sub _get_next_token ($) {
+Line 2355 
 sub _get_next_token ($) {
 x0074, # t
 x0079, # y
 x0070, # p
-           ]->[length $self->{s_kwd}]) {
+           ]->[length $self->{kwd}]) {
          ## Stay in the state.
-         $self->{s_kwd} .= chr $self->{nc};
+         $self->{kwd} .= chr $self->{nc};
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 2166 
 sub _get_next_token ($) {
+Line 2371 
 sub _get_next_token ($) {
      }
          redo A;
-       } elsif ((length $self->{s_kwd}) == 6 and
+       } elsif ((length $self->{kwd}) == 6 and
                 ($self->{nc} == 0x0045 or # E
                  $self->{nc} == 0x0065)) { # e
+         if ($self->{is_xml} and
+             ($self->{kwd} ne 'DOCTYP' or $self->{nc} == 0x0065)) {
+           ## XML5: case-sensitive.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'lowercase keyword', ## TODO
+                           text => 'DOCTYPE',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 5);
+         } else {
+         }
          $self->{state} = DOCTYPE_STATE;
          $self->{ct} = {type => DOCTYPE_TOKEN,
                                    quirks => 1,
-Line 2192 
 sub _get_next_token ($) {
+Line 2407 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'bogus comment',
                          line => $self->{line_prev},
-                         column => $self->{column_prev} - 1 - length $self->{s_kwd});
+                         column => $self->{column_prev} - 1 - length $self->{kwd});
          $self->{state} = BOGUS_COMMENT_STATE;
          ## Reconsume.
          $self->{ct} = {type => COMMENT_TOKEN,
-                                   data => $self->{s_kwd},
+                                   data => $self->{kwd},
                                    line => $self->{line_prev},
-                                   column => $self->{column_prev} - 1 - length $self->{s_kwd},
+                                   column => $self->{column_prev} - 1 - length $self->{kwd},
                                   };
          redo A;
        }
-Line 2209 
 sub _get_next_token ($) {
+Line 2424 
 sub _get_next_token ($) {
              '[CD' => 0x0041, # A
              '[CDA' => 0x0054, # T
              '[CDAT' => 0x0041, # A
-           }->{$self->{s_kwd}}) {
+           }->{$self->{kwd}}) {
          ## Stay in the state.
-         $self->{s_kwd} .= chr $self->{nc};
+         $self->{kwd} .= chr $self->{nc};
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 2225 
 sub _get_next_token ($) {
+Line 2440 
 sub _get_next_token ($) {
      }
          redo A;
-       } elsif ($self->{s_kwd} eq '[CDATA' and
+       } elsif ($self->{kwd} eq '[CDATA' and
                 $self->{nc} == 0x005B) { # [
+         if ($self->{is_xml} and
+             not $self->{tainted} and
+             @{$self->{open_elements} or []} == 0) {
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'cdata outside of root element',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 7);
+           $self->{tainted} = 1;
+         } else {
+         }
          $self->{ct} = {type => CHARACTER_TOKEN,
                                    data => '',
                                    line => $self->{line_prev},
-Line 2249 
 sub _get_next_token ($) {
+Line 2475 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'bogus comment',
                          line => $self->{line_prev},
-                         column => $self->{column_prev} - 1 - length $self->{s_kwd});
+                         column => $self->{column_prev} - 1 - length $self->{kwd});
          $self->{state} = BOGUS_COMMENT_STATE;
          ## Reconsume.
          $self->{ct} = {type => COMMENT_TOKEN,
-                                   data => $self->{s_kwd},
+                                   data => $self->{kwd},
                                    line => $self->{line_prev},
-                                   column => $self->{column_prev} - 1 - length $self->{s_kwd},
+                                   column => $self->{column_prev} - 1 - length $self->{kwd},
                                   };
          redo A;
        }
-Line 2435 
 sub _get_next_token ($) {
+Line 2661 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == COMMENT_END_DASH_STATE) {
+       ## XML5: "comment dash state".
        if ($self->{nc} == 0x002D) { # -
          $self->{state} = COMMENT_END_STATE;
-Line 2453 
 sub _get_next_token ($) {
+Line 2681 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == -1) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed comment');
-         $self->{s_kwd} = '';
          $self->{state} = DATA_STATE;
          $self->{s_kwd} = '';
          ## reconsume
-Line 2500 
 sub _get_next_token ($) {
+Line 2727 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x002D) { # -
+         ## XML5: Not a parse error.
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'dash in comment',
                          line => $self->{line_prev},
                          column => $self->{column_prev});
-Line 2529 
 sub _get_next_token ($) {
+Line 2757 
 sub _get_next_token ($) {
          redo A;
        } else {
+         ## XML5: Not a parse error.
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'dash in comment',
                          line => $self->{line_prev},
                          column => $self->{column_prev});
-Line 2565 
 sub _get_next_token ($) {
+Line 2794 
 sub _get_next_token ($) {
          redo A;
        } else {
+         ## XML5: Unless EOF, swith to the bogus comment state.
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'no space before DOCTYPE name');
          $self->{state} = BEFORE_DOCTYPE_NAME_STATE;
          ## reconsume
          redo A;
        }
      } elsif ($self->{state} == BEFORE_DOCTYPE_NAME_STATE) {
+       ## XML5: "DOCTYPE root name before state".
        if ($is_space->{$self->{nc}}) {
          ## Stay in the state
-Line 2588 
 sub _get_next_token ($) {
+Line 2820 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
+         ## XML5: No parse error.
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'no DOCTYPE name');
          $self->{state} = DATA_STATE;
          $self->{s_kwd} = '';
-Line 2616 
 sub _get_next_token ($) {
+Line 2849 
 sub _get_next_token ($) {
          return  ($self->{ct}); # DOCTYPE (quirks)
          redo A;
+       } elsif ($self->{is_xml} and $self->{nc} == 0x005B) { # [
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no DOCTYPE name');
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
        } else {
          $self->{ct}->{name} = chr $self->{nc};
-Line 2635 
 sub _get_next_token ($) {
+Line 2884 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == DOCTYPE_NAME_STATE) {
- ## ISSUE: Redundant "First," in the spec.
+       ## XML5: "DOCTYPE root name state".
+       ## ISSUE: Redundant "First," in the spec.
        if ($is_space->{$self->{nc}}) {
          $self->{state} = AFTER_DOCTYPE_NAME_STATE;
-Line 2681 
 sub _get_next_token ($) {
+Line 2933 
 sub _get_next_token ($) {
          return  ($self->{ct}); # DOCTYPE
          redo A;
+       } elsif ($self->{is_xml} and $self->{nc} == 0x005B) { # [
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
        } else {
          $self->{ct}->{name}
-Line 2700 
 sub _get_next_token ($) {
+Line 2967 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == AFTER_DOCTYPE_NAME_STATE) {
+       ## XML5: Corresponding to XML5's "DOCTYPE root name after
+       ## state", but implemented differently.
        if ($is_space->{$self->{nc}}) {
          ## Stay in the state
-Line 2747 
 sub _get_next_token ($) {
+Line 3017 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x0050 or # P
                 $self->{nc} == 0x0070) { # p
          $self->{state} = PUBLIC_STATE;
-         $self->{s_kwd} = chr $self->{nc};
+         $self->{kwd} = chr $self->{nc};
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 2763 
 sub _get_next_token ($) {
+Line 3034 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x0053 or # S
                 $self->{nc} == 0x0073) { # s
          $self->{state} = SYSTEM_STATE;
-         $self->{s_kwd} = chr $self->{nc};
+         $self->{kwd} = chr $self->{nc};
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{is_xml} and $self->{nc} == 0x005B) { # [
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 2804 
 sub _get_next_token ($) {
+Line 3092 
 sub _get_next_token ($) {
 x0042, # B
 x004C, # L
 x0049, # I
-           ]->[length $self->{s_kwd}] or
+           ]->[length $self->{kwd}] or
            $self->{nc} == [
              undef,
 x0075, # u
 x0062, # b
 x006C, # l
 x0069, # i
-           ]->[length $self->{s_kwd}]) {
+           ]->[length $self->{kwd}]) {
          ## Stay in the state.
-         $self->{s_kwd} .= chr $self->{nc};
+         $self->{kwd} .= chr $self->{nc};
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 2827 
 sub _get_next_token ($) {
+Line 3115 
 sub _get_next_token ($) {
      }
          redo A;
-       } elsif ((length $self->{s_kwd}) == 5 and
+       } elsif ((length $self->{kwd}) == 5 and
                 ($self->{nc} == 0x0043 or # C
                  $self->{nc} == 0x0063)) { # c
+         if ($self->{is_xml} and
+             ($self->{kwd} ne 'PUBLI' or $self->{nc} == 0x0063)) { # c
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'lowercase keyword', ## TODO: type
+                           text => 'PUBLIC',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 4);
+         } else {
+         }
          $self->{state} = BEFORE_DOCTYPE_PUBLIC_IDENTIFIER_STATE;
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 2848 
 sub _get_next_token ($) {
+Line 3145 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'string after DOCTYPE name',
                          line => $self->{line_prev},
-                         column => $self->{column_prev} + 1 - length $self->{s_kwd});
+                         column => $self->{column_prev} + 1 - length $self->{kwd});
          $self->{ct}->{quirks} = 1;
          $self->{state} = BOGUS_DOCTYPE_STATE;
-Line 2863 
 sub _get_next_token ($) {
+Line 3160 
 sub _get_next_token ($) {
 x0053, # S
 x0054, # T
 x0045, # E
-           ]->[length $self->{s_kwd}] or
+           ]->[length $self->{kwd}] or
            $self->{nc} == [
              undef,
 x0079, # y
 x0073, # s
 x0074, # t
 x0065, # e
-           ]->[length $self->{s_kwd}]) {
+           ]->[length $self->{kwd}]) {
          ## Stay in the state.
-         $self->{s_kwd} .= chr $self->{nc};
+         $self->{kwd} .= chr $self->{nc};
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 2886 
 sub _get_next_token ($) {
+Line 3183 
 sub _get_next_token ($) {
      }
          redo A;
-       } elsif ((length $self->{s_kwd}) == 5 and
+       } elsif ((length $self->{kwd}) == 5 and
                 ($self->{nc} == 0x004D or # M
                  $self->{nc} == 0x006D)) { # m
+         if ($self->{is_xml} and
+             ($self->{kwd} ne 'SYSTE' or $self->{nc} == 0x006D)) { # m
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'lowercase keyword', ## TODO: type
+                           text => 'SYSTEM',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 4);
+         } else {
+         }
          $self->{state} = BEFORE_DOCTYPE_SYSTEM_IDENTIFIER_STATE;
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 2907 
 sub _get_next_token ($) {
+Line 3213 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'string after DOCTYPE name',
                          line => $self->{line_prev},
-                         column => $self->{column_prev} + 1 - length $self->{s_kwd});
+                         column => $self->{column_prev} + 1 - length $self->{kwd});
          $self->{ct}->{quirks} = 1;
          $self->{state} = BOGUS_DOCTYPE_STATE;
-Line 2996 
 sub _get_next_token ($) {
+Line 3302 
 sub _get_next_token ($) {
          return  ($self->{ct}); # DOCTYPE
          redo A;
+       } elsif ($self->{is_xml} and $self->{nc} == 0x005B) { # [
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no PUBLIC literal');
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
        } else {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'string after PUBLIC');
-Line 3206 
 sub _get_next_token ($) {
+Line 3529 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
+         if ($self->{is_xml}) {
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'no SYSTEM literal');
+         } else {
+         }
          $self->{state} = DATA_STATE;
          $self->{s_kwd} = '';
-Line 3236 
 sub _get_next_token ($) {
+Line 3564 
 sub _get_next_token ($) {
          return  ($self->{ct}); # DOCTYPE
          redo A;
+       } elsif ($self->{is_xml} and $self->{nc} == 0x005B) { # [
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no SYSTEM literal');
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
        } else {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'string after PUBLIC literal');
-Line 3336 
 sub _get_next_token ($) {
+Line 3681 
 sub _get_next_token ($) {
          return  ($self->{ct}); # DOCTYPE
          redo A;
+       } elsif ($self->{is_xml} and $self->{nc} == 0x005B) { # [
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no SYSTEM literal');
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
        } else {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'string after SYSTEM');
-Line 3371 
 sub _get_next_token ($) {
+Line 3734 
 sub _get_next_token ($) {
      }
          redo A;
-       } elsif ($self->{nc} == 0x003E) { # >
+       } elsif (not $self->{is_xml} and $self->{nc} == 0x003E) { # >
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed SYSTEM literal');
-Line 3442 
 sub _get_next_token ($) {
+Line 3805 
 sub _get_next_token ($) {
      }
          redo A;
-       } elsif ($self->{nc} == 0x003E) { # >
+       } elsif (not $self->{is_xml} and $self->{nc} == 0x003E) { # >
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed SYSTEM literal');
-Line 3543 
 sub _get_next_token ($) {
+Line 3906 
 sub _get_next_token ($) {
          return  ($self->{ct}); # DOCTYPE
          redo A;
+       } elsif ($self->{is_xml} and $self->{nc} == 0x005B) { # [
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
        } else {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'string after SYSTEM literal');
-Line 3582 
 sub _get_next_token ($) {
+Line 3961 
 sub _get_next_token ($) {
          return  ($self->{ct}); # DOCTYPE
          redo A;
+       } elsif ($self->{is_xml} and $self->{nc} == 0x005B) { # [
+         if ($self->{ct}->{has_internal_subset}) { # DOCTYPE
+           ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+           redo A;
+         } else {
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+           $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+           redo A;
+         }
        } elsif ($self->{nc} == -1) {
          $self->{state} = DATA_STATE;
-Line 3594 
 sub _get_next_token ($) {
+Line 4006 
 sub _get_next_token ($) {
        } else {
          my $s = '';
-         $self->{read_until}->($s, q[>], 0);
+         $self->{read_until}->($s, q{>[}, 0);
          ## Stay in the state
-Line 3614 
 sub _get_next_token ($) {
+Line 4026 
 sub _get_next_token ($) {
        ## NOTE: "CDATA section state" in the state is jointly implemented
        ## by three states, |CDATA_SECTION_STATE|, |CDATA_SECTION_MSE1_STATE|,
        ## and |CDATA_SECTION_MSE2_STATE|.
+       ## XML5: "CDATA state".
        if ($self->{nc} == 0x005D) { # ]
-Line 3631 
 sub _get_next_token ($) {
+Line 4045 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == -1) {
+         if ($self->{is_xml}) {
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'no mse'); ## TODO: type
+         } else {
+         }
          $self->{state} = DATA_STATE;
          $self->{s_kwd} = '';
+         ## Reconsume.
-     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-       $self->{line_prev} = $self->{line};
-       $self->{column_prev} = $self->{column};
-       $self->{column}++;
-       $self->{nc}
-           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
-     } else {
-       $self->{set_nc}->($self);
-     }
          if (length $self->{ct}->{data}) { # character
            return  ($self->{ct}); # character
-Line 3676 
 sub _get_next_token ($) {
+Line 4087 
 sub _get_next_token ($) {
        ## ISSUE: "text tokens" in spec.
      } elsif ($self->{state} == CDATA_SECTION_MSE1_STATE) {
+       ## XML5: "CDATA bracket state".
        if ($self->{nc} == 0x005D) { # ]
          $self->{state} = CDATA_SECTION_MSE2_STATE;
-Line 3693 
 sub _get_next_token ($) {
+Line 4106 
 sub _get_next_token ($) {
          redo A;
        } else {
+         ## XML5: If EOF, "]" is not appended and changed to the data state.
          $self->{ct}->{data} .= ']';
-         $self->{state} = CDATA_SECTION_STATE;
+         $self->{state} = CDATA_SECTION_STATE; ## XML5: Stay in the state.
          ## Reconsume.
          redo A;
        }
      } elsif ($self->{state} == CDATA_SECTION_MSE2_STATE) {
+       ## XML5: "CDATA end state".
        if ($self->{nc} == 0x003E) { # >
          $self->{state} = DATA_STATE;
          $self->{s_kwd} = '';
-Line 3741 
 sub _get_next_token ($) {
+Line 4157 
 sub _get_next_token ($) {
          $self->{ct}->{data} .= ']]'; # character
          $self->{state} = CDATA_SECTION_STATE;
-         ## Reconsume.
+         ## Reconsume. ## XML5: Emit.
          redo A;
        }
      } elsif ($self->{state} == ENTITY_STATE) {
-Line 3758 
 sub _get_next_token ($) {
+Line 4174 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == 0x0023) { # #
          $self->{state} = ENTITY_HASH_STATE;
-         $self->{s_kwd} = '#';
+         $self->{kwd} = '#';
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 3778 
 sub _get_next_token ($) {
+Line 4194 
 sub _get_next_token ($) {
          require Whatpm::_NamedEntityList;
          $self->{state} = ENTITY_NAME_STATE;
-         $self->{s_kwd} = chr $self->{nc};
+         $self->{kwd} = chr $self->{nc};
-         $self->{entity__value} = $self->{s_kwd};
+         $self->{entity__value} = $self->{kwd};
          $self->{entity__match} = 0;
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 3829 
 sub _get_next_token ($) {
+Line 4245 
 sub _get_next_token ($) {
            $self->{nc} == 0x0058) { # X
          $self->{state} = HEXREF_X_STATE;
-         $self->{s_kwd} .= chr $self->{nc};
+         $self->{kwd} .= chr $self->{nc};
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 3846 
 sub _get_next_token ($) {
+Line 4262 
 sub _get_next_token ($) {
                 $self->{nc} <= 0x0039) { # 0..9
          $self->{state} = NCR_NUM_STATE;
-         $self->{s_kwd} = $self->{nc} - 0x0030;
+         $self->{kwd} = $self->{nc} - 0x0030;
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 3892 
 sub _get_next_token ($) {
+Line 4308 
 sub _get_next_token ($) {
        if (0x0030 <= $self->{nc} and
            $self->{nc} <= 0x0039) { # 0..9
-         $self->{s_kwd} *= 10;
+         $self->{kwd} *= 10;
-         $self->{s_kwd} += $self->{nc} - 0x0030;
+         $self->{kwd} += $self->{nc} - 0x0030;
          ## Stay in the state.
-Line 3929 
 sub _get_next_token ($) {
+Line 4345 
 sub _get_next_token ($) {
          #
        }
-       my $code = $self->{s_kwd};
+       my $code = $self->{kwd};
        my $l = $self->{line_prev};
        my $c = $self->{column_prev};
        if ($charref_map->{$code}) {
-Line 3952 
 sub _get_next_token ($) {
+Line 4368 
 sub _get_next_token ($) {
          $self->{s_kwd} = '';
          ## Reconsume.
          return  ({type => CHARACTER_TOKEN, data => chr $code,
+                   has_reference => 1,
                    line => $l, column => $c,
                   });
          redo A;
-Line 3971 
 sub _get_next_token ($) {
+Line 4388 
 sub _get_next_token ($) {
          # 0..9, A..F, a..f
          $self->{state} = HEXREF_HEX_STATE;
-         $self->{s_kwd} = 0;
+         $self->{kwd} = 0;
          ## Reconsume.
          redo A;
        } else {
-Line 3989 
 sub _get_next_token ($) {
+Line 4406 
 sub _get_next_token ($) {
            $self->{s_kwd} = '';
            ## Reconsume.
            return  ({type => CHARACTER_TOKEN,
-                     data => '&' . $self->{s_kwd},
+                     data => '&' . $self->{kwd},
                      line => $self->{line_prev},
-                     column => $self->{column_prev} - length $self->{s_kwd},
+                     column => $self->{column_prev} - length $self->{kwd},
                     });
            redo A;
          } else {
-           $self->{ca}->{value} .= '&' . $self->{s_kwd};
+           $self->{ca}->{value} .= '&' . $self->{kwd};
            $self->{state} = $self->{prev_state};
            $self->{s_kwd} = '';
            ## Reconsume.
-Line 4007 
 sub _get_next_token ($) {
+Line 4424 
 sub _get_next_token ($) {
        if (0x0030 <= $self->{nc} and $self->{nc} <= 0x0039) {
          # 0..9
-         $self->{s_kwd} *= 0x10;
+         $self->{kwd} *= 0x10;
-         $self->{s_kwd} += $self->{nc} - 0x0030;
+         $self->{kwd} += $self->{nc} - 0x0030;
          ## Stay in the state.
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 4025 
 sub _get_next_token ($) {
+Line 4442 
 sub _get_next_token ($) {
        } elsif (0x0061 <= $self->{nc} and
                 $self->{nc} <= 0x0066) { # a..f
-         $self->{s_kwd} *= 0x10;
+         $self->{kwd} *= 0x10;
-         $self->{s_kwd} += $self->{nc} - 0x0060 + 9;
+         $self->{kwd} += $self->{nc} - 0x0060 + 9;
          ## Stay in the state.
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 4043 
 sub _get_next_token ($) {
+Line 4460 
 sub _get_next_token ($) {
        } elsif (0x0041 <= $self->{nc} and
                 $self->{nc} <= 0x0046) { # A..F
-         $self->{s_kwd} *= 0x10;
+         $self->{kwd} *= 0x10;
-         $self->{s_kwd} += $self->{nc} - 0x0040 + 9;
+         $self->{kwd} += $self->{nc} - 0x0040 + 9;
          ## Stay in the state.
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 4081 
 sub _get_next_token ($) {
+Line 4498 
 sub _get_next_token ($) {
          #
        }
-       my $code = $self->{s_kwd};
+       my $code = $self->{kwd};
        my $l = $self->{line_prev};
        my $c = $self->{column_prev};
        if ($charref_map->{$code}) {
-Line 4104 
 sub _get_next_token ($) {
+Line 4521 
 sub _get_next_token ($) {
          $self->{s_kwd} = '';
          ## Reconsume.
          return  ({type => CHARACTER_TOKEN, data => chr $code,
+                   has_reference => 1,
                    line => $l, column => $c,
                   });
          redo A;
-Line 4117 
 sub _get_next_token ($) {
+Line 4535 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ENTITY_NAME_STATE) {
-       if (length $self->{s_kwd} < 30 and
+       if (length $self->{kwd} < 30 and
            ## NOTE: Some number greater than the maximum length of entity name
            ((0x0041 <= $self->{nc} and # a
              $self->{nc} <= 0x005A) or # x
-Line 4127 
 sub _get_next_token ($) {
+Line 4545 
 sub _get_next_token ($) {
              $self->{nc} <= 0x0039) or # 9
             $self->{nc} == 0x003B)) { # ;
          our $EntityChar;
-         $self->{s_kwd} .= chr $self->{nc};
+         $self->{kwd} .= chr $self->{nc};
-         if (defined $EntityChar->{$self->{s_kwd}}) {
+         if (defined $EntityChar->{$self->{kwd}}) {
            if ($self->{nc} == 0x003B) { # ;
-             $self->{entity__value} = $EntityChar->{$self->{s_kwd}};
+             $self->{entity__value} = $EntityChar->{$self->{kwd}};
              $self->{entity__match} = 1;
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 4147 
 sub _get_next_token ($) {
+Line 4565 
 sub _get_next_token ($) {
              #
            } else {
-             $self->{entity__value} = $EntityChar->{$self->{s_kwd}};
+             $self->{entity__value} = $EntityChar->{$self->{kwd}};
              $self->{entity__match} = -1;
              ## Stay in the state.
-Line 4195 
 sub _get_next_token ($) {
+Line 4613 
 sub _get_next_token ($) {
          if ($self->{prev_state} != DATA_STATE and # in attribute
              $self->{entity__match} < -1) {
-           $data = '&' . $self->{s_kwd};
+           $data = '&' . $self->{kwd};
            #
          } else {
-Line 4207 
 sub _get_next_token ($) {
+Line 4625 
 sub _get_next_token ($) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'bare ero',
                          line => $self->{line_prev},
-                         column => $self->{column_prev} - length $self->{s_kwd});
+                         column => $self->{column_prev} - length $self->{kwd});
-         $data = '&' . $self->{s_kwd};
+         $data = '&' . $self->{kwd};
          #
        }
-Line 4229 
 sub _get_next_token ($) {
+Line 4647 
 sub _get_next_token ($) {
          ## Reconsume.
          return  ({type => CHARACTER_TOKEN,
                    data => $data,
+                   has_reference => $has_ref,
                    line => $self->{line_prev},
-                   column => $self->{column_prev} + 1 - length $self->{s_kwd},
+                   column => $self->{column_prev} + 1 - length $self->{kwd},
                   });
          redo A;
        } else {
-Line 4242 
 sub _get_next_token ($) {
+Line 4661 
 sub _get_next_token ($) {
          ## Reconsume.
          redo A;
        }
+     ## XML-only states
+     } elsif ($self->{state} == PI_STATE) {
+       if ($is_space->{$self->{nc}} or
+           $self->{nc} == 0x003F or # ? ## XML5: Same as "Anything else"
+           $self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'bare pio', ## TODO: type
+                         line => $self->{line_prev},
+                         column => $self->{column_prev}
+                             - 1 * ($self->{nc} != -1));
+         $self->{state} = BOGUS_COMMENT_STATE;
+         ## Reconsume.
+         $self->{ct} = {type => COMMENT_TOKEN,
+                        data => '?',
+                        line => $self->{line_prev},
+                        column => $self->{column_prev}
+                            - 1 * ($self->{nc} != -1),
+                       };
+         redo A;
+       } else {
+         $self->{ct} = {type => PI_TOKEN,
+                        target => chr $self->{nc},
+                        data => '',
+                        line => $self->{line_prev},
+                        column => $self->{column_prev} - 1,
+                       };
+         $self->{state} = PI_TARGET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       }
+     } elsif ($self->{state} == PI_TARGET_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         $self->{state} = PI_TARGET_AFTER_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no pic'); ## TODO: type
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         ## Reconsume.
+         return  ($self->{ct}); # pi
+         redo A;
+       } elsif ($self->{nc} == 0x003F) { # ?
+         $self->{state} = PI_AFTER_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } else {
+         ## XML5: typo ("tag name" -> "target")
+         $self->{ct}->{target} .= chr $self->{nc}; # pi
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       }
+     } elsif ($self->{state} == PI_TARGET_AFTER_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } else {
+         $self->{state} = PI_DATA_STATE;
+         ## Reprocess.
+         redo A;
+       }
+     } elsif ($self->{state} == PI_DATA_STATE) {
+       if ($self->{nc} == 0x003F) { # ?
+         $self->{state} = PI_DATA_AFTER_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no pic'); ## TODO: type
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         ## Reprocess.
+         return  ($self->{ct}); # pi
+         redo A;
+       } else {
+         $self->{ct}->{data} .= chr $self->{nc}; # pi
+         $self->{read_until}->($self->{ct}->{data}, q[?],
+                               length $self->{ct}->{data});
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         ## Reprocess.
+         redo A;
+       }
+     } elsif ($self->{state} == PI_AFTER_STATE) {
+       if ($self->{nc} == 0x003E) { # >
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # pi
+         redo A;
+       } elsif ($self->{nc} == 0x003F) { # ?
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no s after target', ## TODO: type
+                         line => $self->{line_prev},
+                         column => $self->{column_prev}); ## XML5: no error
+         $self->{ct}->{data} .= '?';
+         $self->{state} = PI_DATA_AFTER_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } else {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no s after target', ## TODO: type
+                         line => $self->{line_prev},
+                         column => $self->{column_prev}
+                             + 1 * ($self->{nc} == -1)); ## XML5: no error
+         $self->{ct}->{data} .= '?'; ## XML5: not appended
+         $self->{state} = PI_DATA_STATE;
+         ## Reprocess.
+         redo A;
+       }
+     } elsif ($self->{state} == PI_DATA_AFTER_STATE) {
+       ## XML5: Same as "pi after state" in XML5
+       if ($self->{nc} == 0x003E) { # >
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # pi
+         redo A;
+       } elsif ($self->{nc} == 0x003F) { # ?
+         $self->{ct}->{data} .= '?';
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } else {
+         $self->{ct}->{data} .= '?'; ## XML5: not appended
+         $self->{state} = PI_DATA_STATE;
+         ## Reprocess.
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_INTERNAL_SUBSET_STATE) {
+       if ($self->{nc} == 0x003C) { # <
+         ## TODO:
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x0025) { # %
+         ## XML5: Not defined yet.
+         ## TODO:
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x005D) { # ]
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_AFTER_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed internal subset'); ## TODO: type
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         ## Reconsume.
+         return  ($self->{ct}); # DOCTYPE
+         redo A;
+       } else {
+         unless ($self->{internal_subset_tainted}) {
+           ## XML5: No parse error.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'string in internal subset');
+           $self->{internal_subset_tainted} = 1;
+         }
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_INTERNAL_SUBSET_AFTER_STATE) {
+       if ($self->{nc} == 0x003E) { # >
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # DOCTYPE
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed DOCTYPE');
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         ## Reconsume.
+         return  ($self->{ct}); # DOCTYPE
+         redo A;
+       } else {
+         ## XML5: No parse error and stay in the state.
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'string after internal subset'); ## TODO: type
+         $self->{state} = BOGUS_DOCTYPE_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       }
      } else {
        die "$0: $self->{state}: Unknown state";
      }

 Legend:



Removed from v.1.5
 


changed lines


 
Added in v.1.12
 Legend:



Removed from v.1.5
 


changed lines


 
Added in v.1.12
-Removed from v.1.5
+Added in v.1.12

admin@suikawiki.org	ViewVC Help
Powered by ViewVC 1.1.24