/[suikacvs]/markup/html/whatpm/Whatpm/HTML/Tokenizer.pm.src

Diff of /markup/html/whatpm/Whatpm/HTML/Tokenizer.pm.src

Parent Directory | Revision Log | View Patch Patch

-revision 1.3 by wakaba,
Tue Oct 14 05:34:05 2008 UTC
+revision 1.31 by wakaba,
Sat Sep  5 09:26:55 2009 UTC
 Line 15 
 BEGIN {
      CHARACTER_TOKEN
      PI_TOKEN
      ABORT_TOKEN
+     END_OF_DOCTYPE_TOKEN
+     ATTLIST_TOKEN
+     ELEMENT_TOKEN
+     GENERAL_ENTITY_TOKEN
+     PARAMETER_ENTITY_TOKEN
+     NOTATION_TOKEN
    );
    our %EXPORT_TAGS = (
-Line 27 
 BEGIN {
+Line 33 
 BEGIN {
        CHARACTER_TOKEN
        PI_TOKEN
        ABORT_TOKEN
+       END_OF_DOCTYPE_TOKEN
+       ATTLIST_TOKEN
+       ELEMENT_TOKEN
+       GENERAL_ENTITY_TOKEN
+       PARAMETER_ENTITY_TOKEN
+       NOTATION_TOKEN
      )],
    );
  }
+ ## NOTE: Differences from the XML5 draft are marked as "XML5:".
  ## Token types
- sub DOCTYPE_TOKEN () { 1 }
+ sub DOCTYPE_TOKEN () { 1 } ## XML5: No DOCTYPE token.
  sub COMMENT_TOKEN () { 2 }
  sub START_TAG_TOKEN () { 3 }
  sub END_TAG_TOKEN () { 4 }
  sub END_OF_FILE_TOKEN () { 5 }
  sub CHARACTER_TOKEN () { 6 }
- sub PI_TOKEN () { 7 } # XML5
+ sub PI_TOKEN () { 7 } ## NOTE: XML only.
- sub ABORT_TOKEN () { 8 } # Not a token actually
+ sub ABORT_TOKEN () { 8 } ## NOTE: For internal processing.
+ sub END_OF_DOCTYPE_TOKEN () { 9 } ## NOTE: XML only.
+ sub ATTLIST_TOKEN () { 10 } ## NOTE: XML only.
+ sub ELEMENT_TOKEN () { 11 } ## NOTE: XML only.
+ sub GENERAL_ENTITY_TOKEN () { 12 } ## NOTE: XML only.
+ sub PARAMETER_ENTITY_TOKEN () { 13 } ## NOTE: XML only.
+ sub NOTATION_TOKEN () { 14 } ## NOTE: XML only.
+ ## XML5: XML5 has "empty tag token".  In this implementation, it is
+ ## represented as a start tag token with $self->{self_closing} flag
+ ## set to true.
+ ## XML5: XML5 has "short end tag token".  In this implementation, it
+ ## is represented as an end tag token with $token->{tag_name} flag set
+ ## to an empty string.
  package Whatpm::HTML;
-Line 77 
 sub COMMENT_START_STATE () { 14 }
+Line 105 
 sub COMMENT_START_STATE () { 14 }
  sub COMMENT_START_DASH_STATE () { 15 }
  sub COMMENT_STATE () { 16 }
  sub COMMENT_END_STATE () { 17 }
+ sub COMMENT_END_BANG_STATE () { 102 } ## LAST
  sub COMMENT_END_DASH_STATE () { 18 }
  sub BOGUS_COMMENT_STATE () { 19 }
  sub DOCTYPE_STATE () { 20 }
-Line 114 
 sub HEXREF_HEX_STATE () { 48 }
+Line 143 
 sub HEXREF_HEX_STATE () { 48 }
  sub ENTITY_NAME_STATE () { 49 }
  sub PCDATA_STATE () { 50 } # "data state" in the spec
+ ## XML-only states
+ sub PI_STATE () { 51 }
+ sub PI_TARGET_STATE () { 52 }
+ sub PI_TARGET_AFTER_STATE () { 53 }
+ sub PI_DATA_STATE () { 54 }
+ sub PI_AFTER_STATE () { 55 }
+ sub PI_DATA_AFTER_STATE () { 56 }
+ sub DOCTYPE_INTERNAL_SUBSET_STATE () { 57 }
+ sub DOCTYPE_INTERNAL_SUBSET_AFTER_STATE () { 58 }
+ sub BOGUS_DOCTYPE_INTERNAL_SUBSET_AFTER_STATE () { 59 }
+ sub DOCTYPE_TAG_STATE () { 60 }
+ sub DOCTYPE_MARKUP_DECLARATION_OPEN_STATE () { 61 }
+ sub MD_ATTLIST_STATE () { 62 }
+ sub MD_E_STATE () { 63 }
+ sub MD_ELEMENT_STATE () { 64 }
+ sub MD_ENTITY_STATE () { 65 }
+ sub MD_NOTATION_STATE () { 66 }
+ sub DOCTYPE_MD_STATE () { 67 }
+ sub BEFORE_MD_NAME_STATE () { 68 }
+ sub MD_NAME_STATE () { 69 }
+ sub DOCTYPE_ENTITY_PARAMETER_BEFORE_STATE () { 70 }
+ sub DOCTYPE_ATTLIST_NAME_AFTER_STATE () { 71 }
+ sub DOCTYPE_ATTLIST_ATTRIBUTE_NAME_STATE () { 72 }
+ sub DOCTYPE_ATTLIST_ATTRIBUTE_NAME_AFTER_STATE () { 73 }
+ sub DOCTYPE_ATTLIST_ATTRIBUTE_TYPE_STATE () { 74 }
+ sub DOCTYPE_ATTLIST_ATTRIBUTE_TYPE_AFTER_STATE () { 75 }
+ sub BEFORE_ALLOWED_TOKEN_STATE () { 76 }
+ sub ALLOWED_TOKEN_STATE () { 77 }
+ sub AFTER_ALLOWED_TOKEN_STATE () { 78 }
+ sub AFTER_ALLOWED_TOKENS_STATE () { 79 }
+ sub BEFORE_ATTR_DEFAULT_STATE () { 80 }
+ sub DOCTYPE_ATTLIST_ATTRIBUTE_DECLARATION_BEFORE_STATE () { 81 }
+ sub DOCTYPE_ATTLIST_ATTRIBUTE_DECLARATION_STATE () { 82 }
+ sub DOCTYPE_ATTLIST_ATTRIBUTE_DECLARATION_AFTER_STATE () { 83 }
+ sub AFTER_ATTLIST_ATTR_VALUE_QUOTED_STATE () { 84 }
+ sub BEFORE_NDATA_STATE () { 85 }
+ sub NDATA_STATE () { 86 }
+ sub AFTER_NDATA_STATE () { 87 }
+ sub BEFORE_NOTATION_NAME_STATE () { 88 }
+ sub NOTATION_NAME_STATE () { 89 }
+ sub DOCTYPE_ENTITY_VALUE_DOUBLE_QUOTED_STATE () { 90 }
+ sub DOCTYPE_ENTITY_VALUE_SINGLE_QUOTED_STATE () { 91 }
+ sub ENTITY_VALUE_ENTITY_STATE () { 92 }
+ sub AFTER_ELEMENT_NAME_STATE () { 93 }
+ sub BEFORE_ELEMENT_CONTENT_STATE () { 94 }
+ sub CONTENT_KEYWORD_STATE () { 95 }
+ sub AFTER_CM_GROUP_OPEN_STATE () { 96 }
+ sub CM_ELEMENT_NAME_STATE () { 97 }
+ sub AFTER_CM_ELEMENT_NAME_STATE () { 98 }
+ sub AFTER_CM_GROUP_CLOSE_STATE () { 99 }
+ sub AFTER_MD_DEF_STATE () { 100 }
+ sub BOGUS_MD_STATE () { 101 }
  ## Tree constructor state constants (see Whatpm::HTML for the full
  ## list and descriptions)
-Line 178 
 sub _initialize_tokenizer ($) {
+Line 260 
 sub _initialize_tokenizer ($) {
    #$self->{is_xml} (if XML)
    $self->{state} = DATA_STATE; # MUST
-   #$self->{s_kwd}; # state keyword - initialized when used
+   $self->{s_kwd} = ''; # Data state keyword
+   #$self->{kwd} = ''; # State-dependent keyword; initialized when used
    #$self->{entity__value}; # initialized when used
    #$self->{entity__match}; # initialized when used
    $self->{content_model} = PCDATA_CONTENT_MODEL; # be
-Line 198 
 sub _initialize_tokenizer ($) {
+Line 281 
 sub _initialize_tokenizer ($) {
  ## A token has:
  ##   ->{type} == DOCTYPE_TOKEN, START_TAG_TOKEN, END_TAG_TOKEN, COMMENT_TOKEN,
- ##       CHARACTER_TOKEN, or END_OF_FILE_TOKEN
+ ##       CHARACTER_TOKEN, END_OF_FILE_TOKEN, PI_TOKEN, or ABORT_TOKEN
  ##   ->{name} (DOCTYPE_TOKEN)
  ##   ->{tag_name} (START_TAG_TOKEN, END_TAG_TOKEN)
+ ##   ->{target} (PI_TOKEN)
  ##   ->{pubid} (DOCTYPE_TOKEN)
  ##   ->{sysid} (DOCTYPE_TOKEN)
  ##   ->{quirks} == 1 or 0 (DOCTYPE_TOKEN): "force-quirks" flag
-Line 208 
 sub _initialize_tokenizer ($) {
+Line 292 
 sub _initialize_tokenizer ($) {
  ##        ->{name}
  ##        ->{value}
  ##        ->{has_reference} == 1 or 0
- ##   ->{data} (COMMENT_TOKEN, CHARACTER_TOKEN)
+ ##        ->{index}: Index of the attribute in a tag.
+ ##   ->{data} (COMMENT_TOKEN, CHARACTER_TOKEN, PI_TOKEN)
+ ##   ->{has_reference} == 1 or 0 (CHARACTER_TOKEN)
+ ##   ->{last_index} (ELEMENT_TOKEN): Next attribute's index - 1.
+ ##   ->{has_internal_subset} = 1 or 0 (DOCTYPE_TOKEN)
  ## NOTE: The "self-closing flag" is hold as |$self->{self_closing}|.
  ##     |->{self_closing}| is used to save the value of |$self->{self_closing}|
  ##     while the token is pushed back to the stack.
-Line 228 
 my $is_space = {
+Line 317 
 my $is_space = {
 x0009 => 1, # CHARACTER TABULATION (HT)
 x000A => 1, # LINE FEED (LF)
    #0x000B => 0, # LINE TABULATION (VT)
-x000C => 1, # FORM FEED (FF)
+x000C => 1, # FORM FEED (FF) ## XML5: Not a space character.
    #0x000D => 1, # CARRIAGE RETURN (CR)
 x0020 => 1, # SPACE (SP)
  };
-Line 312 
 sub _get_next_token ($) {
+Line 401 
 sub _get_next_token ($) {
          }
        } elsif ($self->{nc} == 0x002D) { # -
          if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
-           $self->{s_kwd} .= '-';
+           if ($self->{s_kwd} eq '<!-') {
-           if ($self->{s_kwd} eq '<!--') {
              !!!cp (3);
              $self->{escape} = 1; # unless $self->{escape};
              $self->{s_kwd} = '--';
              #
-           } elsif ($self->{s_kwd} eq '---') {
+           } elsif ($self->{s_kwd} eq '-') {
              !!!cp (4);
              $self->{s_kwd} = '--';
              #
+           } elsif ($self->{s_kwd} eq '<!' or $self->{s_kwd} eq '-') {
+             !!!cp (4.1);
+             $self->{s_kwd} .= '-';
+             #
            } else {
              !!!cp (5);
+             $self->{s_kwd} = '-';
              #
            }
          }
-Line 360 
 sub _get_next_token ($) {
+Line 452 
 sub _get_next_token ($) {
            if ($self->{s_kwd} eq '--') {
              !!!cp (8);
              delete $self->{escape};
+             #
            } else {
              !!!cp (9);
+             #
            }
+         } elsif ($self->{is_xml} and $self->{s_kwd} eq ']]') {
+           !!!cp (9.1);
+           !!!parse-error (type => 'unmatched mse', ## TODO: type
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 1);
+           #
          } else {
            !!!cp (10);
+           #
          }
          $self->{s_kwd} = '';
          #
+       } elsif ($self->{nc} == 0x005D) { # ]
+         if ($self->{s_kwd} eq ']' or $self->{s_kwd} eq '') {
+           !!!cp (10.1);
+           $self->{s_kwd} .= ']';
+         } elsif ($self->{s_kwd} eq ']]') {
+           !!!cp (10.2);
+           #
+         } else {
+           !!!cp (10.3);
+           $self->{s_kwd} = '';
+         }
+         #
        } elsif ($self->{nc} == -1) {
          !!!cp (11);
          $self->{s_kwd} = '';
-Line 386 
 sub _get_next_token ($) {
+Line 499 
 sub _get_next_token ($) {
                     data => chr $self->{nc},
                     line => $self->{line}, column => $self->{column},
                    };
-       if ($self->{read_until}->($token->{data}, q[-!<>&],
+       if ($self->{read_until}->($token->{data}, q{-!<>&\]},
                                  length $token->{data})) {
          $self->{s_kwd} = '';
        }
        ## Stay in the data state.
-       if ($self->{content_model} == PCDATA_CONTENT_MODEL) {
+       if (not $self->{is_xml} and
+           $self->{content_model} == PCDATA_CONTENT_MODEL) {
          !!!cp (13);
          $self->{state} = PCDATA_STATE;
        } else {
-Line 403 
 sub _get_next_token ($) {
+Line 517 
 sub _get_next_token ($) {
        !!!emit ($token);
        redo A;
      } elsif ($self->{state} == TAG_OPEN_STATE) {
+       ## XML5: "tag state".
        if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
          if ($self->{nc} == 0x002F) { # /
            !!!cp (15);
-Line 411 
 sub _get_next_token ($) {
+Line 527 
 sub _get_next_token ($) {
            redo A;
          } elsif ($self->{nc} == 0x0021) { # !
            !!!cp (15.1);
-           $self->{s_kwd} = '<' unless $self->{escape};
+           $self->{s_kwd} = $self->{escaped} ? '' : '<';
            #
          } else {
            !!!cp (16);
+           $self->{s_kwd} = '';
            #
          }
-Line 441 
 sub _get_next_token ($) {
+Line 558 
 sub _get_next_token ($) {
            !!!cp (19);
            $self->{ct}
              = {type => START_TAG_TOKEN,
-                tag_name => chr ($self->{nc} + 0x0020),
+                tag_name => chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020)),
                 line => $self->{line_prev},
                 column => $self->{column_prev}};
            $self->{state} = TAG_NAME_STATE;
-Line 463 
 sub _get_next_token ($) {
+Line 580 
 sub _get_next_token ($) {
                            line => $self->{line_prev},
                            column => $self->{column_prev});
            $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
            !!!next-input-character;
            !!!emit ({type => CHARACTER_TOKEN, data => '<>',
-Line 472 
 sub _get_next_token ($) {
+Line 590 
 sub _get_next_token ($) {
            redo A;
          } elsif ($self->{nc} == 0x003F) { # ?
-           !!!cp (22);
+           if ($self->{is_xml}) {
-           !!!parse-error (type => 'pio',
+             !!!cp (22.1);
-                           line => $self->{line_prev},
+             $self->{state} = PI_STATE;
-                           column => $self->{column_prev});
+             !!!next-input-character;
-           $self->{state} = BOGUS_COMMENT_STATE;
+             redo A;
-           $self->{ct} = {type => COMMENT_TOKEN, data => '',
+           } else {
-                                     line => $self->{line_prev},
+             !!!cp (22);
-                                     column => $self->{column_prev},
+             !!!parse-error (type => 'pio',
-                                    };
+                             line => $self->{line_prev},
-           ## $self->{nc} is intentionally left as is
+                             column => $self->{column_prev});
-           redo A;
+             $self->{state} = BOGUS_COMMENT_STATE;
-         } else {
+             $self->{ct} = {type => COMMENT_TOKEN, data => '',
+                            line => $self->{line_prev},
+                            column => $self->{column_prev},
+                           };
+             ## $self->{nc} is intentionally left as is
+             redo A;
+           }
+         } elsif (not $self->{is_xml} or $is_space->{$self->{nc}}) {
            !!!cp (23);
            !!!parse-error (type => 'bare stago',
                            line => $self->{line_prev},
                            column => $self->{column_prev});
            $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
            ## reconsume
            !!!emit ({type => CHARACTER_TOKEN, data => '<',
-Line 497 
 sub _get_next_token ($) {
+Line 623 
 sub _get_next_token ($) {
                     });
            redo A;
+         } else {
+           ## XML5: "<:" is a parse error.
+           !!!cp (23.1);
+           $self->{ct} = {type => START_TAG_TOKEN,
+                                     tag_name => chr ($self->{nc}),
+                                     line => $self->{line_prev},
+                                     column => $self->{column_prev}};
+           $self->{state} = TAG_NAME_STATE;
+           !!!next-input-character;
+           redo A;
          }
        } else {
          die "$0: $self->{content_model} in tag open";
-Line 505 
 sub _get_next_token ($) {
+Line 641 
 sub _get_next_token ($) {
        ## NOTE: The "close tag open state" in the spec is implemented as
        ## |CLOSE_TAG_OPEN_STATE| and |CDATA_RCDATA_CLOSE_TAG_STATE|.
+       ## XML5: "end tag state".
        my ($l, $c) = ($self->{line_prev}, $self->{column_prev} - 1); # "<"of"</"
        if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
          if (defined $self->{last_stag_name}) {
            $self->{state} = CDATA_RCDATA_CLOSE_TAG_STATE;
-           $self->{s_kwd} = '';
+           $self->{kwd} = '';
            ## Reconsume.
            redo A;
          } else {
-Line 517 
 sub _get_next_token ($) {
+Line 655 
 sub _get_next_token ($) {
            ## NOTE: See <http://krijnhoetmer.nl/irc-logs/whatwg/20070626#l-564>.
            !!!cp (28);
            $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
            ## Reconsume.
            !!!emit ({type => CHARACTER_TOKEN, data => '</',
                      line => $l, column => $c,
-Line 530 
 sub _get_next_token ($) {
+Line 669 
 sub _get_next_token ($) {
          !!!cp (29);
          $self->{ct}
              = {type => END_TAG_TOKEN,
-                tag_name => chr ($self->{nc} + 0x0020),
+                tag_name => chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020)),
                 line => $l, column => $c};
          $self->{state} = TAG_NAME_STATE;
          !!!next-input-character;
-Line 545 
 sub _get_next_token ($) {
+Line 684 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
-         !!!cp (31);
          !!!parse-error (type => 'empty end tag',
                          line => $self->{line_prev}, ## "<" in "</>"
                          column => $self->{column_prev} - 1);
          $self->{state} = DATA_STATE;
-         !!!next-input-character;
+         $self->{s_kwd} = '';
+         if ($self->{is_xml}) {
+           !!!cp (31);
+           ## XML5: No parse error.
+           ## NOTE: This parser raises a parse error, since it supports
+           ## XML1, not XML5.
+           ## NOTE: A short end tag token.
+           my $ct = {type => END_TAG_TOKEN,
+                     tag_name => '',
+                     line => $self->{line_prev},
+                     column => $self->{column_prev} - 1,
+                    };
+           !!!next-input-character;
+           !!!emit ($ct);
+         } else {
+           !!!cp (31.1);
+           !!!next-input-character;
+         }
          redo A;
        } elsif ($self->{nc} == -1) {
          !!!cp (32);
          !!!parse-error (type => 'bare etago');
+         $self->{s_kwd} = '';
          $self->{state} = DATA_STATE;
          # reconsume
-Line 563 
 sub _get_next_token ($) {
+Line 721 
 sub _get_next_token ($) {
                   });
          redo A;
-       } else {
+       } elsif (not $self->{is_xml} or
+                $is_space->{$self->{nc}}) {
          !!!cp (33);
-         !!!parse-error (type => 'bogus end tag');
+         !!!parse-error (type => 'bogus end tag',
+                         line => $self->{line_prev}, # "<" of "</"
+                         column => $self->{column_prev} - 1);
          $self->{state} = BOGUS_COMMENT_STATE;
          $self->{ct} = {type => COMMENT_TOKEN, data => '',
                                    line => $self->{line_prev}, # "<" of "</"
-Line 578 
 sub _get_next_token ($) {
+Line 739 
 sub _get_next_token ($) {
          ## generated from the bogus end tag, as defined in the
          ## "bogus comment state" entry.
          redo A;
+       } else {
+         ## XML5: "</:" is a parse error.
+         !!!cp (30.1);
+         $self->{ct} = {type => END_TAG_TOKEN,
+                        tag_name => chr ($self->{nc}),
+                        line => $l, column => $c};
+         $self->{state} = TAG_NAME_STATE; ## XML5: "end tag name state".
+         !!!next-input-character;
+         redo A;
        }
      } elsif ($self->{state} == CDATA_RCDATA_CLOSE_TAG_STATE) {
-       my $ch = substr $self->{last_stag_name}, length $self->{s_kwd}, 1;
+       my $ch = substr $self->{last_stag_name}, length $self->{kwd}, 1;
        if (length $ch) {
          my $CH = $ch;
          $ch =~ tr/a-z/A-Z/;
-Line 588 
 sub _get_next_token ($) {
+Line 758 
 sub _get_next_token ($) {
          if ($nch eq $ch or $nch eq $CH) {
            !!!cp (24);
            ## Stay in the state.
-           $self->{s_kwd} .= $nch;
+           $self->{kwd} .= $nch;
            !!!next-input-character;
            redo A;
          } else {
            !!!cp (25);
            $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
            ## Reconsume.
            !!!emit ({type => CHARACTER_TOKEN,
-                     data => '</' . $self->{s_kwd},
+                     data => '</' . $self->{kwd},
                      line => $self->{line_prev},
-                     column => $self->{column_prev} - 1 - length $self->{s_kwd},
+                     column => $self->{column_prev} - 1 - length $self->{kwd},
                     });
            redo A;
          }
-Line 612 
 sub _get_next_token ($) {
+Line 783 
 sub _get_next_token ($) {
            !!!cp (26);
            ## Reconsume.
            $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
            !!!emit ({type => CHARACTER_TOKEN,
-                     data => '</' . $self->{s_kwd},
+                     data => '</' . $self->{kwd},
                      line => $self->{line_prev},
-                     column => $self->{column_prev} - 1 - length $self->{s_kwd},
+                     column => $self->{column_prev} - 1 - length $self->{kwd},
                     });
            redo A;
          } else {
-Line 624 
 sub _get_next_token ($) {
+Line 796 
 sub _get_next_token ($) {
                = {type => END_TAG_TOKEN,
                   tag_name => $self->{last_stag_name},
                   line => $self->{line_prev},
-                  column => $self->{column_prev} - 1 - length $self->{s_kwd}};
+                  column => $self->{column_prev} - 1 - length $self->{kwd}};
            $self->{state} = TAG_NAME_STATE;
            ## Reconsume.
            redo A;
-Line 653 
 sub _get_next_token ($) {
+Line 825 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # start tag or end tag
-Line 661 
 sub _get_next_token ($) {
+Line 834 
 sub _get_next_token ($) {
        } elsif (0x0041 <= $self->{nc} and
                 $self->{nc} <= 0x005A) { # A..Z
          !!!cp (38);
-         $self->{ct}->{tag_name} .= chr ($self->{nc} + 0x0020);
+         $self->{ct}->{tag_name}
+             .= chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020));
            # start tag or end tag
          ## Stay in this state
          !!!next-input-character;
-Line 684 
 sub _get_next_token ($) {
+Line 858 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          # reconsume
          !!!emit ($self->{ct}); # start tag or end tag
-Line 703 
 sub _get_next_token ($) {
+Line 878 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == BEFORE_ATTRIBUTE_NAME_STATE) {
+       ## XML5: "Tag attribute name before state".
        if ($is_space->{$self->{nc}}) {
          !!!cp (45);
          ## Stay in the state
-Line 724 
 sub _get_next_token ($) {
+Line 901 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # start tag or end tag
-Line 733 
 sub _get_next_token ($) {
+Line 911 
 sub _get_next_token ($) {
                 $self->{nc} <= 0x005A) { # A..Z
          !!!cp (49);
          $self->{ca}
-             = {name => chr ($self->{nc} + 0x0020),
+             = {name => chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020)),
                 value => '',
                 line => $self->{line}, column => $self->{column}};
          $self->{state} = ATTRIBUTE_NAME_STATE;
-Line 761 
 sub _get_next_token ($) {
+Line 939 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          # reconsume
          !!!emit ($self->{ct}); # start tag or end tag
-Line 770 
 sub _get_next_token ($) {
+Line 949 
 sub _get_next_token ($) {
          if ({
 x0022 => 1, # "
 x0027 => 1, # '
+x003C => 1, # <
 x003D => 1, # =
              }->{$self->{nc}}) {
            !!!cp (55);
+           ## XML5: Not a parse error.
            !!!parse-error (type => 'bad attribute name');
          } else {
            !!!cp (56);
+           ## XML5: ":" raises a parse error and is ignored.
          }
          $self->{ca}
              = {name => chr ($self->{nc}),
-Line 786 
 sub _get_next_token ($) {
+Line 968 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ATTRIBUTE_NAME_STATE) {
+       ## XML5: "Tag attribute name state".
        my $before_leave = sub {
          if (exists $self->{ct}->{attributes} # start tag or end tag
              ->{$self->{ca}->{name}}) { # MUST
-Line 796 
 sub _get_next_token ($) {
+Line 980 
 sub _get_next_token ($) {
            !!!cp (58);
            $self->{ct}->{attributes}->{$self->{ca}->{name}}
              = $self->{ca};
+           $self->{ca}->{index} = ++$self->{ct}->{last_index};
          }
        }; # $before_leave
-Line 812 
 sub _get_next_token ($) {
+Line 997 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
+         if ($self->{is_xml}) {
+           !!!cp (60.1);
+           ## XML5: Not a parse error.
+           !!!parse-error (type => 'no attr value'); ## TODO: type
+         } else {
+           !!!cp (60.2);
+         }
          $before_leave->();
          if ($self->{ct}->{type} == START_TAG_TOKEN) {
            !!!cp (61);
-Line 826 
 sub _get_next_token ($) {
+Line 1019 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # start tag or end tag
-Line 834 
 sub _get_next_token ($) {
+Line 1028 
 sub _get_next_token ($) {
        } elsif (0x0041 <= $self->{nc} and
                 $self->{nc} <= 0x005A) { # A..Z
          !!!cp (63);
-         $self->{ca}->{name} .= chr ($self->{nc} + 0x0020);
+         $self->{ca}->{name}
+             .= chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020));
          ## Stay in the state
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x002F) { # /
-         !!!cp (64);
+         if ($self->{is_xml}) {
+           !!!cp (64);
+           ## XML5: Not a parse error.
+           !!!parse-error (type => 'no attr value'); ## TODO: type
+         } else {
+           !!!cp (64.1);
+         }
          $before_leave->();
          $self->{state} = SELF_CLOSING_START_TAG_STATE;
          !!!next-input-character;
-Line 863 
 sub _get_next_token ($) {
+Line 1065 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          # reconsume
          !!!emit ($self->{ct}); # start tag or end tag
          redo A;
        } else {
-         if ($self->{nc} == 0x0022 or # "
+         if ({
-             $self->{nc} == 0x0027) { # '
+x0022 => 1, # "
+x0027 => 1, # '
+x003C => 1, # <
+             }->{$self->{nc}}) {
            !!!cp (69);
+           ## XML5: Not a parse error.
            !!!parse-error (type => 'bad attribute name');
          } else {
            !!!cp (70);
-Line 882 
 sub _get_next_token ($) {
+Line 1089 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == AFTER_ATTRIBUTE_NAME_STATE) {
+       ## XML5: "Tag attribute name after state".
        if ($is_space->{$self->{nc}}) {
          !!!cp (71);
          ## Stay in the state
-Line 893 
 sub _get_next_token ($) {
+Line 1102 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
+         if ($self->{is_xml}) {
+           !!!cp (72.1);
+           ## XML5: Not a parse error.
+           !!!parse-error (type => 'no attr value'); ## TODO: type
+         } else {
+           !!!cp (72.2);
+         }
          if ($self->{ct}->{type} == START_TAG_TOKEN) {
            !!!cp (73);
            $self->{last_stag_name} = $self->{ct}->{tag_name};
-Line 909 
 sub _get_next_token ($) {
+Line 1126 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # start tag or end tag
-Line 918 
 sub _get_next_token ($) {
+Line 1136 
 sub _get_next_token ($) {
                 $self->{nc} <= 0x005A) { # A..Z
          !!!cp (76);
          $self->{ca}
-             = {name => chr ($self->{nc} + 0x0020),
+             = {name => chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020)),
                 value => '',
                 line => $self->{line}, column => $self->{column}};
          $self->{state} = ATTRIBUTE_NAME_STATE;
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x002F) { # /
-         !!!cp (77);
+         if ($self->{is_xml}) {
+           !!!cp (77);
+           ## XML5: Not a parse error.
+           !!!parse-error (type => 'no attr value'); ## TODO: type
+         } else {
+           !!!cp (77.1);
+         }
          $self->{state} = SELF_CLOSING_START_TAG_STATE;
          !!!next-input-character;
          redo A;
-Line 946 
 sub _get_next_token ($) {
+Line 1171 
 sub _get_next_token ($) {
          } else {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
+         $self->{s_kwd} = '';
          $self->{state} = DATA_STATE;
          # reconsume
-Line 953 
 sub _get_next_token ($) {
+Line 1179 
 sub _get_next_token ($) {
          redo A;
        } else {
-         if ($self->{nc} == 0x0022 or # "
+         if ($self->{is_xml}) {
-             $self->{nc} == 0x0027) { # '
+           !!!cp (78.1);
+           ## XML5: Not a parse error.
+           !!!parse-error (type => 'no attr value'); ## TODO: type
+         } else {
+           !!!cp (78.2);
+         }
+         if ({
+x0022 => 1, # "
+x0027 => 1, # '
+x003C => 1, # <
+             }->{$self->{nc}}) {
            !!!cp (78);
+           ## XML5: Not a parse error.
            !!!parse-error (type => 'bad attribute name');
          } else {
            !!!cp (82);
-Line 969 
 sub _get_next_token ($) {
+Line 1207 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == BEFORE_ATTRIBUTE_VALUE_STATE) {
+       ## XML5: "Tag attribute value before state".
        if ($is_space->{$self->{nc}}) {
          !!!cp (83);
          ## Stay in the state
-Line 1007 
 sub _get_next_token ($) {
+Line 1247 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # start tag or end tag
-Line 1030 
 sub _get_next_token ($) {
+Line 1271 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          !!!emit ($self->{ct}); # start tag or end tag
          redo A;
        } else {
-         if ($self->{nc} == 0x003D) { # =
+         if ($self->{nc} == 0x003D or $self->{nc} == 0x003C) { # =, <
            !!!cp (93);
+           ## XML5: Not a parse error.
            !!!parse-error (type => 'bad attribute value');
+         } elsif ($self->{is_xml}) {
+           !!!cp (93.1);
+           ## XML5: No parse error.
+           !!!parse-error (type => 'unquoted attr value'); ## TODO
          } else {
            !!!cp (94);
          }
-Line 1048 
 sub _get_next_token ($) {
+Line 1295 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ATTRIBUTE_VALUE_DOUBLE_QUOTED_STATE) {
+       ## XML5: "Tag attribute value double quoted state" and "DOCTYPE
+       ## ATTLIST attribute value double quoted state".
        if ($self->{nc} == 0x0022) { # "
-         !!!cp (95);
+         if ($self->{ct}->{type} == ATTLIST_TOKEN) {
-         $self->{state} = AFTER_ATTRIBUTE_VALUE_QUOTED_STATE;
+           !!!cp (95.1);
+           ## XML5: "DOCTYPE ATTLIST name after state".
+           push @{$self->{ct}->{attrdefs}}, $self->{ca};
+           $self->{state} = AFTER_ATTLIST_ATTR_VALUE_QUOTED_STATE;
+         } else {
+           !!!cp (95);
+           ## XML5: "Tag attribute name before state".
+           $self->{state} = AFTER_ATTRIBUTE_VALUE_QUOTED_STATE;
+         }
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x0026) { # &
          !!!cp (96);
+         ## XML5: Not defined yet.
          ## NOTE: In the spec, the tokenizer is switched to the
          ## "entity in attribute value state".  In this implementation, the
          ## tokenizer is switched to the |ENTITY_STATE|, which is an
-Line 1064 
 sub _get_next_token ($) {
+Line 1324 
 sub _get_next_token ($) {
          $self->{state} = ENTITY_STATE;
          !!!next-input-character;
          redo A;
+       } elsif ($self->{is_xml} and
+                $is_space->{$self->{nc}}) {
+         !!!cp (97.1);
+         $self->{ca}->{value} .= ' ';
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
        } elsif ($self->{nc} == -1) {
          !!!parse-error (type => 'unclosed attribute value');
          if ($self->{ct}->{type} == START_TAG_TOKEN) {
            !!!cp (97);
            $self->{last_stag_name} = $self->{ct}->{tag_name};
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+           ## reconsume
+           !!!emit ($self->{ct}); # start tag
+           redo A;
          } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
            if ($self->{ct}->{attributes}) {
-Line 1078 
 sub _get_next_token ($) {
+Line 1351 
 sub _get_next_token ($) {
              ## NOTE: This state should never be reached.
              !!!cp (99);
            }
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+           ## reconsume
+           !!!emit ($self->{ct}); # end tag
+           redo A;
+         } elsif ($self->{ct}->{type} == ATTLIST_TOKEN) {
+           ## XML5: No parse error above; not defined yet.
+           push @{$self->{ct}->{attrdefs}}, $self->{ca};
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+           ## Reconsume.
+           !!!emit ($self->{ct}); # ATTLIST
+           redo A;
          } else {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
-         $self->{state} = DATA_STATE;
-         ## reconsume
-         !!!emit ($self->{ct}); # start tag or end tag
-         redo A;
        } else {
-         !!!cp (100);
+         ## XML5 [ATTLIST]: Not defined yet.
+         if ($self->{is_xml} and $self->{nc} == 0x003C) { # <
+           !!!cp (100);
+           ## XML5: Not a parse error.
+           !!!parse-error (type => 'lt in attr value'); ## TODO: type
+         } else {
+           !!!cp (100.1);
+         }
          $self->{ca}->{value} .= chr ($self->{nc});
          $self->{read_until}->($self->{ca}->{value},
-                               q["&],
+                               qq["&<\x09\x0C\x20],
                                length $self->{ca}->{value});
          ## Stay in the state
-Line 1099 
 sub _get_next_token ($) {
+Line 1386 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ATTRIBUTE_VALUE_SINGLE_QUOTED_STATE) {
+       ## XML5: "Tag attribute value single quoted state" and "DOCTYPE
+       ## ATTLIST attribute value single quoted state".
        if ($self->{nc} == 0x0027) { # '
-         !!!cp (101);
+         if ($self->{ct}->{type} == ATTLIST_TOKEN) {
-         $self->{state} = AFTER_ATTRIBUTE_VALUE_QUOTED_STATE;
+           !!!cp (101.1);
+           ## XML5: "DOCTYPE ATTLIST name after state".
+           push @{$self->{ct}->{attrdefs}}, $self->{ca};
+           $self->{state} = AFTER_ATTLIST_ATTR_VALUE_QUOTED_STATE;
+         } else {
+           !!!cp (101);
+           ## XML5: "Before attribute name state" (sic).
+           $self->{state} = AFTER_ATTRIBUTE_VALUE_QUOTED_STATE;
+         }
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x0026) { # &
          !!!cp (102);
+         ## XML5: Not defined yet.
          ## NOTE: In the spec, the tokenizer is switched to the
          ## "entity in attribute value state".  In this implementation, the
          ## tokenizer is switched to the |ENTITY_STATE|, which is an
-Line 1115 
 sub _get_next_token ($) {
+Line 1415 
 sub _get_next_token ($) {
          $self->{state} = ENTITY_STATE;
          !!!next-input-character;
          redo A;
+       } elsif ($self->{is_xml} and
+                $is_space->{$self->{nc}}) {
+         !!!cp (103.1);
+         $self->{ca}->{value} .= ' ';
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
        } elsif ($self->{nc} == -1) {
          !!!parse-error (type => 'unclosed attribute value');
          if ($self->{ct}->{type} == START_TAG_TOKEN) {
            !!!cp (103);
            $self->{last_stag_name} = $self->{ct}->{tag_name};
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+           ## reconsume
+           !!!emit ($self->{ct}); # start tag
+           redo A;
          } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
            if ($self->{ct}->{attributes}) {
-Line 1129 
 sub _get_next_token ($) {
+Line 1442 
 sub _get_next_token ($) {
              ## NOTE: This state should never be reached.
              !!!cp (105);
            }
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+           ## reconsume
+           !!!emit ($self->{ct}); # end tag
+           redo A;
+         } elsif ($self->{ct}->{type} == ATTLIST_TOKEN) {
+           ## XML5: No parse error above; not defined yet.
+           push @{$self->{ct}->{attrdefs}}, $self->{ca};
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+           ## Reconsume.
+           !!!emit ($self->{ct}); # ATTLIST
+           redo A;
          } else {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
-         $self->{state} = DATA_STATE;
-         ## reconsume
-         !!!emit ($self->{ct}); # start tag or end tag
-         redo A;
        } else {
-         !!!cp (106);
+         ## XML5 [ATTLIST]: Not defined yet.
+         if ($self->{is_xml} and $self->{nc} == 0x003C) { # <
+           !!!cp (106);
+           ## XML5: Not a parse error.
+           !!!parse-error (type => 'lt in attr value'); ## TODO: type
+         } else {
+           !!!cp (106.1);
+         }
          $self->{ca}->{value} .= chr ($self->{nc});
          $self->{read_until}->($self->{ca}->{value},
-                               q['&],
+                               qq['&<\x09\x0C\x20],
                                length $self->{ca}->{value});
          ## Stay in the state
-Line 1150 
 sub _get_next_token ($) {
+Line 1477 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ATTRIBUTE_VALUE_UNQUOTED_STATE) {
+       ## XML5: "Tag attribute value unquoted state".
        if ($is_space->{$self->{nc}}) {
-         !!!cp (107);
+         if ($self->{ct}->{type} == ATTLIST_TOKEN) {
-         $self->{state} = BEFORE_ATTRIBUTE_NAME_STATE;
+           !!!cp (107.1);
+           push @{$self->{ct}->{attrdefs}}, $self->{ca};
+           $self->{state} = DOCTYPE_ATTLIST_NAME_AFTER_STATE;
+         } else {
+           !!!cp (107);
+           ## XML5: "Tag attribute name before state".
+           $self->{state} = BEFORE_ATTRIBUTE_NAME_STATE;
+         }
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x0026) { # &
          !!!cp (108);
+         ## XML5: Not defined yet.
          ## NOTE: In the spec, the tokenizer is switched to the
          ## "entity in attribute value state".  In this implementation, the
          ## tokenizer is switched to the |ENTITY_STATE|, which is an
-Line 1170 
 sub _get_next_token ($) {
+Line 1509 
 sub _get_next_token ($) {
          if ($self->{ct}->{type} == START_TAG_TOKEN) {
            !!!cp (109);
            $self->{last_stag_name} = $self->{ct}->{tag_name};
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+           !!!next-input-character;
+           !!!emit ($self->{ct}); # start tag
+           redo A;
          } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
            if ($self->{ct}->{attributes}) {
-Line 1179 
 sub _get_next_token ($) {
+Line 1524 
 sub _get_next_token ($) {
              ## NOTE: This state should never be reached.
              !!!cp (111);
            }
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+           !!!next-input-character;
+           !!!emit ($self->{ct}); # end tag
+           redo A;
+         } elsif ($self->{ct}->{type} == ATTLIST_TOKEN) {
+           push @{$self->{ct}->{attrdefs}}, $self->{ca};
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+           !!!next-input-character;
+           !!!emit ($self->{ct}); # ATTLIST
+           redo A;
          } else {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
-         $self->{state} = DATA_STATE;
-         !!!next-input-character;
-         !!!emit ($self->{ct}); # start tag or end tag
-         redo A;
        } elsif ($self->{nc} == -1) {
-         !!!parse-error (type => 'unclosed tag');
          if ($self->{ct}->{type} == START_TAG_TOKEN) {
            !!!cp (112);
+           !!!parse-error (type => 'unclosed tag');
            $self->{last_stag_name} = $self->{ct}->{tag_name};
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+           ## reconsume
+           !!!emit ($self->{ct}); # start tag
+           redo A;
          } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
+           !!!parse-error (type => 'unclosed tag');
            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
            if ($self->{ct}->{attributes}) {
              !!!cp (113);
-Line 1202 
 sub _get_next_token ($) {
+Line 1560 
 sub _get_next_token ($) {
              ## NOTE: This state should never be reached.
              !!!cp (114);
            }
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+           ## reconsume
+           !!!emit ($self->{ct}); # end tag
+           redo A;
+         } elsif ($self->{ct}->{type} == ATTLIST_TOKEN) {
+           !!!parse-error (type => 'unclosed md'); ## TODO: type
+           push @{$self->{ct}->{attrdefs}}, $self->{ca};
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+           ## Reconsume.
+           !!!emit ($self->{ct}); # ATTLIST
+           redo A;
          } else {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
-         $self->{state} = DATA_STATE;
-         ## reconsume
-         !!!emit ($self->{ct}); # start tag or end tag
-         redo A;
        } else {
          if ({
 x0022 => 1, # "
 x0027 => 1, # '
 x003D => 1, # =
+x003C => 1, # <
              }->{$self->{nc}}) {
            !!!cp (115);
+           ## XML5: Not a parse error.
            !!!parse-error (type => 'bad attribute value');
          } else {
            !!!cp (116);
          }
          $self->{ca}->{value} .= chr ($self->{nc});
          $self->{read_until}->($self->{ca}->{value},
-                               q["'=& >],
+                               qq["'=& \x09\x0C>],
                                length $self->{ca}->{value});
          ## Stay in the state
-Line 1254 
 sub _get_next_token ($) {
+Line 1621 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # start tag or end tag
-Line 1281 
 sub _get_next_token ($) {
+Line 1649 
 sub _get_next_token ($) {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## Reconsume.
          !!!emit ($self->{ct}); # start tag or end tag
          redo A;
-Line 1292 
 sub _get_next_token ($) {
+Line 1661 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == SELF_CLOSING_START_TAG_STATE) {
+       ## XML5: "Empty tag state".
        if ($self->{nc} == 0x003E) { # >
          if ($self->{ct}->{type} == END_TAG_TOKEN) {
            !!!cp ('124.2');
-Line 1311 
 sub _get_next_token ($) {
+Line 1682 
 sub _get_next_token ($) {
          }
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # start tag or end tag
-Line 1332 
 sub _get_next_token ($) {
+Line 1704 
 sub _get_next_token ($) {
          } else {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
+         ## XML5: "Tag attribute name before state".
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## Reconsume.
          !!!emit ($self->{ct}); # start tag or end tag
          redo A;
-Line 1345 
 sub _get_next_token ($) {
+Line 1719 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == BOGUS_COMMENT_STATE) {
-       ## (only happen if PCDATA state)
+       ## XML5: "Bogus comment state" and "DOCTYPE bogus comment state".
        ## NOTE: Unlike spec's "bogus comment state", this implementation
        ## consumes characters one-by-one basis.
        if ($self->{nc} == 0x003E) { # >
-         !!!cp (124);
+         if ($self->{in_subset}) {
-         $self->{state} = DATA_STATE;
+           !!!cp (123);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (124);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          !!!next-input-character;
          !!!emit ($self->{ct}); # comment
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (125);
+         if ($self->{in_subset}) {
-         $self->{state} = DATA_STATE;
+           !!!cp (125.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (125);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          ## reconsume
          !!!emit ($self->{ct}); # comment
-Line 1376 
 sub _get_next_token ($) {
+Line 1762 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == MARKUP_DECLARATION_OPEN_STATE) {
-       ## (only happen if PCDATA state)
+       ## XML5: "Markup declaration state".
        if ($self->{nc} == 0x002D) { # -
          !!!cp (133);
-Line 1388 
 sub _get_next_token ($) {
+Line 1774 
 sub _get_next_token ($) {
          ## ASCII case-insensitive.
          !!!cp (130);
          $self->{state} = MD_DOCTYPE_STATE;
-         $self->{s_kwd} = chr $self->{nc};
+         $self->{kwd} = chr $self->{nc};
          !!!next-input-character;
          redo A;
        } elsif ((($self->{insertion_mode} & IN_FOREIGN_CONTENT_IM and
-Line 1397 
 sub _get_next_token ($) {
+Line 1783 
 sub _get_next_token ($) {
                 $self->{nc} == 0x005B) { # [
          !!!cp (135.4);
          $self->{state} = MD_CDATA_STATE;
-         $self->{s_kwd} = '[';
+         $self->{kwd} = '[';
          !!!next-input-character;
          redo A;
        } else {
-Line 1421 
 sub _get_next_token ($) {
+Line 1807 
 sub _get_next_token ($) {
                                    line => $self->{line_prev},
                                    column => $self->{column_prev} - 2,
                                   };
-         $self->{state} = COMMENT_START_STATE;
+         $self->{state} = COMMENT_START_STATE; ## XML5: "comment state".
          !!!next-input-character;
          redo A;
        } else {
-Line 1447 
 sub _get_next_token ($) {
+Line 1833 
 sub _get_next_token ($) {
 x0054, # T
 x0059, # Y
 x0050, # P
-           ]->[length $self->{s_kwd}] or
+           ]->[length $self->{kwd}] or
            $self->{nc} == [
              undef,
 x006F, # o
-Line 1455 
 sub _get_next_token ($) {
+Line 1841 
 sub _get_next_token ($) {
 x0074, # t
 x0079, # y
 x0070, # p
-           ]->[length $self->{s_kwd}]) {
+           ]->[length $self->{kwd}]) {
          !!!cp (131);
          ## Stay in the state.
-         $self->{s_kwd} .= chr $self->{nc};
+         $self->{kwd} .= chr $self->{nc};
          !!!next-input-character;
          redo A;
-       } elsif ((length $self->{s_kwd}) == 6 and
+       } elsif ((length $self->{kwd}) == 6 and
                 ($self->{nc} == 0x0045 or # E
                  $self->{nc} == 0x0065)) { # e
-         !!!cp (129);
+         if ($self->{is_xml} and
+             ($self->{kwd} ne 'DOCTYP' or $self->{nc} == 0x0065)) {
+           !!!cp (129);
+           ## XML5: case-sensitive.
+           !!!parse-error (type => 'lowercase keyword', ## TODO
+                           text => 'DOCTYPE',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 5);
+         } else {
+           !!!cp (129.1);
+         }
          $self->{state} = DOCTYPE_STATE;
          $self->{ct} = {type => DOCTYPE_TOKEN,
                                    quirks => 1,
-Line 1477 
 sub _get_next_token ($) {
+Line 1873 
 sub _get_next_token ($) {
          !!!cp (132);
          !!!parse-error (type => 'bogus comment',
                          line => $self->{line_prev},
-                         column => $self->{column_prev} - 1 - length $self->{s_kwd});
+                         column => $self->{column_prev} - 1 - length $self->{kwd});
          $self->{state} = BOGUS_COMMENT_STATE;
          ## Reconsume.
          $self->{ct} = {type => COMMENT_TOKEN,
-                                   data => $self->{s_kwd},
+                                   data => $self->{kwd},
                                    line => $self->{line_prev},
-                                   column => $self->{column_prev} - 1 - length $self->{s_kwd},
+                                   column => $self->{column_prev} - 1 - length $self->{kwd},
                                   };
          redo A;
        }
-Line 1494 
 sub _get_next_token ($) {
+Line 1890 
 sub _get_next_token ($) {
              '[CD' => 0x0041, # A
              '[CDA' => 0x0054, # T
              '[CDAT' => 0x0041, # A
-           }->{$self->{s_kwd}}) {
+           }->{$self->{kwd}}) {
          !!!cp (135.1);
          ## Stay in the state.
-         $self->{s_kwd} .= chr $self->{nc};
+         $self->{kwd} .= chr $self->{nc};
          !!!next-input-character;
          redo A;
-       } elsif ($self->{s_kwd} eq '[CDATA' and
+       } elsif ($self->{kwd} eq '[CDATA' and
                 $self->{nc} == 0x005B) { # [
-         !!!cp (135.2);
+         if ($self->{is_xml} and
+             not $self->{tainted} and
+             @{$self->{open_elements} or []} == 0) {
+           !!!cp (135.2);
+           !!!parse-error (type => 'cdata outside of root element',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 7);
+           $self->{tainted} = 1;
+         } else {
+           !!!cp (135.21);
+         }
          $self->{ct} = {type => CHARACTER_TOKEN,
                                    data => '',
                                    line => $self->{line_prev},
-Line 1514 
 sub _get_next_token ($) {
+Line 1921 
 sub _get_next_token ($) {
          !!!cp (135.3);
          !!!parse-error (type => 'bogus comment',
                          line => $self->{line_prev},
-                         column => $self->{column_prev} - 1 - length $self->{s_kwd});
+                         column => $self->{column_prev} - 1 - length $self->{kwd});
          $self->{state} = BOGUS_COMMENT_STATE;
          ## Reconsume.
          $self->{ct} = {type => COMMENT_TOKEN,
-                                   data => $self->{s_kwd},
+                                   data => $self->{kwd},
                                    line => $self->{line_prev},
-                                   column => $self->{column_prev} - 1 - length $self->{s_kwd},
+                                   column => $self->{column_prev} - 1 - length $self->{kwd},
                                   };
          redo A;
        }
-Line 1531 
 sub _get_next_token ($) {
+Line 1938 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
-         !!!cp (138);
          !!!parse-error (type => 'bogus comment');
-         $self->{state} = DATA_STATE;
+         if ($self->{in_subset}) {
+           !!!cp (138.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (138);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          !!!next-input-character;
          !!!emit ($self->{ct}); # comment
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (139);
          !!!parse-error (type => 'unclosed comment');
-         $self->{state} = DATA_STATE;
+         if ($self->{in_subset}) {
+           !!!cp (139.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (139);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          ## reconsume
          !!!emit ($self->{ct}); # comment
-Line 1563 
 sub _get_next_token ($) {
+Line 1982 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
-         !!!cp (142);
          !!!parse-error (type => 'bogus comment');
-         $self->{state} = DATA_STATE;
+         if ($self->{in_subset}) {
+           !!!cp (142.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (142);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          !!!next-input-character;
          !!!emit ($self->{ct}); # comment
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (143);
          !!!parse-error (type => 'unclosed comment');
-         $self->{state} = DATA_STATE;
+         if ($self->{in_subset}) {
+           !!!cp (143.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (143);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          ## reconsume
          !!!emit ($self->{ct}); # comment
-Line 1589 
 sub _get_next_token ($) {
+Line 2020 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == COMMENT_STATE) {
+       ## XML5: "Comment state" and "DOCTYPE comment state".
        if ($self->{nc} == 0x002D) { # -
          !!!cp (145);
          $self->{state} = COMMENT_END_DASH_STATE;
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (146);
          !!!parse-error (type => 'unclosed comment');
-         $self->{state} = DATA_STATE;
+         if ($self->{in_subset}) {
+           !!!cp (146.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (146);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          ## reconsume
          !!!emit ($self->{ct}); # comment
-Line 1615 
 sub _get_next_token ($) {
+Line 2054 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == COMMENT_END_DASH_STATE) {
+       ## XML5: "Comment dash state" and "DOCTYPE comment dash state".
        if ($self->{nc} == 0x002D) { # -
          !!!cp (148);
          $self->{state} = COMMENT_END_STATE;
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (149);
          !!!parse-error (type => 'unclosed comment');
-         $self->{state} = DATA_STATE;
+         if ($self->{in_subset}) {
+           !!!cp (149.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (149);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          ## reconsume
          !!!emit ($self->{ct}); # comment
-Line 1636 
 sub _get_next_token ($) {
+Line 2083 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        }
-     } elsif ($self->{state} == COMMENT_END_STATE) {
+     } elsif ($self->{state} == COMMENT_END_STATE or
+              $self->{state} == COMMENT_END_BANG_STATE) {
+       ## XML5: "Comment end state" and "DOCTYPE comment end state".
+       ## (No comment end bang state.)
        if ($self->{nc} == 0x003E) { # >
-         !!!cp (151);
+         if ($self->{in_subset}) {
-         $self->{state} = DATA_STATE;
+           !!!cp (151.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (151);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          !!!next-input-character;
          !!!emit ($self->{ct}); # comment
          redo A;
        } elsif ($self->{nc} == 0x002D) { # -
-         !!!cp (152);
+         if ($self->{state} == COMMENT_END_BANG_STATE) {
-         !!!parse-error (type => 'dash in comment',
+           !!!cp (154.3);
-                         line => $self->{line_prev},
+           $self->{ct}->{data} .= '--!'; # comment
-                         column => $self->{column_prev});
+           $self->{state} = COMMENT_END_DASH_STATE;
-         $self->{ct}->{data} .= '-'; # comment
+         } else {
-         ## Stay in the state
+           !!!cp (152);
+           ## XML5: Not a parse error.
+           !!!parse-error (type => 'dash in comment',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev});
+           $self->{ct}->{data} .= '-'; # comment
+           ## Stay in the state
+         }
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0021 and # !
+                $self->{state} != COMMENT_END_BANG_STATE) {
+         !!!parse-error (type => 'comment end bang'); # XXX error type
+         $self->{state} = COMMENT_END_BANG_STATE;
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (153);
          !!!parse-error (type => 'unclosed comment');
-         $self->{state} = DATA_STATE;
+         if ($self->{in_subset}) {
-         ## reconsume
+           !!!cp (153.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (153);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
+         ## Reconsume.
          !!!emit ($self->{ct}); # comment
          redo A;
        } else {
          !!!cp (154);
-         !!!parse-error (type => 'dash in comment',
+         if ($self->{state} == COMMENT_END_BANG_STATE) {
-                         line => $self->{line_prev},
+           $self->{ct}->{data} .= '--!' . chr ($self->{nc}); # comment
-                         column => $self->{column_prev});
+         } else {
-         $self->{ct}->{data} .= '--' . chr ($self->{nc}); # comment
+           $self->{ct}->{data} .= '--' . chr ($self->{nc}); # comment
+         }
          $self->{state} = COMMENT_STATE;
          !!!next-input-character;
          redo A;
-Line 1679 
 sub _get_next_token ($) {
+Line 2156 
 sub _get_next_token ($) {
          $self->{state} = BEFORE_DOCTYPE_NAME_STATE;
          !!!next-input-character;
          redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!cp (155.1);
+         !!!parse-error (type => 'unclosed DOCTYPE');
+         $self->{ct}->{quirks} = 1;
+         $self->{state} = DATA_STATE;
+         ## Reconsume.
+         !!!emit ($self->{ct}); # DOCTYPE (quirks)
+         redo A;
        } else {
          !!!cp (156);
+         ## XML5: Swith to the bogus comment state.
          !!!parse-error (type => 'no space before DOCTYPE name');
          $self->{state} = BEFORE_DOCTYPE_NAME_STATE;
          ## reconsume
          redo A;
        }
      } elsif ($self->{state} == BEFORE_DOCTYPE_NAME_STATE) {
+       ## XML5: "DOCTYPE root name before state".
        if ($is_space->{$self->{nc}}) {
          !!!cp (157);
          ## Stay in the state
-Line 1694 
 sub _get_next_token ($) {
+Line 2184 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
          !!!cp (158);
+         ## XML5: No parse error.
          !!!parse-error (type => 'no DOCTYPE name');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # DOCTYPE (quirks)
          redo A;
+       } elsif (0x0041 <= $self->{nc} and $self->{nc} <= 0x005A) { # A..Z
+         !!!cp (158.1);
+         $self->{ct}->{name} # DOCTYPE
+             = chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020));
+         delete $self->{ct}->{quirks};
+         $self->{state} = DOCTYPE_NAME_STATE;
+         !!!next-input-character;
+         redo A;
        } elsif ($self->{nc} == -1) {
          !!!cp (159);
          !!!parse-error (type => 'no DOCTYPE name');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          !!!emit ($self->{ct}); # DOCTYPE (quirks)
          redo A;
+       } elsif ($self->{is_xml} and $self->{nc} == 0x005B) { # [
+         !!!cp (159.1);
+         !!!parse-error (type => 'no DOCTYPE name');
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+         $self->{in_subset} = 1;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE
+         redo A;
        } else {
          !!!cp (160);
          $self->{ct}->{name} = chr $self->{nc};
-Line 1719 
 sub _get_next_token ($) {
+Line 2229 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == DOCTYPE_NAME_STATE) {
- ## ISSUE: Redundant "First," in the spec.
+       ## XML5: "DOCTYPE root name state".
+       ## ISSUE: Redundant "First," in the spec.
        if ($is_space->{$self->{nc}}) {
          !!!cp (161);
          $self->{state} = AFTER_DOCTYPE_NAME_STATE;
-Line 1728 
 sub _get_next_token ($) {
+Line 2241 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == 0x003E) { # >
          !!!cp (162);
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # DOCTYPE
          redo A;
+       } elsif (0x0041 <= $self->{nc} and $self->{nc} <= 0x005A) { # A..Z
+         !!!cp (162.1);
+         $self->{ct}->{name} # DOCTYPE
+             .= chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020));
+         delete $self->{ct}->{quirks};
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
        } elsif ($self->{nc} == -1) {
          !!!cp (163);
          !!!parse-error (type => 'unclosed DOCTYPE');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          $self->{ct}->{quirks} = 1;
          !!!emit ($self->{ct}); # DOCTYPE
          redo A;
+       } elsif ($self->{is_xml} and $self->{nc} == 0x005B) { # [
+         !!!cp (163.1);
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+         $self->{in_subset} = 1;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE
+         redo A;
        } else {
          !!!cp (164);
-         $self->{ct}->{name}
+         $self->{ct}->{name} .= chr ($self->{nc}); # DOCTYPE
-           .= chr ($self->{nc}); # DOCTYPE
+         ## Stay in the state.
-         ## Stay in the state
          !!!next-input-character;
          redo A;
        }
      } elsif ($self->{state} == AFTER_DOCTYPE_NAME_STATE) {
+       ## XML5: Corresponding to XML5's "DOCTYPE root name after
+       ## state", but implemented differently.
        if ($is_space->{$self->{nc}}) {
          !!!cp (165);
          ## Stay in the state
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
-         !!!cp (166);
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
-         $self->{state} = DATA_STATE;
+           !!!cp (166);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         } else {
+           !!!cp (166.1);
+           !!!parse-error (type => 'no md def'); ## TODO: type
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         }
          !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE/ENTITY/NOTATION
-         !!!emit ($self->{ct}); # DOCTYPE
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (167);
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
-         !!!parse-error (type => 'unclosed DOCTYPE');
+           !!!cp (167);
-         $self->{state} = DATA_STATE;
+           !!!parse-error (type => 'unclosed DOCTYPE');
-         ## reconsume
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
-         $self->{ct}->{quirks} = 1;
+           $self->{ct}->{quirks} = 1;
-         !!!emit ($self->{ct}); # DOCTYPE
+         } else {
+           !!!cp (167.12);
+           !!!parse-error (type => 'unclosed md'); ## TODO: type
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         }
+         ## Reconsume.
+         !!!emit ($self->{ct}); # DOCTYPE/ENTITY/NOTATION
          redo A;
        } elsif ($self->{nc} == 0x0050 or # P
                 $self->{nc} == 0x0070) { # p
+         !!!cp (167.1);
          $self->{state} = PUBLIC_STATE;
-         $self->{s_kwd} = chr $self->{nc};
+         $self->{kwd} = chr $self->{nc};
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x0053 or # S
                 $self->{nc} == 0x0073) { # s
+         !!!cp (167.2);
          $self->{state} = SYSTEM_STATE;
-         $self->{s_kwd} = chr $self->{nc};
+         $self->{kwd} = chr $self->{nc};
          !!!next-input-character;
          redo A;
+       } elsif ($self->{nc} == 0x0022 and # "
+                ($self->{ct}->{type} == GENERAL_ENTITY_TOKEN or
+                 $self->{ct}->{type} == PARAMETER_ENTITY_TOKEN)) {
+         !!!cp (167.21);
+         $self->{state} = DOCTYPE_ENTITY_VALUE_DOUBLE_QUOTED_STATE;
+         $self->{ct}->{value} = ''; # ENTITY
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0027 and # '
+                ($self->{ct}->{type} == GENERAL_ENTITY_TOKEN or
+                 $self->{ct}->{type} == PARAMETER_ENTITY_TOKEN)) {
+         !!!cp (167.22);
+         $self->{state} = DOCTYPE_ENTITY_VALUE_SINGLE_QUOTED_STATE;
+         $self->{ct}->{value} = ''; # ENTITY
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{is_xml} and
+                $self->{ct}->{type} == DOCTYPE_TOKEN and
+                $self->{nc} == 0x005B) { # [
+         !!!cp (167.3);
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+         $self->{in_subset} = 1;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE
+         redo A;
        } else {
-         !!!cp (180);
+         !!!parse-error (type => 'string after DOCTYPE name'); ## TODO: type
-         !!!parse-error (type => 'string after DOCTYPE name');
-         $self->{ct}->{quirks} = 1;
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
+           !!!cp (180);
+           $self->{ct}->{quirks} = 1;
+           $self->{state} = BOGUS_DOCTYPE_STATE;
+         } else {
+           !!!cp (180.1);
+           $self->{state} = BOGUS_MD_STATE;
+         }
-         $self->{state} = BOGUS_DOCTYPE_STATE;
          !!!next-input-character;
          redo A;
        }
-Line 1804 
 sub _get_next_token ($) {
+Line 2383 
 sub _get_next_token ($) {
 x0042, # B
 x004C, # L
 x0049, # I
-           ]->[length $self->{s_kwd}] or
+           ]->[length $self->{kwd}] or
            $self->{nc} == [
              undef,
 x0075, # u
 x0062, # b
 x006C, # l
 x0069, # i
-           ]->[length $self->{s_kwd}]) {
+           ]->[length $self->{kwd}]) {
          !!!cp (175);
          ## Stay in the state.
-         $self->{s_kwd} .= chr $self->{nc};
+         $self->{kwd} .= chr $self->{nc};
          !!!next-input-character;
          redo A;
-       } elsif ((length $self->{s_kwd}) == 5 and
+       } elsif ((length $self->{kwd}) == 5 and
                 ($self->{nc} == 0x0043 or # C
                  $self->{nc} == 0x0063)) { # c
-         !!!cp (168);
+         if ($self->{is_xml} and
+             ($self->{kwd} ne 'PUBLI' or $self->{nc} == 0x0063)) { # c
+           !!!cp (168.1);
+           !!!parse-error (type => 'lowercase keyword', ## TODO: type
+                           text => 'PUBLIC',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 4);
+         } else {
+           !!!cp (168);
+         }
          $self->{state} = BEFORE_DOCTYPE_PUBLIC_IDENTIFIER_STATE;
          !!!next-input-character;
          redo A;
        } else {
-         !!!cp (169);
+         !!!parse-error (type => 'string after DOCTYPE name', ## TODO: type
-         !!!parse-error (type => 'string after DOCTYPE name',
                          line => $self->{line_prev},
-                         column => $self->{column_prev} + 1 - length $self->{s_kwd});
+                         column => $self->{column_prev} + 1 - length $self->{kwd});
-         $self->{ct}->{quirks} = 1;
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
+           !!!cp (169);
-         $self->{state} = BOGUS_DOCTYPE_STATE;
+           $self->{ct}->{quirks} = 1;
+           $self->{state} = BOGUS_DOCTYPE_STATE;
+         } else {
+           !!!cp (169.1);
+           $self->{state} = BOGUS_MD_STATE;
+         }
          ## Reconsume.
          redo A;
        }
-Line 1843 
 sub _get_next_token ($) {
+Line 2435 
 sub _get_next_token ($) {
 x0053, # S
 x0054, # T
 x0045, # E
-           ]->[length $self->{s_kwd}] or
+           ]->[length $self->{kwd}] or
            $self->{nc} == [
              undef,
 x0079, # y
 x0073, # s
 x0074, # t
 x0065, # e
-           ]->[length $self->{s_kwd}]) {
+           ]->[length $self->{kwd}]) {
          !!!cp (170);
          ## Stay in the state.
-         $self->{s_kwd} .= chr $self->{nc};
+         $self->{kwd} .= chr $self->{nc};
          !!!next-input-character;
          redo A;
-       } elsif ((length $self->{s_kwd}) == 5 and
+       } elsif ((length $self->{kwd}) == 5 and
                 ($self->{nc} == 0x004D or # M
                  $self->{nc} == 0x006D)) { # m
-         !!!cp (171);
+         if ($self->{is_xml} and
+             ($self->{kwd} ne 'SYSTE' or $self->{nc} == 0x006D)) { # m
+           !!!cp (171.1);
+           !!!parse-error (type => 'lowercase keyword', ## TODO: type
+                           text => 'SYSTEM',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 4);
+         } else {
+           !!!cp (171);
+         }
          $self->{state} = BEFORE_DOCTYPE_SYSTEM_IDENTIFIER_STATE;
          !!!next-input-character;
          redo A;
        } else {
-         !!!cp (172);
+         !!!parse-error (type => 'string after DOCTYPE name', ## TODO: type
-         !!!parse-error (type => 'string after DOCTYPE name',
                          line => $self->{line_prev},
-                         column => $self->{column_prev} + 1 - length $self->{s_kwd});
+                         column => $self->{column_prev} + 1 - length $self->{kwd});
-         $self->{ct}->{quirks} = 1;
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
+           !!!cp (172);
-         $self->{state} = BOGUS_DOCTYPE_STATE;
+           $self->{ct}->{quirks} = 1;
+           $self->{state} = BOGUS_DOCTYPE_STATE;
+         } else {
+           !!!cp (172.1);
+           $self->{state} = BOGUS_MD_STATE;
+         }
          ## Reconsume.
          redo A;
        }
-Line 1893 
 sub _get_next_token ($) {
+Line 2498 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} eq 0x003E) { # >
-         !!!cp (184);
          !!!parse-error (type => 'no PUBLIC literal');
-         $self->{state} = DATA_STATE;
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
+           !!!cp (184);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+           $self->{ct}->{quirks} = 1;
+         } else {
+           !!!cp (184.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         }
          !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE/ENTITY/NOTATION
-         $self->{ct}->{quirks} = 1;
-         !!!emit ($self->{ct}); # DOCTYPE
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (185);
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
-         !!!parse-error (type => 'unclosed DOCTYPE');
+           !!!cp (185);
+           !!!parse-error (type => 'unclosed DOCTYPE');
-         $self->{state} = DATA_STATE;
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+           $self->{ct}->{quirks} = 1;
+         } else {
+           !!!cp (185.1);
+           !!!parse-error (type => 'unclosed md'); ## TODO: type
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         }
          ## reconsume
-         $self->{ct}->{quirks} = 1;
          !!!emit ($self->{ct}); # DOCTYPE
+         redo A;
+       } elsif ($self->{is_xml} and
+                $self->{ct}->{type} == DOCTYPE_TOKEN and
+                $self->{nc} == 0x005B) { # [
+         !!!cp (186.1);
+         !!!parse-error (type => 'no PUBLIC literal');
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+         $self->{in_subset} = 1;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE
          redo A;
        } else {
-         !!!cp (186);
          !!!parse-error (type => 'string after PUBLIC');
-         $self->{ct}->{quirks} = 1;
-         $self->{state} = BOGUS_DOCTYPE_STATE;
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
+           !!!cp (186);
+           $self->{ct}->{quirks} = 1;
+           $self->{state} = BOGUS_DOCTYPE_STATE;
+         } else {
+           !!!cp (186.2);
+           $self->{state} = BOGUS_MD_STATE;
+         }
          !!!next-input-character;
          redo A;
        }
-Line 1930 
 sub _get_next_token ($) {
+Line 2562 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
-         !!!cp (188);
          !!!parse-error (type => 'unclosed PUBLIC literal');
-         $self->{state} = DATA_STATE;
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
-         !!!next-input-character;
+           !!!cp (188);
+           $self->{state} = DATA_STATE;
-         $self->{ct}->{quirks} = 1;
+           $self->{s_kwd} = '';
-         !!!emit ($self->{ct}); # DOCTYPE
+           $self->{ct}->{quirks} = 1;
+         } else {
+           !!!cp (188.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         }
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE/ENTITY/NOTATION
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (189);
          !!!parse-error (type => 'unclosed PUBLIC literal');
-         $self->{state} = DATA_STATE;
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
-         ## reconsume
+           !!!cp (189);
+           $self->{state} = DATA_STATE;
-         $self->{ct}->{quirks} = 1;
+           $self->{s_kwd} = '';
+           $self->{ct}->{quirks} = 1;
+         } else {
+           !!!cp (189.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         }
+         ## Reconsume.
          !!!emit ($self->{ct}); # DOCTYPE
          redo A;
        } else {
          !!!cp (190);
-         $self->{ct}->{pubid} # DOCTYPE
+         $self->{ct}->{pubid} .= chr $self->{nc}; # DOCTYPE/ENTITY/NOTATION
-             .= chr $self->{nc};
          $self->{read_until}->($self->{ct}->{pubid}, q[">],
                                length $self->{ct}->{pubid});
-Line 1969 
 sub _get_next_token ($) {
+Line 2610 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
-         !!!cp (192);
          !!!parse-error (type => 'unclosed PUBLIC literal');
-         $self->{state} = DATA_STATE;
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
-         !!!next-input-character;
+           !!!cp (192);
+           $self->{state} = DATA_STATE;
-         $self->{ct}->{quirks} = 1;
+           $self->{s_kwd} = '';
-         !!!emit ($self->{ct}); # DOCTYPE
+           $self->{ct}->{quirks} = 1;
+         } else {
+           !!!cp (192.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         }
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE/ENTITY/NOTATION
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (193);
          !!!parse-error (type => 'unclosed PUBLIC literal');
-         $self->{state} = DATA_STATE;
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
+           !!!cp (193);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+           $self->{ct}->{quirks} = 1;
+         } else {
+           !!!cp (193.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         }
          ## reconsume
+         !!!emit ($self->{ct}); # DOCTYPE/ENTITY/NOTATION
-         $self->{ct}->{quirks} = 1;
-         !!!emit ($self->{ct}); # DOCTYPE
          redo A;
        } else {
          !!!cp (194);
-         $self->{ct}->{pubid} # DOCTYPE
+         $self->{ct}->{pubid} .= chr $self->{nc}; # DOCTYPE/ENTITY/NOTATION
-             .= chr $self->{nc};
          $self->{read_until}->($self->{ct}->{pubid}, q['>],
                                length $self->{ct}->{pubid});
-Line 2009 
 sub _get_next_token ($) {
+Line 2659 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x0022) { # "
          !!!cp (196);
-         $self->{ct}->{sysid} = ''; # DOCTYPE
+         $self->{ct}->{sysid} = ''; # DOCTYPE/ENTITY/NOTATION
          $self->{state} = DOCTYPE_SYSTEM_IDENTIFIER_DOUBLE_QUOTED_STATE;
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x0027) { # '
          !!!cp (197);
-         $self->{ct}->{sysid} = ''; # DOCTYPE
+         $self->{ct}->{sysid} = ''; # DOCTYPE/ENTITY/NOTATION
          $self->{state} = DOCTYPE_SYSTEM_IDENTIFIER_SINGLE_QUOTED_STATE;
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
-         !!!cp (198);
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
-         $self->{state} = DATA_STATE;
+           if ($self->{is_xml}) {
+             !!!cp (198.1);
+             !!!parse-error (type => 'no SYSTEM literal');
+           } else {
+             !!!cp (198);
+           }
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         } else {
+           if ($self->{ct}->{type} == NOTATION_TOKEN) {
+             !!!cp (198.2);
+           } else {
+             !!!cp (198.3);
+             !!!parse-error (type => 'no SYSTEM literal');
+           }
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         }
          !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE/ENTITY/NOTATION
-         !!!emit ($self->{ct}); # DOCTYPE
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (199);
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
-         !!!parse-error (type => 'unclosed DOCTYPE');
+           !!!cp (199);
+           !!!parse-error (type => 'unclosed DOCTYPE');
-         $self->{state} = DATA_STATE;
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+           $self->{ct}->{quirks} = 1;
+         } else {
+           !!!parse-error (type => 'unclosed md'); ## TODO: type
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         }
          ## reconsume
+         !!!emit ($self->{ct}); # DOCTYPE/ENTITY/NOTATION
-         $self->{ct}->{quirks} = 1;
+         redo A;
+       } elsif ($self->{is_xml} and
+                $self->{ct}->{type} == DOCTYPE_TOKEN and
+                $self->{nc} == 0x005B) { # [
+         !!!cp (200.1);
+         !!!parse-error (type => 'no SYSTEM literal');
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+         $self->{in_subset} = 1;
+         !!!next-input-character;
          !!!emit ($self->{ct}); # DOCTYPE
          redo A;
        } else {
-         !!!cp (200);
          !!!parse-error (type => 'string after PUBLIC literal');
-         $self->{ct}->{quirks} = 1;
-         $self->{state} = BOGUS_DOCTYPE_STATE;
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
+           !!!cp (200);
+           $self->{ct}->{quirks} = 1;
+           $self->{state} = BOGUS_DOCTYPE_STATE;
+         } else {
+           !!!cp (200.2);
+           $self->{state} = BOGUS_MD_STATE;
+         }
          !!!next-input-character;
          redo A;
        }
-Line 2066 
 sub _get_next_token ($) {
+Line 2753 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
-         !!!cp (204);
          !!!parse-error (type => 'no SYSTEM literal');
-         $self->{state} = DATA_STATE;
          !!!next-input-character;
-         $self->{ct}->{quirks} = 1;
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
-         !!!emit ($self->{ct}); # DOCTYPE
+           !!!cp (204);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+           $self->{ct}->{quirks} = 1;
+         } else {
+           !!!cp (204.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         }
+         !!!emit ($self->{ct}); # DOCTYPE/ENTITY/NOTATION
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (205);
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
-         !!!parse-error (type => 'unclosed DOCTYPE');
+           !!!cp (205);
+           !!!parse-error (type => 'unclosed DOCTYPE');
-         $self->{state} = DATA_STATE;
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+           $self->{ct}->{quirks} = 1;
+         } else {
+           !!!cp (205.1);
+           !!!parse-error (type => 'unclosed md'); ## TODO: type
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         }
          ## reconsume
+         !!!emit ($self->{ct}); # DOCTYPE/ENTITY/NOTATION
+         redo A;
+       } elsif ($self->{is_xml} and
+                $self->{ct}->{type} == DOCTYPE_TOKEN and
+                $self->{nc} == 0x005B) { # [
+         !!!cp (206.1);
+         !!!parse-error (type => 'no SYSTEM literal');
-         $self->{ct}->{quirks} = 1;
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+         $self->{in_subset} = 1;
+         !!!next-input-character;
          !!!emit ($self->{ct}); # DOCTYPE
          redo A;
        } else {
-         !!!cp (206);
          !!!parse-error (type => 'string after SYSTEM');
-         $self->{ct}->{quirks} = 1;
-         $self->{state} = BOGUS_DOCTYPE_STATE;
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
+           !!!cp (206);
+           $self->{ct}->{quirks} = 1;
+           $self->{state} = BOGUS_DOCTYPE_STATE;
+         } else {
+           !!!cp (206.2);
+           $self->{state} = BOGUS_MD_STATE;
+         }
          !!!next-input-character;
          redo A;
        }
-Line 2101 
 sub _get_next_token ($) {
+Line 2817 
 sub _get_next_token ($) {
          $self->{state} = AFTER_DOCTYPE_SYSTEM_IDENTIFIER_STATE;
          !!!next-input-character;
          redo A;
-       } elsif ($self->{nc} == 0x003E) { # >
+       } elsif (not $self->{is_xml} and $self->{nc} == 0x003E) { # >
-         !!!cp (208);
          !!!parse-error (type => 'unclosed SYSTEM literal');
-         $self->{state} = DATA_STATE;
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
+           !!!cp (208);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+           $self->{ct}->{quirks} = 1;
+         } else {
+           !!!cp (208.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         }
          !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE/ENTITY/NOTATION
-         $self->{ct}->{quirks} = 1;
-         !!!emit ($self->{ct}); # DOCTYPE
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (209);
          !!!parse-error (type => 'unclosed SYSTEM literal');
-         $self->{state} = DATA_STATE;
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
+           !!!cp (209);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+           $self->{ct}->{quirks} = 1;
+         } else {
+           !!!cp (209.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         }
          ## reconsume
+         !!!emit ($self->{ct}); # DOCTYPE/ENTITY/NOTATION
-         $self->{ct}->{quirks} = 1;
-         !!!emit ($self->{ct}); # DOCTYPE
          redo A;
        } else {
          !!!cp (210);
-         $self->{ct}->{sysid} # DOCTYPE
+         $self->{ct}->{sysid} .= chr $self->{nc}; # DOCTYPE/ENTITY/NOTATION
-             .= chr $self->{nc};
          $self->{read_until}->($self->{ct}->{sysid}, q[">],
                                length $self->{ct}->{sysid});
-Line 2140 
 sub _get_next_token ($) {
+Line 2865 
 sub _get_next_token ($) {
          $self->{state} = AFTER_DOCTYPE_SYSTEM_IDENTIFIER_STATE;
          !!!next-input-character;
          redo A;
-       } elsif ($self->{nc} == 0x003E) { # >
+       } elsif (not $self->{is_xml} and $self->{nc} == 0x003E) { # >
          !!!cp (212);
          !!!parse-error (type => 'unclosed SYSTEM literal');
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          $self->{ct}->{quirks} = 1;
-Line 2152 
 sub _get_next_token ($) {
+Line 2878 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (213);
          !!!parse-error (type => 'unclosed SYSTEM literal');
-         $self->{state} = DATA_STATE;
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
-         ## reconsume
+           !!!cp (213);
+           $self->{state} = DATA_STATE;
-         $self->{ct}->{quirks} = 1;
+           $self->{s_kwd} = '';
-         !!!emit ($self->{ct}); # DOCTYPE
+           $self->{ct}->{quirks} = 1;
+         } else {
+           !!!cp (213.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         }
+         ## reconsume
+         !!!emit ($self->{ct}); # DOCTYPE/ENTITY/NOTATION
          redo A;
        } else {
          !!!cp (214);
-         $self->{ct}->{sysid} # DOCTYPE
+         $self->{ct}->{sysid} .= chr $self->{nc}; # DOCTYPE/ENTITY/NOTATION
-             .= chr $self->{nc};
          $self->{read_until}->($self->{ct}->{sysid}, q['>],
                                length $self->{ct}->{sysid});
-Line 2175 
 sub _get_next_token ($) {
+Line 2905 
 sub _get_next_token ($) {
        }
      } elsif ($self->{state} == AFTER_DOCTYPE_SYSTEM_IDENTIFIER_STATE) {
        if ($is_space->{$self->{nc}}) {
-         !!!cp (215);
+         if ($self->{ct}->{type} == GENERAL_ENTITY_TOKEN) {
-         ## Stay in the state
+           !!!cp (215.1);
+           $self->{state} = BEFORE_NDATA_STATE;
+         } else {
+           !!!cp (215);
+           ## Stay in the state
+         }
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
-         !!!cp (216);
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
-         $self->{state} = DATA_STATE;
+           !!!cp (216);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         } else {
+           !!!cp (216.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         }
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE/ENTITY/NOTATION
+         redo A;
+       } elsif ($self->{ct}->{type} == GENERAL_ENTITY_TOKEN and
+                ($self->{nc} == 0x004E or # N
+                 $self->{nc} == 0x006E)) { # n
+         !!!cp (216.2);
+         !!!parse-error (type => 'no space before NDATA'); ## TODO: type
+         $self->{state} = NDATA_STATE;
+         $self->{kwd} = chr $self->{nc};
          !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
+           !!!cp (217);
+           !!!parse-error (type => 'unclosed DOCTYPE');
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+           $self->{ct}->{quirks} = 1;
+         } else {
+           !!!cp (217.1);
+           !!!parse-error (type => 'unclosed md'); ## TODO: type
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         }
+         ## reconsume
+         !!!emit ($self->{ct}); # DOCTYPE/ENTITY/NOTATION
+         redo A;
+       } elsif ($self->{is_xml} and
+                $self->{ct}->{type} == DOCTYPE_TOKEN and
+                $self->{nc} == 0x005B) { # [
+         !!!cp (218.1);
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+         $self->{in_subset} = 1;
+         !!!next-input-character;
          !!!emit ($self->{ct}); # DOCTYPE
+         redo A;
+       } else {
+         !!!parse-error (type => 'string after SYSTEM literal');
+         if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
+           !!!cp (218);
+           #$self->{ct}->{quirks} = 1;
+           $self->{state} = BOGUS_DOCTYPE_STATE;
+         } else {
+           !!!cp (218.2);
+           $self->{state} = BOGUS_MD_STATE;
+         }
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == BEFORE_NDATA_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         !!!cp (218.3);
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         !!!cp (218.4);
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ENTITY
+         redo A;
+       } elsif ($self->{nc} == 0x004E or # N
+                $self->{nc} == 0x006E) { # n
+         !!!cp (218.5);
+         $self->{state} = NDATA_STATE;
+         $self->{kwd} = chr $self->{nc};
+         !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (217);
+         !!!cp (218.6);
-         !!!parse-error (type => 'unclosed DOCTYPE');
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
-         $self->{state} = DATA_STATE;
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
          ## reconsume
+         !!!emit ($self->{ct}); # ENTITY
-         $self->{ct}->{quirks} = 1;
-         !!!emit ($self->{ct}); # DOCTYPE
          redo A;
        } else {
-         !!!cp (218);
+         !!!cp (218.7);
          !!!parse-error (type => 'string after SYSTEM literal');
-         #$self->{ct}->{quirks} = 1;
+         $self->{state} = BOGUS_MD_STATE;
-         $self->{state} = BOGUS_DOCTYPE_STATE;
          !!!next-input-character;
          redo A;
        }
-Line 2210 
 sub _get_next_token ($) {
+Line 3014 
 sub _get_next_token ($) {
        if ($self->{nc} == 0x003E) { # >
          !!!cp (219);
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          !!!emit ($self->{ct}); # DOCTYPE
          redo A;
+       } elsif ($self->{is_xml} and $self->{nc} == 0x005B) { # [
+         !!!cp (220.1);
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+         $self->{in_subset} = 1;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE
+         redo A;
        } elsif ($self->{nc} == -1) {
          !!!cp (220);
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          ## reconsume
          !!!emit ($self->{ct}); # DOCTYPE
-Line 2226 
 sub _get_next_token ($) {
+Line 3040 
 sub _get_next_token ($) {
        } else {
          !!!cp (221);
          my $s = '';
-         $self->{read_until}->($s, q[>], 0);
+         $self->{read_until}->($s, q{>[}, 0);
          ## Stay in the state
          !!!next-input-character;
-Line 2236 
 sub _get_next_token ($) {
+Line 3050 
 sub _get_next_token ($) {
        ## NOTE: "CDATA section state" in the state is jointly implemented
        ## by three states, |CDATA_SECTION_STATE|, |CDATA_SECTION_MSE1_STATE|,
        ## and |CDATA_SECTION_MSE2_STATE|.
+       ## XML5: "CDATA state".
        if ($self->{nc} == 0x005D) { # ]
          !!!cp (221.1);
-Line 2243 
 sub _get_next_token ($) {
+Line 3059 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == -1) {
+         if ($self->{is_xml}) {
+           !!!cp (221.11);
+           !!!parse-error (type => 'no mse'); ## TODO: type
+         } else {
+           !!!cp (221.12);
+         }
          $self->{state} = DATA_STATE;
-         !!!next-input-character;
+         $self->{s_kwd} = '';
+         ## Reconsume.
          if (length $self->{ct}->{data}) { # character
            !!!cp (221.2);
            !!!emit ($self->{ct}); # character
-Line 2267 
 sub _get_next_token ($) {
+Line 3091 
 sub _get_next_token ($) {
        ## ISSUE: "text tokens" in spec.
      } elsif ($self->{state} == CDATA_SECTION_MSE1_STATE) {
+       ## XML5: "CDATA bracket state".
        if ($self->{nc} == 0x005D) { # ]
          !!!cp (221.5);
          $self->{state} = CDATA_SECTION_MSE2_STATE;
-Line 2274 
 sub _get_next_token ($) {
+Line 3100 
 sub _get_next_token ($) {
          redo A;
        } else {
          !!!cp (221.6);
+         ## XML5: If EOF, "]" is not appended and changed to the data state.
          $self->{ct}->{data} .= ']';
-         $self->{state} = CDATA_SECTION_STATE;
+         $self->{state} = CDATA_SECTION_STATE; ## XML5: Stay in the state.
          ## Reconsume.
          redo A;
        }
      } elsif ($self->{state} == CDATA_SECTION_MSE2_STATE) {
+       ## XML5: "CDATA end state".
        if ($self->{nc} == 0x003E) { # >
          $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
          !!!next-input-character;
          if (length $self->{ct}->{data}) { # character
            !!!cp (221.7);
-Line 2301 
 sub _get_next_token ($) {
+Line 3131 
 sub _get_next_token ($) {
          !!!cp (221.11);
          $self->{ct}->{data} .= ']]'; # character
          $self->{state} = CDATA_SECTION_STATE;
-         ## Reconsume.
+         ## Reconsume. ## XML5: Emit.
          redo A;
        }
      } elsif ($self->{state} == ENTITY_STATE) {
-Line 2310 
 sub _get_next_token ($) {
+Line 3140 
 sub _get_next_token ($) {
 x003C => 1, 0x0026 => 1, -1 => 1, # <, &
              $self->{entity_add} => 1,
            }->{$self->{nc}}) {
-         !!!cp (1001);
+         if ($self->{is_xml}) {
+           !!!cp (1001.1);
+           !!!parse-error (type => 'bare ero',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev}
+                               + ($self->{nc} == -1 ? 1 : 0));
+         } else {
+           !!!cp (1001);
+           ## No error
+         }
          ## Don't consume
-         ## No error
          ## Return nothing.
          #
        } elsif ($self->{nc} == 0x0023) { # #
          !!!cp (999);
          $self->{state} = ENTITY_HASH_STATE;
-         $self->{s_kwd} = '#';
+         $self->{kwd} = '#';
          !!!next-input-character;
          redo A;
-       } elsif ((0x0041 <= $self->{nc} and
+       } elsif ($self->{is_xml} or
+                (0x0041 <= $self->{nc} and
                  $self->{nc} <= 0x005A) or # A..Z
                 (0x0061 <= $self->{nc} and
                  $self->{nc} <= 0x007A)) { # a..z
          !!!cp (998);
          require Whatpm::_NamedEntityList;
          $self->{state} = ENTITY_NAME_STATE;
-         $self->{s_kwd} = chr $self->{nc};
+         $self->{kwd} = chr $self->{nc};
-         $self->{entity__value} = $self->{s_kwd};
+         $self->{entity__value} = $self->{kwd};
          $self->{entity__match} = 0;
          !!!next-input-character;
          redo A;
-Line 2349 
 sub _get_next_token ($) {
+Line 3188 
 sub _get_next_token ($) {
        if ($self->{prev_state} == DATA_STATE) {
          !!!cp (997);
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          !!!emit ({type => CHARACTER_TOKEN, data => '&',
                    line => $self->{line_prev},
-Line 2359 
 sub _get_next_token ($) {
+Line 3199 
 sub _get_next_token ($) {
          !!!cp (996);
          $self->{ca}->{value} .= '&';
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          redo A;
        }
      } elsif ($self->{state} == ENTITY_HASH_STATE) {
-       if ($self->{nc} == 0x0078 or # x
+       if ($self->{nc} == 0x0078) { # x
-           $self->{nc} == 0x0058) { # X
          !!!cp (995);
          $self->{state} = HEXREF_X_STATE;
-         $self->{s_kwd} .= chr $self->{nc};
+         $self->{kwd} .= chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0058) { # X
+         !!!cp (995.1);
+         if ($self->{is_xml}) {
+           !!!parse-error (type => 'uppercase hcro'); ## TODO: type
+         }
+         $self->{state} = HEXREF_X_STATE;
+         $self->{kwd} .= chr $self->{nc};
          !!!next-input-character;
          redo A;
        } elsif (0x0030 <= $self->{nc} and
                 $self->{nc} <= 0x0039) { # 0..9
          !!!cp (994);
          $self->{state} = NCR_NUM_STATE;
-         $self->{s_kwd} = $self->{nc} - 0x0030;
+         $self->{kwd} = $self->{nc} - 0x0030;
          !!!next-input-character;
          redo A;
        } else {
-Line 2389 
 sub _get_next_token ($) {
+Line 3238 
 sub _get_next_token ($) {
          if ($self->{prev_state} == DATA_STATE) {
            !!!cp (1019);
            $self->{state} = $self->{prev_state};
+           $self->{s_kwd} = '';
            ## Reconsume.
            !!!emit ({type => CHARACTER_TOKEN,
                      data => '&#',
-Line 2400 
 sub _get_next_token ($) {
+Line 3250 
 sub _get_next_token ($) {
            !!!cp (993);
            $self->{ca}->{value} .= '&#';
            $self->{state} = $self->{prev_state};
+           $self->{s_kwd} = '';
            ## Reconsume.
            redo A;
          }
-Line 2408 
 sub _get_next_token ($) {
+Line 3259 
 sub _get_next_token ($) {
        if (0x0030 <= $self->{nc} and
            $self->{nc} <= 0x0039) { # 0..9
          !!!cp (1012);
-         $self->{s_kwd} *= 10;
+         $self->{kwd} *= 10;
-         $self->{s_kwd} += $self->{nc} - 0x0030;
+         $self->{kwd} += $self->{nc} - 0x0030;
          ## Stay in the state.
          !!!next-input-character;
-Line 2425 
 sub _get_next_token ($) {
+Line 3276 
 sub _get_next_token ($) {
          #
        }
-       my $code = $self->{s_kwd};
+       my $code = $self->{kwd};
        my $l = $self->{line_prev};
        my $c = $self->{column_prev};
-       if ($charref_map->{$code}) {
+       if ((not $self->{is_xml} and $charref_map->{$code}) or
+           ($self->{is_xml} and 0xD800 <= $code and $code <= 0xDFFF) or
+           ($self->{is_xml} and $code == 0x0000)) {
          !!!cp (1015);
          !!!parse-error (type => 'invalid character reference',
                          text => (sprintf 'U+%04X', $code),
-Line 2445 
 sub _get_next_token ($) {
+Line 3298 
 sub _get_next_token ($) {
        if ($self->{prev_state} == DATA_STATE) {
          !!!cp (992);
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          !!!emit ({type => CHARACTER_TOKEN, data => chr $code,
+                   has_reference => 1,
                    line => $l, column => $c,
                   });
          redo A;
-Line 2455 
 sub _get_next_token ($) {
+Line 3310 
 sub _get_next_token ($) {
          $self->{ca}->{value} .= chr $code;
          $self->{ca}->{has_reference} = 1;
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          redo A;
        }
-Line 2465 
 sub _get_next_token ($) {
+Line 3321 
 sub _get_next_token ($) {
          # 0..9, A..F, a..f
          !!!cp (990);
          $self->{state} = HEXREF_HEX_STATE;
-         $self->{s_kwd} = 0;
+         $self->{kwd} = 0;
          ## Reconsume.
          redo A;
        } else {
-Line 2480 
 sub _get_next_token ($) {
+Line 3336 
 sub _get_next_token ($) {
          if ($self->{prev_state} == DATA_STATE) {
            !!!cp (1005);
            $self->{state} = $self->{prev_state};
+           $self->{s_kwd} = '';
            ## Reconsume.
            !!!emit ({type => CHARACTER_TOKEN,
-                     data => '&' . $self->{s_kwd},
+                     data => '&' . $self->{kwd},
                      line => $self->{line_prev},
-                     column => $self->{column_prev} - length $self->{s_kwd},
+                     column => $self->{column_prev} - length $self->{kwd},
                     });
            redo A;
          } else {
            !!!cp (989);
-           $self->{ca}->{value} .= '&' . $self->{s_kwd};
+           $self->{ca}->{value} .= '&' . $self->{kwd};
            $self->{state} = $self->{prev_state};
+           $self->{s_kwd} = '';
            ## Reconsume.
            redo A;
          }
-Line 2499 
 sub _get_next_token ($) {
+Line 3357 
 sub _get_next_token ($) {
        if (0x0030 <= $self->{nc} and $self->{nc} <= 0x0039) {
          # 0..9
          !!!cp (1002);
-         $self->{s_kwd} *= 0x10;
+         $self->{kwd} *= 0x10;
-         $self->{s_kwd} += $self->{nc} - 0x0030;
+         $self->{kwd} += $self->{nc} - 0x0030;
          ## Stay in the state.
          !!!next-input-character;
          redo A;
        } elsif (0x0061 <= $self->{nc} and
                 $self->{nc} <= 0x0066) { # a..f
          !!!cp (1003);
-         $self->{s_kwd} *= 0x10;
+         $self->{kwd} *= 0x10;
-         $self->{s_kwd} += $self->{nc} - 0x0060 + 9;
+         $self->{kwd} += $self->{nc} - 0x0060 + 9;
          ## Stay in the state.
          !!!next-input-character;
          redo A;
        } elsif (0x0041 <= $self->{nc} and
                 $self->{nc} <= 0x0046) { # A..F
          !!!cp (1004);
-         $self->{s_kwd} *= 0x10;
+         $self->{kwd} *= 0x10;
-         $self->{s_kwd} += $self->{nc} - 0x0040 + 9;
+         $self->{kwd} += $self->{nc} - 0x0040 + 9;
          ## Stay in the state.
          !!!next-input-character;
          redo A;
-Line 2533 
 sub _get_next_token ($) {
+Line 3391 
 sub _get_next_token ($) {
          #
        }
-       my $code = $self->{s_kwd};
+       my $code = $self->{kwd};
        my $l = $self->{line_prev};
        my $c = $self->{column_prev};
-       if ($charref_map->{$code}) {
+       if ((not $self->{is_xml} and $charref_map->{$code}) or
+           ($self->{is_xml} and 0xD800 <= $code and $code <= 0xDFFF) or
+           ($self->{is_xml} and $code == 0x0000)) {
          !!!cp (1008);
          !!!parse-error (type => 'invalid character reference',
                          text => (sprintf 'U+%04X', $code),
-Line 2553 
 sub _get_next_token ($) {
+Line 3413 
 sub _get_next_token ($) {
        if ($self->{prev_state} == DATA_STATE) {
          !!!cp (988);
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          !!!emit ({type => CHARACTER_TOKEN, data => chr $code,
+                   has_reference => 1,
                    line => $l, column => $c,
                   });
          redo A;
-Line 2563 
 sub _get_next_token ($) {
+Line 3425 
 sub _get_next_token ($) {
          $self->{ca}->{value} .= chr $code;
          $self->{ca}->{has_reference} = 1;
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          redo A;
        }
      } elsif ($self->{state} == ENTITY_NAME_STATE) {
-       if (length $self->{s_kwd} < 30 and
+       if ((0x0041 <= $self->{nc} and # a
-           ## NOTE: Some number greater than the maximum length of entity name
+            $self->{nc} <= 0x005A) or # x
-           ((0x0041 <= $self->{nc} and # a
+           (0x0061 <= $self->{nc} and # a
-             $self->{nc} <= 0x005A) or # x
+            $self->{nc} <= 0x007A) or # z
-            (0x0061 <= $self->{nc} and # a
+           (0x0030 <= $self->{nc} and # 0
-             $self->{nc} <= 0x007A) or # z
+            $self->{nc} <= 0x0039) or # 9
-            (0x0030 <= $self->{nc} and # 0
+           $self->{nc} == 0x003B or # ;
-             $self->{nc} <= 0x0039) or # 9
+           ($self->{is_xml} and
-            $self->{nc} == 0x003B)) { # ;
+            not ($is_space->{$self->{nc}} or
+                 {
+x003C => 1, 0x0026 => 1, -1 => 1, # <, &
+                   $self->{entity_add} => 1,
+                 }->{$self->{nc}}))) {
          our $EntityChar;
-         $self->{s_kwd} .= chr $self->{nc};
+         $self->{kwd} .= chr $self->{nc};
-         if (defined $EntityChar->{$self->{s_kwd}}) {
+         if (defined $EntityChar->{$self->{kwd}} or
+             $self->{ge}->{$self->{kwd}}) {
            if ($self->{nc} == 0x003B) { # ;
-             !!!cp (1020);
+             if (defined $self->{ge}->{$self->{kwd}}) {
-             $self->{entity__value} = $EntityChar->{$self->{s_kwd}};
+               if ($self->{ge}->{$self->{kwd}}->{only_text}) {
+                 !!!cp (1020.1);
+                 $self->{entity__value} = $self->{ge}->{$self->{kwd}}->{value};
+               } else {
+                 if (defined $self->{ge}->{$self->{kwd}}->{notation}) {
+                   !!!cp (1020.2);
+                   !!!parse-error (type => 'unparsed entity', ## TODO: type
+                                   value => $self->{kwd});
+                 } else {
+                   !!!cp (1020.3);
+                 }
+                 $self->{entity__value} = '&' . $self->{kwd}; ## TODO: expand
+               }
+             } else {
+               if ($self->{is_xml}) {
+                 !!!cp (1020.4);
+                 !!!parse-error (type => 'entity not declared', ## TODO: type
+                                 value => $self->{kwd},
+                                 level => {
+                                           'amp;' => $self->{level}->{warn},
+                                           'quot;' => $self->{level}->{warn},
+                                           'lt;' => $self->{level}->{warn},
+                                           'gt;' => $self->{level}->{warn},
+                                           'apos;' => $self->{level}->{warn},
+                                          }->{$self->{kwd}} ||
+                                          $self->{level}->{must});
+               } else {
+                 !!!cp (1020);
+               }
+               $self->{entity__value} = $EntityChar->{$self->{kwd}};
+             }
              $self->{entity__match} = 1;
              !!!next-input-character;
              #
            } else {
              !!!cp (1021);
-             $self->{entity__value} = $EntityChar->{$self->{s_kwd}};
+             $self->{entity__value} = $EntityChar->{$self->{kwd}};
              $self->{entity__match} = -1;
              ## Stay in the state.
              !!!next-input-character;
-Line 2615 
 sub _get_next_token ($) {
+Line 3513 
 sub _get_next_token ($) {
          if ($self->{prev_state} != DATA_STATE and # in attribute
              $self->{entity__match} < -1) {
            !!!cp (1024);
-           $data = '&' . $self->{s_kwd};
+           $data = '&' . $self->{kwd};
            #
          } else {
            !!!cp (1025);
-Line 2627 
 sub _get_next_token ($) {
+Line 3525 
 sub _get_next_token ($) {
          !!!cp (1026);
          !!!parse-error (type => 'bare ero',
                          line => $self->{line_prev},
-                         column => $self->{column_prev} - length $self->{s_kwd});
+                         column => $self->{column_prev} - length $self->{kwd});
-         $data = '&' . $self->{s_kwd};
+         $data = '&' . $self->{kwd};
          #
        }
-Line 2645 
 sub _get_next_token ($) {
+Line 3543 
 sub _get_next_token ($) {
        if ($self->{prev_state} == DATA_STATE) {
          !!!cp (986);
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
          ## Reconsume.
          !!!emit ({type => CHARACTER_TOKEN,
                    data => $data,
+                   has_reference => $has_ref,
                    line => $self->{line_prev},
-                   column => $self->{column_prev} + 1 - length $self->{s_kwd},
+                   column => $self->{column_prev} + 1 - length $self->{kwd},
                   });
          redo A;
        } else {
-Line 2657 
 sub _get_next_token ($) {
+Line 3557 
 sub _get_next_token ($) {
          $self->{ca}->{value} .= $data;
          $self->{ca}->{has_reference} = 1 if $has_ref;
          $self->{state} = $self->{prev_state};
+         $self->{s_kwd} = '';
+         ## Reconsume.
+         redo A;
+       }
+     ## XML-only states
+     } elsif ($self->{state} == PI_STATE) {
+       ## XML5: "Pi state" and "DOCTYPE pi state".
+       if ($is_space->{$self->{nc}} or
+           $self->{nc} == 0x003F or # ?
+           $self->{nc} == -1) {
+         ## XML5: U+003F: "pi state": Same as "Anything else"; "DOCTYPE
+         ## pi state": Switch to the "DOCTYPE pi after state".  EOF:
+         ## "DOCTYPE pi state": Parse error, switch to the "data
+         ## state".
+         !!!parse-error (type => 'bare pio', ## TODO: type
+                         line => $self->{line_prev},
+                         column => $self->{column_prev}
+                             - 1 * ($self->{nc} != -1));
+         $self->{state} = BOGUS_COMMENT_STATE;
+         ## Reconsume.
+         $self->{ct} = {type => COMMENT_TOKEN,
+                        data => '?',
+                        line => $self->{line_prev},
+                        column => $self->{column_prev}
+                            - 1 * ($self->{nc} != -1),
+                       };
+         redo A;
+       } else {
+         ## XML5: "DOCTYPE pi state": Stay in the state.
+         $self->{ct} = {type => PI_TOKEN,
+                        target => chr $self->{nc},
+                        data => '',
+                        line => $self->{line_prev},
+                        column => $self->{column_prev} - 1,
+                       };
+         $self->{state} = PI_TARGET_STATE;
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == PI_TARGET_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         $self->{state} = PI_TARGET_AFTER_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'no pic'); ## TODO: type
+         if ($self->{in_subset}) {
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
+         ## Reconsume.
+         !!!emit ($self->{ct}); # pi
+         redo A;
+       } elsif ($self->{nc} == 0x003F) { # ?
+         $self->{state} = PI_AFTER_STATE;
+         !!!next-input-character;
+         redo A;
+       } else {
+         ## XML5: typo ("tag name" -> "target")
+         $self->{ct}->{target} .= chr $self->{nc}; # pi
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == PI_TARGET_AFTER_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } else {
+         $self->{state} = PI_DATA_STATE;
+         ## Reprocess.
+         redo A;
+       }
+     } elsif ($self->{state} == PI_DATA_STATE) {
+       if ($self->{nc} == 0x003F) { # ?
+         $self->{state} = PI_DATA_AFTER_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'no pic'); ## TODO: type
+         if ($self->{in_subset}) {
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state"
+         } else {
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
+         ## Reprocess.
+         !!!emit ($self->{ct}); # pi
+         redo A;
+       } else {
+         $self->{ct}->{data} .= chr $self->{nc}; # pi
+         $self->{read_until}->($self->{ct}->{data}, q[?],
+                               length $self->{ct}->{data});
+         ## Stay in the state.
+         !!!next-input-character;
+         ## Reprocess.
+         redo A;
+       }
+     } elsif ($self->{state} == PI_AFTER_STATE) {
+       ## XML5: Part of "Pi after state".
+       if ($self->{nc} == 0x003E) { # >
+         if ($self->{in_subset}) {
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # pi
+         redo A;
+       } elsif ($self->{nc} == 0x003F) { # ?
+         !!!parse-error (type => 'no s after target', ## TODO: type
+                         line => $self->{line_prev},
+                         column => $self->{column_prev}); ## XML5: no error
+         $self->{ct}->{data} .= '?';
+         $self->{state} = PI_DATA_AFTER_STATE;
+         !!!next-input-character;
+         redo A;
+       } else {
+         !!!parse-error (type => 'no s after target', ## TODO: type
+                         line => $self->{line_prev},
+                         column => $self->{column_prev}
+                             + 1 * ($self->{nc} == -1)); ## XML5: no error
+         $self->{ct}->{data} .= '?'; ## XML5: not appended
+         $self->{state} = PI_DATA_STATE;
+         ## Reprocess.
+         redo A;
+       }
+     } elsif ($self->{state} == PI_DATA_AFTER_STATE) {
+       ## XML5: Same as "pi after state" and "DOCTYPE pi after state".
+       if ($self->{nc} == 0x003E) { # >
+         if ($self->{in_subset}) {
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # pi
+         redo A;
+       } elsif ($self->{nc} == 0x003F) { # ?
+         $self->{ct}->{data} .= '?';
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } else {
+         $self->{ct}->{data} .= '?'; ## XML5: not appended
+         $self->{state} = PI_DATA_STATE;
+         ## Reprocess.
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_INTERNAL_SUBSET_STATE) {
+       if ($self->{nc} == 0x003C) { # <
+         $self->{state} = DOCTYPE_TAG_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0025) { # %
+         ## XML5: Not defined yet.
+         ## TODO:
+         if (not $self->{stop_processing} and
+             not $self->{document}->xml_standalone) {
+           !!!parse-error (type => 'stop processing', ## TODO: type
+                           level => $self->{level}->{info});
+           $self->{stop_processing} = 1;
+         }
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x005D) { # ]
+         delete $self->{in_subset};
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_AFTER_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed internal subset'); ## TODO: type
+         delete $self->{in_subset};
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         ## Reconsume.
+         !!!emit ({type => END_OF_DOCTYPE_TOKEN});
+         redo A;
+       } else {
+         unless ($self->{internal_subset_tainted}) {
+           ## XML5: No parse error.
+           !!!parse-error (type => 'string in internal subset');
+           $self->{internal_subset_tainted} = 1;
+         }
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_INTERNAL_SUBSET_AFTER_STATE) {
+       if ($self->{nc} == 0x003E) { # >
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         !!!next-input-character;
+         !!!emit ({type => END_OF_DOCTYPE_TOKEN});
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed DOCTYPE');
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         ## Reconsume.
+         !!!emit ({type => END_OF_DOCTYPE_TOKEN});
+         redo A;
+       } else {
+         ## XML5: No parse error and stay in the state.
+         !!!parse-error (type => 'string after internal subset'); ## TODO: type
+         $self->{state} = BOGUS_DOCTYPE_INTERNAL_SUBSET_AFTER_STATE;
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == BOGUS_DOCTYPE_INTERNAL_SUBSET_AFTER_STATE) {
+       if ($self->{nc} == 0x003E) { # >
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         !!!next-input-character;
+         !!!emit ({type => END_OF_DOCTYPE_TOKEN});
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         ## Reconsume.
+         !!!emit ({type => END_OF_DOCTYPE_TOKEN});
+         redo A;
+       } else {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_TAG_STATE) {
+       if ($self->{nc} == 0x0021) { # !
+         $self->{state} = DOCTYPE_MARKUP_DECLARATION_OPEN_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003F) { # ?
+         $self->{state} = PI_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'bare stago');
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         ## Reconsume.
+         redo A;
+       } else {
+         !!!parse-error (type => 'bare stago', ## XML5: Not a parse error.
+                         line => $self->{line_prev},
+                         column => $self->{column_prev});
+         $self->{state} = BOGUS_COMMENT_STATE;
+         $self->{ct} = {type => COMMENT_TOKEN,
+                        data => '',
+                       }; ## NOTE: Will be discarded.
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_MARKUP_DECLARATION_OPEN_STATE) {
+       ## XML5: "DOCTYPE markup declaration state".
+       if ($self->{nc} == 0x002D) { # -
+         $self->{state} = MD_HYPHEN_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0045 or # E
+                $self->{nc} == 0x0065) { # e
+         $self->{state} = MD_E_STATE;
+         $self->{kwd} = chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0041 or # A
+                $self->{nc} == 0x0061) { # a
+         $self->{state} = MD_ATTLIST_STATE;
+         $self->{kwd} = chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x004E or # N
+                $self->{nc} == 0x006E) { # n
+         $self->{state} = MD_NOTATION_STATE;
+         $self->{kwd} = chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } else {
+         #
+       }
+       ## XML5: No parse error.
+       !!!parse-error (type => 'bogus comment',
+                       line => $self->{line_prev},
+                       column => $self->{column_prev} - 1);
+       ## Reconsume.
+       $self->{state} = BOGUS_COMMENT_STATE;
+       $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded.
+       redo A;
+     } elsif ($self->{state} == MD_E_STATE) {
+       if ($self->{nc} == 0x004E or # N
+           $self->{nc} == 0x006E) { # n
+         $self->{state} = MD_ENTITY_STATE;
+         $self->{kwd} .= chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x004C or # L
+                $self->{nc} == 0x006C) { # l
+         ## XML5: <!ELEMENT> not supported.
+         $self->{state} = MD_ELEMENT_STATE;
+         $self->{kwd} .= chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } else {
+         ## XML5: No parse error.
+         !!!parse-error (type => 'bogus comment',
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} - 2
+                             + 1 * ($self->{nc} == -1));
+         ## Reconsume.
+         $self->{state} = BOGUS_COMMENT_STATE;
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         redo A;
+       }
+     } elsif ($self->{state} == MD_ENTITY_STATE) {
+       if ($self->{nc} == [
+             undef,
+             undef,
+x0054, # T
+x0049, # I
+x0054, # T
+           ]->[length $self->{kwd}] or
+           $self->{nc} == [
+             undef,
+             undef,
+x0074, # t
+x0069, # i
+x0074, # t
+           ]->[length $self->{kwd}]) {
+         ## Stay in the state.
+         $self->{kwd} .= chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } elsif ((length $self->{kwd}) == 5 and
+                ($self->{nc} == 0x0059 or # Y
+                 $self->{nc} == 0x0079)) { # y
+         if ($self->{kwd} ne 'ENTIT' or $self->{nc} == 0x0079) {
+           !!!parse-error (type => 'lowercase keyword', ## TODO: type
+                           text => 'ENTITY',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 4);
+         }
+         $self->{ct} = {type => GENERAL_ENTITY_TOKEN, name => '',
+                        line => $self->{line_prev},
+                        column => $self->{column_prev} - 6};
+         $self->{state} = DOCTYPE_MD_STATE;
+         !!!next-input-character;
+         redo A;
+       } else {
+         !!!parse-error (type => 'bogus comment',
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} - 1
+                             - (length $self->{kwd})
+                             + 1 * ($self->{nc} == -1));
+         $self->{state} = BOGUS_COMMENT_STATE;
+         ## Reconsume.
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         redo A;
+       }
+     } elsif ($self->{state} == MD_ELEMENT_STATE) {
+       if ($self->{nc} == [
+            undef,
+            undef,
+x0045, # E
+x004D, # M
+x0045, # E
+x004E, # N
+           ]->[length $self->{kwd}] or
+           $self->{nc} == [
+            undef,
+            undef,
+x0065, # e
+x006D, # m
+x0065, # e
+x006E, # n
+           ]->[length $self->{kwd}]) {
+         ## Stay in the state.
+         $self->{kwd} .= chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } elsif ((length $self->{kwd}) == 6 and
+                ($self->{nc} == 0x0054 or # T
+                 $self->{nc} == 0x0074)) { # t
+         if ($self->{kwd} ne 'ELEMEN' or $self->{nc} == 0x0074) {
+           !!!parse-error (type => 'lowercase keyword', ## TODO: type
+                           text => 'ELEMENT',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 5);
+         }
+         $self->{ct} = {type => ELEMENT_TOKEN, name => '',
+                        line => $self->{line_prev},
+                        column => $self->{column_prev} - 7};
+         $self->{state} = DOCTYPE_MD_STATE;
+         !!!next-input-character;
+         redo A;
+       } else {
+         !!!parse-error (type => 'bogus comment',
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} - 1
+                             - (length $self->{kwd})
+                             + 1 * ($self->{nc} == -1));
+         $self->{state} = BOGUS_COMMENT_STATE;
+         ## Reconsume.
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         redo A;
+       }
+     } elsif ($self->{state} == MD_ATTLIST_STATE) {
+       if ($self->{nc} == [
+            undef,
+x0054, # T
+x0054, # T
+x004C, # L
+x0049, # I
+x0053, # S
+           ]->[length $self->{kwd}] or
+           $self->{nc} == [
+            undef,
+x0074, # t
+x0074, # t
+x006C, # l
+x0069, # i
+x0073, # s
+           ]->[length $self->{kwd}]) {
+         ## Stay in the state.
+         $self->{kwd} .= chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } elsif ((length $self->{kwd}) == 6 and
+                ($self->{nc} == 0x0054 or # T
+                 $self->{nc} == 0x0074)) { # t
+         if ($self->{kwd} ne 'ATTLIS' or $self->{nc} == 0x0074) {
+           !!!parse-error (type => 'lowercase keyword', ## TODO: type
+                           text => 'ATTLIST',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 5);
+         }
+         $self->{ct} = {type => ATTLIST_TOKEN, name => '',
+                        attrdefs => [],
+                        line => $self->{line_prev},
+                        column => $self->{column_prev} - 7};
+         $self->{state} = DOCTYPE_MD_STATE;
+         !!!next-input-character;
+         redo A;
+       } else {
+         !!!parse-error (type => 'bogus comment',
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} - 1
+                              - (length $self->{kwd})
+                              + 1 * ($self->{nc} == -1));
+         $self->{state} = BOGUS_COMMENT_STATE;
+         ## Reconsume.
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         redo A;
+       }
+     } elsif ($self->{state} == MD_NOTATION_STATE) {
+       if ($self->{nc} == [
+            undef,
+x004F, # O
+x0054, # T
+x0041, # A
+x0054, # T
+x0049, # I
+x004F, # O
+           ]->[length $self->{kwd}] or
+           $self->{nc} == [
+            undef,
+x006F, # o
+x0074, # t
+x0061, # a
+x0074, # t
+x0069, # i
+x006F, # o
+           ]->[length $self->{kwd}]) {
+         ## Stay in the state.
+         $self->{kwd} .= chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } elsif ((length $self->{kwd}) == 7 and
+                ($self->{nc} == 0x004E or # N
+                 $self->{nc} == 0x006E)) { # n
+         if ($self->{kwd} ne 'NOTATIO' or $self->{nc} == 0x006E) {
+           !!!parse-error (type => 'lowercase keyword', ## TODO: type
+                           text => 'NOTATION',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 6);
+         }
+         $self->{ct} = {type => NOTATION_TOKEN, name => '',
+                        line => $self->{line_prev},
+                        column => $self->{column_prev} - 8};
+         $self->{state} = DOCTYPE_MD_STATE;
+         !!!next-input-character;
+         redo A;
+       } else {
+         !!!parse-error (type => 'bogus comment',
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} - 1
+                             - (length $self->{kwd})
+                             + 1 * ($self->{nc} == -1));
+         $self->{state} = BOGUS_COMMENT_STATE;
+         ## Reconsume.
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_MD_STATE) {
+       ## XML5: "DOCTYPE ENTITY state", "DOCTYPE ATTLIST state", and
+       ## "DOCTYPE NOTATION state".
+       if ($is_space->{$self->{nc}}) {
+         ## XML5: [NOTATION] Switch to the "DOCTYPE NOTATION identifier state".
+         $self->{state} = BEFORE_MD_NAME_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{ct}->{type} == GENERAL_ENTITY_TOKEN and
+                $self->{nc} == 0x0025) { # %
+         ## XML5: Switch to the "DOCTYPE bogus comment state".
+         !!!parse-error (type => 'no space before md name'); ## TODO: type
+         $self->{state} = DOCTYPE_ENTITY_PARAMETER_BEFORE_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         ## Reconsume.
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         ## XML5: Switch to the "DOCTYPE bogus comment state".
+         !!!parse-error (type => 'no md name'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         redo A;
+       } else {
+         ## XML5: Switch to the "DOCTYPE bogus comment state".
+         !!!parse-error (type => 'no space before md name'); ## TODO: type
+         $self->{state} = BEFORE_MD_NAME_STATE;
+         redo A;
+       }
+     } elsif ($self->{state} == BEFORE_MD_NAME_STATE) {
+       ## XML5: "DOCTYPE ENTITY parameter state", "DOCTYPE ENTITY type
+       ## before state", "DOCTYPE ATTLIST name before state".
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{ct}->{type} == GENERAL_ENTITY_TOKEN and
+                $self->{nc} == 0x0025) { # %
+         $self->{state} = DOCTYPE_ENTITY_PARAMETER_BEFORE_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         ## XML5: Same as "Anything else".
+         !!!parse-error (type => 'no md name'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         ## Reconsume.
+         redo A;
+       } else {
+         ## XML5: [ATTLIST] Not defined yet.
+         $self->{ct}->{name} .= chr $self->{nc};
+         $self->{state} = MD_NAME_STATE;
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_ENTITY_PARAMETER_BEFORE_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## XML5: Switch to the "DOCTYPE ENTITY parameter state".
+         $self->{ct}->{type} = PARAMETER_ENTITY_TOKEN;
+         $self->{state} = BEFORE_MD_NAME_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         ## XML5: Same as "Anything else".
+         !!!parse-error (type => 'no md name'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed md');
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         ## Reconsume.
+         redo A;
+       } else {
+         ## XML5: No parse error.
+         !!!parse-error (type => 'no space after ENTITY percent'); ## TODO: type
+         $self->{state} = BOGUS_COMMENT_STATE;
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         ## Reconsume.
+         redo A;
+       }
+     } elsif ($self->{state} == MD_NAME_STATE) {
+       ## XML5: "DOCTYPE ENTITY name state" and "DOCTYPE ATTLIST name state".
+       if ($is_space->{$self->{nc}}) {
+         if ($self->{ct}->{type} == ATTLIST_TOKEN) {
+           $self->{state} = DOCTYPE_ATTLIST_NAME_AFTER_STATE;
+         } elsif ($self->{ct}->{type} == ELEMENT_TOKEN) {
+           $self->{state} = AFTER_ELEMENT_NAME_STATE;
+         } else { # ENTITY/NOTATION
+           $self->{state} = AFTER_DOCTYPE_NAME_STATE;
+         }
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         if ($self->{ct}->{type} == ATTLIST_TOKEN) {
+           #
+         } else {
+           !!!parse-error (type => 'no md def'); ## TODO: type
+         }
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ELEMENT/ENTITY/ATTLIST/NOTATION
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         ## XML5: [ATTLIST] No parse error.
+         !!!parse-error (type => 'unclosed md');
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         ## Reconsume.
+         !!!emit ($self->{ct}); # ELEMENT/ENTITY/ATTLIST/NOTATION
+         redo A;
+       } else {
+         ## XML5: [ATTLIST] Not defined yet.
+         $self->{ct}->{name} .= chr $self->{nc};
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_ATTLIST_NAME_AFTER_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ATTLIST
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         ## XML5: No parse error.
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         !!!emit ($self->{ct});
+         redo A;
+       } else {
+         ## XML5: Not defined yet.
+         $self->{ca} = {name => chr ($self->{nc}), # attrdef
+                        tokens => [],
+                        line => $self->{line}, column => $self->{column}};
+         $self->{state} = DOCTYPE_ATTLIST_ATTRIBUTE_NAME_STATE;
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_ATTLIST_ATTRIBUTE_NAME_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         $self->{state} = DOCTYPE_ATTLIST_ATTRIBUTE_NAME_AFTER_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         ## XML5: Same as "anything else".
+         !!!parse-error (type => 'no attr type'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ATTLIST
+         redo A;
+       } elsif ($self->{nc} == 0x0028) { # (
+         ## XML5: Same as "anything else".
+         !!!parse-error (type => 'no space before paren'); ## TODO: type
+         $self->{state} = BEFORE_ALLOWED_TOKEN_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         ## XML5: No parse error.
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ATTLIST
+         redo A;
+       } else {
+         ## XML5: Not defined yet.
+         $self->{ca}->{name} .= chr $self->{nc};
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_ATTLIST_ATTRIBUTE_NAME_AFTER_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         ## XML5: Same as "anything else".
+         !!!parse-error (type => 'no attr type'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ATTLIST
+         redo A;
+       } elsif ($self->{nc} == 0x0028) { # (
+         ## XML5: Same as "anything else".
+         $self->{state} = BEFORE_ALLOWED_TOKEN_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         ## XML5: No parse error.
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         !!!next-input-character;
+         !!!emit ($self->{ct});
+         redo A;
+       } else {
+         ## XML5: Not defined yet.
+         $self->{ca}->{type} = chr $self->{nc};
+         $self->{state} = DOCTYPE_ATTLIST_ATTRIBUTE_TYPE_STATE;
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_ATTLIST_ATTRIBUTE_TYPE_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         $self->{state} = DOCTYPE_ATTLIST_ATTRIBUTE_TYPE_AFTER_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0023) { # #
+         ## XML5: Same as "anything else".
+         !!!parse-error (type => 'no space before default value'); ## TODO: type
+         $self->{state} = DOCTYPE_ATTLIST_ATTRIBUTE_DECLARATION_BEFORE_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0022) { # "
+         ## XML5: Same as "anything else".
+         !!!parse-error (type => 'no space before default value'); ## TODO: type
+         $self->{ca}->{value} = '';
+         $self->{state} = ATTRIBUTE_VALUE_DOUBLE_QUOTED_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0027) { # '
+         ## XML5: Same as "anything else".
+         !!!parse-error (type => 'no space before default value'); ## TODO: type
+         $self->{ca}->{value} = '';
+         $self->{state} = ATTRIBUTE_VALUE_SINGLE_QUOTED_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         ## XML5: Same as "anything else".
+         !!!parse-error (type => 'no attr default'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ATTLIST
+         redo A;
+       } elsif ($self->{nc} == 0x0028) { # (
+         ## XML5: Same as "anything else".
+         !!!parse-error (type => 'no space before paren'); ## TODO: type
+         $self->{state} = BEFORE_ALLOWED_TOKEN_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         ## XML5: No parse error.
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         !!!next-input-character;
+         !!!emit ($self->{ct});
+         redo A;
+       } else {
+         ## XML5: Not defined yet.
+         $self->{ca}->{type} .= chr $self->{nc};
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_ATTLIST_ATTRIBUTE_TYPE_AFTER_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0028) { # (
+         ## XML5: Same as "anything else".
+         $self->{state} = BEFORE_ALLOWED_TOKEN_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0023) { # #
+         $self->{state} = DOCTYPE_ATTLIST_ATTRIBUTE_DECLARATION_BEFORE_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0022) { # "
+         ## XML5: Same as "anything else".
+         $self->{ca}->{value} = '';
+         $self->{state} = ATTRIBUTE_VALUE_DOUBLE_QUOTED_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0027) { # '
+         ## XML5: Same as "anything else".
+         $self->{ca}->{value} = '';
+         $self->{state} = ATTRIBUTE_VALUE_SINGLE_QUOTED_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         ## XML5: Same as "anything else".
+         !!!parse-error (type => 'no attr default'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ATTLIST
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         ## XML5: No parse error.
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         !!!next-input-character;
+         !!!emit ($self->{ct});
+         redo A;
+       } else {
+         ## XML5: Switch to the "DOCTYPE bogus comment state".
+         !!!parse-error (type => 'unquoted attr value'); ## TODO: type
+         $self->{ca}->{value} = '';
+         $self->{state} = ATTRIBUTE_VALUE_UNQUOTED_STATE;
          ## Reconsume.
          redo A;
        }
+     } elsif ($self->{state} == BEFORE_ALLOWED_TOKEN_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x007C) { # |
+         !!!parse-error (type => 'empty allowed token'); ## TODO: type
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0029) { # )
+         !!!parse-error (type => 'empty allowed token'); ## TODO: type
+         $self->{state} = AFTER_ALLOWED_TOKENS_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         !!!parse-error (type => 'unclosed allowed tokens'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ATTLIST
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         ## XML5: No parse error.
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         !!!next-input-character;
+         !!!emit ($self->{ct});
+         redo A;
+       } else {
+         push @{$self->{ca}->{tokens}}, chr $self->{nc};
+         $self->{state} = ALLOWED_TOKEN_STATE;
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == ALLOWED_TOKEN_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         $self->{state} = AFTER_ALLOWED_TOKEN_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x007C) { # |
+         $self->{state} = BEFORE_ALLOWED_TOKEN_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0029) { # )
+         $self->{state} = AFTER_ALLOWED_TOKENS_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         !!!parse-error (type => 'unclosed allowed tokens'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ATTLIST
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         ## XML5: No parse error.
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         !!!next-input-character;
+         !!!emit ($self->{ct});
+         redo A;
+       } else {
+         $self->{ca}->{tokens}->[-1] .= chr $self->{nc};
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == AFTER_ALLOWED_TOKEN_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x007C) { # |
+         $self->{state} = BEFORE_ALLOWED_TOKEN_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0029) { # )
+         $self->{state} = AFTER_ALLOWED_TOKENS_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         !!!parse-error (type => 'unclosed allowed tokens'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ATTLIST
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         ## XML5: No parse error.
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         !!!next-input-character;
+         !!!emit ($self->{ct});
+         redo A;
+       } else {
+         !!!parse-error (type => 'space in allowed token', ## TODO: type
+                         line => $self->{line_prev},
+                         column => $self->{column_prev});
+         $self->{ca}->{tokens}->[-1] .= ' ' . chr $self->{nc};
+         $self->{state} = ALLOWED_TOKEN_STATE;
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == AFTER_ALLOWED_TOKENS_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         $self->{state} = BEFORE_ATTR_DEFAULT_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0023) { # #
+         !!!parse-error (type => 'no space before default value'); ## TODO: type
+         $self->{state} = DOCTYPE_ATTLIST_ATTRIBUTE_DECLARATION_BEFORE_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0022) { # "
+         !!!parse-error (type => 'no space before default value'); ## TODO: type
+         $self->{ca}->{value} = '';
+         $self->{state} = ATTRIBUTE_VALUE_DOUBLE_QUOTED_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0027) { # '
+         !!!parse-error (type => 'no space before default value'); ## TODO: type
+         $self->{ca}->{value} = '';
+         $self->{state} = ATTRIBUTE_VALUE_SINGLE_QUOTED_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         !!!parse-error (type => 'no attr default'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ATTLIST
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct});
+         redo A;
+       } else {
+         !!!parse-error (type => 'unquoted attr value'); ## TODO: type
+         $self->{state} = ATTRIBUTE_VALUE_UNQUOTED_STATE;
+         ## Reconsume.
+         redo A;
+       }
+     } elsif ($self->{state} == BEFORE_ATTR_DEFAULT_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0023) { # #
+         $self->{state} = DOCTYPE_ATTLIST_ATTRIBUTE_DECLARATION_BEFORE_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0022) { # "
+         $self->{ca}->{value} = '';
+         $self->{state} = ATTRIBUTE_VALUE_DOUBLE_QUOTED_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0027) { # '
+         $self->{ca}->{value} = '';
+         $self->{state} = ATTRIBUTE_VALUE_SINGLE_QUOTED_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         !!!parse-error (type => 'no attr default'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ATTLIST
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct});
+         redo A;
+       } else {
+         !!!parse-error (type => 'unquoted attr value'); ## TODO: type
+         $self->{state} = ATTRIBUTE_VALUE_UNQUOTED_STATE;
+         ## Reconsume.
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_ATTLIST_ATTRIBUTE_DECLARATION_BEFORE_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## XML5: No parse error.
+         !!!parse-error (type => 'no default type'); ## TODO: type
+         $self->{state} = BOGUS_MD_STATE;
+         ## Reconsume.
+         redo A;
+       } elsif ($self->{nc} == 0x0022) { # "
+         ## XML5: Same as "anything else".
+         $self->{ca}->{value} = '';
+         $self->{state} = ATTRIBUTE_VALUE_DOUBLE_QUOTED_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0027) { # '
+         ## XML5: Same as "anything else".
+         $self->{ca}->{value} = '';
+         $self->{state} = ATTRIBUTE_VALUE_SINGLE_QUOTED_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         ## XML5: Same as "anything else".
+         !!!parse-error (type => 'no attr default'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ATTLIST
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         ## XML5: No parse error.
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         !!!next-input-character;
+         !!!emit ($self->{ct});
+         redo A;
+       } else {
+         $self->{ca}->{default} = chr $self->{nc};
+         $self->{state} = DOCTYPE_ATTLIST_ATTRIBUTE_DECLARATION_STATE;
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_ATTLIST_ATTRIBUTE_DECLARATION_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         $self->{state} = DOCTYPE_ATTLIST_ATTRIBUTE_DECLARATION_AFTER_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0022) { # "
+         ## XML5: Same as "anything else".
+         !!!parse-error (type => 'no space before default value'); ## TODO: type
+         $self->{ca}->{value} = '';
+         $self->{state} = ATTRIBUTE_VALUE_DOUBLE_QUOTED_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0027) { # '
+         ## XML5: Same as "anything else".
+         !!!parse-error (type => 'no space before default value'); ## TODO: type
+         $self->{ca}->{value} = '';
+         $self->{state} = ATTRIBUTE_VALUE_SINGLE_QUOTED_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         ## XML5: Same as "anything else".
+         push @{$self->{ct}->{attrdefs}}, $self->{ca};
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ATTLIST
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         ## XML5: No parse error.
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         push @{$self->{ct}->{attrdefs}}, $self->{ca};
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         !!!next-input-character;
+         !!!emit ($self->{ct});
+         redo A;
+       } else {
+         $self->{ca}->{default} .= chr $self->{nc};
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_ATTLIST_ATTRIBUTE_DECLARATION_AFTER_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0022) { # "
+         $self->{ca}->{value} = '';
+         $self->{state} = ATTRIBUTE_VALUE_DOUBLE_QUOTED_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0027) { # '
+         $self->{ca}->{value} = '';
+         $self->{state} = ATTRIBUTE_VALUE_SINGLE_QUOTED_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         push @{$self->{ct}->{attrdefs}}, $self->{ca};
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ATTLIST
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         ## XML5: No parse error.
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         push @{$self->{ct}->{attrdefs}}, $self->{ca};
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         !!!next-input-character;
+         !!!emit ($self->{ct});
+         redo A;
+       } else {
+         ## XML5: Not defined yet.
+         if ($self->{ca}->{default} eq 'FIXED') {
+           $self->{state} = ATTRIBUTE_VALUE_UNQUOTED_STATE;
+         } else {
+           push @{$self->{ct}->{attrdefs}}, $self->{ca};
+           $self->{state} = DOCTYPE_ATTLIST_NAME_AFTER_STATE;
+         }
+         ## Reconsume.
+         redo A;
+       }
+     } elsif ($self->{state} == AFTER_ATTLIST_ATTR_VALUE_QUOTED_STATE) {
+       if ($is_space->{$self->{nc}} or
+           $self->{nc} == -1 or
+           $self->{nc} == 0x003E) { # >
+         $self->{state} = DOCTYPE_ATTLIST_NAME_AFTER_STATE;
+         ## Reconsume.
+         redo A;
+       } else {
+         !!!parse-error (type => 'no space before attr name'); ## TODO: type
+         $self->{state} = DOCTYPE_ATTLIST_NAME_AFTER_STATE;
+         ## Reconsume.
+         redo A;
+       }
+     } elsif ($self->{state} == NDATA_STATE) {
+       ## ASCII case-insensitive
+       if ($self->{nc} == [
+             undef,
+x0044, # D
+x0041, # A
+x0054, # T
+           ]->[length $self->{kwd}] or
+           $self->{nc} == [
+             undef,
+x0064, # d
+x0061, # a
+x0074, # t
+           ]->[length $self->{kwd}]) {
+         !!!cp (172.2);
+         ## Stay in the state.
+         $self->{kwd} .= chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } elsif ((length $self->{kwd}) == 4 and
+                ($self->{nc} == 0x0041 or # A
+                 $self->{nc} == 0x0061)) { # a
+         if ($self->{kwd} ne 'NDAT' or $self->{nc} == 0x0061) { # a
+           !!!cp (172.3);
+           !!!parse-error (type => 'lowercase keyword', ## TODO: type
+                           text => 'NDATA',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 4);
+         } else {
+           !!!cp (172.4);
+         }
+         $self->{state} = AFTER_NDATA_STATE;
+         !!!next-input-character;
+         redo A;
+       } else {
+         !!!parse-error (type => 'string after literal', ## TODO: type
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} + 1
+                             - length $self->{kwd});
+         !!!cp (172.5);
+         $self->{state} = BOGUS_MD_STATE;
+         ## Reconsume.
+         redo A;
+       }
+     } elsif ($self->{state} == AFTER_NDATA_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         $self->{state} = BEFORE_NOTATION_NAME_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         !!!parse-error (type => 'no notation name'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ENTITY
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ENTITY
+         redo A;
+       } else {
+         !!!parse-error (type => 'string after literal', ## TODO: type
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} + 1
+                             - length $self->{kwd});
+         $self->{state} = BOGUS_MD_STATE;
+         ## Reconsume.
+         redo A;
+       }
+     } elsif ($self->{state} == BEFORE_NOTATION_NAME_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         !!!parse-error (type => 'no notation name'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ENTITY
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ENTITY
+         redo A;
+       } else {
+         $self->{ct}->{notation} = chr $self->{nc}; # ENTITY
+         $self->{state} = NOTATION_NAME_STATE;
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == NOTATION_NAME_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         $self->{state} = AFTER_MD_DEF_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ENTITY
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ENTITY
+         redo A;
+       } else {
+         $self->{ct}->{notation} .= chr $self->{nc}; # ENTITY
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_ENTITY_VALUE_DOUBLE_QUOTED_STATE) {
+       if ($self->{nc} == 0x0022) { # "
+         $self->{state} = AFTER_MD_DEF_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0026) { # &
+         $self->{prev_state} = $self->{state};
+         $self->{state} = ENTITY_VALUE_ENTITY_STATE;
+         $self->{entity_add} = 0x0022; # "
+         !!!next-input-character;
+         redo A;
+ ## TODO: %
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed entity value'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         ## Reconsume.
+         !!!emit ($self->{ct}); # ENTITY
+         redo A;
+       } else {
+         $self->{ct}->{value} .= chr $self->{nc}; # ENTITY
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_ENTITY_VALUE_SINGLE_QUOTED_STATE) {
+       if ($self->{nc} == 0x0027) { # '
+         $self->{state} = AFTER_MD_DEF_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0026) { # &
+         $self->{prev_state} = $self->{state};
+         $self->{state} = ENTITY_VALUE_ENTITY_STATE;
+         $self->{entity_add} = 0x0027; # '
+         !!!next-input-character;
+         redo A;
+ ## TODO: %
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed entity value'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         ## Reconsume.
+         !!!emit ($self->{ct}); # ENTITY
+         redo A;
+       } else {
+         $self->{ct}->{value} .= chr $self->{nc}; # ENTITY
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == ENTITY_VALUE_ENTITY_STATE) {
+       if ($is_space->{$self->{nc}} or
+           {
+x003C => 1, 0x0026 => 1, -1 => 1, # <, &
+             $self->{entity_add} => 1,
+           }->{$self->{nc}}) {
+         !!!parse-error (type => 'bare ero',
+                         line => $self->{line_prev},
+                         column => $self->{column_prev}
+                             + ($self->{nc} == -1 ? 1 : 0));
+         ## Don't consume
+         ## Return nothing.
+         #
+       } elsif ($self->{nc} == 0x0023) { # #
+         $self->{ca} = $self->{ct};
+         $self->{state} = ENTITY_HASH_STATE;
+         $self->{kwd} = '#';
+         !!!next-input-character;
+         redo A;
+       } else {
+         #
+       }
+       $self->{ct}->{value} .= '&';
+       $self->{state} = $self->{prev_state};
+       ## Reconsume.
+       redo A;
+     } elsif ($self->{state} == AFTER_ELEMENT_NAME_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         $self->{state} = BEFORE_ELEMENT_CONTENT_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0028) { # (
+         $self->{state} = AFTER_CM_GROUP_OPEN_STATE;
+         $self->{ct}->{content} = ['('];
+         $self->{group_depth} = 1;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         !!!parse-error (type => 'no md def'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ELEMENT
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ELEMENT
+         redo A;
+       } else {
+         $self->{ct}->{content} = [chr $self->{nc}];
+         $self->{state} = CONTENT_KEYWORD_STATE;
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == CONTENT_KEYWORD_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         $self->{state} = AFTER_MD_DEF_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ELEMENT
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ELEMENT
+         redo A;
+       } else {
+         $self->{ct}->{content}->[-1] .= chr $self->{nc}; # ELEMENT
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == AFTER_CM_GROUP_OPEN_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0028) { # (
+         $self->{group_depth}++;
+         push @{$self->{ct}->{content}}, chr $self->{nc};
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x007C or # |
+                $self->{nc} == 0x002C) { # ,
+         !!!parse-error (type => 'empty element name'); ## TODO: type
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0029) { # )
+         !!!parse-error (type => 'empty element name'); ## TODO: type
+         push @{$self->{ct}->{content}}, chr $self->{nc};
+         $self->{group_depth}--;
+         $self->{state} = AFTER_CM_GROUP_CLOSE_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         !!!parse-error (type => 'unclosed cm group'); ## TODO: type
+         push @{$self->{ct}->{content}}, (')') x $self->{group_depth};
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ELEMENT
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         push @{$self->{ct}->{content}}, (')') x $self->{group_depth};
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ELEMENT
+         redo A;
+       } else {
+         push @{$self->{ct}->{content}}, chr $self->{nc};
+         $self->{state} = CM_ELEMENT_NAME_STATE;
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == CM_ELEMENT_NAME_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         $self->{state} = AFTER_CM_ELEMENT_NAME_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x002A or # *
+                $self->{nc} == 0x002B or # +
+                $self->{nc} == 0x003F) { # ?
+         push @{$self->{ct}->{content}}, chr $self->{nc};
+         $self->{state} = AFTER_CM_ELEMENT_NAME_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x007C or # |
+                $self->{nc} == 0x002C) { # ,
+         push @{$self->{ct}->{content}}, $self->{nc} == 0x007C ? ' | ' : ', ';
+         $self->{state} = AFTER_CM_GROUP_OPEN_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0029) { # )
+         $self->{group_depth}--;
+         push @{$self->{ct}->{content}}, chr $self->{nc};
+         $self->{state} = AFTER_CM_GROUP_CLOSE_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         !!!parse-error (type => 'unclosed cm group'); ## TODO: type
+         push @{$self->{ct}->{content}}, (')') x $self->{group_depth};
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ELEMENT
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         push @{$self->{ct}->{content}}, (')') x $self->{group_depth};
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ELEMENT
+         redo A;
+       } else {
+         $self->{ct}->{content}->[-1] .= chr $self->{nc};
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == AFTER_CM_ELEMENT_NAME_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x007C or # |
+                $self->{nc} == 0x002C) { # ,
+         push @{$self->{ct}->{content}}, $self->{nc} == 0x007C ? ' | ' : ', ';
+         $self->{state} = AFTER_CM_GROUP_OPEN_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0029) { # )
+         $self->{group_depth}--;
+         push @{$self->{ct}->{content}}, chr $self->{nc};
+         $self->{state} = AFTER_CM_GROUP_CLOSE_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         !!!parse-error (type => 'unclosed cm group'); ## TODO: type
+         push @{$self->{ct}->{content}}, (')') x $self->{group_depth};
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ELEMENT
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         push @{$self->{ct}->{content}}, (')') x $self->{group_depth};
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ELEMENT
+         redo A;
+       } else {
+         !!!parse-error (type => 'after element name'); ## TODO: type
+         push @{$self->{ct}->{content}}, (')') x $self->{group_depth};
+         $self->{state} = BOGUS_MD_STATE;
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == AFTER_CM_GROUP_CLOSE_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         if ($self->{group_depth}) {
+           $self->{state} = AFTER_CM_ELEMENT_NAME_STATE;
+         } else {
+           $self->{state} = AFTER_MD_DEF_STATE;
+         }
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x002A or # *
+                $self->{nc} == 0x002B or # +
+                $self->{nc} == 0x003F) { # ?
+         push @{$self->{ct}->{content}}, chr $self->{nc};
+         if ($self->{group_depth}) {
+           $self->{state} = AFTER_CM_ELEMENT_NAME_STATE;
+         } else {
+           $self->{state} = AFTER_MD_DEF_STATE;
+         }
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0029) { # )
+         if ($self->{group_depth}) {
+           $self->{group_depth}--;
+           push @{$self->{ct}->{content}}, chr $self->{nc};
+           ## Stay in the state.
+           !!!next-input-character;
+           redo A;
+         } else {
+           !!!parse-error (type => 'string after md def'); ## TODO: type
+           $self->{state} = BOGUS_MD_STATE;
+           ## Reconsume.
+           redo A;
+         }
+       } elsif ($self->{nc} == 0x003E) { # >
+         if ($self->{group_depth}) {
+           !!!parse-error (type => 'unclosed cm group'); ## TODO: type
+           push @{$self->{ct}->{content}}, (')') x $self->{group_depth};
+         }
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ELEMENT
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         push @{$self->{ct}->{content}}, (')') x $self->{group_depth};
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ELEMENT
+         redo A;
+       } else {
+         if ($self->{group_depth}) {
+           $self->{state} = AFTER_CM_ELEMENT_NAME_STATE;
+         } else {
+           !!!parse-error (type => 'string after md def'); ## TODO: type
+           $self->{state} = BOGUS_MD_STATE;
+         }
+         ## Reconsume.
+         redo A;
+       }
+     } elsif ($self->{state} == AFTER_MD_DEF_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ENTITY/ELEMENT
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ENTITY/ELEMENT
+         redo A;
+       } else {
+         !!!parse-error (type => 'string after md def'); ## TODO: type
+         $self->{state} = BOGUS_MD_STATE;
+         ## Reconsume.
+         redo A;
+       }
+     } elsif ($self->{state} == BOGUS_MD_STATE) {
+       if ($self->{nc} == 0x003E) { # >
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ATTLIST/ENTITY/NOTATION
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         ## Reconsume.
+         !!!emit ($self->{ct}); # ATTLIST/ENTITY/NOTATION
+         redo A;
+       } else {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       }
      } else {
        die "$0: $self->{state}: Unknown state";
      }
-Line 2670 
 sub _get_next_token ($) {
+Line 5176 
 sub _get_next_token ($) {
 ;
  ## $Date$

 Legend:



Removed from v.1.3
 


changed lines


 
Added in v.1.31
 Legend:



Removed from v.1.3
 


changed lines


 
Added in v.1.31
-Removed from v.1.3
+Added in v.1.31

admin@suikawiki.org	ViewVC Help
Powered by ViewVC 1.1.24