/[suikacvs]/markup/html/whatpm/Whatpm/HTML/Tokenizer.pm.src

Diff of /markup/html/whatpm/Whatpm/HTML/Tokenizer.pm.src

Parent Directory | Revision Log | View Patch Patch

-revision 1.11 by wakaba,
Wed Oct 15 10:50:38 2008 UTC
+revision 1.14 by wakaba,
Fri Oct 17 07:14:29 2008 UTC
 Line 15 
 BEGIN {
      CHARACTER_TOKEN
      PI_TOKEN
      ABORT_TOKEN
+     END_OF_DOCTYPE_TOKEN
+     ATTLIST_TOKEN
+     ELEMENT_TOKEN
+     GENERAL_ENTITY_TOKEN
+     PARAMETER_ENTITY_TOKEN
+     NOTATION_TOKEN
    );
    our %EXPORT_TAGS = (
-Line 27 
 BEGIN {
+Line 33 
 BEGIN {
        CHARACTER_TOKEN
        PI_TOKEN
        ABORT_TOKEN
+       END_OF_DOCTYPE_TOKEN
+       ATTLIST_TOKEN
+       ELEMENT_TOKEN
+       GENERAL_ENTITY_TOKEN
+       PARAMETER_ENTITY_TOKEN
+       NOTATION_TOKEN
      )],
    );
  }
+ ## NOTE: Differences from the XML5 draft are marked as "XML5:".
  ## Token types
- sub DOCTYPE_TOKEN () { 1 }
+ sub DOCTYPE_TOKEN () { 1 } ## XML5: No DOCTYPE token.
  sub COMMENT_TOKEN () { 2 }
  sub START_TAG_TOKEN () { 3 }
  sub END_TAG_TOKEN () { 4 }
  sub END_OF_FILE_TOKEN () { 5 }
  sub CHARACTER_TOKEN () { 6 }
- sub PI_TOKEN () { 7 } # XML5
+ sub PI_TOKEN () { 7 } ## NOTE: XML only.
- sub ABORT_TOKEN () { 8 } # Not a token actually
+ sub ABORT_TOKEN () { 8 } ## NOTE: For internal processing.
+ sub END_OF_DOCTYPE_TOKEN () { 9 } ## NOTE: XML only.
+ sub ATTLIST_TOKEN () { 10 } ## NOTE: XML only.
+ sub ELEMENT_TOKEN () { 11 } ## NOTE: XML only.
+ sub GENERAL_ENTITY_TOKEN () { 12 } ## NOTE: XML only.
+ sub PARAMETER_ENTITY_TOKEN () { 13 } ## NOTE: XML only.
+ sub NOTATION_TOKEN () { 14 } ## NOTE: XML only.
+ ## XML5: XML5 has "empty tag token".  In this implementation, it is
+ ## represented as a start tag token with $self->{self_closing} flag
+ ## set to true.
+ ## XML5: XML5 has "short end tag token".  In this implementation, it
+ ## is represented as an end tag token with $token->{tag_name} flag set
+ ## to an empty string.
  package Whatpm::HTML;
-Line 114 
 sub HEXREF_HEX_STATE () { 48 }
+Line 142 
 sub HEXREF_HEX_STATE () { 48 }
  sub ENTITY_NAME_STATE () { 49 }
  sub PCDATA_STATE () { 50 } # "data state" in the spec
- ## XML states
+ ## XML-only states
  sub PI_STATE () { 51 }
  sub PI_TARGET_STATE () { 52 }
  sub PI_TARGET_AFTER_STATE () { 53 }
  sub PI_DATA_STATE () { 54 }
  sub PI_AFTER_STATE () { 55 }
  sub PI_DATA_AFTER_STATE () { 56 }
+ sub DOCTYPE_INTERNAL_SUBSET_STATE () { 57 }
+ sub DOCTYPE_INTERNAL_SUBSET_AFTER_STATE () { 58 }
+ sub BOGUS_DOCTYPE_INTERNAL_SUBSET_AFTER_STATE () { 59 }
+ sub DOCTYPE_TAG_STATE () { 60 }
+ sub DOCTYPE_MARKUP_DECLARATION_OPEN_STATE () { 61 }
+ sub MD_ATTLIST_STATE () { 62 }
+ sub MD_E_STATE () { 63 }
+ sub MD_ELEMENT_STATE () { 64 }
+ sub MD_ENTITY_STATE () { 65 }
+ sub MD_NOTATION_STATE () { 66 }
+ sub DOCTYPE_MD_STATE () { 67 }
+ sub BEFORE_MD_NAME_STATE () { 68 }
+ sub MD_NAME_STATE () { 69 }
+ sub DOCTYPE_ENTITY_PARAMETER_BEFORE_STATE () { 70 }
+ sub DOCTYPE_ATTLIST_NAME_AFTER_STATE () { 71 }
  ## Tree constructor state constants (see Whatpm::HTML for the full
  ## list and descriptions)
-Line 186 
 sub _initialize_tokenizer ($) {
+Line 229 
 sub _initialize_tokenizer ($) {
    #$self->{is_xml} (if XML)
    $self->{state} = DATA_STATE; # MUST
-   $self->{s_kwd} = ''; # state keyword
+   $self->{s_kwd} = ''; # Data state keyword
+   #$self->{kwd} = ''; # State-dependent keyword; initialized when used
    #$self->{entity__value}; # initialized when used
    #$self->{entity__match}; # initialized when used
    $self->{content_model} = PCDATA_CONTENT_MODEL; # be
-Line 221 
 sub _initialize_tokenizer ($) {
+Line 265 
 sub _initialize_tokenizer ($) {
  ##   ->{data} (COMMENT_TOKEN, CHARACTER_TOKEN, PI_TOKEN)
  ##   ->{has_reference} == 1 or 0 (CHARACTER_TOKEN)
  ##   ->{last_index} (ELEMENT_TOKEN): Next attribute's index - 1.
+ ##   ->{has_internal_subset} = 1 or 0 (DOCTYPE_TOKEN)
  ## NOTE: The "self-closing flag" is hold as |$self->{self_closing}|.
  ##     |->{self_closing}| is used to save the value of |$self->{self_closing}|
  ##     while the token is pushed back to the stack.
-Line 240 
 my $is_space = {
+Line 286 
 my $is_space = {
 x0009 => 1, # CHARACTER TABULATION (HT)
 x000A => 1, # LINE FEED (LF)
    #0x000B => 0, # LINE TABULATION (VT)
-x000C => 1, # FORM FEED (FF)
+x000C => 1, # FORM FEED (FF) ## XML5: Not a space character.
    #0x000D => 1, # CARRIAGE RETURN (CR)
 x0020 => 1, # SPACE (SP)
  };
-Line 450 
 sub _get_next_token ($) {
+Line 496 
 sub _get_next_token ($) {
            redo A;
          } elsif ($self->{nc} == 0x0021) { # !
            !!!cp (15.1);
-           $self->{s_kwd} = '<' unless $self->{escape};
+           $self->{s_kwd} = $self->{escaped} ? '' : '<';
            #
          } else {
            !!!cp (16);
+           $self->{s_kwd} = '';
            #
          }
          ## reconsume
          $self->{state} = DATA_STATE;
-         $self->{s_kwd} = '';
          !!!emit ({type => CHARACTER_TOKEN, data => '<',
                    line => $self->{line_prev},
                    column => $self->{column_prev},
-Line 570 
 sub _get_next_token ($) {
+Line 616 
 sub _get_next_token ($) {
        if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
          if (defined $self->{last_stag_name}) {
            $self->{state} = CDATA_RCDATA_CLOSE_TAG_STATE;
-           $self->{s_kwd} = '';
+           $self->{kwd} = '';
            ## Reconsume.
            redo A;
          } else {
-Line 673 
 sub _get_next_token ($) {
+Line 719 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == CDATA_RCDATA_CLOSE_TAG_STATE) {
-       my $ch = substr $self->{last_stag_name}, length $self->{s_kwd}, 1;
+       my $ch = substr $self->{last_stag_name}, length $self->{kwd}, 1;
        if (length $ch) {
          my $CH = $ch;
          $ch =~ tr/a-z/A-Z/;
-Line 681 
 sub _get_next_token ($) {
+Line 727 
 sub _get_next_token ($) {
          if ($nch eq $ch or $nch eq $CH) {
            !!!cp (24);
            ## Stay in the state.
-           $self->{s_kwd} .= $nch;
+           $self->{kwd} .= $nch;
            !!!next-input-character;
            redo A;
          } else {
-Line 690 
 sub _get_next_token ($) {
+Line 736 
 sub _get_next_token ($) {
            $self->{s_kwd} = '';
            ## Reconsume.
            !!!emit ({type => CHARACTER_TOKEN,
-                     data => '</' . $self->{s_kwd},
+                     data => '</' . $self->{kwd},
                      line => $self->{line_prev},
-                     column => $self->{column_prev} - 1 - length $self->{s_kwd},
+                     column => $self->{column_prev} - 1 - length $self->{kwd},
                     });
            redo A;
          }
-Line 708 
 sub _get_next_token ($) {
+Line 754 
 sub _get_next_token ($) {
            $self->{state} = DATA_STATE;
            $self->{s_kwd} = '';
            !!!emit ({type => CHARACTER_TOKEN,
-                     data => '</' . $self->{s_kwd},
+                     data => '</' . $self->{kwd},
                      line => $self->{line_prev},
-                     column => $self->{column_prev} - 1 - length $self->{s_kwd},
+                     column => $self->{column_prev} - 1 - length $self->{kwd},
                     });
            redo A;
          } else {
-Line 719 
 sub _get_next_token ($) {
+Line 765 
 sub _get_next_token ($) {
                = {type => END_TAG_TOKEN,
                   tag_name => $self->{last_stag_name},
                   line => $self->{line_prev},
-                  column => $self->{column_prev} - 1 - length $self->{s_kwd}};
+                  column => $self->{column_prev} - 1 - length $self->{kwd}};
            $self->{state} = TAG_NAME_STATE;
            ## Reconsume.
            redo A;
-Line 1548 
 sub _get_next_token ($) {
+Line 1594 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == BOGUS_COMMENT_STATE) {
-       ## (only happen if PCDATA state)
+       ## XML5: "Bogus comment state" and "DOCTYPE bogus comment state".
        ## NOTE: Unlike spec's "bogus comment state", this implementation
        ## consumes characters one-by-one basis.
        if ($self->{nc} == 0x003E) { # >
-         !!!cp (124);
+         if ($self->{in_subset}) {
-         $self->{state} = DATA_STATE;
+           !!!cp (123);
-         $self->{s_kwd} = '';
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (124);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          !!!next-input-character;
          !!!emit ($self->{ct}); # comment
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (125);
+         if ($self->{in_subset}) {
-         $self->{state} = DATA_STATE;
+           !!!cp (125.1);
-         $self->{s_kwd} = '';
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (125);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          ## reconsume
          !!!emit ($self->{ct}); # comment
-Line 1581 
 sub _get_next_token ($) {
+Line 1637 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == MARKUP_DECLARATION_OPEN_STATE) {
-       ## (only happen if PCDATA state)
+       ## XML5: "Markup declaration state".
        if ($self->{nc} == 0x002D) { # -
          !!!cp (133);
-Line 1593 
 sub _get_next_token ($) {
+Line 1649 
 sub _get_next_token ($) {
          ## ASCII case-insensitive.
          !!!cp (130);
          $self->{state} = MD_DOCTYPE_STATE;
-         $self->{s_kwd} = chr $self->{nc};
+         $self->{kwd} = chr $self->{nc};
          !!!next-input-character;
          redo A;
        } elsif ((($self->{insertion_mode} & IN_FOREIGN_CONTENT_IM and
-Line 1602 
 sub _get_next_token ($) {
+Line 1658 
 sub _get_next_token ($) {
                 $self->{nc} == 0x005B) { # [
          !!!cp (135.4);
          $self->{state} = MD_CDATA_STATE;
-         $self->{s_kwd} = '[';
+         $self->{kwd} = '[';
          !!!next-input-character;
          redo A;
        } else {
-Line 1652 
 sub _get_next_token ($) {
+Line 1708 
 sub _get_next_token ($) {
 x0054, # T
 x0059, # Y
 x0050, # P
-           ]->[length $self->{s_kwd}] or
+           ]->[length $self->{kwd}] or
            $self->{nc} == [
              undef,
 x006F, # o
-Line 1660 
 sub _get_next_token ($) {
+Line 1716 
 sub _get_next_token ($) {
 x0074, # t
 x0079, # y
 x0070, # p
-           ]->[length $self->{s_kwd}]) {
+           ]->[length $self->{kwd}]) {
          !!!cp (131);
          ## Stay in the state.
-         $self->{s_kwd} .= chr $self->{nc};
+         $self->{kwd} .= chr $self->{nc};
          !!!next-input-character;
          redo A;
-       } elsif ((length $self->{s_kwd}) == 6 and
+       } elsif ((length $self->{kwd}) == 6 and
                 ($self->{nc} == 0x0045 or # E
                  $self->{nc} == 0x0065)) { # e
-         if ($self->{s_kwd} ne 'DOCTYP') {
+         if ($self->{is_xml} and
+             ($self->{kwd} ne 'DOCTYP' or $self->{nc} == 0x0065)) {
            !!!cp (129);
            ## XML5: case-sensitive.
            !!!parse-error (type => 'lowercase keyword', ## TODO
-Line 1691 
 sub _get_next_token ($) {
+Line 1748 
 sub _get_next_token ($) {
          !!!cp (132);
          !!!parse-error (type => 'bogus comment',
                          line => $self->{line_prev},
-                         column => $self->{column_prev} - 1 - length $self->{s_kwd});
+                         column => $self->{column_prev} - 1 - length $self->{kwd});
          $self->{state} = BOGUS_COMMENT_STATE;
          ## Reconsume.
          $self->{ct} = {type => COMMENT_TOKEN,
-                                   data => $self->{s_kwd},
+                                   data => $self->{kwd},
                                    line => $self->{line_prev},
-                                   column => $self->{column_prev} - 1 - length $self->{s_kwd},
+                                   column => $self->{column_prev} - 1 - length $self->{kwd},
                                   };
          redo A;
        }
-Line 1708 
 sub _get_next_token ($) {
+Line 1765 
 sub _get_next_token ($) {
              '[CD' => 0x0041, # A
              '[CDA' => 0x0054, # T
              '[CDAT' => 0x0041, # A
-           }->{$self->{s_kwd}}) {
+           }->{$self->{kwd}}) {
          !!!cp (135.1);
          ## Stay in the state.
-         $self->{s_kwd} .= chr $self->{nc};
+         $self->{kwd} .= chr $self->{nc};
          !!!next-input-character;
          redo A;
-       } elsif ($self->{s_kwd} eq '[CDATA' and
+       } elsif ($self->{kwd} eq '[CDATA' and
                 $self->{nc} == 0x005B) { # [
          if ($self->{is_xml} and
              not $self->{tainted} and
-Line 1739 
 sub _get_next_token ($) {
+Line 1796 
 sub _get_next_token ($) {
          !!!cp (135.3);
          !!!parse-error (type => 'bogus comment',
                          line => $self->{line_prev},
-                         column => $self->{column_prev} - 1 - length $self->{s_kwd});
+                         column => $self->{column_prev} - 1 - length $self->{kwd});
          $self->{state} = BOGUS_COMMENT_STATE;
          ## Reconsume.
          $self->{ct} = {type => COMMENT_TOKEN,
-                                   data => $self->{s_kwd},
+                                   data => $self->{kwd},
                                    line => $self->{line_prev},
-                                   column => $self->{column_prev} - 1 - length $self->{s_kwd},
+                                   column => $self->{column_prev} - 1 - length $self->{kwd},
                                   };
          redo A;
        }
-Line 1756 
 sub _get_next_token ($) {
+Line 1813 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
-         !!!cp (138);
          !!!parse-error (type => 'bogus comment');
-         $self->{state} = DATA_STATE;
+         if ($self->{in_subset}) {
-         $self->{s_kwd} = '';
+           !!!cp (138.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (138);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          !!!next-input-character;
          !!!emit ($self->{ct}); # comment
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (139);
          !!!parse-error (type => 'unclosed comment');
-         $self->{state} = DATA_STATE;
+         if ($self->{in_subset}) {
-         $self->{s_kwd} = '';
+           !!!cp (139.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (139);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          ## reconsume
          !!!emit ($self->{ct}); # comment
-Line 1790 
 sub _get_next_token ($) {
+Line 1857 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
-         !!!cp (142);
          !!!parse-error (type => 'bogus comment');
-         $self->{state} = DATA_STATE;
+         if ($self->{in_subset}) {
-         $self->{s_kwd} = '';
+           !!!cp (142.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (142);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          !!!next-input-character;
          !!!emit ($self->{ct}); # comment
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (143);
          !!!parse-error (type => 'unclosed comment');
-         $self->{state} = DATA_STATE;
+         if ($self->{in_subset}) {
-         $self->{s_kwd} = '';
+           !!!cp (143.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (143);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          ## reconsume
          !!!emit ($self->{ct}); # comment
-Line 1818 
 sub _get_next_token ($) {
+Line 1895 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == COMMENT_STATE) {
+       ## XML5: "Comment state" and "DOCTYPE comment state".
        if ($self->{nc} == 0x002D) { # -
          !!!cp (145);
          $self->{state} = COMMENT_END_DASH_STATE;
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (146);
          !!!parse-error (type => 'unclosed comment');
-         $self->{state} = DATA_STATE;
+         if ($self->{in_subset}) {
-         $self->{s_kwd} = '';
+           !!!cp (146.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (146);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          ## reconsume
          !!!emit ($self->{ct}); # comment
-Line 1845 
 sub _get_next_token ($) {
+Line 1929 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == COMMENT_END_DASH_STATE) {
-       ## XML5: "comment dash state".
+       ## XML5: "Comment dash state" and "DOCTYPE comment dash state".
        if ($self->{nc} == 0x002D) { # -
          !!!cp (148);
-Line 1853 
 sub _get_next_token ($) {
+Line 1937 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (149);
          !!!parse-error (type => 'unclosed comment');
-         $self->{s_kwd} = '';
+         if ($self->{in_subset}) {
-         $self->{state} = DATA_STATE;
+           !!!cp (149.1);
-         $self->{s_kwd} = '';
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (149);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          ## reconsume
          !!!emit ($self->{ct}); # comment
-Line 1871 
 sub _get_next_token ($) {
+Line 1959 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == COMMENT_END_STATE) {
+       ## XML5: "Comment end state" and "DOCTYPE comment end state".
        if ($self->{nc} == 0x003E) { # >
-         !!!cp (151);
+         if ($self->{in_subset}) {
-         $self->{state} = DATA_STATE;
+           !!!cp (151.1);
-         $self->{s_kwd} = '';
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (151);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          !!!next-input-character;
          !!!emit ($self->{ct}); # comment
-Line 1891 
 sub _get_next_token ($) {
+Line 1986 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == -1) {
-         !!!cp (153);
          !!!parse-error (type => 'unclosed comment');
-         $self->{state} = DATA_STATE;
+         if ($self->{in_subset}) {
-         $self->{s_kwd} = '';
+           !!!cp (153.1);
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           !!!cp (153);
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          ## reconsume
          !!!emit ($self->{ct}); # comment
-Line 1919 
 sub _get_next_token ($) {
+Line 2019 
 sub _get_next_token ($) {
          redo A;
        } else {
          !!!cp (156);
+         ## XML5: Unless EOF, swith to the bogus comment state.
          !!!parse-error (type => 'no space before DOCTYPE name');
          $self->{state} = BEFORE_DOCTYPE_NAME_STATE;
          ## reconsume
          redo A;
        }
      } elsif ($self->{state} == BEFORE_DOCTYPE_NAME_STATE) {
+       ## XML5: "DOCTYPE root name before state".
        if ($is_space->{$self->{nc}}) {
          !!!cp (157);
          ## Stay in the state
-Line 1932 
 sub _get_next_token ($) {
+Line 2035 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
          !!!cp (158);
+         ## XML5: No parse error.
          !!!parse-error (type => 'no DOCTYPE name');
          $self->{state} = DATA_STATE;
          $self->{s_kwd} = '';
-Line 1950 
 sub _get_next_token ($) {
+Line 2054 
 sub _get_next_token ($) {
          !!!emit ($self->{ct}); # DOCTYPE (quirks)
          redo A;
+       } elsif ($self->{is_xml} and $self->{nc} == 0x005B) { # [
+         !!!cp (159.1);
+         !!!parse-error (type => 'no DOCTYPE name');
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+         $self->{in_subset} = 1;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE
+         redo A;
        } else {
          !!!cp (160);
          $self->{ct}->{name} = chr $self->{nc};
-Line 1959 
 sub _get_next_token ($) {
+Line 2072 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == DOCTYPE_NAME_STATE) {
- ## ISSUE: Redundant "First," in the spec.
+       ## XML5: "DOCTYPE root name state".
+       ## ISSUE: Redundant "First," in the spec.
        if ($is_space->{$self->{nc}}) {
          !!!cp (161);
          $self->{state} = AFTER_DOCTYPE_NAME_STATE;
-Line 1985 
 sub _get_next_token ($) {
+Line 2101 
 sub _get_next_token ($) {
          !!!emit ($self->{ct}); # DOCTYPE
          redo A;
+       } elsif ($self->{is_xml} and $self->{nc} == 0x005B) { # [
+         !!!cp (163.1);
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+         $self->{in_subset} = 1;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE
+         redo A;
        } else {
          !!!cp (164);
          $self->{ct}->{name}
-Line 1994 
 sub _get_next_token ($) {
+Line 2118 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == AFTER_DOCTYPE_NAME_STATE) {
+       ## XML5: Corresponding to XML5's "DOCTYPE root name after
+       ## state", but implemented differently.
        if ($is_space->{$self->{nc}}) {
          !!!cp (165);
          ## Stay in the state
-Line 2021 
 sub _get_next_token ($) {
+Line 2148 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x0050 or # P
                 $self->{nc} == 0x0070) { # p
+         !!!cp (167.1);
          $self->{state} = PUBLIC_STATE;
-         $self->{s_kwd} = chr $self->{nc};
+         $self->{kwd} = chr $self->{nc};
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x0053 or # S
                 $self->{nc} == 0x0073) { # s
+         !!!cp (167.2);
          $self->{state} = SYSTEM_STATE;
-         $self->{s_kwd} = chr $self->{nc};
+         $self->{kwd} = chr $self->{nc};
          !!!next-input-character;
          redo A;
+       } elsif ($self->{is_xml} and $self->{nc} == 0x005B) { # [
+         !!!cp (167.3);
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+         $self->{in_subset} = 1;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE
+         redo A;
        } else {
          !!!cp (180);
          !!!parse-error (type => 'string after DOCTYPE name');
-Line 2048 
 sub _get_next_token ($) {
+Line 2185 
 sub _get_next_token ($) {
 x0042, # B
 x004C, # L
 x0049, # I
-           ]->[length $self->{s_kwd}] or
+           ]->[length $self->{kwd}] or
            $self->{nc} == [
              undef,
 x0075, # u
 x0062, # b
 x006C, # l
 x0069, # i
-           ]->[length $self->{s_kwd}]) {
+           ]->[length $self->{kwd}]) {
          !!!cp (175);
          ## Stay in the state.
-         $self->{s_kwd} .= chr $self->{nc};
+         $self->{kwd} .= chr $self->{nc};
          !!!next-input-character;
          redo A;
-       } elsif ((length $self->{s_kwd}) == 5 and
+       } elsif ((length $self->{kwd}) == 5 and
                 ($self->{nc} == 0x0043 or # C
                  $self->{nc} == 0x0063)) { # c
-         !!!cp (168);
+         if ($self->{is_xml} and
+             ($self->{kwd} ne 'PUBLI' or $self->{nc} == 0x0063)) { # c
+           !!!cp (168.1);
+           !!!parse-error (type => 'lowercase keyword', ## TODO: type
+                           text => 'PUBLIC',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 4);
+         } else {
+           !!!cp (168);
+         }
          $self->{state} = BEFORE_DOCTYPE_PUBLIC_IDENTIFIER_STATE;
          !!!next-input-character;
          redo A;
-Line 2072 
 sub _get_next_token ($) {
+Line 2218 
 sub _get_next_token ($) {
          !!!cp (169);
          !!!parse-error (type => 'string after DOCTYPE name',
                          line => $self->{line_prev},
-                         column => $self->{column_prev} + 1 - length $self->{s_kwd});
+                         column => $self->{column_prev} + 1 - length $self->{kwd});
          $self->{ct}->{quirks} = 1;
          $self->{state} = BOGUS_DOCTYPE_STATE;
-Line 2087 
 sub _get_next_token ($) {
+Line 2233 
 sub _get_next_token ($) {
 x0053, # S
 x0054, # T
 x0045, # E
-           ]->[length $self->{s_kwd}] or
+           ]->[length $self->{kwd}] or
            $self->{nc} == [
              undef,
 x0079, # y
 x0073, # s
 x0074, # t
 x0065, # e
-           ]->[length $self->{s_kwd}]) {
+           ]->[length $self->{kwd}]) {
          !!!cp (170);
          ## Stay in the state.
-         $self->{s_kwd} .= chr $self->{nc};
+         $self->{kwd} .= chr $self->{nc};
          !!!next-input-character;
          redo A;
-       } elsif ((length $self->{s_kwd}) == 5 and
+       } elsif ((length $self->{kwd}) == 5 and
                 ($self->{nc} == 0x004D or # M
                  $self->{nc} == 0x006D)) { # m
-         !!!cp (171);
+         if ($self->{is_xml} and
+             ($self->{kwd} ne 'SYSTE' or $self->{nc} == 0x006D)) { # m
+           !!!cp (171.1);
+           !!!parse-error (type => 'lowercase keyword', ## TODO: type
+                           text => 'SYSTEM',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 4);
+         } else {
+           !!!cp (171);
+         }
          $self->{state} = BEFORE_DOCTYPE_SYSTEM_IDENTIFIER_STATE;
          !!!next-input-character;
          redo A;
-Line 2111 
 sub _get_next_token ($) {
+Line 2266 
 sub _get_next_token ($) {
          !!!cp (172);
          !!!parse-error (type => 'string after DOCTYPE name',
                          line => $self->{line_prev},
-                         column => $self->{column_prev} + 1 - length $self->{s_kwd});
+                         column => $self->{column_prev} + 1 - length $self->{kwd});
          $self->{ct}->{quirks} = 1;
          $self->{state} = BOGUS_DOCTYPE_STATE;
-Line 2160 
 sub _get_next_token ($) {
+Line 2315 
 sub _get_next_token ($) {
          !!!emit ($self->{ct}); # DOCTYPE
          redo A;
+       } elsif ($self->{is_xml} and $self->{nc} == 0x005B) { # [
+         !!!cp (186.1);
+         !!!parse-error (type => 'no PUBLIC literal');
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+         $self->{in_subset} = 1;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE
+         redo A;
        } else {
          !!!cp (186);
          !!!parse-error (type => 'string after PUBLIC');
-Line 2270 
 sub _get_next_token ($) {
+Line 2434 
 sub _get_next_token ($) {
          !!!next-input-character;
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
-         !!!cp (198);
+         if ($self->{is_xml}) {
+           !!!cp (198.1);
+           !!!parse-error (type => 'no SYSTEM literal');
+         } else {
+           !!!cp (198);
+         }
          $self->{state} = DATA_STATE;
          $self->{s_kwd} = '';
          !!!next-input-character;
-Line 2290 
 sub _get_next_token ($) {
+Line 2459 
 sub _get_next_token ($) {
          !!!emit ($self->{ct}); # DOCTYPE
          redo A;
+       } elsif ($self->{is_xml} and $self->{nc} == 0x005B) { # [
+         !!!cp (200.1);
+         !!!parse-error (type => 'no SYSTEM literal');
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+         $self->{in_subset} = 1;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE
+         redo A;
        } else {
          !!!cp (200);
          !!!parse-error (type => 'string after PUBLIC literal');
-Line 2340 
 sub _get_next_token ($) {
+Line 2518 
 sub _get_next_token ($) {
          !!!emit ($self->{ct}); # DOCTYPE
          redo A;
+       } elsif ($self->{is_xml} and $self->{nc} == 0x005B) { # [
+         !!!cp (206.1);
+         !!!parse-error (type => 'no SYSTEM literal');
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+         $self->{in_subset} = 1;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE
+         redo A;
        } else {
          !!!cp (206);
          !!!parse-error (type => 'string after SYSTEM');
-Line 2355 
 sub _get_next_token ($) {
+Line 2543 
 sub _get_next_token ($) {
          $self->{state} = AFTER_DOCTYPE_SYSTEM_IDENTIFIER_STATE;
          !!!next-input-character;
          redo A;
-       } elsif ($self->{nc} == 0x003E) { # >
+       } elsif (not $self->{is_xml} and $self->{nc} == 0x003E) { # >
          !!!cp (208);
          !!!parse-error (type => 'unclosed SYSTEM literal');
-Line 2396 
 sub _get_next_token ($) {
+Line 2584 
 sub _get_next_token ($) {
          $self->{state} = AFTER_DOCTYPE_SYSTEM_IDENTIFIER_STATE;
          !!!next-input-character;
          redo A;
-       } elsif ($self->{nc} == 0x003E) { # >
+       } elsif (not $self->{is_xml} and $self->{nc} == 0x003E) { # >
          !!!cp (212);
          !!!parse-error (type => 'unclosed SYSTEM literal');
-Line 2457 
 sub _get_next_token ($) {
+Line 2645 
 sub _get_next_token ($) {
          !!!emit ($self->{ct}); # DOCTYPE
          redo A;
+       } elsif ($self->{is_xml} and $self->{nc} == 0x005B) { # [
+         !!!cp (218.1);
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+         $self->{in_subset} = 1;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE
+         redo A;
        } else {
          !!!cp (218);
          !!!parse-error (type => 'string after SYSTEM literal');
-Line 2476 
 sub _get_next_token ($) {
+Line 2672 
 sub _get_next_token ($) {
          !!!emit ($self->{ct}); # DOCTYPE
          redo A;
+       } elsif ($self->{is_xml} and $self->{nc} == 0x005B) { # [
+         !!!cp (220.1);
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         $self->{ct}->{has_internal_subset} = 1; # DOCTYPE
+         $self->{in_subset} = 1;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # DOCTYPE
+         redo A;
        } elsif ($self->{nc} == -1) {
          !!!cp (220);
          $self->{state} = DATA_STATE;
-Line 2488 
 sub _get_next_token ($) {
+Line 2692 
 sub _get_next_token ($) {
        } else {
          !!!cp (221);
          my $s = '';
-         $self->{read_until}->($s, q[>], 0);
+         $self->{read_until}->($s, q{>[}, 0);
          ## Stay in the state
          !!!next-input-character;
-Line 2596 
 sub _get_next_token ($) {
+Line 2800 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == 0x0023) { # #
          !!!cp (999);
          $self->{state} = ENTITY_HASH_STATE;
-         $self->{s_kwd} = '#';
+         $self->{kwd} = '#';
          !!!next-input-character;
          redo A;
        } elsif ((0x0041 <= $self->{nc} and
-Line 2606 
 sub _get_next_token ($) {
+Line 2810 
 sub _get_next_token ($) {
          !!!cp (998);
          require Whatpm::_NamedEntityList;
          $self->{state} = ENTITY_NAME_STATE;
-         $self->{s_kwd} = chr $self->{nc};
+         $self->{kwd} = chr $self->{nc};
-         $self->{entity__value} = $self->{s_kwd};
+         $self->{entity__value} = $self->{kwd};
          $self->{entity__match} = 0;
          !!!next-input-character;
          redo A;
-Line 2647 
 sub _get_next_token ($) {
+Line 2851 
 sub _get_next_token ($) {
            $self->{nc} == 0x0058) { # X
          !!!cp (995);
          $self->{state} = HEXREF_X_STATE;
-         $self->{s_kwd} .= chr $self->{nc};
+         $self->{kwd} .= chr $self->{nc};
          !!!next-input-character;
          redo A;
        } elsif (0x0030 <= $self->{nc} and
                 $self->{nc} <= 0x0039) { # 0..9
          !!!cp (994);
          $self->{state} = NCR_NUM_STATE;
-         $self->{s_kwd} = $self->{nc} - 0x0030;
+         $self->{kwd} = $self->{nc} - 0x0030;
          !!!next-input-character;
          redo A;
        } else {
-Line 2690 
 sub _get_next_token ($) {
+Line 2894 
 sub _get_next_token ($) {
        if (0x0030 <= $self->{nc} and
            $self->{nc} <= 0x0039) { # 0..9
          !!!cp (1012);
-         $self->{s_kwd} *= 10;
+         $self->{kwd} *= 10;
-         $self->{s_kwd} += $self->{nc} - 0x0030;
+         $self->{kwd} += $self->{nc} - 0x0030;
          ## Stay in the state.
          !!!next-input-character;
-Line 2707 
 sub _get_next_token ($) {
+Line 2911 
 sub _get_next_token ($) {
          #
        }
-       my $code = $self->{s_kwd};
+       my $code = $self->{kwd};
        my $l = $self->{line_prev};
        my $c = $self->{column_prev};
        if ($charref_map->{$code}) {
-Line 2750 
 sub _get_next_token ($) {
+Line 2954 
 sub _get_next_token ($) {
          # 0..9, A..F, a..f
          !!!cp (990);
          $self->{state} = HEXREF_HEX_STATE;
-         $self->{s_kwd} = 0;
+         $self->{kwd} = 0;
          ## Reconsume.
          redo A;
        } else {
-Line 2768 
 sub _get_next_token ($) {
+Line 2972 
 sub _get_next_token ($) {
            $self->{s_kwd} = '';
            ## Reconsume.
            !!!emit ({type => CHARACTER_TOKEN,
-                     data => '&' . $self->{s_kwd},
+                     data => '&' . $self->{kwd},
                      line => $self->{line_prev},
-                     column => $self->{column_prev} - length $self->{s_kwd},
+                     column => $self->{column_prev} - length $self->{kwd},
                     });
            redo A;
          } else {
            !!!cp (989);
-           $self->{ca}->{value} .= '&' . $self->{s_kwd};
+           $self->{ca}->{value} .= '&' . $self->{kwd};
            $self->{state} = $self->{prev_state};
            $self->{s_kwd} = '';
            ## Reconsume.
-Line 2786 
 sub _get_next_token ($) {
+Line 2990 
 sub _get_next_token ($) {
        if (0x0030 <= $self->{nc} and $self->{nc} <= 0x0039) {
          # 0..9
          !!!cp (1002);
-         $self->{s_kwd} *= 0x10;
+         $self->{kwd} *= 0x10;
-         $self->{s_kwd} += $self->{nc} - 0x0030;
+         $self->{kwd} += $self->{nc} - 0x0030;
          ## Stay in the state.
          !!!next-input-character;
          redo A;
        } elsif (0x0061 <= $self->{nc} and
                 $self->{nc} <= 0x0066) { # a..f
          !!!cp (1003);
-         $self->{s_kwd} *= 0x10;
+         $self->{kwd} *= 0x10;
-         $self->{s_kwd} += $self->{nc} - 0x0060 + 9;
+         $self->{kwd} += $self->{nc} - 0x0060 + 9;
          ## Stay in the state.
          !!!next-input-character;
          redo A;
        } elsif (0x0041 <= $self->{nc} and
                 $self->{nc} <= 0x0046) { # A..F
          !!!cp (1004);
-         $self->{s_kwd} *= 0x10;
+         $self->{kwd} *= 0x10;
-         $self->{s_kwd} += $self->{nc} - 0x0040 + 9;
+         $self->{kwd} += $self->{nc} - 0x0040 + 9;
          ## Stay in the state.
          !!!next-input-character;
          redo A;
-Line 2820 
 sub _get_next_token ($) {
+Line 3024 
 sub _get_next_token ($) {
          #
        }
-       my $code = $self->{s_kwd};
+       my $code = $self->{kwd};
        my $l = $self->{line_prev};
        my $c = $self->{column_prev};
        if ($charref_map->{$code}) {
-Line 2857 
 sub _get_next_token ($) {
+Line 3061 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ENTITY_NAME_STATE) {
-       if (length $self->{s_kwd} < 30 and
+       if (length $self->{kwd} < 30 and
            ## NOTE: Some number greater than the maximum length of entity name
            ((0x0041 <= $self->{nc} and # a
              $self->{nc} <= 0x005A) or # x
-Line 2867 
 sub _get_next_token ($) {
+Line 3071 
 sub _get_next_token ($) {
              $self->{nc} <= 0x0039) or # 9
             $self->{nc} == 0x003B)) { # ;
          our $EntityChar;
-         $self->{s_kwd} .= chr $self->{nc};
+         $self->{kwd} .= chr $self->{nc};
-         if (defined $EntityChar->{$self->{s_kwd}}) {
+         if (defined $EntityChar->{$self->{kwd}}) {
            if ($self->{nc} == 0x003B) { # ;
              !!!cp (1020);
-             $self->{entity__value} = $EntityChar->{$self->{s_kwd}};
+             $self->{entity__value} = $EntityChar->{$self->{kwd}};
              $self->{entity__match} = 1;
              !!!next-input-character;
              #
            } else {
              !!!cp (1021);
-             $self->{entity__value} = $EntityChar->{$self->{s_kwd}};
+             $self->{entity__value} = $EntityChar->{$self->{kwd}};
              $self->{entity__match} = -1;
              ## Stay in the state.
              !!!next-input-character;
-Line 2905 
 sub _get_next_token ($) {
+Line 3109 
 sub _get_next_token ($) {
          if ($self->{prev_state} != DATA_STATE and # in attribute
              $self->{entity__match} < -1) {
            !!!cp (1024);
-           $data = '&' . $self->{s_kwd};
+           $data = '&' . $self->{kwd};
            #
          } else {
            !!!cp (1025);
-Line 2917 
 sub _get_next_token ($) {
+Line 3121 
 sub _get_next_token ($) {
          !!!cp (1026);
          !!!parse-error (type => 'bare ero',
                          line => $self->{line_prev},
-                         column => $self->{column_prev} - length $self->{s_kwd});
+                         column => $self->{column_prev} - length $self->{kwd});
-         $data = '&' . $self->{s_kwd};
+         $data = '&' . $self->{kwd};
          #
        }
-Line 2941 
 sub _get_next_token ($) {
+Line 3145 
 sub _get_next_token ($) {
                    data => $data,
                    has_reference => $has_ref,
                    line => $self->{line_prev},
-                   column => $self->{column_prev} + 1 - length $self->{s_kwd},
+                   column => $self->{column_prev} + 1 - length $self->{kwd},
                   });
          redo A;
        } else {
-Line 2957 
 sub _get_next_token ($) {
+Line 3161 
 sub _get_next_token ($) {
      ## XML-only states
      } elsif ($self->{state} == PI_STATE) {
+       ## XML5: "Pi state" and "DOCTYPE pi state".
        if ($is_space->{$self->{nc}} or
-           $self->{nc} == 0x003F or # ? ## XML5: Same as "Anything else"
+           $self->{nc} == 0x003F or # ?
            $self->{nc} == -1) {
+         ## XML5: U+003F: "pi state": Same as "Anything else"; "DOCTYPE
+         ## pi state": Switch to the "DOCTYPE pi after state".  EOF:
+         ## "DOCTYPE pi state": Parse error, switch to the "data
+         ## state".
          !!!parse-error (type => 'bare pio', ## TODO: type
                          line => $self->{line_prev},
                          column => $self->{column_prev}
-Line 2974 
 sub _get_next_token ($) {
+Line 3184 
 sub _get_next_token ($) {
                        };
          redo A;
        } else {
+         ## XML5: "DOCTYPE pi state": Stay in the state.
          $self->{ct} = {type => PI_TOKEN,
                         target => chr $self->{nc},
                         data => '',
-Line 2991 
 sub _get_next_token ($) {
+Line 3202 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == -1) {
          !!!parse-error (type => 'no pic'); ## TODO: type
-         $self->{state} = DATA_STATE;
+         if ($self->{in_subset}) {
-         $self->{s_kwd} = '';
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          ## Reconsume.
          !!!emit ($self->{ct}); # pi
          redo A;
-Line 3023 
 sub _get_next_token ($) {
+Line 3238 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == -1) {
          !!!parse-error (type => 'no pic'); ## TODO: type
-         $self->{state} = DATA_STATE;
+         if ($self->{in_subset}) {
-         $self->{s_kwd} = '';
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state"
+         } else {
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          ## Reprocess.
          !!!emit ($self->{ct}); # pi
          redo A;
-Line 3038 
 sub _get_next_token ($) {
+Line 3257 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == PI_AFTER_STATE) {
+       ## XML5: Part of "Pi after state".
        if ($self->{nc} == 0x003E) { # >
-         $self->{state} = DATA_STATE;
+         if ($self->{in_subset}) {
-         $self->{s_kwd} = '';
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          !!!next-input-character;
          !!!emit ($self->{ct}); # pi
          redo A;
-Line 3063 
 sub _get_next_token ($) {
+Line 3288 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == PI_DATA_AFTER_STATE) {
-       ## XML5: Same as "pi after state" in XML5
+       ## XML5: Same as "pi after state" and "DOCTYPE pi after state".
        if ($self->{nc} == 0x003E) { # >
-         $self->{state} = DATA_STATE;
+         if ($self->{in_subset}) {
-         $self->{s_kwd} = '';
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
          !!!next-input-character;
          !!!emit ($self->{ct}); # pi
          redo A;
-Line 3081 
 sub _get_next_token ($) {
+Line 3311 
 sub _get_next_token ($) {
          ## Reprocess.
          redo A;
        }
+     } elsif ($self->{state} == DOCTYPE_INTERNAL_SUBSET_STATE) {
+       if ($self->{nc} == 0x003C) { # <
+         $self->{state} = DOCTYPE_TAG_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0025) { # %
+         ## XML5: Not defined yet.
+         ## TODO:
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x005D) { # ]
+         delete $self->{in_subset};
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_AFTER_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed internal subset'); ## TODO: type
+         delete $self->{in_subset};
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         ## Reconsume.
+         !!!emit ({type => END_OF_DOCTYPE_TOKEN});
+         redo A;
+       } else {
+         unless ($self->{internal_subset_tainted}) {
+           ## XML5: No parse error.
+           !!!parse-error (type => 'string in internal subset');
+           $self->{internal_subset_tainted} = 1;
+         }
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_INTERNAL_SUBSET_AFTER_STATE) {
+       if ($self->{nc} == 0x003E) { # >
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         !!!next-input-character;
+         !!!emit ({type => END_OF_DOCTYPE_TOKEN});
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed DOCTYPE');
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         ## Reconsume.
+         !!!emit ({type => END_OF_DOCTYPE_TOKEN});
+         redo A;
+       } else {
+         ## XML5: No parse error and stay in the state.
+         !!!parse-error (type => 'string after internal subset'); ## TODO: type
+         $self->{state} = BOGUS_DOCTYPE_INTERNAL_SUBSET_AFTER_STATE;
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == BOGUS_DOCTYPE_INTERNAL_SUBSET_AFTER_STATE) {
+       if ($self->{nc} == 0x003E) { # >
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         !!!next-input-character;
+         !!!emit ({type => END_OF_DOCTYPE_TOKEN});
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         ## Reconsume.
+         !!!emit ({type => END_OF_DOCTYPE_TOKEN});
+         redo A;
+       } else {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_TAG_STATE) {
+       if ($self->{nc} == 0x0021) { # !
+         $self->{state} = DOCTYPE_MARKUP_DECLARATION_OPEN_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003F) { # ?
+         $self->{state} = PI_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'bare stago');
+         $self->{state} = DATA_STATE;
+         $self->{s_kwd} = '';
+         ## Reconsume.
+         redo A;
+       } else {
+         !!!parse-error (type => 'bare stago', ## XML5: Not a parse error.
+                         line => $self->{line_prev},
+                         column => $self->{column_prev});
+         $self->{state} = BOGUS_COMMENT_STATE;
+         $self->{ct} = {type => COMMENT_TOKEN,
+                        data => '',
+                       }; ## NOTE: Will be discarded.
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_MARKUP_DECLARATION_OPEN_STATE) {
+       ## XML5: "DOCTYPE markup declaration state".
+       if ($self->{nc} == 0x002D) { # -
+         $self->{state} = MD_HYPHEN_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0045) { # E
+         $self->{state} = MD_E_STATE;
+         $self->{kwd} = chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x0041) { # A
+         $self->{state} = MD_ATTLIST_STATE;
+         $self->{kwd} = chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x004E) { # N
+         $self->{state} = MD_NOTATION_STATE;
+         $self->{kwd} = chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } else {
+         #
+       }
+       ## XML5: No parse error.
+       !!!parse-error (type => 'bogus comment',
+                       line => $self->{line_prev},
+                       column => $self->{column_prev} - 1);
+       ## Reconsume.
+       $self->{state} = BOGUS_COMMENT_STATE;
+       $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded.
+       redo A;
+     } elsif ($self->{state} == MD_E_STATE) {
+       if ($self->{nc} == 0x004E) { # N
+         $self->{state} = MD_ENTITY_STATE;
+         $self->{kwd} .= chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x004C) { # L
+         ## XML5: <!ELEMENT> not supported.
+         $self->{state} = MD_ELEMENT_STATE;
+         $self->{kwd} .= chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } else {
+         ## XML5: No parse error.
+         !!!parse-error (type => 'bogus comment',
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} - 2
+                             + 1 * ($self->{nc} == -1));
+         ## Reconsume.
+         $self->{state} = BOGUS_COMMENT_STATE;
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         redo A;
+       }
+     } elsif ($self->{state} == MD_ENTITY_STATE) {
+       if ($self->{nc} == {
+             'EN' => 0x0054, # T
+             'ENT' => 0x0049, # I
+             'ENTI' => 0x0054, # T
+           }->{$self->{kwd}}) {
+         ## Stay in the state.
+         $self->{kwd} .= chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{kwd} eq 'ENTIT' and
+                $self->{nc} == 0x0059) { # Y
+         $self->{ct} = {type => GENERAL_ENTITY_TOKEN, name => '', text => '',
+                        line => $self->{line_prev},
+                        column => $self->{column_prev} - 6};
+         $self->{state} = DOCTYPE_MD_STATE;
+         !!!next-input-character;
+         redo A;
+       } else {
+         !!!parse-error (type => 'bogus comment',
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} - 1
+                             - (length $self->{kwd})
+                             + 1 * ($self->{nc} == -1));
+         $self->{state} = BOGUS_COMMENT_STATE;
+         ## Reconsume.
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         redo A;
+       }
+     } elsif ($self->{state} == MD_ELEMENT_STATE) {
+       if ($self->{nc} == {
+             'EL' => 0x0045, # E
+             'ELE' => 0x004D, # M
+             'ELEM' => 0x0045, # E
+             'ELEME' => 0x004E, # N
+           }->{$self->{kwd}}) {
+         ## Stay in the state.
+         $self->{kwd} .= chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{kwd} eq 'ELEMEN' and
+                $self->{nc} == 0x0054) { # T
+         $self->{ct} = {type => ELEMENT_TOKEN, name => '',
+                        line => $self->{line_prev},
+                        column => $self->{column_prev} - 6};
+         $self->{state} = DOCTYPE_MD_STATE;
+         !!!next-input-character;
+         redo A;
+       } else {
+         !!!parse-error (type => 'bogus comment',
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} - 1
+                             - (length $self->{kwd})
+                             + 1 * ($self->{nc} == -1));
+         $self->{state} = BOGUS_COMMENT_STATE;
+         ## Reconsume.
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         redo A;
+       }
+     } elsif ($self->{state} == MD_ATTLIST_STATE) {
+       if ($self->{nc} == {
+             'A' => 0x0054, # T
+             'AT' => 0x0054, # T
+             'ATT' => 0x004C, # L
+             'ATTL' => 0x0049, # I
+             'ATTLI' => 0x0053, # S
+           }->{$self->{kwd}}) {
+         ## Stay in the state.
+         $self->{kwd} .= chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{kwd} eq 'ATTLIS' and
+                $self->{nc} == 0x0054) { # T
+         $self->{ct} = {type => ATTLIST_TOKEN, name => '',
+                        line => $self->{line_prev},
+                        column => $self->{column_prev} - 6};
+         $self->{state} = DOCTYPE_MD_STATE;
+         !!!next-input-character;
+         redo A;
+       } else {
+         !!!parse-error (type => 'bogus comment',
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} - 1
+                              - (length $self->{kwd})
+                              + 1 * ($self->{nc} == -1));
+         $self->{state} = BOGUS_COMMENT_STATE;
+         ## Reconsume.
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         redo A;
+       }
+     } elsif ($self->{state} == MD_NOTATION_STATE) {
+       if ($self->{nc} == {
+             'N' => 0x004F, # O
+             'NO' => 0x0054, # T
+             'NOT' => 0x0041, # A
+             'NOTA' => 0x0054, # T
+             'NOTAT' => 0x0049, # I
+             'NOTATI' => 0x004F, # O
+           }->{$self->{kwd}}) {
+         ## Stay in the state.
+         $self->{kwd} .= chr $self->{nc};
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{kwd} eq 'NOTATIO' and
+                $self->{nc} == 0x004E) { # N
+         $self->{ct} = {type => NOTATION_TOKEN, name => '',
+                        line => $self->{line_prev},
+                        column => $self->{column_prev} - 6};
+         $self->{state} = DOCTYPE_MD_STATE;
+         !!!next-input-character;
+         redo A;
+       } else {
+         !!!parse-error (type => 'bogus comment',
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} - 1
+                             - (length $self->{kwd})
+                             + 1 * ($self->{nc} == -1));
+         $self->{state} = BOGUS_COMMENT_STATE;
+         ## Reconsume.
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_MD_STATE) {
+       ## XML5: "DOCTYPE ENTITY state", "DOCTYPE ATTLIST state", and
+       ## "DOCTYPE NOTATION state".
+       if ($is_space->{$self->{nc}}) {
+         ## XML5: [NOTATION] Switch to the "DOCTYPE NOTATION identifier state".
+         $self->{state} = BEFORE_MD_NAME_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{ct}->{type} == GENERAL_ENTITY_TOKEN and
+                $self->{nc} == 0x0025) { # %
+         ## XML5: Switch to the "DOCTYPE bogus comment state".
+         !!!parse-error (type => 'no space before md name'); ## TODO: type
+         $self->{state} = DOCTYPE_ENTITY_PARAMETER_BEFORE_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         ## Reconsume.
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         ## XML5: Switch to the "DOCTYPE bogus comment state".
+         !!!parse-error (type => 'no md name'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         redo A;
+       } else {
+         ## XML5: Switch to the "DOCTYPE bogus comment state".
+         !!!parse-error (type => 'no space before md name'); ## TODO: type
+         $self->{state} = BEFORE_MD_NAME_STATE;
+         redo A;
+       }
+     } elsif ($self->{state} == BEFORE_MD_NAME_STATE) {
+       ## XML5: "DOCTYPE ENTITY parameter state", "DOCTYPE ENTITY type
+       ## before state", "DOCTYPE ATTLIST name before state".
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{ct}->{type} == GENERAL_ENTITY_TOKEN and
+                $self->{nc} == 0x0025) { # %
+         $self->{state} = DOCTYPE_ENTITY_PARAMETER_BEFORE_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         ## XML5: Same as "Anything else".
+         !!!parse-error (type => 'no md name'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         ## Reconsume.
+         redo A;
+       } else {
+         ## XML5: [ATTLIST] Not defined yet.
+         $self->{ct}->{name} .= chr $self->{nc};
+         $self->{state} = MD_NAME_STATE;
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_ENTITY_PARAMETER_BEFORE_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## XML5: Switch to the "DOCTYPE ENTITY parameter state".
+         $self->{ct}->{type} = PARAMETER_ENTITY_TOKEN;
+         $self->{state} = BEFORE_MD_NAME_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         ## XML5: Same as "Anything else".
+         !!!parse-error (type => 'no md name'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         !!!parse-error (type => 'unclosed md');
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         ## Reconsume.
+         redo A;
+       } else {
+         ## XML5: No parse error.
+         !!!parse-error (type => 'no space after ENTITY percent'); ## TODO: type
+         $self->{state} = BOGUS_COMMENT_STATE;
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         ## Reconsume.
+         redo A;
+       }
+     } elsif ($self->{state} == MD_NAME_STATE) {
+       ## XML5: "DOCTYPE ENTITY name state" and "DOCTYPE ATTLIST name state".
+       if ($is_space->{$self->{nc}}) {
+         ## TODO:
+         $self->{state} = DOCTYPE_ATTLIST_NAME_AFTER_STATE;
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         if ($self->{ct}->{type} == ATTLIST_TOKEN) {
+           #
+         } else {
+           !!!parse-error (type => 'no md body'); ## TODO: type
+         }
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ELEMENT/ENTITY/ATTLIST/NOTATION
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         ## XML5: [ATTLIST] No parse error.
+         !!!parse-error (type => 'unclosed md');
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         ## Reconsume.
+         !!!emit ($self->{ct}); # ELEMENT/ENTITY/ATTLIST/NOTATION
+         redo A;
+       } else {
+         ## XML5: [ATTLIST] Not defined yet.
+         $self->{ct}->{name} .= chr $self->{nc};
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_ATTLIST_NAME_AFTER_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+         !!!next-input-character;
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         !!!next-input-character;
+         !!!emit ($self->{ct}); # ATTLIST
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         ## XML5: No parse error.
+         !!!parse-error (type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         redo A;
+       } else {
+         ## XML5: Not defined yet.
+         ## TODO: ...
+         $self->{state} = BOGUS_COMMENT_STATE;
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         ## Reconsume.
+         redo A;
+       }
      } else {
        die "$0: $self->{state}: Unknown state";
      }

 Legend:



Removed from v.1.11
 


changed lines


 
Added in v.1.14
 Legend:



Removed from v.1.11
 


changed lines


 
Added in v.1.14
-Removed from v.1.11
+Added in v.1.14

admin@suikawiki.org	ViewVC Help
Powered by ViewVC 1.1.24