/[suikacvs]/markup/html/whatpm/Whatpm/HTML/Tokenizer.pm

Diff of /markup/html/whatpm/Whatpm/HTML/Tokenizer.pm

Parent Directory | Revision Log | View Patch Patch

-revision 1.13 by wakaba,
Thu Oct 16 03:39:57 2008 UTC
+revision 1.14 by wakaba,
Fri Oct 17 07:14:29 2008 UTC
 Line 16 
 BEGIN {
      PI_TOKEN
      ABORT_TOKEN
      END_OF_DOCTYPE_TOKEN
+     ATTLIST_TOKEN
+     ELEMENT_TOKEN
+     GENERAL_ENTITY_TOKEN
+     PARAMETER_ENTITY_TOKEN
+     NOTATION_TOKEN
    );
    our %EXPORT_TAGS = (
-Line 29 
 BEGIN {
+Line 34 
 BEGIN {
        PI_TOKEN
        ABORT_TOKEN
        END_OF_DOCTYPE_TOKEN
+       ATTLIST_TOKEN
+       ELEMENT_TOKEN
+       GENERAL_ENTITY_TOKEN
+       PARAMETER_ENTITY_TOKEN
+       NOTATION_TOKEN
      )],
    );
  }
-Line 45 
 sub END_OF_FILE_TOKEN () { 5 }
+Line 55 
 sub END_OF_FILE_TOKEN () { 5 }
  sub CHARACTER_TOKEN () { 6 }
  sub PI_TOKEN () { 7 } ## NOTE: XML only.
  sub ABORT_TOKEN () { 8 } ## NOTE: For internal processing.
- sub END_OF_DOCTYPE_TOKEN () { 9 } ## NOTE: XML only
+ sub END_OF_DOCTYPE_TOKEN () { 9 } ## NOTE: XML only.
+ sub ATTLIST_TOKEN () { 10 } ## NOTE: XML only.
+ sub ELEMENT_TOKEN () { 11 } ## NOTE: XML only.
+ sub GENERAL_ENTITY_TOKEN () { 12 } ## NOTE: XML only.
+ sub PARAMETER_ENTITY_TOKEN () { 13 } ## NOTE: XML only.
+ sub NOTATION_TOKEN () { 14 } ## NOTE: XML only.
  ## XML5: XML5 has "empty tag token".  In this implementation, it is
  ## represented as a start tag token with $self->{self_closing} flag
-Line 136 
 sub PI_AFTER_STATE () { 55 }
+Line 151 
 sub PI_AFTER_STATE () { 55 }
  sub PI_DATA_AFTER_STATE () { 56 }
  sub DOCTYPE_INTERNAL_SUBSET_STATE () { 57 }
  sub DOCTYPE_INTERNAL_SUBSET_AFTER_STATE () { 58 }
- sub DOCTYPE_TAG_STATE () { 59 }
+ sub BOGUS_DOCTYPE_INTERNAL_SUBSET_AFTER_STATE () { 59 }
- sub BOGUS_DOCTYPE_INTERNAL_SUBSET_AFTER_STATE () { 60 }
+ sub DOCTYPE_TAG_STATE () { 60 }
+ sub DOCTYPE_MARKUP_DECLARATION_OPEN_STATE () { 61 }
+ sub MD_ATTLIST_STATE () { 62 }
+ sub MD_E_STATE () { 63 }
+ sub MD_ELEMENT_STATE () { 64 }
+ sub MD_ENTITY_STATE () { 65 }
+ sub MD_NOTATION_STATE () { 66 }
+ sub DOCTYPE_MD_STATE () { 67 }
+ sub BEFORE_MD_NAME_STATE () { 68 }
+ sub MD_NAME_STATE () { 69 }
+ sub DOCTYPE_ENTITY_PARAMETER_BEFORE_STATE () { 70 }
+ sub DOCTYPE_ATTLIST_NAME_AFTER_STATE () { 71 }
  ## Tree constructor state constants (see Whatpm::HTML for the full
  ## list and descriptions)
-Line 2188 
 sub _get_next_token ($) {
+Line 2214 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == BOGUS_COMMENT_STATE) {
+       ## XML5: "Bogus comment state" and "DOCTYPE bogus comment state".
        ## NOTE: Unlike spec's "bogus comment state", this implementation
        ## consumes characters one-by-one basis.
-Line 2249 
 sub _get_next_token ($) {
+Line 2277 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == MARKUP_DECLARATION_OPEN_STATE) {
-       ## XML5: "Markup declaration state" and "DOCTYPE markup
+       ## XML5: "Markup declaration state".
-       ## declaration state".
        if ($self->{nc} == 0x002D) { # -
-Line 2648 
 sub _get_next_token ($) {
+Line 2675 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == COMMENT_STATE) {
+       ## XML5: "Comment state" and "DOCTYPE comment state".
        if ($self->{nc} == 0x002D) { # -
          $self->{state} = COMMENT_END_DASH_STATE;
-Line 2700 
 sub _get_next_token ($) {
+Line 2729 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == COMMENT_END_DASH_STATE) {
-       ## XML5: "comment dash state".
+       ## XML5: "Comment dash state" and "DOCTYPE comment dash state".
        if ($self->{nc} == 0x002D) { # -
-Line 2750 
 sub _get_next_token ($) {
+Line 2779 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == COMMENT_END_STATE) {
+       ## XML5: "Comment end state" and "DOCTYPE comment end state".
        if ($self->{nc} == 0x003E) { # >
          if ($self->{in_subset}) {
-Line 4720 
 sub _get_next_token ($) {
+Line 4751 
 sub _get_next_token ($) {
      ## XML-only states
      } elsif ($self->{state} == PI_STATE) {
+       ## XML5: "Pi state" and "DOCTYPE pi state".
        if ($is_space->{$self->{nc}} or
-           $self->{nc} == 0x003F or # ? ## XML5: Same as "Anything else"
+           $self->{nc} == 0x003F or # ?
            $self->{nc} == -1) {
+         ## XML5: U+003F: "pi state": Same as "Anything else"; "DOCTYPE
+         ## pi state": Switch to the "DOCTYPE pi after state".  EOF:
+         ## "DOCTYPE pi state": Parse error, switch to the "data
+         ## state".
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'bare pio', ## TODO: type
                          line => $self->{line_prev},
                          column => $self->{column_prev}
-Line 4737 
 sub _get_next_token ($) {
+Line 4774 
 sub _get_next_token ($) {
                        };
          redo A;
        } else {
+         ## XML5: "DOCTYPE pi state": Stay in the state.
          $self->{ct} = {type => PI_TOKEN,
                         target => chr $self->{nc},
                         data => '',
-Line 4851 
 sub _get_next_token ($) {
+Line 4889 
 sub _get_next_token ($) {
        } elsif ($self->{nc} == -1) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'no pic'); ## TODO: type
          if ($self->{in_subset}) {
-           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state"
          } else {
            $self->{state} = DATA_STATE;
            $self->{s_kwd} = '';
-Line 4879 
 sub _get_next_token ($) {
+Line 4917 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == PI_AFTER_STATE) {
+       ## XML5: Part of "Pi after state".
        if ($self->{nc} == 0x003E) { # >
          if ($self->{in_subset}) {
            $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
-Line 4928 
 sub _get_next_token ($) {
+Line 4968 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == PI_DATA_AFTER_STATE) {
-       ## XML5: Same as "pi after state" in XML5
+       ## XML5: Same as "pi after state" and "DOCTYPE pi after state".
        if ($self->{nc} == 0x003E) { # >
          if ($self->{in_subset}) {
            $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
-Line 5141 
 sub _get_next_token ($) {
+Line 5182 
 sub _get_next_token ($) {
        }
      } elsif ($self->{state} == DOCTYPE_TAG_STATE) {
        if ($self->{nc} == 0x0021) { # !
-         $self->{state} = MARKUP_DECLARATION_OPEN_STATE;
+         $self->{state} = DOCTYPE_MARKUP_DECLARATION_OPEN_STATE;
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 5195 
 sub _get_next_token ($) {
+Line 5236 
 sub _get_next_token ($) {
          redo A;
        }
+     } elsif ($self->{state} == DOCTYPE_MARKUP_DECLARATION_OPEN_STATE) {
+       ## XML5: "DOCTYPE markup declaration state".
+       if ($self->{nc} == 0x002D) { # -
+         $self->{state} = MD_HYPHEN_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x0045) { # E
+         $self->{state} = MD_E_STATE;
+         $self->{kwd} = chr $self->{nc};
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x0041) { # A
+         $self->{state} = MD_ATTLIST_STATE;
+         $self->{kwd} = chr $self->{nc};
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x004E) { # N
+         $self->{state} = MD_NOTATION_STATE;
+         $self->{kwd} = chr $self->{nc};
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } else {
+         #
+       }
+       ## XML5: No parse error.
+       $self->{parse_error}->(level => $self->{level}->{must}, type => 'bogus comment',
+                       line => $self->{line_prev},
+                       column => $self->{column_prev} - 1);
+       ## Reconsume.
+       $self->{state} = BOGUS_COMMENT_STATE;
+       $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded.
+       redo A;
+     } elsif ($self->{state} == MD_E_STATE) {
+       if ($self->{nc} == 0x004E) { # N
+         $self->{state} = MD_ENTITY_STATE;
+         $self->{kwd} .= chr $self->{nc};
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x004C) { # L
+         ## XML5: <!ELEMENT> not supported.
+         $self->{state} = MD_ELEMENT_STATE;
+         $self->{kwd} .= chr $self->{nc};
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } else {
+         ## XML5: No parse error.
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'bogus comment',
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} - 2
+                             + 1 * ($self->{nc} == -1));
+         ## Reconsume.
+         $self->{state} = BOGUS_COMMENT_STATE;
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         redo A;
+       }
+     } elsif ($self->{state} == MD_ENTITY_STATE) {
+       if ($self->{nc} == {
+             'EN' => 0x0054, # T
+             'ENT' => 0x0049, # I
+             'ENTI' => 0x0054, # T
+           }->{$self->{kwd}}) {
+         ## Stay in the state.
+         $self->{kwd} .= chr $self->{nc};
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{kwd} eq 'ENTIT' and
+                $self->{nc} == 0x0059) { # Y
+         $self->{ct} = {type => GENERAL_ENTITY_TOKEN, name => '', text => '',
+                        line => $self->{line_prev},
+                        column => $self->{column_prev} - 6};
+         $self->{state} = DOCTYPE_MD_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } else {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'bogus comment',
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} - 1
+                             - (length $self->{kwd})
+                             + 1 * ($self->{nc} == -1));
+         $self->{state} = BOGUS_COMMENT_STATE;
+         ## Reconsume.
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         redo A;
+       }
+     } elsif ($self->{state} == MD_ELEMENT_STATE) {
+       if ($self->{nc} == {
+             'EL' => 0x0045, # E
+             'ELE' => 0x004D, # M
+             'ELEM' => 0x0045, # E
+             'ELEME' => 0x004E, # N
+           }->{$self->{kwd}}) {
+         ## Stay in the state.
+         $self->{kwd} .= chr $self->{nc};
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{kwd} eq 'ELEMEN' and
+                $self->{nc} == 0x0054) { # T
+         $self->{ct} = {type => ELEMENT_TOKEN, name => '',
+                        line => $self->{line_prev},
+                        column => $self->{column_prev} - 6};
+         $self->{state} = DOCTYPE_MD_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } else {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'bogus comment',
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} - 1
+                             - (length $self->{kwd})
+                             + 1 * ($self->{nc} == -1));
+         $self->{state} = BOGUS_COMMENT_STATE;
+         ## Reconsume.
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         redo A;
+       }
+     } elsif ($self->{state} == MD_ATTLIST_STATE) {
+       if ($self->{nc} == {
+             'A' => 0x0054, # T
+             'AT' => 0x0054, # T
+             'ATT' => 0x004C, # L
+             'ATTL' => 0x0049, # I
+             'ATTLI' => 0x0053, # S
+           }->{$self->{kwd}}) {
+         ## Stay in the state.
+         $self->{kwd} .= chr $self->{nc};
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{kwd} eq 'ATTLIS' and
+                $self->{nc} == 0x0054) { # T
+         $self->{ct} = {type => ATTLIST_TOKEN, name => '',
+                        line => $self->{line_prev},
+                        column => $self->{column_prev} - 6};
+         $self->{state} = DOCTYPE_MD_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } else {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'bogus comment',
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} - 1
+                              - (length $self->{kwd})
+                              + 1 * ($self->{nc} == -1));
+         $self->{state} = BOGUS_COMMENT_STATE;
+         ## Reconsume.
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         redo A;
+       }
+     } elsif ($self->{state} == MD_NOTATION_STATE) {
+       if ($self->{nc} == {
+             'N' => 0x004F, # O
+             'NO' => 0x0054, # T
+             'NOT' => 0x0041, # A
+             'NOTA' => 0x0054, # T
+             'NOTAT' => 0x0049, # I
+             'NOTATI' => 0x004F, # O
+           }->{$self->{kwd}}) {
+         ## Stay in the state.
+         $self->{kwd} .= chr $self->{nc};
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{kwd} eq 'NOTATIO' and
+                $self->{nc} == 0x004E) { # N
+         $self->{ct} = {type => NOTATION_TOKEN, name => '',
+                        line => $self->{line_prev},
+                        column => $self->{column_prev} - 6};
+         $self->{state} = DOCTYPE_MD_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } else {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'bogus comment',
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} - 1
+                             - (length $self->{kwd})
+                             + 1 * ($self->{nc} == -1));
+         $self->{state} = BOGUS_COMMENT_STATE;
+         ## Reconsume.
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_MD_STATE) {
+       ## XML5: "DOCTYPE ENTITY state", "DOCTYPE ATTLIST state", and
+       ## "DOCTYPE NOTATION state".
+       if ($is_space->{$self->{nc}}) {
+         ## XML5: [NOTATION] Switch to the "DOCTYPE NOTATION identifier state".
+         $self->{state} = BEFORE_MD_NAME_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{ct}->{type} == GENERAL_ENTITY_TOKEN and
+                $self->{nc} == 0x0025) { # %
+         ## XML5: Switch to the "DOCTYPE bogus comment state".
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no space before md name'); ## TODO: type
+         $self->{state} = DOCTYPE_ENTITY_PARAMETER_BEFORE_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         ## Reconsume.
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         ## XML5: Switch to the "DOCTYPE bogus comment state".
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no md name'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } else {
+         ## XML5: Switch to the "DOCTYPE bogus comment state".
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no space before md name'); ## TODO: type
+         $self->{state} = BEFORE_MD_NAME_STATE;
+         redo A;
+       }
+     } elsif ($self->{state} == BEFORE_MD_NAME_STATE) {
+       ## XML5: "DOCTYPE ENTITY parameter state", "DOCTYPE ENTITY type
+       ## before state", "DOCTYPE ATTLIST name before state".
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{ct}->{type} == GENERAL_ENTITY_TOKEN and
+                $self->{nc} == 0x0025) { # %
+         $self->{state} = DOCTYPE_ENTITY_PARAMETER_BEFORE_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         ## XML5: Same as "Anything else".
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no md name'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         ## Reconsume.
+         redo A;
+       } else {
+         ## XML5: [ATTLIST] Not defined yet.
+         $self->{ct}->{name} .= chr $self->{nc};
+         $self->{state} = MD_NAME_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_ENTITY_PARAMETER_BEFORE_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## XML5: Switch to the "DOCTYPE ENTITY parameter state".
+         $self->{ct}->{type} = PARAMETER_ENTITY_TOKEN;
+         $self->{state} = BEFORE_MD_NAME_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         ## XML5: Same as "Anything else".
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no md name'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed md');
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         ## Reconsume.
+         redo A;
+       } else {
+         ## XML5: No parse error.
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no space after ENTITY percent'); ## TODO: type
+         $self->{state} = BOGUS_COMMENT_STATE;
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         ## Reconsume.
+         redo A;
+       }
+     } elsif ($self->{state} == MD_NAME_STATE) {
+       ## XML5: "DOCTYPE ENTITY name state" and "DOCTYPE ATTLIST name state".
+       if ($is_space->{$self->{nc}}) {
+         ## TODO:
+         $self->{state} = DOCTYPE_ATTLIST_NAME_AFTER_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         if ($self->{ct}->{type} == ATTLIST_TOKEN) {
+           #
+         } else {
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'no md body'); ## TODO: type
+         }
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ELEMENT/ENTITY/ATTLIST/NOTATION
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         ## XML5: [ATTLIST] No parse error.
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed md');
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         ## Reconsume.
+         return  ($self->{ct}); # ELEMENT/ENTITY/ATTLIST/NOTATION
+         redo A;
+       } else {
+         ## XML5: [ATTLIST] Not defined yet.
+         $self->{ct}->{name} .= chr $self->{nc};
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_ATTLIST_NAME_AFTER_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ATTLIST
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         ## XML5: No parse error.
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE; ## XML5: "Data state".
+         redo A;
+       } else {
+         ## XML5: Not defined yet.
+         ## TODO: ...
+         $self->{state} = BOGUS_COMMENT_STATE;
+         $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded
+         ## Reconsume.
+         redo A;
+       }
      } else {
        die "$0: $self->{state}: Unknown state";
      }

 Legend:



Removed from v.1.13
 


changed lines


 
Added in v.1.14
 Legend:



Removed from v.1.13
 


changed lines


 
Added in v.1.14
-Removed from v.1.13
+Added in v.1.14

admin@suikawiki.org	ViewVC Help
Powered by ViewVC 1.1.24