/[suikacvs]/markup/html/whatpm/Whatpm/HTML/Tokenizer.pm

Diff of /markup/html/whatpm/Whatpm/HTML/Tokenizer.pm

Parent Directory | Revision Log | View Patch Patch

-revision 1.16 by wakaba,
Sat Oct 18 11:34:49 2008 UTC
+revision 1.19 by wakaba,
Sun Oct 19 07:19:00 2008 UTC
 Line 177 
 sub DOCTYPE_ATTLIST_ATTRIBUTE_DECLARATIO
  sub DOCTYPE_ATTLIST_ATTRIBUTE_DECLARATION_STATE () { 82 }
  sub DOCTYPE_ATTLIST_ATTRIBUTE_DECLARATION_AFTER_STATE () { 83 }
  sub AFTER_ATTLIST_ATTR_VALUE_QUOTED_STATE () { 84 }
- sub BOGUS_MD_STATE () { 85 }
+ sub BEFORE_NDATA_STATE () { 85 }
+ sub NDATA_STATE () { 86 }
+ sub AFTER_NDATA_STATE () { 87 }
+ sub BEFORE_NOTATION_NAME_STATE () { 88 }
+ sub NOTATION_NAME_STATE () { 89 }
+ sub AFTER_NOTATION_NAME_STATE () { 90 }
+ sub DOCTYPE_ENTITY_VALUE_DOUBLE_QUOTED_STATE () { 91 }
+ sub DOCTYPE_ENTITY_VALUE_SINGLE_QUOTED_STATE () { 92 }
+ sub ENTITY_VALUE_ENTITY_STATE () { 93 }
+ sub BOGUS_MD_STATE () { 94 }
  ## Tree constructor state constants (see Whatpm::HTML for the full
  ## list and descriptions)
-Line 3256 
 sub _get_next_token ($) {
+Line 3265 
 sub _get_next_token ($) {
      }
          redo A;
- ## TODO: " and ' for ENTITY
+       } elsif ($self->{nc} == 0x0022 and # "
+                ($self->{ct}->{type} == GENERAL_ENTITY_TOKEN or
+                 $self->{ct}->{type} == PARAMETER_ENTITY_TOKEN)) {
+         $self->{state} = DOCTYPE_ENTITY_VALUE_DOUBLE_QUOTED_STATE;
+         $self->{ct}->{value} = ''; # ENTITY
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x0027 and # '
+                ($self->{ct}->{type} == GENERAL_ENTITY_TOKEN or
+                 $self->{ct}->{type} == PARAMETER_ENTITY_TOKEN)) {
+         $self->{state} = DOCTYPE_ENTITY_VALUE_SINGLE_QUOTED_STATE;
+         $self->{ct}->{value} = ''; # ENTITY
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
        } elsif ($self->{is_xml} and
                 $self->{ct}->{type} == DOCTYPE_TOKEN and
                 $self->{nc} == 0x005B) { # [
-Line 4172 
 sub _get_next_token ($) {
+Line 4216 
 sub _get_next_token ($) {
        }
      } elsif ($self->{state} == AFTER_DOCTYPE_SYSTEM_IDENTIFIER_STATE) {
        if ($is_space->{$self->{nc}}) {
+         if ($self->{ct}->{type} == GENERAL_ENTITY_TOKEN) {
-         ## Stay in the state
+           $self->{state} = BEFORE_NDATA_STATE;
+         } else {
+           ## Stay in the state
+         }
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 4209 
 sub _get_next_token ($) {
+Line 4258 
 sub _get_next_token ($) {
          return  ($self->{ct}); # DOCTYPE/ENTITY/NOTATION
          redo A;
- ## TODO: "NDATA"
+       } elsif ($self->{ct}->{type} == GENERAL_ENTITY_TOKEN and
+                ($self->{nc} == 0x004E or # N
+                 $self->{nc} == 0x006E)) { # n
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no space before NDATA'); ## TODO: type
+         $self->{state} = NDATA_STATE;
+         $self->{kwd} = chr $self->{nc};
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
        } elsif ($self->{nc} == -1) {
          if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
-Line 4271 
 sub _get_next_token ($) {
+Line 4338 
 sub _get_next_token ($) {
          redo A;
        }
+     } elsif ($self->{state} == BEFORE_NDATA_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } elsif ($self->{nc} == 0x004E or # N
+                $self->{nc} == 0x006E) { # n
+         $self->{state} = NDATA_STATE;
+         $self->{kwd} = chr $self->{nc};
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         ## reconsume
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } else {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'string after SYSTEM literal');
+         $self->{state} = BOGUS_MD_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       }
      } elsif ($self->{state} == BOGUS_DOCTYPE_STATE) {
        if ($self->{nc} == 0x003E) { # >
-Line 5482 
 sub _get_next_token ($) {
+Line 5622 
 sub _get_next_token ($) {
      }
          redo A;
-       } elsif ($self->{nc} == 0x0045) { # E
+       } elsif ($self->{nc} == 0x0045 or # E
+                $self->{nc} == 0x0065) { # e
          $self->{state} = MD_E_STATE;
          $self->{kwd} = chr $self->{nc};
-Line 5497 
 sub _get_next_token ($) {
+Line 5638 
 sub _get_next_token ($) {
      }
          redo A;
-       } elsif ($self->{nc} == 0x0041) { # A
+       } elsif ($self->{nc} == 0x0041 or # A
+                $self->{nc} == 0x0061) { # a
          $self->{state} = MD_ATTLIST_STATE;
          $self->{kwd} = chr $self->{nc};
-Line 5512 
 sub _get_next_token ($) {
+Line 5654 
 sub _get_next_token ($) {
      }
          redo A;
-       } elsif ($self->{nc} == 0x004E) { # N
+       } elsif ($self->{nc} == 0x004E or # N
+                $self->{nc} == 0x006E) { # n
          $self->{state} = MD_NOTATION_STATE;
          $self->{kwd} = chr $self->{nc};
-Line 5540 
 sub _get_next_token ($) {
+Line 5683 
 sub _get_next_token ($) {
        $self->{ct} = {type => COMMENT_TOKEN, data => ''}; ## Will be discarded.
        redo A;
      } elsif ($self->{state} == MD_E_STATE) {
-       if ($self->{nc} == 0x004E) { # N
+       if ($self->{nc} == 0x004E or # N
+           $self->{nc} == 0x006E) { # n
          $self->{state} = MD_ENTITY_STATE;
          $self->{kwd} .= chr $self->{nc};
-Line 5555 
 sub _get_next_token ($) {
+Line 5699 
 sub _get_next_token ($) {
      }
          redo A;
-       } elsif ($self->{nc} == 0x004C) { # L
+       } elsif ($self->{nc} == 0x004C or # L
+                $self->{nc} == 0x006C) { # l
          ## XML5: <!ELEMENT> not supported.
          $self->{state} = MD_ELEMENT_STATE;
          $self->{kwd} .= chr $self->{nc};
-Line 5583 
 sub _get_next_token ($) {
+Line 5728 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == MD_ENTITY_STATE) {
-       if ($self->{nc} == {
+       if ($self->{nc} == [
-             'EN' => 0x0054, # T
+             undef,
-             'ENT' => 0x0049, # I
+             undef,
-             'ENTI' => 0x0054, # T
+x0054, # T
-           }->{$self->{kwd}}) {
+x0049, # I
+x0054, # T
+           ]->[length $self->{kwd}] or
+           $self->{nc} == [
+             undef,
+             undef,
+x0074, # t
+x0069, # i
+x0074, # t
+           ]->[length $self->{kwd}]) {
          ## Stay in the state.
          $self->{kwd} .= chr $self->{nc};
-Line 5602 
 sub _get_next_token ($) {
+Line 5756 
 sub _get_next_token ($) {
      }
          redo A;
-       } elsif ($self->{kwd} eq 'ENTIT' and
+       } elsif ((length $self->{kwd}) == 5 and
-                $self->{nc} == 0x0059) { # Y
+                ($self->{nc} == 0x0059 or # Y
-         $self->{ct} = {type => GENERAL_ENTITY_TOKEN, name => '', text => '',
+                 $self->{nc} == 0x0079)) { # y
+         if ($self->{kwd} ne 'ENTIT' or $self->{nc} == 0x0079) {
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'lowercase keyword', ## TODO: type
+                           text => 'ENTITY',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 4);
+         }
+         $self->{ct} = {type => GENERAL_ENTITY_TOKEN, name => '',
                         line => $self->{line_prev},
                         column => $self->{column_prev} - 6};
          $self->{state} = DOCTYPE_MD_STATE;
-Line 5632 
 sub _get_next_token ($) {
+Line 5793 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == MD_ELEMENT_STATE) {
-       if ($self->{nc} == {
+       if ($self->{nc} == [
-             'EL' => 0x0045, # E
+            undef,
-             'ELE' => 0x004D, # M
+            undef,
-             'ELEM' => 0x0045, # E
+x0045, # E
-             'ELEME' => 0x004E, # N
+x004D, # M
-           }->{$self->{kwd}}) {
+x0045, # E
+x004E, # N
+           ]->[length $self->{kwd}] or
+           $self->{nc} == [
+            undef,
+            undef,
+x0065, # e
+x006D, # m
+x0065, # e
+x006E, # n
+           ]->[length $self->{kwd}]) {
          ## Stay in the state.
          $self->{kwd} .= chr $self->{nc};
-Line 5652 
 sub _get_next_token ($) {
+Line 5823 
 sub _get_next_token ($) {
      }
          redo A;
-       } elsif ($self->{kwd} eq 'ELEMEN' and
+       } elsif ((length $self->{kwd}) == 6 and
-                $self->{nc} == 0x0054) { # T
+                ($self->{nc} == 0x0054 or # T
+                 $self->{nc} == 0x0074)) { # t
+         if ($self->{kwd} ne 'ELEMEN' or $self->{nc} == 0x0074) {
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'lowercase keyword', ## TODO: type
+                           text => 'ELEMENT',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 5);
+         }
          $self->{ct} = {type => ELEMENT_TOKEN, name => '',
                         line => $self->{line_prev},
                         column => $self->{column_prev} - 6};
-Line 5682 
 sub _get_next_token ($) {
+Line 5860 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == MD_ATTLIST_STATE) {
-       if ($self->{nc} == {
+       if ($self->{nc} == [
-             'A' => 0x0054, # T
+            undef,
-             'AT' => 0x0054, # T
+x0054, # T
-             'ATT' => 0x004C, # L
+x0054, # T
-             'ATTL' => 0x0049, # I
+x004C, # L
-             'ATTLI' => 0x0053, # S
+x0049, # I
-           }->{$self->{kwd}}) {
+x0053, # S
+           ]->[length $self->{kwd}] or
+           $self->{nc} == [
+            undef,
+x0074, # t
+x0074, # t
+x006C, # l
+x0069, # i
+x0073, # s
+           ]->[length $self->{kwd}]) {
          ## Stay in the state.
          $self->{kwd} .= chr $self->{nc};
-Line 5703 
 sub _get_next_token ($) {
+Line 5890 
 sub _get_next_token ($) {
      }
          redo A;
-       } elsif ($self->{kwd} eq 'ATTLIS' and
+       } elsif ((length $self->{kwd}) == 6 and
-                $self->{nc} == 0x0054) { # T
+                ($self->{nc} == 0x0054 or # T
+                 $self->{nc} == 0x0074)) { # t
+         if ($self->{kwd} ne 'ATTLIS' or $self->{nc} == 0x0074) {
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'lowercase keyword', ## TODO: type
+                           text => 'ATTLIST',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 5);
+         }
          $self->{ct} = {type => ATTLIST_TOKEN, name => '',
                         attrdefs => [],
                         line => $self->{line_prev},
-Line 5734 
 sub _get_next_token ($) {
+Line 5928 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == MD_NOTATION_STATE) {
-       if ($self->{nc} == {
+       if ($self->{nc} == [
-             'N' => 0x004F, # O
+            undef,
-             'NO' => 0x0054, # T
+x004F, # O
-             'NOT' => 0x0041, # A
+x0054, # T
-             'NOTA' => 0x0054, # T
+x0041, # A
-             'NOTAT' => 0x0049, # I
+x0054, # T
-             'NOTATI' => 0x004F, # O
+x0049, # I
-           }->{$self->{kwd}}) {
+x004F, # O
+           ]->[length $self->{kwd}] or
+           $self->{nc} == [
+            undef,
+x006F, # o
+x0074, # t
+x0061, # a
+x0074, # t
+x0069, # i
+x006F, # o
+           ]->[length $self->{kwd}]) {
          ## Stay in the state.
          $self->{kwd} .= chr $self->{nc};
-Line 5756 
 sub _get_next_token ($) {
+Line 5960 
 sub _get_next_token ($) {
      }
          redo A;
-       } elsif ($self->{kwd} eq 'NOTATIO' and
+       } elsif ((length $self->{kwd}) == 7 and
-                $self->{nc} == 0x004E) { # N
+                ($self->{nc} == 0x004E or # N
+                 $self->{nc} == 0x006E)) { # n
+         if ($self->{kwd} ne 'NOTATIO' or $self->{nc} == 0x006E) {
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'lowercase keyword', ## TODO: type
+                           text => 'NOTATION',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 6);
+         }
          $self->{ct} = {type => NOTATION_TOKEN, name => '',
                         line => $self->{line_prev},
                         column => $self->{column_prev} - 6};
-Line 7271 
 sub _get_next_token ($) {
+Line 7482 
 sub _get_next_token ($) {
          ## Reconsume.
          redo A;
        }
+     } elsif ($self->{state} == NDATA_STATE) {
+       ## ASCII case-insensitive
+       if ($self->{nc} == [
+             undef,
+x0044, # D
+x0041, # A
+x0054, # T
+           ]->[length $self->{kwd}] or
+           $self->{nc} == [
+             undef,
+x0064, # d
+x0061, # a
+x0074, # t
+           ]->[length $self->{kwd}]) {
+         ## Stay in the state.
+         $self->{kwd} .= chr $self->{nc};
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ((length $self->{kwd}) == 4 and
+                ($self->{nc} == 0x0041 or # A
+                 $self->{nc} == 0x0061)) { # a
+         if ($self->{kwd} ne 'NDAT' or $self->{nc} == 0x0061) { # a
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'lowercase keyword', ## TODO: type
+                           text => 'NDATA',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 4);
+         } else {
+         }
+         $self->{state} = AFTER_NDATA_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } else {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'string after literal', ## TODO: type
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} + 1
+                             - length $self->{kwd});
+         $self->{state} = BOGUS_MD_STATE;
+         ## Reconsume.
+         redo A;
+       }
+     } elsif ($self->{state} == AFTER_NDATA_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         $self->{state} = BEFORE_NOTATION_NAME_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no notation name'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } else {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'string after literal', ## TODO: type
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} + 1
+                             - length $self->{kwd});
+         $self->{state} = BOGUS_MD_STATE;
+         ## Reconsume.
+         redo A;
+       }
+     } elsif ($self->{state} == BEFORE_NOTATION_NAME_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no notation name'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } else {
+         $self->{ct}->{notation} = chr $self->{nc}; # ENTITY
+         $self->{state} = NOTATION_NAME_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       }
+     } elsif ($self->{state} == NOTATION_NAME_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         $self->{state} = AFTER_NOTATION_NAME_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } else {
+         $self->{ct}->{notation} .= chr $self->{nc}; # ENTITY
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_ENTITY_VALUE_DOUBLE_QUOTED_STATE) {
+       if ($self->{nc} == 0x0022) { # "
+         $self->{state} = AFTER_NOTATION_NAME_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x0026) { # &
+         $self->{prev_state} = $self->{state};
+         $self->{state} = ENTITY_VALUE_ENTITY_STATE;
+         $self->{entity_add} = 0x0022; # "
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+ ## TODO: %
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed entity value'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         ## Reconsume.
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } else {
+         $self->{ct}->{value} .= chr $self->{nc}; # ENTITY
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       }
+     } elsif ($self->{state} == DOCTYPE_ENTITY_VALUE_SINGLE_QUOTED_STATE) {
+       if ($self->{nc} == 0x0027) { # '
+         $self->{state} = AFTER_NOTATION_NAME_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x0026) { # &
+         $self->{prev_state} = $self->{state};
+         $self->{state} = ENTITY_VALUE_ENTITY_STATE;
+         $self->{entity_add} = 0x0027; # '
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+ ## TODO: %
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed entity value'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         ## Reconsume.
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } else {
+         $self->{ct}->{value} .= chr $self->{nc}; # ENTITY
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       }
+     } elsif ($self->{state} == ENTITY_VALUE_ENTITY_STATE) {
+       ## TODO: XMLize
+       if ($is_space->{$self->{nc}} or
+           {
+x003C => 1, 0x0026 => 1, -1 => 1, # <, &
+             $self->{entity_add} => 1,
+           }->{$self->{nc}}) {
+         ## Don't consume
+         ## No error
+         ## Return nothing.
+         #
+       } elsif ($self->{nc} == 0x0023) { # #
+         $self->{ca} = $self->{ct};
+         $self->{state} = ENTITY_HASH_STATE;
+         $self->{kwd} = '#';
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ((0x0041 <= $self->{nc} and
+                 $self->{nc} <= 0x005A) or # A..Z
+                (0x0061 <= $self->{nc} and
+                 $self->{nc} <= 0x007A)) { # a..z
+         #
+       } else {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'bare ero');
+         ## Return nothing.
+         #
+       }
+       $self->{ct}->{value} .= '&';
+       $self->{state} = $self->{prev_state};
+       ## Reconsume.
+       redo A;
+     } elsif ($self->{state} == AFTER_NOTATION_NAME_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } else {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'string after notation name'); ## TODO: type
+         $self->{state} = BOGUS_MD_STATE;
+         ## Reconsume.
+         redo A;
+       }
      } elsif ($self->{state} == BOGUS_MD_STATE) {
        if ($self->{nc} == 0x003E) { # >
          $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;

 Legend:



Removed from v.1.16
 


changed lines


 
Added in v.1.19
 Legend:



Removed from v.1.16
 


changed lines


 
Added in v.1.19
-Removed from v.1.16
+Added in v.1.19

admin@suikawiki.org	ViewVC Help
Powered by ViewVC 1.1.24