/[suikacvs]/markup/html/whatpm/Whatpm/HTML/Tokenizer.pm

Diff of /markup/html/whatpm/Whatpm/HTML/Tokenizer.pm

Parent Directory | Revision Log | View Patch Patch

-revision 1.17 by wakaba,
Sun Oct 19 04:39:25 2008 UTC
+revision 1.18 by wakaba,
Sun Oct 19 06:14:57 2008 UTC
 Line 177 
 sub DOCTYPE_ATTLIST_ATTRIBUTE_DECLARATIO
  sub DOCTYPE_ATTLIST_ATTRIBUTE_DECLARATION_STATE () { 82 }
  sub DOCTYPE_ATTLIST_ATTRIBUTE_DECLARATION_AFTER_STATE () { 83 }
  sub AFTER_ATTLIST_ATTR_VALUE_QUOTED_STATE () { 84 }
- sub BOGUS_MD_STATE () { 85 }
+ sub BEFORE_NDATA_STATE () { 85 }
+ sub NDATA_STATE () { 86 }
+ sub AFTER_NDATA_STATE () { 87 }
+ sub BEFORE_NOTATION_NAME_STATE () { 88 }
+ sub NOTATION_NAME_STATE () { 89 }
+ sub AFTER_NOTATION_NAME_STATE () { 90 }
+ sub BOGUS_MD_STATE () { 91 }
  ## Tree constructor state constants (see Whatpm::HTML for the full
  ## list and descriptions)
-Line 4172 
 sub _get_next_token ($) {
+Line 4178 
 sub _get_next_token ($) {
        }
      } elsif ($self->{state} == AFTER_DOCTYPE_SYSTEM_IDENTIFIER_STATE) {
        if ($is_space->{$self->{nc}}) {
+         if ($self->{ct}->{type} == GENERAL_ENTITY_TOKEN) {
-         ## Stay in the state
+           $self->{state} = BEFORE_NDATA_STATE;
+         } else {
+           ## Stay in the state
+         }
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 4209 
 sub _get_next_token ($) {
+Line 4220 
 sub _get_next_token ($) {
          return  ($self->{ct}); # DOCTYPE/ENTITY/NOTATION
          redo A;
- ## TODO: "NDATA"
+       } elsif ($self->{ct}->{type} == GENERAL_ENTITY_TOKEN and
+                ($self->{nc} == 0x004E or # N
+                 $self->{nc} == 0x006E)) { # n
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no space before NDATA'); ## TODO: type
+         $self->{state} = NDATA_STATE;
+         $self->{kwd} = chr $self->{nc};
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
        } elsif ($self->{nc} == -1) {
          if ($self->{ct}->{type} == DOCTYPE_TOKEN) {
-Line 4271 
 sub _get_next_token ($) {
+Line 4300 
 sub _get_next_token ($) {
          redo A;
        }
+     } elsif ($self->{state} == BEFORE_NDATA_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } elsif ($self->{nc} == 0x004E or # N
+                $self->{nc} == 0x006E) { # n
+         $self->{state} = NDATA_STATE;
+         $self->{kwd} = chr $self->{nc};
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         ## reconsume
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } else {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'string after SYSTEM literal');
+         $self->{state} = BOGUS_MD_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       }
      } elsif ($self->{state} == BOGUS_DOCTYPE_STATE) {
        if ($self->{nc} == 0x003E) { # >
-Line 7342 
 sub _get_next_token ($) {
+Line 7444 
 sub _get_next_token ($) {
          ## Reconsume.
          redo A;
        }
+     } elsif ($self->{state} == NDATA_STATE) {
+       ## ASCII case-insensitive
+       if ($self->{nc} == [
+             undef,
+x0044, # D
+x0041, # A
+x0054, # T
+           ]->[length $self->{kwd}] or
+           $self->{nc} == [
+             undef,
+x0064, # d
+x0061, # a
+x0074, # t
+           ]->[length $self->{kwd}]) {
+         ## Stay in the state.
+         $self->{kwd} .= chr $self->{nc};
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ((length $self->{kwd}) == 4 and
+                ($self->{nc} == 0x0041 or # A
+                 $self->{nc} == 0x0061)) { # a
+         if ($self->{kwd} ne 'NDAT' or $self->{nc} == 0x0061) { # a
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'lowercase keyword', ## TODO: type
+                           text => 'NDATA',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 4);
+         } else {
+         }
+         $self->{state} = AFTER_NDATA_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } else {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'string after literal', ## TODO: type
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} + 1
+                             - length $self->{kwd});
+         $self->{state} = BOGUS_MD_STATE;
+         ## Reconsume.
+         redo A;
+       }
+     } elsif ($self->{state} == AFTER_NDATA_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         $self->{state} = BEFORE_NOTATION_NAME_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no notation name'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } else {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'string after literal', ## TODO: type
+                         line => $self->{line_prev},
+                         column => $self->{column_prev} + 1
+                             - length $self->{kwd});
+         $self->{state} = BOGUS_MD_STATE;
+         ## Reconsume.
+         redo A;
+       }
+     } elsif ($self->{state} == BEFORE_NOTATION_NAME_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'no notation name'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } else {
+         $self->{ct}->{notation} = chr $self->{nc}; # ENTITY
+         $self->{state} = NOTATION_NAME_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       }
+     } elsif ($self->{state} == NOTATION_NAME_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         $self->{state} = AFTER_NOTATION_NAME_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } else {
+         $self->{ct}->{notation} .= chr $self->{nc}; # ENTITY
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       }
+     } elsif ($self->{state} == AFTER_NOTATION_NAME_STATE) {
+       if ($is_space->{$self->{nc}}) {
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == 0x003E) { # >
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed md'); ## TODO: type
+         $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # ENTITY
+         redo A;
+       } else {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'string after notation name'); ## TODO: type
+         $self->{state} = BOGUS_MD_STATE;
+         ## Reconsume.
+         redo A;
+       }
      } elsif ($self->{state} == BOGUS_MD_STATE) {
        if ($self->{nc} == 0x003E) { # >

 Legend:



Removed from v.1.17
 


changed lines


 
Added in v.1.18
 Legend:



Removed from v.1.17
 


changed lines


 
Added in v.1.18
-Removed from v.1.17
+Added in v.1.18

admin@suikawiki.org	ViewVC Help
Powered by ViewVC 1.1.24