/[suikacvs]/markup/html/whatpm/Whatpm/HTML/Tokenizer.pm

Diff of /markup/html/whatpm/Whatpm/HTML/Tokenizer.pm

Parent Directory | Revision Log | View Patch Patch

-revision 1.1 by wakaba,
Tue Oct 14 02:27:58 2008 UTC
+revision 1.4 by wakaba,
Tue Oct 14 11:46:57 2008 UTC
 Line 2 
 package Whatpm::HTML::Tokenizer;
  use strict;
  our $VERSION=do{my @r=(q$Revision$=~/\d+/g);sprintf "%d."."%02d" x $#r,@r};
+ BEGIN {
+   require Exporter;
+   push our @ISA, 'Exporter';
+   our @EXPORT_OK = qw(
+     DOCTYPE_TOKEN
+     COMMENT_TOKEN
+     START_TAG_TOKEN
+     END_TAG_TOKEN
+     END_OF_FILE_TOKEN
+     CHARACTER_TOKEN
+     PI_TOKEN
+     ABORT_TOKEN
+   );
+   our %EXPORT_TAGS = (
+     token => [qw(
+       DOCTYPE_TOKEN
+       COMMENT_TOKEN
+       START_TAG_TOKEN
+       END_TAG_TOKEN
+       END_OF_FILE_TOKEN
+       CHARACTER_TOKEN
+       PI_TOKEN
+       ABORT_TOKEN
+     )],
+   );
+ }
+ ## Token types
+ sub DOCTYPE_TOKEN () { 1 }
+ sub COMMENT_TOKEN () { 2 }
+ sub START_TAG_TOKEN () { 3 }
+ sub END_TAG_TOKEN () { 4 }
+ sub END_OF_FILE_TOKEN () { 5 }
+ sub CHARACTER_TOKEN () { 6 }
+ sub PI_TOKEN () { 7 } # XML5
+ sub ABORT_TOKEN () { 8 } # Not a token actually
  package Whatpm::HTML;
+ BEGIN { Whatpm::HTML::Tokenizer->import (':token') }
  ## Content model flags
  sub CM_ENTITY () { 0b001 } # & markup in data
-Line 72 
 sub HEXREF_HEX_STATE () { 48 }
+Line 114 
 sub HEXREF_HEX_STATE () { 48 }
  sub ENTITY_NAME_STATE () { 49 }
  sub PCDATA_STATE () { 50 } # "data state" in the spec
- ## Token types
- sub DOCTYPE_TOKEN () { 1 }
- sub COMMENT_TOKEN () { 2 }
- sub START_TAG_TOKEN () { 3 }
- sub END_TAG_TOKEN () { 4 }
- sub END_OF_FILE_TOKEN () { 5 }
- sub CHARACTER_TOKEN () { 6 }
  ## Tree constructor state constants (see Whatpm::HTML for the full
  ## list and descriptions)
-Line 142 
 sub _initialize_tokenizer ($) {
+Line 175 
 sub _initialize_tokenizer ($) {
    #$self->{level}
    #$self->{set_nc}
    #$self->{parse_error}
+   #$self->{is_xml} (if XML)
    $self->{state} = DATA_STATE; # MUST
    #$self->{s_kwd}; # state keyword - initialized when used
-Line 507 
 sub _get_next_token ($) {
+Line 541 
 sub _get_next_token ($) {
            $self->{ct}
              = {type => START_TAG_TOKEN,
-                tag_name => chr ($self->{nc} + 0x0020),
+                tag_name => chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020)),
                 line => $self->{line_prev},
                 column => $self->{column_prev}};
            $self->{state} = TAG_NAME_STATE;
-Line 626 
 sub _get_next_token ($) {
+Line 660 
 sub _get_next_token ($) {
          $self->{ct}
              = {type => END_TAG_TOKEN,
-                tag_name => chr ($self->{nc} + 0x0020),
+                tag_name => chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020)),
                 line => $l, column => $c};
          $self->{state} = TAG_NAME_STATE;
-Line 817 
 sub _get_next_token ($) {
+Line 851 
 sub _get_next_token ($) {
        } elsif (0x0041 <= $self->{nc} and
                 $self->{nc} <= 0x005A) { # A..Z
-         $self->{ct}->{tag_name} .= chr ($self->{nc} + 0x0020);
+         $self->{ct}->{tag_name}
+             .= chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020));
            # start tag or end tag
          ## Stay in this state
-Line 939 
 sub _get_next_token ($) {
+Line 974 
 sub _get_next_token ($) {
                 $self->{nc} <= 0x005A) { # A..Z
          $self->{ca}
-             = {name => chr ($self->{nc} + 0x0020),
+             = {name => chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020)),
                 value => '',
                 line => $self->{line}, column => $self->{column}};
          $self->{state} = ATTRIBUTE_NAME_STATE;
-Line 1100 
 sub _get_next_token ($) {
+Line 1135 
 sub _get_next_token ($) {
        } elsif (0x0041 <= $self->{nc} and
                 $self->{nc} <= 0x005A) { # A..Z
-         $self->{ca}->{name} .= chr ($self->{nc} + 0x0020);
+         $self->{ca}->{name}
+             .= chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020));
          ## Stay in the state
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 1244 
 sub _get_next_token ($) {
+Line 1280 
 sub _get_next_token ($) {
                 $self->{nc} <= 0x005A) { # A..Z
          $self->{ca}
-             = {name => chr ($self->{nc} + 0x0020),
+             = {name => chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020)),
                 value => '',
                 line => $self->{line}, column => $self->{column}};
          $self->{state} = ATTRIBUTE_NAME_STATE;
-Line 1977 
 sub _get_next_token ($) {
+Line 2013 
 sub _get_next_token ($) {
      }
          redo A;
-       } elsif ($self->{insertion_mode} & IN_FOREIGN_CONTENT_IM and
+       } elsif ((($self->{insertion_mode} & IN_FOREIGN_CONTENT_IM and
-                $self->{open_elements}->[-1]->[1] & FOREIGN_EL and
+                  $self->{open_elements}->[-1]->[1] & FOREIGN_EL) or
+                 $self->{is_xml}) and
                 $self->{nc} == 0x005B) { # [
          $self->{state} = MD_CDATA_STATE;

 Legend:



Removed from v.1.1
 


changed lines


 
Added in v.1.4
 Legend:



Removed from v.1.1
 


changed lines


 
Added in v.1.4
-Removed from v.1.1
+Added in v.1.4

admin@suikawiki.org	ViewVC Help
Powered by ViewVC 1.1.24