/[suikacvs]/markup/html/whatpm/Whatpm/HTML/Tokenizer.pm

Diff of /markup/html/whatpm/Whatpm/HTML/Tokenizer.pm

Parent Directory | Revision Log | View Patch Patch

-revision 1.8 by wakaba,
Wed Oct 15 04:38:22 2008 UTC
+revision 1.11 by wakaba,
Wed Oct 15 10:50:38 2008 UTC
 Line 216 
 sub _initialize_tokenizer ($) {
  ## A token has:
  ##   ->{type} == DOCTYPE_TOKEN, START_TAG_TOKEN, END_TAG_TOKEN, COMMENT_TOKEN,
- ##       CHARACTER_TOKEN, or END_OF_FILE_TOKEN
+ ##       CHARACTER_TOKEN, END_OF_FILE_TOKEN, PI_TOKEN, or ABORT_TOKEN
  ##   ->{name} (DOCTYPE_TOKEN)
  ##   ->{tag_name} (START_TAG_TOKEN, END_TAG_TOKEN)
+ ##   ->{target} (PI_TOKEN)
  ##   ->{pubid} (DOCTYPE_TOKEN)
  ##   ->{sysid} (DOCTYPE_TOKEN)
  ##   ->{quirks} == 1 or 0 (DOCTYPE_TOKEN): "force-quirks" flag
-Line 226 
 sub _initialize_tokenizer ($) {
+Line 227 
 sub _initialize_tokenizer ($) {
  ##        ->{name}
  ##        ->{value}
  ##        ->{has_reference} == 1 or 0
- ##   ->{data} (COMMENT_TOKEN, CHARACTER_TOKEN)
+ ##        ->{index}: Index of the attribute in a tag.
+ ##   ->{data} (COMMENT_TOKEN, CHARACTER_TOKEN, PI_TOKEN)
  ##   ->{has_reference} == 1 or 0 (CHARACTER_TOKEN)
+ ##   ->{last_index} (ELEMENT_TOKEN): Next attribute's index - 1.
  ## NOTE: The "self-closing flag" is hold as |$self->{self_closing}|.
  ##     |->{self_closing}| is used to save the value of |$self->{self_closing}|
  ##     while the token is pushed back to the stack.
-Line 507 
 sub _get_next_token ($) {
+Line 510 
 sub _get_next_token ($) {
        return  ($token);
        redo A;
      } elsif ($self->{state} == TAG_OPEN_STATE) {
+       ## XML5: "tag state".
        if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
          if ($self->{nc} == 0x002F) { # /
-Line 666 
 sub _get_next_token ($) {
+Line 671 
 sub _get_next_token ($) {
              ## $self->{nc} is intentionally left as is
              redo A;
            }
-         } else {
+         } elsif (not $self->{is_xml} or $is_space->{$self->{nc}}) {
            $self->{parse_error}->(level => $self->{level}->{must}, type => 'bare stago',
                            line => $self->{line_prev},
-Line 681 
 sub _get_next_token ($) {
+Line 686 
 sub _get_next_token ($) {
                     });
            redo A;
+         } else {
+           ## XML5: "<:" is a parse error.
+           $self->{ct} = {type => START_TAG_TOKEN,
+                                     tag_name => chr ($self->{nc}),
+                                     line => $self->{line_prev},
+                                     column => $self->{column_prev}};
+           $self->{state} = TAG_NAME_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+           redo A;
          }
        } else {
          die "$0: $self->{content_model} in tag open";
-Line 689 
 sub _get_next_token ($) {
+Line 714 
 sub _get_next_token ($) {
        ## NOTE: The "close tag open state" in the spec is implemented as
        ## |CLOSE_TAG_OPEN_STATE| and |CDATA_RCDATA_CLOSE_TAG_STATE|.
+       ## XML5: "end tag state".
        my ($l, $c) = ($self->{line_prev}, $self->{column_prev} - 1); # "<"of"</"
        if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
          if (defined $self->{last_stag_name}) {
-Line 750 
 sub _get_next_token ($) {
+Line 777 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'empty end tag',
                          line => $self->{line_prev}, ## "<" in "</>"
                          column => $self->{column_prev} - 1);
          $self->{state} = DATA_STATE;
          $self->{s_kwd} = '';
+         if ($self->{is_xml}) {
+           ## XML5: No parse error.
+           ## NOTE: This parser raises a parse error, since it supports
+           ## XML1, not XML5.
+           ## NOTE: A short end tag token.
+           my $ct = {type => END_TAG_TOKEN,
+                     tag_name => '',
+                     line => $self->{line_prev},
+                     column => $self->{column_prev} - 1,
+                    };
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+           return  ($ct);
+         } else {
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
        $self->{column_prev} = $self->{column};
-Line 767 
 sub _get_next_token ($) {
+Line 820 
 sub _get_next_token ($) {
        $self->{set_nc}->($self);
      }
+         }
          redo A;
        } elsif ($self->{nc} == -1) {
-Line 780 
 sub _get_next_token ($) {
+Line 834 
 sub _get_next_token ($) {
                   });
          redo A;
-       } else {
+       } elsif (not $self->{is_xml} or
+                $is_space->{$self->{nc}}) {
-         $self->{parse_error}->(level => $self->{level}->{must}, type => 'bogus end tag');
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'bogus end tag',
+                         line => $self->{line_prev}, # "<" of "</"
+                         column => $self->{column_prev} - 1);
          $self->{state} = BOGUS_COMMENT_STATE;
          $self->{ct} = {type => COMMENT_TOKEN, data => '',
                                    line => $self->{line_prev}, # "<" of "</"
-Line 795 
 sub _get_next_token ($) {
+Line 852 
 sub _get_next_token ($) {
          ## generated from the bogus end tag, as defined in the
          ## "bogus comment state" entry.
          redo A;
+       } else {
+         ## XML5: "</:" is a parse error.
+         $self->{ct} = {type => END_TAG_TOKEN,
+                        tag_name => chr ($self->{nc}),
+                        line => $l, column => $c};
+         $self->{state} = TAG_NAME_STATE; ## XML5: "end tag name state".
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
        }
      } elsif ($self->{state} == CDATA_RCDATA_CLOSE_TAG_STATE) {
        my $ch = substr $self->{last_stag_name}, length $self->{s_kwd}, 1;
-Line 985 
 sub _get_next_token ($) {
+Line 1061 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == BEFORE_ATTRIBUTE_NAME_STATE) {
+       ## XML5: "Tag attribute name before state".
        if ($is_space->{$self->{nc}}) {
          ## Stay in the state
-Line 1097 
 sub _get_next_token ($) {
+Line 1175 
 sub _get_next_token ($) {
 x003D => 1, # =
              }->{$self->{nc}}) {
+           ## XML5: Not a parse error.
            $self->{parse_error}->(level => $self->{level}->{must}, type => 'bad attribute name');
          } else {
+           ## XML5: ":" raises a parse error and is ignored.
          }
          $self->{ca}
              = {name => chr ($self->{nc}),
-Line 1120 
 sub _get_next_token ($) {
+Line 1200 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ATTRIBUTE_NAME_STATE) {
+       ## XML5: "Tag attribute name state".
        my $before_leave = sub {
          if (exists $self->{ct}->{attributes} # start tag or end tag
              ->{$self->{ca}->{name}}) { # MUST
-Line 1130 
 sub _get_next_token ($) {
+Line 1212 
 sub _get_next_token ($) {
            $self->{ct}->{attributes}->{$self->{ca}->{name}}
              = $self->{ca};
+           $self->{ca}->{index} = ++$self->{ct}->{last_index};
          }
        }; # $before_leave
-Line 1166 
 sub _get_next_token ($) {
+Line 1249 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
+         if ($self->{is_xml}) {
+           ## XML5: Not a parse error.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'no attr value'); ## TODO: type
+         } else {
+         }
          $before_leave->();
          if ($self->{ct}->{type} == START_TAG_TOKEN) {
-Line 1215 
 sub _get_next_token ($) {
+Line 1306 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x002F) { # /
+         if ($self->{is_xml}) {
+           ## XML5: Not a parse error.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'no attr value'); ## TODO: type
+         } else {
+         }
          $before_leave->();
          $self->{state} = SELF_CLOSING_START_TAG_STATE;
-Line 1259 
 sub _get_next_token ($) {
+Line 1357 
 sub _get_next_token ($) {
          if ($self->{nc} == 0x0022 or # "
              $self->{nc} == 0x0027) { # '
+           ## XML5: Not a parse error.
            $self->{parse_error}->(level => $self->{level}->{must}, type => 'bad attribute name');
          } else {
-Line 1279 
 sub _get_next_token ($) {
+Line 1378 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == AFTER_ATTRIBUTE_NAME_STATE) {
+       ## XML5: "Tag attribute name after state".
        if ($is_space->{$self->{nc}}) {
          ## Stay in the state
-Line 1310 
 sub _get_next_token ($) {
+Line 1411 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x003E) { # >
+         if ($self->{is_xml}) {
+           ## XML5: Not a parse error.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'no attr value'); ## TODO: type
+         } else {
+         }
          if ($self->{ct}->{type} == START_TAG_TOKEN) {
            $self->{last_stag_name} = $self->{ct}->{tag_name};
-Line 1363 
 sub _get_next_token ($) {
+Line 1472 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x002F) { # /
+         if ($self->{is_xml}) {
+           ## XML5: Not a parse error.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'no attr value'); ## TODO: type
+         } else {
+         }
          $self->{state} = SELF_CLOSING_START_TAG_STATE;
-Line 1402 
 sub _get_next_token ($) {
+Line 1518 
 sub _get_next_token ($) {
          redo A;
        } else {
+         if ($self->{is_xml}) {
+           ## XML5: Not a parse error.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'no attr value'); ## TODO: type
+         } else {
+         }
          if ($self->{nc} == 0x0022 or # "
              $self->{nc} == 0x0027) { # '
+           ## XML5: Not a parse error.
            $self->{parse_error}->(level => $self->{level}->{must}, type => 'bad attribute name');
          } else {
-Line 1428 
 sub _get_next_token ($) {
+Line 1553 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == BEFORE_ATTRIBUTE_VALUE_STATE) {
+       ## XML5: "Tag attribute value before state".
        if ($is_space->{$self->{nc}}) {
          ## Stay in the state
-Line 1539 
 sub _get_next_token ($) {
+Line 1666 
 sub _get_next_token ($) {
        } else {
          if ($self->{nc} == 0x003D) { # =
+           ## XML5: Not a parse error.
            $self->{parse_error}->(level => $self->{level}->{must}, type => 'bad attribute value');
+         } elsif ($self->{is_xml}) {
+           ## XML5: No parse error.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'unquoted attr value'); ## TODO
          } else {
          }
-Line 1559 
 sub _get_next_token ($) {
+Line 1691 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ATTRIBUTE_VALUE_DOUBLE_QUOTED_STATE) {
+       ## XML5: "Tag attribute value double quoted state".
        if ($self->{nc} == 0x0022) { # "
+         ## XML5: "Tag attribute name before state".
          $self->{state} = AFTER_ATTRIBUTE_VALUE_QUOTED_STATE;
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 1576 
 sub _get_next_token ($) {
+Line 1711 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x0026) { # &
+         ## XML5: Not defined yet.
          ## NOTE: In the spec, the tokenizer is switched to the
          ## "entity in attribute value state".  In this implementation, the
          ## tokenizer is switched to the |ENTITY_STATE|, which is an
-Line 1620 
 sub _get_next_token ($) {
+Line 1757 
 sub _get_next_token ($) {
          redo A;
        } else {
+         if ($self->{is_xml} and $self->{nc} == 0x003C) { # <
+           ## XML5: Not a parse error.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'lt in attr value'); ## TODO: type
+         } else {
+         }
          $self->{ca}->{value} .= chr ($self->{nc});
          $self->{read_until}->($self->{ca}->{value},
-                               q["&],
+                               q["&<],
                                length $self->{ca}->{value});
          ## Stay in the state
-Line 1641 
 sub _get_next_token ($) {
+Line 1784 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ATTRIBUTE_VALUE_SINGLE_QUOTED_STATE) {
+       ## XML5: "Tag attribute value single quoted state".
        if ($self->{nc} == 0x0027) { # '
+         ## XML5: "Before attribute name state" (sic).
          $self->{state} = AFTER_ATTRIBUTE_VALUE_QUOTED_STATE;
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 1658 
 sub _get_next_token ($) {
+Line 1804 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x0026) { # &
+         ## XML5: Not defined yet.
          ## NOTE: In the spec, the tokenizer is switched to the
          ## "entity in attribute value state".  In this implementation, the
          ## tokenizer is switched to the |ENTITY_STATE|, which is an
-Line 1702 
 sub _get_next_token ($) {
+Line 1850 
 sub _get_next_token ($) {
          redo A;
        } else {
+         if ($self->{is_xml} and $self->{nc} == 0x003C) { # <
+           ## XML5: Not a parse error.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'lt in attr value'); ## TODO: type
+         } else {
+         }
          $self->{ca}->{value} .= chr ($self->{nc});
          $self->{read_until}->($self->{ca}->{value},
-                               q['&],
+                               q['&<],
                                length $self->{ca}->{value});
          ## Stay in the state
-Line 1723 
 sub _get_next_token ($) {
+Line 1877 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ATTRIBUTE_VALUE_UNQUOTED_STATE) {
+       ## XML5: "Tag attribute value unquoted state".
        if ($is_space->{$self->{nc}}) {
+         ## XML5: "Tag attribute name before state".
          $self->{state} = BEFORE_ATTRIBUTE_NAME_STATE;
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 1740 
 sub _get_next_token ($) {
+Line 1897 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x0026) { # &
+         ## XML5: Not defined yet.
          ## NOTE: In the spec, the tokenizer is switched to the
          ## "entity in attribute value state".  In this implementation, the
          ## tokenizer is switched to the |ENTITY_STATE|, which is an
-Line 1823 
 sub _get_next_token ($) {
+Line 1983 
 sub _get_next_token ($) {
 x003D => 1, # =
              }->{$self->{nc}}) {
+           ## XML5: Not a parse error.
            $self->{parse_error}->(level => $self->{level}->{must}, type => 'bad attribute value');
          } else {
-Line 1939 
 sub _get_next_token ($) {
+Line 2100 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == SELF_CLOSING_START_TAG_STATE) {
+       ## XML5: "Empty tag state".
        if ($self->{nc} == 0x003E) { # >
          if ($self->{ct}->{type} == END_TAG_TOKEN) {
-Line 1990 
 sub _get_next_token ($) {
+Line 2153 
 sub _get_next_token ($) {
          } else {
            die "$0: $self->{ct}->{type}: Unknown token type";
          }
+         ## XML5: "Tag attribute name before state".
          $self->{state} = DATA_STATE;
          $self->{s_kwd} = '';
          ## Reconsume.
-Line 2132 
 sub _get_next_token ($) {
+Line 2296 
 sub _get_next_token ($) {
                                    line => $self->{line_prev},
                                    column => $self->{column_prev} - 2,
                                   };
-         $self->{state} = COMMENT_START_STATE;
+         $self->{state} = COMMENT_START_STATE; ## XML5: "comment state".
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 2195 
 sub _get_next_token ($) {
+Line 2359 
 sub _get_next_token ($) {
        } elsif ((length $self->{s_kwd}) == 6 and
                 ($self->{nc} == 0x0045 or # E
                  $self->{nc} == 0x0065)) { # e
+         if ($self->{s_kwd} ne 'DOCTYP') {
+           ## XML5: case-sensitive.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'lowercase keyword', ## TODO
+                           text => 'DOCTYPE',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev} - 5);
+         } else {
+         }
          $self->{state} = DOCTYPE_STATE;
          $self->{ct} = {type => DOCTYPE_TOKEN,
                                    quirks => 1,
-Line 2472 
 sub _get_next_token ($) {
+Line 2645 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == COMMENT_END_DASH_STATE) {
+       ## XML5: "comment dash state".
        if ($self->{nc} == 0x002D) { # -
          $self->{state} = COMMENT_END_STATE;
-Line 2537 
 sub _get_next_token ($) {
+Line 2712 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x002D) { # -
+         ## XML5: Not a parse error.
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'dash in comment',
                          line => $self->{line_prev},
                          column => $self->{column_prev});
-Line 2566 
 sub _get_next_token ($) {
+Line 2742 
 sub _get_next_token ($) {
          redo A;
        } else {
+         ## XML5: Not a parse error.
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'dash in comment',
                          line => $self->{line_prev},
                          column => $self->{column_prev});
-Line 3651 
 sub _get_next_token ($) {
+Line 3828 
 sub _get_next_token ($) {
        ## NOTE: "CDATA section state" in the state is jointly implemented
        ## by three states, |CDATA_SECTION_STATE|, |CDATA_SECTION_MSE1_STATE|,
        ## and |CDATA_SECTION_MSE2_STATE|.
+       ## XML5: "CDATA state".
        if ($self->{nc} == 0x005D) { # ]
-Line 3677 
 sub _get_next_token ($) {
+Line 3856 
 sub _get_next_token ($) {
          $self->{state} = DATA_STATE;
          $self->{s_kwd} = '';
+         ## Reconsume.
-     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-       $self->{line_prev} = $self->{line};
-       $self->{column_prev} = $self->{column};
-       $self->{column}++;
-       $self->{nc}
-           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
-     } else {
-       $self->{set_nc}->($self);
-     }
          if (length $self->{ct}->{data}) { # character
            return  ($self->{ct}); # character
-Line 3720 
 sub _get_next_token ($) {
+Line 3889 
 sub _get_next_token ($) {
        ## ISSUE: "text tokens" in spec.
      } elsif ($self->{state} == CDATA_SECTION_MSE1_STATE) {
+       ## XML5: "CDATA bracket state".
        if ($self->{nc} == 0x005D) { # ]
          $self->{state} = CDATA_SECTION_MSE2_STATE;
-Line 3737 
 sub _get_next_token ($) {
+Line 3908 
 sub _get_next_token ($) {
          redo A;
        } else {
+         ## XML5: If EOF, "]" is not appended and changed to the data state.
          $self->{ct}->{data} .= ']';
-         $self->{state} = CDATA_SECTION_STATE;
+         $self->{state} = CDATA_SECTION_STATE; ## XML5: Stay in the state.
          ## Reconsume.
          redo A;
        }
      } elsif ($self->{state} == CDATA_SECTION_MSE2_STATE) {
+       ## XML5: "CDATA end state".
        if ($self->{nc} == 0x003E) { # >
          $self->{state} = DATA_STATE;
          $self->{s_kwd} = '';
-Line 3785 
 sub _get_next_token ($) {
+Line 3959 
 sub _get_next_token ($) {
          $self->{ct}->{data} .= ']]'; # character
          $self->{state} = CDATA_SECTION_STATE;
-         ## Reconsume.
+         ## Reconsume. ## XML5: Emit.
          redo A;
        }
      } elsif ($self->{state} == ENTITY_STATE) {

 Legend:



Removed from v.1.8
 


changed lines


 
Added in v.1.11
 Legend:



Removed from v.1.8
 


changed lines


 
Added in v.1.11
-Removed from v.1.8
+Added in v.1.11

admin@suikawiki.org	ViewVC Help
Powered by ViewVC 1.1.24