/[suikacvs]/markup/html/whatpm/Whatpm/HTML.pm.src

Diff of /markup/html/whatpm/Whatpm/HTML.pm.src

Parent Directory | Revision Log | View Patch Patch

-revision 1.111 by wakaba,
Tue Mar 11 14:02:08 2008 UTC
+revision 1.112 by wakaba,
Sun Mar 16 06:39:57 2008 UTC
 Line 177 
 sub parse_string ($$$;$) {
        if defined $self->{input_encoding};
    my $i = 0;
-   my $line = 1;
+   $self->{line_prev} = $self->{line} = 1;
-   my $column = 0;
+   $self->{column_prev} = $self->{column} = 0;
    $self->{set_next_char} = sub {
      my $self = shift;
 Line 187 
 sub parse_string ($$$;$) {
      $self->{next_char} = -1 and return if $i >= length $$s;
      $self->{next_char} = ord substr $$s, $i++, 1;
-     $column++;
+     ($self->{line_prev}, $self->{column_prev})
+         = ($self->{line}, $self->{column});
+     $self->{column}++;
      if ($self->{next_char} == 0x000A) { # LF
-       $line++;
+       $self->{line}++;
-       $column = 0;
+       $self->{column} = 0;
      } elsif ($self->{next_char} == 0x000D) { # CR
        $i++ if substr ($$s, $i, 1) eq "\x0A";
        $self->{next_char} = 0x000A; # LF # MUST
-       $line++;
+       $self->{line}++;
-       $column = 0;
+       $self->{column} = 0;
      } elsif ($self->{next_char} > 0x10FFFF) {
        $self->{next_char} = 0xFFFD; # REPLACEMENT CHARACTER # MUST
      } elsif ($self->{next_char} == 0x0000) { # NULL
-Line 209 
 sub parse_string ($$$;$) {
+Line 212 
 sub parse_string ($$$;$) {
    my $onerror = $_[2] || sub {
      my (%opt) = @_;
-     warn "Parse error ($opt{type}) at line $opt{line} column $opt{column}\n";
+     my $line = $opt{token} ? $opt{token}->{line} : $opt{line};
+     my $column = $opt{token} ? $opt{token}->{column} : $opt{column};
+     warn "Parse error ($opt{type}) at line $line column $column\n";
    };
    $self->{parse_error} = sub {
-     $onerror->(@_, line => $line, column => $column);
+     $onerror->(line => $self->{line}, column => $self->{column}, @_);
    };
    $self->_initialize_tokenizer;
-Line 220 
 sub parse_string ($$$;$) {
+Line 225 
 sub parse_string ($$$;$) {
    $self->_construct_tree;
    $self->_terminate_tree_constructor;
+   delete $self->{parse_error}; # remove loop
    return $self->{document};
  } # parse_string
-Line 449 
 sub _get_next_token ($) {
+Line 456 
 sub _get_next_token ($) {
          #
        } elsif ($self->{next_char} == -1) {
          !!!cp (11);
-         !!!emit ({type => END_OF_FILE_TOKEN});
+         !!!emit ({type => END_OF_FILE_TOKEN,
+                   line => $self->{line}, column => $self->{column}});
          last A; ## TODO: ok?
        } else {
          !!!cp (12);
        }
        # Anything else
        my $token = {type => CHARACTER_TOKEN,
-                    data => chr $self->{next_char}};
+                    data => chr $self->{next_char},
+                    line => $self->{line}, column => $self->{column}};
        ## Stay in the data state
        !!!next-input-character;
-Line 465 
 sub _get_next_token ($) {
+Line 474 
 sub _get_next_token ($) {
        redo A;
      } elsif ($self->{state} == ENTITY_DATA_STATE) {
        ## (cannot happen in CDATA state)
+       my ($l, $c) = ($self->{line_prev}, $self->{column_prev});
        my $token = $self->_tokenize_attempt_to_consume_an_entity (0, -1);
-Line 473 
 sub _get_next_token ($) {
+Line 484 
 sub _get_next_token ($) {
        unless (defined $token) {
          !!!cp (13);
-         !!!emit ({type => CHARACTER_TOKEN, data => '&'});
+         !!!emit ({type => CHARACTER_TOKEN, data => '&',
+                   line => $l, column => $c});
        } else {
          !!!cp (14);
          !!!emit ($token);
-Line 492 
 sub _get_next_token ($) {
+Line 504 
 sub _get_next_token ($) {
            ## reconsume
            $self->{state} = DATA_STATE;
-           !!!emit ({type => CHARACTER_TOKEN, data => '<'});
+           !!!emit ({type => CHARACTER_TOKEN, data => '<',
+                     line => $self->{line_prev},
+                     column => $self->{column_prev}});
            redo A;
          }
-Line 512 
 sub _get_next_token ($) {
+Line 526 
 sub _get_next_token ($) {
            !!!cp (19);
            $self->{current_token}
              = {type => START_TAG_TOKEN,
-                tag_name => chr ($self->{next_char} + 0x0020)};
+                tag_name => chr ($self->{next_char} + 0x0020),
+                line => $self->{line_prev},
+                column => $self->{column_prev}};
            $self->{state} = TAG_NAME_STATE;
            !!!next-input-character;
            redo A;
-Line 520 
 sub _get_next_token ($) {
+Line 536 
 sub _get_next_token ($) {
                   $self->{next_char} <= 0x007A) { # a..z
            !!!cp (20);
            $self->{current_token} = {type => START_TAG_TOKEN,
-                             tag_name => chr ($self->{next_char})};
+                                     tag_name => chr ($self->{next_char}),
+                                     line => $self->{line_prev},
+                                     column => $self->{column_prev}};
            $self->{state} = TAG_NAME_STATE;
            !!!next-input-character;
            redo A;
-Line 530 
 sub _get_next_token ($) {
+Line 548 
 sub _get_next_token ($) {
            $self->{state} = DATA_STATE;
            !!!next-input-character;
-           !!!emit ({type => CHARACTER_TOKEN, data => '<>'});
+           !!!emit ({type => CHARACTER_TOKEN, data => '<>',
+                     line => $self->{line_prev},
+                     column => $self->{column_prev}});
            redo A;
          } elsif ($self->{next_char} == 0x003F) { # ?
            !!!cp (22);
            !!!parse-error (type => 'pio');
            $self->{state} = BOGUS_COMMENT_STATE;
+           $self->{current_token} = {type => COMMENT_TOKEN, data => '',
+                                     line => $self->{line_prev},
+                                     column => $self->{column_prev}};
            ## $self->{next_char} is intentionally left as is
            redo A;
          } else {
-Line 545 
 sub _get_next_token ($) {
+Line 568 
 sub _get_next_token ($) {
            $self->{state} = DATA_STATE;
            ## reconsume
-           !!!emit ({type => CHARACTER_TOKEN, data => '<'});
+           !!!emit ({type => CHARACTER_TOKEN, data => '<',
+                     line => $self->{line_prev},
+                     column => $self->{column_prev}});
            redo A;
          }
-Line 553 
 sub _get_next_token ($) {
+Line 578 
 sub _get_next_token ($) {
          die "$0: $self->{content_model} in tag open";
        }
      } elsif ($self->{state} == CLOSE_TAG_OPEN_STATE) {
+       my ($l, $c) = ($self->{line_prev}, $self->{column_prev});
        if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
          if (defined $self->{last_emitted_start_tag_name}) {
            ## NOTE: <http://krijnhoetmer.nl/irc-logs/whatwg/20070626#l-564>
            my @next_char;
            TAGNAME: for (my $i = 0; $i < length $self->{last_emitted_start_tag_name}; $i++) {
-Line 571 
 sub _get_next_token ($) {
+Line 598 
 sub _get_next_token ($) {
                !!!back-next-input-character (@next_char);
                $self->{state} = DATA_STATE;
-               !!!emit ({type => CHARACTER_TOKEN, data => '</'});
+               !!!emit ({type => CHARACTER_TOKEN, data => '</',
+                         line => $l, column => $c});
                redo A;
              }
-Line 590 
 sub _get_next_token ($) {
+Line 618 
 sub _get_next_token ($) {
              $self->{next_char} = shift @next_char; # reconsume
              !!!back-next-input-character (@next_char);
              $self->{state} = DATA_STATE;
-             !!!emit ({type => CHARACTER_TOKEN, data => '</'});
+             !!!emit ({type => CHARACTER_TOKEN, data => '</',
+                       line => $l, column => $c});
              redo A;
            } else {
              !!!cp (27);
-Line 603 
 sub _get_next_token ($) {
+Line 632 
 sub _get_next_token ($) {
            !!!cp (28);
            # next-input-character is already done
            $self->{state} = DATA_STATE;
-           !!!emit ({type => CHARACTER_TOKEN, data => '</'});
+           !!!emit ({type => CHARACTER_TOKEN, data => '</',
+                     line => $l, column => $c});
            redo A;
          }
        }
-Line 611 
 sub _get_next_token ($) {
+Line 641 
 sub _get_next_token ($) {
        if (0x0041 <= $self->{next_char} and
            $self->{next_char} <= 0x005A) { # A..Z
          !!!cp (29);
-         $self->{current_token} = {type => END_TAG_TOKEN,
+         $self->{current_token}
-                           tag_name => chr ($self->{next_char} + 0x0020)};
+             = {type => END_TAG_TOKEN,
+                tag_name => chr ($self->{next_char} + 0x0020),
+                line => $l, column => $c};
          $self->{state} = TAG_NAME_STATE;
          !!!next-input-character;
          redo A;
-Line 620 
 sub _get_next_token ($) {
+Line 652 
 sub _get_next_token ($) {
                 $self->{next_char} <= 0x007A) { # a..z
          !!!cp (30);
          $self->{current_token} = {type => END_TAG_TOKEN,
-                           tag_name => chr ($self->{next_char})};
+                                   tag_name => chr ($self->{next_char}),
+                                   line => $l, column => $c};
          $self->{state} = TAG_NAME_STATE;
          !!!next-input-character;
          redo A;
-Line 636 
 sub _get_next_token ($) {
+Line 669 
 sub _get_next_token ($) {
          $self->{state} = DATA_STATE;
          # reconsume
-         !!!emit ({type => CHARACTER_TOKEN, data => '</'});
+         !!!emit ({type => CHARACTER_TOKEN, data => '</',
+                   line => $l, column => $c});
          redo A;
        } else {
          !!!cp (33);
          !!!parse-error (type => 'bogus end tag');
          $self->{state} = BOGUS_COMMENT_STATE;
+         $self->{current_token} = {type => COMMENT_TOKEN, data => '',
+                                   line => $self->{line_prev}, # "<" of "</"
+                                   column => $self->{column_prev} - 1};
          ## $self->{next_char} is intentionally left as is
          redo A;
        }
-Line 1379 
 sub _get_next_token ($) {
+Line 1416 
 sub _get_next_token ($) {
      } elsif ($self->{state} == BOGUS_COMMENT_STATE) {
        ## (only happen if PCDATA state)
-       my $token = {type => COMMENT_TOKEN, data => ''};
+       ## NOTE: Set by the previous state
+       #my $token = {type => COMMENT_TOKEN, data => ''};
        BC: {
          if ($self->{next_char} == 0x003E) { # >
-Line 1387 
 sub _get_next_token ($) {
+Line 1425 
 sub _get_next_token ($) {
            $self->{state} = DATA_STATE;
            !!!next-input-character;
-           !!!emit ($token);
+           !!!emit ($self->{current_token}); # comment
            redo A;
          } elsif ($self->{next_char} == -1) {
-Line 1395 
 sub _get_next_token ($) {
+Line 1433 
 sub _get_next_token ($) {
            $self->{state} = DATA_STATE;
            ## reconsume
-           !!!emit ($token);
+           !!!emit ($self->{current_token}); # comment
            redo A;
          } else {
            !!!cp (126);
-           $token->{data} .= chr ($self->{next_char});
+           $self->{current_token}->{data} .= chr ($self->{next_char}); # comment
            !!!next-input-character;
            redo BC;
          }
-Line 1410 
 sub _get_next_token ($) {
+Line 1448 
 sub _get_next_token ($) {
      } elsif ($self->{state} == MARKUP_DECLARATION_OPEN_STATE) {
        ## (only happen if PCDATA state)
+       my ($l, $c) = ($self->{line_prev}, $self->{column_prev} - 1);
        my @next_char;
        push @next_char, $self->{next_char};
-Line 1418 
 sub _get_next_token ($) {
+Line 1458 
 sub _get_next_token ($) {
          push @next_char, $self->{next_char};
          if ($self->{next_char} == 0x002D) { # -
            !!!cp (127);
-           $self->{current_token} = {type => COMMENT_TOKEN, data => ''};
+           $self->{current_token} = {type => COMMENT_TOKEN, data => '',
+                                     line => $l, column => $c};
            $self->{state} = COMMENT_START_STATE;
            !!!next-input-character;
            redo A;
-Line 1454 
 sub _get_next_token ($) {
+Line 1495 
 sub _get_next_token ($) {
                      !!!cp (129);
                      ## TODO: What a stupid code this is!
                      $self->{state} = DOCTYPE_STATE;
+                     $self->{current_token} = {type => DOCTYPE_TOKEN,
+                                               quirks => 1,
+                                               line => $l, column => $c};
                      !!!next-input-character;
                      redo A;
                    } else {
-Line 1482 
 sub _get_next_token ($) {
+Line 1526 
 sub _get_next_token ($) {
        $self->{next_char} = shift @next_char;
        !!!back-next-input-character (@next_char);
        $self->{state} = BOGUS_COMMENT_STATE;
+       $self->{current_token} = {type => COMMENT_TOKEN, data => '',
+                                 line => $l, column => $c};
        redo A;
        ## ISSUE: typos in spec: chacacters, is is a parse error
-Line 1660 
 sub _get_next_token ($) {
+Line 1706 
 sub _get_next_token ($) {
          $self->{state} = DATA_STATE;
          !!!next-input-character;
-         !!!emit ({type => DOCTYPE_TOKEN, quirks => 1});
+         !!!emit ($self->{current_token}); # DOCTYPE (quirks)
          redo A;
        } elsif ($self->{next_char} == -1) {
-Line 1669 
 sub _get_next_token ($) {
+Line 1715 
 sub _get_next_token ($) {
          $self->{state} = DATA_STATE;
          ## reconsume
-         !!!emit ({type => DOCTYPE_TOKEN, quirks => 1});
+         !!!emit ($self->{current_token}); # DOCTYPE (quirks)
          redo A;
        } else {
          !!!cp (160);
-         $self->{current_token}
+         $self->{current_token}->{name} = chr $self->{next_char};
-             = {type => DOCTYPE_TOKEN,
+         delete $self->{current_token}->{quirks};
-                name => chr ($self->{next_char}),
-                #quirks => 0,
-               };
  ## ISSUE: "Set the token's name name to the" in the spec
          $self->{state} = DOCTYPE_NAME_STATE;
          !!!next-input-character;
-Line 2205 
 sub _get_next_token ($) {
+Line 2248 
 sub _get_next_token ($) {
  sub _tokenize_attempt_to_consume_an_entity ($$$) {
    my ($self, $in_attr, $additional) = @_;
+   my ($l, $c) = ($self->{line_prev}, $self->{column_prev});
    if ({
 x0009 => 1, 0x000A => 1, 0x000B => 1, 0x000C => 1, # HT, LF, VT, FF,
 x0020 => 1, 0x003C => 1, 0x0026 => 1, -1 => 1, # SP, <, & # 0x000D # CR
-Line 2245 
 sub _tokenize_attempt_to_consume_an_enti
+Line 2290 
 sub _tokenize_attempt_to_consume_an_enti
            redo X;
          } elsif (not defined $code) { # no hexadecimal digit
            !!!cp (1005);
-           !!!parse-error (type => 'bare hcro');
+           !!!parse-error (type => 'bare hcro', line => $l, column => $c);
            !!!back-next-input-character ($x_char, $self->{next_char});
            $self->{next_char} = 0x0023; # #
            return undef;
-Line 2254 
 sub _tokenize_attempt_to_consume_an_enti
+Line 2299 
 sub _tokenize_attempt_to_consume_an_enti
            !!!next-input-character;
          } else {
            !!!cp (1007);
-           !!!parse-error (type => 'no refc');
+           !!!parse-error (type => 'no refc', line => $l, column => $c);
          }
          if ($code == 0 or (0xD800 <= $code and $code <= 0xDFFF)) {
            !!!cp (1008);
-           !!!parse-error (type => sprintf 'invalid character reference:U+%04X', $code);
+           !!!parse-error (type => (sprintf 'invalid character reference:U+%04X', $code), line => $l, column => $c);
            $code = 0xFFFD;
          } elsif ($code > 0x10FFFF) {
            !!!cp (1009);
-           !!!parse-error (type => sprintf 'invalid character reference:U-%08X', $code);
+           !!!parse-error (type => (sprintf 'invalid character reference:U-%08X', $code), line => $l, column => $c);
            $code = 0xFFFD;
          } elsif ($code == 0x000D) {
            !!!cp (1010);
-           !!!parse-error (type => 'CR character reference');
+           !!!parse-error (type => 'CR character reference', line => $l, column => $c);
            $code = 0x000A;
          } elsif (0x80 <= $code and $code <= 0x9F) {
            !!!cp (1011);
-           !!!parse-error (type => sprintf 'C1 character reference:U+%04X', $code);
+           !!!parse-error (type => (sprintf 'C1 character reference:U+%04X', $code), line => $l, column => $c);
            $code = $c1_entity_char->{$code};
          }
          return {type => CHARACTER_TOKEN, data => chr $code,
-                 has_reference => 1};
+                 has_reference => 1, line => $l, column => $c};
        } # X
      } elsif (0x0030 <= $self->{next_char} and
               $self->{next_char} <= 0x0039) { # 0..9
-Line 2297 
 sub _tokenize_attempt_to_consume_an_enti
+Line 2342 
 sub _tokenize_attempt_to_consume_an_enti
          !!!next-input-character;
        } else {
          !!!cp (1014);
-         !!!parse-error (type => 'no refc');
+         !!!parse-error (type => 'no refc', line => $l, column => $c);
        }
        if ($code == 0 or (0xD800 <= $code and $code <= 0xDFFF)) {
          !!!cp (1015);
-         !!!parse-error (type => sprintf 'invalid character reference:U+%04X', $code);
+         !!!parse-error (type => (sprintf 'invalid character reference:U+%04X', $code), line => $l, column => $c);
          $code = 0xFFFD;
        } elsif ($code > 0x10FFFF) {
          !!!cp (1016);
-         !!!parse-error (type => sprintf 'invalid character reference:U-%08X', $code);
+         !!!parse-error (type => (sprintf 'invalid character reference:U-%08X', $code), line => $l, column => $c);
          $code = 0xFFFD;
        } elsif ($code == 0x000D) {
          !!!cp (1017);
-         !!!parse-error (type => 'CR character reference');
+         !!!parse-error (type => 'CR character reference', line => $l, column => $c);
          $code = 0x000A;
        } elsif (0x80 <= $code and $code <= 0x9F) {
          !!!cp (1018);
-         !!!parse-error (type => sprintf 'C1 character reference:U+%04X', $code);
+         !!!parse-error (type => (sprintf 'C1 character reference:U+%04X', $code), line => $l, column => $c);
          $code = $c1_entity_char->{$code};
        }
-       return {type => CHARACTER_TOKEN, data => chr $code, has_reference => 1};
+       return {type => CHARACTER_TOKEN, data => chr $code, has_reference => 1,
+               line => $l, column => $c};
      } else {
        !!!cp (1019);
-       !!!parse-error (type => 'bare nero');
+       !!!parse-error (type => 'bare nero', line => $l, column => $c);
        !!!back-next-input-character ($self->{next_char});
        $self->{next_char} = 0x0023; # #
        return undef;
-Line 2371 
 sub _tokenize_attempt_to_consume_an_enti
+Line 2417 
 sub _tokenize_attempt_to_consume_an_enti
      if ($match > 0) {
        !!!cp (1023);
-       return {type => CHARACTER_TOKEN, data => $value, has_reference => 1};
+       return {type => CHARACTER_TOKEN, data => $value, has_reference => 1,
+               line => $l, column => $c};
      } elsif ($match < 0) {
-       !!!parse-error (type => 'no refc');
+       !!!parse-error (type => 'no refc', line => $l, column => $c);
        if ($in_attr and $match < -1) {
          !!!cp (1024);
-         return {type => CHARACTER_TOKEN, data => '&'.$entity_name};
+         return {type => CHARACTER_TOKEN, data => '&'.$entity_name,
+                 line => $l, column => $c};
        } else {
          !!!cp (1025);
-         return {type => CHARACTER_TOKEN, data => $value, has_reference => 1};
+         return {type => CHARACTER_TOKEN, data => $value, has_reference => 1,
+                 line => $l, column => $c};
        }
      } else {
        !!!cp (1026);
-       !!!parse-error (type => 'bare ero');
+       !!!parse-error (type => 'bare ero', line => $l, column => $c);
        ## NOTE: "No characters are consumed" in the spec.
-       return {type => CHARACTER_TOKEN, data => '&'.$value};
+       return {type => CHARACTER_TOKEN, data => '&'.$value,
+               line => $l, column => $c};
      }
    } else {
      !!!cp (1027);
      ## no characters are consumed
-     !!!parse-error (type => 'bare ero');
+     !!!parse-error (type => 'bare ero', line => $l, column => $c);
      return undef;
    }
  } # _tokenize_attempt_to_consume_an_entity

 Legend:



Removed from v.1.111
 


changed lines


 
Added in v.1.112
 Legend:



Removed from v.1.111
 


changed lines


 
Added in v.1.112
-Removed from v.1.111
+Added in v.1.112

admin@suikawiki.org	ViewVC Help
Powered by ViewVC 1.1.24