/[suikacvs]/markup/html/whatpm/Whatpm/HTML.pm.src
Suika

Diff of /markup/html/whatpm/Whatpm/HTML.pm.src

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 1.16 by wakaba, Sat Jun 23 07:42:11 2007 UTC revision 1.43 by wakaba, Sat Jul 21 07:21:44 2007 UTC
# Line 2  package Whatpm::HTML; Line 2  package Whatpm::HTML;
2  use strict;  use strict;
3  our $VERSION=do{my @r=(q$Revision$=~/\d+/g);sprintf "%d."."%02d" x $#r,@r};  our $VERSION=do{my @r=(q$Revision$=~/\d+/g);sprintf "%d."."%02d" x $#r,@r};
4    
5  ## This is an early version of an HTML parser.  ## ISSUE:
6    ## var doc = implementation.createDocument (null, null, null);
7    ## doc.write ('');
8    ## alert (doc.compatMode);
9    
10    ## ISSUE: HTML5 revision 967 says that the encoding layer MUST NOT
11    ## strip BOM and the HTML layer MUST ignore it.  Whether we can do it
12    ## is not yet clear.
13    ## "{U+FEFF}..." in UTF-16BE/UTF-16LE is three or four characters?
14    ## "{U+FEFF}..." in GB18030?
15    
16  my $permitted_slash_tag_name = {  my $permitted_slash_tag_name = {
17    base => 1,    base => 1,
# Line 141  sub new ($) { Line 150  sub new ($) {
150    return $self;    return $self;
151  } # new  } # new
152    
153    sub CM_ENTITY () { 0b001 } # & markup in data
154    sub CM_LIMITED_MARKUP () { 0b010 } # < markup in data (limited)
155    sub CM_FULL_MARKUP () { 0b100 } # < markup in data (any)
156    
157    sub PLAINTEXT_CONTENT_MODEL () { 0 }
158    sub CDATA_CONTENT_MODEL () { CM_LIMITED_MARKUP }
159    sub RCDATA_CONTENT_MODEL () { CM_ENTITY | CM_LIMITED_MARKUP }
160    sub PCDATA_CONTENT_MODEL () { CM_ENTITY | CM_FULL_MARKUP }
161    
162  ## Implementations MUST act as if state machine in the spec  ## Implementations MUST act as if state machine in the spec
163    
164  sub _initialize_tokenizer ($) {  sub _initialize_tokenizer ($) {
165    my $self = shift;    my $self = shift;
166    $self->{state} = 'data'; # MUST    $self->{state} = 'data'; # MUST
167    $self->{content_model_flag} = 'PCDATA'; # be    $self->{content_model} = PCDATA_CONTENT_MODEL; # be
168    undef $self->{current_token}; # start tag, end tag, comment, or DOCTYPE    undef $self->{current_token}; # start tag, end tag, comment, or DOCTYPE
169    undef $self->{current_attribute};    undef $self->{current_attribute};
170    undef $self->{last_emitted_start_tag_name};    undef $self->{last_emitted_start_tag_name};
# Line 155  sub _initialize_tokenizer ($) { Line 173  sub _initialize_tokenizer ($) {
173    # $self->{next_input_character}    # $self->{next_input_character}
174    !!!next-input-character;    !!!next-input-character;
175    $self->{token} = [];    $self->{token} = [];
176      # $self->{escape}
177  } # _initialize_tokenizer  } # _initialize_tokenizer
178    
179  ## A token has:  ## A token has:
180  ##   ->{type} eq 'DOCTYPE', 'start tag', 'end tag', 'comment',  ##   ->{type} eq 'DOCTYPE', 'start tag', 'end tag', 'comment',
181  ##       'character', or 'end-of-file'  ##       'character', or 'end-of-file'
182  ##   ->{name} (DOCTYPE, start tag (tagname), end tag (tagname))  ##   ->{name} (DOCTYPE, start tag (tag name), end tag (tag name))
183      ## ISSUE: the spec need s/tagname/tag name/  ##   ->{public_identifier} (DOCTYPE)
184  ##   ->{error} == 1 or 0 (DOCTYPE)  ##   ->{system_identifier} (DOCTYPE)
185    ##   ->{correct} == 1 or 0 (DOCTYPE)
186  ##   ->{attributes} isa HASH (start tag, end tag)  ##   ->{attributes} isa HASH (start tag, end tag)
187  ##   ->{data} (comment, character)  ##   ->{data} (comment, character)
188    
 ## Macros  
 ##   Macros MUST be preceded by three EXCLAMATION MARKs.  
 ##   emit ($token)  
 ##     Emits the specified token.  
   
189  ## Emitted token MUST immediately be handled by the tree construction state.  ## Emitted token MUST immediately be handled by the tree construction state.
190    
191  ## Before each step, UA MAY check to see if either one of the scripts in  ## Before each step, UA MAY check to see if either one of the scripts in
# Line 188  sub _get_next_token ($) { Line 203  sub _get_next_token ($) {
203    A: {    A: {
204      if ($self->{state} eq 'data') {      if ($self->{state} eq 'data') {
205        if ($self->{next_input_character} == 0x0026) { # &        if ($self->{next_input_character} == 0x0026) { # &
206          if ($self->{content_model_flag} eq 'PCDATA' or          if ($self->{content_model} & CM_ENTITY) { # PCDATA | RCDATA
             $self->{content_model_flag} eq 'RCDATA') {  
207            $self->{state} = 'entity data';            $self->{state} = 'entity data';
208            !!!next-input-character;            !!!next-input-character;
209            redo A;            redo A;
# Line 197  sub _get_next_token ($) { Line 211  sub _get_next_token ($) {
211            #            #
212          }          }
213        } elsif ($self->{next_input_character} == 0x002D) { # -        } elsif ($self->{next_input_character} == 0x002D) { # -
214          if ($self->{content_model_flag} eq 'RCDATA' or          if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
             $self->{content_model_flag} eq 'CDATA') {  
215            unless ($self->{escape}) {            unless ($self->{escape}) {
216              if ($self->{prev_input_character}->[0] == 0x002D and # -              if ($self->{prev_input_character}->[0] == 0x002D and # -
217                  $self->{prev_input_character}->[1] == 0x0021 and # !                  $self->{prev_input_character}->[1] == 0x0021 and # !
# Line 210  sub _get_next_token ($) { Line 223  sub _get_next_token ($) {
223                    
224          #          #
225        } elsif ($self->{next_input_character} == 0x003C) { # <        } elsif ($self->{next_input_character} == 0x003C) { # <
226          if ($self->{content_model_flag} eq 'PCDATA' or          if ($self->{content_model} & CM_FULL_MARKUP or # PCDATA
227              (($self->{content_model_flag} eq 'CDATA' or              (($self->{content_model} & CM_LIMITED_MARKUP) and # CDATA | RCDATA
               $self->{content_model_flag} eq 'RCDATA') and  
228               not $self->{escape})) {               not $self->{escape})) {
229            $self->{state} = 'tag open';            $self->{state} = 'tag open';
230            !!!next-input-character;            !!!next-input-character;
# Line 222  sub _get_next_token ($) { Line 234  sub _get_next_token ($) {
234          }          }
235        } elsif ($self->{next_input_character} == 0x003E) { # >        } elsif ($self->{next_input_character} == 0x003E) { # >
236          if ($self->{escape} and          if ($self->{escape} and
237              ($self->{content_model_flag} eq 'RCDATA' or              ($self->{content_model} & CM_LIMITED_MARKUP)) { # RCDATA | CDATA
              $self->{content_model_flag} eq 'CDATA')) {  
238            if ($self->{prev_input_character}->[0] == 0x002D and # -            if ($self->{prev_input_character}->[0] == 0x002D and # -
239                $self->{prev_input_character}->[1] == 0x002D) { # -                $self->{prev_input_character}->[1] == 0x002D) { # -
240              delete $self->{escape};              delete $self->{escape};
# Line 247  sub _get_next_token ($) { Line 258  sub _get_next_token ($) {
258      } elsif ($self->{state} eq 'entity data') {      } elsif ($self->{state} eq 'entity data') {
259        ## (cannot happen in CDATA state)        ## (cannot happen in CDATA state)
260                
261        my $token = $self->_tokenize_attempt_to_consume_an_entity;        my $token = $self->_tokenize_attempt_to_consume_an_entity (0);
262    
263        $self->{state} = 'data';        $self->{state} = 'data';
264        # next-input-character is already done        # next-input-character is already done
# Line 260  sub _get_next_token ($) { Line 271  sub _get_next_token ($) {
271    
272        redo A;        redo A;
273      } elsif ($self->{state} eq 'tag open') {      } elsif ($self->{state} eq 'tag open') {
274        if ($self->{content_model_flag} eq 'RCDATA' or        if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
           $self->{content_model_flag} eq 'CDATA') {  
275          if ($self->{next_input_character} == 0x002F) { # /          if ($self->{next_input_character} == 0x002F) { # /
276            !!!next-input-character;            !!!next-input-character;
277            $self->{state} = 'close tag open';            $self->{state} = 'close tag open';
# Line 274  sub _get_next_token ($) { Line 284  sub _get_next_token ($) {
284    
285            redo A;            redo A;
286          }          }
287        } elsif ($self->{content_model_flag} eq 'PCDATA') {        } elsif ($self->{content_model} & CM_FULL_MARKUP) { # PCDATA
288          if ($self->{next_input_character} == 0x0021) { # !          if ($self->{next_input_character} == 0x0021) { # !
289            $self->{state} = 'markup declaration open';            $self->{state} = 'markup declaration open';
290            !!!next-input-character;            !!!next-input-character;
# Line 321  sub _get_next_token ($) { Line 331  sub _get_next_token ($) {
331            redo A;            redo A;
332          }          }
333        } else {        } else {
334          die "$0: $self->{content_model_flag}: Unknown content model flag";          die "$0: $self->{content_model} in tag open";
335        }        }
336      } elsif ($self->{state} eq 'close tag open') {      } elsif ($self->{state} eq 'close tag open') {
337        if ($self->{content_model_flag} eq 'RCDATA' or        if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
338            $self->{content_model_flag} eq 'CDATA') {          if (defined $self->{last_emitted_start_tag_name}) {
339          my @next_char;            ## NOTE: <http://krijnhoetmer.nl/irc-logs/whatwg/20070626#l-564>
340          TAGNAME: for (my $i = 0; $i < length $self->{last_emitted_start_tag_name}; $i++) {            my @next_char;
341              TAGNAME: for (my $i = 0; $i < length $self->{last_emitted_start_tag_name}; $i++) {
342                push @next_char, $self->{next_input_character};
343                my $c = ord substr ($self->{last_emitted_start_tag_name}, $i, 1);
344                my $C = 0x0061 <= $c && $c <= 0x007A ? $c - 0x0020 : $c;
345                if ($self->{next_input_character} == $c or $self->{next_input_character} == $C) {
346                  !!!next-input-character;
347                  next TAGNAME;
348                } else {
349                  $self->{next_input_character} = shift @next_char; # reconsume
350                  !!!back-next-input-character (@next_char);
351                  $self->{state} = 'data';
352    
353                  !!!emit ({type => 'character', data => '</'});
354      
355                  redo A;
356                }
357              }
358            push @next_char, $self->{next_input_character};            push @next_char, $self->{next_input_character};
359            my $c = ord substr ($self->{last_emitted_start_tag_name}, $i, 1);        
360            my $C = 0x0061 <= $c && $c <= 0x007A ? $c - 0x0020 : $c;            unless ($self->{next_input_character} == 0x0009 or # HT
361            if ($self->{next_input_character} == $c or $self->{next_input_character} == $C) {                    $self->{next_input_character} == 0x000A or # LF
362              !!!next-input-character;                    $self->{next_input_character} == 0x000B or # VT
363              next TAGNAME;                    $self->{next_input_character} == 0x000C or # FF
364            } else {                    $self->{next_input_character} == 0x0020 or # SP
365              !!!parse-error (type => 'unmatched end tag');                    $self->{next_input_character} == 0x003E or # >
366                      $self->{next_input_character} == 0x002F or # /
367                      $self->{next_input_character} == -1) {
368              $self->{next_input_character} = shift @next_char; # reconsume              $self->{next_input_character} = shift @next_char; # reconsume
369              !!!back-next-input-character (@next_char);              !!!back-next-input-character (@next_char);
370              $self->{state} = 'data';              $self->{state} = 'data';
   
371              !!!emit ({type => 'character', data => '</'});              !!!emit ({type => 'character', data => '</'});
   
372              redo A;              redo A;
373              } else {
374                $self->{next_input_character} = shift @next_char;
375                !!!back-next-input-character (@next_char);
376                # and consume...
377            }            }
378          }          } else {
379          push @next_char, $self->{next_input_character};            ## No start tag token has ever been emitted
380                  # next-input-character is already done
         unless ($self->{next_input_character} == 0x0009 or # HT  
                 $self->{next_input_character} == 0x000A or # LF  
                 $self->{next_input_character} == 0x000B or # VT  
                 $self->{next_input_character} == 0x000C or # FF  
                 $self->{next_input_character} == 0x0020 or # SP  
                 $self->{next_input_character} == 0x003E or # >  
                 $self->{next_input_character} == 0x002F or # /  
                 $self->{next_input_character} == 0x003C or # <  
                 $self->{next_input_character} == -1) {  
           !!!parse-error (type => 'unmatched end tag');  
           $self->{next_input_character} = shift @next_char; # reconsume  
           !!!back-next-input-character (@next_char);  
381            $self->{state} = 'data';            $self->{state} = 'data';
   
382            !!!emit ({type => 'character', data => '</'});            !!!emit ({type => 'character', data => '</'});
   
383            redo A;            redo A;
         } else {  
           $self->{next_input_character} = shift @next_char;  
           !!!back-next-input-character (@next_char);  
           # and consume...  
384          }          }
385        }        }
386                
# Line 415  sub _get_next_token ($) { Line 428  sub _get_next_token ($) {
428          redo A;          redo A;
429        } elsif ($self->{next_input_character} == 0x003E) { # >        } elsif ($self->{next_input_character} == 0x003E) { # >
430          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{current_token}->{type} eq 'start tag') {
431              $self->{current_token}->{first_start_tag}
432                  = not defined $self->{last_emitted_start_tag_name};
433            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
434          } elsif ($self->{current_token}->{type} eq 'end tag') {          } elsif ($self->{current_token}->{type} eq 'end tag') {
435            $self->{content_model_flag} = 'PCDATA'; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
436            if ($self->{current_token}->{attributes}) {            if ($self->{current_token}->{attributes}) {
437              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
438            }            }
# Line 428  sub _get_next_token ($) { Line 443  sub _get_next_token ($) {
443          !!!next-input-character;          !!!next-input-character;
444    
445          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{current_token}); # start tag or end tag
         undef $self->{current_token};  
446    
447          redo A;          redo A;
448        } elsif (0x0041 <= $self->{next_input_character} and        } elsif (0x0041 <= $self->{next_input_character} and
# Line 438  sub _get_next_token ($) { Line 452  sub _get_next_token ($) {
452          ## Stay in this state          ## Stay in this state
453          !!!next-input-character;          !!!next-input-character;
454          redo A;          redo A;
455        } elsif ($self->{next_input_character} == 0x003C or # <        } elsif ($self->{next_input_character} == -1) {
                $self->{next_input_character} == -1) {  
456          !!!parse-error (type => 'unclosed tag');          !!!parse-error (type => 'unclosed tag');
457          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{current_token}->{type} eq 'start tag') {
458              $self->{current_token}->{first_start_tag}
459                  = not defined $self->{last_emitted_start_tag_name};
460            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
461          } elsif ($self->{current_token}->{type} eq 'end tag') {          } elsif ($self->{current_token}->{type} eq 'end tag') {
462            $self->{content_model_flag} = 'PCDATA'; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
463            if ($self->{current_token}->{attributes}) {            if ($self->{current_token}->{attributes}) {
464              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
465            }            }
# Line 455  sub _get_next_token ($) { Line 470  sub _get_next_token ($) {
470          # reconsume          # reconsume
471    
472          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{current_token}); # start tag or end tag
         undef $self->{current_token};  
473    
474          redo A;          redo A;
475        } elsif ($self->{next_input_character} == 0x002F) { # /        } elsif ($self->{next_input_character} == 0x002F) { # /
# Line 489  sub _get_next_token ($) { Line 503  sub _get_next_token ($) {
503          redo A;          redo A;
504        } elsif ($self->{next_input_character} == 0x003E) { # >        } elsif ($self->{next_input_character} == 0x003E) { # >
505          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{current_token}->{type} eq 'start tag') {
506              $self->{current_token}->{first_start_tag}
507                  = not defined $self->{last_emitted_start_tag_name};
508            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
509          } elsif ($self->{current_token}->{type} eq 'end tag') {          } elsif ($self->{current_token}->{type} eq 'end tag') {
510            $self->{content_model_flag} = 'PCDATA'; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
511            if ($self->{current_token}->{attributes}) {            if ($self->{current_token}->{attributes}) {
512              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
513            }            }
# Line 502  sub _get_next_token ($) { Line 518  sub _get_next_token ($) {
518          !!!next-input-character;          !!!next-input-character;
519    
520          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{current_token}); # start tag or end tag
         undef $self->{current_token};  
521    
522          redo A;          redo A;
523        } elsif (0x0041 <= $self->{next_input_character} and        } elsif (0x0041 <= $self->{next_input_character} and
# Line 525  sub _get_next_token ($) { Line 540  sub _get_next_token ($) {
540          ## Stay in the state          ## Stay in the state
541          # next-input-character is already done          # next-input-character is already done
542          redo A;          redo A;
543        } elsif ($self->{next_input_character} == 0x003C or # <        } elsif ($self->{next_input_character} == -1) {
                $self->{next_input_character} == -1) {  
544          !!!parse-error (type => 'unclosed tag');          !!!parse-error (type => 'unclosed tag');
545          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{current_token}->{type} eq 'start tag') {
546              $self->{current_token}->{first_start_tag}
547                  = not defined $self->{last_emitted_start_tag_name};
548            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
549          } elsif ($self->{current_token}->{type} eq 'end tag') {          } elsif ($self->{current_token}->{type} eq 'end tag') {
550            $self->{content_model_flag} = 'PCDATA'; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
551            if ($self->{current_token}->{attributes}) {            if ($self->{current_token}->{attributes}) {
552              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
553            }            }
# Line 542  sub _get_next_token ($) { Line 558  sub _get_next_token ($) {
558          # reconsume          # reconsume
559    
560          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{current_token}); # start tag or end tag
         undef $self->{current_token};  
561    
562          redo A;          redo A;
563        } else {        } else {
# Line 556  sub _get_next_token ($) { Line 571  sub _get_next_token ($) {
571        my $before_leave = sub {        my $before_leave = sub {
572          if (exists $self->{current_token}->{attributes} # start tag or end tag          if (exists $self->{current_token}->{attributes} # start tag or end tag
573              ->{$self->{current_attribute}->{name}}) { # MUST              ->{$self->{current_attribute}->{name}}) { # MUST
574            !!!parse-error (type => 'dupulicate attribute');            !!!parse-error (type => 'duplicate attribute:'.$self->{current_attribute}->{name});
575            ## Discard $self->{current_attribute} # MUST            ## Discard $self->{current_attribute} # MUST
576          } else {          } else {
577            $self->{current_token}->{attributes}->{$self->{current_attribute}->{name}}            $self->{current_token}->{attributes}->{$self->{current_attribute}->{name}}
# Line 581  sub _get_next_token ($) { Line 596  sub _get_next_token ($) {
596        } elsif ($self->{next_input_character} == 0x003E) { # >        } elsif ($self->{next_input_character} == 0x003E) { # >
597          $before_leave->();          $before_leave->();
598          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{current_token}->{type} eq 'start tag') {
599              $self->{current_token}->{first_start_tag}
600                  = not defined $self->{last_emitted_start_tag_name};
601            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
602          } elsif ($self->{current_token}->{type} eq 'end tag') {          } elsif ($self->{current_token}->{type} eq 'end tag') {
603            $self->{content_model_flag} = 'PCDATA'; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
604            if ($self->{current_token}->{attributes}) {            if ($self->{current_token}->{attributes}) {
605              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
606            }            }
# Line 594  sub _get_next_token ($) { Line 611  sub _get_next_token ($) {
611          !!!next-input-character;          !!!next-input-character;
612    
613          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{current_token}); # start tag or end tag
         undef $self->{current_token};  
614    
615          redo A;          redo A;
616        } elsif (0x0041 <= $self->{next_input_character} and        } elsif (0x0041 <= $self->{next_input_character} and
# Line 617  sub _get_next_token ($) { Line 633  sub _get_next_token ($) {
633          $self->{state} = 'before attribute name';          $self->{state} = 'before attribute name';
634          # next-input-character is already done          # next-input-character is already done
635          redo A;          redo A;
636        } elsif ($self->{next_input_character} == 0x003C or # <        } elsif ($self->{next_input_character} == -1) {
                $self->{next_input_character} == -1) {  
637          !!!parse-error (type => 'unclosed tag');          !!!parse-error (type => 'unclosed tag');
638          $before_leave->();          $before_leave->();
639          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{current_token}->{type} eq 'start tag') {
640              $self->{current_token}->{first_start_tag}
641                  = not defined $self->{last_emitted_start_tag_name};
642            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
643          } elsif ($self->{current_token}->{type} eq 'end tag') {          } elsif ($self->{current_token}->{type} eq 'end tag') {
644            $self->{content_model_flag} = 'PCDATA'; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
645            if ($self->{current_token}->{attributes}) {            if ($self->{current_token}->{attributes}) {
646              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
647            }            }
# Line 635  sub _get_next_token ($) { Line 652  sub _get_next_token ($) {
652          # reconsume          # reconsume
653    
654          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{current_token}); # start tag or end tag
         undef $self->{current_token};  
655    
656          redo A;          redo A;
657        } else {        } else {
# Line 659  sub _get_next_token ($) { Line 675  sub _get_next_token ($) {
675          redo A;          redo A;
676        } elsif ($self->{next_input_character} == 0x003E) { # >        } elsif ($self->{next_input_character} == 0x003E) { # >
677          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{current_token}->{type} eq 'start tag') {
678              $self->{current_token}->{first_start_tag}
679                  = not defined $self->{last_emitted_start_tag_name};
680            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
681          } elsif ($self->{current_token}->{type} eq 'end tag') {          } elsif ($self->{current_token}->{type} eq 'end tag') {
682            $self->{content_model_flag} = 'PCDATA'; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
683            if ($self->{current_token}->{attributes}) {            if ($self->{current_token}->{attributes}) {
684              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
685            }            }
# Line 672  sub _get_next_token ($) { Line 690  sub _get_next_token ($) {
690          !!!next-input-character;          !!!next-input-character;
691    
692          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{current_token}); # start tag or end tag
         undef $self->{current_token};  
693    
694          redo A;          redo A;
695        } elsif (0x0041 <= $self->{next_input_character} and        } elsif (0x0041 <= $self->{next_input_character} and
# Line 691  sub _get_next_token ($) { Line 708  sub _get_next_token ($) {
708            #            #
709          } else {          } else {
710            !!!parse-error (type => 'nestc');            !!!parse-error (type => 'nestc');
711              ## TODO: Different error type for <aa / bb> than <aa/>
712          }          }
713          $self->{state} = 'before attribute name';          $self->{state} = 'before attribute name';
714          # next-input-character is already done          # next-input-character is already done
715          redo A;          redo A;
716        } elsif ($self->{next_input_character} == 0x003C or # <        } elsif ($self->{next_input_character} == -1) {
                $self->{next_input_character} == -1) {  
717          !!!parse-error (type => 'unclosed tag');          !!!parse-error (type => 'unclosed tag');
718          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{current_token}->{type} eq 'start tag') {
719              $self->{current_token}->{first_start_tag}
720                  = not defined $self->{last_emitted_start_tag_name};
721            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
722          } elsif ($self->{current_token}->{type} eq 'end tag') {          } elsif ($self->{current_token}->{type} eq 'end tag') {
723            $self->{content_model_flag} = 'PCDATA'; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
724            if ($self->{current_token}->{attributes}) {            if ($self->{current_token}->{attributes}) {
725              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
726            }            }
# Line 712  sub _get_next_token ($) { Line 731  sub _get_next_token ($) {
731          # reconsume          # reconsume
732    
733          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{current_token}); # start tag or end tag
         undef $self->{current_token};  
734    
735          redo A;          redo A;
736        } else {        } else {
# Line 745  sub _get_next_token ($) { Line 763  sub _get_next_token ($) {
763          redo A;          redo A;
764        } elsif ($self->{next_input_character} == 0x003E) { # >        } elsif ($self->{next_input_character} == 0x003E) { # >
765          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{current_token}->{type} eq 'start tag') {
766              $self->{current_token}->{first_start_tag}
767                  = not defined $self->{last_emitted_start_tag_name};
768            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
769          } elsif ($self->{current_token}->{type} eq 'end tag') {          } elsif ($self->{current_token}->{type} eq 'end tag') {
770            $self->{content_model_flag} = 'PCDATA'; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
771            if ($self->{current_token}->{attributes}) {            if ($self->{current_token}->{attributes}) {
772              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
773            }            }
# Line 758  sub _get_next_token ($) { Line 778  sub _get_next_token ($) {
778          !!!next-input-character;          !!!next-input-character;
779    
780          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{current_token}); # start tag or end tag
         undef $self->{current_token};  
781    
782          redo A;          redo A;
783        } elsif ($self->{next_input_character} == 0x003C or # <        } elsif ($self->{next_input_character} == -1) {
                $self->{next_input_character} == -1) {  
784          !!!parse-error (type => 'unclosed tag');          !!!parse-error (type => 'unclosed tag');
785          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{current_token}->{type} eq 'start tag') {
786              $self->{current_token}->{first_start_tag}
787                  = not defined $self->{last_emitted_start_tag_name};
788            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
789          } elsif ($self->{current_token}->{type} eq 'end tag') {          } elsif ($self->{current_token}->{type} eq 'end tag') {
790            $self->{content_model_flag} = 'PCDATA'; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
791            if ($self->{current_token}->{attributes}) {            if ($self->{current_token}->{attributes}) {
792              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
793            }            }
# Line 778  sub _get_next_token ($) { Line 798  sub _get_next_token ($) {
798          ## reconsume          ## reconsume
799    
800          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{current_token}); # start tag or end tag
         undef $self->{current_token};  
801    
802          redo A;          redo A;
803        } else {        } else {
# Line 800  sub _get_next_token ($) { Line 819  sub _get_next_token ($) {
819        } elsif ($self->{next_input_character} == -1) {        } elsif ($self->{next_input_character} == -1) {
820          !!!parse-error (type => 'unclosed attribute value');          !!!parse-error (type => 'unclosed attribute value');
821          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{current_token}->{type} eq 'start tag') {
822              $self->{current_token}->{first_start_tag}
823                  = not defined $self->{last_emitted_start_tag_name};
824            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
825          } elsif ($self->{current_token}->{type} eq 'end tag') {          } elsif ($self->{current_token}->{type} eq 'end tag') {
826            $self->{content_model_flag} = 'PCDATA'; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
827            if ($self->{current_token}->{attributes}) {            if ($self->{current_token}->{attributes}) {
828              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
829            }            }
# Line 813  sub _get_next_token ($) { Line 834  sub _get_next_token ($) {
834          ## reconsume          ## reconsume
835    
836          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{current_token}); # start tag or end tag
         undef $self->{current_token};  
837    
838          redo A;          redo A;
839        } else {        } else {
# Line 835  sub _get_next_token ($) { Line 855  sub _get_next_token ($) {
855        } elsif ($self->{next_input_character} == -1) {        } elsif ($self->{next_input_character} == -1) {
856          !!!parse-error (type => 'unclosed attribute value');          !!!parse-error (type => 'unclosed attribute value');
857          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{current_token}->{type} eq 'start tag') {
858              $self->{current_token}->{first_start_tag}
859                  = not defined $self->{last_emitted_start_tag_name};
860            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
861          } elsif ($self->{current_token}->{type} eq 'end tag') {          } elsif ($self->{current_token}->{type} eq 'end tag') {
862            $self->{content_model_flag} = 'PCDATA'; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
863            if ($self->{current_token}->{attributes}) {            if ($self->{current_token}->{attributes}) {
864              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
865            }            }
# Line 848  sub _get_next_token ($) { Line 870  sub _get_next_token ($) {
870          ## reconsume          ## reconsume
871    
872          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{current_token}); # start tag or end tag
         undef $self->{current_token};  
873    
874          redo A;          redo A;
875        } else {        } else {
# Line 873  sub _get_next_token ($) { Line 894  sub _get_next_token ($) {
894          redo A;          redo A;
895        } elsif ($self->{next_input_character} == 0x003E) { # >        } elsif ($self->{next_input_character} == 0x003E) { # >
896          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{current_token}->{type} eq 'start tag') {
897              $self->{current_token}->{first_start_tag}
898                  = not defined $self->{last_emitted_start_tag_name};
899            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
900          } elsif ($self->{current_token}->{type} eq 'end tag') {          } elsif ($self->{current_token}->{type} eq 'end tag') {
901            $self->{content_model_flag} = 'PCDATA'; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
902            if ($self->{current_token}->{attributes}) {            if ($self->{current_token}->{attributes}) {
903              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
904            }            }
# Line 886  sub _get_next_token ($) { Line 909  sub _get_next_token ($) {
909          !!!next-input-character;          !!!next-input-character;
910    
911          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{current_token}); # start tag or end tag
         undef $self->{current_token};  
912    
913          redo A;          redo A;
914        } elsif ($self->{next_input_character} == 0x003C or # <        } elsif ($self->{next_input_character} == -1) {
                $self->{next_input_character} == -1) {  
915          !!!parse-error (type => 'unclosed tag');          !!!parse-error (type => 'unclosed tag');
916          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{current_token}->{type} eq 'start tag') {
917              $self->{current_token}->{first_start_tag}
918                  = not defined $self->{last_emitted_start_tag_name};
919            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
920          } elsif ($self->{current_token}->{type} eq 'end tag') {          } elsif ($self->{current_token}->{type} eq 'end tag') {
921            $self->{content_model_flag} = 'PCDATA'; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
922            if ($self->{current_token}->{attributes}) {            if ($self->{current_token}->{attributes}) {
923              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
924            }            }
# Line 906  sub _get_next_token ($) { Line 929  sub _get_next_token ($) {
929          ## reconsume          ## reconsume
930    
931          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{current_token}); # start tag or end tag
         undef $self->{current_token};  
932    
933          redo A;          redo A;
934        } else {        } else {
# Line 916  sub _get_next_token ($) { Line 938  sub _get_next_token ($) {
938          redo A;          redo A;
939        }        }
940      } elsif ($self->{state} eq 'entity in attribute value') {      } elsif ($self->{state} eq 'entity in attribute value') {
941        my $token = $self->_tokenize_attempt_to_consume_an_entity;        my $token = $self->_tokenize_attempt_to_consume_an_entity (1);
942    
943        unless (defined $token) {        unless (defined $token) {
944          $self->{current_attribute}->{value} .= '&';          $self->{current_attribute}->{value} .= '&';
# Line 965  sub _get_next_token ($) { Line 987  sub _get_next_token ($) {
987          push @next_char, $self->{next_input_character};          push @next_char, $self->{next_input_character};
988          if ($self->{next_input_character} == 0x002D) { # -          if ($self->{next_input_character} == 0x002D) { # -
989            $self->{current_token} = {type => 'comment', data => ''};            $self->{current_token} = {type => 'comment', data => ''};
990            $self->{state} = 'comment';            $self->{state} = 'comment start';
991            !!!next-input-character;            !!!next-input-character;
992            redo A;            redo A;
993          }          }
# Line 1007  sub _get_next_token ($) { Line 1029  sub _get_next_token ($) {
1029          }          }
1030        }        }
1031    
1032        !!!parse-error (type => 'bogus comment open');        !!!parse-error (type => 'bogus comment');
1033        $self->{next_input_character} = shift @next_char;        $self->{next_input_character} = shift @next_char;
1034        !!!back-next-input-character (@next_char);        !!!back-next-input-character (@next_char);
1035        $self->{state} = 'bogus comment';        $self->{state} = 'bogus comment';
# Line 1015  sub _get_next_token ($) { Line 1037  sub _get_next_token ($) {
1037                
1038        ## ISSUE: typos in spec: chacacters, is is a parse error        ## ISSUE: typos in spec: chacacters, is is a parse error
1039        ## ISSUE: spec is somewhat unclear on "is the first character that will be in the comment"; what is "that will be in the comment" is what the algorithm defines, isn't it?        ## ISSUE: spec is somewhat unclear on "is the first character that will be in the comment"; what is "that will be in the comment" is what the algorithm defines, isn't it?
1040        } elsif ($self->{state} eq 'comment start') {
1041          if ($self->{next_input_character} == 0x002D) { # -
1042            $self->{state} = 'comment start dash';
1043            !!!next-input-character;
1044            redo A;
1045          } elsif ($self->{next_input_character} == 0x003E) { # >
1046            !!!parse-error (type => 'bogus comment');
1047            $self->{state} = 'data';
1048            !!!next-input-character;
1049    
1050            !!!emit ($self->{current_token}); # comment
1051    
1052            redo A;
1053          } elsif ($self->{next_input_character} == -1) {
1054            !!!parse-error (type => 'unclosed comment');
1055            $self->{state} = 'data';
1056            ## reconsume
1057    
1058            !!!emit ($self->{current_token}); # comment
1059    
1060            redo A;
1061          } else {
1062            $self->{current_token}->{data} # comment
1063                .= chr ($self->{next_input_character});
1064            $self->{state} = 'comment';
1065            !!!next-input-character;
1066            redo A;
1067          }
1068        } elsif ($self->{state} eq 'comment start dash') {
1069          if ($self->{next_input_character} == 0x002D) { # -
1070            $self->{state} = 'comment end';
1071            !!!next-input-character;
1072            redo A;
1073          } elsif ($self->{next_input_character} == 0x003E) { # >
1074            !!!parse-error (type => 'bogus comment');
1075            $self->{state} = 'data';
1076            !!!next-input-character;
1077    
1078            !!!emit ($self->{current_token}); # comment
1079    
1080            redo A;
1081          } elsif ($self->{next_input_character} == -1) {
1082            !!!parse-error (type => 'unclosed comment');
1083            $self->{state} = 'data';
1084            ## reconsume
1085    
1086            !!!emit ($self->{current_token}); # comment
1087    
1088            redo A;
1089          } else {
1090            $self->{current_token}->{data} # comment
1091                .= '-' . chr ($self->{next_input_character});
1092            $self->{state} = 'comment';
1093            !!!next-input-character;
1094            redo A;
1095          }
1096      } elsif ($self->{state} eq 'comment') {      } elsif ($self->{state} eq 'comment') {
1097        if ($self->{next_input_character} == 0x002D) { # -        if ($self->{next_input_character} == 0x002D) { # -
1098          $self->{state} = 'comment dash';          $self->{state} = 'comment end dash';
1099          !!!next-input-character;          !!!next-input-character;
1100          redo A;          redo A;
1101        } elsif ($self->{next_input_character} == -1) {        } elsif ($self->{next_input_character} == -1) {
# Line 1026  sub _get_next_token ($) { Line 1104  sub _get_next_token ($) {
1104          ## reconsume          ## reconsume
1105    
1106          !!!emit ($self->{current_token}); # comment          !!!emit ($self->{current_token}); # comment
         undef $self->{current_token};  
1107    
1108          redo A;          redo A;
1109        } else {        } else {
# Line 1035  sub _get_next_token ($) { Line 1112  sub _get_next_token ($) {
1112          !!!next-input-character;          !!!next-input-character;
1113          redo A;          redo A;
1114        }        }
1115      } elsif ($self->{state} eq 'comment dash') {      } elsif ($self->{state} eq 'comment end dash') {
1116        if ($self->{next_input_character} == 0x002D) { # -        if ($self->{next_input_character} == 0x002D) { # -
1117          $self->{state} = 'comment end';          $self->{state} = 'comment end';
1118          !!!next-input-character;          !!!next-input-character;
# Line 1046  sub _get_next_token ($) { Line 1123  sub _get_next_token ($) {
1123          ## reconsume          ## reconsume
1124    
1125          !!!emit ($self->{current_token}); # comment          !!!emit ($self->{current_token}); # comment
         undef $self->{current_token};  
1126    
1127          redo A;          redo A;
1128        } else {        } else {
# Line 1061  sub _get_next_token ($) { Line 1137  sub _get_next_token ($) {
1137          !!!next-input-character;          !!!next-input-character;
1138    
1139          !!!emit ($self->{current_token}); # comment          !!!emit ($self->{current_token}); # comment
         undef $self->{current_token};  
1140    
1141          redo A;          redo A;
1142        } elsif ($self->{next_input_character} == 0x002D) { # -        } elsif ($self->{next_input_character} == 0x002D) { # -
# Line 1076  sub _get_next_token ($) { Line 1151  sub _get_next_token ($) {
1151          ## reconsume          ## reconsume
1152    
1153          !!!emit ($self->{current_token}); # comment          !!!emit ($self->{current_token}); # comment
         undef $self->{current_token};  
1154    
1155          redo A;          redo A;
1156        } else {        } else {
# Line 1110  sub _get_next_token ($) { Line 1184  sub _get_next_token ($) {
1184          ## Stay in the state          ## Stay in the state
1185          !!!next-input-character;          !!!next-input-character;
1186          redo A;          redo A;
       } elsif (0x0061 <= $self->{next_input_character} and  
                $self->{next_input_character} <= 0x007A) { # a..z  
 ## ISSUE: "Set the token's name name to the" in the spec  
         $self->{current_token} = {type => 'DOCTYPE',  
                           name => chr ($self->{next_input_character} - 0x0020),  
                           error => 1};  
         $self->{state} = 'DOCTYPE name';  
         !!!next-input-character;  
         redo A;  
1187        } elsif ($self->{next_input_character} == 0x003E) { # >        } elsif ($self->{next_input_character} == 0x003E) { # >
1188          !!!parse-error (type => 'no DOCTYPE name');          !!!parse-error (type => 'no DOCTYPE name');
1189          $self->{state} = 'data';          $self->{state} = 'data';
1190          !!!next-input-character;          !!!next-input-character;
1191    
1192          !!!emit ({type => 'DOCTYPE', name => '', error => 1});          !!!emit ({type => 'DOCTYPE'}); # incorrect
1193    
1194          redo A;          redo A;
1195        } elsif ($self->{next_input_character} == -1) {        } elsif ($self->{next_input_character} == -1) {
# Line 1132  sub _get_next_token ($) { Line 1197  sub _get_next_token ($) {
1197          $self->{state} = 'data';          $self->{state} = 'data';
1198          ## reconsume          ## reconsume
1199    
1200          !!!emit ({type => 'DOCTYPE', name => '', error => 1});          !!!emit ({type => 'DOCTYPE'}); # incorrect
1201    
1202          redo A;          redo A;
1203        } else {        } else {
1204          $self->{current_token} = {type => 'DOCTYPE',          $self->{current_token}
1205                            name => chr ($self->{next_input_character}),              = {type => 'DOCTYPE',
1206                            error => 1};                 name => chr ($self->{next_input_character}),
1207                   correct => 1};
1208  ## ISSUE: "Set the token's name name to the" in the spec  ## ISSUE: "Set the token's name name to the" in the spec
1209          $self->{state} = 'DOCTYPE name';          $self->{state} = 'DOCTYPE name';
1210          !!!next-input-character;          !!!next-input-character;
1211          redo A;          redo A;
1212        }        }
1213      } elsif ($self->{state} eq 'DOCTYPE name') {      } elsif ($self->{state} eq 'DOCTYPE name') {
1214    ## ISSUE: Redundant "First," in the spec.
1215        if ($self->{next_input_character} == 0x0009 or # HT        if ($self->{next_input_character} == 0x0009 or # HT
1216            $self->{next_input_character} == 0x000A or # LF            $self->{next_input_character} == 0x000A or # LF
1217            $self->{next_input_character} == 0x000B or # VT            $self->{next_input_character} == 0x000B or # VT
1218            $self->{next_input_character} == 0x000C or # FF            $self->{next_input_character} == 0x000C or # FF
1219            $self->{next_input_character} == 0x0020) { # SP            $self->{next_input_character} == 0x0020) { # SP
         $self->{current_token}->{error} = ($self->{current_token}->{name} ne 'HTML'); # DOCTYPE  
1220          $self->{state} = 'after DOCTYPE name';          $self->{state} = 'after DOCTYPE name';
1221          !!!next-input-character;          !!!next-input-character;
1222          redo A;          redo A;
1223        } elsif ($self->{next_input_character} == 0x003E) { # >        } elsif ($self->{next_input_character} == 0x003E) { # >
         $self->{current_token}->{error} = ($self->{current_token}->{name} ne 'HTML'); # DOCTYPE  
1224          $self->{state} = 'data';          $self->{state} = 'data';
1225          !!!next-input-character;          !!!next-input-character;
1226    
1227          !!!emit ($self->{current_token}); # DOCTYPE          !!!emit ($self->{current_token}); # DOCTYPE
         undef $self->{current_token};  
1228    
1229          redo A;          redo A;
       } elsif (0x0061 <= $self->{next_input_character} and  
                $self->{next_input_character} <= 0x007A) { # a..z  
         $self->{current_token}->{name} .= chr ($self->{next_input_character} - 0x0020); # DOCTYPE  
         #$self->{current_token}->{error} = ($self->{current_token}->{name} ne 'HTML');  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
1230        } elsif ($self->{next_input_character} == -1) {        } elsif ($self->{next_input_character} == -1) {
1231          !!!parse-error (type => 'unclosed DOCTYPE');          !!!parse-error (type => 'unclosed DOCTYPE');
         $self->{current_token}->{error} = ($self->{current_token}->{name} ne 'HTML'); # DOCTYPE  
1232          $self->{state} = 'data';          $self->{state} = 'data';
1233          ## reconsume          ## reconsume
1234    
1235          !!!emit ($self->{current_token});          delete $self->{current_token}->{correct};
1236          undef $self->{current_token};          !!!emit ($self->{current_token}); # DOCTYPE
1237    
1238          redo A;          redo A;
1239        } else {        } else {
1240          $self->{current_token}->{name}          $self->{current_token}->{name}
1241            .= chr ($self->{next_input_character}); # DOCTYPE            .= chr ($self->{next_input_character}); # DOCTYPE
         #$self->{current_token}->{error} = ($self->{current_token}->{name} ne 'HTML');  
1242          ## Stay in the state          ## Stay in the state
1243          !!!next-input-character;          !!!next-input-character;
1244          redo A;          redo A;
# Line 1202  sub _get_next_token ($) { Line 1257  sub _get_next_token ($) {
1257          !!!next-input-character;          !!!next-input-character;
1258    
1259          !!!emit ($self->{current_token}); # DOCTYPE          !!!emit ($self->{current_token}); # DOCTYPE
         undef $self->{current_token};  
1260    
1261          redo A;          redo A;
1262        } elsif ($self->{next_input_character} == -1) {        } elsif ($self->{next_input_character} == -1) {
# Line 1210  sub _get_next_token ($) { Line 1264  sub _get_next_token ($) {
1264          $self->{state} = 'data';          $self->{state} = 'data';
1265          ## reconsume          ## reconsume
1266    
1267            delete $self->{current_token}->{correct};
1268            !!!emit ($self->{current_token}); # DOCTYPE
1269    
1270            redo A;
1271          } elsif ($self->{next_input_character} == 0x0050 or # P
1272                   $self->{next_input_character} == 0x0070) { # p
1273            !!!next-input-character;
1274            if ($self->{next_input_character} == 0x0055 or # U
1275                $self->{next_input_character} == 0x0075) { # u
1276              !!!next-input-character;
1277              if ($self->{next_input_character} == 0x0042 or # B
1278                  $self->{next_input_character} == 0x0062) { # b
1279                !!!next-input-character;
1280                if ($self->{next_input_character} == 0x004C or # L
1281                    $self->{next_input_character} == 0x006C) { # l
1282                  !!!next-input-character;
1283                  if ($self->{next_input_character} == 0x0049 or # I
1284                      $self->{next_input_character} == 0x0069) { # i
1285                    !!!next-input-character;
1286                    if ($self->{next_input_character} == 0x0043 or # C
1287                        $self->{next_input_character} == 0x0063) { # c
1288                      $self->{state} = 'before DOCTYPE public identifier';
1289                      !!!next-input-character;
1290                      redo A;
1291                    }
1292                  }
1293                }
1294              }
1295            }
1296    
1297            #
1298          } elsif ($self->{next_input_character} == 0x0053 or # S
1299                   $self->{next_input_character} == 0x0073) { # s
1300            !!!next-input-character;
1301            if ($self->{next_input_character} == 0x0059 or # Y
1302                $self->{next_input_character} == 0x0079) { # y
1303              !!!next-input-character;
1304              if ($self->{next_input_character} == 0x0053 or # S
1305                  $self->{next_input_character} == 0x0073) { # s
1306                !!!next-input-character;
1307                if ($self->{next_input_character} == 0x0054 or # T
1308                    $self->{next_input_character} == 0x0074) { # t
1309                  !!!next-input-character;
1310                  if ($self->{next_input_character} == 0x0045 or # E
1311                      $self->{next_input_character} == 0x0065) { # e
1312                    !!!next-input-character;
1313                    if ($self->{next_input_character} == 0x004D or # M
1314                        $self->{next_input_character} == 0x006D) { # m
1315                      $self->{state} = 'before DOCTYPE system identifier';
1316                      !!!next-input-character;
1317                      redo A;
1318                    }
1319                  }
1320                }
1321              }
1322            }
1323    
1324            #
1325          } else {
1326            !!!next-input-character;
1327            #
1328          }
1329    
1330          !!!parse-error (type => 'string after DOCTYPE name');
1331          $self->{state} = 'bogus DOCTYPE';
1332          # next-input-character is already done
1333          redo A;
1334        } elsif ($self->{state} eq 'before DOCTYPE public identifier') {
1335          if ({
1336                0x0009 => 1, 0x000A => 1, 0x000B => 1, 0x000C => 1, 0x0020 => 1,
1337                #0x000D => 1, # HT, LF, VT, FF, SP, CR
1338              }->{$self->{next_input_character}}) {
1339            ## Stay in the state
1340            !!!next-input-character;
1341            redo A;
1342          } elsif ($self->{next_input_character} eq 0x0022) { # "
1343            $self->{current_token}->{public_identifier} = ''; # DOCTYPE
1344            $self->{state} = 'DOCTYPE public identifier (double-quoted)';
1345            !!!next-input-character;
1346            redo A;
1347          } elsif ($self->{next_input_character} eq 0x0027) { # '
1348            $self->{current_token}->{public_identifier} = ''; # DOCTYPE
1349            $self->{state} = 'DOCTYPE public identifier (single-quoted)';
1350            !!!next-input-character;
1351            redo A;
1352          } elsif ($self->{next_input_character} eq 0x003E) { # >
1353            !!!parse-error (type => 'no PUBLIC literal');
1354    
1355            $self->{state} = 'data';
1356            !!!next-input-character;
1357    
1358            delete $self->{current_token}->{correct};
1359            !!!emit ($self->{current_token}); # DOCTYPE
1360    
1361            redo A;
1362          } elsif ($self->{next_input_character} == -1) {
1363            !!!parse-error (type => 'unclosed DOCTYPE');
1364    
1365            $self->{state} = 'data';
1366            ## reconsume
1367    
1368            delete $self->{current_token}->{correct};
1369          !!!emit ($self->{current_token}); # DOCTYPE          !!!emit ($self->{current_token}); # DOCTYPE
         undef $self->{current_token};  
1370    
1371          redo A;          redo A;
1372        } else {        } else {
1373          !!!parse-error (type => 'string after DOCTYPE name');          !!!parse-error (type => 'string after PUBLIC');
1374          $self->{current_token}->{error} = 1; # DOCTYPE          $self->{state} = 'bogus DOCTYPE';
1375            !!!next-input-character;
1376            redo A;
1377          }
1378        } elsif ($self->{state} eq 'DOCTYPE public identifier (double-quoted)') {
1379          if ($self->{next_input_character} == 0x0022) { # "
1380            $self->{state} = 'after DOCTYPE public identifier';
1381            !!!next-input-character;
1382            redo A;
1383          } elsif ($self->{next_input_character} == -1) {
1384            !!!parse-error (type => 'unclosed PUBLIC literal');
1385    
1386            $self->{state} = 'data';
1387            ## reconsume
1388    
1389            delete $self->{current_token}->{correct};
1390            !!!emit ($self->{current_token}); # DOCTYPE
1391    
1392            redo A;
1393          } else {
1394            $self->{current_token}->{public_identifier} # DOCTYPE
1395                .= chr $self->{next_input_character};
1396            ## Stay in the state
1397            !!!next-input-character;
1398            redo A;
1399          }
1400        } elsif ($self->{state} eq 'DOCTYPE public identifier (single-quoted)') {
1401          if ($self->{next_input_character} == 0x0027) { # '
1402            $self->{state} = 'after DOCTYPE public identifier';
1403            !!!next-input-character;
1404            redo A;
1405          } elsif ($self->{next_input_character} == -1) {
1406            !!!parse-error (type => 'unclosed PUBLIC literal');
1407    
1408            $self->{state} = 'data';
1409            ## reconsume
1410    
1411            delete $self->{current_token}->{correct};
1412            !!!emit ($self->{current_token}); # DOCTYPE
1413    
1414            redo A;
1415          } else {
1416            $self->{current_token}->{public_identifier} # DOCTYPE
1417                .= chr $self->{next_input_character};
1418            ## Stay in the state
1419            !!!next-input-character;
1420            redo A;
1421          }
1422        } elsif ($self->{state} eq 'after DOCTYPE public identifier') {
1423          if ({
1424                0x0009 => 1, 0x000A => 1, 0x000B => 1, 0x000C => 1, 0x0020 => 1,
1425                #0x000D => 1, # HT, LF, VT, FF, SP, CR
1426              }->{$self->{next_input_character}}) {
1427            ## Stay in the state
1428            !!!next-input-character;
1429            redo A;
1430          } elsif ($self->{next_input_character} == 0x0022) { # "
1431            $self->{current_token}->{system_identifier} = ''; # DOCTYPE
1432            $self->{state} = 'DOCTYPE system identifier (double-quoted)';
1433            !!!next-input-character;
1434            redo A;
1435          } elsif ($self->{next_input_character} == 0x0027) { # '
1436            $self->{current_token}->{system_identifier} = ''; # DOCTYPE
1437            $self->{state} = 'DOCTYPE system identifier (single-quoted)';
1438            !!!next-input-character;
1439            redo A;
1440          } elsif ($self->{next_input_character} == 0x003E) { # >
1441            $self->{state} = 'data';
1442            !!!next-input-character;
1443    
1444            !!!emit ($self->{current_token}); # DOCTYPE
1445    
1446            redo A;
1447          } elsif ($self->{next_input_character} == -1) {
1448            !!!parse-error (type => 'unclosed DOCTYPE');
1449    
1450            $self->{state} = 'data';
1451            ## reconsume
1452    
1453            delete $self->{current_token}->{correct};
1454            !!!emit ($self->{current_token}); # DOCTYPE
1455    
1456            redo A;
1457          } else {
1458            !!!parse-error (type => 'string after PUBLIC literal');
1459            $self->{state} = 'bogus DOCTYPE';
1460            !!!next-input-character;
1461            redo A;
1462          }
1463        } elsif ($self->{state} eq 'before DOCTYPE system identifier') {
1464          if ({
1465                0x0009 => 1, 0x000A => 1, 0x000B => 1, 0x000C => 1, 0x0020 => 1,
1466                #0x000D => 1, # HT, LF, VT, FF, SP, CR
1467              }->{$self->{next_input_character}}) {
1468            ## Stay in the state
1469            !!!next-input-character;
1470            redo A;
1471          } elsif ($self->{next_input_character} == 0x0022) { # "
1472            $self->{current_token}->{system_identifier} = ''; # DOCTYPE
1473            $self->{state} = 'DOCTYPE system identifier (double-quoted)';
1474            !!!next-input-character;
1475            redo A;
1476          } elsif ($self->{next_input_character} == 0x0027) { # '
1477            $self->{current_token}->{system_identifier} = ''; # DOCTYPE
1478            $self->{state} = 'DOCTYPE system identifier (single-quoted)';
1479            !!!next-input-character;
1480            redo A;
1481          } elsif ($self->{next_input_character} == 0x003E) { # >
1482            !!!parse-error (type => 'no SYSTEM literal');
1483            $self->{state} = 'data';
1484            !!!next-input-character;
1485    
1486            delete $self->{current_token}->{correct};
1487            !!!emit ($self->{current_token}); # DOCTYPE
1488    
1489            redo A;
1490          } elsif ($self->{next_input_character} == -1) {
1491            !!!parse-error (type => 'unclosed DOCTYPE');
1492    
1493            $self->{state} = 'data';
1494            ## reconsume
1495    
1496            delete $self->{current_token}->{correct};
1497            !!!emit ($self->{current_token}); # DOCTYPE
1498    
1499            redo A;
1500          } else {
1501            !!!parse-error (type => 'string after SYSTEM');
1502            $self->{state} = 'bogus DOCTYPE';
1503            !!!next-input-character;
1504            redo A;
1505          }
1506        } elsif ($self->{state} eq 'DOCTYPE system identifier (double-quoted)') {
1507          if ($self->{next_input_character} == 0x0022) { # "
1508            $self->{state} = 'after DOCTYPE system identifier';
1509            !!!next-input-character;
1510            redo A;
1511          } elsif ($self->{next_input_character} == -1) {
1512            !!!parse-error (type => 'unclosed SYSTEM literal');
1513    
1514            $self->{state} = 'data';
1515            ## reconsume
1516    
1517            delete $self->{current_token}->{correct};
1518            !!!emit ($self->{current_token}); # DOCTYPE
1519    
1520            redo A;
1521          } else {
1522            $self->{current_token}->{system_identifier} # DOCTYPE
1523                .= chr $self->{next_input_character};
1524            ## Stay in the state
1525            !!!next-input-character;
1526            redo A;
1527          }
1528        } elsif ($self->{state} eq 'DOCTYPE system identifier (single-quoted)') {
1529          if ($self->{next_input_character} == 0x0027) { # '
1530            $self->{state} = 'after DOCTYPE system identifier';
1531            !!!next-input-character;
1532            redo A;
1533          } elsif ($self->{next_input_character} == -1) {
1534            !!!parse-error (type => 'unclosed SYSTEM literal');
1535    
1536            $self->{state} = 'data';
1537            ## reconsume
1538    
1539            delete $self->{current_token}->{correct};
1540            !!!emit ($self->{current_token}); # DOCTYPE
1541    
1542            redo A;
1543          } else {
1544            $self->{current_token}->{system_identifier} # DOCTYPE
1545                .= chr $self->{next_input_character};
1546            ## Stay in the state
1547            !!!next-input-character;
1548            redo A;
1549          }
1550        } elsif ($self->{state} eq 'after DOCTYPE system identifier') {
1551          if ({
1552                0x0009 => 1, 0x000A => 1, 0x000B => 1, 0x000C => 1, 0x0020 => 1,
1553                #0x000D => 1, # HT, LF, VT, FF, SP, CR
1554              }->{$self->{next_input_character}}) {
1555            ## Stay in the state
1556            !!!next-input-character;
1557            redo A;
1558          } elsif ($self->{next_input_character} == 0x003E) { # >
1559            $self->{state} = 'data';
1560            !!!next-input-character;
1561    
1562            !!!emit ($self->{current_token}); # DOCTYPE
1563    
1564            redo A;
1565          } elsif ($self->{next_input_character} == -1) {
1566            !!!parse-error (type => 'unclosed DOCTYPE');
1567    
1568            $self->{state} = 'data';
1569            ## reconsume
1570    
1571            delete $self->{current_token}->{correct};
1572            !!!emit ($self->{current_token}); # DOCTYPE
1573    
1574            redo A;
1575          } else {
1576            !!!parse-error (type => 'string after SYSTEM literal');
1577          $self->{state} = 'bogus DOCTYPE';          $self->{state} = 'bogus DOCTYPE';
1578          !!!next-input-character;          !!!next-input-character;
1579          redo A;          redo A;
# Line 1226  sub _get_next_token ($) { Line 1583  sub _get_next_token ($) {
1583          $self->{state} = 'data';          $self->{state} = 'data';
1584          !!!next-input-character;          !!!next-input-character;
1585    
1586            delete $self->{current_token}->{correct};
1587          !!!emit ($self->{current_token}); # DOCTYPE          !!!emit ($self->{current_token}); # DOCTYPE
         undef $self->{current_token};  
1588    
1589          redo A;          redo A;
1590        } elsif ($self->{next_input_character} == -1) {        } elsif ($self->{next_input_character} == -1) {
# Line 1235  sub _get_next_token ($) { Line 1592  sub _get_next_token ($) {
1592          $self->{state} = 'data';          $self->{state} = 'data';
1593          ## reconsume          ## reconsume
1594    
1595            delete $self->{current_token}->{correct};
1596          !!!emit ($self->{current_token}); # DOCTYPE          !!!emit ($self->{current_token}); # DOCTYPE
         undef $self->{current_token};  
1597    
1598          redo A;          redo A;
1599        } else {        } else {
# Line 1252  sub _get_next_token ($) { Line 1609  sub _get_next_token ($) {
1609    die "$0: _get_next_token: unexpected case";    die "$0: _get_next_token: unexpected case";
1610  } # _get_next_token  } # _get_next_token
1611    
1612  sub _tokenize_attempt_to_consume_an_entity ($) {  sub _tokenize_attempt_to_consume_an_entity ($$) {
1613    my $self = shift;    my ($self, $in_attr) = @_;
1614      
1615    if ($self->{next_input_character} == 0x0023) { # #    if ({
1616           0x0009 => 1, 0x000A => 1, 0x000B => 1, 0x000C => 1, # HT, LF, VT, FF,
1617           0x0020 => 1, 0x003C => 1, 0x0026 => 1, -1 => 1, # SP, <, & # 0x000D # CR
1618          }->{$self->{next_input_character}}) {
1619        ## Don't consume
1620        ## No error
1621        return undef;
1622      } elsif ($self->{next_input_character} == 0x0023) { # #
1623      !!!next-input-character;      !!!next-input-character;
1624      if ($self->{next_input_character} == 0x0078 or # x      if ($self->{next_input_character} == 0x0078 or # x
1625          $self->{next_input_character} == 0x0058) { # X          $self->{next_input_character} == 0x0058) { # X
1626        my $num;        my $code;
1627        X: {        X: {
1628          my $x_char = $self->{next_input_character};          my $x_char = $self->{next_input_character};
1629          !!!next-input-character;          !!!next-input-character;
1630          if (0x0030 <= $self->{next_input_character} and          if (0x0030 <= $self->{next_input_character} and
1631              $self->{next_input_character} <= 0x0039) { # 0..9              $self->{next_input_character} <= 0x0039) { # 0..9
1632            $num ||= 0;            $code ||= 0;
1633            $num *= 0x10;            $code *= 0x10;
1634            $num += $self->{next_input_character} - 0x0030;            $code += $self->{next_input_character} - 0x0030;
1635            redo X;            redo X;
1636          } elsif (0x0061 <= $self->{next_input_character} and          } elsif (0x0061 <= $self->{next_input_character} and
1637                   $self->{next_input_character} <= 0x0066) { # a..f                   $self->{next_input_character} <= 0x0066) { # a..f
1638            ## ISSUE: the spec says U+0078, which is apparently incorrect            $code ||= 0;
1639            $num ||= 0;            $code *= 0x10;
1640            $num *= 0x10;            $code += $self->{next_input_character} - 0x0060 + 9;
           $num += $self->{next_input_character} - 0x0060 + 9;  
1641            redo X;            redo X;
1642          } elsif (0x0041 <= $self->{next_input_character} and          } elsif (0x0041 <= $self->{next_input_character} and
1643                   $self->{next_input_character} <= 0x0046) { # A..F                   $self->{next_input_character} <= 0x0046) { # A..F
1644            ## ISSUE: the spec says U+0058, which is apparently incorrect            $code ||= 0;
1645            $num ||= 0;            $code *= 0x10;
1646            $num *= 0x10;            $code += $self->{next_input_character} - 0x0040 + 9;
           $num += $self->{next_input_character} - 0x0040 + 9;  
1647            redo X;            redo X;
1648          } elsif (not defined $num) { # no hexadecimal digit          } elsif (not defined $code) { # no hexadecimal digit
1649            !!!parse-error (type => 'bare hcro');            !!!parse-error (type => 'bare hcro');
1650              !!!back-next-input-character ($x_char, $self->{next_input_character});
1651            $self->{next_input_character} = 0x0023; # #            $self->{next_input_character} = 0x0023; # #
           !!!back-next-input-character ($x_char);  
1652            return undef;            return undef;
1653          } elsif ($self->{next_input_character} == 0x003B) { # ;          } elsif ($self->{next_input_character} == 0x003B) { # ;
1654            !!!next-input-character;            !!!next-input-character;
# Line 1294  sub _tokenize_attempt_to_consume_an_enti Line 1656  sub _tokenize_attempt_to_consume_an_enti
1656            !!!parse-error (type => 'no refc');            !!!parse-error (type => 'no refc');
1657          }          }
1658    
1659          ## TODO: check the definition for |a valid Unicode character|.          if ($code == 0 or (0xD800 <= $code and $code <= 0xDFFF)) {
1660          ## <http://lists.whatwg.org/pipermail/whatwg-whatwg.org/2006-December/thread.html#8189>            !!!parse-error (type => sprintf 'invalid character reference:U+%04X', $code);
1661          if ($num > 1114111 or $num == 0) {            $code = 0xFFFD;
1662            $num = 0xFFFD; # REPLACEMENT CHARACTER          } elsif ($code > 0x10FFFF) {
1663            ## ISSUE: Why this is not an error?            !!!parse-error (type => sprintf 'invalid character reference:U-%08X', $code);
1664          } elsif (0x80 <= $num and $num <= 0x9F) {            $code = 0xFFFD;
1665            !!!parse-error (type => sprintf 'c1 entity:U+%04X', $num);          } elsif ($code == 0x000D) {
1666            $num = $c1_entity_char->{$num};            !!!parse-error (type => 'CR character reference');
1667              $code = 0x000A;
1668            } elsif (0x80 <= $code and $code <= 0x9F) {
1669              !!!parse-error (type => sprintf 'C1 character reference:U+%04X', $code);
1670              $code = $c1_entity_char->{$code};
1671          }          }
1672    
1673          return {type => 'character', data => chr $num};          return {type => 'character', data => chr $code};
1674        } # X        } # X
1675      } elsif (0x0030 <= $self->{next_input_character} and      } elsif (0x0030 <= $self->{next_input_character} and
1676               $self->{next_input_character} <= 0x0039) { # 0..9               $self->{next_input_character} <= 0x0039) { # 0..9
# Line 1325  sub _tokenize_attempt_to_consume_an_enti Line 1691  sub _tokenize_attempt_to_consume_an_enti
1691          !!!parse-error (type => 'no refc');          !!!parse-error (type => 'no refc');
1692        }        }
1693    
1694        ## TODO: check the definition for |a valid Unicode character|.        if ($code == 0 or (0xD800 <= $code and $code <= 0xDFFF)) {
1695        if ($code > 1114111 or $code == 0) {          !!!parse-error (type => sprintf 'invalid character reference:U+%04X', $code);
1696          $code = 0xFFFD; # REPLACEMENT CHARACTER          $code = 0xFFFD;
1697          ## ISSUE: Why this is not an error?        } elsif ($code > 0x10FFFF) {
1698            !!!parse-error (type => sprintf 'invalid character reference:U-%08X', $code);
1699            $code = 0xFFFD;
1700          } elsif ($code == 0x000D) {
1701            !!!parse-error (type => 'CR character reference');
1702            $code = 0x000A;
1703        } elsif (0x80 <= $code and $code <= 0x9F) {        } elsif (0x80 <= $code and $code <= 0x9F) {
1704          !!!parse-error (type => sprintf 'c1 entity:U+%04X', $code);          !!!parse-error (type => sprintf 'C1 character reference:U+%04X', $code);
1705          $code = $c1_entity_char->{$code};          $code = $c1_entity_char->{$code};
1706        }        }
1707                
# Line 1349  sub _tokenize_attempt_to_consume_an_enti Line 1720  sub _tokenize_attempt_to_consume_an_enti
1720      !!!next-input-character;      !!!next-input-character;
1721    
1722      my $value = $entity_name;      my $value = $entity_name;
1723      my $match;      my $match = 0;
1724      require Whatpm::_NamedEntityList;      require Whatpm::_NamedEntityList;
1725      our $EntityChar;      our $EntityChar;
1726    
# Line 1364  sub _tokenize_attempt_to_consume_an_enti Line 1735  sub _tokenize_attempt_to_consume_an_enti
1735              $self->{next_input_character} == 0x003B)) { # ;              $self->{next_input_character} == 0x003B)) { # ;
1736        $entity_name .= chr $self->{next_input_character};        $entity_name .= chr $self->{next_input_character};
1737        if (defined $EntityChar->{$entity_name}) {        if (defined $EntityChar->{$entity_name}) {
         $value = $EntityChar->{$entity_name};  
1738          if ($self->{next_input_character} == 0x003B) { # ;          if ($self->{next_input_character} == 0x003B) { # ;
1739              $value = $EntityChar->{$entity_name};
1740            $match = 1;            $match = 1;
1741            !!!next-input-character;            !!!next-input-character;
1742            last;            last;
1743          } else {          } else {
1744              $value = $EntityChar->{$entity_name};
1745            $match = -1;            $match = -1;
1746              !!!next-input-character;
1747          }          }
1748        } else {        } else {
1749          $value .= chr $self->{next_input_character};          $value .= chr $self->{next_input_character};
1750            $match *= 2;
1751            !!!next-input-character;
1752        }        }
       !!!next-input-character;  
1753      }      }
1754            
1755      if ($match > 0) {      if ($match > 0) {
1756        return {type => 'character', data => $value};        return {type => 'character', data => $value};
1757      } elsif ($match < 0) {      } elsif ($match < 0) {
1758        !!!parse-error (type => 'refc');        !!!parse-error (type => 'no refc');
1759        return {type => 'character', data => $value};        if ($in_attr and $match < -1) {
1760            return {type => 'character', data => '&'.$entity_name};
1761          } else {
1762            return {type => 'character', data => $value};
1763          }
1764      } else {      } else {
1765        !!!parse-error (type => 'bare ero');        !!!parse-error (type => 'bare ero');
1766        ## NOTE: No characters are consumed in the spec.        ## NOTE: No characters are consumed in the spec.
1767        !!!back-token ({type => 'character', data => $value});        return {type => 'character', data => '&'.$value};
       return undef;  
1768      }      }
1769    } else {    } else {
1770      ## no characters are consumed      ## no characters are consumed
# Line 1402  sub _initialize_tree_constructor ($) { Line 1779  sub _initialize_tree_constructor ($) {
1779    $self->{document}->strict_error_checking (0);    $self->{document}->strict_error_checking (0);
1780    ## TODO: Turn mutation events off # MUST    ## TODO: Turn mutation events off # MUST
1781    ## TODO: Turn loose Document option (manakai extension) on    ## TODO: Turn loose Document option (manakai extension) on
1782    ## TODO: Mark the Document as an HTML document # MUST    $self->{document}->manakai_is_html (1); # MUST
1783  } # _initialize_tree_constructor  } # _initialize_tree_constructor
1784    
1785  sub _terminate_tree_constructor ($) {  sub _terminate_tree_constructor ($) {
# Line 1442  sub _construct_tree ($) { Line 1819  sub _construct_tree ($) {
1819    
1820  sub _tree_construction_initial ($) {  sub _tree_construction_initial ($) {
1821    my $self = shift;    my $self = shift;
1822    B: {    INITIAL: {
1823        if ($token->{type} eq 'DOCTYPE') {      if ($token->{type} eq 'DOCTYPE') {
1824          if ($token->{error}) {        ## NOTE: Conformance checkers MAY, instead of reporting "not HTML5"
1825            ## ISSUE: Spec currently left this case undefined.        ## error, switch to a conformance checking mode for another
1826            !!!parse-error (type => 'bogus DOCTYPE');        ## language.
1827          }        my $doctype_name = $token->{name};
1828          my $doctype = $self->{document}->create_document_type_definition        $doctype_name = '' unless defined $doctype_name;
1829            ($token->{name});        $doctype_name =~ tr/a-z/A-Z/;
1830          $self->{document}->append_child ($doctype);        if (not defined $token->{name} or # <!DOCTYPE>
1831          #$phase = 'root element';            defined $token->{public_identifier} or
1832          !!!next-token;            defined $token->{system_identifier}) {
1833          #redo B;          !!!parse-error (type => 'not HTML5');
1834          return;        } elsif ($doctype_name ne 'HTML') {
1835        } elsif ({          ## ISSUE: ASCII case-insensitive? (in fact it does not matter)
1836                  comment => 1,          !!!parse-error (type => 'not HTML5');
1837                  'start tag' => 1,        }
1838                  'end tag' => 1,        
1839                  'end-of-file' => 1,        my $doctype = $self->{document}->create_document_type_definition
1840                 }->{$token->{type}}) {          ($token->{name}); ## ISSUE: If name is missing (e.g. <!DOCTYPE>)?
1841          ## ISSUE: Spec currently left this case undefined.        $doctype->public_id ($token->{public_identifier})
1842          !!!parse-error (type => 'missing DOCTYPE');            if defined $token->{public_identifier};
1843          #$phase = 'root element';        $doctype->system_id ($token->{system_identifier})
1844          ## reprocess            if defined $token->{system_identifier};
1845          #redo B;        ## NOTE: Other DocumentType attributes are null or empty lists.
1846          return;        ## ISSUE: internalSubset = null??
1847        } elsif ($token->{type} eq 'character') {        $self->{document}->append_child ($doctype);
1848          if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {        
1849            $self->{document}->manakai_append_text ($1);        if (not $token->{correct} or $doctype_name ne 'HTML') {
1850            ## ISSUE: DOM3 Core does not allow Document > Text          $self->{document}->manakai_compat_mode ('quirks');
1851            unless (length $token->{data}) {        } elsif (defined $token->{public_identifier}) {
1852              ## Stay in the phase          my $pubid = $token->{public_identifier};
1853              !!!next-token;          $pubid =~ tr/a-z/A-z/;
1854              redo B;          if ({
1855              "+//SILMARIL//DTD HTML PRO V0R11 19970101//EN" => 1,
1856              "-//ADVASOFT LTD//DTD HTML 3.0 ASWEDIT + EXTENSIONS//EN" => 1,
1857              "-//AS//DTD HTML 3.0 ASWEDIT + EXTENSIONS//EN" => 1,
1858              "-//IETF//DTD HTML 2.0 LEVEL 1//EN" => 1,
1859              "-//IETF//DTD HTML 2.0 LEVEL 2//EN" => 1,
1860              "-//IETF//DTD HTML 2.0 STRICT LEVEL 1//EN" => 1,
1861              "-//IETF//DTD HTML 2.0 STRICT LEVEL 2//EN" => 1,
1862              "-//IETF//DTD HTML 2.0 STRICT//EN" => 1,
1863              "-//IETF//DTD HTML 2.0//EN" => 1,
1864              "-//IETF//DTD HTML 2.1E//EN" => 1,
1865              "-//IETF//DTD HTML 3.0//EN" => 1,
1866              "-//IETF//DTD HTML 3.0//EN//" => 1,
1867              "-//IETF//DTD HTML 3.2 FINAL//EN" => 1,
1868              "-//IETF//DTD HTML 3.2//EN" => 1,
1869              "-//IETF//DTD HTML 3//EN" => 1,
1870              "-//IETF//DTD HTML LEVEL 0//EN" => 1,
1871              "-//IETF//DTD HTML LEVEL 0//EN//2.0" => 1,
1872              "-//IETF//DTD HTML LEVEL 1//EN" => 1,
1873              "-//IETF//DTD HTML LEVEL 1//EN//2.0" => 1,
1874              "-//IETF//DTD HTML LEVEL 2//EN" => 1,
1875              "-//IETF//DTD HTML LEVEL 2//EN//2.0" => 1,
1876              "-//IETF//DTD HTML LEVEL 3//EN" => 1,
1877              "-//IETF//DTD HTML LEVEL 3//EN//3.0" => 1,
1878              "-//IETF//DTD HTML STRICT LEVEL 0//EN" => 1,
1879              "-//IETF//DTD HTML STRICT LEVEL 0//EN//2.0" => 1,
1880              "-//IETF//DTD HTML STRICT LEVEL 1//EN" => 1,
1881              "-//IETF//DTD HTML STRICT LEVEL 1//EN//2.0" => 1,
1882              "-//IETF//DTD HTML STRICT LEVEL 2//EN" => 1,
1883              "-//IETF//DTD HTML STRICT LEVEL 2//EN//2.0" => 1,
1884              "-//IETF//DTD HTML STRICT LEVEL 3//EN" => 1,
1885              "-//IETF//DTD HTML STRICT LEVEL 3//EN//3.0" => 1,
1886              "-//IETF//DTD HTML STRICT//EN" => 1,
1887              "-//IETF//DTD HTML STRICT//EN//2.0" => 1,
1888              "-//IETF//DTD HTML STRICT//EN//3.0" => 1,
1889              "-//IETF//DTD HTML//EN" => 1,
1890              "-//IETF//DTD HTML//EN//2.0" => 1,
1891              "-//IETF//DTD HTML//EN//3.0" => 1,
1892              "-//METRIUS//DTD METRIUS PRESENTATIONAL//EN" => 1,
1893              "-//MICROSOFT//DTD INTERNET EXPLORER 2.0 HTML STRICT//EN" => 1,
1894              "-//MICROSOFT//DTD INTERNET EXPLORER 2.0 HTML//EN" => 1,
1895              "-//MICROSOFT//DTD INTERNET EXPLORER 2.0 TABLES//EN" => 1,
1896              "-//MICROSOFT//DTD INTERNET EXPLORER 3.0 HTML STRICT//EN" => 1,
1897              "-//MICROSOFT//DTD INTERNET EXPLORER 3.0 HTML//EN" => 1,
1898              "-//MICROSOFT//DTD INTERNET EXPLORER 3.0 TABLES//EN" => 1,
1899              "-//NETSCAPE COMM. CORP.//DTD HTML//EN" => 1,
1900              "-//NETSCAPE COMM. CORP.//DTD STRICT HTML//EN" => 1,
1901              "-//O'REILLY AND ASSOCIATES//DTD HTML 2.0//EN" => 1,
1902              "-//O'REILLY AND ASSOCIATES//DTD HTML EXTENDED 1.0//EN" => 1,
1903              "-//SPYGLASS//DTD HTML 2.0 EXTENDED//EN" => 1,
1904              "-//SQ//DTD HTML 2.0 HOTMETAL + EXTENSIONS//EN" => 1,
1905              "-//SUN MICROSYSTEMS CORP.//DTD HOTJAVA HTML//EN" => 1,
1906              "-//SUN MICROSYSTEMS CORP.//DTD HOTJAVA STRICT HTML//EN" => 1,
1907              "-//W3C//DTD HTML 3 1995-03-24//EN" => 1,
1908              "-//W3C//DTD HTML 3.2 DRAFT//EN" => 1,
1909              "-//W3C//DTD HTML 3.2 FINAL//EN" => 1,
1910              "-//W3C//DTD HTML 3.2//EN" => 1,
1911              "-//W3C//DTD HTML 3.2S DRAFT//EN" => 1,
1912              "-//W3C//DTD HTML 4.0 FRAMESET//EN" => 1,
1913              "-//W3C//DTD HTML 4.0 TRANSITIONAL//EN" => 1,
1914              "-//W3C//DTD HTML EXPERIMETNAL 19960712//EN" => 1,
1915              "-//W3C//DTD HTML EXPERIMENTAL 970421//EN" => 1,
1916              "-//W3C//DTD W3 HTML//EN" => 1,
1917              "-//W3O//DTD W3 HTML 3.0//EN" => 1,
1918              "-//W3O//DTD W3 HTML 3.0//EN//" => 1,
1919              "-//W3O//DTD W3 HTML STRICT 3.0//EN//" => 1,
1920              "-//WEBTECHS//DTD MOZILLA HTML 2.0//EN" => 1,
1921              "-//WEBTECHS//DTD MOZILLA HTML//EN" => 1,
1922              "-/W3C/DTD HTML 4.0 TRANSITIONAL/EN" => 1,
1923              "HTML" => 1,
1924            }->{$pubid}) {
1925              $self->{document}->manakai_compat_mode ('quirks');
1926            } elsif ($pubid eq "-//W3C//DTD HTML 4.01 FRAMESET//EN" or
1927                     $pubid eq "-//W3C//DTD HTML 4.01 TRANSITIONAL//EN") {
1928              if (defined $token->{system_identifier}) {
1929                $self->{document}->manakai_compat_mode ('quirks');
1930              } else {
1931                $self->{document}->manakai_compat_mode ('limited quirks');
1932            }            }
1933            } elsif ($pubid eq "-//W3C//DTD XHTML 1.0 Frameset//EN" or
1934                     $pubid eq "-//W3C//DTD XHTML 1.0 Transitional//EN") {
1935              $self->{document}->manakai_compat_mode ('limited quirks');
1936            }
1937          }
1938          if (defined $token->{system_identifier}) {
1939            my $sysid = $token->{system_identifier};
1940            $sysid =~ tr/A-Z/a-z/;
1941            if ($sysid eq "http://www.ibm.com/data/dtd/v11/ibmxhtml1-transitional.dtd") {
1942              $self->{document}->manakai_compat_mode ('quirks');
1943            }
1944          }
1945          
1946          ## Go to the root element phase.
1947          !!!next-token;
1948          return;
1949        } elsif ({
1950                  'start tag' => 1,
1951                  'end tag' => 1,
1952                  'end-of-file' => 1,
1953                 }->{$token->{type}}) {
1954          !!!parse-error (type => 'no DOCTYPE');
1955          $self->{document}->manakai_compat_mode ('quirks');
1956          ## Go to the root element phase
1957          ## reprocess
1958          return;
1959        } elsif ($token->{type} eq 'character') {
1960          if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) { # \x0D
1961            ## Ignore the token
1962    
1963            unless (length $token->{data}) {
1964              ## Stay in the phase
1965              !!!next-token;
1966              redo INITIAL;
1967          }          }
         ## ISSUE: Spec currently left this case undefined.  
         !!!parse-error (type => 'missing DOCTYPE');  
         #$phase = 'root element';  
         ## reprocess  
         #redo B;  
         return;  
       } else {  
         die "$0: $token->{type}: Unknown token";  
1968        }        }
1969      } # B  
1970          !!!parse-error (type => 'no DOCTYPE');
1971          $self->{document}->manakai_compat_mode ('quirks');
1972          ## Go to the root element phase
1973          ## reprocess
1974          return;
1975        } elsif ($token->{type} eq 'comment') {
1976          my $comment = $self->{document}->create_comment ($token->{data});
1977          $self->{document}->append_child ($comment);
1978          
1979          ## Stay in the phase.
1980          !!!next-token;
1981          redo INITIAL;
1982        } else {
1983          die "$0: $token->{type}: Unknown token";
1984        }
1985      } # INITIAL
1986  } # _tree_construction_initial  } # _tree_construction_initial
1987    
1988  sub _tree_construction_root_element ($) {  sub _tree_construction_root_element ($) {
# Line 1506  sub _tree_construction_root_element ($) Line 2002  sub _tree_construction_root_element ($)
2002          !!!next-token;          !!!next-token;
2003          redo B;          redo B;
2004        } elsif ($token->{type} eq 'character') {        } elsif ($token->{type} eq 'character') {
2005          if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {          if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) { # \x0D
2006            $self->{document}->manakai_append_text ($1);            ## Ignore the token.
2007            ## ISSUE: DOM3 Core does not allow Document > Text  
2008            unless (length $token->{data}) {            unless (length $token->{data}) {
2009              ## Stay in the phase              ## Stay in the phase
2010              !!!next-token;              !!!next-token;
# Line 1529  sub _tree_construction_root_element ($) Line 2025  sub _tree_construction_root_element ($)
2025        my $root_element; !!!create-element ($root_element, 'html');        my $root_element; !!!create-element ($root_element, 'html');
2026        $self->{document}->append_child ($root_element);        $self->{document}->append_child ($root_element);
2027        push @{$self->{open_elements}}, [$root_element, 'html'];        push @{$self->{open_elements}}, [$root_element, 'html'];
       #$phase = 'main';  
2028        ## reprocess        ## reprocess
2029        #redo B;        #redo B;
2030        return;        return; ## Go to the main phase.
2031    } # B    } # B
2032  } # _tree_construction_root_element  } # _tree_construction_root_element
2033    
# Line 1548  sub _reset_insertion_mode ($) { Line 2043  sub _reset_insertion_mode ($) {
2043            
2044      ## Step 3      ## Step 3
2045      S3: {      S3: {
2046        $last = 1 if $self->{open_elements}->[0]->[0] eq $node->[0];        ## ISSUE: Oops! "If node is the first node in the stack of open
2047        if (defined $self->{inner_html_node}) {        ## elements, then set last to true. If the context element of the
2048          if ($self->{inner_html_node}->[1] eq 'td' or        ## HTML fragment parsing algorithm is neither a td element nor a
2049              $self->{inner_html_node}->[1] eq 'th') {        ## th element, then set node to the context element. (fragment case)":
2050            #        ## The second "if" is in the scope of the first "if"!?
2051          } else {        if ($self->{open_elements}->[0]->[0] eq $node->[0]) {
2052            $node = $self->{inner_html_node};          $last = 1;
2053            if (defined $self->{inner_html_node}) {
2054              if ($self->{inner_html_node}->[1] eq 'td' or
2055                  $self->{inner_html_node}->[1] eq 'th') {
2056                #
2057              } else {
2058                $node = $self->{inner_html_node};
2059              }
2060          }          }
2061        }        }
2062            
# Line 1601  sub _reset_insertion_mode ($) { Line 2103  sub _reset_insertion_mode ($) {
2103  sub _tree_construction_main ($) {  sub _tree_construction_main ($) {
2104    my $self = shift;    my $self = shift;
2105    
2106    my $phase = 'main';    my $previous_insertion_mode;
2107    
2108    my $active_formatting_elements = [];    my $active_formatting_elements = [];
2109    
# Line 1685  sub _tree_construction_main ($) { Line 2187  sub _tree_construction_main ($) {
2187      }      }
2188    }; # $clear_up_to_marker    }; # $clear_up_to_marker
2189    
2190    my $style_start_tag = sub {    my $parse_rcdata = sub ($$) {
2191      my $style_el; !!!create-element ($style_el, 'style', $token->{attributes});      my ($content_model_flag, $insert) = @_;
2192      ## $self->{insertion_mode} eq 'in head' and ... (always true)  
2193      (($self->{insertion_mode} eq 'in head' and defined $self->{head_element})      ## Step 1
2194       ? $self->{head_element} : $self->{open_elements}->[-1]->[0])      my $start_tag_name = $token->{tag_name};
2195        ->append_child ($style_el);      my $el;
2196      $self->{content_model_flag} = 'CDATA';      !!!create-element ($el, $start_tag_name, $token->{attributes});
2197    
2198        ## Step 2
2199        $insert->($el); # /context node/->append_child ($el)
2200    
2201        ## Step 3
2202        $self->{content_model} = $content_model_flag; # CDATA or RCDATA
2203      delete $self->{escape}; # MUST      delete $self->{escape}; # MUST
2204                  
2205        ## Step 4
2206      my $text = '';      my $text = '';
2207      !!!next-token;      !!!next-token;
2208      while ($token->{type} eq 'character') {      while ($token->{type} eq 'character') { # or until stop tokenizing
2209        $text .= $token->{data};        $text .= $token->{data};
2210        !!!next-token;        !!!next-token;
2211      } # stop if non-character token or tokenizer stops tokenising      }
2212    
2213        ## Step 5
2214      if (length $text) {      if (length $text) {
2215        $style_el->manakai_append_text ($text);        my $text = $self->{document}->create_text_node ($text);
2216          $el->append_child ($text);
2217      }      }
2218        
2219      $self->{content_model_flag} = 'PCDATA';      ## Step 6
2220                      $self->{content_model} = PCDATA_CONTENT_MODEL;
2221      if ($token->{type} eq 'end tag' and $token->{tag_name} eq 'style') {  
2222        ## Step 7
2223        if ($token->{type} eq 'end tag' and $token->{tag_name} eq $start_tag_name) {
2224        ## Ignore the token        ## Ignore the token
2225      } else {      } elsif ($content_model_flag == CDATA_CONTENT_MODEL) {
2226        !!!parse-error (type => 'in CDATA:#'.$token->{type});        !!!parse-error (type => 'in CDATA:#'.$token->{type});
2227        ## ISSUE: And ignore?      } elsif ($content_model_flag == RCDATA_CONTENT_MODEL) {
2228          !!!parse-error (type => 'in RCDATA:#'.$token->{type});
2229        } else {
2230          die "$0: $content_model_flag in parse_rcdata";
2231      }      }
2232      !!!next-token;      !!!next-token;
2233    }; # $style_start_tag    }; # $parse_rcdata
2234    
2235    my $script_start_tag = sub {    my $script_start_tag = sub ($) {
2236        my $insert = $_[0];
2237      my $script_el;      my $script_el;
2238      !!!create-element ($script_el, 'script', $token->{attributes});      !!!create-element ($script_el, 'script', $token->{attributes});
2239      ## TODO: mark as "parser-inserted"      ## TODO: mark as "parser-inserted"
2240    
2241      $self->{content_model_flag} = 'CDATA';      $self->{content_model} = CDATA_CONTENT_MODEL;
2242      delete $self->{escape}; # MUST      delete $self->{escape}; # MUST
2243            
2244      my $text = '';      my $text = '';
# Line 1733  sub _tree_construction_main ($) { Line 2251  sub _tree_construction_main ($) {
2251        $script_el->manakai_append_text ($text);        $script_el->manakai_append_text ($text);
2252      }      }
2253                                
2254      $self->{content_model_flag} = 'PCDATA';      $self->{content_model} = PCDATA_CONTENT_MODEL;
2255    
2256      if ($token->{type} eq 'end tag' and      if ($token->{type} eq 'end tag' and
2257          $token->{tag_name} eq 'script') {          $token->{tag_name} eq 'script') {
# Line 1749  sub _tree_construction_main ($) { Line 2267  sub _tree_construction_main ($) {
2267      } else {      } else {
2268        ## TODO: $old_insertion_point = current insertion point        ## TODO: $old_insertion_point = current insertion point
2269        ## TODO: insertion point = just before the next input character        ## TODO: insertion point = just before the next input character
2270          
2271        (($self->{insertion_mode} eq 'in head' and defined $self->{head_element})        $insert->($script_el);
        ? $self->{head_element} : $self->{open_elements}->[-1]->[0])->append_child ($script_el);  
2272                
2273        ## TODO: insertion point = $old_insertion_point (might be "undefined")        ## TODO: insertion point = $old_insertion_point (might be "undefined")
2274                
# Line 1945  sub _tree_construction_main ($) { Line 2462  sub _tree_construction_main ($) {
2462    }; # $formatting_end_tag    }; # $formatting_end_tag
2463    
2464    my $insert_to_current = sub {    my $insert_to_current = sub {
2465      $self->{open_elements}->[-1]->[0]->append_child (shift);      $self->{open_elements}->[-1]->[0]->append_child ($_[0]);
2466    }; # $insert_to_current    }; # $insert_to_current
2467    
2468    my $insert_to_foster = sub {    my $insert_to_foster = sub {
# Line 1983  sub _tree_construction_main ($) { Line 2500  sub _tree_construction_main ($) {
2500      my $insert = shift;      my $insert = shift;
2501      if ($token->{type} eq 'start tag') {      if ($token->{type} eq 'start tag') {
2502        if ($token->{tag_name} eq 'script') {        if ($token->{tag_name} eq 'script') {
2503          $script_start_tag->();          ## NOTE: This is an "as if in head" code clone
2504            $script_start_tag->($insert);
2505          return;          return;
2506        } elsif ($token->{tag_name} eq 'style') {        } elsif ($token->{tag_name} eq 'style') {
2507          $style_start_tag->();          ## NOTE: This is an "as if in head" code clone
2508            $parse_rcdata->(CDATA_CONTENT_MODEL, $insert);
2509          return;          return;
2510        } elsif ({        } elsif ({
2511                  base => 1, link => 1, meta => 1,                  base => 1, link => 1,
2512                 }->{$token->{tag_name}}) {                 }->{$token->{tag_name}}) {
2513          !!!parse-error (type => 'in body:'.$token->{tag_name});          ## NOTE: This is an "as if in head" code clone, only "-t" differs
2514          ## NOTE: This is an "as if in head" code clone          !!!insert-element-t ($token->{tag_name}, $token->{attributes});
2515          my $el;          pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.
2516          !!!create-element ($el, $token->{tag_name}, $token->{attributes});          !!!next-token;
2517          if (defined $self->{head_element}) {          return;
2518            $self->{head_element}->append_child ($el);        } elsif ($token->{tag_name} eq 'meta') {
2519          } else {          ## NOTE: This is an "as if in head" code clone, only "-t" differs
2520            $insert->($el);          !!!insert-element-t ($token->{tag_name}, $token->{attributes});
2521            pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.
2522    
2523            unless ($self->{confident}) {
2524              my $charset;
2525              if ($token->{attributes}->{charset}) { ## TODO: And if supported
2526                $charset = $token->{attributes}->{charset}->{value};
2527              }
2528              if ($token->{attributes}->{'http-equiv'}) {
2529                ## ISSUE: Algorithm name in the spec was incorrect so that not linked to the definition.
2530                if ($token->{attributes}->{'http-equiv'}->{value}
2531                    =~ /\A[^;]*;[\x09-\x0D\x20]*charset[\x09-\x0D\x20]*=
2532                        [\x09-\x0D\x20]*(?>"([^"]*)"|'([^']*)'|
2533                        ([^"'\x09-\x0D\x20][^\x09-\x0D\x20]*))/x) {
2534                  $charset = defined $1 ? $1 : defined $2 ? $2 : $3;
2535                } ## TODO: And if supported
2536              }
2537              ## TODO: Change the encoding
2538          }          }
2539            
2540          !!!next-token;          !!!next-token;
2541          return;          return;
2542        } elsif ($token->{tag_name} eq 'title') {        } elsif ($token->{tag_name} eq 'title') {
2543          !!!parse-error (type => 'in body:title');          !!!parse-error (type => 'in body:title');
2544          ## NOTE: There is an "as if in head" code clone          ## NOTE: This is an "as if in head" code clone
2545          my $title_el;          $parse_rcdata->(RCDATA_CONTENT_MODEL, sub {
2546          !!!create-element ($title_el, 'title', $token->{attributes});            if (defined $self->{head_element}) {
2547          (defined $self->{head_element} ? $self->{head_element} : $self->{open_elements}->[-1]->[0])              $self->{head_element}->append_child ($_[0]);
2548            ->append_child ($title_el);            } else {
2549          $self->{content_model_flag} = 'RCDATA';              $insert->($_[0]);
2550          delete $self->{escape}; # MUST            }
2551                    });
         my $text = '';  
         !!!next-token;  
         while ($token->{type} eq 'character') {  
           $text .= $token->{data};  
           !!!next-token;  
         }  
         if (length $text) {  
           $title_el->manakai_append_text ($text);  
         }  
           
         $self->{content_model_flag} = 'PCDATA';  
           
         if ($token->{type} eq 'end tag' and  
             $token->{tag_name} eq 'title') {  
           ## Ignore the token  
         } else {  
           !!!parse-error (type => 'in RCDATA:#'.$token->{type});  
           ## ISSUE: And ignore?  
         }  
         !!!next-token;  
2552          return;          return;
2553        } elsif ($token->{tag_name} eq 'body') {        } elsif ($token->{tag_name} eq 'body') {
2554          !!!parse-error (type => 'in body:body');          !!!parse-error (type => 'in body:body');
# Line 2135  sub _tree_construction_main ($) { Line 2651  sub _tree_construction_main ($) {
2651              if ($i != -1) {              if ($i != -1) {
2652                !!!parse-error (type => 'end tag missing:'.                !!!parse-error (type => 'end tag missing:'.
2653                                $self->{open_elements}->[-1]->[1]);                                $self->{open_elements}->[-1]->[1]);
               ## TODO: test  
2654              }              }
2655              splice @{$self->{open_elements}}, $i;              splice @{$self->{open_elements}}, $i;
2656              last LI;              last LI;
# Line 2183  sub _tree_construction_main ($) { Line 2698  sub _tree_construction_main ($) {
2698              if ($i != -1) {              if ($i != -1) {
2699                !!!parse-error (type => 'end tag missing:'.                !!!parse-error (type => 'end tag missing:'.
2700                                $self->{open_elements}->[-1]->[1]);                                $self->{open_elements}->[-1]->[1]);
               ## TODO: test  
2701              }              }
2702              splice @{$self->{open_elements}}, $i;              splice @{$self->{open_elements}}, $i;
2703              last LI;              last LI;
# Line 2224  sub _tree_construction_main ($) { Line 2738  sub _tree_construction_main ($) {
2738                        
2739          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!insert-element-t ($token->{tag_name}, $token->{attributes});
2740                        
2741          $self->{content_model_flag} = 'PLAINTEXT';          $self->{content_model} = PLAINTEXT_CONTENT_MODEL;
2742                        
2743          !!!next-token;          !!!next-token;
2744          return;          return;
# Line 2246  sub _tree_construction_main ($) { Line 2760  sub _tree_construction_main ($) {
2760            }            }
2761          } # INSCOPE          } # INSCOPE
2762                        
2763            ## NOTE: See <http://html5.org/tools/web-apps-tracker?from=925&to=926>
2764          ## has an element in scope          ## has an element in scope
2765          my $i;          #my $i;
2766          INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {          #INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
2767            my $node = $self->{open_elements}->[$_];          #  my $node = $self->{open_elements}->[$_];
2768            if ({          #  if ({
2769                 h1 => 1, h2 => 1, h3 => 1, h4 => 1, h5 => 1, h6 => 1,          #       h1 => 1, h2 => 1, h3 => 1, h4 => 1, h5 => 1, h6 => 1,
2770                }->{$node->[1]}) {          #      }->{$node->[1]}) {
2771              $i = $_;          #    $i = $_;
2772              last INSCOPE;          #    last INSCOPE;
2773            } elsif ({          #  } elsif ({
2774                      table => 1, caption => 1, td => 1, th => 1,          #            table => 1, caption => 1, td => 1, th => 1,
2775                      button => 1, marquee => 1, object => 1, html => 1,          #            button => 1, marquee => 1, object => 1, html => 1,
2776                     }->{$node->[1]}) {          #           }->{$node->[1]}) {
2777              last INSCOPE;          #    last INSCOPE;
2778            }          #  }
2779          } # INSCOPE          #} # INSCOPE
2780                      #  
2781          if (defined $i) {          #if (defined $i) {
2782            !!!parse-error (type => 'in hn:hn');          #  !!! parse-error (type => 'in hn:hn');
2783            splice @{$self->{open_elements}}, $i;          #  splice @{$self->{open_elements}}, $i;
2784          }          #}
2785                        
2786          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!insert-element-t ($token->{tag_name}, $token->{attributes});
2787                        
# Line 2309  sub _tree_construction_main ($) { Line 2824  sub _tree_construction_main ($) {
2824          return;          return;
2825        } elsif ({        } elsif ({
2826                  b => 1, big => 1, em => 1, font => 1, i => 1,                  b => 1, big => 1, em => 1, font => 1, i => 1,
2827                  nobr => 1, s => 1, small => 1, strile => 1,                  s => 1, small => 1, strile => 1,
2828                  strong => 1, tt => 1, u => 1,                  strong => 1, tt => 1, u => 1,
2829                 }->{$token->{tag_name}}) {                 }->{$token->{tag_name}}) {
2830          $reconstruct_active_formatting_elements->($insert_to_current);          $reconstruct_active_formatting_elements->($insert_to_current);
# Line 2319  sub _tree_construction_main ($) { Line 2834  sub _tree_construction_main ($) {
2834                    
2835          !!!next-token;          !!!next-token;
2836          return;          return;
2837          } elsif ($token->{tag_name} eq 'nobr') {
2838            $reconstruct_active_formatting_elements->($insert_to_current);
2839    
2840            ## has a |nobr| element in scope
2841            INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
2842              my $node = $self->{open_elements}->[$_];
2843              if ($node->[1] eq 'nobr') {
2844                !!!parse-error (type => 'not closed:nobr');
2845                !!!back-token;
2846                $token = {type => 'end tag', tag_name => 'nobr'};
2847                return;
2848              } elsif ({
2849                        table => 1, caption => 1, td => 1, th => 1,
2850                        button => 1, marquee => 1, object => 1, html => 1,
2851                       }->{$node->[1]}) {
2852                last INSCOPE;
2853              }
2854            } # INSCOPE
2855            
2856            !!!insert-element-t ($token->{tag_name}, $token->{attributes});
2857            push @$active_formatting_elements, $self->{open_elements}->[-1];
2858            
2859            !!!next-token;
2860            return;
2861        } elsif ($token->{tag_name} eq 'button') {        } elsif ($token->{tag_name} eq 'button') {
2862          ## has a button element in scope          ## has a button element in scope
2863          INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {          INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
# Line 2354  sub _tree_construction_main ($) { Line 2893  sub _tree_construction_main ($) {
2893          return;          return;
2894        } elsif ($token->{tag_name} eq 'xmp') {        } elsif ($token->{tag_name} eq 'xmp') {
2895          $reconstruct_active_formatting_elements->($insert_to_current);          $reconstruct_active_formatting_elements->($insert_to_current);
2896                    $parse_rcdata->(CDATA_CONTENT_MODEL, $insert);
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
           
         $self->{content_model_flag} = 'CDATA';  
         delete $self->{escape}; # MUST  
           
         !!!next-token;  
2897          return;          return;
2898        } elsif ($token->{tag_name} eq 'table') {        } elsif ($token->{tag_name} eq 'table') {
2899          ## has a p element in scope          ## has a p element in scope
# Line 2392  sub _tree_construction_main ($) { Line 2925  sub _tree_construction_main ($) {
2925            !!!parse-error (type => 'image');            !!!parse-error (type => 'image');
2926            $token->{tag_name} = 'img';            $token->{tag_name} = 'img';
2927          }          }
2928            
2929            ## NOTE: There is an "as if <br>" code clone.
2930          $reconstruct_active_formatting_elements->($insert_to_current);          $reconstruct_active_formatting_elements->($insert_to_current);
2931                    
2932          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!insert-element-t ($token->{tag_name}, $token->{attributes});
# Line 2438  sub _tree_construction_main ($) { Line 2972  sub _tree_construction_main ($) {
2972            return;            return;
2973          } else {          } else {
2974            my $at = $token->{attributes};            my $at = $token->{attributes};
2975              my $form_attrs;
2976              $form_attrs->{action} = $at->{action} if $at->{action};
2977              my $prompt_attr = $at->{prompt};
2978            $at->{name} = {name => 'name', value => 'isindex'};            $at->{name} = {name => 'name', value => 'isindex'};
2979              delete $at->{action};
2980              delete $at->{prompt};
2981            my @tokens = (            my @tokens = (
2982                          {type => 'start tag', tag_name => 'form'},                          {type => 'start tag', tag_name => 'form',
2983                             attributes => $form_attrs},
2984                          {type => 'start tag', tag_name => 'hr'},                          {type => 'start tag', tag_name => 'hr'},
2985                          {type => 'start tag', tag_name => 'p'},                          {type => 'start tag', tag_name => 'p'},
2986                          {type => 'start tag', tag_name => 'label'},                          {type => 'start tag', tag_name => 'label'},
2987                          {type => 'character',                         );
2988                           data => 'This is a searchable index. Insert your search keywords here: '}, # SHOULD            if ($prompt_attr) {
2989                          ## TODO: make this configurable              push @tokens, {type => 'character', data => $prompt_attr->{value}};
2990              } else {
2991                push @tokens, {type => 'character',
2992                               data => 'This is a searchable index. Insert your search keywords here: '}; # SHOULD
2993                ## TODO: make this configurable
2994              }
2995              push @tokens,
2996                          {type => 'start tag', tag_name => 'input', attributes => $at},                          {type => 'start tag', tag_name => 'input', attributes => $at},
2997                          #{type => 'character', data => ''}, # SHOULD                          #{type => 'character', data => ''}, # SHOULD
2998                          {type => 'end tag', tag_name => 'label'},                          {type => 'end tag', tag_name => 'label'},
2999                          {type => 'end tag', tag_name => 'p'},                          {type => 'end tag', tag_name => 'p'},
3000                          {type => 'start tag', tag_name => 'hr'},                          {type => 'start tag', tag_name => 'hr'},
3001                          {type => 'end tag', tag_name => 'form'},                          {type => 'end tag', tag_name => 'form'};
                        );  
3002            $token = shift @tokens;            $token = shift @tokens;
3003            !!!back-token (@tokens);            !!!back-token (@tokens);
3004            return;            return;
3005          }          }
3006        } elsif ({        } elsif ($token->{tag_name} eq 'textarea') {
                 textarea => 1,  
                 iframe => 1,  
                 noembed => 1,  
                 noframes => 1,  
                 noscript => 0, ## TODO: 1 if scripting is enabled  
                }->{$token->{tag_name}}) {  
3007          my $tag_name = $token->{tag_name};          my $tag_name = $token->{tag_name};
3008          my $el;          my $el;
3009          !!!create-element ($el, $token->{tag_name}, $token->{attributes});          !!!create-element ($el, $token->{tag_name}, $token->{attributes});
3010                    
3011          if ($token->{tag_name} eq 'textarea') {          ## TODO: $self->{form_element} if defined
3012            ## TODO: $self->{form_element} if defined          $self->{content_model} = RCDATA_CONTENT_MODEL;
           $self->{content_model_flag} = 'RCDATA';  
         } else {  
           $self->{content_model_flag} = 'CDATA';  
         }  
3013          delete $self->{escape}; # MUST          delete $self->{escape}; # MUST
3014                    
3015          $insert->($el);          $insert->($el);
3016                    
3017          my $text = '';          my $text = '';
3018          if ($token->{tag_name} eq 'textarea') {          !!!next-token;
3019            !!!next-token;          if ($token->{type} eq 'character') {
3020            if ($token->{type} eq 'character') {            $token->{data} =~ s/^\x0A//;
3021              $token->{data} =~ s/^\x0A//;            unless (length $token->{data}) {
3022              unless (length $token->{data}) {              !!!next-token;
               !!!next-token;  
             }  
3023            }            }
         } else {  
           !!!next-token;  
3024          }          }
3025          while ($token->{type} eq 'character') {          while ($token->{type} eq 'character') {
3026            $text .= $token->{data};            $text .= $token->{data};
# Line 2499  sub _tree_construction_main ($) { Line 3030  sub _tree_construction_main ($) {
3030            $el->manakai_append_text ($text);            $el->manakai_append_text ($text);
3031          }          }
3032                    
3033          $self->{content_model_flag} = 'PCDATA';          $self->{content_model} = PCDATA_CONTENT_MODEL;
3034                    
3035          if ($token->{type} eq 'end tag' and          if ($token->{type} eq 'end tag' and
3036              $token->{tag_name} eq $tag_name) {              $token->{tag_name} eq $tag_name) {
3037            ## Ignore the token            ## Ignore the token
3038          } else {          } else {
3039            if ($token->{tag_name} eq 'textarea') {            !!!parse-error (type => 'in RCDATA:#'.$token->{type});
             !!!parse-error (type => 'in RCDATA:#'.$token->{type});  
           } else {  
             !!!parse-error (type => 'in CDATA:#'.$token->{type});  
           }  
           ## ISSUE: And ignore?  
3040          }          }
3041          !!!next-token;          !!!next-token;
3042          return;          return;
3043          } elsif ({
3044                    iframe => 1,
3045                    noembed => 1,
3046                    noframes => 1,
3047                    noscript => 0, ## TODO: 1 if scripting is enabled
3048                   }->{$token->{tag_name}}) {
3049            $parse_rcdata->(CDATA_CONTENT_MODEL, $insert);
3050            return;
3051        } elsif ($token->{tag_name} eq 'select') {        } elsif ($token->{tag_name} eq 'select') {
3052          $reconstruct_active_formatting_elements->($insert_to_current);          $reconstruct_active_formatting_elements->($insert_to_current);
3053                    
# Line 2544  sub _tree_construction_main ($) { Line 3078  sub _tree_construction_main ($) {
3078        }        }
3079      } elsif ($token->{type} eq 'end tag') {      } elsif ($token->{type} eq 'end tag') {
3080        if ($token->{tag_name} eq 'body') {        if ($token->{tag_name} eq 'body') {
3081          if (@{$self->{open_elements}} > 1 and $self->{open_elements}->[1]->[1] eq 'body') {          if (@{$self->{open_elements}} > 1 and
3082            ## ISSUE: There is an issue in the spec.              $self->{open_elements}->[1]->[1] eq 'body') {
3083            if ($self->{open_elements}->[-1]->[1] ne 'body') {            for (@{$self->{open_elements}}) {
3084              !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);              unless ({
3085                           dd => 1, dt => 1, li => 1, p => 1, td => 1,
3086                           th => 1, tr => 1, body => 1, html => 1,
3087                         tbody => 1, tfoot => 1, thead => 1,
3088                        }->{$_->[1]}) {
3089                  !!!parse-error (type => 'not closed:'.$_->[1]);
3090                }
3091            }            }
3092    
3093            $self->{insertion_mode} = 'after body';            $self->{insertion_mode} = 'after body';
3094            !!!next-token;            !!!next-token;
3095            return;            return;
# Line 2593  sub _tree_construction_main ($) { Line 3134  sub _tree_construction_main ($) {
3134                   li => ($token->{tag_name} ne 'li'),                   li => ($token->{tag_name} ne 'li'),
3135                   p => ($token->{tag_name} ne 'p'),                   p => ($token->{tag_name} ne 'p'),
3136                   td => 1, th => 1, tr => 1,                   td => 1, th => 1, tr => 1,
3137                     tbody => 1, tfoot=> 1, thead => 1,
3138                  }->{$self->{open_elements}->[-1]->[1]}) {                  }->{$self->{open_elements}->[-1]->[1]}) {
3139                !!!back-token;                !!!back-token;
3140                $token = {type => 'end tag',                $token = {type => 'end tag',
# Line 2610  sub _tree_construction_main ($) { Line 3152  sub _tree_construction_main ($) {
3152          } # INSCOPE          } # INSCOPE
3153                    
3154          if ($self->{open_elements}->[-1]->[1] ne $token->{tag_name}) {          if ($self->{open_elements}->[-1]->[1] ne $token->{tag_name}) {
3155            !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);            if (defined $i) {
3156                !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);
3157              } else {
3158                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});
3159              }
3160          }          }
3161                    
3162          splice @{$self->{open_elements}}, $i if defined $i;          if (defined $i) {
3163              splice @{$self->{open_elements}}, $i;
3164            } elsif ($token->{tag_name} eq 'p') {
3165              ## As if <p>, then reprocess the current token
3166              my $el;
3167              !!!create-element ($el, 'p');
3168              $insert->($el);
3169            }
3170          $clear_up_to_marker->()          $clear_up_to_marker->()
3171            if {            if {
3172              button => 1, marquee => 1, object => 1,              button => 1, marquee => 1, object => 1,
# Line 2629  sub _tree_construction_main ($) { Line 3182  sub _tree_construction_main ($) {
3182              if ({              if ({
3183                   dd => 1, dt => 1, li => 1, p => 1,                   dd => 1, dt => 1, li => 1, p => 1,
3184                   td => 1, th => 1, tr => 1,                   td => 1, th => 1, tr => 1,
3185                     tbody => 1, tfoot=> 1, thead => 1,
3186                  }->{$self->{open_elements}->[-1]->[1]}) {                  }->{$self->{open_elements}->[-1]->[1]}) {
3187                !!!back-token;                !!!back-token;
3188                $token = {type => 'end tag',                $token = {type => 'end tag',
# Line 2667  sub _tree_construction_main ($) { Line 3221  sub _tree_construction_main ($) {
3221              if ({              if ({
3222                   dd => 1, dt => 1, li => 1, p => 1,                   dd => 1, dt => 1, li => 1, p => 1,
3223                   td => 1, th => 1, tr => 1,                   td => 1, th => 1, tr => 1,
3224                     tbody => 1, tfoot=> 1, thead => 1,
3225                  }->{$self->{open_elements}->[-1]->[1]}) {                  }->{$self->{open_elements}->[-1]->[1]}) {
3226                !!!back-token;                !!!back-token;
3227                $token = {type => 'end tag',                $token = {type => 'end tag',
# Line 2697  sub _tree_construction_main ($) { Line 3252  sub _tree_construction_main ($) {
3252                  strong => 1, tt => 1, u => 1,                  strong => 1, tt => 1, u => 1,
3253                 }->{$token->{tag_name}}) {                 }->{$token->{tag_name}}) {
3254          $formatting_end_tag->($token->{tag_name});          $formatting_end_tag->($token->{tag_name});
3255  ## TODO: <http://html5.org/tools/web-apps-tracker?from=883&to=884>          return;
3256          } elsif ($token->{tag_name} eq 'br') {
3257            !!!parse-error (type => 'unmatched end tag:br');
3258    
3259            ## As if <br>
3260            $reconstruct_active_formatting_elements->($insert_to_current);
3261            
3262            my $el;
3263            !!!create-element ($el, 'br');
3264            $insert->($el);
3265            
3266            ## Ignore the token.
3267            !!!next-token;
3268          return;          return;
3269        } elsif ({        } elsif ({
3270                  caption => 1, col => 1, colgroup => 1, frame => 1,                  caption => 1, col => 1, colgroup => 1, frame => 1,
3271                  frameset => 1, head => 1, option => 1, optgroup => 1,                  frameset => 1, head => 1, option => 1, optgroup => 1,
3272                  tbody => 1, td => 1, tfoot => 1, th => 1,                  tbody => 1, td => 1, tfoot => 1, th => 1,
3273                  thead => 1, tr => 1,                  thead => 1, tr => 1,
3274                  area => 1, basefont => 1, bgsound => 1, br => 1,                  area => 1, basefont => 1, bgsound => 1,
3275                  embed => 1, hr => 1, iframe => 1, image => 1,                  embed => 1, hr => 1, iframe => 1, image => 1,
3276                  img => 1, input => 1, isindex => 1, noembed => 1,                  img => 1, input => 1, isindex => 1, noembed => 1,
3277                  noframes => 1, param => 1, select => 1, spacer => 1,                  noframes => 1, param => 1, select => 1, spacer => 1,
# Line 2731  sub _tree_construction_main ($) { Line 3298  sub _tree_construction_main ($) {
3298              if ({              if ({
3299                   dd => 1, dt => 1, li => 1, p => 1,                   dd => 1, dt => 1, li => 1, p => 1,
3300                   td => 1, th => 1, tr => 1,                   td => 1, th => 1, tr => 1,
3301                     tbody => 1, tfoot=> 1, thead => 1,
3302                  }->{$self->{open_elements}->[-1]->[1]}) {                  }->{$self->{open_elements}->[-1]->[1]}) {
3303                !!!back-token;                !!!back-token;
3304                $token = {type => 'end tag',                $token = {type => 'end tag',
# Line 2754  sub _tree_construction_main ($) { Line 3322  sub _tree_construction_main ($) {
3322                  #not $phrasing_category->{$node->[1]} and                  #not $phrasing_category->{$node->[1]} and
3323                  ($special_category->{$node->[1]} or                  ($special_category->{$node->[1]} or
3324                   $scoping_category->{$node->[1]})) {                   $scoping_category->{$node->[1]})) {
3325                !!!parse-error (type => 'not closed:'.$node->[1]);                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});
3326                ## Ignore the token                ## Ignore the token
3327                !!!next-token;                !!!next-token;
3328                last S2;                last S2;
# Line 2774  sub _tree_construction_main ($) { Line 3342  sub _tree_construction_main ($) {
3342    }; # $in_body    }; # $in_body
3343    
3344    B: {    B: {
3345      if ($phase eq 'main') {      if ($token->{type} eq 'DOCTYPE') {
3346        if ($token->{type} eq 'DOCTYPE') {        !!!parse-error (type => 'DOCTYPE in the middle');
3347          !!!parse-error (type => 'in html:#DOCTYPE');        ## Ignore the token
3348          ## Ignore the token        ## Stay in the phase
3349          ## Stay in the phase        !!!next-token;
3350          !!!next-token;        redo B;
3351          redo B;      } elsif ($token->{type} eq 'end-of-file') {
3352        } elsif ($token->{type} eq 'start tag' and        if ($token->{insertion_mode} ne 'trailing end') {
                $token->{tag_name} eq 'html') {  
         ## TODO: unless it is the first start tag token, parse-error  
         my $top_el = $self->{open_elements}->[0]->[0];  
         for my $attr_name (keys %{$token->{attributes}}) {  
           unless ($top_el->has_attribute_ns (undef, $attr_name)) {  
             $top_el->set_attribute_ns  
               (undef, [undef, $attr_name],  
                $token->{attributes}->{$attr_name}->{value});  
           }  
         }  
         !!!next-token;  
         redo B;  
       } elsif ($token->{type} eq 'end-of-file') {  
3353          ## Generate implied end tags          ## Generate implied end tags
3354          if ({          if ({
3355               dd => 1, dt => 1, li => 1, p => 1, td => 1, th => 1, tr => 1,               dd => 1, dt => 1, li => 1, p => 1, td => 1, th => 1, tr => 1,
3356                 tbody => 1, tfoot=> 1, thead => 1,
3357              }->{$self->{open_elements}->[-1]->[1]}) {              }->{$self->{open_elements}->[-1]->[1]}) {
3358            !!!back-token;            !!!back-token;
3359            $token = {type => 'end tag', tag_name => $self->{open_elements}->[-1]->[1]};            $token = {type => 'end tag', tag_name => $self->{open_elements}->[-1]->[1]};
# Line 2813  sub _tree_construction_main ($) { Line 3369  sub _tree_construction_main ($) {
3369            !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);            !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);
3370          }          }
3371    
         ## Stop parsing  
         last B;  
   
3372          ## ISSUE: There is an issue in the spec.          ## ISSUE: There is an issue in the spec.
3373          }
3374    
3375          ## Stop parsing
3376          last B;
3377        } elsif ($token->{type} eq 'start tag' and
3378                 $token->{tag_name} eq 'html') {
3379          if ($self->{insertion_mode} eq 'trailing end') {
3380            ## Turn into the main phase
3381            !!!parse-error (type => 'after html:html');
3382            $self->{insertion_mode} = $previous_insertion_mode;
3383          }
3384    
3385    ## ISSUE: "aa<html>" is not a parse error.
3386    ## ISSUE: "<html>" in fragment is not a parse error.
3387          unless ($token->{first_start_tag}) {
3388            !!!parse-error (type => 'not first start tag');
3389          }
3390          my $top_el = $self->{open_elements}->[0]->[0];
3391          for my $attr_name (keys %{$token->{attributes}}) {
3392            unless ($top_el->has_attribute_ns (undef, $attr_name)) {
3393              $top_el->set_attribute_ns
3394                (undef, [undef, $attr_name],
3395                 $token->{attributes}->{$attr_name}->{value});
3396            }
3397          }
3398          !!!next-token;
3399          redo B;
3400        } elsif ($token->{type} eq 'comment') {
3401          my $comment = $self->{document}->create_comment ($token->{data});
3402          if ($self->{insertion_mode} eq 'trailing end') {
3403            $self->{document}->append_child ($comment);
3404          } elsif ($self->{insertion_mode} eq 'after body') {
3405            $self->{open_elements}->[0]->[0]->append_child ($comment);
3406        } else {        } else {
3407          if ($self->{insertion_mode} eq 'before head') {          $self->{open_elements}->[-1]->[0]->append_child ($comment);
3408          }
3409          !!!next-token;
3410          redo B;
3411        } elsif ($self->{insertion_mode} eq 'before head') {
3412            if ($token->{type} eq 'character') {            if ($token->{type} eq 'character') {
3413              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {
3414                $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);                $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);
# Line 2834  sub _tree_construction_main ($) { Line 3424  sub _tree_construction_main ($) {
3424              $self->{insertion_mode} = 'in head';              $self->{insertion_mode} = 'in head';
3425              ## reprocess              ## reprocess
3426              redo B;              redo B;
           } elsif ($token->{type} eq 'comment') {  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
             !!!next-token;  
             redo B;  
3427            } elsif ($token->{type} eq 'start tag') {            } elsif ($token->{type} eq 'start tag') {
3428              my $attr = $token->{tag_name} eq 'head' ? $token->{attributes} : {};              my $attr = $token->{tag_name} eq 'head' ? $token->{attributes} : {};
3429              !!!create-element ($self->{head_element}, 'head', $attr);              !!!create-element ($self->{head_element}, 'head', $attr);
# Line 2857  sub _tree_construction_main ($) { Line 3442  sub _tree_construction_main ($) {
3442              }              }
3443              redo B;              redo B;
3444            } elsif ($token->{type} eq 'end tag') {            } elsif ($token->{type} eq 'end tag') {
3445              if ($token->{tag_name} eq 'html') {              if ({
3446                     head => 1, body => 1, html => 1,
3447                     p => 1, br => 1,
3448                    }->{$token->{tag_name}}) {
3449                ## As if <head>                ## As if <head>
3450                !!!create-element ($self->{head_element}, 'head');                !!!create-element ($self->{head_element}, 'head');
3451                $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});                $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});
# Line 2867  sub _tree_construction_main ($) { Line 3455  sub _tree_construction_main ($) {
3455                redo B;                redo B;
3456              } else {              } else {
3457                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});
3458                ## Ignore the token                ## Ignore the token ## ISSUE: An issue in the spec.
3459                !!!next-token;                !!!next-token;
3460                redo B;                redo B;
3461              }              }
3462            } else {            } else {
3463              die "$0: $token->{type}: Unknown type";              die "$0: $token->{type}: Unknown type";
3464            }            }
3465          } elsif ($self->{insertion_mode} eq 'in head') {          } elsif ($self->{insertion_mode} eq 'in head' or
3466                     $self->{insertion_mode} eq 'in head noscript' or
3467                     $self->{insertion_mode} eq 'after head') {
3468            if ($token->{type} eq 'character') {            if ($token->{type} eq 'character') {
3469              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {
3470                $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);                $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);
# Line 2885  sub _tree_construction_main ($) { Line 3475  sub _tree_construction_main ($) {
3475              }              }
3476                            
3477              #              #
           } elsif ($token->{type} eq 'comment') {  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
             !!!next-token;  
             redo B;  
3478            } elsif ($token->{type} eq 'start tag') {            } elsif ($token->{type} eq 'start tag') {
3479              if ($token->{tag_name} eq 'title') {              if ({base => ($self->{insertion_mode} eq 'in head' or
3480                ## NOTE: There is an "as if in head" code clone                            $self->{insertion_mode} eq 'after head'),
3481                my $title_el;                   link => 1}->{$token->{tag_name}}) {
3482                !!!create-element ($title_el, 'title', $token->{attributes});                ## NOTE: There is a "as if in head" code clone.
3483                (defined $self->{head_element} ? $self->{head_element} : $self->{open_elements}->[-1]->[0])                if ($self->{insertion_mode} eq 'after head') {
3484                  ->append_child ($title_el);                  !!!parse-error (type => 'after head:'.$token->{tag_name});
3485                $self->{content_model_flag} = 'RCDATA';                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];
3486                delete $self->{escape}; # MUST                }
3487                  !!!insert-element ($token->{tag_name}, $token->{attributes});
3488                my $text = '';                pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.
3489                  pop @{$self->{open_elements}}
3490                      if $self->{insertion_mode} eq 'after head';
3491                !!!next-token;                !!!next-token;
3492                while ($token->{type} eq 'character') {                redo B;
3493                  $text .= $token->{data};              } elsif ($token->{tag_name} eq 'meta') {
3494                  !!!next-token;                ## NOTE: There is a "as if in head" code clone.
3495                  if ($self->{insertion_mode} eq 'after head') {
3496                    !!!parse-error (type => 'after head:'.$token->{tag_name});
3497                    push @{$self->{open_elements}}, [$self->{head_element}, 'head'];
3498                }                }
3499                if (length $text) {                !!!insert-element ($token->{tag_name}, $token->{attributes});
3500                  $title_el->manakai_append_text ($text);                pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.
3501    
3502                  unless ($self->{confident}) {
3503                    my $charset;
3504                    if ($token->{attributes}->{charset}) { ## TODO: And if supported
3505                      $charset = $token->{attributes}->{charset}->{value};
3506                    }
3507                    if ($token->{attributes}->{'http-equiv'}) {
3508                      ## ISSUE: Algorithm name in the spec was incorrect so that not linked to the definition.
3509                      if ($token->{attributes}->{'http-equiv'}->{value}
3510                          =~ /\A[^;]*;[\x09-\x0D\x20]*charset[\x09-\x0D\x20]*=
3511                              [\x09-\x0D\x20]*(?>"([^"]*)"|'([^']*)'|
3512                              ([^"'\x09-\x0D\x20][^\x09-\x0D\x20]*))/x) {
3513                        $charset = defined $1 ? $1 : defined $2 ? $2 : $3;
3514                      } ## TODO: And if supported
3515                    }
3516                    ## TODO: Change the encoding
3517                }                }
3518                  
3519                $self->{content_model_flag} = 'PCDATA';                ## TODO: Extracting |charset| from |meta|.
3520                                pop @{$self->{open_elements}}
3521                if ($token->{type} eq 'end tag' and                    if $self->{insertion_mode} eq 'after head';
3522                    $token->{tag_name} eq 'title') {                !!!next-token;
3523                  redo B;
3524                } elsif ($token->{tag_name} eq 'title' and
3525                         $self->{insertion_mode} eq 'in head') {
3526                  ## NOTE: There is a "as if in head" code clone.
3527                  if ($self->{insertion_mode} eq 'after head') {
3528                    !!!parse-error (type => 'after head:'.$token->{tag_name});
3529                    push @{$self->{open_elements}}, [$self->{head_element}, 'head'];
3530                  }
3531                  my $parent = defined $self->{head_element} ? $self->{head_element}
3532                      : $self->{open_elements}->[-1]->[0];
3533                  $parse_rcdata->(RCDATA_CONTENT_MODEL,
3534                                  sub { $parent->append_child ($_[0]) });
3535                  pop @{$self->{open_elements}}
3536                      if $self->{insertion_mode} eq 'after head';
3537                  redo B;
3538                } elsif ($token->{tag_name} eq 'style') {
3539                  ## NOTE: Or (scripting is enabled and tag_name eq 'noscript' and
3540                  ## insertion mode 'in head')
3541                  ## NOTE: There is a "as if in head" code clone.
3542                  if ($self->{insertion_mode} eq 'after head') {
3543                    !!!parse-error (type => 'after head:'.$token->{tag_name});
3544                    push @{$self->{open_elements}}, [$self->{head_element}, 'head'];
3545                  }
3546                  $parse_rcdata->(CDATA_CONTENT_MODEL, $insert_to_current);
3547                  pop @{$self->{open_elements}}
3548                      if $self->{insertion_mode} eq 'after head';
3549                  redo B;
3550                } elsif ($token->{tag_name} eq 'noscript') {
3551                  if ($self->{insertion_mode} eq 'in head') {
3552                    ## NOTE: and scripting is disalbed
3553                    !!!insert-element ($token->{tag_name}, $token->{attributes});
3554                    $self->{insertion_mode} = 'in head noscript';
3555                    !!!next-token;
3556                    redo B;
3557                  } elsif ($self->{insertion_mode} eq 'in head noscript') {
3558                    !!!parse-error (type => 'in noscript:noscript');
3559                  ## Ignore the token                  ## Ignore the token
3560                    !!!next-token;
3561                    redo B;
3562                } else {                } else {
3563                  !!!parse-error (type => 'in RCDATA:#'.$token->{type});                  #
                 ## ISSUE: And ignore?  
3564                }                }
3565                } elsif ($token->{tag_name} eq 'head' and
3566                         $self->{insertion_mode} ne 'after head') {
3567                  !!!parse-error (type => 'in head:head'); # or in head noscript
3568                  ## Ignore the token
3569                !!!next-token;                !!!next-token;
3570                redo B;                redo B;
3571              } elsif ($token->{tag_name} eq 'style') {              } elsif ($self->{insertion_mode} ne 'in head noscript' and
3572                $style_start_tag->();                       $token->{tag_name} eq 'script') {
3573                  if ($self->{insertion_mode} eq 'after head') {
3574                    !!!parse-error (type => 'after head:'.$token->{tag_name});
3575                    push @{$self->{open_elements}}, [$self->{head_element}, 'head'];
3576                  }
3577                  ## NOTE: There is a "as if in head" code clone.
3578                  $script_start_tag->($insert_to_current);
3579                  pop @{$self->{open_elements}}
3580                      if $self->{insertion_mode} eq 'after head';
3581                redo B;                redo B;
3582              } elsif ($token->{tag_name} eq 'script') {              } elsif ($self->{insertion_mode} eq 'after head' and
3583                $script_start_tag->();                       $token->{tag_name} eq 'body') {
3584                redo B;                !!!insert-element ('body', $token->{attributes});
3585              } elsif ({base => 1, link => 1, meta => 1}->{$token->{tag_name}}) {                $self->{insertion_mode} = 'in body';
               ## NOTE: There are "as if in head" code clones  
               my $el;  
               !!!create-element ($el, $token->{tag_name}, $token->{attributes});  
               (defined $self->{head_element} ? $self->{head_element} : $self->{open_elements}->[-1]->[0])  
                 ->append_child ($el);  
   
3586                !!!next-token;                !!!next-token;
3587                redo B;                redo B;
3588              } elsif ($token->{tag_name} eq 'head') {              } elsif ($self->{insertion_mode} eq 'after head' and
3589                !!!parse-error (type => 'in head:head');                       $token->{tag_name} eq 'frameset') {
3590                ## Ignore the token                !!!insert-element ('frameset', $token->{attributes});
3591                  $self->{insertion_mode} = 'in frameset';
3592                !!!next-token;                !!!next-token;
3593                redo B;                redo B;
3594              } else {              } else {
3595                #                #
3596              }              }
3597            } elsif ($token->{type} eq 'end tag') {            } elsif ($token->{type} eq 'end tag') {
3598              if ($token->{tag_name} eq 'head') {              if ($self->{insertion_mode} eq 'in head' and
3599                if ($self->{open_elements}->[-1]->[1] eq 'head') {                  $token->{tag_name} eq 'head') {
3600                  pop @{$self->{open_elements}};                pop @{$self->{open_elements}};
               } else {  
                 !!!parse-error (type => 'unmatched end tag:head');  
               }  
3601                $self->{insertion_mode} = 'after head';                $self->{insertion_mode} = 'after head';
3602                !!!next-token;                !!!next-token;
3603                redo B;                redo B;
3604              } elsif ($token->{tag_name} eq 'html') {              } elsif ($self->{insertion_mode} eq 'in head noscript' and
3605                    $token->{tag_name} eq 'noscript') {
3606                  pop @{$self->{open_elements}};
3607                  $self->{insertion_mode} = 'in head';
3608                  !!!next-token;
3609                  redo B;
3610                } elsif ($self->{insertion_mode} eq 'in head' and
3611                         {
3612                          body => 1, html => 1,
3613                          p => 1, br => 1,
3614                         }->{$token->{tag_name}}) {
3615                #                #
3616              } else {              } elsif ($self->{insertion_mode} eq 'in head noscript' and
3617                         {
3618                          p => 1, br => 1,
3619                         }->{$token->{tag_name}}) {
3620                  #
3621                } elsif ($self->{insertion_mode} ne 'after head') {
3622                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});
3623                ## Ignore the token                ## Ignore the token
3624                !!!next-token;                !!!next-token;
3625                redo B;                redo B;
3626                } else {
3627                  #
3628              }              }
3629            } else {            } else {
3630              #              #
3631            }            }
3632    
3633            if ($self->{open_elements}->[-1]->[1] eq 'head') {            ## As if </head> or </noscript> or <body>
3634              ## As if </head>            if ($self->{insertion_mode} eq 'in head') {
3635                pop @{$self->{open_elements}};
3636                $self->{insertion_mode} = 'after head';
3637              } elsif ($self->{insertion_mode} eq 'in head noscript') {
3638              pop @{$self->{open_elements}};              pop @{$self->{open_elements}};
3639                !!!parse-error (type => 'in noscript:'.(defined $token->{tag_name} ? ($token->{type} eq 'end tag' ? '/' : '') . $token->{tag_name} : '#' . $token->{type}));
3640                $self->{insertion_mode} = 'in head';
3641              } else { # 'after head'
3642                !!!insert-element ('body');
3643                $self->{insertion_mode} = 'in body';
3644            }            }
           $self->{insertion_mode} = 'after head';  
3645            ## reprocess            ## reprocess
3646            redo B;            redo B;
3647    
3648            ## ISSUE: An issue in the spec.            ## ISSUE: An issue in the spec.
3649          } elsif ($self->{insertion_mode} eq 'after head') {          } elsif ($self->{insertion_mode} eq 'in body' or
3650                     $self->{insertion_mode} eq 'in cell' or
3651                     $self->{insertion_mode} eq 'in caption') {
3652            if ($token->{type} eq 'character') {            if ($token->{type} eq 'character') {
3653              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {              ## NOTE: There is a code clone of "character in body".
3654                $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);              $reconstruct_active_formatting_elements->($insert_to_current);
               unless (length $token->{data}) {  
                 !!!next-token;  
                 redo B;  
               }  
             }  
3655                            
3656              #              $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});
3657            } elsif ($token->{type} eq 'comment') {  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
3658              !!!next-token;              !!!next-token;
3659              redo B;              redo B;
3660            } elsif ($token->{type} eq 'start tag') {            } elsif ($token->{type} eq 'start tag') {
3661              if ($token->{tag_name} eq 'body') {              if ({
3662                !!!insert-element ('body', $token->{attributes});                   caption => 1, col => 1, colgroup => 1, tbody => 1,
3663                $self->{insertion_mode} = 'in body';                   td => 1, tfoot => 1, th => 1, thead => 1, tr => 1,
3664                !!!next-token;                  }->{$token->{tag_name}}) {
3665                  if ($self->{insertion_mode} eq 'in cell') {
3666                    ## have an element in table scope
3667                    my $tn;
3668                    INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3669                      my $node = $self->{open_elements}->[$_];
3670                      if ($node->[1] eq 'td' or $node->[1] eq 'th') {
3671                        $tn = $node->[1];
3672                        last INSCOPE;
3673                      } elsif ({
3674                                table => 1, html => 1,
3675                               }->{$node->[1]}) {
3676                        last INSCOPE;
3677                      }
3678                    } # INSCOPE
3679                      unless (defined $tn) {
3680                        !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});
3681                        ## Ignore the token
3682                        !!!next-token;
3683                        redo B;
3684                      }
3685                    
3686                    ## Close the cell
3687                    !!!back-token; # <?>
3688                    $token = {type => 'end tag', tag_name => $tn};
3689                    redo B;
3690                  } elsif ($self->{insertion_mode} eq 'in caption') {
3691                    !!!parse-error (type => 'not closed:caption');
3692                    
3693                    ## As if </caption>
3694                    ## have a table element in table scope
3695                    my $i;
3696                    INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3697                      my $node = $self->{open_elements}->[$_];
3698                      if ($node->[1] eq 'caption') {
3699                        $i = $_;
3700                        last INSCOPE;
3701                      } elsif ({
3702                                table => 1, html => 1,
3703                               }->{$node->[1]}) {
3704                        last INSCOPE;
3705                      }
3706                    } # INSCOPE
3707                      unless (defined $i) {
3708                        !!!parse-error (type => 'unmatched end tag:caption');
3709                        ## Ignore the token
3710                        !!!next-token;
3711                        redo B;
3712                      }
3713                    
3714                    ## generate implied end tags
3715                    if ({
3716                         dd => 1, dt => 1, li => 1, p => 1,
3717                         td => 1, th => 1, tr => 1,
3718                         tbody => 1, tfoot=> 1, thead => 1,
3719                        }->{$self->{open_elements}->[-1]->[1]}) {
3720                      !!!back-token; # <?>
3721                      $token = {type => 'end tag', tag_name => 'caption'};
3722                      !!!back-token;
3723                      $token = {type => 'end tag',
3724                                tag_name => $self->{open_elements}->[-1]->[1]}; # MUST
3725                      redo B;
3726                    }
3727    
3728                    if ($self->{open_elements}->[-1]->[1] ne 'caption') {
3729                      !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);
3730                    }
3731                    
3732                    splice @{$self->{open_elements}}, $i;
3733                    
3734                    $clear_up_to_marker->();
3735                    
3736                    $self->{insertion_mode} = 'in table';
3737                    
3738                    ## reprocess
3739                    redo B;
3740                  } else {
3741                    #
3742                  }
3743                } else {
3744                  #
3745                }
3746              } elsif ($token->{type} eq 'end tag') {
3747                if ($token->{tag_name} eq 'td' or $token->{tag_name} eq 'th') {
3748                  if ($self->{insertion_mode} eq 'in cell') {
3749                    ## have an element in table scope
3750                    my $i;
3751                    INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3752                      my $node = $self->{open_elements}->[$_];
3753                      if ($node->[1] eq $token->{tag_name}) {
3754                        $i = $_;
3755                        last INSCOPE;
3756                      } elsif ({
3757                                table => 1, html => 1,
3758                               }->{$node->[1]}) {
3759                        last INSCOPE;
3760                      }
3761                    } # INSCOPE
3762                      unless (defined $i) {
3763                        !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});
3764                        ## Ignore the token
3765                        !!!next-token;
3766                        redo B;
3767                      }
3768                    
3769                    ## generate implied end tags
3770                    if ({
3771                         dd => 1, dt => 1, li => 1, p => 1,
3772                         td => ($token->{tag_name} eq 'th'),
3773                         th => ($token->{tag_name} eq 'td'),
3774                         tr => 1,
3775                         tbody => 1, tfoot=> 1, thead => 1,
3776                        }->{$self->{open_elements}->[-1]->[1]}) {
3777                      !!!back-token;
3778                      $token = {type => 'end tag',
3779                                tag_name => $self->{open_elements}->[-1]->[1]}; # MUST
3780                      redo B;
3781                    }
3782                    
3783                    if ($self->{open_elements}->[-1]->[1] ne $token->{tag_name}) {
3784                      !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);
3785                    }
3786                    
3787                    splice @{$self->{open_elements}}, $i;
3788                    
3789                    $clear_up_to_marker->();
3790                    
3791                    $self->{insertion_mode} = 'in row';
3792                    
3793                    !!!next-token;
3794                    redo B;
3795                  } elsif ($self->{insertion_mode} eq 'in caption') {
3796                    !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});
3797                    ## Ignore the token
3798                    !!!next-token;
3799                    redo B;
3800                  } else {
3801                    #
3802                  }
3803                } elsif ($token->{tag_name} eq 'caption') {
3804                  if ($self->{insertion_mode} eq 'in caption') {
3805                    ## have a table element in table scope
3806                    my $i;
3807                    INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3808                      my $node = $self->{open_elements}->[$_];
3809                      if ($node->[1] eq $token->{tag_name}) {
3810                        $i = $_;
3811                        last INSCOPE;
3812                      } elsif ({
3813                                table => 1, html => 1,
3814                               }->{$node->[1]}) {
3815                        last INSCOPE;
3816                      }
3817                    } # INSCOPE
3818                      unless (defined $i) {
3819                        !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});
3820                        ## Ignore the token
3821                        !!!next-token;
3822                        redo B;
3823                      }
3824                    
3825                    ## generate implied end tags
3826                    if ({
3827                         dd => 1, dt => 1, li => 1, p => 1,
3828                         td => 1, th => 1, tr => 1,
3829                         tbody => 1, tfoot=> 1, thead => 1,
3830                        }->{$self->{open_elements}->[-1]->[1]}) {
3831                      !!!back-token;
3832                      $token = {type => 'end tag',
3833                                tag_name => $self->{open_elements}->[-1]->[1]}; # MUST
3834                      redo B;
3835                    }
3836                    
3837                    if ($self->{open_elements}->[-1]->[1] ne 'caption') {
3838                      !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);
3839                    }
3840                    
3841                    splice @{$self->{open_elements}}, $i;
3842                    
3843                    $clear_up_to_marker->();
3844                    
3845                    $self->{insertion_mode} = 'in table';
3846                    
3847                    !!!next-token;
3848                    redo B;
3849                  } elsif ($self->{insertion_mode} eq 'in cell') {
3850                    !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});
3851                    ## Ignore the token
3852                    !!!next-token;
3853                    redo B;
3854                  } else {
3855                    #
3856                  }
3857                } elsif ({
3858                          table => 1, tbody => 1, tfoot => 1,
3859                          thead => 1, tr => 1,
3860                         }->{$token->{tag_name}} and
3861                         $self->{insertion_mode} eq 'in cell') {
3862                  ## have an element in table scope
3863                  my $i;
3864                  my $tn;
3865                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3866                    my $node = $self->{open_elements}->[$_];
3867                    if ($node->[1] eq $token->{tag_name}) {
3868                      $i = $_;
3869                      last INSCOPE;
3870                    } elsif ($node->[1] eq 'td' or $node->[1] eq 'th') {
3871                      $tn = $node->[1];
3872                      ## NOTE: There is exactly one |td| or |th| element
3873                      ## in scope in the stack of open elements by definition.
3874                    } elsif ({
3875                              table => 1, html => 1,
3876                             }->{$node->[1]}) {
3877                      last INSCOPE;
3878                    }
3879                  } # INSCOPE
3880                  unless (defined $i) {
3881                    !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});
3882                    ## Ignore the token
3883                    !!!next-token;
3884                    redo B;
3885                  }
3886    
3887                  ## Close the cell
3888                  !!!back-token; # </?>
3889                  $token = {type => 'end tag', tag_name => $tn};
3890                redo B;                redo B;
3891              } elsif ($token->{tag_name} eq 'frameset') {              } elsif ($token->{tag_name} eq 'table' and
3892                !!!insert-element ('frameset', $token->{attributes});                       $self->{insertion_mode} eq 'in caption') {
3893                $self->{insertion_mode} = 'in frameset';                !!!parse-error (type => 'not closed:caption');
3894                !!!next-token;  
3895                  ## As if </caption>
3896                  ## have a table element in table scope
3897                  my $i;
3898                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3899                    my $node = $self->{open_elements}->[$_];
3900                    if ($node->[1] eq 'caption') {
3901                      $i = $_;
3902                      last INSCOPE;
3903                    } elsif ({
3904                              table => 1, html => 1,
3905                             }->{$node->[1]}) {
3906                      last INSCOPE;
3907                    }
3908                  } # INSCOPE
3909                  unless (defined $i) {
3910                    !!!parse-error (type => 'unmatched end tag:caption');
3911                    ## Ignore the token
3912                    !!!next-token;
3913                    redo B;
3914                  }
3915                  
3916                  ## generate implied end tags
3917                  if ({
3918                       dd => 1, dt => 1, li => 1, p => 1,
3919                       td => 1, th => 1, tr => 1,
3920                       tbody => 1, tfoot=> 1, thead => 1,
3921                      }->{$self->{open_elements}->[-1]->[1]}) {
3922                    !!!back-token; # </table>
3923                    $token = {type => 'end tag', tag_name => 'caption'};
3924                    !!!back-token;
3925                    $token = {type => 'end tag',
3926                              tag_name => $self->{open_elements}->[-1]->[1]}; # MUST
3927                    redo B;
3928                  }
3929    
3930                  if ($self->{open_elements}->[-1]->[1] ne 'caption') {
3931                    !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);
3932                  }
3933    
3934                  splice @{$self->{open_elements}}, $i;
3935    
3936                  $clear_up_to_marker->();
3937    
3938                  $self->{insertion_mode} = 'in table';
3939    
3940                  ## reprocess
3941                redo B;                redo B;
3942              } elsif ({              } elsif ({
3943                        base => 1, link => 1, meta => 1,                        body => 1, col => 1, colgroup => 1, html => 1,
                       script => 1, style => 1, title => 1,  
3944                       }->{$token->{tag_name}}) {                       }->{$token->{tag_name}}) {
3945                !!!parse-error (type => 'after head:'.$token->{tag_name});                if ($self->{insertion_mode} eq 'in cell' or
3946                $self->{insertion_mode} = 'in head';                    $self->{insertion_mode} eq 'in caption') {
3947                ## reprocess                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});
3948                    ## Ignore the token
3949                    !!!next-token;
3950                    redo B;
3951                  } else {
3952                    #
3953                  }
3954                } elsif ({
3955                          tbody => 1, tfoot => 1,
3956                          thead => 1, tr => 1,
3957                         }->{$token->{tag_name}} and
3958                         $self->{insertion_mode} eq 'in caption') {
3959                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});
3960                  ## Ignore the token
3961                  !!!next-token;
3962                redo B;                redo B;
3963              } else {              } else {
3964                #                #
3965              }              }
3966            } else {            } else {
3967              #              #
3968            }            }
3969                        
3970            ## As if <body>            $in_body->($insert_to_current);
           !!!insert-element ('body');  
           $self->{insertion_mode} = 'in body';  
           ## reprocess  
3971            redo B;            redo B;
         } elsif ($self->{insertion_mode} eq 'in body') {  
           if ($token->{type} eq 'character') {  
             ## NOTE: There is a code clone of "character in body".  
             $reconstruct_active_formatting_elements->($insert_to_current);  
               
             $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});  
   
             !!!next-token;  
             redo B;  
           } elsif ($token->{type} eq 'comment') {  
             ## NOTE: There is a code clone of "comment in body".  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
             !!!next-token;  
             redo B;  
           } else {  
             $in_body->($insert_to_current);  
             redo B;  
           }  
3972          } elsif ($self->{insertion_mode} eq 'in table') {          } elsif ($self->{insertion_mode} eq 'in table') {
3973            if ($token->{type} eq 'character') {            if ($token->{type} eq 'character') {
3974              ## NOTE: There are "character in table" code clones.              ## NOTE: There are "character in table" code clones.
# Line 3100  sub _tree_construction_main ($) { Line 4028  sub _tree_construction_main ($) {
4028                            
4029              !!!next-token;              !!!next-token;
4030              redo B;              redo B;
           } elsif ($token->{type} eq 'comment') {  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
             !!!next-token;  
             redo B;  
4031            } elsif ($token->{type} eq 'start tag') {            } elsif ($token->{type} eq 'start tag') {
4032              if ({              if ({
4033                   caption => 1,                   caption => 1,
# Line 3176  sub _tree_construction_main ($) { Line 4099  sub _tree_construction_main ($) {
4099                if ({                if ({
4100                     dd => 1, dt => 1, li => 1, p => 1,                     dd => 1, dt => 1, li => 1, p => 1,
4101                     td => 1, th => 1, tr => 1,                     td => 1, th => 1, tr => 1,
4102                       tbody => 1, tfoot=> 1, thead => 1,
4103                    }->{$self->{open_elements}->[-1]->[1]}) {                    }->{$self->{open_elements}->[-1]->[1]}) {
4104                  !!!back-token; # <table>                  !!!back-token; # <table>
4105                  $token = {type => 'end tag', tag_name => 'table'};                  $token = {type => 'end tag', tag_name => 'table'};
# Line 3224  sub _tree_construction_main ($) { Line 4148  sub _tree_construction_main ($) {
4148                if ({                if ({
4149                     dd => 1, dt => 1, li => 1, p => 1,                     dd => 1, dt => 1, li => 1, p => 1,
4150                     td => 1, th => 1, tr => 1,                     td => 1, th => 1, tr => 1,
4151                       tbody => 1, tfoot=> 1, thead => 1,
4152                    }->{$self->{open_elements}->[-1]->[1]}) {                    }->{$self->{open_elements}->[-1]->[1]}) {
4153                  !!!back-token;                  !!!back-token;
4154                  $token = {type => 'end tag',                  $token = {type => 'end tag',
# Line 3260  sub _tree_construction_main ($) { Line 4185  sub _tree_construction_main ($) {
4185            !!!parse-error (type => 'in table:'.$token->{tag_name});            !!!parse-error (type => 'in table:'.$token->{tag_name});
4186            $in_body->($insert_to_foster);            $in_body->($insert_to_foster);
4187            redo B;            redo B;
         } elsif ($self->{insertion_mode} eq 'in caption') {  
           if ($token->{type} eq 'character') {  
             ## NOTE: This is a code clone of "character in body".  
             $reconstruct_active_formatting_elements->($insert_to_current);  
               
             $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});  
   
             !!!next-token;  
             redo B;  
           } elsif ($token->{type} eq 'comment') {  
             ## NOTE: This is a code clone of "comment in body".  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
             !!!next-token;  
             redo B;  
           } elsif ($token->{type} eq 'start tag') {  
             if ({  
                  caption => 1, col => 1, colgroup => 1, tbody => 1,  
                  td => 1, tfoot => 1, th => 1, thead => 1, tr => 1,  
                 }->{$token->{tag_name}}) {  
               !!!parse-error (type => 'not closed:caption');  
   
               ## As if </caption>  
               ## have a table element in table scope  
               my $i;  
               INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
                 my $node = $self->{open_elements}->[$_];  
                 if ($node->[1] eq 'caption') {  
                   $i = $_;  
                   last INSCOPE;  
                 } elsif ({  
                           table => 1, html => 1,  
                          }->{$node->[1]}) {  
                   last INSCOPE;  
                 }  
               } # INSCOPE  
               unless (defined $i) {  
                 !!!parse-error (type => 'unmatched end tag:caption');  
                 ## Ignore the token  
                 !!!next-token;  
                 redo B;  
               }  
                 
               ## generate implied end tags  
               if ({  
                    dd => 1, dt => 1, li => 1, p => 1,  
                    td => 1, th => 1, tr => 1,  
                   }->{$self->{open_elements}->[-1]->[1]}) {  
                 !!!back-token; # <?>  
                 $token = {type => 'end tag', tag_name => 'caption'};  
                 !!!back-token;  
                 $token = {type => 'end tag',  
                           tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                 redo B;  
               }  
   
               if ($self->{open_elements}->[-1]->[1] ne 'caption') {  
                 !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
               }  
   
               splice @{$self->{open_elements}}, $i;  
   
               $clear_up_to_marker->();  
   
               $self->{insertion_mode} = 'in table';  
   
               ## reprocess  
               redo B;  
             } else {  
               #  
             }  
           } elsif ($token->{type} eq 'end tag') {  
             if ($token->{tag_name} eq 'caption') {  
               ## have a table element in table scope  
               my $i;  
               INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
                 my $node = $self->{open_elements}->[$_];  
                 if ($node->[1] eq $token->{tag_name}) {  
                   $i = $_;  
                   last INSCOPE;  
                 } elsif ({  
                           table => 1, html => 1,  
                          }->{$node->[1]}) {  
                   last INSCOPE;  
                 }  
               } # INSCOPE  
               unless (defined $i) {  
                 !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
                 ## Ignore the token  
                 !!!next-token;  
                 redo B;  
               }  
                 
               ## generate implied end tags  
               if ({  
                    dd => 1, dt => 1, li => 1, p => 1,  
                    td => 1, th => 1, tr => 1,  
                   }->{$self->{open_elements}->[-1]->[1]}) {  
                 !!!back-token;  
                 $token = {type => 'end tag',  
                           tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                 redo B;  
               }  
   
               if ($self->{open_elements}->[-1]->[1] ne 'caption') {  
                 !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
               }  
   
               splice @{$self->{open_elements}}, $i;  
   
               $clear_up_to_marker->();  
   
               $self->{insertion_mode} = 'in table';  
   
               !!!next-token;  
               redo B;  
             } elsif ($token->{tag_name} eq 'table') {  
               !!!parse-error (type => 'not closed:caption');  
   
               ## As if </caption>  
               ## have a table element in table scope  
               my $i;  
               INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
                 my $node = $self->{open_elements}->[$_];  
                 if ($node->[1] eq 'caption') {  
                   $i = $_;  
                   last INSCOPE;  
                 } elsif ({  
                           table => 1, html => 1,  
                          }->{$node->[1]}) {  
                   last INSCOPE;  
                 }  
               } # INSCOPE  
               unless (defined $i) {  
                 !!!parse-error (type => 'unmatched end tag:caption');  
                 ## Ignore the token  
                 !!!next-token;  
                 redo B;  
               }  
                 
               ## generate implied end tags  
               if ({  
                    dd => 1, dt => 1, li => 1, p => 1,  
                    td => 1, th => 1, tr => 1,  
                   }->{$self->{open_elements}->[-1]->[1]}) {  
                 !!!back-token; # </table>  
                 $token = {type => 'end tag', tag_name => 'caption'};  
                 !!!back-token;  
                 $token = {type => 'end tag',  
                           tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                 redo B;  
               }  
   
               if ($self->{open_elements}->[-1]->[1] ne 'caption') {  
                 !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
               }  
   
               splice @{$self->{open_elements}}, $i;  
   
               $clear_up_to_marker->();  
   
               $self->{insertion_mode} = 'in table';  
   
               ## reprocess  
               redo B;  
             } elsif ({  
                       body => 1, col => 1, colgroup => 1,  
                       html => 1, tbody => 1, td => 1, tfoot => 1,  
                       th => 1, thead => 1, tr => 1,  
                      }->{$token->{tag_name}}) {  
               !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
               ## Ignore the token  
               redo B;  
             } else {  
               #  
             }  
           } else {  
             #  
           }  
                 
           $in_body->($insert_to_current);  
           redo B;  
4188          } elsif ($self->{insertion_mode} eq 'in column group') {          } elsif ($self->{insertion_mode} eq 'in column group') {
4189            if ($token->{type} eq 'character') {            if ($token->{type} eq 'character') {
4190              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {
# Line 3453  sub _tree_construction_main ($) { Line 4196  sub _tree_construction_main ($) {
4196              }              }
4197                            
4198              #              #
           } elsif ($token->{type} eq 'comment') {  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
             !!!next-token;  
             redo B;  
4199            } elsif ($token->{type} eq 'start tag') {            } elsif ($token->{type} eq 'start tag') {
4200              if ($token->{tag_name} eq 'col') {              if ($token->{tag_name} eq 'col') {
4201                !!!insert-element ($token->{tag_name}, $token->{attributes});                !!!insert-element ($token->{tag_name}, $token->{attributes});
# Line 3563  sub _tree_construction_main ($) { Line 4301  sub _tree_construction_main ($) {
4301                            
4302              !!!next-token;              !!!next-token;
4303              redo B;              redo B;
           } elsif ($token->{type} eq 'comment') {  
             ## Copied from 'in table'  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
             !!!next-token;  
             redo B;  
4304            } elsif ($token->{type} eq 'start tag') {            } elsif ($token->{type} eq 'start tag') {
4305              if ({              if ({
4306                   tr => 1,                   tr => 1,
# Line 3669  sub _tree_construction_main ($) { Line 4401  sub _tree_construction_main ($) {
4401                if ({                if ({
4402                     dd => 1, dt => 1, li => 1, p => 1,                     dd => 1, dt => 1, li => 1, p => 1,
4403                     td => 1, th => 1, tr => 1,                     td => 1, th => 1, tr => 1,
4404                       tbody => 1, tfoot=> 1, thead => 1,
4405                    }->{$self->{open_elements}->[-1]->[1]}) {                    }->{$self->{open_elements}->[-1]->[1]}) {
4406                  !!!back-token; # <table>                  !!!back-token; # <table>
4407                  $token = {type => 'end tag', tag_name => 'table'};                  $token = {type => 'end tag', tag_name => 'table'};
# Line 3847  sub _tree_construction_main ($) { Line 4580  sub _tree_construction_main ($) {
4580                            
4581              !!!next-token;              !!!next-token;
4582              redo B;              redo B;
           } elsif ($token->{type} eq 'comment') {  
             ## Copied from 'in table'  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
             !!!next-token;  
             redo B;  
4583            } elsif ($token->{type} eq 'start tag') {            } elsif ($token->{type} eq 'start tag') {
4584              if ($token->{tag_name} eq 'th' or              if ($token->{tag_name} eq 'th' or
4585                  $token->{tag_name} eq 'td') {                  $token->{tag_name} eq 'td') {
# Line 3937  sub _tree_construction_main ($) { Line 4664  sub _tree_construction_main ($) {
4664                if ({                if ({
4665                     dd => 1, dt => 1, li => 1, p => 1,                     dd => 1, dt => 1, li => 1, p => 1,
4666                     td => 1, th => 1, tr => 1,                     td => 1, th => 1, tr => 1,
4667                       tbody => 1, tfoot=> 1, thead => 1,
4668                    }->{$self->{open_elements}->[-1]->[1]}) {                    }->{$self->{open_elements}->[-1]->[1]}) {
4669                  !!!back-token; # <table>                  !!!back-token; # <table>
4670                  $token = {type => 'end tag', tag_name => 'table'};                  $token = {type => 'end tag', tag_name => 'table'};
# Line 4102  sub _tree_construction_main ($) { Line 4830  sub _tree_construction_main ($) {
4830            !!!parse-error (type => 'in table:'.$token->{tag_name});            !!!parse-error (type => 'in table:'.$token->{tag_name});
4831            $in_body->($insert_to_foster);            $in_body->($insert_to_foster);
4832            redo B;            redo B;
         } elsif ($self->{insertion_mode} eq 'in cell') {  
           if ($token->{type} eq 'character') {  
             ## NOTE: This is a code clone of "character in body".  
             $reconstruct_active_formatting_elements->($insert_to_current);  
               
             $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});  
   
             !!!next-token;  
             redo B;  
           } elsif ($token->{type} eq 'comment') {  
             ## NOTE: This is a code clone of "comment in body".  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
             !!!next-token;  
             redo B;  
           } elsif ($token->{type} eq 'start tag') {  
             if ({  
                  caption => 1, col => 1, colgroup => 1,  
                  tbody => 1, td => 1, tfoot => 1, th => 1,  
                  thead => 1, tr => 1,  
                 }->{$token->{tag_name}}) {  
               ## have an element in table scope  
               my $tn;  
               INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
                 my $node = $self->{open_elements}->[$_];  
                 if ($node->[1] eq 'td' or $node->[1] eq 'th') {  
                   $tn = $node->[1];  
                   last INSCOPE;  
                 } elsif ({  
                           table => 1, html => 1,  
                          }->{$node->[1]}) {  
                   last INSCOPE;  
                 }  
               } # INSCOPE  
               unless (defined $tn) {  
                 !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
                 ## Ignore the token  
                 !!!next-token;  
                 redo B;  
               }  
   
               ## Close the cell  
               !!!back-token; # <?>  
               $token = {type => 'end tag', tag_name => $tn};  
               redo B;  
             } else {  
               #  
             }  
           } elsif ($token->{type} eq 'end tag') {  
             if ($token->{tag_name} eq 'td' or $token->{tag_name} eq 'th') {  
               ## have an element in table scope  
               my $i;  
               INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
                 my $node = $self->{open_elements}->[$_];  
                 if ($node->[1] eq $token->{tag_name}) {  
                   $i = $_;  
                   last INSCOPE;  
                 } elsif ({  
                           table => 1, html => 1,  
                          }->{$node->[1]}) {  
                   last INSCOPE;  
                 }  
               } # INSCOPE  
               unless (defined $i) {  
                 !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
                 ## Ignore the token  
                 !!!next-token;  
                 redo B;  
               }  
                 
               ## generate implied end tags  
               if ({  
                    dd => 1, dt => 1, li => 1, p => 1,  
                    td => ($token->{tag_name} eq 'th'),  
                    th => ($token->{tag_name} eq 'td'),  
                    tr => 1,  
                   }->{$self->{open_elements}->[-1]->[1]}) {  
                 !!!back-token;  
                 $token = {type => 'end tag',  
                           tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                 redo B;  
               }  
   
               if ($self->{open_elements}->[-1]->[1] ne $token->{tag_name}) {  
                 !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
               }  
   
               splice @{$self->{open_elements}}, $i;  
   
               $clear_up_to_marker->();  
   
               $self->{insertion_mode} = 'in row';  
   
               !!!next-token;  
               redo B;  
             } elsif ({  
                       body => 1, caption => 1, col => 1,  
                       colgroup => 1, html => 1,  
                      }->{$token->{tag_name}}) {  
               !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
               ## Ignore the token  
               !!!next-token;  
               redo B;  
             } elsif ({  
                       table => 1, tbody => 1, tfoot => 1,  
                       thead => 1, tr => 1,  
                      }->{$token->{tag_name}}) {  
               ## have an element in table scope  
               my $i;  
               my $tn;  
               INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
                 my $node = $self->{open_elements}->[$_];  
                 if ($node->[1] eq $token->{tag_name}) {  
                   $i = $_;  
                   last INSCOPE;  
                 } elsif ($node->[1] eq 'td' or $node->[1] eq 'th') {  
                   $tn = $node->[1];  
                   ## NOTE: There is exactly one |td| or |th| element  
                   ## in scope in the stack of open elements by definition.  
                 } elsif ({  
                           table => 1, html => 1,  
                          }->{$node->[1]}) {  
                   last INSCOPE;  
                 }  
               } # INSCOPE  
               unless (defined $i) {  
                 !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
                 ## Ignore the token  
                 !!!next-token;  
                 redo B;  
               }  
   
               ## Close the cell  
               !!!back-token; # </?>  
               $token = {type => 'end tag', tag_name => $tn};  
               redo B;  
             } else {  
               #  
             }  
           } else {  
             #  
           }  
             
           $in_body->($insert_to_current);  
           redo B;  
4833          } elsif ($self->{insertion_mode} eq 'in select') {          } elsif ($self->{insertion_mode} eq 'in select') {
4834            if ($token->{type} eq 'character') {            if ($token->{type} eq 'character') {
4835              $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});              $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});
4836              !!!next-token;              !!!next-token;
4837              redo B;              redo B;
           } elsif ($token->{type} eq 'comment') {  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
             !!!next-token;  
             redo B;  
4838            } elsif ($token->{type} eq 'start tag') {            } elsif ($token->{type} eq 'start tag') {
4839              if ($token->{tag_name} eq 'option') {              if ($token->{tag_name} eq 'option') {
4840                if ($self->{open_elements}->[-1]->[1] eq 'option') {                if ($self->{open_elements}->[-1]->[1] eq 'option') {
# Line 4429  sub _tree_construction_main ($) { Line 5007  sub _tree_construction_main ($) {
5007          } elsif ($self->{insertion_mode} eq 'after body') {          } elsif ($self->{insertion_mode} eq 'after body') {
5008            if ($token->{type} eq 'character') {            if ($token->{type} eq 'character') {
5009              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {
5010                  my $data = $1;
5011                ## As if in body                ## As if in body
5012                $reconstruct_active_formatting_elements->($insert_to_current);                $reconstruct_active_formatting_elements->($insert_to_current);
5013                                
5014                $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});                $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);
5015    
5016                unless (length $token->{data}) {                unless (length $token->{data}) {
5017                  !!!next-token;                  !!!next-token;
# Line 4441  sub _tree_construction_main ($) { Line 5020  sub _tree_construction_main ($) {
5020              }              }
5021                            
5022              #              #
5023              !!!parse-error (type => 'after body:#'.$token->{type});              !!!parse-error (type => 'after body:#character');
           } elsif ($token->{type} eq 'comment') {  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[0]->[0]->append_child ($comment);  
             !!!next-token;  
             redo B;  
5024            } elsif ($token->{type} eq 'start tag') {            } elsif ($token->{type} eq 'start tag') {
5025              !!!parse-error (type => 'after body:'.$token->{tag_name});              !!!parse-error (type => 'after body:'.$token->{tag_name});
5026              #              #
# Line 4458  sub _tree_construction_main ($) { Line 5032  sub _tree_construction_main ($) {
5032                  !!!next-token;                  !!!next-token;
5033                  redo B;                  redo B;
5034                } else {                } else {
5035                  $phase = 'trailing end';                  $previous_insertion_mode = $self->{insertion_mode};
5036                    $self->{insertion_mode} = 'trailing end';
5037                  !!!next-token;                  !!!next-token;
5038                  redo B;                  redo B;
5039                }                }
# Line 4466  sub _tree_construction_main ($) { Line 5041  sub _tree_construction_main ($) {
5041                !!!parse-error (type => 'after body:/'.$token->{tag_name});                !!!parse-error (type => 'after body:/'.$token->{tag_name});
5042              }              }
5043            } else {            } else {
5044              !!!parse-error (type => 'after body:#'.$token->{type});              die "$0: $token->{type}: Unknown token type";
5045            }            }
5046    
5047            $self->{insertion_mode} = 'in body';            $self->{insertion_mode} = 'in body';
5048            ## reprocess            ## reprocess
5049            redo B;            redo B;
5050          } elsif ($self->{insertion_mode} eq 'in frameset') {      } elsif ($self->{insertion_mode} eq 'in frameset') {
5051            if ($token->{type} eq 'character') {        if ($token->{type} eq 'character') {
5052              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {          if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {
5053                $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});            $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);
   
               unless (length $token->{data}) {  
                 !!!next-token;  
                 redo B;  
               }  
             }  
5054    
5055              #            unless (length $token->{data}) {
           } elsif ($token->{type} eq 'comment') {  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
5056              !!!next-token;              !!!next-token;
5057              redo B;              redo B;
           } elsif ($token->{type} eq 'start tag') {  
             if ($token->{tag_name} eq 'frameset') {  
               !!!insert-element ($token->{tag_name}, $token->{attributes});  
               !!!next-token;  
               redo B;  
             } elsif ($token->{tag_name} eq 'frame') {  
               !!!insert-element ($token->{tag_name}, $token->{attributes});  
               pop @{$self->{open_elements}};  
               !!!next-token;  
               redo B;  
             } elsif ($token->{tag_name} eq 'noframes') {  
               $in_body->($insert_to_current);  
               redo B;  
             } else {  
               #  
             }  
           } elsif ($token->{type} eq 'end tag') {  
             if ($token->{tag_name} eq 'frameset') {  
               if ($self->{open_elements}->[-1]->[1] eq 'html' and  
                   @{$self->{open_elements}} == 1) {  
                 !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
                 ## Ignore the token  
                 !!!next-token;  
               } else {  
                 pop @{$self->{open_elements}};  
                 !!!next-token;  
               }  
                 
               ## if not inner_html and  
               if ($self->{open_elements}->[-1]->[1] ne 'frameset') {  
                 $self->{insertion_mode} = 'after frameset';  
               }  
               redo B;  
             } else {  
               #  
             }  
           } else {  
             #  
5058            }            }
5059                      }
5060            if (defined $token->{tag_name}) {  
5061              !!!parse-error (type => 'in frameset:'.$token->{tag_name});          !!!parse-error (type => 'in frameset:#character');
5062            ## Ignore the token
5063            !!!next-token;
5064            redo B;
5065          } elsif ($token->{type} eq 'start tag') {
5066            if ($token->{tag_name} eq 'frameset') {
5067              !!!insert-element ($token->{tag_name}, $token->{attributes});
5068              !!!next-token;
5069              redo B;
5070            } elsif ($token->{tag_name} eq 'frame') {
5071              !!!insert-element ($token->{tag_name}, $token->{attributes});
5072              pop @{$self->{open_elements}};
5073              !!!next-token;
5074              redo B;
5075            } elsif ($token->{tag_name} eq 'noframes') {
5076              $in_body->($insert_to_current);
5077              redo B;
5078            } else {
5079              !!!parse-error (type => 'in frameset:'.$token->{tag_name});
5080              ## Ignore the token
5081              !!!next-token;
5082              redo B;
5083            }
5084          } elsif ($token->{type} eq 'end tag') {
5085            if ($token->{tag_name} eq 'frameset') {
5086              if ($self->{open_elements}->[-1]->[1] eq 'html' and
5087                  @{$self->{open_elements}} == 1) {
5088                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});
5089                ## Ignore the token
5090                !!!next-token;
5091            } else {            } else {
5092              !!!parse-error (type => 'in frameset:#'.$token->{type});              pop @{$self->{open_elements}};
5093                !!!next-token;
5094            }            }
5095    
5096              if (not defined $self->{inner_html_node} and
5097                  $self->{open_elements}->[-1]->[1] ne 'frameset') {
5098                $self->{insertion_mode} = 'after frameset';
5099              }
5100              redo B;
5101            } else {
5102              !!!parse-error (type => 'in frameset:/'.$token->{tag_name});
5103            ## Ignore the token            ## Ignore the token
5104            !!!next-token;            !!!next-token;
5105            redo B;            redo B;
5106          } elsif ($self->{insertion_mode} eq 'after frameset') {          }
5107            if ($token->{type} eq 'character') {        } else {
5108            die "$0: $token->{type}: Unknown token type";
5109          }
5110        } elsif ($self->{insertion_mode} eq 'after frameset') {
5111          if ($token->{type} eq 'character') {
5112              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {
5113                $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});                $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);
5114    
5115                unless (length $token->{data}) {                unless (length $token->{data}) {
5116                  !!!next-token;                  !!!next-token;
# Line 4548  sub _tree_construction_main ($) { Line 5118  sub _tree_construction_main ($) {
5118                }                }
5119              }              }
5120    
5121              #              if ($token->{data} =~ s/^[^\x09\x0A\x0B\x0C\x20]+//) {
5122            } elsif ($token->{type} eq 'comment') {                !!!parse-error (type => 'after frameset:#character');
5123              my $comment = $self->{document}->create_comment ($token->{data});  
5124              $self->{open_elements}->[-1]->[0]->append_child ($comment);                ## Ignore the token.
5125              !!!next-token;                if (length $token->{data}) {
5126              redo B;                  ## reprocess the rest of characters
5127            } elsif ($token->{type} eq 'start tag') {                } else {
5128              if ($token->{tag_name} eq 'noframes') {                  !!!next-token;
5129                $in_body->($insert_to_current);                }
               redo B;  
             } else {  
               #  
             }  
           } elsif ($token->{type} eq 'end tag') {  
             if ($token->{tag_name} eq 'html') {  
               $phase = 'trailing end';  
               !!!next-token;  
5130                redo B;                redo B;
             } else {  
               #  
5131              }              }
5132            } else {  
5133              #          die qq[$0: Character "$token->{data}"];
5134            }        } elsif ($token->{type} eq 'start tag') {
5135                      if ($token->{tag_name} eq 'noframes') {
5136            if (defined $token->{tag_name}) {            $in_body->($insert_to_current);
5137              !!!parse-error (type => 'after frameset:'.$token->{tag_name});            redo B;
5138            } else {          } else {
5139              !!!parse-error (type => 'after frameset:#'.$token->{type});            !!!parse-error (type => 'after frameset:'.$token->{tag_name});
           }  
5140            ## Ignore the token            ## Ignore the token
5141            !!!next-token;            !!!next-token;
5142            redo B;            redo B;
5143            }
5144            ## ISSUE: An issue in spec there        } elsif ($token->{type} eq 'end tag') {
5145            if ($token->{tag_name} eq 'html') {
5146              $previous_insertion_mode = $self->{insertion_mode};
5147              $self->{insertion_mode} = 'trailing end';
5148              !!!next-token;
5149              redo B;
5150          } else {          } else {
5151            die "$0: $self->{insertion_mode}: Unknown insertion mode";            !!!parse-error (type => 'after frameset:/'.$token->{tag_name});
5152              ## Ignore the token
5153              !!!next-token;
5154              redo B;
5155          }          }
5156          } else {
5157            die "$0: $token->{type}: Unknown token type";
5158        }        }
5159      } elsif ($phase eq 'trailing end') {  
5160          ## ISSUE: An issue in spec here
5161        } elsif ($self->{insertion_mode} eq 'trailing end') {
5162        ## states in the main stage is preserved yet # MUST        ## states in the main stage is preserved yet # MUST
5163                
5164        if ($token->{type} eq 'DOCTYPE') {        if ($token->{type} eq 'character') {
         !!!parse-error (type => 'after html:#DOCTYPE');  
         ## Ignore the token  
         !!!next-token;  
         redo B;  
       } elsif ($token->{type} eq 'comment') {  
         my $comment = $self->{document}->create_comment ($token->{data});  
         $self->{document}->append_child ($comment);  
         !!!next-token;  
         redo B;  
       } elsif ($token->{type} eq 'character') {  
5165          if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {          if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {
5166            my $data = $1;            my $data = $1;
5167            ## As if in the main phase.            ## As if in the main phase.
5168            ## NOTE: The insertion mode in the main phase            ## NOTE: The insertion mode in the main phase
5169            ## just before the phase has been changed to the trailing            ## just before the phase has been changed to the trailing
5170            ## end phase is either "after body" or "after frameset".            ## end phase is either "after body" or "after frameset".
5171            $reconstruct_active_formatting_elements->($insert_to_current)            $reconstruct_active_formatting_elements->($insert_to_current);
             if $phase eq 'main';  
5172                        
5173            $self->{open_elements}->[-1]->[0]->manakai_append_text ($data);            $self->{open_elements}->[-1]->[0]->manakai_append_text ($data);
5174                        
# Line 4619  sub _tree_construction_main ($) { Line 5179  sub _tree_construction_main ($) {
5179          }          }
5180    
5181          !!!parse-error (type => 'after html:#character');          !!!parse-error (type => 'after html:#character');
5182          $phase = 'main';          $self->{insertion_mode} = $previous_insertion_mode;
5183          ## reprocess          ## reprocess
5184          redo B;          redo B;
5185        } elsif ($token->{type} eq 'start tag' or        } elsif ($token->{type} eq 'start tag') {
                $token->{type} eq 'end tag') {  
5186          !!!parse-error (type => 'after html:'.$token->{tag_name});          !!!parse-error (type => 'after html:'.$token->{tag_name});
5187          $phase = 'main';          $self->{insertion_mode} = $previous_insertion_mode;
5188            ## reprocess
5189            redo B;
5190          } elsif ($token->{type} eq 'end tag') {
5191            !!!parse-error (type => 'after html:/'.$token->{tag_name});
5192            $self->{insertion_mode} = $previous_insertion_mode;
5193          ## reprocess          ## reprocess
5194          redo B;          redo B;
       } elsif ($token->{type} eq 'end-of-file') {  
         ## Stop parsing  
         last B;  
5195        } else {        } else {
5196          die "$0: $token->{type}: Unknown token";          die "$0: $token->{type}: Unknown token";
5197        }        }
5198        } else {
5199          die "$0: $self->{insertion_mode}: Unknown insertion mode";
5200      }      }
5201    } # B    } # B
5202    
# Line 4672  sub set_inner_html ($$$) { Line 5235  sub set_inner_html ($$$) {
5235      ## Step 1 # MUST      ## Step 1 # MUST
5236      my $this_doc = $node->owner_document;      my $this_doc = $node->owner_document;
5237      my $doc = $this_doc->implementation->create_document;      my $doc = $this_doc->implementation->create_document;
5238      ## TODO: Mark as HTML document      $doc->manakai_is_html (1);
5239      my $p = $class->new;      my $p = $class->new;
5240      $p->{document} = $doc;      $p->{document} = $doc;
5241    
# Line 4721  sub set_inner_html ($$$) { Line 5284  sub set_inner_html ($$$) {
5284    
5285      ## Step 2      ## Step 2
5286      my $node_ln = $node->local_name;      my $node_ln = $node->local_name;
5287      $p->{content_model_flag} = {      $p->{content_model} = {
5288        title => 'RCDATA',        title => RCDATA_CONTENT_MODEL,
5289        textarea => 'RCDATA',        textarea => RCDATA_CONTENT_MODEL,
5290        style => 'CDATA',        style => CDATA_CONTENT_MODEL,
5291        script => 'CDATA',        script => CDATA_CONTENT_MODEL,
5292        xmp => 'CDATA',        xmp => CDATA_CONTENT_MODEL,
5293        iframe => 'CDATA',        iframe => CDATA_CONTENT_MODEL,
5294        noembed => 'CDATA',        noembed => CDATA_CONTENT_MODEL,
5295        noframes => 'CDATA',        noframes => CDATA_CONTENT_MODEL,
5296        noscript => 'CDATA',        noscript => CDATA_CONTENT_MODEL,
5297        plaintext => 'PLAINTEXT',        plaintext => PLAINTEXT_CONTENT_MODEL,
5298      }->{$node_ln} || 'PCDATA';      }->{$node_ln};
5299         ## ISSUE: What is "the name of the element"? local name?      $p->{content_model} = PCDATA_CONTENT_MODEL
5300            unless defined $p->{content_model};
5301            ## ISSUE: What is "the name of the element"? local name?
5302    
5303      $p->{inner_html_node} = [$node, $node_ln];      $p->{inner_html_node} = [$node, $node_ln];
5304    
# Line 4833  sub get_inner_html ($$$) { Line 5398  sub get_inner_html ($$$) {
5398            
5399      my $nt = $child->node_type;      my $nt = $child->node_type;
5400      if ($nt == 1) { # Element      if ($nt == 1) { # Element
5401        my $tag_name = lc $child->tag_name; ## ISSUE: Definition of "lowercase"        my $tag_name = $child->tag_name; ## TODO: manakai_tag_name
5402        $s .= '<' . $tag_name;        $s .= '<' . $tag_name;
5403          ## NOTE: Non-HTML case:
5404        ## ISSUE: Non-html elements        ## <http://permalink.gmane.org/gmane.org.w3c.whatwg.discuss/11191>
5405    
5406        my @attrs = @{$child->attributes}; # sort order MUST be stable        my @attrs = @{$child->attributes}; # sort order MUST be stable
5407        for my $attr (@attrs) { # order is implementation dependent        for my $attr (@attrs) { # order is implementation dependent
5408          my $attr_name = lc $attr->name; ## ISSUE: Definition of "lowercase"          my $attr_name = $attr->name; ## TODO: manakai_name
5409          $s .= ' ' . $attr_name . '="';          $s .= ' ' . $attr_name . '="';
5410          my $attr_value = $attr->value;          my $attr_value = $attr->value;
5411          ## escape          ## escape
# Line 4859  sub get_inner_html ($$$) { Line 5424  sub get_inner_html ($$$) {
5424          spacer => 1, wbr => 1,          spacer => 1, wbr => 1,
5425        }->{$tag_name};        }->{$tag_name};
5426    
5427          $s .= "\x0A" if $tag_name eq 'pre' or $tag_name eq 'textarea';
5428    
5429        if (not $in_cdata and {        if (not $in_cdata and {
5430          style => 1, script => 1, xmp => 1, iframe => 1,          style => 1, script => 1, xmp => 1, iframe => 1,
5431          noembed => 1, noframes => 1, noscript => 1,          noembed => 1, noframes => 1, noscript => 1,
5432            plaintext => 1,
5433        }->{$tag_name}) {        }->{$tag_name}) {
5434          unshift @node, 'cdata-out';          unshift @node, 'cdata-out';
5435          $in_cdata = 1;          $in_cdata = 1;

Legend:
Removed from v.1.16  
changed lines
  Added in v.1.43

admin@suikawiki.org
ViewVC Help
Powered by ViewVC 1.1.24