/[suikacvs]/markup/html/whatpm/Whatpm/HTML.pm.src
Suika

Diff of /markup/html/whatpm/Whatpm/HTML.pm.src

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 1.84 by wakaba, Thu Mar 6 15:23:17 2008 UTC revision 1.118 by wakaba, Thu Mar 20 01:34:00 2008 UTC
# Line 74  my $special_category = { Line 74  my $special_category = {
74    textarea => 1, tfoot => 1, thead => 1, title => 1, tr => 1, ul => 1, wbr => 1,    textarea => 1, tfoot => 1, thead => 1, title => 1, tr => 1, ul => 1, wbr => 1,
75  };  };
76  my $scoping_category = {  my $scoping_category = {
77    button => 1, caption => 1, html => 1, marquee => 1, object => 1,    applet => 1, button => 1, caption => 1, html => 1, marquee => 1, object => 1,
78    table => 1, td => 1, th => 1,    table => 1, td => 1, th => 1,
79  };  };
80  my $formatting_category = {  my $formatting_category = {
# Line 108  sub parse_byte_string ($$$$;$) { Line 108  sub parse_byte_string ($$$$;$) {
108    $self->{change_encoding} = sub {    $self->{change_encoding} = sub {
109      my $self = shift;      my $self = shift;
110      my $charset = lc shift;      my $charset = lc shift;
111        my $token = shift;
112      ## TODO: if $charset is supported      ## TODO: if $charset is supported
113      ## TODO: normalize charset name      ## TODO: normalize charset name
114    
# Line 126  sub parse_byte_string ($$$$;$) { Line 127  sub parse_byte_string ($$$$;$) {
127      }      }
128    
129      !!!parse-error (type => 'charset label detected:'.$self->{input_encoding}.      !!!parse-error (type => 'charset label detected:'.$self->{input_encoding}.
130          ':'.$charset, level => 'w');          ':'.$charset, level => 'w', token => $token);
131    
132      ## Step 3      ## Step 3
133      # if (can) {      # if (can) {
# Line 177  sub parse_string ($$$;$) { Line 178  sub parse_string ($$$;$) {
178        if defined $self->{input_encoding};        if defined $self->{input_encoding};
179    
180    my $i = 0;    my $i = 0;
181    my $line = 1;    $self->{line_prev} = $self->{line} = 1;
182    my $column = 0;    $self->{column_prev} = $self->{column} = 0;
183    $self->{set_next_char} = sub {    $self->{set_next_char} = sub {
184      my $self = shift;      my $self = shift;
185    
# Line 187  sub parse_string ($$$;$) { Line 188  sub parse_string ($$$;$) {
188    
189      $self->{next_char} = -1 and return if $i >= length $$s;      $self->{next_char} = -1 and return if $i >= length $$s;
190      $self->{next_char} = ord substr $$s, $i++, 1;      $self->{next_char} = ord substr $$s, $i++, 1;
191      $column++;  
192        ($self->{line_prev}, $self->{column_prev})
193            = ($self->{line}, $self->{column});
194        $self->{column}++;
195            
196      if ($self->{next_char} == 0x000A) { # LF      if ($self->{next_char} == 0x000A) { # LF
197        $line++;        $self->{line}++;
198        $column = 0;        $self->{column} = 0;
199      } elsif ($self->{next_char} == 0x000D) { # CR      } elsif ($self->{next_char} == 0x000D) { # CR
200        $i++ if substr ($$s, $i, 1) eq "\x0A";        $i++ if substr ($$s, $i, 1) eq "\x0A";
201        $self->{next_char} = 0x000A; # LF # MUST        $self->{next_char} = 0x000A; # LF # MUST
202        $line++;        $self->{line}++;
203        $column = 0;        $self->{column} = 0;
204      } elsif ($self->{next_char} > 0x10FFFF) {      } elsif ($self->{next_char} > 0x10FFFF) {
205        $self->{next_char} = 0xFFFD; # REPLACEMENT CHARACTER # MUST        $self->{next_char} = 0xFFFD; # REPLACEMENT CHARACTER # MUST
206      } elsif ($self->{next_char} == 0x0000) { # NULL      } elsif ($self->{next_char} == 0x0000) { # NULL
# Line 209  sub parse_string ($$$;$) { Line 213  sub parse_string ($$$;$) {
213    
214    my $onerror = $_[2] || sub {    my $onerror = $_[2] || sub {
215      my (%opt) = @_;      my (%opt) = @_;
216      warn "Parse error ($opt{type}) at line $opt{line} column $opt{column}\n";      my $line = $opt{token} ? $opt{token}->{line} : $opt{line};
217        my $column = $opt{token} ? $opt{token}->{column} : $opt{column};
218        warn "Parse error ($opt{type}) at line $line column $column\n";
219    };    };
220    $self->{parse_error} = sub {    $self->{parse_error} = sub {
221      $onerror->(@_, line => $line, column => $column);      $onerror->(line => $self->{line}, column => $self->{column}, @_);
222    };    };
223    
224    $self->_initialize_tokenizer;    $self->_initialize_tokenizer;
# Line 220  sub parse_string ($$$;$) { Line 226  sub parse_string ($$$;$) {
226    $self->_construct_tree;    $self->_construct_tree;
227    $self->_terminate_tree_constructor;    $self->_terminate_tree_constructor;
228    
229      delete $self->{parse_error}; # remove loop
230    
231    return $self->{document};    return $self->{document};
232  } # parse_string  } # parse_string
233    
# Line 303  sub TABLE_IMS ()      { 0b1000000 } Line 311  sub TABLE_IMS ()      { 0b1000000 }
311  sub ROW_IMS ()        { 0b10000000 }  sub ROW_IMS ()        { 0b10000000 }
312  sub BODY_AFTER_IMS () { 0b100000000 }  sub BODY_AFTER_IMS () { 0b100000000 }
313  sub FRAME_IMS ()      { 0b1000000000 }  sub FRAME_IMS ()      { 0b1000000000 }
314    sub SELECT_IMS ()     { 0b10000000000 }
315    
316  ## NOTE: "initial" and "before html" insertion modes have no constants.  ## NOTE: "initial" and "before html" insertion modes have no constants.
317    
# Line 325  sub IN_TABLE_IM () { TABLE_IMS } Line 334  sub IN_TABLE_IM () { TABLE_IMS }
334  sub AFTER_BODY_IM () { BODY_AFTER_IMS }  sub AFTER_BODY_IM () { BODY_AFTER_IMS }
335  sub IN_FRAMESET_IM () { FRAME_IMS | 0b01 }  sub IN_FRAMESET_IM () { FRAME_IMS | 0b01 }
336  sub AFTER_FRAMESET_IM () { FRAME_IMS | 0b10 }  sub AFTER_FRAMESET_IM () { FRAME_IMS | 0b10 }
337  sub IN_SELECT_IM () { 0b01 }  sub IN_SELECT_IM () { SELECT_IMS | 0b01 }
338    sub IN_SELECT_IN_TABLE_IM () { SELECT_IMS | 0b10 }
339  sub IN_COLUMN_GROUP_IM () { 0b10 }  sub IN_COLUMN_GROUP_IM () { 0b10 }
340    
341  ## Implementations MUST act as if state machine in the spec  ## Implementations MUST act as if state machine in the spec
# Line 447  sub _get_next_token ($) { Line 457  sub _get_next_token ($) {
457          #          #
458        } elsif ($self->{next_char} == -1) {        } elsif ($self->{next_char} == -1) {
459          !!!cp (11);          !!!cp (11);
460          !!!emit ({type => END_OF_FILE_TOKEN});          !!!emit ({type => END_OF_FILE_TOKEN,
461                      line => $self->{line}, column => $self->{column}});
462          last A; ## TODO: ok?          last A; ## TODO: ok?
463        } else {        } else {
464          !!!cp (12);          !!!cp (12);
465        }        }
466        # Anything else        # Anything else
467        my $token = {type => CHARACTER_TOKEN,        my $token = {type => CHARACTER_TOKEN,
468                     data => chr $self->{next_char}};                     data => chr $self->{next_char},
469                       #line => $self->{line}, column => $self->{column},
470                      };
471        ## Stay in the data state        ## Stay in the data state
472        !!!next-input-character;        !!!next-input-character;
473    
# Line 463  sub _get_next_token ($) { Line 476  sub _get_next_token ($) {
476        redo A;        redo A;
477      } elsif ($self->{state} == ENTITY_DATA_STATE) {      } elsif ($self->{state} == ENTITY_DATA_STATE) {
478        ## (cannot happen in CDATA state)        ## (cannot happen in CDATA state)
479    
480          #my ($l, $c) = ($self->{line_prev}, $self->{column_prev});
481                
482        my $token = $self->_tokenize_attempt_to_consume_an_entity (0, -1);        my $token = $self->_tokenize_attempt_to_consume_an_entity (0, -1);
483    
# Line 471  sub _get_next_token ($) { Line 486  sub _get_next_token ($) {
486    
487        unless (defined $token) {        unless (defined $token) {
488          !!!cp (13);          !!!cp (13);
489          !!!emit ({type => CHARACTER_TOKEN, data => '&'});          !!!emit ({type => CHARACTER_TOKEN, data => '&',
490                      #line => $l, column => $c,
491                     });
492        } else {        } else {
493          !!!cp (14);          !!!cp (14);
494          !!!emit ($token);          !!!emit ($token);
# Line 490  sub _get_next_token ($) { Line 507  sub _get_next_token ($) {
507            ## reconsume            ## reconsume
508            $self->{state} = DATA_STATE;            $self->{state} = DATA_STATE;
509    
510            !!!emit ({type => CHARACTER_TOKEN, data => '<'});            !!!emit ({type => CHARACTER_TOKEN, data => '<',
511                        #line => $self->{line_prev},
512                        #column => $self->{column_prev},
513                       });
514    
515            redo A;            redo A;
516          }          }
# Line 510  sub _get_next_token ($) { Line 530  sub _get_next_token ($) {
530            !!!cp (19);            !!!cp (19);
531            $self->{current_token}            $self->{current_token}
532              = {type => START_TAG_TOKEN,              = {type => START_TAG_TOKEN,
533                 tag_name => chr ($self->{next_char} + 0x0020)};                 tag_name => chr ($self->{next_char} + 0x0020),
534                   line => $self->{line_prev},
535                   column => $self->{column_prev}};
536            $self->{state} = TAG_NAME_STATE;            $self->{state} = TAG_NAME_STATE;
537            !!!next-input-character;            !!!next-input-character;
538            redo A;            redo A;
# Line 518  sub _get_next_token ($) { Line 540  sub _get_next_token ($) {
540                   $self->{next_char} <= 0x007A) { # a..z                   $self->{next_char} <= 0x007A) { # a..z
541            !!!cp (20);            !!!cp (20);
542            $self->{current_token} = {type => START_TAG_TOKEN,            $self->{current_token} = {type => START_TAG_TOKEN,
543                              tag_name => chr ($self->{next_char})};                                      tag_name => chr ($self->{next_char}),
544                                        line => $self->{line_prev},
545                                        column => $self->{column_prev}};
546            $self->{state} = TAG_NAME_STATE;            $self->{state} = TAG_NAME_STATE;
547            !!!next-input-character;            !!!next-input-character;
548            redo A;            redo A;
549          } elsif ($self->{next_char} == 0x003E) { # >          } elsif ($self->{next_char} == 0x003E) { # >
550            !!!cp (21);            !!!cp (21);
551            !!!parse-error (type => 'empty start tag');            !!!parse-error (type => 'empty start tag',
552                              line => $self->{line_prev},
553                              column => $self->{column_prev});
554            $self->{state} = DATA_STATE;            $self->{state} = DATA_STATE;
555            !!!next-input-character;            !!!next-input-character;
556    
557            !!!emit ({type => CHARACTER_TOKEN, data => '<>'});            !!!emit ({type => CHARACTER_TOKEN, data => '<>',
558                        #line => $self->{line_prev},
559                        #column => $self->{column_prev},
560                       });
561    
562            redo A;            redo A;
563          } elsif ($self->{next_char} == 0x003F) { # ?          } elsif ($self->{next_char} == 0x003F) { # ?
564            !!!cp (22);            !!!cp (22);
565            !!!parse-error (type => 'pio');            !!!parse-error (type => 'pio',
566                              line => $self->{line_prev},
567                              column => $self->{column_prev});
568            $self->{state} = BOGUS_COMMENT_STATE;            $self->{state} = BOGUS_COMMENT_STATE;
569              $self->{current_token} = {type => COMMENT_TOKEN, data => '',
570                                        #line => $self->{line_prev},
571                                        #column => $self->{column_prev},
572                                       };
573            ## $self->{next_char} is intentionally left as is            ## $self->{next_char} is intentionally left as is
574            redo A;            redo A;
575          } else {          } else {
# Line 543  sub _get_next_token ($) { Line 578  sub _get_next_token ($) {
578            $self->{state} = DATA_STATE;            $self->{state} = DATA_STATE;
579            ## reconsume            ## reconsume
580    
581            !!!emit ({type => CHARACTER_TOKEN, data => '<'});            !!!emit ({type => CHARACTER_TOKEN, data => '<',
582                        #line => $self->{line_prev},
583                        #column => $self->{column_prev},
584                       });
585    
586            redo A;            redo A;
587          }          }
# Line 551  sub _get_next_token ($) { Line 589  sub _get_next_token ($) {
589          die "$0: $self->{content_model} in tag open";          die "$0: $self->{content_model} in tag open";
590        }        }
591      } elsif ($self->{state} == CLOSE_TAG_OPEN_STATE) {      } elsif ($self->{state} == CLOSE_TAG_OPEN_STATE) {
592          my ($l, $c) = ($self->{line_prev}, $self->{column_prev} - 1); # "<"of"</"
593        if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA        if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
594          if (defined $self->{last_emitted_start_tag_name}) {          if (defined $self->{last_emitted_start_tag_name}) {
595    
596            ## NOTE: <http://krijnhoetmer.nl/irc-logs/whatwg/20070626#l-564>            ## NOTE: <http://krijnhoetmer.nl/irc-logs/whatwg/20070626#l-564>
597            my @next_char;            my @next_char;
598            TAGNAME: for (my $i = 0; $i < length $self->{last_emitted_start_tag_name}; $i++) {            TAGNAME: for (my $i = 0; $i < length $self->{last_emitted_start_tag_name}; $i++) {
# Line 569  sub _get_next_token ($) { Line 609  sub _get_next_token ($) {
609                !!!back-next-input-character (@next_char);                !!!back-next-input-character (@next_char);
610                $self->{state} = DATA_STATE;                $self->{state} = DATA_STATE;
611    
612                !!!emit ({type => CHARACTER_TOKEN, data => '</'});                !!!emit ({type => CHARACTER_TOKEN, data => '</',
613                            #line => $l, column => $c,
614                           });
615        
616                redo A;                redo A;
617              }              }
# Line 588  sub _get_next_token ($) { Line 630  sub _get_next_token ($) {
630              $self->{next_char} = shift @next_char; # reconsume              $self->{next_char} = shift @next_char; # reconsume
631              !!!back-next-input-character (@next_char);              !!!back-next-input-character (@next_char);
632              $self->{state} = DATA_STATE;              $self->{state} = DATA_STATE;
633              !!!emit ({type => CHARACTER_TOKEN, data => '</'});              !!!emit ({type => CHARACTER_TOKEN, data => '</',
634                          #line => $l, column => $c,
635                         });
636              redo A;              redo A;
637            } else {            } else {
638              !!!cp (27);              !!!cp (27);
# Line 601  sub _get_next_token ($) { Line 645  sub _get_next_token ($) {
645            !!!cp (28);            !!!cp (28);
646            # next-input-character is already done            # next-input-character is already done
647            $self->{state} = DATA_STATE;            $self->{state} = DATA_STATE;
648            !!!emit ({type => CHARACTER_TOKEN, data => '</'});            !!!emit ({type => CHARACTER_TOKEN, data => '</',
649                        #line => $l, column => $c,
650                       });
651            redo A;            redo A;
652          }          }
653        }        }
# Line 609  sub _get_next_token ($) { Line 655  sub _get_next_token ($) {
655        if (0x0041 <= $self->{next_char} and        if (0x0041 <= $self->{next_char} and
656            $self->{next_char} <= 0x005A) { # A..Z            $self->{next_char} <= 0x005A) { # A..Z
657          !!!cp (29);          !!!cp (29);
658          $self->{current_token} = {type => END_TAG_TOKEN,          $self->{current_token}
659                            tag_name => chr ($self->{next_char} + 0x0020)};              = {type => END_TAG_TOKEN,
660                   tag_name => chr ($self->{next_char} + 0x0020),
661                   line => $l, column => $c};
662          $self->{state} = TAG_NAME_STATE;          $self->{state} = TAG_NAME_STATE;
663          !!!next-input-character;          !!!next-input-character;
664          redo A;          redo A;
# Line 618  sub _get_next_token ($) { Line 666  sub _get_next_token ($) {
666                 $self->{next_char} <= 0x007A) { # a..z                 $self->{next_char} <= 0x007A) { # a..z
667          !!!cp (30);          !!!cp (30);
668          $self->{current_token} = {type => END_TAG_TOKEN,          $self->{current_token} = {type => END_TAG_TOKEN,
669                            tag_name => chr ($self->{next_char})};                                    tag_name => chr ($self->{next_char}),
670                                      line => $l, column => $c};
671          $self->{state} = TAG_NAME_STATE;          $self->{state} = TAG_NAME_STATE;
672          !!!next-input-character;          !!!next-input-character;
673          redo A;          redo A;
674        } elsif ($self->{next_char} == 0x003E) { # >        } elsif ($self->{next_char} == 0x003E) { # >
675          !!!cp (31);          !!!cp (31);
676          !!!parse-error (type => 'empty end tag');          !!!parse-error (type => 'empty end tag',
677                            line => $self->{line_prev}, ## "<" in "</>"
678                            column => $self->{column_prev} - 1);
679          $self->{state} = DATA_STATE;          $self->{state} = DATA_STATE;
680          !!!next-input-character;          !!!next-input-character;
681          redo A;          redo A;
# Line 634  sub _get_next_token ($) { Line 685  sub _get_next_token ($) {
685          $self->{state} = DATA_STATE;          $self->{state} = DATA_STATE;
686          # reconsume          # reconsume
687    
688          !!!emit ({type => CHARACTER_TOKEN, data => '</'});          !!!emit ({type => CHARACTER_TOKEN, data => '</',
689                      #line => $l, column => $c,
690                     });
691    
692          redo A;          redo A;
693        } else {        } else {
694          !!!cp (33);          !!!cp (33);
695          !!!parse-error (type => 'bogus end tag');          !!!parse-error (type => 'bogus end tag');
696          $self->{state} = BOGUS_COMMENT_STATE;          $self->{state} = BOGUS_COMMENT_STATE;
697            $self->{current_token} = {type => COMMENT_TOKEN, data => '',
698                                      #line => $self->{line_prev}, # "<" of "</"
699                                      #column => $self->{column_prev} - 1,
700                                     };
701          ## $self->{next_char} is intentionally left as is          ## $self->{next_char} is intentionally left as is
702          redo A;          redo A;
703        }        }
# Line 657  sub _get_next_token ($) { Line 714  sub _get_next_token ($) {
714        } elsif ($self->{next_char} == 0x003E) { # >        } elsif ($self->{next_char} == 0x003E) { # >
715          if ($self->{current_token}->{type} == START_TAG_TOKEN) {          if ($self->{current_token}->{type} == START_TAG_TOKEN) {
716            !!!cp (35);            !!!cp (35);
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
717            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
718          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {
719            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
# Line 690  sub _get_next_token ($) { Line 745  sub _get_next_token ($) {
745          !!!parse-error (type => 'unclosed tag');          !!!parse-error (type => 'unclosed tag');
746          if ($self->{current_token}->{type} == START_TAG_TOKEN) {          if ($self->{current_token}->{type} == START_TAG_TOKEN) {
747            !!!cp (39);            !!!cp (39);
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
748            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
749          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {
750            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
# Line 747  sub _get_next_token ($) { Line 800  sub _get_next_token ($) {
800        } elsif ($self->{next_char} == 0x003E) { # >        } elsif ($self->{next_char} == 0x003E) { # >
801          if ($self->{current_token}->{type} == START_TAG_TOKEN) {          if ($self->{current_token}->{type} == START_TAG_TOKEN) {
802            !!!cp (46);            !!!cp (46);
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
803            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
804          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {
805            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
# Line 794  sub _get_next_token ($) { Line 845  sub _get_next_token ($) {
845          !!!parse-error (type => 'unclosed tag');          !!!parse-error (type => 'unclosed tag');
846          if ($self->{current_token}->{type} == START_TAG_TOKEN) {          if ($self->{current_token}->{type} == START_TAG_TOKEN) {
847            !!!cp (52);            !!!cp (52);
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
848            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
849          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {
850            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
# Line 865  sub _get_next_token ($) { Line 914  sub _get_next_token ($) {
914          $before_leave->();          $before_leave->();
915          if ($self->{current_token}->{type} == START_TAG_TOKEN) {          if ($self->{current_token}->{type} == START_TAG_TOKEN) {
916            !!!cp (61);            !!!cp (61);
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
917            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
918          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {
919            !!!cp (62);            !!!cp (62);
# Line 911  sub _get_next_token ($) { Line 958  sub _get_next_token ($) {
958          $before_leave->();          $before_leave->();
959          if ($self->{current_token}->{type} == START_TAG_TOKEN) {          if ($self->{current_token}->{type} == START_TAG_TOKEN) {
960            !!!cp (66);            !!!cp (66);
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
961            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
962          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {
963            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
# Line 963  sub _get_next_token ($) { Line 1008  sub _get_next_token ($) {
1008        } elsif ($self->{next_char} == 0x003E) { # >        } elsif ($self->{next_char} == 0x003E) { # >
1009          if ($self->{current_token}->{type} == START_TAG_TOKEN) {          if ($self->{current_token}->{type} == START_TAG_TOKEN) {
1010            !!!cp (73);            !!!cp (73);
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
1011            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
1012          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {
1013            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
# Line 1012  sub _get_next_token ($) { Line 1055  sub _get_next_token ($) {
1055          !!!parse-error (type => 'unclosed tag');          !!!parse-error (type => 'unclosed tag');
1056          if ($self->{current_token}->{type} == START_TAG_TOKEN) {          if ($self->{current_token}->{type} == START_TAG_TOKEN) {
1057            !!!cp (79);            !!!cp (79);
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
1058            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
1059          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {
1060            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
# Line 1069  sub _get_next_token ($) { Line 1110  sub _get_next_token ($) {
1110        } elsif ($self->{next_char} == 0x003E) { # >        } elsif ($self->{next_char} == 0x003E) { # >
1111          if ($self->{current_token}->{type} == START_TAG_TOKEN) {          if ($self->{current_token}->{type} == START_TAG_TOKEN) {
1112            !!!cp (87);            !!!cp (87);
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
1113            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
1114          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {
1115            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
# Line 1094  sub _get_next_token ($) { Line 1133  sub _get_next_token ($) {
1133          !!!parse-error (type => 'unclosed tag');          !!!parse-error (type => 'unclosed tag');
1134          if ($self->{current_token}->{type} == START_TAG_TOKEN) {          if ($self->{current_token}->{type} == START_TAG_TOKEN) {
1135            !!!cp (90);            !!!cp (90);
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
1136            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
1137          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {
1138            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
# Line 1143  sub _get_next_token ($) { Line 1180  sub _get_next_token ($) {
1180          !!!parse-error (type => 'unclosed attribute value');          !!!parse-error (type => 'unclosed attribute value');
1181          if ($self->{current_token}->{type} == START_TAG_TOKEN) {          if ($self->{current_token}->{type} == START_TAG_TOKEN) {
1182            !!!cp (97);            !!!cp (97);
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
1183            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
1184          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {
1185            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
# Line 1187  sub _get_next_token ($) { Line 1222  sub _get_next_token ($) {
1222          !!!parse-error (type => 'unclosed attribute value');          !!!parse-error (type => 'unclosed attribute value');
1223          if ($self->{current_token}->{type} == START_TAG_TOKEN) {          if ($self->{current_token}->{type} == START_TAG_TOKEN) {
1224            !!!cp (103);            !!!cp (103);
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
1225            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
1226          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {
1227            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
# Line 1234  sub _get_next_token ($) { Line 1267  sub _get_next_token ($) {
1267        } elsif ($self->{next_char} == 0x003E) { # >        } elsif ($self->{next_char} == 0x003E) { # >
1268          if ($self->{current_token}->{type} == START_TAG_TOKEN) {          if ($self->{current_token}->{type} == START_TAG_TOKEN) {
1269            !!!cp (109);            !!!cp (109);
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
1270            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
1271          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {
1272            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
# Line 1259  sub _get_next_token ($) { Line 1290  sub _get_next_token ($) {
1290          !!!parse-error (type => 'unclosed tag');          !!!parse-error (type => 'unclosed tag');
1291          if ($self->{current_token}->{type} == START_TAG_TOKEN) {          if ($self->{current_token}->{type} == START_TAG_TOKEN) {
1292            !!!cp (112);            !!!cp (112);
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
1293            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
1294          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {
1295            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
# Line 1331  sub _get_next_token ($) { Line 1360  sub _get_next_token ($) {
1360        } elsif ($self->{next_char} == 0x003E) { # >        } elsif ($self->{next_char} == 0x003E) { # >
1361          if ($self->{current_token}->{type} == START_TAG_TOKEN) {          if ($self->{current_token}->{type} == START_TAG_TOKEN) {
1362            !!!cp (119);            !!!cp (119);
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
1363            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};
1364          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {          } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {
1365            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
# Line 1377  sub _get_next_token ($) { Line 1404  sub _get_next_token ($) {
1404      } elsif ($self->{state} == BOGUS_COMMENT_STATE) {      } elsif ($self->{state} == BOGUS_COMMENT_STATE) {
1405        ## (only happen if PCDATA state)        ## (only happen if PCDATA state)
1406                
1407        my $token = {type => COMMENT_TOKEN, data => ''};        ## NOTE: Set by the previous state
1408          #my $token = {type => COMMENT_TOKEN, data => ''};
1409    
1410        BC: {        BC: {
1411          if ($self->{next_char} == 0x003E) { # >          if ($self->{next_char} == 0x003E) { # >
# Line 1385  sub _get_next_token ($) { Line 1413  sub _get_next_token ($) {
1413            $self->{state} = DATA_STATE;            $self->{state} = DATA_STATE;
1414            !!!next-input-character;            !!!next-input-character;
1415    
1416            !!!emit ($token);            !!!emit ($self->{current_token}); # comment
1417    
1418            redo A;            redo A;
1419          } elsif ($self->{next_char} == -1) {          } elsif ($self->{next_char} == -1) {
# Line 1393  sub _get_next_token ($) { Line 1421  sub _get_next_token ($) {
1421            $self->{state} = DATA_STATE;            $self->{state} = DATA_STATE;
1422            ## reconsume            ## reconsume
1423    
1424            !!!emit ($token);            !!!emit ($self->{current_token}); # comment
1425    
1426            redo A;            redo A;
1427          } else {          } else {
1428            !!!cp (126);            !!!cp (126);
1429            $token->{data} .= chr ($self->{next_char});            $self->{current_token}->{data} .= chr ($self->{next_char}); # comment
1430            !!!next-input-character;            !!!next-input-character;
1431            redo BC;            redo BC;
1432          }          }
# Line 1408  sub _get_next_token ($) { Line 1436  sub _get_next_token ($) {
1436      } elsif ($self->{state} == MARKUP_DECLARATION_OPEN_STATE) {      } elsif ($self->{state} == MARKUP_DECLARATION_OPEN_STATE) {
1437        ## (only happen if PCDATA state)        ## (only happen if PCDATA state)
1438    
1439          #my ($l, $c) = ($self->{line_prev}, $self->{column_prev} - 1);
1440    
1441        my @next_char;        my @next_char;
1442        push @next_char, $self->{next_char};        push @next_char, $self->{next_char};
1443                
# Line 1416  sub _get_next_token ($) { Line 1446  sub _get_next_token ($) {
1446          push @next_char, $self->{next_char};          push @next_char, $self->{next_char};
1447          if ($self->{next_char} == 0x002D) { # -          if ($self->{next_char} == 0x002D) { # -
1448            !!!cp (127);            !!!cp (127);
1449            $self->{current_token} = {type => COMMENT_TOKEN, data => ''};            $self->{current_token} = {type => COMMENT_TOKEN, data => '',
1450                                        #line => $l, column => $c,
1451                                       };
1452            $self->{state} = COMMENT_START_STATE;            $self->{state} = COMMENT_START_STATE;
1453            !!!next-input-character;            !!!next-input-character;
1454            redo A;            redo A;
# Line 1452  sub _get_next_token ($) { Line 1484  sub _get_next_token ($) {
1484                      !!!cp (129);                      !!!cp (129);
1485                      ## TODO: What a stupid code this is!                      ## TODO: What a stupid code this is!
1486                      $self->{state} = DOCTYPE_STATE;                      $self->{state} = DOCTYPE_STATE;
1487                        $self->{current_token} = {type => DOCTYPE_TOKEN,
1488                                                  quirks => 1,
1489                                                  #line => $l, column => $c,
1490                                                 };
1491                      !!!next-input-character;                      !!!next-input-character;
1492                      redo A;                      redo A;
1493                    } else {                    } else {
# Line 1480  sub _get_next_token ($) { Line 1516  sub _get_next_token ($) {
1516        $self->{next_char} = shift @next_char;        $self->{next_char} = shift @next_char;
1517        !!!back-next-input-character (@next_char);        !!!back-next-input-character (@next_char);
1518        $self->{state} = BOGUS_COMMENT_STATE;        $self->{state} = BOGUS_COMMENT_STATE;
1519          $self->{current_token} = {type => COMMENT_TOKEN, data => '',
1520                                    #line => $l, column => $c,
1521                                   };
1522        redo A;        redo A;
1523                
1524        ## ISSUE: typos in spec: chacacters, is is a parse error        ## ISSUE: typos in spec: chacacters, is is a parse error
# Line 1603  sub _get_next_token ($) { Line 1642  sub _get_next_token ($) {
1642          redo A;          redo A;
1643        } elsif ($self->{next_char} == 0x002D) { # -        } elsif ($self->{next_char} == 0x002D) { # -
1644          !!!cp (152);          !!!cp (152);
1645          !!!parse-error (type => 'dash in comment');          !!!parse-error (type => 'dash in comment',
1646                            line => $self->{line_prev},
1647                            column => $self->{column_prev});
1648          $self->{current_token}->{data} .= '-'; # comment          $self->{current_token}->{data} .= '-'; # comment
1649          ## Stay in the state          ## Stay in the state
1650          !!!next-input-character;          !!!next-input-character;
# Line 1619  sub _get_next_token ($) { Line 1660  sub _get_next_token ($) {
1660          redo A;          redo A;
1661        } else {        } else {
1662          !!!cp (154);          !!!cp (154);
1663          !!!parse-error (type => 'dash in comment');          !!!parse-error (type => 'dash in comment',
1664                            line => $self->{line_prev},
1665                            column => $self->{column_prev});
1666          $self->{current_token}->{data} .= '--' . chr ($self->{next_char}); # comment          $self->{current_token}->{data} .= '--' . chr ($self->{next_char}); # comment
1667          $self->{state} = COMMENT_STATE;          $self->{state} = COMMENT_STATE;
1668          !!!next-input-character;          !!!next-input-character;
# Line 1658  sub _get_next_token ($) { Line 1701  sub _get_next_token ($) {
1701          $self->{state} = DATA_STATE;          $self->{state} = DATA_STATE;
1702          !!!next-input-character;          !!!next-input-character;
1703    
1704          !!!emit ({type => DOCTYPE_TOKEN, quirks => 1});          !!!emit ($self->{current_token}); # DOCTYPE (quirks)
1705    
1706          redo A;          redo A;
1707        } elsif ($self->{next_char} == -1) {        } elsif ($self->{next_char} == -1) {
# Line 1667  sub _get_next_token ($) { Line 1710  sub _get_next_token ($) {
1710          $self->{state} = DATA_STATE;          $self->{state} = DATA_STATE;
1711          ## reconsume          ## reconsume
1712    
1713          !!!emit ({type => DOCTYPE_TOKEN, quirks => 1});          !!!emit ($self->{current_token}); # DOCTYPE (quirks)
1714    
1715          redo A;          redo A;
1716        } else {        } else {
1717          !!!cp (160);          !!!cp (160);
1718          $self->{current_token}          $self->{current_token}->{name} = chr $self->{next_char};
1719              = {type => DOCTYPE_TOKEN,          delete $self->{current_token}->{quirks};
                name => chr ($self->{next_char}),  
                #quirks => 0,  
               };  
1720  ## ISSUE: "Set the token's name name to the" in the spec  ## ISSUE: "Set the token's name name to the" in the spec
1721          $self->{state} = DOCTYPE_NAME_STATE;          $self->{state} = DOCTYPE_NAME_STATE;
1722          !!!next-input-character;          !!!next-input-character;
# Line 2203  sub _get_next_token ($) { Line 2243  sub _get_next_token ($) {
2243  sub _tokenize_attempt_to_consume_an_entity ($$$) {  sub _tokenize_attempt_to_consume_an_entity ($$$) {
2244    my ($self, $in_attr, $additional) = @_;    my ($self, $in_attr, $additional) = @_;
2245    
2246      my ($l, $c) = ($self->{line_prev}, $self->{column_prev});
2247    
2248    if ({    if ({
2249         0x0009 => 1, 0x000A => 1, 0x000B => 1, 0x000C => 1, # HT, LF, VT, FF,         0x0009 => 1, 0x000A => 1, 0x000B => 1, 0x000C => 1, # HT, LF, VT, FF,
2250         0x0020 => 1, 0x003C => 1, 0x0026 => 1, -1 => 1, # SP, <, & # 0x000D # CR         0x0020 => 1, 0x003C => 1, 0x0026 => 1, -1 => 1, # SP, <, & # 0x000D # CR
# Line 2243  sub _tokenize_attempt_to_consume_an_enti Line 2285  sub _tokenize_attempt_to_consume_an_enti
2285            redo X;            redo X;
2286          } elsif (not defined $code) { # no hexadecimal digit          } elsif (not defined $code) { # no hexadecimal digit
2287            !!!cp (1005);            !!!cp (1005);
2288            !!!parse-error (type => 'bare hcro');            !!!parse-error (type => 'bare hcro', line => $l, column => $c);
2289            !!!back-next-input-character ($x_char, $self->{next_char});            !!!back-next-input-character ($x_char, $self->{next_char});
2290            $self->{next_char} = 0x0023; # #            $self->{next_char} = 0x0023; # #
2291            return undef;            return undef;
# Line 2252  sub _tokenize_attempt_to_consume_an_enti Line 2294  sub _tokenize_attempt_to_consume_an_enti
2294            !!!next-input-character;            !!!next-input-character;
2295          } else {          } else {
2296            !!!cp (1007);            !!!cp (1007);
2297            !!!parse-error (type => 'no refc');            !!!parse-error (type => 'no refc', line => $l, column => $c);
2298          }          }
2299    
2300          if ($code == 0 or (0xD800 <= $code and $code <= 0xDFFF)) {          if ($code == 0 or (0xD800 <= $code and $code <= 0xDFFF)) {
2301            !!!cp (1008);            !!!cp (1008);
2302            !!!parse-error (type => sprintf 'invalid character reference:U+%04X', $code);            !!!parse-error (type => (sprintf 'invalid character reference:U+%04X', $code), line => $l, column => $c);
2303            $code = 0xFFFD;            $code = 0xFFFD;
2304          } elsif ($code > 0x10FFFF) {          } elsif ($code > 0x10FFFF) {
2305            !!!cp (1009);            !!!cp (1009);
2306            !!!parse-error (type => sprintf 'invalid character reference:U-%08X', $code);            !!!parse-error (type => (sprintf 'invalid character reference:U-%08X', $code), line => $l, column => $c);
2307            $code = 0xFFFD;            $code = 0xFFFD;
2308          } elsif ($code == 0x000D) {          } elsif ($code == 0x000D) {
2309            !!!cp (1010);            !!!cp (1010);
2310            !!!parse-error (type => 'CR character reference');            !!!parse-error (type => 'CR character reference', line => $l, column => $c);
2311            $code = 0x000A;            $code = 0x000A;
2312          } elsif (0x80 <= $code and $code <= 0x9F) {          } elsif (0x80 <= $code and $code <= 0x9F) {
2313            !!!cp (1011);            !!!cp (1011);
2314            !!!parse-error (type => sprintf 'C1 character reference:U+%04X', $code);            !!!parse-error (type => (sprintf 'C1 character reference:U+%04X', $code), line => $l, column => $c);
2315            $code = $c1_entity_char->{$code};            $code = $c1_entity_char->{$code};
2316          }          }
2317    
2318          return {type => CHARACTER_TOKEN, data => chr $code,          return {type => CHARACTER_TOKEN, data => chr $code,
2319                  has_reference => 1};                  has_reference => 1,
2320                    #line => $l, column => $c,
2321                   };
2322        } # X        } # X
2323      } elsif (0x0030 <= $self->{next_char} and      } elsif (0x0030 <= $self->{next_char} and
2324               $self->{next_char} <= 0x0039) { # 0..9               $self->{next_char} <= 0x0039) { # 0..9
# Line 2295  sub _tokenize_attempt_to_consume_an_enti Line 2339  sub _tokenize_attempt_to_consume_an_enti
2339          !!!next-input-character;          !!!next-input-character;
2340        } else {        } else {
2341          !!!cp (1014);          !!!cp (1014);
2342          !!!parse-error (type => 'no refc');          !!!parse-error (type => 'no refc', line => $l, column => $c);
2343        }        }
2344    
2345        if ($code == 0 or (0xD800 <= $code and $code <= 0xDFFF)) {        if ($code == 0 or (0xD800 <= $code and $code <= 0xDFFF)) {
2346          !!!cp (1015);          !!!cp (1015);
2347          !!!parse-error (type => sprintf 'invalid character reference:U+%04X', $code);          !!!parse-error (type => (sprintf 'invalid character reference:U+%04X', $code), line => $l, column => $c);
2348          $code = 0xFFFD;          $code = 0xFFFD;
2349        } elsif ($code > 0x10FFFF) {        } elsif ($code > 0x10FFFF) {
2350          !!!cp (1016);          !!!cp (1016);
2351          !!!parse-error (type => sprintf 'invalid character reference:U-%08X', $code);          !!!parse-error (type => (sprintf 'invalid character reference:U-%08X', $code), line => $l, column => $c);
2352          $code = 0xFFFD;          $code = 0xFFFD;
2353        } elsif ($code == 0x000D) {        } elsif ($code == 0x000D) {
2354          !!!cp (1017);          !!!cp (1017);
2355          !!!parse-error (type => 'CR character reference');          !!!parse-error (type => 'CR character reference', line => $l, column => $c);
2356          $code = 0x000A;          $code = 0x000A;
2357        } elsif (0x80 <= $code and $code <= 0x9F) {        } elsif (0x80 <= $code and $code <= 0x9F) {
2358          !!!cp (1018);          !!!cp (1018);
2359          !!!parse-error (type => sprintf 'C1 character reference:U+%04X', $code);          !!!parse-error (type => (sprintf 'C1 character reference:U+%04X', $code), line => $l, column => $c);
2360          $code = $c1_entity_char->{$code};          $code = $c1_entity_char->{$code};
2361        }        }
2362                
2363        return {type => CHARACTER_TOKEN, data => chr $code, has_reference => 1};        return {type => CHARACTER_TOKEN, data => chr $code, has_reference => 1,
2364                  #line => $l, column => $c,
2365                 };
2366      } else {      } else {
2367        !!!cp (1019);        !!!cp (1019);
2368        !!!parse-error (type => 'bare nero');        !!!parse-error (type => 'bare nero', line => $l, column => $c);
2369        !!!back-next-input-character ($self->{next_char});        !!!back-next-input-character ($self->{next_char});
2370        $self->{next_char} = 0x0023; # #        $self->{next_char} = 0x0023; # #
2371        return undef;        return undef;
# Line 2369  sub _tokenize_attempt_to_consume_an_enti Line 2415  sub _tokenize_attempt_to_consume_an_enti
2415            
2416      if ($match > 0) {      if ($match > 0) {
2417        !!!cp (1023);        !!!cp (1023);
2418        return {type => CHARACTER_TOKEN, data => $value, has_reference => 1};        return {type => CHARACTER_TOKEN, data => $value, has_reference => 1,
2419                  #line => $l, column => $c,
2420                 };
2421      } elsif ($match < 0) {      } elsif ($match < 0) {
2422        !!!parse-error (type => 'no refc');        !!!parse-error (type => 'no refc', line => $l, column => $c);
2423        if ($in_attr and $match < -1) {        if ($in_attr and $match < -1) {
2424          !!!cp (1024);          !!!cp (1024);
2425          return {type => CHARACTER_TOKEN, data => '&'.$entity_name};          return {type => CHARACTER_TOKEN, data => '&'.$entity_name,
2426                    #line => $l, column => $c,
2427                   };
2428        } else {        } else {
2429          !!!cp (1025);          !!!cp (1025);
2430          return {type => CHARACTER_TOKEN, data => $value, has_reference => 1};          return {type => CHARACTER_TOKEN, data => $value, has_reference => 1,
2431                    #line => $l, column => $c,
2432                   };
2433        }        }
2434      } else {      } else {
2435        !!!cp (1026);        !!!cp (1026);
2436        !!!parse-error (type => 'bare ero');        !!!parse-error (type => 'bare ero', line => $l, column => $c);
2437        ## NOTE: "No characters are consumed" in the spec.        ## NOTE: "No characters are consumed" in the spec.
2438        return {type => CHARACTER_TOKEN, data => '&'.$value};        return {type => CHARACTER_TOKEN, data => '&'.$value,
2439                  #line => $l, column => $c,
2440                 };
2441      }      }
2442    } else {    } else {
2443      !!!cp (1027);      !!!cp (1027);
2444      ## no characters are consumed      ## no characters are consumed
2445      !!!parse-error (type => 'bare ero');      !!!parse-error (type => 'bare ero', line => $l, column => $c);
2446      return undef;      return undef;
2447    }    }
2448  } # _tokenize_attempt_to_consume_an_entity  } # _tokenize_attempt_to_consume_an_entity
# Line 2459  sub _tree_construction_initial ($) { Line 2513  sub _tree_construction_initial ($) {
2513            defined $token->{public_identifier} or            defined $token->{public_identifier} or
2514            defined $token->{system_identifier}) {            defined $token->{system_identifier}) {
2515          !!!cp ('t1');          !!!cp ('t1');
2516          !!!parse-error (type => 'not HTML5');          !!!parse-error (type => 'not HTML5', token => $token);
2517        } elsif ($doctype_name ne 'HTML') {        } elsif ($doctype_name ne 'HTML') {
2518          !!!cp ('t2');          !!!cp ('t2');
2519          ## ISSUE: ASCII case-insensitive? (in fact it does not matter)          ## ISSUE: ASCII case-insensitive? (in fact it does not matter)
2520          !!!parse-error (type => 'not HTML5');          !!!parse-error (type => 'not HTML5', token => $token);
2521        } else {        } else {
2522          !!!cp ('t3');          !!!cp ('t3');
2523        }        }
# Line 2602  sub _tree_construction_initial ($) { Line 2656  sub _tree_construction_initial ($) {
2656                END_OF_FILE_TOKEN, 1,                END_OF_FILE_TOKEN, 1,
2657               }->{$token->{type}}) {               }->{$token->{type}}) {
2658        !!!cp ('t14');        !!!cp ('t14');
2659        !!!parse-error (type => 'no DOCTYPE');        !!!parse-error (type => 'no DOCTYPE', token => $token);
2660        $self->{document}->manakai_compat_mode ('quirks');        $self->{document}->manakai_compat_mode ('quirks');
2661        ## Go to the "before html" insertion mode.        ## Go to the "before html" insertion mode.
2662        ## reprocess        ## reprocess
# Line 2623  sub _tree_construction_initial ($) { Line 2677  sub _tree_construction_initial ($) {
2677          !!!cp ('t17');          !!!cp ('t17');
2678        }        }
2679    
2680        !!!parse-error (type => 'no DOCTYPE');        !!!parse-error (type => 'no DOCTYPE', token => $token);
2681        $self->{document}->manakai_compat_mode ('quirks');        $self->{document}->manakai_compat_mode ('quirks');
2682        ## Go to the "before html" insertion mode.        ## Go to the "before html" insertion mode.
2683        ## reprocess        ## reprocess
# Line 2652  sub _tree_construction_root_element ($) Line 2706  sub _tree_construction_root_element ($)
2706    B: {    B: {
2707        if ($token->{type} == DOCTYPE_TOKEN) {        if ($token->{type} == DOCTYPE_TOKEN) {
2708          !!!cp ('t19');          !!!cp ('t19');
2709          !!!parse-error (type => 'in html:#DOCTYPE');          !!!parse-error (type => 'in html:#DOCTYPE', token => $token);
2710          ## Ignore the token          ## Ignore the token
2711          ## Stay in the insertion mode.          ## Stay in the insertion mode.
2712          !!!next-token;          !!!next-token;
# Line 2686  sub _tree_construction_root_element ($) Line 2740  sub _tree_construction_root_element ($)
2740        } elsif ($token->{type} == START_TAG_TOKEN) {        } elsif ($token->{type} == START_TAG_TOKEN) {
2741          if ($token->{tag_name} eq 'html') {          if ($token->{tag_name} eq 'html') {
2742            my $root_element;            my $root_element;
2743            !!!create-element ($root_element, $token->{tag_name}, $token->{attributes});            !!!create-element ($root_element, $token->{tag_name}, $token->{attributes}, $token);
2744            $self->{document}->append_child ($root_element);            $self->{document}->append_child ($root_element);
2745            push @{$self->{open_elements}}, [$root_element, 'html'];            push @{$self->{open_elements}}, [$root_element, 'html'];
2746    
# Line 2694  sub _tree_construction_root_element ($) Line 2748  sub _tree_construction_root_element ($)
2748              !!!cp ('t24');              !!!cp ('t24');
2749              $self->{application_cache_selection}              $self->{application_cache_selection}
2750                  ->($token->{attributes}->{manifest}->{value});                  ->($token->{attributes}->{manifest}->{value});
2751              ## ISSUE: No relative reference resolution?              ## ISSUE: Spec is unclear on relative references.
2752                ## According to Hixie (#whatwg 2008-03-19), it should be
2753                ## resolved against the base URI of the document in HTML
2754                ## or xml:base of the element in XHTML.
2755            } else {            } else {
2756              !!!cp ('t25');              !!!cp ('t25');
2757              $self->{application_cache_selection}->(undef);              $self->{application_cache_selection}->(undef);
# Line 2716  sub _tree_construction_root_element ($) Line 2773  sub _tree_construction_root_element ($)
2773          die "$0: $token->{type}: Unknown token type";          die "$0: $token->{type}: Unknown token type";
2774        }        }
2775    
2776      my $root_element; !!!create-element ($root_element, 'html');      my $root_element; !!!create-element ($root_element, 'html',, $token);
2777      $self->{document}->append_child ($root_element);      $self->{document}->append_child ($root_element);
2778      push @{$self->{open_elements}}, [$root_element, 'html'];      push @{$self->{open_elements}}, [$root_element, 'html'];
2779    
# Line 2743  sub _reset_insertion_mode ($) { Line 2800  sub _reset_insertion_mode ($) {
2800            
2801      ## Step 3      ## Step 3
2802      S3: {      S3: {
       ## ISSUE: Oops! "If node is the first node in the stack of open  
       ## elements, then set last to true. If the context element of the  
       ## HTML fragment parsing algorithm is neither a td element nor a  
       ## th element, then set node to the context element. (fragment case)":  
       ## The second "if" is in the scope of the first "if"!?  
2803        if ($self->{open_elements}->[0]->[0] eq $node->[0]) {        if ($self->{open_elements}->[0]->[0] eq $node->[0]) {
2804          $last = 1;          $last = 1;
2805          if (defined $self->{inner_html_node}) {          if (defined $self->{inner_html_node}) {
# Line 2908  sub _tree_construction_main ($) { Line 2960  sub _tree_construction_main ($) {
2960      !!!cp ('t39');      !!!cp ('t39');
2961    }; # $clear_up_to_marker    }; # $clear_up_to_marker
2962    
2963    my $parse_rcdata = sub ($$) {    my $insert;
2964      my ($content_model_flag, $insert) = @_;  
2965      my $parse_rcdata = sub ($) {
2966        my ($content_model_flag) = @_;
2967    
2968      ## Step 1      ## Step 1
2969      my $start_tag_name = $token->{tag_name};      my $start_tag_name = $token->{tag_name};
2970      my $el;      my $el;
2971      !!!create-element ($el, $start_tag_name, $token->{attributes});      !!!create-element ($el, $start_tag_name, $token->{attributes}, $token);
2972    
2973      ## Step 2      ## Step 2
2974      $insert->($el); # /context node/->append_child ($el)      $insert->($el);
2975    
2976      ## Step 3      ## Step 3
2977      $self->{content_model} = $content_model_flag; # CDATA or RCDATA      $self->{content_model} = $content_model_flag; # CDATA or RCDATA
# Line 2947  sub _tree_construction_main ($) { Line 3001  sub _tree_construction_main ($) {
3001          $token->{tag_name} eq $start_tag_name) {          $token->{tag_name} eq $start_tag_name) {
3002        !!!cp ('t42');        !!!cp ('t42');
3003        ## Ignore the token        ## Ignore the token
     } elsif ($content_model_flag == CDATA_CONTENT_MODEL) {  
       !!!cp ('t43');  
       !!!parse-error (type => 'in CDATA:#'.$token->{type});  
     } elsif ($content_model_flag == RCDATA_CONTENT_MODEL) {  
       !!!cp ('t44');  
       !!!parse-error (type => 'in RCDATA:#'.$token->{type});  
3004      } else {      } else {
3005        die "$0: $content_model_flag in parse_rcdata";        ## NOTE: An end-of-file token.
3006          if ($content_model_flag == CDATA_CONTENT_MODEL) {
3007            !!!cp ('t43');
3008            !!!parse-error (type => 'in CDATA:#'.$token->{type}, token => $token);
3009          } elsif ($content_model_flag == RCDATA_CONTENT_MODEL) {
3010            !!!cp ('t44');
3011            !!!parse-error (type => 'in RCDATA:#'.$token->{type}, token => $token);
3012          } else {
3013            die "$0: $content_model_flag in parse_rcdata";
3014          }
3015      }      }
3016      !!!next-token;      !!!next-token;
3017    }; # $parse_rcdata    }; # $parse_rcdata
3018    
3019    my $script_start_tag = sub ($) {    my $script_start_tag = sub () {
     my $insert = $_[0];  
3020      my $script_el;      my $script_el;
3021      !!!create-element ($script_el, 'script', $token->{attributes});      !!!create-element ($script_el, 'script', $token->{attributes}, $token);
3022      ## TODO: mark as "parser-inserted"      ## TODO: mark as "parser-inserted"
3023    
3024      $self->{content_model} = CDATA_CONTENT_MODEL;      $self->{content_model} = CDATA_CONTENT_MODEL;
# Line 2988  sub _tree_construction_main ($) { Line 3044  sub _tree_construction_main ($) {
3044        ## Ignore the token        ## Ignore the token
3045      } else {      } else {
3046        !!!cp ('t48');        !!!cp ('t48');
3047        !!!parse-error (type => 'in CDATA:#'.$token->{type});        !!!parse-error (type => 'in CDATA:#'.$token->{type}, token => $token);
3048        ## ISSUE: And ignore?        ## ISSUE: And ignore?
3049        ## TODO: mark as "already executed"        ## TODO: mark as "already executed"
3050      }      }
# Line 3011  sub _tree_construction_main ($) { Line 3067  sub _tree_construction_main ($) {
3067      !!!next-token;      !!!next-token;
3068    }; # $script_start_tag    }; # $script_start_tag
3069    
3070      ## NOTE: $open_tables->[-1]->[0] is the "current table" element node.
3071      ## NOTE: $open_tables->[-1]->[1] is the "tainted" flag.
3072      my $open_tables = [[$self->{open_elements}->[0]->[0]]];
3073    
3074    my $formatting_end_tag = sub {    my $formatting_end_tag = sub {
3075      my $tag_name = shift;      my $end_tag_token = shift;
3076        my $tag_name = $end_tag_token->{tag_name};
3077    
3078        ## NOTE: The adoption agency algorithm (AAA).
3079    
3080      FET: {      FET: {
3081        ## Step 1        ## Step 1
# Line 3031  sub _tree_construction_main ($) { Line 3094  sub _tree_construction_main ($) {
3094        } # AFE        } # AFE
3095        unless (defined $formatting_element) {        unless (defined $formatting_element) {
3096          !!!cp ('t53');          !!!cp ('t53');
3097          !!!parse-error (type => 'unmatched end tag:'.$tag_name);          !!!parse-error (type => 'unmatched end tag:'.$tag_name, token => $end_tag_token);
3098          ## Ignore the token          ## Ignore the token
3099          !!!next-token;          !!!next-token;
3100          return;          return;
# Line 3048  sub _tree_construction_main ($) { Line 3111  sub _tree_construction_main ($) {
3111              last INSCOPE;              last INSCOPE;
3112            } else { # in open elements but not in scope            } else { # in open elements but not in scope
3113              !!!cp ('t55');              !!!cp ('t55');
3114              !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});              !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name},
3115                                token => $end_tag_token);
3116              ## Ignore the token              ## Ignore the token
3117              !!!next-token;              !!!next-token;
3118              return;              return;
3119            }            }
3120          } elsif ({          } elsif ({
3121                    table => 1, caption => 1, td => 1, th => 1,                    applet => 1, table => 1, caption => 1, td => 1, th => 1,
3122                    button => 1, marquee => 1, object => 1, html => 1,                    button => 1, marquee => 1, object => 1, html => 1,
3123                   }->{$node->[1]}) {                   }->{$node->[1]}) {
3124            !!!cp ('t56');            !!!cp ('t56');
# Line 3063  sub _tree_construction_main ($) { Line 3127  sub _tree_construction_main ($) {
3127        } # INSCOPE        } # INSCOPE
3128        unless (defined $formatting_element_i_in_open) {        unless (defined $formatting_element_i_in_open) {
3129          !!!cp ('t57');          !!!cp ('t57');
3130          !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});          !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name},
3131                            token => $end_tag_token);
3132          pop @$active_formatting_elements; # $formatting_element          pop @$active_formatting_elements; # $formatting_element
3133          !!!next-token; ## TODO: ok?          !!!next-token; ## TODO: ok?
3134          return;          return;
3135        }        }
3136        if (not $self->{open_elements}->[-1]->[0] eq $formatting_element->[0]) {        if (not $self->{open_elements}->[-1]->[0] eq $formatting_element->[0]) {
3137          !!!cp ('t58');          !!!cp ('t58');
3138          !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);          !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1],
3139                            token => $end_tag_token);
3140        }        }
3141                
3142        ## Step 2        ## Step 2
# Line 3081  sub _tree_construction_main ($) { Line 3147  sub _tree_construction_main ($) {
3147          if (not $formatting_category->{$node->[1]} and          if (not $formatting_category->{$node->[1]} and
3148              #not $phrasing_category->{$node->[1]} and              #not $phrasing_category->{$node->[1]} and
3149              ($special_category->{$node->[1]} or              ($special_category->{$node->[1]} or
3150               $scoping_category->{$node->[1]})) {               $scoping_category->{$node->[1]})) { ## Scoping is redundant, maybe
3151            !!!cp ('t59');            !!!cp ('t59');
3152            $furthest_block = $node;            $furthest_block = $node;
3153            $furthest_block_i_in_open = $_;            $furthest_block_i_in_open = $_;
# Line 3167  sub _tree_construction_main ($) { Line 3233  sub _tree_construction_main ($) {
3233        } # S7          } # S7  
3234                
3235        ## Step 8        ## Step 8
3236        $common_ancestor_node->[0]->append_child ($last_node->[0]);        if ({
3237               table => 1, tbody => 1, tfoot => 1, thead => 1, tr => 1,
3238              }->{$common_ancestor_node->[1]}) {
3239            my $foster_parent_element;
3240            my $next_sibling;
3241                             OE: for (reverse 0..$#{$self->{open_elements}}) {
3242                               if ($self->{open_elements}->[$_]->[1] eq 'table') {
3243                                 my $parent = $self->{open_elements}->[$_]->[0]->parent_node;
3244                                 if (defined $parent and $parent->node_type == 1) {
3245                                   !!!cp ('t65.1');
3246                                   $foster_parent_element = $parent;
3247                                   $next_sibling = $self->{open_elements}->[$_]->[0];
3248                                 } else {
3249                                   !!!cp ('t65.2');
3250                                   $foster_parent_element
3251                                     = $self->{open_elements}->[$_ - 1]->[0];
3252                                 }
3253                                 last OE;
3254                               }
3255                             } # OE
3256                             $foster_parent_element = $self->{open_elements}->[0]->[0]
3257                               unless defined $foster_parent_element;
3258            $foster_parent_element->insert_before ($last_node->[0], $next_sibling);
3259            $open_tables->[-1]->[1] = 1; # tainted
3260          } else {
3261            !!!cp ('t65.3');
3262            $common_ancestor_node->[0]->append_child ($last_node->[0]);
3263          }
3264                
3265        ## Step 9        ## Step 9
3266        my $clone = [$formatting_element->[0]->clone_node (0),        my $clone = [$formatting_element->[0]->clone_node (0),
# Line 3213  sub _tree_construction_main ($) { Line 3306  sub _tree_construction_main ($) {
3306      } # FET      } # FET
3307    }; # $formatting_end_tag    }; # $formatting_end_tag
3308    
3309    my $insert_to_current = sub {    $insert = my $insert_to_current = sub {
3310      $self->{open_elements}->[-1]->[0]->append_child ($_[0]);      $self->{open_elements}->[-1]->[0]->append_child ($_[0]);
3311    }; # $insert_to_current    }; # $insert_to_current
3312    
3313    my $insert_to_foster = sub {    my $insert_to_foster = sub {
3314                         my $child = shift;      my $child = shift;
3315                         if ({      if ({
3316                              table => 1, tbody => 1, tfoot => 1,           table => 1, tbody => 1, tfoot => 1, thead => 1, tr => 1,
3317                              thead => 1, tr => 1,          }->{$self->{open_elements}->[-1]->[1]}) {
3318                             }->{$self->{open_elements}->[-1]->[1]}) {        # MUST
3319                           # MUST        my $foster_parent_element;
3320                           my $foster_parent_element;        my $next_sibling;
                          my $next_sibling;  
3321                           OE: for (reverse 0..$#{$self->{open_elements}}) {                           OE: for (reverse 0..$#{$self->{open_elements}}) {
3322                             if ($self->{open_elements}->[$_]->[1] eq 'table') {                             if ($self->{open_elements}->[$_]->[1] eq 'table') {
3323                               my $parent = $self->{open_elements}->[$_]->[0]->parent_node;                               my $parent = $self->{open_elements}->[$_]->[0]->parent_node;
# Line 3245  sub _tree_construction_main ($) { Line 3337  sub _tree_construction_main ($) {
3337                             unless defined $foster_parent_element;                             unless defined $foster_parent_element;
3338                           $foster_parent_element->insert_before                           $foster_parent_element->insert_before
3339                             ($child, $next_sibling);                             ($child, $next_sibling);
3340                         } else {        $open_tables->[-1]->[1] = 1; # tainted
3341                           !!!cp ('t72');      } else {
3342                           $self->{open_elements}->[-1]->[0]->append_child ($child);        !!!cp ('t72');
3343                         }        $self->{open_elements}->[-1]->[0]->append_child ($child);
3344        }
3345    }; # $insert_to_foster    }; # $insert_to_foster
3346    
   my $insert;  
   
3347    B: {    B: {
3348      if ($token->{type} == DOCTYPE_TOKEN) {      if ($token->{type} == DOCTYPE_TOKEN) {
3349        !!!cp ('t73');        !!!cp ('t73');
3350        !!!parse-error (type => 'DOCTYPE in the middle');        !!!parse-error (type => 'DOCTYPE in the middle', token => $token);
3351        ## Ignore the token        ## Ignore the token
3352        ## Stay in the phase        ## Stay in the phase
3353        !!!next-token;        !!!next-token;
3354        redo B;        redo B;
     } elsif ($token->{type} == END_OF_FILE_TOKEN) {  
       if ($self->{insertion_mode} & AFTER_HTML_IMS) {  
         !!!cp ('t74');  
         #  
       } else {  
         ## Generate implied end tags  
         if ({  
              dd => 1, dt => 1, li => 1, p => 1, td => 1, th => 1, tr => 1,  
              tbody => 1, tfoot=> 1, thead => 1,  
             }->{$self->{open_elements}->[-1]->[1]}) {  
           !!!cp ('t75');  
           !!!back-token;  
           $token = {type => END_TAG_TOKEN, tag_name => $self->{open_elements}->[-1]->[1]};  
           redo B;  
         }  
           
         if (@{$self->{open_elements}} > 2 or  
             (@{$self->{open_elements}} == 2 and $self->{open_elements}->[1]->[1] ne 'body')) {  
           !!!cp ('t76');  
           !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
         } elsif (defined $self->{inner_html_node} and  
                  @{$self->{open_elements}} > 1 and  
                  $self->{open_elements}->[1]->[1] ne 'body') {  
 ## ISSUE: This case is never reached.  
           !!!cp ('t77');  
           !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
         } else {  
           !!!cp ('t78');  
         }  
   
         ## ISSUE: There is an issue in the spec.  
       }  
   
       ## Stop parsing  
       last B;  
3355      } elsif ($token->{type} == START_TAG_TOKEN and      } elsif ($token->{type} == START_TAG_TOKEN and
3356               $token->{tag_name} eq 'html') {               $token->{tag_name} eq 'html') {
3357        if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {        if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {
3358          !!!cp ('t79');          !!!cp ('t79');
3359          !!!parse-error (type => 'after html:html');          !!!parse-error (type => 'after html:html', token => $token);
3360          $self->{insertion_mode} = AFTER_BODY_IM;          $self->{insertion_mode} = AFTER_BODY_IM;
3361        } elsif ($self->{insertion_mode} == AFTER_HTML_FRAMESET_IM) {        } elsif ($self->{insertion_mode} == AFTER_HTML_FRAMESET_IM) {
3362          !!!cp ('t80');          !!!cp ('t80');
3363          !!!parse-error (type => 'after html:html');          !!!parse-error (type => 'after html:html', token => $token);
3364          $self->{insertion_mode} = AFTER_FRAMESET_IM;          $self->{insertion_mode} = AFTER_FRAMESET_IM;
3365        } else {        } else {
3366          !!!cp ('t81');          !!!cp ('t81');
3367        }        }
3368    
3369        !!!cp ('t82');        !!!cp ('t82');
3370        !!!parse-error (type => 'not first start tag');        !!!parse-error (type => 'not first start tag', token => $token);
3371        my $top_el = $self->{open_elements}->[0]->[0];        my $top_el = $self->{open_elements}->[0]->[0];
3372        for my $attr_name (keys %{$token->{attributes}}) {        for my $attr_name (keys %{$token->{attributes}}) {
3373          unless ($top_el->has_attribute_ns (undef, $attr_name)) {          unless ($top_el->has_attribute_ns (undef, $attr_name)) {
# Line 3340  sub _tree_construction_main ($) { Line 3396  sub _tree_construction_main ($) {
3396      } elsif ($self->{insertion_mode} & HEAD_IMS) {      } elsif ($self->{insertion_mode} & HEAD_IMS) {
3397        if ($token->{type} == CHARACTER_TOKEN) {        if ($token->{type} == CHARACTER_TOKEN) {
3398          if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {          if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {
3399            $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);            unless ($self->{insertion_mode} == BEFORE_HEAD_IM) {
3400                !!!cp ('t88.2');
3401                $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);
3402              } else {
3403                !!!cp ('t88.1');
3404                ## Ignore the token.
3405                !!!next-token;
3406                redo B;
3407              }
3408            unless (length $token->{data}) {            unless (length $token->{data}) {
3409              !!!cp ('t88');              !!!cp ('t88');
3410              !!!next-token;              !!!next-token;
# Line 3351  sub _tree_construction_main ($) { Line 3415  sub _tree_construction_main ($) {
3415          if ($self->{insertion_mode} == BEFORE_HEAD_IM) {          if ($self->{insertion_mode} == BEFORE_HEAD_IM) {
3416            !!!cp ('t89');            !!!cp ('t89');
3417            ## As if <head>            ## As if <head>
3418            !!!create-element ($self->{head_element}, 'head');            !!!create-element ($self->{head_element}, 'head',, $token);
3419            $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});            $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});
3420            push @{$self->{open_elements}}, [$self->{head_element}, 'head'];            push @{$self->{open_elements}}, [$self->{head_element}, 'head'];
3421    
# Line 3363  sub _tree_construction_main ($) { Line 3427  sub _tree_construction_main ($) {
3427            !!!cp ('t90');            !!!cp ('t90');
3428            ## As if </noscript>            ## As if </noscript>
3429            pop @{$self->{open_elements}};            pop @{$self->{open_elements}};
3430            !!!parse-error (type => 'in noscript:#character');            !!!parse-error (type => 'in noscript:#character', token => $token);
3431                        
3432            ## Reprocess in the "in head" insertion mode...            ## Reprocess in the "in head" insertion mode...
3433            ## As if </head>            ## As if </head>
# Line 3381  sub _tree_construction_main ($) { Line 3445  sub _tree_construction_main ($) {
3445    
3446              ## "after head" insertion mode              ## "after head" insertion mode
3447              ## As if <body>              ## As if <body>
3448              !!!insert-element ('body');              !!!insert-element ('body',, $token);
3449              $self->{insertion_mode} = IN_BODY_IM;              $self->{insertion_mode} = IN_BODY_IM;
3450              ## reprocess              ## reprocess
3451              redo B;              redo B;
# Line 3389  sub _tree_construction_main ($) { Line 3453  sub _tree_construction_main ($) {
3453              if ($token->{tag_name} eq 'head') {              if ($token->{tag_name} eq 'head') {
3454                if ($self->{insertion_mode} == BEFORE_HEAD_IM) {                if ($self->{insertion_mode} == BEFORE_HEAD_IM) {
3455                  !!!cp ('t93');                  !!!cp ('t93');
3456                  !!!create-element ($self->{head_element}, $token->{tag_name}, $token->{attributes});                  !!!create-element ($self->{head_element}, $token->{tag_name}, $token->{attributes}, $token);
3457                  $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});                  $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});
3458                  push @{$self->{open_elements}}, [$self->{head_element}, $token->{tag_name}];                  push @{$self->{open_elements}}, [$self->{head_element}, $token->{tag_name}];
3459                  $self->{insertion_mode} = IN_HEAD_IM;                  $self->{insertion_mode} = IN_HEAD_IM;
# Line 3400  sub _tree_construction_main ($) { Line 3464  sub _tree_construction_main ($) {
3464                  #                  #
3465                } else {                } else {
3466                  !!!cp ('t95');                  !!!cp ('t95');
3467                  !!!parse-error (type => 'in head:head'); # or in head noscript                  !!!parse-error (type => 'in head:head', token => $token); # or in head noscript
3468                  ## Ignore the token                  ## Ignore the token
3469                  !!!next-token;                  !!!next-token;
3470                  redo B;                  redo B;
# Line 3408  sub _tree_construction_main ($) { Line 3472  sub _tree_construction_main ($) {
3472              } elsif ($self->{insertion_mode} == BEFORE_HEAD_IM) {              } elsif ($self->{insertion_mode} == BEFORE_HEAD_IM) {
3473                !!!cp ('t96');                !!!cp ('t96');
3474                ## As if <head>                ## As if <head>
3475                !!!create-element ($self->{head_element}, 'head');                !!!create-element ($self->{head_element}, 'head',, $token);
3476                $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});                $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});
3477                push @{$self->{open_elements}}, [$self->{head_element}, 'head'];                push @{$self->{open_elements}}, [$self->{head_element}, 'head'];
3478    
# Line 3423  sub _tree_construction_main ($) { Line 3487  sub _tree_construction_main ($) {
3487                  !!!cp ('t98');                  !!!cp ('t98');
3488                  ## As if </noscript>                  ## As if </noscript>
3489                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
3490                  !!!parse-error (type => 'in noscript:base');                  !!!parse-error (type => 'in noscript:base', token => $token);
3491                                
3492                  $self->{insertion_mode} = IN_HEAD_IM;                  $self->{insertion_mode} = IN_HEAD_IM;
3493                  ## Reprocess in the "in head" insertion mode...                  ## Reprocess in the "in head" insertion mode...
# Line 3434  sub _tree_construction_main ($) { Line 3498  sub _tree_construction_main ($) {
3498                ## NOTE: There is a "as if in head" code clone.                ## NOTE: There is a "as if in head" code clone.
3499                if ($self->{insertion_mode} == AFTER_HEAD_IM) {                if ($self->{insertion_mode} == AFTER_HEAD_IM) {
3500                  !!!cp ('t100');                  !!!cp ('t100');
3501                  !!!parse-error (type => 'after head:'.$token->{tag_name});                  !!!parse-error (type => 'after head:'.$token->{tag_name}, token => $token);
3502                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];
3503                } else {                } else {
3504                  !!!cp ('t101');                  !!!cp ('t101');
3505                }                }
3506                !!!insert-element ($token->{tag_name}, $token->{attributes});                !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
3507                pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.                pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.
3508                pop @{$self->{open_elements}}                pop @{$self->{open_elements}} # <head>
3509                    if $self->{insertion_mode} == AFTER_HEAD_IM;                    if $self->{insertion_mode} == AFTER_HEAD_IM;
3510                !!!next-token;                !!!next-token;
3511                redo B;                redo B;
# Line 3449  sub _tree_construction_main ($) { Line 3513  sub _tree_construction_main ($) {
3513                ## NOTE: There is a "as if in head" code clone.                ## NOTE: There is a "as if in head" code clone.
3514                if ($self->{insertion_mode} == AFTER_HEAD_IM) {                if ($self->{insertion_mode} == AFTER_HEAD_IM) {
3515                  !!!cp ('t102');                  !!!cp ('t102');
3516                  !!!parse-error (type => 'after head:'.$token->{tag_name});                  !!!parse-error (type => 'after head:'.$token->{tag_name}, token => $token);
3517                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];
3518                } else {                } else {
3519                  !!!cp ('t103');                  !!!cp ('t103');
3520                }                }
3521                !!!insert-element ($token->{tag_name}, $token->{attributes});                !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
3522                pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.                pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.
3523                pop @{$self->{open_elements}}                pop @{$self->{open_elements}} # <head>
3524                    if $self->{insertion_mode} == AFTER_HEAD_IM;                    if $self->{insertion_mode} == AFTER_HEAD_IM;
3525                !!!next-token;                !!!next-token;
3526                redo B;                redo B;
# Line 3464  sub _tree_construction_main ($) { Line 3528  sub _tree_construction_main ($) {
3528                ## NOTE: There is a "as if in head" code clone.                ## NOTE: There is a "as if in head" code clone.
3529                if ($self->{insertion_mode} == AFTER_HEAD_IM) {                if ($self->{insertion_mode} == AFTER_HEAD_IM) {
3530                  !!!cp ('t104');                  !!!cp ('t104');
3531                  !!!parse-error (type => 'after head:'.$token->{tag_name});                  !!!parse-error (type => 'after head:'.$token->{tag_name}, token => $token);
3532                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];
3533                } else {                } else {
3534                  !!!cp ('t105');                  !!!cp ('t105');
3535                }                }
3536                !!!insert-element ($token->{tag_name}, $token->{attributes});                !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
3537                my $meta_el = pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.                my $meta_el = pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.
3538    
3539                unless ($self->{confident}) {                unless ($self->{confident}) {
3540                  if ($token->{attributes}->{charset}) { ## TODO: And if supported                  if ($token->{attributes}->{charset}) { ## TODO: And if supported
3541                    !!!cp ('t106');                    !!!cp ('t106');
3542                    $self->{change_encoding}                    $self->{change_encoding}
3543                        ->($self, $token->{attributes}->{charset}->{value});                        ->($self, $token->{attributes}->{charset}->{value},
3544                             $token);
3545                                        
3546                    $meta_el->[0]->get_attribute_node_ns (undef, 'charset')                    $meta_el->[0]->get_attribute_node_ns (undef, 'charset')
3547                        ->set_user_data (manakai_has_reference =>                        ->set_user_data (manakai_has_reference =>
# Line 3491  sub _tree_construction_main ($) { Line 3556  sub _tree_construction_main ($) {
3556                            ([^"'\x09-\x0D\x20][^\x09-\x0D\x20]*))/x) {                            ([^"'\x09-\x0D\x20][^\x09-\x0D\x20]*))/x) {
3557                      !!!cp ('t107');                      !!!cp ('t107');
3558                      $self->{change_encoding}                      $self->{change_encoding}
3559                          ->($self, defined $1 ? $1 : defined $2 ? $2 : $3);                          ->($self, defined $1 ? $1 : defined $2 ? $2 : $3,
3560                               $token);
3561                      $meta_el->[0]->get_attribute_node_ns (undef, 'content')                      $meta_el->[0]->get_attribute_node_ns (undef, 'content')
3562                          ->set_user_data (manakai_has_reference =>                          ->set_user_data (manakai_has_reference =>
3563                                               $token->{attributes}->{content}                                               $token->{attributes}->{content}
# Line 3517  sub _tree_construction_main ($) { Line 3583  sub _tree_construction_main ($) {
3583                  }                  }
3584                }                }
3585    
3586                pop @{$self->{open_elements}}                pop @{$self->{open_elements}} # <head>
3587                    if $self->{insertion_mode} == AFTER_HEAD_IM;                    if $self->{insertion_mode} == AFTER_HEAD_IM;
3588                !!!next-token;                !!!next-token;
3589                redo B;                redo B;
# Line 3526  sub _tree_construction_main ($) { Line 3592  sub _tree_construction_main ($) {
3592                  !!!cp ('t111');                  !!!cp ('t111');
3593                  ## As if </noscript>                  ## As if </noscript>
3594                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
3595                  !!!parse-error (type => 'in noscript:title');                  !!!parse-error (type => 'in noscript:title', token => $token);
3596                                
3597                  $self->{insertion_mode} = IN_HEAD_IM;                  $self->{insertion_mode} = IN_HEAD_IM;
3598                  ## Reprocess in the "in head" insertion mode...                  ## Reprocess in the "in head" insertion mode...
3599                } elsif ($self->{insertion_mode} == AFTER_HEAD_IM) {                } elsif ($self->{insertion_mode} == AFTER_HEAD_IM) {
3600                  !!!cp ('t112');                  !!!cp ('t112');
3601                  !!!parse-error (type => 'after head:'.$token->{tag_name});                  !!!parse-error (type => 'after head:'.$token->{tag_name}, token => $token);
3602                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];
3603                } else {                } else {
3604                  !!!cp ('t113');                  !!!cp ('t113');
# Line 3541  sub _tree_construction_main ($) { Line 3607  sub _tree_construction_main ($) {
3607                ## NOTE: There is a "as if in head" code clone.                ## NOTE: There is a "as if in head" code clone.
3608                my $parent = defined $self->{head_element} ? $self->{head_element}                my $parent = defined $self->{head_element} ? $self->{head_element}
3609                    : $self->{open_elements}->[-1]->[0];                    : $self->{open_elements}->[-1]->[0];
3610                $parse_rcdata->(RCDATA_CONTENT_MODEL,                $parse_rcdata->(RCDATA_CONTENT_MODEL);
3611                                sub { $parent->append_child ($_[0]) });                pop @{$self->{open_elements}} # <head>
               pop @{$self->{open_elements}}  
3612                    if $self->{insertion_mode} == AFTER_HEAD_IM;                    if $self->{insertion_mode} == AFTER_HEAD_IM;
3613                redo B;                redo B;
3614              } elsif ($token->{tag_name} eq 'style') {              } elsif ($token->{tag_name} eq 'style') {
# Line 3552  sub _tree_construction_main ($) { Line 3617  sub _tree_construction_main ($) {
3617                ## NOTE: There is a "as if in head" code clone.                ## NOTE: There is a "as if in head" code clone.
3618                if ($self->{insertion_mode} == AFTER_HEAD_IM) {                if ($self->{insertion_mode} == AFTER_HEAD_IM) {
3619                  !!!cp ('t114');                  !!!cp ('t114');
3620                  !!!parse-error (type => 'after head:'.$token->{tag_name});                  !!!parse-error (type => 'after head:'.$token->{tag_name}, token => $token);
3621                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];
3622                } else {                } else {
3623                  !!!cp ('t115');                  !!!cp ('t115');
3624                }                }
3625                $parse_rcdata->(CDATA_CONTENT_MODEL, $insert_to_current);                $parse_rcdata->(CDATA_CONTENT_MODEL);
3626                pop @{$self->{open_elements}}                pop @{$self->{open_elements}} # <head>
3627                    if $self->{insertion_mode} == AFTER_HEAD_IM;                    if $self->{insertion_mode} == AFTER_HEAD_IM;
3628                redo B;                redo B;
3629              } elsif ($token->{tag_name} eq 'noscript') {              } elsif ($token->{tag_name} eq 'noscript') {
3630                if ($self->{insertion_mode} == IN_HEAD_IM) {                if ($self->{insertion_mode} == IN_HEAD_IM) {
3631                  !!!cp ('t116');                  !!!cp ('t116');
3632                  ## NOTE: and scripting is disalbed                  ## NOTE: and scripting is disalbed
3633                  !!!insert-element ($token->{tag_name}, $token->{attributes});                  !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
3634                  $self->{insertion_mode} = IN_HEAD_NOSCRIPT_IM;                  $self->{insertion_mode} = IN_HEAD_NOSCRIPT_IM;
3635                  !!!next-token;                  !!!next-token;
3636                  redo B;                  redo B;
3637                } elsif ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {                } elsif ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
3638                  !!!cp ('t117');                  !!!cp ('t117');
3639                  !!!parse-error (type => 'in noscript:noscript');                  !!!parse-error (type => 'in noscript:noscript', token => $token);
3640                  ## Ignore the token                  ## Ignore the token
3641                  !!!next-token;                  !!!next-token;
3642                  redo B;                  redo B;
# Line 3584  sub _tree_construction_main ($) { Line 3649  sub _tree_construction_main ($) {
3649                  !!!cp ('t119');                  !!!cp ('t119');
3650                  ## As if </noscript>                  ## As if </noscript>
3651                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
3652                  !!!parse-error (type => 'in noscript:script');                  !!!parse-error (type => 'in noscript:script', token => $token);
3653                                
3654                  $self->{insertion_mode} = IN_HEAD_IM;                  $self->{insertion_mode} = IN_HEAD_IM;
3655                  ## Reprocess in the "in head" insertion mode...                  ## Reprocess in the "in head" insertion mode...
3656                } elsif ($self->{insertion_mode} == AFTER_HEAD_IM) {                } elsif ($self->{insertion_mode} == AFTER_HEAD_IM) {
3657                  !!!cp ('t120');                  !!!cp ('t120');
3658                  !!!parse-error (type => 'after head:'.$token->{tag_name});                  !!!parse-error (type => 'after head:'.$token->{tag_name}, token => $token);
3659                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];
3660                } else {                } else {
3661                  !!!cp ('t121');                  !!!cp ('t121');
3662                }                }
3663    
3664                ## NOTE: There is a "as if in head" code clone.                ## NOTE: There is a "as if in head" code clone.
3665                $script_start_tag->($insert_to_current);                $script_start_tag->();
3666                pop @{$self->{open_elements}}                pop @{$self->{open_elements}} # <head>
3667                    if $self->{insertion_mode} == AFTER_HEAD_IM;                    if $self->{insertion_mode} == AFTER_HEAD_IM;
3668                redo B;                redo B;
3669              } elsif ($token->{tag_name} eq 'body' or              } elsif ($token->{tag_name} eq 'body' or
# Line 3607  sub _tree_construction_main ($) { Line 3672  sub _tree_construction_main ($) {
3672                  !!!cp ('t122');                  !!!cp ('t122');
3673                  ## As if </noscript>                  ## As if </noscript>
3674                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
3675                  !!!parse-error (type => 'in noscript:'.$token->{tag_name});                  !!!parse-error (type => 'in noscript:'.$token->{tag_name}, token => $token);
3676                                    
3677                  ## Reprocess in the "in head" insertion mode...                  ## Reprocess in the "in head" insertion mode...
3678                  ## As if </head>                  ## As if </head>
# Line 3624  sub _tree_construction_main ($) { Line 3689  sub _tree_construction_main ($) {
3689                }                }
3690    
3691                ## "after head" insertion mode                ## "after head" insertion mode
3692                !!!insert-element ($token->{tag_name}, $token->{attributes});                !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
3693                if ($token->{tag_name} eq 'body') {                if ($token->{tag_name} eq 'body') {
3694                  !!!cp ('t126');                  !!!cp ('t126');
3695                  $self->{insertion_mode} = IN_BODY_IM;                  $self->{insertion_mode} = IN_BODY_IM;
# Line 3645  sub _tree_construction_main ($) { Line 3710  sub _tree_construction_main ($) {
3710                !!!cp ('t129');                !!!cp ('t129');
3711                ## As if </noscript>                ## As if </noscript>
3712                pop @{$self->{open_elements}};                pop @{$self->{open_elements}};
3713                !!!parse-error (type => 'in noscript:/'.$token->{tag_name});                !!!parse-error (type => 'in noscript:/'.$token->{tag_name}, token => $token);
3714                                
3715                ## Reprocess in the "in head" insertion mode...                ## Reprocess in the "in head" insertion mode...
3716                ## As if </head>                ## As if </head>
# Line 3664  sub _tree_construction_main ($) { Line 3729  sub _tree_construction_main ($) {
3729    
3730              ## "after head" insertion mode              ## "after head" insertion mode
3731              ## As if <body>              ## As if <body>
3732              !!!insert-element ('body');              !!!insert-element ('body',, $token);
3733              $self->{insertion_mode} = IN_BODY_IM;              $self->{insertion_mode} = IN_BODY_IM;
3734              ## reprocess              ## reprocess
3735              redo B;              redo B;
# Line 3673  sub _tree_construction_main ($) { Line 3738  sub _tree_construction_main ($) {
3738                if ($self->{insertion_mode} == BEFORE_HEAD_IM) {                if ($self->{insertion_mode} == BEFORE_HEAD_IM) {
3739                  !!!cp ('t132');                  !!!cp ('t132');
3740                  ## As if <head>                  ## As if <head>
3741                  !!!create-element ($self->{head_element}, 'head');                  !!!create-element ($self->{head_element}, 'head',, $token);
3742                  $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});                  $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});
3743                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];
3744    
# Line 3686  sub _tree_construction_main ($) { Line 3751  sub _tree_construction_main ($) {
3751                  !!!cp ('t133');                  !!!cp ('t133');
3752                  ## As if </noscript>                  ## As if </noscript>
3753                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
3754                  !!!parse-error (type => 'in noscript:/head');                  !!!parse-error (type => 'in noscript:/head', token => $token);
3755                                    
3756                  ## Reprocess in the "in head" insertion mode...                  ## Reprocess in the "in head" insertion mode...
3757                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
# Line 3712  sub _tree_construction_main ($) { Line 3777  sub _tree_construction_main ($) {
3777                  redo B;                  redo B;
3778                } elsif ($self->{insertion_mode} == BEFORE_HEAD_IM) {                } elsif ($self->{insertion_mode} == BEFORE_HEAD_IM) {
3779                  !!!cp ('t137');                  !!!cp ('t137');
3780                  !!!parse-error (type => 'unmatched end tag:noscript');                  !!!parse-error (type => 'unmatched end tag:noscript', token => $token);
3781                  ## Ignore the token ## ISSUE: An issue in the spec.                  ## Ignore the token ## ISSUE: An issue in the spec.
3782                  !!!next-token;                  !!!next-token;
3783                  redo B;                  redo B;
# Line 3726  sub _tree_construction_main ($) { Line 3791  sub _tree_construction_main ($) {
3791                if ($self->{insertion_mode} == BEFORE_HEAD_IM) {                if ($self->{insertion_mode} == BEFORE_HEAD_IM) {
3792                  !!!cp ('t139');                  !!!cp ('t139');
3793                  ## As if <head>                  ## As if <head>
3794                  !!!create-element ($self->{head_element}, 'head');                  !!!create-element ($self->{head_element}, 'head',, $token);
3795                  $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});                  $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});
3796                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];
3797    
# Line 3734  sub _tree_construction_main ($) { Line 3799  sub _tree_construction_main ($) {
3799                  ## Reprocess in the "in head" insertion mode...                  ## Reprocess in the "in head" insertion mode...
3800                } elsif ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {                } elsif ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
3801                  !!!cp ('t140');                  !!!cp ('t140');
3802                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
3803                  ## Ignore the token                  ## Ignore the token
3804                  !!!next-token;                  !!!next-token;
3805                  redo B;                  redo B;
# Line 3749  sub _tree_construction_main ($) { Line 3814  sub _tree_construction_main ($) {
3814                if ($self->{insertion_mode} == BEFORE_HEAD_IM) {                if ($self->{insertion_mode} == BEFORE_HEAD_IM) {
3815                  !!!cp ('t142');                  !!!cp ('t142');
3816                  ## As if <head>                  ## As if <head>
3817                  !!!create-element ($self->{head_element}, 'head');                  !!!create-element ($self->{head_element}, 'head',, $token);
3818                  $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});                  $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});
3819                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];
3820    
# Line 3766  sub _tree_construction_main ($) { Line 3831  sub _tree_construction_main ($) {
3831                  #                  #
3832                } else {                } else {
3833                  !!!cp ('t145');                  !!!cp ('t145');
3834                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
3835                  ## Ignore the token                  ## Ignore the token
3836                  !!!next-token;                  !!!next-token;
3837                  redo B;                  redo B;
# Line 3777  sub _tree_construction_main ($) { Line 3842  sub _tree_construction_main ($) {
3842                !!!cp ('t146');                !!!cp ('t146');
3843                ## As if </noscript>                ## As if </noscript>
3844                pop @{$self->{open_elements}};                pop @{$self->{open_elements}};
3845                !!!parse-error (type => 'in noscript:/'.$token->{tag_name});                !!!parse-error (type => 'in noscript:/'.$token->{tag_name}, token => $token);
3846                                
3847                ## Reprocess in the "in head" insertion mode...                ## Reprocess in the "in head" insertion mode...
3848                ## As if </head>                ## As if </head>
# Line 3793  sub _tree_construction_main ($) { Line 3858  sub _tree_construction_main ($) {
3858              } elsif ($self->{insertion_mode} == BEFORE_HEAD_IM) {              } elsif ($self->{insertion_mode} == BEFORE_HEAD_IM) {
3859  ## ISSUE: This case cannot be reached?  ## ISSUE: This case cannot be reached?
3860                !!!cp ('t148');                !!!cp ('t148');
3861                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
3862                ## Ignore the token ## ISSUE: An issue in the spec.                ## Ignore the token ## ISSUE: An issue in the spec.
3863                !!!next-token;                !!!next-token;
3864                redo B;                redo B;
# Line 3803  sub _tree_construction_main ($) { Line 3868  sub _tree_construction_main ($) {
3868    
3869              ## "after head" insertion mode              ## "after head" insertion mode
3870              ## As if <body>              ## As if <body>
3871              !!!insert-element ('body');              !!!insert-element ('body',, $token);
3872              $self->{insertion_mode} = IN_BODY_IM;              $self->{insertion_mode} = IN_BODY_IM;
3873              ## reprocess              ## reprocess
3874              redo B;              redo B;
3875            } else {        } elsif ($token->{type} == END_OF_FILE_TOKEN) {
3876              die "$0: $token->{type}: Unknown token type";          if ($self->{insertion_mode} == BEFORE_HEAD_IM) {
3877            }            !!!cp ('t149.1');
3878    
3879              ## NOTE: As if <head>
3880              !!!create-element ($self->{head_element}, 'head',, $token);
3881              $self->{open_elements}->[-1]->[0]->append_child
3882                  ($self->{head_element});
3883              #push @{$self->{open_elements}}, [$self->{head_element}, 'head'];
3884              #$self->{insertion_mode} = IN_HEAD_IM;
3885              ## NOTE: Reprocess.
3886    
3887              ## NOTE: As if </head>
3888              #pop @{$self->{open_elements}};
3889              #$self->{insertion_mode} = IN_AFTER_HEAD_IM;
3890              ## NOTE: Reprocess.
3891              
3892              #
3893            } elsif ($self->{insertion_mode} == IN_HEAD_IM) {
3894              !!!cp ('t149.2');
3895    
3896              ## NOTE: As if </head>
3897              pop @{$self->{open_elements}};
3898              #$self->{insertion_mode} = IN_AFTER_HEAD_IM;
3899              ## NOTE: Reprocess.
3900    
3901              #
3902            } elsif ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
3903              !!!cp ('t149.3');
3904    
3905              !!!parse-error (type => 'in noscript:#eof', token => $token);
3906    
3907              ## As if </noscript>
3908              pop @{$self->{open_elements}};
3909              #$self->{insertion_mode} = IN_HEAD_IM;
3910              ## NOTE: Reprocess.
3911    
3912              ## NOTE: As if </head>
3913              pop @{$self->{open_elements}};
3914              #$self->{insertion_mode} = IN_AFTER_HEAD_IM;
3915              ## NOTE: Reprocess.
3916    
3917              #
3918            } else {
3919              !!!cp ('t149.4');
3920              #
3921            }
3922    
3923            ## NOTE: As if <body>
3924            !!!insert-element ('body',, $token);
3925            $self->{insertion_mode} = IN_BODY_IM;
3926            ## NOTE: Reprocess.
3927            redo B;
3928          } else {
3929            die "$0: $token->{type}: Unknown token type";
3930          }
3931    
3932            ## ISSUE: An issue in the spec.            ## ISSUE: An issue in the spec.
3933      } elsif ($self->{insertion_mode} & BODY_IMS) {      } elsif ($self->{insertion_mode} & BODY_IMS) {
# Line 3829  sub _tree_construction_main ($) { Line 3947  sub _tree_construction_main ($) {
3947                  }->{$token->{tag_name}}) {                  }->{$token->{tag_name}}) {
3948                if ($self->{insertion_mode} == IN_CELL_IM) {                if ($self->{insertion_mode} == IN_CELL_IM) {
3949                  ## have an element in table scope                  ## have an element in table scope
3950                  my $tn;                  for (reverse 0..$#{$self->{open_elements}}) {
                 INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
3951                    my $node = $self->{open_elements}->[$_];                    my $node = $self->{open_elements}->[$_];
3952                    if ($node->[1] eq 'td' or $node->[1] eq 'th') {                    if ($node->[1] eq 'td' or $node->[1] eq 'th') {
3953                      !!!cp ('t151');                      !!!cp ('t151');
3954                      $tn = $node->[1];  
3955                      last INSCOPE;                      ## Close the cell
3956                        !!!back-token; # <?>
3957                        $token = {type => END_TAG_TOKEN, tag_name => $node->[1],
3958                                  line => $token->{line},
3959                                  column => $token->{column}};
3960                        redo B;
3961                    } elsif ({                    } elsif ({
3962                              table => 1, html => 1,                              table => 1, html => 1,
3963                             }->{$node->[1]}) {                             }->{$node->[1]}) {
3964                      !!!cp ('t152');                      !!!cp ('t152');
3965                      last INSCOPE;                      ## ISSUE: This case can never be reached, maybe.
3966                        last;
3967                    }                    }
3968                  } # INSCOPE                  }
3969                    unless (defined $tn) {  
3970                      !!!cp ('t153');                  !!!cp ('t153');
3971  ## TODO: This error type is wrong.                  !!!parse-error (type => 'start tag not allowed',
3972                      !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                      value => $token->{tag_name}, token => $token);
3973                      ## Ignore the token                  ## Ignore the token
3974                      !!!next-token;                  !!!next-token;
                     redo B;  
                   }  
                   
                 !!!cp ('t154');  
                 ## Close the cell  
                 !!!back-token; # <?>  
                 $token = {type => END_TAG_TOKEN, tag_name => $tn};  
3975                  redo B;                  redo B;
3976                } elsif ($self->{insertion_mode} == IN_CAPTION_IM) {                } elsif ($self->{insertion_mode} == IN_CAPTION_IM) {
3977                  !!!parse-error (type => 'not closed:caption');                  !!!parse-error (type => 'not closed:caption', token => $token);
3978                                    
3979                  ## As if </caption>                  ## NOTE: As if </caption>.
3980                  ## have a table element in table scope                  ## have a table element in table scope
3981                  my $i;                  my $i;
3982                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                  INSCOPE: {
3983                    my $node = $self->{open_elements}->[$_];                    for (reverse 0..$#{$self->{open_elements}}) {
3984                    if ($node->[1] eq 'caption') {                      my $node = $self->{open_elements}->[$_];
3985                      !!!cp ('t155');                      if ($node->[1] eq 'caption') {
3986                      $i = $_;                        !!!cp ('t155');
3987                      last INSCOPE;                        $i = $_;
3988                    } elsif ({                        last INSCOPE;
3989                              table => 1, html => 1,                      } elsif ({
3990                             }->{$node->[1]}) {                                table => 1, html => 1,
3991                      !!!cp ('t156');                               }->{$node->[1]}) {
3992                      last INSCOPE;                        !!!cp ('t156');
3993                          last;
3994                        }
3995                    }                    }
3996    
3997                      !!!cp ('t157');
3998                      !!!parse-error (type => 'start tag not allowed',
3999                                      value => $token->{tag_name}, token => $token);
4000                      ## Ignore the token
4001                      !!!next-token;
4002                      redo B;
4003                  } # INSCOPE                  } # INSCOPE
                   unless (defined $i) {  
                     !!!cp ('t157');  
 ## TODO: this type is wrong.  
                     !!!parse-error (type => 'unmatched end tag:caption');  
                     ## Ignore the token  
                     !!!next-token;  
                     redo B;  
                   }  
4004                                    
4005                  ## generate implied end tags                  ## generate implied end tags
4006                  if ({                  while ({
4007                       dd => 1, dt => 1, li => 1, p => 1,                          dd => 1, dt => 1, li => 1, p => 1,
4008                           }->{$self->{open_elements}->[-1]->[1]}) {
                      ## NOTE: Maybe the following elements never appear here.  
                      td => 1, th => 1, tr => 1,  
                      tbody => 1, tfoot => 1, thead => 1,  
                     }->{$self->{open_elements}->[-1]->[1]}) {  
4009                    !!!cp ('t158');                    !!!cp ('t158');
4010                    !!!back-token; # <?>                    pop @{$self->{open_elements}};
                   $token = {type => END_TAG_TOKEN, tag_name => 'caption'};  
                   !!!back-token;  
                   $token = {type => END_TAG_TOKEN,  
                             tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                   redo B;  
4011                  }                  }
4012    
4013                  if ($self->{open_elements}->[-1]->[1] ne 'caption') {                  if ($self->{open_elements}->[-1]->[1] ne 'caption') {
4014                    !!!cp ('t159');                    !!!cp ('t159');
4015                    !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                    !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1], token => $token);
4016                  } else {                  } else {
4017                    !!!cp ('t160');                    !!!cp ('t160');
4018                  }                  }
# Line 3945  sub _tree_construction_main ($) { Line 4053  sub _tree_construction_main ($) {
4053                  } # INSCOPE                  } # INSCOPE
4054                    unless (defined $i) {                    unless (defined $i) {
4055                      !!!cp ('t165');                      !!!cp ('t165');
4056                      !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                      !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
4057                      ## Ignore the token                      ## Ignore the token
4058                      !!!next-token;                      !!!next-token;
4059                      redo B;                      redo B;
4060                    }                    }
4061                                    
4062                  ## generate implied end tags                  ## generate implied end tags
4063                  if ({                  while ({
4064                       dd => 1, dt => 1, li => 1, p => 1,                          dd => 1, dt => 1, li => 1, p => 1,
4065                       td => ($token->{tag_name} eq 'th'),                         }->{$self->{open_elements}->[-1]->[1]}) {
                      th => ($token->{tag_name} eq 'td'),  
   
                      ## NOTE: Maybe the following elements never appear here.  
                      tr => 1,  
                      tbody => 1, tfoot => 1, thead => 1,  
                     }->{$self->{open_elements}->[-1]->[1]}) {  
4066                    !!!cp ('t166');                    !!!cp ('t166');
4067                    !!!back-token;                    pop @{$self->{open_elements}};
                   $token = {type => END_TAG_TOKEN,  
                             tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                   redo B;  
4068                  }                  }
4069                    
4070                  if ($self->{open_elements}->[-1]->[1] ne $token->{tag_name}) {                  if ($self->{open_elements}->[-1]->[1] ne $token->{tag_name}) {
4071                    !!!cp ('t167');                    !!!cp ('t167');
4072                    !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                    !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1], token => $token);
4073                  } else {                  } else {
4074                    !!!cp ('t168');                    !!!cp ('t168');
4075                  }                  }
# Line 3985  sub _tree_construction_main ($) { Line 4084  sub _tree_construction_main ($) {
4084                  redo B;                  redo B;
4085                } elsif ($self->{insertion_mode} == IN_CAPTION_IM) {                } elsif ($self->{insertion_mode} == IN_CAPTION_IM) {
4086                  !!!cp ('t169');                  !!!cp ('t169');
4087                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
4088                  ## Ignore the token                  ## Ignore the token
4089                  !!!next-token;                  !!!next-token;
4090                  redo B;                  redo B;
# Line 3997  sub _tree_construction_main ($) { Line 4096  sub _tree_construction_main ($) {
4096                if ($self->{insertion_mode} == IN_CAPTION_IM) {                if ($self->{insertion_mode} == IN_CAPTION_IM) {
4097                  ## have a table element in table scope                  ## have a table element in table scope
4098                  my $i;                  my $i;
4099                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                  INSCOPE: {
4100                    my $node = $self->{open_elements}->[$_];                    for (reverse 0..$#{$self->{open_elements}}) {
4101                    if ($node->[1] eq $token->{tag_name}) {                      my $node = $self->{open_elements}->[$_];
4102                      !!!cp ('t171');                      if ($node->[1] eq $token->{tag_name}) {
4103                      $i = $_;                        !!!cp ('t171');
4104                      last INSCOPE;                        $i = $_;
4105                    } elsif ({                        last INSCOPE;
4106                              table => 1, html => 1,                      } elsif ({
4107                             }->{$node->[1]}) {                                table => 1, html => 1,
4108                      !!!cp ('t172');                               }->{$node->[1]}) {
4109                      last INSCOPE;                        !!!cp ('t172');
4110                          last;
4111                        }
4112                    }                    }
4113    
4114                      !!!cp ('t173');
4115                      !!!parse-error (type => 'unmatched end tag',
4116                                      value => $token->{tag_name}, token => $token);
4117                      ## Ignore the token
4118                      !!!next-token;
4119                      redo B;
4120                  } # INSCOPE                  } # INSCOPE
                   unless (defined $i) {  
                     !!!cp ('t173');  
                     !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
                     ## Ignore the token  
                     !!!next-token;  
                     redo B;  
                   }  
4121                                    
4122                  ## generate implied end tags                  ## generate implied end tags
4123                  if ({                  while ({
4124                       dd => 1, dt => 1, li => 1, p => 1,                          dd => 1, dt => 1, li => 1, p => 1,
4125                           }->{$self->{open_elements}->[-1]->[1]}) {
                      ## NOTE: The following elements never appear here, maybe.  
                      td => 1, th => 1, tr => 1,  
                      tbody => 1, tfoot => 1, thead => 1,  
                     }->{$self->{open_elements}->[-1]->[1]}) {  
4126                    !!!cp ('t174');                    !!!cp ('t174');
4127                    !!!back-token;                    pop @{$self->{open_elements}};
                   $token = {type => END_TAG_TOKEN,  
                             tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                   redo B;  
4128                  }                  }
4129                                    
4130                  if ($self->{open_elements}->[-1]->[1] ne 'caption') {                  if ($self->{open_elements}->[-1]->[1] ne 'caption') {
4131                    !!!cp ('t175');                    !!!cp ('t175');
4132                    !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                    !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1], token => $token);
4133                  } else {                  } else {
4134                    !!!cp ('t176');                    !!!cp ('t176');
4135                  }                  }
# Line 4050  sub _tree_construction_main ($) { Line 4144  sub _tree_construction_main ($) {
4144                  redo B;                  redo B;
4145                } elsif ($self->{insertion_mode} == IN_CELL_IM) {                } elsif ($self->{insertion_mode} == IN_CELL_IM) {
4146                  !!!cp ('t177');                  !!!cp ('t177');
4147                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
4148                  ## Ignore the token                  ## Ignore the token
4149                  !!!next-token;                  !!!next-token;
4150                  redo B;                  redo B;
# Line 4066  sub _tree_construction_main ($) { Line 4160  sub _tree_construction_main ($) {
4160                ## have an element in table scope                ## have an element in table scope
4161                my $i;                my $i;
4162                my $tn;                my $tn;
4163                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                INSCOPE: {
4164                  my $node = $self->{open_elements}->[$_];                  for (reverse 0..$#{$self->{open_elements}}) {
4165                  if ($node->[1] eq $token->{tag_name}) {                    my $node = $self->{open_elements}->[$_];
4166                    !!!cp ('t179');                    if ($node->[1] eq $token->{tag_name}) {
4167                    $i = $_;                      !!!cp ('t179');
4168                    last INSCOPE;                      $i = $_;
4169                  } elsif ($node->[1] eq 'td' or $node->[1] eq 'th') {  
4170                    !!!cp ('t180');                      ## Close the cell
4171                    $tn = $node->[1];                      !!!back-token; # </?>
4172                    ## NOTE: There is exactly one |td| or |th| element                      $token = {type => END_TAG_TOKEN, tag_name => $tn,
4173                    ## in scope in the stack of open elements by definition.                                line => $token->{line},
4174                  } elsif ({                                column => $token->{column}};
4175                            table => 1, html => 1,                      redo B;
4176                           }->{$node->[1]}) {                    } elsif ($node->[1] eq 'td' or $node->[1] eq 'th') {
4177                    !!!cp ('t181');                      !!!cp ('t180');
4178                    last INSCOPE;                      $tn = $node->[1];
4179                        ## NOTE: There is exactly one |td| or |th| element
4180                        ## in scope in the stack of open elements by definition.
4181                      } elsif ({
4182                                table => 1, html => 1,
4183                               }->{$node->[1]}) {
4184                        ## ISSUE: Can this be reached?
4185                        !!!cp ('t181');
4186                        last;
4187                      }
4188                  }                  }
4189                } # INSCOPE  
               unless (defined $i) {  
4190                  !!!cp ('t182');                  !!!cp ('t182');
4191                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  !!!parse-error (type => 'unmatched end tag',
4192                        value => $token->{tag_name}, token => $token);
4193                  ## Ignore the token                  ## Ignore the token
4194                  !!!next-token;                  !!!next-token;
4195                  redo B;                  redo B;
4196                } else {                } # INSCOPE
                 !!!cp ('t183');  
               }  
   
               ## Close the cell  
               !!!back-token; # </?>  
               $token = {type => END_TAG_TOKEN, tag_name => $tn};  
               redo B;  
4197              } elsif ($token->{tag_name} eq 'table' and              } elsif ($token->{tag_name} eq 'table' and
4198                       $self->{insertion_mode} == IN_CAPTION_IM) {                       $self->{insertion_mode} == IN_CAPTION_IM) {
4199                !!!parse-error (type => 'not closed:caption');                !!!parse-error (type => 'not closed:caption', token => $token);
4200    
4201                ## As if </caption>                ## As if </caption>
4202                ## have a table element in table scope                ## have a table element in table scope
# Line 4120  sub _tree_construction_main ($) { Line 4216  sub _tree_construction_main ($) {
4216                } # INSCOPE                } # INSCOPE
4217                unless (defined $i) {                unless (defined $i) {
4218                  !!!cp ('t186');                  !!!cp ('t186');
4219                  !!!parse-error (type => 'unmatched end tag:caption');                  !!!parse-error (type => 'unmatched end tag:caption', token => $token);
4220                  ## Ignore the token                  ## Ignore the token
4221                  !!!next-token;                  !!!next-token;
4222                  redo B;                  redo B;
4223                }                }
4224                                
4225                ## generate implied end tags                ## generate implied end tags
4226                if ({                while ({
4227                     dd => 1, dt => 1, li => 1, p => 1,                        dd => 1, dt => 1, li => 1, p => 1,
4228                         }->{$self->{open_elements}->[-1]->[1]}) {
                    ## NOTE: The following elements never appear, maybe.  
                    td => 1, th => 1, tr => 1,  
                    tbody => 1, tfoot => 1, thead => 1,  
                   }->{$self->{open_elements}->[-1]->[1]}) {  
4229                  !!!cp ('t187');                  !!!cp ('t187');
4230                  !!!back-token; # </table>                  pop @{$self->{open_elements}};
                 $token = {type => END_TAG_TOKEN, tag_name => 'caption'};  
                 !!!back-token;  
                 $token = {type => END_TAG_TOKEN,  
                           tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                 redo B;  
4231                }                }
4232    
4233                if ($self->{open_elements}->[-1]->[1] ne 'caption') {                if ($self->{open_elements}->[-1]->[1] ne 'caption') {
4234                  !!!cp ('t188');                  !!!cp ('t188');
4235                  !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                  !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1], token => $token);
4236                } else {                } else {
4237                  !!!cp ('t189');                  !!!cp ('t189');
4238                }                }
# Line 4163  sub _tree_construction_main ($) { Line 4250  sub _tree_construction_main ($) {
4250                       }->{$token->{tag_name}}) {                       }->{$token->{tag_name}}) {
4251                if ($self->{insertion_mode} & BODY_TABLE_IMS) {                if ($self->{insertion_mode} & BODY_TABLE_IMS) {
4252                  !!!cp ('t190');                  !!!cp ('t190');
4253                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
4254                  ## Ignore the token                  ## Ignore the token
4255                  !!!next-token;                  !!!next-token;
4256                  redo B;                  redo B;
# Line 4177  sub _tree_construction_main ($) { Line 4264  sub _tree_construction_main ($) {
4264                       }->{$token->{tag_name}} and                       }->{$token->{tag_name}} and
4265                       $self->{insertion_mode} == IN_CAPTION_IM) {                       $self->{insertion_mode} == IN_CAPTION_IM) {
4266                !!!cp ('t192');                !!!cp ('t192');
4267                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
4268                ## Ignore the token                ## Ignore the token
4269                !!!next-token;                !!!next-token;
4270                redo B;                redo B;
# Line 4185  sub _tree_construction_main ($) { Line 4272  sub _tree_construction_main ($) {
4272                !!!cp ('t193');                !!!cp ('t193');
4273                #                #
4274              }              }
4275          } elsif ($token->{type} == END_OF_FILE_TOKEN) {
4276            for my $entry (@{$self->{open_elements}}) {
4277              if (not {
4278                dd => 1, dt => 1, li => 1, p => 1, tbody => 1, td => 1, tfoot => 1,
4279                th => 1, thead => 1, tr => 1, body => 1, html => 1,
4280              }->{$entry->[1]}) {
4281                !!!cp ('t75');
4282                !!!parse-error (type => 'in body:#eof', token => $token);
4283                last;
4284              }
4285            }
4286    
4287            ## Stop parsing.
4288            last B;
4289        } else {        } else {
4290          die "$0: $token->{type}: Unknown token type";          die "$0: $token->{type}: Unknown token type";
4291        }        }
# Line 4193  sub _tree_construction_main ($) { Line 4294  sub _tree_construction_main ($) {
4294        #        #
4295      } elsif ($self->{insertion_mode} & TABLE_IMS) {      } elsif ($self->{insertion_mode} & TABLE_IMS) {
4296        if ($token->{type} == CHARACTER_TOKEN) {        if ($token->{type} == CHARACTER_TOKEN) {
4297              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {          if (not $open_tables->[-1]->[1] and # tainted
4298                $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);              $token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {
4299              $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);
4300                                
4301                unless (length $token->{data}) {            unless (length $token->{data}) {
4302                  !!!cp ('t194');              !!!cp ('t194');
4303                  !!!next-token;              !!!next-token;
4304                  redo B;              redo B;
4305                } else {            } else {
4306                  !!!cp ('t195');              !!!cp ('t195');
4307                }            }
4308              }          }
4309    
4310              !!!parse-error (type => 'in table:#character');              !!!parse-error (type => 'in table:#character', token => $token);
4311    
4312              ## As if in body, but insert into foster parent element              ## As if in body, but insert into foster parent element
4313              ## ISSUE: Spec says that "whenever a node would be inserted              ## ISSUE: Spec says that "whenever a node would be inserted
# Line 4250  sub _tree_construction_main ($) { Line 4352  sub _tree_construction_main ($) {
4352                    ($self->{document}->create_text_node ($token->{data}),                    ($self->{document}->create_text_node ($token->{data}),
4353                     $next_sibling);                     $next_sibling);
4354                }                }
4355              } else {            $open_tables->[-1]->[1] = 1; # tainted
4356                !!!cp ('t200');          } else {
4357                $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});            !!!cp ('t200');
4358              }            $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});
4359            }
4360                            
4361              !!!next-token;          !!!next-token;
4362              redo B;          redo B;
4363        } elsif ($token->{type} == START_TAG_TOKEN) {        } elsif ($token->{type} == START_TAG_TOKEN) {
4364              if ({              if ({
4365                   tr => ($self->{insertion_mode} != IN_ROW_IM),                   tr => ($self->{insertion_mode} != IN_ROW_IM),
# Line 4267  sub _tree_construction_main ($) { Line 4370  sub _tree_construction_main ($) {
4370                  while ($self->{open_elements}->[-1]->[1] ne 'table' and                  while ($self->{open_elements}->[-1]->[1] ne 'table' and
4371                         $self->{open_elements}->[-1]->[1] ne 'html') {                         $self->{open_elements}->[-1]->[1] ne 'html') {
4372                    !!!cp ('t201');                    !!!cp ('t201');
                   !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
4373                    pop @{$self->{open_elements}};                    pop @{$self->{open_elements}};
4374                  }                  }
4375                                    
4376                  !!!insert-element ('tbody');                  !!!insert-element ('tbody',, $token);
4377                  $self->{insertion_mode} = IN_TABLE_BODY_IM;                  $self->{insertion_mode} = IN_TABLE_BODY_IM;
4378                  ## reprocess in the "in table body" insertion mode...                  ## reprocess in the "in table body" insertion mode...
4379                }                }
# Line 4279  sub _tree_construction_main ($) { Line 4381  sub _tree_construction_main ($) {
4381                if ($self->{insertion_mode} == IN_TABLE_BODY_IM) {                if ($self->{insertion_mode} == IN_TABLE_BODY_IM) {
4382                  unless ($token->{tag_name} eq 'tr') {                  unless ($token->{tag_name} eq 'tr') {
4383                    !!!cp ('t202');                    !!!cp ('t202');
4384                    !!!parse-error (type => 'missing start tag:tr');                    !!!parse-error (type => 'missing start tag:tr', token => $token);
4385                  }                  }
4386                                    
4387                  ## Clear back to table body context                  ## Clear back to table body context
# Line 4288  sub _tree_construction_main ($) { Line 4390  sub _tree_construction_main ($) {
4390                  }->{$self->{open_elements}->[-1]->[1]}) {                  }->{$self->{open_elements}->[-1]->[1]}) {
4391                    !!!cp ('t203');                    !!!cp ('t203');
4392                    ## ISSUE: Can this case be reached?                    ## ISSUE: Can this case be reached?
                   !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
4393                    pop @{$self->{open_elements}};                    pop @{$self->{open_elements}};
4394                  }                  }
4395                                    
4396                  $self->{insertion_mode} = IN_ROW_IM;                  $self->{insertion_mode} = IN_ROW_IM;
4397                  if ($token->{tag_name} eq 'tr') {                  if ($token->{tag_name} eq 'tr') {
4398                    !!!cp ('t204');                    !!!cp ('t204');
4399                    !!!insert-element ($token->{tag_name}, $token->{attributes});                    !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
4400                    !!!next-token;                    !!!next-token;
4401                    redo B;                    redo B;
4402                  } else {                  } else {
4403                    !!!cp ('t205');                    !!!cp ('t205');
4404                    !!!insert-element ('tr');                    !!!insert-element ('tr',, $token);
4405                    ## reprocess in the "in row" insertion mode                    ## reprocess in the "in row" insertion mode
4406                  }                  }
4407                } else {                } else {
# Line 4312  sub _tree_construction_main ($) { Line 4413  sub _tree_construction_main ($) {
4413                  tr => 1, html => 1,                  tr => 1, html => 1,
4414                }->{$self->{open_elements}->[-1]->[1]}) {                }->{$self->{open_elements}->[-1]->[1]}) {
4415                  !!!cp ('t207');                  !!!cp ('t207');
                 !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
4416                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
4417                }                }
4418                                
4419                !!!insert-element ($token->{tag_name}, $token->{attributes});                !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
4420                $self->{insertion_mode} = IN_CELL_IM;                $self->{insertion_mode} = IN_CELL_IM;
4421    
4422                push @$active_formatting_elements, ['#marker', ''];                push @$active_formatting_elements, ['#marker', ''];
# Line 4351  sub _tree_construction_main ($) { Line 4451  sub _tree_construction_main ($) {
4451                  unless (defined $i) {                  unless (defined $i) {
4452                   !!!cp ('t210');                   !!!cp ('t210');
4453  ## TODO: This type is wrong.  ## TODO: This type is wrong.
4454                   !!!parse-error (type => 'unmacthed end tag:'.$token->{tag_name});                   !!!parse-error (type => 'unmacthed end tag:'.$token->{tag_name}, token => $token);
4455                    ## Ignore the token                    ## Ignore the token
4456                    !!!next-token;                    !!!next-token;
4457                    redo B;                    redo B;
# Line 4363  sub _tree_construction_main ($) { Line 4463  sub _tree_construction_main ($) {
4463                  }->{$self->{open_elements}->[-1]->[1]}) {                  }->{$self->{open_elements}->[-1]->[1]}) {
4464                    !!!cp ('t211');                    !!!cp ('t211');
4465                    ## ISSUE: Can this case be reached?                    ## ISSUE: Can this case be reached?
                   !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
4466                    pop @{$self->{open_elements}};                    pop @{$self->{open_elements}};
4467                  }                  }
4468                                    
# Line 4400  sub _tree_construction_main ($) { Line 4499  sub _tree_construction_main ($) {
4499                  unless (defined $i) {                  unless (defined $i) {
4500                    !!!cp ('t216');                    !!!cp ('t216');
4501  ## TODO: This erorr type ios wrong.  ## TODO: This erorr type ios wrong.
4502                    !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                    !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
4503                    ## Ignore the token                    ## Ignore the token
4504                    !!!next-token;                    !!!next-token;
4505                    redo B;                    redo B;
# Line 4412  sub _tree_construction_main ($) { Line 4511  sub _tree_construction_main ($) {
4511                  }->{$self->{open_elements}->[-1]->[1]}) {                  }->{$self->{open_elements}->[-1]->[1]}) {
4512                    !!!cp ('t217');                    !!!cp ('t217');
4513                    ## ISSUE: Can this state be reached?                    ## ISSUE: Can this state be reached?
                   !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
4514                    pop @{$self->{open_elements}};                    pop @{$self->{open_elements}};
4515                  }                  }
4516                                    
# Line 4436  sub _tree_construction_main ($) { Line 4534  sub _tree_construction_main ($) {
4534                         $self->{open_elements}->[-1]->[1] ne 'html') {                         $self->{open_elements}->[-1]->[1] ne 'html') {
4535                    !!!cp ('t219');                    !!!cp ('t219');
4536                    ## ISSUE: Can this state be reached?                    ## ISSUE: Can this state be reached?
                   !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
4537                    pop @{$self->{open_elements}};                    pop @{$self->{open_elements}};
4538                  }                  }
4539                                    
4540                  !!!insert-element ('colgroup');                  !!!insert-element ('colgroup',, $token);
4541                  $self->{insertion_mode} = IN_COLUMN_GROUP_IM;                  $self->{insertion_mode} = IN_COLUMN_GROUP_IM;
4542                  ## reprocess                  ## reprocess
4543                  redo B;                  redo B;
# Line 4454  sub _tree_construction_main ($) { Line 4551  sub _tree_construction_main ($) {
4551                         $self->{open_elements}->[-1]->[1] ne 'html') {                         $self->{open_elements}->[-1]->[1] ne 'html') {
4552                    !!!cp ('t220');                    !!!cp ('t220');
4553                    ## ISSUE: Can this state be reached?                    ## ISSUE: Can this state be reached?
                   !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
4554                    pop @{$self->{open_elements}};                    pop @{$self->{open_elements}};
4555                  }                  }
4556                                    
4557                  push @$active_formatting_elements, ['#marker', '']                  push @$active_formatting_elements, ['#marker', '']
4558                      if $token->{tag_name} eq 'caption';                      if $token->{tag_name} eq 'caption';
4559                                    
4560                  !!!insert-element ($token->{tag_name}, $token->{attributes});                  !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
4561                  $self->{insertion_mode} = {                  $self->{insertion_mode} = {
4562                                             caption => IN_CAPTION_IM,                                             caption => IN_CAPTION_IM,
4563                                             colgroup => IN_COLUMN_GROUP_IM,                                             colgroup => IN_COLUMN_GROUP_IM,
# Line 4475  sub _tree_construction_main ($) { Line 4571  sub _tree_construction_main ($) {
4571                  die "$0: in table: <>: $token->{tag_name}";                  die "$0: in table: <>: $token->{tag_name}";
4572                }                }
4573              } elsif ($token->{tag_name} eq 'table') {              } elsif ($token->{tag_name} eq 'table') {
4574                !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1], token => $token);
4575    
4576                ## As if </table>                ## As if </table>
4577                ## have a table element in table scope                ## have a table element in table scope
# Line 4497  sub _tree_construction_main ($) { Line 4593  sub _tree_construction_main ($) {
4593                unless (defined $i) {                unless (defined $i) {
4594                  !!!cp ('t223');                  !!!cp ('t223');
4595  ## TODO: The following is wrong, maybe.  ## TODO: The following is wrong, maybe.
4596                  !!!parse-error (type => 'unmatched end tag:table');                  !!!parse-error (type => 'unmatched end tag:table', token => $token);
4597                  ## Ignore tokens </table><table>                  ## Ignore tokens </table><table>
4598                  !!!next-token;                  !!!next-token;
4599                  redo B;                  redo B;
4600                }                }
4601                                
4602    ## TODO: Followings are removed from the latest spec.
4603                ## generate implied end tags                ## generate implied end tags
4604                if ({                while ({
4605                     dd => 1, dt => 1, li => 1, p => 1,                        dd => 1, dt => 1, li => 1, p => 1,
4606                     td => 1, th => 1, tr => 1,                       }->{$self->{open_elements}->[-1]->[1]}) {
                    tbody => 1, tfoot=> 1, thead => 1,  
                   }->{$self->{open_elements}->[-1]->[1]}) {  
4607                  !!!cp ('t224');                  !!!cp ('t224');
4608                  !!!back-token; # <table>                  pop @{$self->{open_elements}};
                 $token = {type => END_TAG_TOKEN, tag_name => 'table'};  
                 !!!back-token;  
                 $token = {type => END_TAG_TOKEN,  
                           tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                 redo B;  
4609                }                }
4610    
4611                if ($self->{open_elements}->[-1]->[1] ne 'table') {                if ($self->{open_elements}->[-1]->[1] ne 'table') {
4612                  !!!cp ('t225');                  !!!cp ('t225');
4613  ## ISSUE: Can this case be reached?  ## ISSUE: Can this case be reached?
4614                  !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                  !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1], token => $token);
4615                } else {                } else {
4616                  !!!cp ('t226');                  !!!cp ('t226');
4617                }                }
4618    
4619                splice @{$self->{open_elements}}, $i;                splice @{$self->{open_elements}}, $i;
4620                  pop @{$open_tables};
4621    
4622                $self->_reset_insertion_mode;                $self->_reset_insertion_mode;
4623    
4624                ## reprocess                ## reprocess
4625                redo B;                redo B;
4626            } elsif ($token->{tag_name} eq 'style') {
4627              if (not $open_tables->[-1]->[1]) { # tainted
4628                !!!cp ('t227.8');
4629                ## NOTE: This is a "as if in head" code clone.
4630                $parse_rcdata->(CDATA_CONTENT_MODEL);
4631                redo B;
4632              } else {
4633                !!!cp ('t227.7');
4634                #
4635              }
4636            } elsif ($token->{tag_name} eq 'script') {
4637              if (not $open_tables->[-1]->[1]) { # tainted
4638                !!!cp ('t227.6');
4639                ## NOTE: This is a "as if in head" code clone.
4640                $script_start_tag->();
4641                redo B;
4642              } else {
4643                !!!cp ('t227.5');
4644                #
4645              }
4646            } elsif ($token->{tag_name} eq 'input') {
4647              if (not $open_tables->[-1]->[1]) { # tainted
4648                if ($token->{attributes}->{type}) { ## TODO: case
4649                  my $type = lc $token->{attributes}->{type}->{value};
4650                  if ($type eq 'hidden') {
4651                    !!!cp ('t227.3');
4652                    !!!parse-error (type => 'in table:'.$token->{tag_name}, token => $token);
4653    
4654                    !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
4655    
4656                    ## TODO: form element pointer
4657    
4658                    pop @{$self->{open_elements}};
4659    
4660                    !!!next-token;
4661                    redo B;
4662                  } else {
4663                    !!!cp ('t227.2');
4664                    #
4665                  }
4666                } else {
4667                  !!!cp ('t227.1');
4668                  #
4669                }
4670              } else {
4671                !!!cp ('t227.4');
4672                #
4673              }
4674          } else {          } else {
4675            !!!cp ('t227');            !!!cp ('t227');
           !!!parse-error (type => 'in table:'.$token->{tag_name});  
   
           $insert = $insert_to_foster;  
4676            #            #
4677          }          }
4678    
4679            !!!parse-error (type => 'in table:'.$token->{tag_name}, token => $token);
4680    
4681            $insert = $insert_to_foster;
4682            #
4683        } elsif ($token->{type} == END_TAG_TOKEN) {        } elsif ($token->{type} == END_TAG_TOKEN) {
4684              if ($token->{tag_name} eq 'tr' and              if ($token->{tag_name} eq 'tr' and
4685                  $self->{insertion_mode} == IN_ROW_IM) {                  $self->{insertion_mode} == IN_ROW_IM) {
# Line 4559  sub _tree_construction_main ($) { Line 4700  sub _tree_construction_main ($) {
4700                } # INSCOPE                } # INSCOPE
4701                unless (defined $i) {                unless (defined $i) {
4702                  !!!cp ('t230');                  !!!cp ('t230');
4703                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
4704                  ## Ignore the token                  ## Ignore the token
4705                  !!!next-token;                  !!!next-token;
4706                  redo B;                  redo B;
# Line 4573  sub _tree_construction_main ($) { Line 4714  sub _tree_construction_main ($) {
4714                }->{$self->{open_elements}->[-1]->[1]}) {                }->{$self->{open_elements}->[-1]->[1]}) {
4715                  !!!cp ('t231');                  !!!cp ('t231');
4716  ## ISSUE: Can this state be reached?  ## ISSUE: Can this state be reached?
                 !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
4717                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
4718                }                }
4719    
# Line 4602  sub _tree_construction_main ($) { Line 4742  sub _tree_construction_main ($) {
4742                  unless (defined $i) {                  unless (defined $i) {
4743                    !!!cp ('t235');                    !!!cp ('t235');
4744  ## TODO: The following is wrong.  ## TODO: The following is wrong.
4745                    !!!parse-error (type => 'unmatched end tag:'.$token->{type});                    !!!parse-error (type => 'unmatched end tag:'.$token->{type}, token => $token);
4746                    ## Ignore the token                    ## Ignore the token
4747                    !!!next-token;                    !!!next-token;
4748                    redo B;                    redo B;
# Line 4614  sub _tree_construction_main ($) { Line 4754  sub _tree_construction_main ($) {
4754                  }->{$self->{open_elements}->[-1]->[1]}) {                  }->{$self->{open_elements}->[-1]->[1]}) {
4755                    !!!cp ('t236');                    !!!cp ('t236');
4756  ## ISSUE: Can this state be reached?  ## ISSUE: Can this state be reached?
                   !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
4757                    pop @{$self->{open_elements}};                    pop @{$self->{open_elements}};
4758                  }                  }
4759                                    
# Line 4643  sub _tree_construction_main ($) { Line 4782  sub _tree_construction_main ($) {
4782                  } # INSCOPE                  } # INSCOPE
4783                  unless (defined $i) {                  unless (defined $i) {
4784                    !!!cp ('t239');                    !!!cp ('t239');
4785                    !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                    !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
4786                    ## Ignore the token                    ## Ignore the token
4787                    !!!next-token;                    !!!next-token;
4788                    redo B;                    redo B;
# Line 4654  sub _tree_construction_main ($) { Line 4793  sub _tree_construction_main ($) {
4793                    tbody => 1, tfoot => 1, thead => 1, html => 1,                    tbody => 1, tfoot => 1, thead => 1, html => 1,
4794                  }->{$self->{open_elements}->[-1]->[1]}) {                  }->{$self->{open_elements}->[-1]->[1]}) {
4795                    !!!cp ('t240');                    !!!cp ('t240');
                   !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
4796                    pop @{$self->{open_elements}};                    pop @{$self->{open_elements}};
4797                  }                  }
4798                                    
# Line 4670  sub _tree_construction_main ($) { Line 4808  sub _tree_construction_main ($) {
4808                  ## reprocess in the "in table" insertion mode...                  ## reprocess in the "in table" insertion mode...
4809                }                }
4810    
4811                  ## NOTE: </table> in the "in table" insertion mode.
4812                  ## When you edit the code fragment below, please ensure that
4813                  ## the code for <table> in the "in table" insertion mode
4814                  ## is synced with it.
4815    
4816                ## have a table element in table scope                ## have a table element in table scope
4817                my $i;                my $i;
4818                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
# Line 4687  sub _tree_construction_main ($) { Line 4830  sub _tree_construction_main ($) {
4830                } # INSCOPE                } # INSCOPE
4831                unless (defined $i) {                unless (defined $i) {
4832                  !!!cp ('t243');                  !!!cp ('t243');
4833                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
4834                  ## Ignore the token                  ## Ignore the token
4835                  !!!next-token;                  !!!next-token;
4836                  redo B;                  redo B;
4837                }                }
   
               ## generate implied end tags  
               if ({  
                    dd => 1, dt => 1, li => 1, p => 1,  
                    td => 1, th => 1, tr => 1,  
                    tbody => 1, tfoot=> 1, thead => 1,  
                   }->{$self->{open_elements}->[-1]->[1]}) {  
                 !!!cp ('t244');  
 ## ISSUE: Can this case be reached?  
                 !!!back-token;  
                 $token = {type => END_TAG_TOKEN,  
                           tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                 redo B;  
               }  
                 
               if ($self->{open_elements}->[-1]->[1] ne 'table') {  
                 !!!cp ('t245');  
                 !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
               } else {  
                 !!!cp ('t246');  
               }  
4838                                    
4839                splice @{$self->{open_elements}}, $i;                splice @{$self->{open_elements}}, $i;
4840                  pop @{$open_tables};
4841                                
4842                $self->_reset_insertion_mode;                $self->_reset_insertion_mode;
4843                                
# Line 4742  sub _tree_construction_main ($) { Line 4865  sub _tree_construction_main ($) {
4865                  } # INSCOPE                  } # INSCOPE
4866                    unless (defined $i) {                    unless (defined $i) {
4867                      !!!cp ('t249');                      !!!cp ('t249');
4868                      !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                      !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
4869                      ## Ignore the token                      ## Ignore the token
4870                      !!!next-token;                      !!!next-token;
4871                      redo B;                      redo B;
# Line 4766  sub _tree_construction_main ($) { Line 4889  sub _tree_construction_main ($) {
4889                  } # INSCOPE                  } # INSCOPE
4890                    unless (defined $i) {                    unless (defined $i) {
4891                      !!!cp ('t252');                      !!!cp ('t252');
4892                      !!!parse-error (type => 'unmatched end tag:tr');                      !!!parse-error (type => 'unmatched end tag:tr', token => $token);
4893                      ## Ignore the token                      ## Ignore the token
4894                      !!!next-token;                      !!!next-token;
4895                      redo B;                      redo B;
# Line 4778  sub _tree_construction_main ($) { Line 4901  sub _tree_construction_main ($) {
4901                  }->{$self->{open_elements}->[-1]->[1]}) {                  }->{$self->{open_elements}->[-1]->[1]}) {
4902                    !!!cp ('t253');                    !!!cp ('t253');
4903  ## ISSUE: Can this case be reached?  ## ISSUE: Can this case be reached?
                   !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
4904                    pop @{$self->{open_elements}};                    pop @{$self->{open_elements}};
4905                  }                  }
4906                                    
# Line 4804  sub _tree_construction_main ($) { Line 4926  sub _tree_construction_main ($) {
4926                } # INSCOPE                } # INSCOPE
4927                unless (defined $i) {                unless (defined $i) {
4928                  !!!cp ('t256');                  !!!cp ('t256');
4929                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
4930                  ## Ignore the token                  ## Ignore the token
4931                  !!!next-token;                  !!!next-token;
4932                  redo B;                  redo B;
# Line 4816  sub _tree_construction_main ($) { Line 4938  sub _tree_construction_main ($) {
4938                }->{$self->{open_elements}->[-1]->[1]}) {                }->{$self->{open_elements}->[-1]->[1]}) {
4939                  !!!cp ('t257');                  !!!cp ('t257');
4940  ## ISSUE: Can this case be reached?  ## ISSUE: Can this case be reached?
                 !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
4941                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
4942                }                }
4943    
# Line 4831  sub _tree_construction_main ($) { Line 4952  sub _tree_construction_main ($) {
4952                        tbody => 1, tfoot => 1, thead => 1, # $self->{insertion_mode} == IN_TABLE_IM                        tbody => 1, tfoot => 1, thead => 1, # $self->{insertion_mode} == IN_TABLE_IM
4953                       }->{$token->{tag_name}}) {                       }->{$token->{tag_name}}) {
4954                !!!cp ('t258');                !!!cp ('t258');
4955                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
4956                ## Ignore the token                ## Ignore the token
4957                !!!next-token;                !!!next-token;
4958                redo B;                redo B;
4959          } else {          } else {
4960            !!!cp ('t259');            !!!cp ('t259');
4961            !!!parse-error (type => 'in table:/'.$token->{tag_name});            !!!parse-error (type => 'in table:/'.$token->{tag_name}, token => $token);
4962    
4963            $insert = $insert_to_foster;            $insert = $insert_to_foster;
4964            #            #
4965          }          }
4966          } elsif ($token->{type} == END_OF_FILE_TOKEN) {
4967            unless ($self->{open_elements}->[-1]->[1] eq 'html' and
4968                    @{$self->{open_elements}} == 1) { # redundant, maybe
4969              !!!parse-error (type => 'in body:#eof', token => $token);
4970              !!!cp ('t259.1');
4971              #
4972            } else {
4973              !!!cp ('t259.2');
4974              #
4975            }
4976    
4977            ## Stop parsing
4978            last B;
4979        } else {        } else {
4980          die "$0: $token->{type}: Unknown token type";          die "$0: $token->{type}: Unknown token type";
4981        }        }
# Line 4861  sub _tree_construction_main ($) { Line 4995  sub _tree_construction_main ($) {
4995            } elsif ($token->{type} == START_TAG_TOKEN) {            } elsif ($token->{type} == START_TAG_TOKEN) {
4996              if ($token->{tag_name} eq 'col') {              if ($token->{tag_name} eq 'col') {
4997                !!!cp ('t262');                !!!cp ('t262');
4998                !!!insert-element ($token->{tag_name}, $token->{attributes});                !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
4999                pop @{$self->{open_elements}};                pop @{$self->{open_elements}};
5000                !!!next-token;                !!!next-token;
5001                redo B;                redo B;
# Line 4873  sub _tree_construction_main ($) { Line 5007  sub _tree_construction_main ($) {
5007              if ($token->{tag_name} eq 'colgroup') {              if ($token->{tag_name} eq 'colgroup') {
5008                if ($self->{open_elements}->[-1]->[1] eq 'html') {                if ($self->{open_elements}->[-1]->[1] eq 'html') {
5009                  !!!cp ('t264');                  !!!cp ('t264');
5010                  !!!parse-error (type => 'unmatched end tag:colgroup');                  !!!parse-error (type => 'unmatched end tag:colgroup', token => $token);
5011                  ## Ignore the token                  ## Ignore the token
5012                  !!!next-token;                  !!!next-token;
5013                  redo B;                  redo B;
# Line 4886  sub _tree_construction_main ($) { Line 5020  sub _tree_construction_main ($) {
5020                }                }
5021              } elsif ($token->{tag_name} eq 'col') {              } elsif ($token->{tag_name} eq 'col') {
5022                !!!cp ('t266');                !!!cp ('t266');
5023                !!!parse-error (type => 'unmatched end tag:col');                !!!parse-error (type => 'unmatched end tag:col', token => $token);
5024                ## Ignore the token                ## Ignore the token
5025                !!!next-token;                !!!next-token;
5026                redo B;                redo B;
# Line 4894  sub _tree_construction_main ($) { Line 5028  sub _tree_construction_main ($) {
5028                !!!cp ('t267');                !!!cp ('t267');
5029                #                #
5030              }              }
5031            } else {        } elsif ($token->{type} == END_OF_FILE_TOKEN) {
5032              die "$0: $token->{type}: Unknown token type";          if ($self->{open_elements}->[-1]->[1] eq 'html' or
5033            }              @{$self->{open_elements}} == 1) { # redundant, maybe
5034              !!!cp ('t270.2');
5035              ## Stop parsing.
5036              last B;
5037            } else {
5038              ## NOTE: As if </colgroup>.
5039              !!!cp ('t270.1');
5040              pop @{$self->{open_elements}}; # colgroup
5041              $self->{insertion_mode} = IN_TABLE_IM;
5042              ## Reprocess.
5043              redo B;
5044            }
5045          } else {
5046            die "$0: $token->{type}: Unknown token type";
5047          }
5048    
5049            ## As if </colgroup>            ## As if </colgroup>
5050            if ($self->{open_elements}->[-1]->[1] eq 'html') {            if ($self->{open_elements}->[-1]->[1] eq 'html') {
5051              !!!cp ('t269');              !!!cp ('t269');
5052              !!!parse-error (type => 'unmatched end tag:colgroup');  ## TODO: Wrong error type?
5053                !!!parse-error (type => 'unmatched end tag:colgroup', token => $token);
5054              ## Ignore the token              ## Ignore the token
5055              !!!next-token;              !!!next-token;
5056              redo B;              redo B;
# Line 4912  sub _tree_construction_main ($) { Line 5061  sub _tree_construction_main ($) {
5061              ## reprocess              ## reprocess
5062              redo B;              redo B;
5063            }            }
5064      } elsif ($self->{insertion_mode} == IN_SELECT_IM) {      } elsif ($self->{insertion_mode} & SELECT_IMS) {
5065        if ($token->{type} == CHARACTER_TOKEN) {        if ($token->{type} == CHARACTER_TOKEN) {
5066          !!!cp ('t271');          !!!cp ('t271');
5067          $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});          $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});
# Line 4928  sub _tree_construction_main ($) { Line 5077  sub _tree_construction_main ($) {
5077                  !!!cp ('t273');                  !!!cp ('t273');
5078                }                }
5079    
5080                !!!insert-element ($token->{tag_name}, $token->{attributes});                !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
5081                !!!next-token;                !!!next-token;
5082                redo B;                redo B;
5083              } elsif ($token->{tag_name} eq 'optgroup') {              } elsif ($token->{tag_name} eq 'optgroup') {
# Line 4948  sub _tree_construction_main ($) { Line 5097  sub _tree_construction_main ($) {
5097                  !!!cp ('t277');                  !!!cp ('t277');
5098                }                }
5099    
5100                !!!insert-element ($token->{tag_name}, $token->{attributes});                !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
5101                !!!next-token;                !!!next-token;
5102                redo B;                redo B;
5103              } elsif ($token->{tag_name} eq 'select') {          } elsif ($token->{tag_name} eq 'select' or
5104  ## TODO: The type below is not good - <select> is replaced by </select>                   $token->{tag_name} eq 'input' or
5105                !!!parse-error (type => 'not closed:select');                   ($self->{insertion_mode} == IN_SELECT_IN_TABLE_IM and
5106                ## As if </select> instead                    {
5107                       caption => 1, table => 1,
5108                       tbody => 1, tfoot => 1, thead => 1,
5109                       tr => 1, td => 1, th => 1,
5110                      }->{$token->{tag_name}})) {
5111              ## TODO: The type below is not good - <select> is replaced by </select>
5112              !!!parse-error (type => 'not closed:select', token => $token);
5113              ## NOTE: As if the token were </select> (<select> case) or
5114              ## as if there were </select> (otherwise).
5115                ## have an element in table scope                ## have an element in table scope
5116                my $i;                my $i;
5117                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
5118                  my $node = $self->{open_elements}->[$_];                  my $node = $self->{open_elements}->[$_];
5119                  if ($node->[1] eq $token->{tag_name}) {                  if ($node->[1] eq 'select') {
5120                    !!!cp ('t278');                    !!!cp ('t278');
5121                    $i = $_;                    $i = $_;
5122                    last INSCOPE;                    last INSCOPE;
# Line 4972  sub _tree_construction_main ($) { Line 5129  sub _tree_construction_main ($) {
5129                } # INSCOPE                } # INSCOPE
5130                unless (defined $i) {                unless (defined $i) {
5131                  !!!cp ('t280');                  !!!cp ('t280');
5132                  !!!parse-error (type => 'unmatched end tag:select');                  !!!parse-error (type => 'unmatched end tag:select', token => $token);
5133                  ## Ignore the token                  ## Ignore the token
5134                  !!!next-token;                  !!!next-token;
5135                  redo B;                  redo B;
# Line 4983  sub _tree_construction_main ($) { Line 5140  sub _tree_construction_main ($) {
5140    
5141                $self->_reset_insertion_mode;                $self->_reset_insertion_mode;
5142    
5143                !!!next-token;            if ($token->{tag_name} eq 'select') {
5144                redo B;              !!!cp ('t281.2');
5145                !!!next-token;
5146                redo B;
5147              } else {
5148                !!!cp ('t281.1');
5149                ## Reprocess the token.
5150                redo B;
5151              }
5152          } else {          } else {
5153            !!!cp ('t282');            !!!cp ('t282');
5154            !!!parse-error (type => 'in select:'.$token->{tag_name});            !!!parse-error (type => 'in select:'.$token->{tag_name}, token => $token);
5155            ## Ignore the token            ## Ignore the token
5156            !!!next-token;            !!!next-token;
5157            redo B;            redo B;
# Line 5004  sub _tree_construction_main ($) { Line 5168  sub _tree_construction_main ($) {
5168                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
5169                } else {                } else {
5170                  !!!cp ('t285');                  !!!cp ('t285');
5171                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
5172                  ## Ignore the token                  ## Ignore the token
5173                }                }
5174                !!!next-token;                !!!next-token;
# Line 5015  sub _tree_construction_main ($) { Line 5179  sub _tree_construction_main ($) {
5179                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
5180                } else {                } else {
5181                  !!!cp ('t287');                  !!!cp ('t287');
5182                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
5183                  ## Ignore the token                  ## Ignore the token
5184                }                }
5185                !!!next-token;                !!!next-token;
# Line 5038  sub _tree_construction_main ($) { Line 5202  sub _tree_construction_main ($) {
5202                } # INSCOPE                } # INSCOPE
5203                unless (defined $i) {                unless (defined $i) {
5204                  !!!cp ('t290');                  !!!cp ('t290');
5205                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
5206                  ## Ignore the token                  ## Ignore the token
5207                  !!!next-token;                  !!!next-token;
5208                  redo B;                  redo B;
# Line 5051  sub _tree_construction_main ($) { Line 5215  sub _tree_construction_main ($) {
5215    
5216                !!!next-token;                !!!next-token;
5217                redo B;                redo B;
5218              } elsif ({          } elsif ($self->{insertion_mode} == IN_SELECT_IN_TABLE_IM and
5219                        caption => 1, table => 1, tbody => 1,                   {
5220                        tfoot => 1, thead => 1, tr => 1, td => 1, th => 1,                    caption => 1, table => 1, tbody => 1,
5221                       }->{$token->{tag_name}}) {                    tfoot => 1, thead => 1, tr => 1, td => 1, th => 1,
5222                     }->{$token->{tag_name}}) {
5223  ## TODO: The following is wrong?  ## TODO: The following is wrong?
5224                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
5225                                
5226                ## have an element in table scope                ## have an element in table scope
5227                my $i;                my $i;
# Line 5100  sub _tree_construction_main ($) { Line 5265  sub _tree_construction_main ($) {
5265                unless (defined $i) {                unless (defined $i) {
5266                  !!!cp ('t297');                  !!!cp ('t297');
5267  ## TODO: The following error type is correct?  ## TODO: The following error type is correct?
5268                  !!!parse-error (type => 'unmatched end tag:select');                  !!!parse-error (type => 'unmatched end tag:select', token => $token);
5269                  ## Ignore the </select> token                  ## Ignore the </select> token
5270                  !!!next-token; ## TODO: ok?                  !!!next-token; ## TODO: ok?
5271                  redo B;                  redo B;
# Line 5115  sub _tree_construction_main ($) { Line 5280  sub _tree_construction_main ($) {
5280                redo B;                redo B;
5281          } else {          } else {
5282            !!!cp ('t299');            !!!cp ('t299');
5283            !!!parse-error (type => 'in select:/'.$token->{tag_name});            !!!parse-error (type => 'in select:/'.$token->{tag_name}, token => $token);
5284            ## Ignore the token            ## Ignore the token
5285            !!!next-token;            !!!next-token;
5286            redo B;            redo B;
5287          }          }
5288          } elsif ($token->{type} == END_OF_FILE_TOKEN) {
5289            unless ($self->{open_elements}->[-1]->[1] eq 'html' and
5290                    @{$self->{open_elements}} == 1) { # redundant, maybe
5291              !!!cp ('t299.1');
5292              !!!parse-error (type => 'in body:#eof', token => $token);
5293            } else {
5294              !!!cp ('t299.2');
5295            }
5296    
5297            ## Stop parsing.
5298            last B;
5299        } else {        } else {
5300          die "$0: $token->{type}: Unknown token type";          die "$0: $token->{type}: Unknown token type";
5301        }        }
# Line 5141  sub _tree_construction_main ($) { Line 5317  sub _tree_construction_main ($) {
5317                    
5318          if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {          if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {
5319            !!!cp ('t301');            !!!cp ('t301');
5320            !!!parse-error (type => 'after html:#character');            !!!parse-error (type => 'after html:#character', token => $token);
5321    
5322            ## Reprocess in the "after body" insertion mode.            ## Reprocess in the "after body" insertion mode.
5323          } else {          } else {
# Line 5149  sub _tree_construction_main ($) { Line 5325  sub _tree_construction_main ($) {
5325          }          }
5326                    
5327          ## "after body" insertion mode          ## "after body" insertion mode
5328          !!!parse-error (type => 'after body:#character');          !!!parse-error (type => 'after body:#character', token => $token);
5329    
5330          $self->{insertion_mode} = IN_BODY_IM;          $self->{insertion_mode} = IN_BODY_IM;
5331          ## reprocess          ## reprocess
# Line 5157  sub _tree_construction_main ($) { Line 5333  sub _tree_construction_main ($) {
5333        } elsif ($token->{type} == START_TAG_TOKEN) {        } elsif ($token->{type} == START_TAG_TOKEN) {
5334          if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {          if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {
5335            !!!cp ('t303');            !!!cp ('t303');
5336            !!!parse-error (type => 'after html:'.$token->{tag_name});            !!!parse-error (type => 'after html:'.$token->{tag_name}, token => $token);
5337                        
5338            ## Reprocess in the "after body" insertion mode.            ## Reprocess in the "after body" insertion mode.
5339          } else {          } else {
# Line 5165  sub _tree_construction_main ($) { Line 5341  sub _tree_construction_main ($) {
5341          }          }
5342    
5343          ## "after body" insertion mode          ## "after body" insertion mode
5344          !!!parse-error (type => 'after body:'.$token->{tag_name});          !!!parse-error (type => 'after body:'.$token->{tag_name}, token => $token);
5345    
5346          $self->{insertion_mode} = IN_BODY_IM;          $self->{insertion_mode} = IN_BODY_IM;
5347          ## reprocess          ## reprocess
# Line 5173  sub _tree_construction_main ($) { Line 5349  sub _tree_construction_main ($) {
5349        } elsif ($token->{type} == END_TAG_TOKEN) {        } elsif ($token->{type} == END_TAG_TOKEN) {
5350          if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {          if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {
5351            !!!cp ('t305');            !!!cp ('t305');
5352            !!!parse-error (type => 'after html:/'.$token->{tag_name});            !!!parse-error (type => 'after html:/'.$token->{tag_name}, token => $token);
5353                        
5354            $self->{insertion_mode} = AFTER_BODY_IM;            $self->{insertion_mode} = AFTER_BODY_IM;
5355            ## Reprocess in the "after body" insertion mode.            ## Reprocess in the "after body" insertion mode.
# Line 5185  sub _tree_construction_main ($) { Line 5361  sub _tree_construction_main ($) {
5361          if ($token->{tag_name} eq 'html') {          if ($token->{tag_name} eq 'html') {
5362            if (defined $self->{inner_html_node}) {            if (defined $self->{inner_html_node}) {
5363              !!!cp ('t307');              !!!cp ('t307');
5364              !!!parse-error (type => 'unmatched end tag:html');              !!!parse-error (type => 'unmatched end tag:html', token => $token);
5365              ## Ignore the token              ## Ignore the token
5366              !!!next-token;              !!!next-token;
5367              redo B;              redo B;
# Line 5197  sub _tree_construction_main ($) { Line 5373  sub _tree_construction_main ($) {
5373            }            }
5374          } else {          } else {
5375            !!!cp ('t309');            !!!cp ('t309');
5376            !!!parse-error (type => 'after body:/'.$token->{tag_name});            !!!parse-error (type => 'after body:/'.$token->{tag_name}, token => $token);
5377    
5378            $self->{insertion_mode} = IN_BODY_IM;            $self->{insertion_mode} = IN_BODY_IM;
5379            ## reprocess            ## reprocess
5380            redo B;            redo B;
5381          }          }
5382          } elsif ($token->{type} == END_OF_FILE_TOKEN) {
5383            !!!cp ('t309.2');
5384            ## Stop parsing
5385            last B;
5386        } else {        } else {
5387          die "$0: $token->{type}: Unknown token type";          die "$0: $token->{type}: Unknown token type";
5388        }        }
# Line 5221  sub _tree_construction_main ($) { Line 5401  sub _tree_construction_main ($) {
5401          if ($token->{data} =~ s/^[^\x09\x0A\x0B\x0C\x20]+//) {          if ($token->{data} =~ s/^[^\x09\x0A\x0B\x0C\x20]+//) {
5402            if ($self->{insertion_mode} == IN_FRAMESET_IM) {            if ($self->{insertion_mode} == IN_FRAMESET_IM) {
5403              !!!cp ('t311');              !!!cp ('t311');
5404              !!!parse-error (type => 'in frameset:#character');              !!!parse-error (type => 'in frameset:#character', token => $token);
5405            } elsif ($self->{insertion_mode} == AFTER_FRAMESET_IM) {            } elsif ($self->{insertion_mode} == AFTER_FRAMESET_IM) {
5406              !!!cp ('t312');              !!!cp ('t312');
5407              !!!parse-error (type => 'after frameset:#character');              !!!parse-error (type => 'after frameset:#character', token => $token);
5408            } else { # "after html frameset"            } else { # "after html frameset"
5409              !!!cp ('t313');              !!!cp ('t313');
5410              !!!parse-error (type => 'after html:#character');              !!!parse-error (type => 'after html:#character', token => $token);
5411    
5412              $self->{insertion_mode} = AFTER_FRAMESET_IM;              $self->{insertion_mode} = AFTER_FRAMESET_IM;
5413              ## Reprocess in the "after frameset" insertion mode.              ## Reprocess in the "after frameset" insertion mode.
5414              !!!parse-error (type => 'after frameset:#character');              !!!parse-error (type => 'after frameset:#character', token => $token);
5415            }            }
5416                        
5417            ## Ignore the token.            ## Ignore the token.
# Line 5249  sub _tree_construction_main ($) { Line 5429  sub _tree_construction_main ($) {
5429        } elsif ($token->{type} == START_TAG_TOKEN) {        } elsif ($token->{type} == START_TAG_TOKEN) {
5430          if ($self->{insertion_mode} == AFTER_HTML_FRAMESET_IM) {          if ($self->{insertion_mode} == AFTER_HTML_FRAMESET_IM) {
5431            !!!cp ('t316');            !!!cp ('t316');
5432            !!!parse-error (type => 'after html:'.$token->{tag_name});            !!!parse-error (type => 'after html:'.$token->{tag_name}, token => $token);
5433    
5434            $self->{insertion_mode} = AFTER_FRAMESET_IM;            $self->{insertion_mode} = AFTER_FRAMESET_IM;
5435            ## Process in the "after frameset" insertion mode.            ## Process in the "after frameset" insertion mode.
# Line 5260  sub _tree_construction_main ($) { Line 5440  sub _tree_construction_main ($) {
5440          if ($token->{tag_name} eq 'frameset' and          if ($token->{tag_name} eq 'frameset' and
5441              $self->{insertion_mode} == IN_FRAMESET_IM) {              $self->{insertion_mode} == IN_FRAMESET_IM) {
5442            !!!cp ('t318');            !!!cp ('t318');
5443            !!!insert-element ($token->{tag_name}, $token->{attributes});            !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
5444            !!!next-token;            !!!next-token;
5445            redo B;            redo B;
5446          } elsif ($token->{tag_name} eq 'frame' and          } elsif ($token->{tag_name} eq 'frame' and
5447                   $self->{insertion_mode} == IN_FRAMESET_IM) {                   $self->{insertion_mode} == IN_FRAMESET_IM) {
5448            !!!cp ('t319');            !!!cp ('t319');
5449            !!!insert-element ($token->{tag_name}, $token->{attributes});            !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
5450            pop @{$self->{open_elements}};            pop @{$self->{open_elements}};
5451            !!!next-token;            !!!next-token;
5452            redo B;            redo B;
5453          } elsif ($token->{tag_name} eq 'noframes') {          } elsif ($token->{tag_name} eq 'noframes') {
5454            !!!cp ('t320');            !!!cp ('t320');
5455            ## NOTE: As if in body.            ## NOTE: As if in body.
5456            $parse_rcdata->(CDATA_CONTENT_MODEL, $insert_to_current);            $parse_rcdata->(CDATA_CONTENT_MODEL);
5457            redo B;            redo B;
5458          } else {          } else {
5459            if ($self->{insertion_mode} == IN_FRAMESET_IM) {            if ($self->{insertion_mode} == IN_FRAMESET_IM) {
5460              !!!cp ('t321');              !!!cp ('t321');
5461              !!!parse-error (type => 'in frameset:'.$token->{tag_name});              !!!parse-error (type => 'in frameset:'.$token->{tag_name}, token => $token);
5462            } else {            } else {
5463              !!!cp ('t322');              !!!cp ('t322');
5464              !!!parse-error (type => 'after frameset:'.$token->{tag_name});              !!!parse-error (type => 'after frameset:'.$token->{tag_name}, token => $token);
5465            }            }
5466            ## Ignore the token            ## Ignore the token
5467            !!!next-token;            !!!next-token;
# Line 5290  sub _tree_construction_main ($) { Line 5470  sub _tree_construction_main ($) {
5470        } elsif ($token->{type} == END_TAG_TOKEN) {        } elsif ($token->{type} == END_TAG_TOKEN) {
5471          if ($self->{insertion_mode} == AFTER_HTML_FRAMESET_IM) {          if ($self->{insertion_mode} == AFTER_HTML_FRAMESET_IM) {
5472            !!!cp ('t323');            !!!cp ('t323');
5473            !!!parse-error (type => 'after html:/'.$token->{tag_name});            !!!parse-error (type => 'after html:/'.$token->{tag_name}, token => $token);
5474    
5475            $self->{insertion_mode} = AFTER_FRAMESET_IM;            $self->{insertion_mode} = AFTER_FRAMESET_IM;
5476            ## Process in the "after frameset" insertion mode.            ## Process in the "after frameset" insertion mode.
# Line 5303  sub _tree_construction_main ($) { Line 5483  sub _tree_construction_main ($) {
5483            if ($self->{open_elements}->[-1]->[1] eq 'html' and            if ($self->{open_elements}->[-1]->[1] eq 'html' and
5484                @{$self->{open_elements}} == 1) {                @{$self->{open_elements}} == 1) {
5485              !!!cp ('t325');              !!!cp ('t325');
5486              !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});              !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
5487              ## Ignore the token              ## Ignore the token
5488              !!!next-token;              !!!next-token;
5489            } else {            } else {
# Line 5329  sub _tree_construction_main ($) { Line 5509  sub _tree_construction_main ($) {
5509          } else {          } else {
5510            if ($self->{insertion_mode} == IN_FRAMESET_IM) {            if ($self->{insertion_mode} == IN_FRAMESET_IM) {
5511              !!!cp ('t330');              !!!cp ('t330');
5512              !!!parse-error (type => 'in frameset:/'.$token->{tag_name});              !!!parse-error (type => 'in frameset:/'.$token->{tag_name}, token => $token);
5513            } else {            } else {
5514              !!!cp ('t331');              !!!cp ('t331');
5515              !!!parse-error (type => 'after frameset:/'.$token->{tag_name});              !!!parse-error (type => 'after frameset:/'.$token->{tag_name}, token => $token);
5516            }            }
5517            ## Ignore the token            ## Ignore the token
5518            !!!next-token;            !!!next-token;
5519            redo B;            redo B;
5520          }          }
5521          } elsif ($token->{type} == END_OF_FILE_TOKEN) {
5522            unless ($self->{open_elements}->[-1]->[1] eq 'html' and
5523                    @{$self->{open_elements}} == 1) { # redundant, maybe
5524              !!!cp ('t331.1');
5525              !!!parse-error (type => 'in body:#eof', token => $token);
5526            } else {
5527              !!!cp ('t331.2');
5528            }
5529            
5530            ## Stop parsing
5531            last B;
5532        } else {        } else {
5533          die "$0: $token->{type}: Unknown token type";          die "$0: $token->{type}: Unknown token type";
5534        }        }
# Line 5352  sub _tree_construction_main ($) { Line 5543  sub _tree_construction_main ($) {
5543        if ($token->{tag_name} eq 'script') {        if ($token->{tag_name} eq 'script') {
5544          !!!cp ('t332');          !!!cp ('t332');
5545          ## NOTE: This is an "as if in head" code clone          ## NOTE: This is an "as if in head" code clone
5546          $script_start_tag->($insert);          $script_start_tag->();
5547          redo B;          redo B;
5548        } elsif ($token->{tag_name} eq 'style') {        } elsif ($token->{tag_name} eq 'style') {
5549          !!!cp ('t333');          !!!cp ('t333');
5550          ## NOTE: This is an "as if in head" code clone          ## NOTE: This is an "as if in head" code clone
5551          $parse_rcdata->(CDATA_CONTENT_MODEL, $insert);          $parse_rcdata->(CDATA_CONTENT_MODEL);
5552          redo B;          redo B;
5553        } elsif ({        } elsif ({
5554                  base => 1, link => 1,                  base => 1, link => 1,
5555                 }->{$token->{tag_name}}) {                 }->{$token->{tag_name}}) {
5556          !!!cp ('t334');          !!!cp ('t334');
5557          ## NOTE: This is an "as if in head" code clone, only "-t" differs          ## NOTE: This is an "as if in head" code clone, only "-t" differs
5558          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
5559          pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.          pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.
5560          !!!next-token;          !!!next-token;
5561          redo B;          redo B;
5562        } elsif ($token->{tag_name} eq 'meta') {        } elsif ($token->{tag_name} eq 'meta') {
5563          ## NOTE: This is an "as if in head" code clone, only "-t" differs          ## NOTE: This is an "as if in head" code clone, only "-t" differs
5564          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
5565          my $meta_el = pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.          my $meta_el = pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.
5566    
5567          unless ($self->{confident}) {          unless ($self->{confident}) {
5568            if ($token->{attributes}->{charset}) { ## TODO: And if supported            if ($token->{attributes}->{charset}) { ## TODO: And if supported
5569              !!!cp ('t335');              !!!cp ('t335');
5570              $self->{change_encoding}              $self->{change_encoding}
5571                  ->($self, $token->{attributes}->{charset}->{value});                  ->($self, $token->{attributes}->{charset}->{value}, $token);
5572                            
5573              $meta_el->[0]->get_attribute_node_ns (undef, 'charset')              $meta_el->[0]->get_attribute_node_ns (undef, 'charset')
5574                  ->set_user_data (manakai_has_reference =>                  ->set_user_data (manakai_has_reference =>
# Line 5392  sub _tree_construction_main ($) { Line 5583  sub _tree_construction_main ($) {
5583                      ([^"'\x09-\x0D\x20][^\x09-\x0D\x20]*))/x) {                      ([^"'\x09-\x0D\x20][^\x09-\x0D\x20]*))/x) {
5584                !!!cp ('t336');                !!!cp ('t336');
5585                $self->{change_encoding}                $self->{change_encoding}
5586                    ->($self, defined $1 ? $1 : defined $2 ? $2 : $3);                    ->($self, defined $1 ? $1 : defined $2 ? $2 : $3, $token);
5587                $meta_el->[0]->get_attribute_node_ns (undef, 'content')                $meta_el->[0]->get_attribute_node_ns (undef, 'content')
5588                    ->set_user_data (manakai_has_reference =>                    ->set_user_data (manakai_has_reference =>
5589                                         $token->{attributes}->{content}                                         $token->{attributes}->{content}
# Line 5420  sub _tree_construction_main ($) { Line 5611  sub _tree_construction_main ($) {
5611          redo B;          redo B;
5612        } elsif ($token->{tag_name} eq 'title') {        } elsif ($token->{tag_name} eq 'title') {
5613          !!!cp ('t341');          !!!cp ('t341');
         !!!parse-error (type => 'in body:title');  
5614          ## NOTE: This is an "as if in head" code clone          ## NOTE: This is an "as if in head" code clone
5615          $parse_rcdata->(RCDATA_CONTENT_MODEL, sub {          $parse_rcdata->(RCDATA_CONTENT_MODEL);
           if (defined $self->{head_element}) {  
             !!!cp ('t339');  
             $self->{head_element}->append_child ($_[0]);  
           } else {  
             !!!cp ('t340');  
             $insert->($_[0]);  
           }  
         });  
5616          redo B;          redo B;
5617        } elsif ($token->{tag_name} eq 'body') {        } elsif ($token->{tag_name} eq 'body') {
5618          !!!parse-error (type => 'in body:body');          !!!parse-error (type => 'in body:body', token => $token);
5619                                
5620          if (@{$self->{open_elements}} == 1 or          if (@{$self->{open_elements}} == 1 or
5621              $self->{open_elements}->[1]->[1] ne 'body') {              $self->{open_elements}->[1]->[1] ne 'body') {
# Line 5454  sub _tree_construction_main ($) { Line 5636  sub _tree_construction_main ($) {
5636          redo B;          redo B;
5637        } elsif ({        } elsif ({
5638                  address => 1, blockquote => 1, center => 1, dir => 1,                  address => 1, blockquote => 1, center => 1, dir => 1,
5639                  div => 1, dl => 1, fieldset => 1, listing => 1,                  div => 1, dl => 1, fieldset => 1,
5640                    h1 => 1, h2 => 1, h3 => 1, h4 => 1, h5 => 1, h6 => 1,
5641                  menu => 1, ol => 1, p => 1, ul => 1,                  menu => 1, ol => 1, p => 1, ul => 1,
5642                  pre => 1,                  pre => 1, listing => 1,
5643                    form => 1,
5644                    table => 1,
5645                    hr => 1,
5646                 }->{$token->{tag_name}}) {                 }->{$token->{tag_name}}) {
5647            if ($token->{tag_name} eq 'form' and defined $self->{form_element}) {
5648              !!!cp ('t350');
5649              !!!parse-error (type => 'in form:form', token => $token);
5650              ## Ignore the token
5651              !!!next-token;
5652              redo B;
5653            }
5654    
5655          ## has a p element in scope          ## has a p element in scope
5656          INSCOPE: for (reverse @{$self->{open_elements}}) {          INSCOPE: for (reverse @{$self->{open_elements}}) {
5657            if ($_->[1] eq 'p') {            if ($_->[1] eq 'p') {
5658              !!!cp ('t344');              !!!cp ('t344');
5659              !!!back-token;              !!!back-token;
5660              $token = {type => END_TAG_TOKEN, tag_name => 'p'};              $token = {type => END_TAG_TOKEN, tag_name => 'p',
5661                          line => $token->{line}, column => $token->{column}};
5662              redo B;              redo B;
5663            } elsif ({            } elsif ({
5664                      table => 1, caption => 1, td => 1, th => 1,                      applet => 1, table => 1, caption => 1, td => 1, th => 1,
5665                      button => 1, marquee => 1, object => 1, html => 1,                      button => 1, marquee => 1, object => 1, html => 1,
5666                     }->{$_->[1]}) {                     }->{$_->[1]}) {
5667              !!!cp ('t345');              !!!cp ('t345');
# Line 5474  sub _tree_construction_main ($) { Line 5669  sub _tree_construction_main ($) {
5669            }            }
5670          } # INSCOPE          } # INSCOPE
5671                        
5672          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
5673          if ($token->{tag_name} eq 'pre') {          if ($token->{tag_name} eq 'pre' or $token->{tag_name} eq 'listing') {
5674            !!!next-token;            !!!next-token;
5675            if ($token->{type} == CHARACTER_TOKEN) {            if ($token->{type} == CHARACTER_TOKEN) {
5676              $token->{data} =~ s/^\x0A//;              $token->{data} =~ s/^\x0A//;
# Line 5488  sub _tree_construction_main ($) { Line 5683  sub _tree_construction_main ($) {
5683            } else {            } else {
5684              !!!cp ('t348');              !!!cp ('t348');
5685            }            }
5686          } else {          } elsif ($token->{tag_name} eq 'form') {
5687            !!!cp ('t347');            !!!cp ('t347.1');
5688              $self->{form_element} = $self->{open_elements}->[-1]->[0];
5689    
5690            !!!next-token;            !!!next-token;
5691          }          } elsif ($token->{tag_name} eq 'table') {
5692          redo B;            !!!cp ('t382');
5693        } elsif ($token->{tag_name} eq 'form') {            push @{$open_tables}, [$self->{open_elements}->[-1]->[0]];
5694          if (defined $self->{form_element}) {            
5695            !!!cp ('t350');            $self->{insertion_mode} = IN_TABLE_IM;
5696            !!!parse-error (type => 'in form:form');  
5697            ## Ignore the token            !!!next-token;
5698            } elsif ($token->{tag_name} eq 'hr') {
5699              !!!cp ('t386');
5700              pop @{$self->{open_elements}};
5701            
5702            !!!next-token;            !!!next-token;
           redo B;  
5703          } else {          } else {
5704            ## has a p element in scope            !!!cp ('t347');
           INSCOPE: for (reverse @{$self->{open_elements}}) {  
             if ($_->[1] eq 'p') {  
               !!!cp ('t351');  
               !!!back-token;  
               $token = {type => END_TAG_TOKEN, tag_name => 'p'};  
               redo B;  
             } elsif ({  
                       table => 1, caption => 1, td => 1, th => 1,  
                       button => 1, marquee => 1, object => 1, html => 1,  
                      }->{$_->[1]}) {  
               !!!cp ('t352');  
               last INSCOPE;  
             }  
           } # INSCOPE  
               
           !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
           $self->{form_element} = $self->{open_elements}->[-1]->[0];  
5705            !!!next-token;            !!!next-token;
           redo B;  
5706          }          }
5707        } elsif ($token->{tag_name} eq 'li') {          redo B;
5708          } elsif ({li => 1, dt => 1, dd => 1}->{$token->{tag_name}}) {
5709          ## has a p element in scope          ## has a p element in scope
5710          INSCOPE: for (reverse @{$self->{open_elements}}) {          INSCOPE: for (reverse @{$self->{open_elements}}) {
5711            if ($_->[1] eq 'p') {            if ($_->[1] eq 'p') {
5712              !!!cp ('t353');              !!!cp ('t353');
5713              !!!back-token;              !!!back-token;
5714              $token = {type => END_TAG_TOKEN, tag_name => 'p'};              $token = {type => END_TAG_TOKEN, tag_name => 'p',
5715                          line => $token->{line}, column => $token->{column}};
5716              redo B;              redo B;
5717            } elsif ({            } elsif ({
5718                      table => 1, caption => 1, td => 1, th => 1,                      applet => 1, table => 1, caption => 1, td => 1, th => 1,
5719                      button => 1, marquee => 1, object => 1, html => 1,                      button => 1, marquee => 1, object => 1, html => 1,
5720                     }->{$_->[1]}) {                     }->{$_->[1]}) {
5721              !!!cp ('t354');              !!!cp ('t354');
# Line 5542  sub _tree_construction_main ($) { Line 5726  sub _tree_construction_main ($) {
5726          ## Step 1          ## Step 1
5727          my $i = -1;          my $i = -1;
5728          my $node = $self->{open_elements}->[$i];          my $node = $self->{open_elements}->[$i];
5729            my $li_or_dtdd = {li => {li => 1},
5730                              dt => {dt => 1, dd => 1},
5731                              dd => {dt => 1, dd => 1}}->{$token->{tag_name}};
5732          LI: {          LI: {
5733            ## Step 2            ## Step 2
5734            if ($node->[1] eq 'li') {            if ($li_or_dtdd->{$node->[1]}) {
5735              if ($i != -1) {              if ($i != -1) {
5736                !!!cp ('t355');                !!!cp ('t355');
5737                !!!parse-error (type => 'end tag missing:'.                !!!parse-error (type => 'end tag missing:'.
5738                                $self->{open_elements}->[-1]->[1]);                                $self->{open_elements}->[-1]->[1], token => $token);
5739              } else {              } else {
5740                !!!cp ('t356');                !!!cp ('t356');
5741              }              }
# Line 5575  sub _tree_construction_main ($) { Line 5762  sub _tree_construction_main ($) {
5762            redo LI;            redo LI;
5763          } # LI          } # LI
5764                        
5765          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
         !!!next-token;  
         redo B;  
       } elsif ($token->{tag_name} eq 'dd' or $token->{tag_name} eq 'dt') {  
         ## has a p element in scope  
         INSCOPE: for (reverse @{$self->{open_elements}}) {  
           if ($_->[1] eq 'p') {  
             !!!cp ('t360');  
             !!!back-token;  
             $token = {type => END_TAG_TOKEN, tag_name => 'p'};  
             redo B;  
           } elsif ({  
                     table => 1, caption => 1, td => 1, th => 1,  
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$_->[1]}) {  
             !!!cp ('t361');  
             last INSCOPE;  
           }  
         } # INSCOPE  
             
         ## Step 1  
         my $i = -1;  
         my $node = $self->{open_elements}->[$i];  
         LI: {  
           ## Step 2  
           if ($node->[1] eq 'dt' or $node->[1] eq 'dd') {  
             if ($i != -1) {  
               !!!cp ('t362');  
               !!!parse-error (type => 'end tag missing:'.  
                               $self->{open_elements}->[-1]->[1]);  
             } else {  
               !!!cp ('t363');  
             }  
             splice @{$self->{open_elements}}, $i;  
             last LI;  
           } else {  
             !!!cp ('t364');  
           }  
             
           ## Step 3  
           if (not $formatting_category->{$node->[1]} and  
               #not $phrasing_category->{$node->[1]} and  
               ($special_category->{$node->[1]} or  
                $scoping_category->{$node->[1]}) and  
               $node->[1] ne 'address' and $node->[1] ne 'div') {  
             !!!cp ('t365');  
             last LI;  
           }  
             
           !!!cp ('t366');  
           ## Step 4  
           $i--;  
           $node = $self->{open_elements}->[$i];  
           redo LI;  
         } # LI  
             
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
5766          !!!next-token;          !!!next-token;
5767          redo B;          redo B;
5768        } elsif ($token->{tag_name} eq 'plaintext') {        } elsif ($token->{tag_name} eq 'plaintext') {
# Line 5640  sub _tree_construction_main ($) { Line 5771  sub _tree_construction_main ($) {
5771            if ($_->[1] eq 'p') {            if ($_->[1] eq 'p') {
5772              !!!cp ('t367');              !!!cp ('t367');
5773              !!!back-token;              !!!back-token;
5774              $token = {type => END_TAG_TOKEN, tag_name => 'p'};              $token = {type => END_TAG_TOKEN, tag_name => 'p',
5775                          line => $token->{line}, column => $token->{column}};
5776              redo B;              redo B;
5777            } elsif ({            } elsif ({
5778                      table => 1, caption => 1, td => 1, th => 1,                      applet => 1, table => 1, caption => 1, td => 1, th => 1,
5779                      button => 1, marquee => 1, object => 1, html => 1,                      button => 1, marquee => 1, object => 1, html => 1,
5780                     }->{$_->[1]}) {                     }->{$_->[1]}) {
5781              !!!cp ('t368');              !!!cp ('t368');
# Line 5651  sub _tree_construction_main ($) { Line 5783  sub _tree_construction_main ($) {
5783            }            }
5784          } # INSCOPE          } # INSCOPE
5785                        
5786          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
5787                        
5788          $self->{content_model} = PLAINTEXT_CONTENT_MODEL;          $self->{content_model} = PLAINTEXT_CONTENT_MODEL;
5789                        
5790          !!!next-token;          !!!next-token;
5791          redo B;          redo B;
       } elsif ({  
                 h1 => 1, h2 => 1, h3 => 1, h4 => 1, h5 => 1, h6 => 1,  
                }->{$token->{tag_name}}) {  
         ## has a p element in scope  
         INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
           my $node = $self->{open_elements}->[$_];  
           if ($node->[1] eq 'p') {  
             !!!cp ('t369');  
             !!!back-token;  
             $token = {type => END_TAG_TOKEN, tag_name => 'p'};  
             redo B;  
           } elsif ({  
                     table => 1, caption => 1, td => 1, th => 1,  
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$node->[1]}) {  
             !!!cp ('t370');  
             last INSCOPE;  
           }  
         } # INSCOPE  
             
         ## NOTE: See <http://html5.org/tools/web-apps-tracker?from=925&to=926>  
         ## has an element in scope  
         #my $i;  
         #INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
         #  my $node = $self->{open_elements}->[$_];  
         #  if ({  
         #       h1 => 1, h2 => 1, h3 => 1, h4 => 1, h5 => 1, h6 => 1,  
         #      }->{$node->[1]}) {  
         #    $i = $_;  
         #    last INSCOPE;  
         #  } elsif ({  
         #            table => 1, caption => 1, td => 1, th => 1,  
         #            button => 1, marquee => 1, object => 1, html => 1,  
         #           }->{$node->[1]}) {  
         #    last INSCOPE;  
         #  }  
         #} # INSCOPE  
         #    
         #if (defined $i) {  
         #  !!! parse-error (type => 'in hn:hn');  
         #  splice @{$self->{open_elements}}, $i;  
         #}  
             
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
             
         !!!next-token;  
         redo B;  
5792        } elsif ($token->{tag_name} eq 'a') {        } elsif ($token->{tag_name} eq 'a') {
5793          AFE: for my $i (reverse 0..$#$active_formatting_elements) {          AFE: for my $i (reverse 0..$#$active_formatting_elements) {
5794            my $node = $active_formatting_elements->[$i];            my $node = $active_formatting_elements->[$i];
5795            if ($node->[1] eq 'a') {            if ($node->[1] eq 'a') {
5796              !!!cp ('t371');              !!!cp ('t371');
5797              !!!parse-error (type => 'in a:a');              !!!parse-error (type => 'in a:a', token => $token);
5798                            
5799              !!!back-token;              !!!back-token;
5800              $token = {type => END_TAG_TOKEN, tag_name => 'a'};              $token = {type => END_TAG_TOKEN, tag_name => 'a',
5801              $formatting_end_tag->($token->{tag_name});                        line => $token->{line}, column => $token->{column}};
5802                $formatting_end_tag->($token);
5803                            
5804              AFE2: for (reverse 0..$#$active_formatting_elements) {              AFE2: for (reverse 0..$#$active_formatting_elements) {
5805                if ($active_formatting_elements->[$_]->[0] eq $node->[0]) {                if ($active_formatting_elements->[$_]->[0] eq $node->[0]) {
# Line 5738  sub _tree_construction_main ($) { Line 5824  sub _tree_construction_main ($) {
5824                        
5825          $reconstruct_active_formatting_elements->($insert_to_current);          $reconstruct_active_formatting_elements->($insert_to_current);
5826    
5827          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
5828          push @$active_formatting_elements, $self->{open_elements}->[-1];          push @$active_formatting_elements, $self->{open_elements}->[-1];
5829    
5830          !!!next-token;          !!!next-token;
5831          redo B;          redo B;
       } elsif ({  
                 b => 1, big => 1, em => 1, font => 1, i => 1,  
                 s => 1, small => 1, strile => 1,  
                 strong => 1, tt => 1, u => 1,  
                }->{$token->{tag_name}}) {  
         !!!cp ('t375');  
         $reconstruct_active_formatting_elements->($insert_to_current);  
           
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
         push @$active_formatting_elements, $self->{open_elements}->[-1];  
           
         !!!next-token;  
         redo B;  
5832        } elsif ($token->{tag_name} eq 'nobr') {        } elsif ($token->{tag_name} eq 'nobr') {
5833          $reconstruct_active_formatting_elements->($insert_to_current);          $reconstruct_active_formatting_elements->($insert_to_current);
5834    
# Line 5764  sub _tree_construction_main ($) { Line 5837  sub _tree_construction_main ($) {
5837            my $node = $self->{open_elements}->[$_];            my $node = $self->{open_elements}->[$_];
5838            if ($node->[1] eq 'nobr') {            if ($node->[1] eq 'nobr') {
5839              !!!cp ('t376');              !!!cp ('t376');
5840              !!!parse-error (type => 'in nobr:nobr');              !!!parse-error (type => 'in nobr:nobr', token => $token);
5841              !!!back-token;              !!!back-token;
5842              $token = {type => END_TAG_TOKEN, tag_name => 'nobr'};              $token = {type => END_TAG_TOKEN, tag_name => 'nobr',
5843                          line => $token->{line}, column => $token->{column}};
5844              redo B;              redo B;
5845            } elsif ({            } elsif ({
5846                      table => 1, caption => 1, td => 1, th => 1,                      applet => 1, table => 1, caption => 1, td => 1, th => 1,
5847                      button => 1, marquee => 1, object => 1, html => 1,                      button => 1, marquee => 1, object => 1, html => 1,
5848                     }->{$node->[1]}) {                     }->{$node->[1]}) {
5849              !!!cp ('t377');              !!!cp ('t377');
# Line 5777  sub _tree_construction_main ($) { Line 5851  sub _tree_construction_main ($) {
5851            }            }
5852          } # INSCOPE          } # INSCOPE
5853                    
5854          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
5855          push @$active_formatting_elements, $self->{open_elements}->[-1];          push @$active_formatting_elements, $self->{open_elements}->[-1];
5856                    
5857          !!!next-token;          !!!next-token;
# Line 5788  sub _tree_construction_main ($) { Line 5862  sub _tree_construction_main ($) {
5862            my $node = $self->{open_elements}->[$_];            my $node = $self->{open_elements}->[$_];
5863            if ($node->[1] eq 'button') {            if ($node->[1] eq 'button') {
5864              !!!cp ('t378');              !!!cp ('t378');
5865              !!!parse-error (type => 'in button:button');              !!!parse-error (type => 'in button:button', token => $token);
5866              !!!back-token;              !!!back-token;
5867              $token = {type => END_TAG_TOKEN, tag_name => 'button'};              $token = {type => END_TAG_TOKEN, tag_name => 'button',
5868                          line => $token->{line}, column => $token->{column}};
5869              redo B;              redo B;
5870            } elsif ({            } elsif ({
5871                      table => 1, caption => 1, td => 1, th => 1,                      applet => 1, table => 1, caption => 1, td => 1, th => 1,
5872                      button => 1, marquee => 1, object => 1, html => 1,                      button => 1, marquee => 1, object => 1, html => 1,
5873                     }->{$node->[1]}) {                     }->{$node->[1]}) {
5874              !!!cp ('t379');              !!!cp ('t379');
# Line 5803  sub _tree_construction_main ($) { Line 5878  sub _tree_construction_main ($) {
5878                        
5879          $reconstruct_active_formatting_elements->($insert_to_current);          $reconstruct_active_formatting_elements->($insert_to_current);
5880                        
5881          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
5882          push @$active_formatting_elements, ['#marker', ''];  
5883            ## TODO: associate with $self->{form_element} if defined
5884    
         !!!next-token;  
         redo B;  
       } elsif ($token->{tag_name} eq 'marquee' or  
                $token->{tag_name} eq 'object') {  
         !!!cp ('t380');  
         $reconstruct_active_formatting_elements->($insert_to_current);  
           
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
5885          push @$active_formatting_elements, ['#marker', ''];          push @$active_formatting_elements, ['#marker', ''];
5886            
         !!!next-token;  
         redo B;  
       } elsif ($token->{tag_name} eq 'xmp') {  
         !!!cp ('t381');  
         $reconstruct_active_formatting_elements->($insert_to_current);  
         $parse_rcdata->(CDATA_CONTENT_MODEL, $insert);  
         redo B;  
       } elsif ($token->{tag_name} eq 'table') {  
         ## has a p element in scope  
         INSCOPE: for (reverse @{$self->{open_elements}}) {  
           if ($_->[1] eq 'p') {  
             !!!cp ('t382');  
             !!!back-token;  
             $token = {type => END_TAG_TOKEN, tag_name => 'p'};  
             redo B;  
           } elsif ({  
                     table => 1, caption => 1, td => 1, th => 1,  
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$_->[1]}) {  
             !!!cp ('t383');  
             last INSCOPE;  
           }  
         } # INSCOPE  
             
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
             
         $self->{insertion_mode} = IN_TABLE_IM;  
             
5887          !!!next-token;          !!!next-token;
5888          redo B;          redo B;
5889        } elsif ({        } elsif ({
5890                  area => 1, basefont => 1, bgsound => 1, br => 1,                  xmp => 1,
5891                  embed => 1, img => 1, param => 1, spacer => 1, wbr => 1,                  iframe => 1,
5892                  image => 1,                  noembed => 1,
5893                    noframes => 1,
5894                    noscript => 0, ## TODO: 1 if scripting is enabled
5895                 }->{$token->{tag_name}}) {                 }->{$token->{tag_name}}) {
5896          if ($token->{tag_name} eq 'image') {          if ($token->{tag_name} eq 'xmp') {
5897            !!!cp ('t384');            !!!cp ('t381');
5898            !!!parse-error (type => 'image');            $reconstruct_active_formatting_elements->($insert_to_current);
           $token->{tag_name} = 'img';  
5899          } else {          } else {
5900            !!!cp ('t385');            !!!cp ('t399');
5901          }          }
5902            ## NOTE: There is an "as if in body" code clone.
5903          ## NOTE: There is an "as if <br>" code clone.          $parse_rcdata->(CDATA_CONTENT_MODEL);
         $reconstruct_active_formatting_elements->($insert_to_current);  
           
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
         pop @{$self->{open_elements}};  
           
         !!!next-token;  
         redo B;  
       } elsif ($token->{tag_name} eq 'hr') {  
         ## has a p element in scope  
         INSCOPE: for (reverse @{$self->{open_elements}}) {  
           if ($_->[1] eq 'p') {  
             !!!cp ('t386');  
             !!!back-token;  
             $token = {type => END_TAG_TOKEN, tag_name => 'p'};  
             redo B;  
           } elsif ({  
                     table => 1, caption => 1, td => 1, th => 1,  
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$_->[1]}) {  
             !!!cp ('t387');  
             last INSCOPE;  
           }  
         } # INSCOPE  
             
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
         pop @{$self->{open_elements}};  
             
         !!!next-token;  
         redo B;  
       } elsif ($token->{tag_name} eq 'input') {  
         !!!cp ('t388');  
         $reconstruct_active_formatting_elements->($insert_to_current);  
           
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
         ## TODO: associate with $self->{form_element} if defined  
         pop @{$self->{open_elements}};  
           
         !!!next-token;  
5904          redo B;          redo B;
5905        } elsif ($token->{tag_name} eq 'isindex') {        } elsif ($token->{tag_name} eq 'isindex') {
5906          !!!parse-error (type => 'isindex');          !!!parse-error (type => 'isindex', token => $token);
5907                    
5908          if (defined $self->{form_element}) {          if (defined $self->{form_element}) {
5909            !!!cp ('t389');            !!!cp ('t389');
# Line 5917  sub _tree_construction_main ($) { Line 5920  sub _tree_construction_main ($) {
5920            delete $at->{prompt};            delete $at->{prompt};
5921            my @tokens = (            my @tokens = (
5922                          {type => START_TAG_TOKEN, tag_name => 'form',                          {type => START_TAG_TOKEN, tag_name => 'form',
5923                           attributes => $form_attrs},                           attributes => $form_attrs,
5924                          {type => START_TAG_TOKEN, tag_name => 'hr'},                           line => $token->{line}, column => $token->{column}},
5925                          {type => START_TAG_TOKEN, tag_name => 'p'},                          {type => START_TAG_TOKEN, tag_name => 'hr',
5926                          {type => START_TAG_TOKEN, tag_name => 'label'},                           line => $token->{line}, column => $token->{column}},
5927                            {type => START_TAG_TOKEN, tag_name => 'p',
5928                             line => $token->{line}, column => $token->{column}},
5929                            {type => START_TAG_TOKEN, tag_name => 'label',
5930                             line => $token->{line}, column => $token->{column}},
5931                         );                         );
5932            if ($prompt_attr) {            if ($prompt_attr) {
5933              !!!cp ('t390');              !!!cp ('t390');
5934              push @tokens, {type => CHARACTER_TOKEN, data => $prompt_attr->{value}};              push @tokens, {type => CHARACTER_TOKEN, data => $prompt_attr->{value},
5935                               #line => $token->{line}, column => $token->{column},
5936                              };
5937            } else {            } else {
5938              !!!cp ('t391');              !!!cp ('t391');
5939              push @tokens, {type => CHARACTER_TOKEN,              push @tokens, {type => CHARACTER_TOKEN,
5940                             data => 'This is a searchable index. Insert your search keywords here: '}; # SHOULD                             data => 'This is a searchable index. Insert your search keywords here: ',
5941                               #line => $token->{line}, column => $token->{column},
5942                              }; # SHOULD
5943              ## TODO: make this configurable              ## TODO: make this configurable
5944            }            }
5945            push @tokens,            push @tokens,
5946                          {type => START_TAG_TOKEN, tag_name => 'input', attributes => $at},                          {type => START_TAG_TOKEN, tag_name => 'input', attributes => $at,
5947                             line => $token->{line}, column => $token->{column}},
5948                          #{type => CHARACTER_TOKEN, data => ''}, # SHOULD                          #{type => CHARACTER_TOKEN, data => ''}, # SHOULD
5949                          {type => END_TAG_TOKEN, tag_name => 'label'},                          {type => END_TAG_TOKEN, tag_name => 'label',
5950                          {type => END_TAG_TOKEN, tag_name => 'p'},                           line => $token->{line}, column => $token->{column}},
5951                          {type => START_TAG_TOKEN, tag_name => 'hr'},                          {type => END_TAG_TOKEN, tag_name => 'p',
5952                          {type => END_TAG_TOKEN, tag_name => 'form'};                           line => $token->{line}, column => $token->{column}},
5953                            {type => START_TAG_TOKEN, tag_name => 'hr',
5954                             line => $token->{line}, column => $token->{column}},
5955                            {type => END_TAG_TOKEN, tag_name => 'form',
5956                             line => $token->{line}, column => $token->{column}};
5957            $token = shift @tokens;            $token = shift @tokens;
5958            !!!back-token (@tokens);            !!!back-token (@tokens);
5959            redo B;            redo B;
# Line 5945  sub _tree_construction_main ($) { Line 5961  sub _tree_construction_main ($) {
5961        } elsif ($token->{tag_name} eq 'textarea') {        } elsif ($token->{tag_name} eq 'textarea') {
5962          my $tag_name = $token->{tag_name};          my $tag_name = $token->{tag_name};
5963          my $el;          my $el;
5964          !!!create-element ($el, $token->{tag_name}, $token->{attributes});          !!!create-element ($el, $token->{tag_name}, $token->{attributes}, $token);
5965                    
5966          ## TODO: $self->{form_element} if defined          ## TODO: $self->{form_element} if defined
5967          $self->{content_model} = RCDATA_CONTENT_MODEL;          $self->{content_model} = RCDATA_CONTENT_MODEL;
# Line 5984  sub _tree_construction_main ($) { Line 6000  sub _tree_construction_main ($) {
6000            ## Ignore the token            ## Ignore the token
6001          } else {          } else {
6002            !!!cp ('t398');            !!!cp ('t398');
6003            !!!parse-error (type => 'in RCDATA:#'.$token->{type});            !!!parse-error (type => 'in RCDATA:#'.$token->{type}, token => $token);
6004          }          }
6005          !!!next-token;          !!!next-token;
6006          redo B;          redo B;
6007        } elsif ({        } elsif ({
                 iframe => 1,  
                 noembed => 1,  
                 noframes => 1,  
                 noscript => 0, ## TODO: 1 if scripting is enabled  
                }->{$token->{tag_name}}) {  
         !!!cp ('t399');  
         ## NOTE: There is an "as if in body" code clone.  
         $parse_rcdata->(CDATA_CONTENT_MODEL, $insert);  
         redo B;  
       } elsif ($token->{tag_name} eq 'select') {  
         !!!cp ('t400');  
         $reconstruct_active_formatting_elements->($insert_to_current);  
           
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
           
         $self->{insertion_mode} = IN_SELECT_IM;  
         !!!next-token;  
         redo B;  
       } elsif ({  
6008                  caption => 1, col => 1, colgroup => 1, frame => 1,                  caption => 1, col => 1, colgroup => 1, frame => 1,
6009                  frameset => 1, head => 1, option => 1, optgroup => 1,                  frameset => 1, head => 1, option => 1, optgroup => 1,
6010                  tbody => 1, td => 1, tfoot => 1, th => 1,                  tbody => 1, td => 1, tfoot => 1, th => 1,
6011                  thead => 1, tr => 1,                  thead => 1, tr => 1,
6012                 }->{$token->{tag_name}}) {                 }->{$token->{tag_name}}) {
6013          !!!cp ('t401');          !!!cp ('t401');
6014          !!!parse-error (type => 'in body:'.$token->{tag_name});          !!!parse-error (type => 'in body:'.$token->{tag_name}, token => $token);
6015          ## Ignore the token          ## Ignore the token
6016          !!!next-token;          !!!next-token;
6017          redo B;          redo B;
6018                    
6019          ## ISSUE: An issue on HTML5 new elements in the spec.          ## ISSUE: An issue on HTML5 new elements in the spec.
6020        } else {        } else {
6021          !!!cp ('t402');          if ($token->{tag_name} eq 'image') {
6022              !!!cp ('t384');
6023              !!!parse-error (type => 'image', token => $token);
6024              $token->{tag_name} = 'img';
6025            } else {
6026              !!!cp ('t385');
6027            }
6028    
6029            ## NOTE: There is an "as if <br>" code clone.
6030          $reconstruct_active_formatting_elements->($insert_to_current);          $reconstruct_active_formatting_elements->($insert_to_current);
6031                    
6032          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
6033    
6034            if ({
6035                 applet => 1, marquee => 1, object => 1,
6036                }->{$token->{tag_name}}) {
6037              !!!cp ('t380');
6038              push @$active_formatting_elements, ['#marker', ''];
6039            } elsif ({
6040                      b => 1, big => 1, em => 1, font => 1, i => 1,
6041                      s => 1, small => 1, strile => 1,
6042                      strong => 1, tt => 1, u => 1,
6043                     }->{$token->{tag_name}}) {
6044              !!!cp ('t375');
6045              push @$active_formatting_elements, $self->{open_elements}->[-1];
6046            } elsif ($token->{tag_name} eq 'input') {
6047              !!!cp ('t388');
6048              ## TODO: associate with $self->{form_element} if defined
6049              pop @{$self->{open_elements}};
6050            } elsif ({
6051                      area => 1, basefont => 1, bgsound => 1, br => 1,
6052                      embed => 1, img => 1, param => 1, spacer => 1, wbr => 1,
6053                      #image => 1,
6054                     }->{$token->{tag_name}}) {
6055              !!!cp ('t388.1');
6056              pop @{$self->{open_elements}};
6057            } elsif ($token->{tag_name} eq 'select') {
6058              ## TODO: associate with $self->{form_element} if defined
6059            
6060              if ($self->{insertion_mode} & TABLE_IMS or
6061                  $self->{insertion_mode} & BODY_TABLE_IMS or
6062                  $self->{insertion_mode} == IN_COLUMN_GROUP_IM) {
6063                !!!cp ('t400.1');
6064                $self->{insertion_mode} = IN_SELECT_IN_TABLE_IM;
6065              } else {
6066                !!!cp ('t400.2');
6067                $self->{insertion_mode} = IN_SELECT_IM;
6068              }
6069            } else {
6070              !!!cp ('t402');
6071            }
6072                    
6073          !!!next-token;          !!!next-token;
6074          redo B;          redo B;
6075        }        }
6076      } elsif ($token->{type} == END_TAG_TOKEN) {      } elsif ($token->{type} == END_TAG_TOKEN) {
6077        if ($token->{tag_name} eq 'body') {        if ($token->{tag_name} eq 'body') {
6078          if (@{$self->{open_elements}} > 1 and          ## has a |body| element in scope
6079              $self->{open_elements}->[1]->[1] eq 'body') {          my $i;
6080            for (@{$self->{open_elements}}) {          INSCOPE: {
6081              unless ({            for (reverse @{$self->{open_elements}}) {
6082                         dd => 1, dt => 1, li => 1, p => 1, td => 1,              if ($_->[1] eq 'body') {
6083                         th => 1, tr => 1, body => 1, html => 1,                !!!cp ('t405');
6084                       tbody => 1, tfoot => 1, thead => 1,                $i = $_;
6085                      }->{$_->[1]}) {                last INSCOPE;
6086                !!!cp ('t403');              } elsif ({
6087                !!!parse-error (type => 'not closed:'.$_->[1]);                        applet => 1, table => 1, caption => 1, td => 1, th => 1,
6088              } else {                        button => 1, marquee => 1, object => 1, html => 1,
6089                !!!cp ('t404');                       }->{$_->[1]}) {
6090                  !!!cp ('t405.1');
6091                  last;
6092              }              }
6093            }            }
6094    
6095            $self->{insertion_mode} = AFTER_BODY_IM;            !!!parse-error (type => 'start tag not allowed',
6096            !!!next-token;                            value => $token->{tag_name}, token => $token);
6097            redo B;            ## NOTE: Ignore the token.
         } else {  
           !!!cp ('t405');  
           !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
           ## Ignore the token  
6098            !!!next-token;            !!!next-token;
6099            redo B;            redo B;
6100            } # INSCOPE
6101    
6102            for (@{$self->{open_elements}}) {
6103              unless ({
6104                       dd => 1, dt => 1, li => 1, p => 1, td => 1,
6105                       th => 1, tr => 1, body => 1, html => 1,
6106                       tbody => 1, tfoot => 1, thead => 1,
6107                      }->{$_->[1]}) {
6108                !!!cp ('t403');
6109                !!!parse-error (type => 'not closed:'.$_->[1], token => $token);
6110                last;
6111              } else {
6112                !!!cp ('t404');
6113              }
6114          }          }
6115    
6116            $self->{insertion_mode} = AFTER_BODY_IM;
6117            !!!next-token;
6118            redo B;
6119        } elsif ($token->{tag_name} eq 'html') {        } elsif ($token->{tag_name} eq 'html') {
6120          if (@{$self->{open_elements}} > 1 and $self->{open_elements}->[1]->[1] eq 'body') {          if (@{$self->{open_elements}} > 1 and $self->{open_elements}->[1]->[1] eq 'body') {
6121            ## ISSUE: There is an issue in the spec.            ## ISSUE: There is an issue in the spec.
6122            if ($self->{open_elements}->[-1]->[1] ne 'body') {            if ($self->{open_elements}->[-1]->[1] ne 'body') {
6123              !!!cp ('t406');              !!!cp ('t406');
6124              !!!parse-error (type => 'not closed:'.$self->{open_elements}->[1]->[1]);              !!!parse-error (type => 'not closed:'.$self->{open_elements}->[1]->[1], token => $token);
6125            } else {            } else {
6126              !!!cp ('t407');              !!!cp ('t407');
6127            }            }
# Line 6070  sub _tree_construction_main ($) { Line 6130  sub _tree_construction_main ($) {
6130            redo B;            redo B;
6131          } else {          } else {
6132            !!!cp ('t408');            !!!cp ('t408');
6133            !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});            !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
6134            ## Ignore the token            ## Ignore the token
6135            !!!next-token;            !!!next-token;
6136            redo B;            redo B;
# Line 6079  sub _tree_construction_main ($) { Line 6139  sub _tree_construction_main ($) {
6139                  address => 1, blockquote => 1, center => 1, dir => 1,                  address => 1, blockquote => 1, center => 1, dir => 1,
6140                  div => 1, dl => 1, fieldset => 1, listing => 1,                  div => 1, dl => 1, fieldset => 1, listing => 1,
6141                  menu => 1, ol => 1, pre => 1, ul => 1,                  menu => 1, ol => 1, pre => 1, ul => 1,
                 p => 1,  
6142                  dd => 1, dt => 1, li => 1,                  dd => 1, dt => 1, li => 1,
6143                  button => 1, marquee => 1, object => 1,                  applet => 1, button => 1, marquee => 1, object => 1,
6144                 }->{$token->{tag_name}}) {                 }->{$token->{tag_name}}) {
6145          ## has an element in scope          ## has an element in scope
6146          my $i;          my $i;
6147          INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {          INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
6148            my $node = $self->{open_elements}->[$_];            my $node = $self->{open_elements}->[$_];
6149            if ($node->[1] eq $token->{tag_name}) {            if ($node->[1] eq $token->{tag_name}) {
             ## generate implied end tags  
             if ({  
                  dd => ($token->{tag_name} ne 'dd'),  
                  dt => ($token->{tag_name} ne 'dt'),  
                  li => ($token->{tag_name} ne 'li'),  
                  p => ($token->{tag_name} ne 'p'),  
                  td => 1, th => 1, tr => 1,  
                  tbody => 1, tfoot=> 1, thead => 1,  
                 }->{$self->{open_elements}->[-1]->[1]}) {  
               !!!cp ('t409');  
               !!!back-token;  
               $token = {type => END_TAG_TOKEN,  
                         tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
               redo B;  
             }  
               
6150              !!!cp ('t410');              !!!cp ('t410');
6151              $i = $_;              $i = $_;
6152              last INSCOPE unless $token->{tag_name} eq 'p';              last INSCOPE;
6153            } elsif ({            } elsif ({
6154                      table => 1, caption => 1, td => 1, th => 1,                      applet => 1, table => 1, caption => 1, td => 1, th => 1,
6155                      button => 1, marquee => 1, object => 1, html => 1,                      button => 1, marquee => 1, object => 1, html => 1,
6156                     }->{$node->[1]}) {                     }->{$node->[1]}) {
6157              !!!cp ('t411');              !!!cp ('t411');
6158              last INSCOPE;              last INSCOPE;
6159            }            }
6160          } # INSCOPE          } # INSCOPE
6161            
6162          if ($self->{open_elements}->[-1]->[1] ne $token->{tag_name}) {          unless (defined $i) { # has an element in scope
6163            if (defined $i) {            !!!cp ('t413');
6164              !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
6165            } else {
6166              ## Step 1. generate implied end tags
6167              while ({
6168                      dd => ($token->{tag_name} ne 'dd'),
6169                      dt => ($token->{tag_name} ne 'dt'),
6170                      li => ($token->{tag_name} ne 'li'),
6171                      p => 1,
6172                     }->{$self->{open_elements}->[-1]->[1]}) {
6173                !!!cp ('t409');
6174                pop @{$self->{open_elements}};
6175              }
6176    
6177              ## Step 2.
6178              if ($self->{open_elements}->[-1]->[1] ne $token->{tag_name}) {
6179              !!!cp ('t412');              !!!cp ('t412');
6180              !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);              !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1], token => $token);
6181            } else {            } else {
6182              !!!cp ('t413');              !!!cp ('t414');
             !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
6183            }            }
6184          }  
6185                      ## Step 3.
         if (defined $i) {  
           !!!cp ('t414');  
6186            splice @{$self->{open_elements}}, $i;            splice @{$self->{open_elements}}, $i;
6187          } elsif ($token->{tag_name} eq 'p') {  
6188            !!!cp ('t415');            ## Step 4.
6189            ## As if <p>, then reprocess the current token            $clear_up_to_marker->()
6190            my $el;                if {
6191            !!!create-element ($el, 'p');                  applet => 1, button => 1, marquee => 1, object => 1,
6192            $insert->($el);                }->{$token->{tag_name}};
         } else {  
           !!!cp ('t416');  
6193          }          }
         $clear_up_to_marker->()  
           if {  
             button => 1, marquee => 1, object => 1,  
           }->{$token->{tag_name}};  
6194          !!!next-token;          !!!next-token;
6195          redo B;          redo B;
6196        } elsif ($token->{tag_name} eq 'form') {        } elsif ($token->{tag_name} eq 'form') {
6197            undef $self->{form_element};
6198    
6199          ## has an element in scope          ## has an element in scope
6200            my $i;
6201          INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {          INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
6202            my $node = $self->{open_elements}->[$_];            my $node = $self->{open_elements}->[$_];
6203            if ($node->[1] eq $token->{tag_name}) {            if ($node->[1] eq $token->{tag_name}) {
             ## generate implied end tags  
             if ({  
                  dd => 1, dt => 1, li => 1, p => 1,  
   
                  ## NOTE: The following elements never appear here, maybe.  
                  td => 1, th => 1, tr => 1,  
                  tbody => 1, tfoot => 1, thead => 1,  
                 }->{$self->{open_elements}->[-1]->[1]}) {  
               !!!cp ('t417');  
               !!!back-token;  
               $token = {type => END_TAG_TOKEN,  
                         tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
               redo B;  
             }  
               
6204              !!!cp ('t418');              !!!cp ('t418');
6205                $i = $_;
6206              last INSCOPE;              last INSCOPE;
6207            } elsif ({            } elsif ({
6208                      table => 1, caption => 1, td => 1, th => 1,                      applet => 1, table => 1, caption => 1, td => 1, th => 1,
6209                      button => 1, marquee => 1, object => 1, html => 1,                      button => 1, marquee => 1, object => 1, html => 1,
6210                     }->{$node->[1]}) {                     }->{$node->[1]}) {
6211              !!!cp ('t419');              !!!cp ('t419');
6212              last INSCOPE;              last INSCOPE;
6213            }            }
6214          } # INSCOPE          } # INSCOPE
6215            
6216          if ($self->{open_elements}->[-1]->[1] eq $token->{tag_name}) {          unless (defined $i) { # has an element in scope
           !!!cp ('t420');  
           pop @{$self->{open_elements}};  
         } else {  
6217            !!!cp ('t421');            !!!cp ('t421');
6218            !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});            !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
6219            } else {
6220              ## Step 1. generate implied end tags
6221              while ({
6222                      dd => 1, dt => 1, li => 1, p => 1,
6223                     }->{$self->{open_elements}->[-1]->[1]}) {
6224                !!!cp ('t417');
6225                pop @{$self->{open_elements}};
6226              }
6227              
6228              ## Step 2.
6229              if ($self->{open_elements}->[-1]->[1] ne $token->{tag_name}) {
6230                !!!cp ('t417.1');
6231                !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1], token => $token);
6232              } else {
6233                !!!cp ('t420');
6234              }  
6235              
6236              ## Step 3.
6237              splice @{$self->{open_elements}}, $i;
6238          }          }
6239    
         undef $self->{form_element};  
6240          !!!next-token;          !!!next-token;
6241          redo B;          redo B;
6242        } elsif ({        } elsif ({
# Line 6196  sub _tree_construction_main ($) { Line 6249  sub _tree_construction_main ($) {
6249            if ({            if ({
6250                 h1 => 1, h2 => 1, h3 => 1, h4 => 1, h5 => 1, h6 => 1,                 h1 => 1, h2 => 1, h3 => 1, h4 => 1, h5 => 1, h6 => 1,
6251                }->{$node->[1]}) {                }->{$node->[1]}) {
             ## generate implied end tags  
             if ({  
                  dd => 1, dt => 1, li => 1, p => 1,  
                  td => 1, th => 1, tr => 1,  
                  tbody => 1, tfoot=> 1, thead => 1,  
                 }->{$self->{open_elements}->[-1]->[1]}) {  
               !!!cp ('t422');  
               !!!back-token;  
               $token = {type => END_TAG_TOKEN,  
                         tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
               redo B;  
             }  
   
6252              !!!cp ('t423');              !!!cp ('t423');
6253              $i = $_;              $i = $_;
6254              last INSCOPE;              last INSCOPE;
6255            } elsif ({            } elsif ({
6256                      table => 1, caption => 1, td => 1, th => 1,                      applet => 1, table => 1, caption => 1, td => 1, th => 1,
6257                      button => 1, marquee => 1, object => 1, html => 1,                      button => 1, marquee => 1, object => 1, html => 1,
6258                     }->{$node->[1]}) {                     }->{$node->[1]}) {
6259              !!!cp ('t424');              !!!cp ('t424');
6260              last INSCOPE;              last INSCOPE;
6261            }            }
6262          } # INSCOPE          } # INSCOPE
6263    
6264            unless (defined $i) { # has an element in scope
6265              !!!cp ('t425.1');
6266              !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
6267            } else {
6268              ## Step 1. generate implied end tags
6269              while ({
6270                      dd => 1, dt => 1, li => 1, p => 1,
6271                     }->{$self->{open_elements}->[-1]->[1]}) {
6272                !!!cp ('t422');
6273                pop @{$self->{open_elements}};
6274              }
6275              
6276              ## Step 2.
6277              if ($self->{open_elements}->[-1]->[1] ne $token->{tag_name}) {
6278                !!!cp ('t425');
6279                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
6280              } else {
6281                !!!cp ('t426');
6282              }
6283    
6284              ## Step 3.
6285              splice @{$self->{open_elements}}, $i;
6286            }
6287                    
6288          if ($self->{open_elements}->[-1]->[1] ne $token->{tag_name}) {          !!!next-token;
6289            !!!cp ('t425');          redo B;
6290            !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});        } elsif ($token->{tag_name} eq 'p') {
6291            ## has an element in scope
6292            my $i;
6293            INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
6294              my $node = $self->{open_elements}->[$_];
6295              if ($node->[1] eq $token->{tag_name}) {
6296                !!!cp ('t410.1');
6297                $i = $_;
6298                last INSCOPE;
6299              } elsif ({
6300                        applet => 1, table => 1, caption => 1, td => 1, th => 1,
6301                        button => 1, marquee => 1, object => 1, html => 1,
6302                       }->{$node->[1]}) {
6303                !!!cp ('t411.1');
6304                last INSCOPE;
6305              }
6306            } # INSCOPE
6307    
6308            if (defined $i) {
6309              if ($self->{open_elements}->[-1]->[1] ne $token->{tag_name}) {
6310                !!!cp ('t412.1');
6311                !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1], token => $token);
6312              } else {
6313                !!!cp ('t414.1');
6314              }
6315    
6316              splice @{$self->{open_elements}}, $i;
6317          } else {          } else {
6318            !!!cp ('t426');            !!!cp ('t413.1');
6319              !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
6320    
6321              !!!cp ('t415.1');
6322              ## As if <p>, then reprocess the current token
6323              my $el;
6324              !!!create-element ($el, 'p',, $token);
6325              $insert->($el);
6326              ## NOTE: Not inserted into |$self->{open_elements}|.
6327          }          }
6328            
         splice @{$self->{open_elements}}, $i if defined $i;  
6329          !!!next-token;          !!!next-token;
6330          redo B;          redo B;
6331        } elsif ({        } elsif ({
# Line 6238  sub _tree_construction_main ($) { Line 6335  sub _tree_construction_main ($) {
6335                  strong => 1, tt => 1, u => 1,                  strong => 1, tt => 1, u => 1,
6336                 }->{$token->{tag_name}}) {                 }->{$token->{tag_name}}) {
6337          !!!cp ('t427');          !!!cp ('t427');
6338          $formatting_end_tag->($token->{tag_name});          $formatting_end_tag->($token);
6339          redo B;          redo B;
6340        } elsif ($token->{tag_name} eq 'br') {        } elsif ($token->{tag_name} eq 'br') {
6341          !!!cp ('t428');          !!!cp ('t428');
6342          !!!parse-error (type => 'unmatched end tag:br');          !!!parse-error (type => 'unmatched end tag:br', token => $token);
6343    
6344          ## As if <br>          ## As if <br>
6345          $reconstruct_active_formatting_elements->($insert_to_current);          $reconstruct_active_formatting_elements->($insert_to_current);
6346                    
6347          my $el;          my $el;
6348          !!!create-element ($el, 'br');          !!!create-element ($el, 'br',, $token);
6349          $insert->($el);          $insert->($el);
6350                    
6351          ## Ignore the token.          ## Ignore the token.
# Line 6267  sub _tree_construction_main ($) { Line 6364  sub _tree_construction_main ($) {
6364                  noscript => 0, ## TODO: if scripting is enabled                  noscript => 0, ## TODO: if scripting is enabled
6365                 }->{$token->{tag_name}}) {                 }->{$token->{tag_name}}) {
6366          !!!cp ('t429');          !!!cp ('t429');
6367          !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});          !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
6368          ## Ignore the token          ## Ignore the token
6369          !!!next-token;          !!!next-token;
6370          redo B;          redo B;
# Line 6284  sub _tree_construction_main ($) { Line 6381  sub _tree_construction_main ($) {
6381            if ($node->[1] eq $token->{tag_name}) {            if ($node->[1] eq $token->{tag_name}) {
6382              ## Step 1              ## Step 1
6383              ## generate implied end tags              ## generate implied end tags
6384              if ({              while ({
6385                   dd => 1, dt => 1, li => 1, p => 1,                      dd => 1, dt => 1, li => 1, p => 1,
6386                   td => 1, th => 1, tr => 1,                     }->{$self->{open_elements}->[-1]->[1]}) {
                  tbody => 1, tfoot => 1, thead => 1,  
                 }->{$self->{open_elements}->[-1]->[1]}) {  
6387                !!!cp ('t430');                !!!cp ('t430');
6388                ## ISSUE: Can this case be reached?                ## ISSUE: Can this case be reached?
6389                !!!back-token;                pop @{$self->{open_elements}};
               $token = {type => END_TAG_TOKEN,  
                         tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
               redo B;  
6390              }              }
6391                    
6392              ## Step 2              ## Step 2
6393              if ($token->{tag_name} ne $self->{open_elements}->[-1]->[1]) {              if ($token->{tag_name} ne $self->{open_elements}->[-1]->[1]) {
6394                !!!cp ('t431');                !!!cp ('t431');
6395                ## NOTE: <x><y></x>                ## NOTE: <x><y></x>
6396                !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1], token => $token);
6397              } else {              } else {
6398                !!!cp ('t432');                !!!cp ('t432');
6399              }              }
# Line 6318  sub _tree_construction_main ($) { Line 6410  sub _tree_construction_main ($) {
6410                  ($special_category->{$node->[1]} or                  ($special_category->{$node->[1]} or
6411                   $scoping_category->{$node->[1]})) {                   $scoping_category->{$node->[1]})) {
6412                !!!cp ('t433');                !!!cp ('t433');
6413                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name}, token => $token);
6414                ## Ignore the token                ## Ignore the token
6415                !!!next-token;                !!!next-token;
6416                last S2;                last S2;

Legend:
Removed from v.1.84  
changed lines
  Added in v.1.118

admin@suikawiki.org
ViewVC Help
Powered by ViewVC 1.1.24