/[suikacvs]/markup/html/whatpm/Whatpm/HTML.pm.src
Suika

Diff of /markup/html/whatpm/Whatpm/HTML.pm.src

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 1.56 by wakaba, Sat Aug 11 07:19:18 2007 UTC revision 1.243 by wakaba, Sun Sep 6 13:52:06 2009 UTC
# Line 1  Line 1 
1  package Whatpm::HTML;  package Whatpm::HTML;
2  use strict;  use strict;
3  our $VERSION=do{my @r=(q$Revision$=~/\d+/g);sprintf "%d."."%02d" x $#r,@r};  our $VERSION=do{my @r=(q$Revision$=~/\d+/g);sprintf "%d."."%02d" x $#r,@r};
4    use Error qw(:try);
5    
6    use Whatpm::HTML::Tokenizer;
7    
8    ## NOTE: This module don't check all HTML5 parse errors; character
9    ## encoding related parse errors are expected to be handled by relevant
10    ## modules.
11    ## Parse errors for control characters that are not allowed in HTML5
12    ## documents, for surrogate code points, and for noncharacter code
13    ## points, as well as U+FFFD substitions for characters whose code points
14    ## is higher than U+10FFFF may be detected by combining the parser with
15    ## the checker implemented by Whatpm::Charset::UnicodeChecker (for its
16    ## usage example, see |t/HTML-tree.t| in the Whatpm package or the
17    ## WebHACC::Language::HTML module in the WebHACC package).
18    
19  ## ISSUE:  ## ISSUE:
20  ## var doc = implementation.createDocument (null, null, null);  ## var doc = implementation.createDocument (null, null, null);
21  ## doc.write ('');  ## doc.write ('');
22  ## alert (doc.compatMode);  ## alert (doc.compatMode);
23    
24  ## ISSUE: HTML5 revision 967 says that the encoding layer MUST NOT  require IO::Handle;
25  ## strip BOM and the HTML layer MUST ignore it.  Whether we can do it  
26  ## is not yet clear.  ## Namespace URLs
27  ## "{U+FEFF}..." in UTF-16BE/UTF-16LE is three or four characters?  
28  ## "{U+FEFF}..." in GB18030?  my $HTML_NS = q<http://www.w3.org/1999/xhtml>;
29    my $MML_NS = q<http://www.w3.org/1998/Math/MathML>;
30  my $permitted_slash_tag_name = {  my $SVG_NS = q<http://www.w3.org/2000/svg>;
31    base => 1,  my $XLINK_NS = q<http://www.w3.org/1999/xlink>;
32    link => 1,  my $XML_NS = q<http://www.w3.org/XML/1998/namespace>;
33    meta => 1,  my $XMLNS_NS = q<http://www.w3.org/2000/xmlns/>;
34    hr => 1,  
35    br => 1,  ## Element categories
36    img=> 1,  
37    embed => 1,  ## Bits 12-15
38    param => 1,  sub SPECIAL_EL () { 0b1_000000000000000 }
39    area => 1,  sub SCOPING_EL () { 0b1_00000000000000 }
40    col => 1,  sub FORMATTING_EL () { 0b1_0000000000000 }
41    input => 1,  sub PHRASING_EL () { 0b1_000000000000 }
42    
43    ## Bits 10-11
44    #sub FOREIGN_EL () { 0b1_00000000000 } # see Whatpm::HTML::Tokenizer
45    sub FOREIGN_FLOW_CONTENT_EL () { 0b1_0000000000 }
46    
47    ## Bits 6-9
48    sub TABLE_SCOPING_EL () { 0b1_000000000 }
49    sub TABLE_ROWS_SCOPING_EL () { 0b1_00000000 }
50    sub TABLE_ROW_SCOPING_EL () { 0b1_0000000 }
51    sub TABLE_ROWS_EL () { 0b1_000000 }
52    
53    ## Bit 5
54    sub ADDRESS_DIV_P_EL () { 0b1_00000 }
55    
56    ## NOTE: Used in </body> and EOF algorithms.
57    ## Bit 4
58    sub ALL_END_TAG_OPTIONAL_EL () { 0b1_0000 }
59    
60    ## NOTE: Used in "generate implied end tags" algorithm.
61    ## NOTE: There is a code where a modified version of
62    ## END_TAG_OPTIONAL_EL is used in "generate implied end tags"
63    ## implementation (search for the algorithm name).
64    ## Bit 3
65    sub END_TAG_OPTIONAL_EL () { 0b1_000 }
66    
67    ## Bits 0-2
68    
69    sub MISC_SPECIAL_EL () { SPECIAL_EL | 0b000 }
70    sub FORM_EL () { SPECIAL_EL | 0b001 }
71    sub FRAMESET_EL () { SPECIAL_EL | 0b010 }
72    sub HEADING_EL () { SPECIAL_EL | 0b011 }
73    sub SELECT_EL () { SPECIAL_EL | 0b100 }
74    sub SCRIPT_EL () { SPECIAL_EL | 0b101 }
75    
76    sub ADDRESS_DIV_EL () { SPECIAL_EL | ADDRESS_DIV_P_EL | 0b001 }
77    sub BODY_EL () { SPECIAL_EL | ALL_END_TAG_OPTIONAL_EL | 0b001 }
78    
79    sub DTDD_EL () {
80      SPECIAL_EL |
81      END_TAG_OPTIONAL_EL |
82      ALL_END_TAG_OPTIONAL_EL |
83      0b010
84    }
85    sub LI_EL () {
86      SPECIAL_EL |
87      END_TAG_OPTIONAL_EL |
88      ALL_END_TAG_OPTIONAL_EL |
89      0b100
90    }
91    sub P_EL () {
92      SPECIAL_EL |
93      ADDRESS_DIV_P_EL |
94      END_TAG_OPTIONAL_EL |
95      ALL_END_TAG_OPTIONAL_EL |
96      0b001
97    }
98    
99    sub TABLE_ROW_EL () {
100      SPECIAL_EL |
101      TABLE_ROWS_EL |
102      TABLE_ROW_SCOPING_EL |
103      ALL_END_TAG_OPTIONAL_EL |
104      0b001
105    }
106    sub TABLE_ROW_GROUP_EL () {
107      SPECIAL_EL |
108      TABLE_ROWS_EL |
109      TABLE_ROWS_SCOPING_EL |
110      ALL_END_TAG_OPTIONAL_EL |
111      0b001
112    }
113    
114    sub MISC_SCOPING_EL () { SCOPING_EL | 0b000 }
115    sub BUTTON_EL () { SCOPING_EL | 0b001 }
116    sub CAPTION_EL () { SCOPING_EL | 0b010 }
117    sub HTML_EL () {
118      SCOPING_EL |
119      TABLE_SCOPING_EL |
120      TABLE_ROWS_SCOPING_EL |
121      TABLE_ROW_SCOPING_EL |
122      ALL_END_TAG_OPTIONAL_EL |
123      0b001
124    }
125    sub TABLE_EL () {
126      SCOPING_EL |
127      TABLE_ROWS_EL |
128      TABLE_SCOPING_EL |
129      0b001
130    }
131    sub TABLE_CELL_EL () {
132      SCOPING_EL |
133      TABLE_ROW_SCOPING_EL |
134      ALL_END_TAG_OPTIONAL_EL |
135      0b001
136    }
137    
138    sub MISC_FORMATTING_EL () { FORMATTING_EL | 0b000 }
139    sub A_EL () { FORMATTING_EL | 0b001 }
140    sub NOBR_EL () { FORMATTING_EL | 0b010 }
141    
142    sub RUBY_EL () { PHRASING_EL | 0b001 }
143    
144    ## ISSUE: ALL_END_TAG_OPTIONAL_EL?
145    sub OPTGROUP_EL () { PHRASING_EL | END_TAG_OPTIONAL_EL | 0b001 }
146    sub OPTION_EL () { PHRASING_EL | END_TAG_OPTIONAL_EL | 0b010 }
147    sub RUBY_COMPONENT_EL () { PHRASING_EL | END_TAG_OPTIONAL_EL | 0b100 }
148    
149    sub MML_AXML_EL () { PHRASING_EL | FOREIGN_EL | 0b001 }
150    
151    my $el_category = {
152      a => A_EL,
153      address => ADDRESS_DIV_EL,
154      applet => MISC_SCOPING_EL,
155      area => MISC_SPECIAL_EL,
156      article => MISC_SPECIAL_EL,
157      aside => MISC_SPECIAL_EL,
158      b => FORMATTING_EL,
159      base => MISC_SPECIAL_EL,
160      basefont => MISC_SPECIAL_EL,
161      bgsound => MISC_SPECIAL_EL,
162      big => FORMATTING_EL,
163      blockquote => MISC_SPECIAL_EL,
164      body => BODY_EL,
165      br => MISC_SPECIAL_EL,
166      button => BUTTON_EL,
167      caption => CAPTION_EL,
168      center => MISC_SPECIAL_EL,
169      col => MISC_SPECIAL_EL,
170      colgroup => MISC_SPECIAL_EL,
171      command => MISC_SPECIAL_EL,
172      datagrid => MISC_SPECIAL_EL,
173      dd => DTDD_EL,
174      details => MISC_SPECIAL_EL,
175      dialog => MISC_SPECIAL_EL,
176      dir => MISC_SPECIAL_EL,
177      div => ADDRESS_DIV_EL,
178      dl => MISC_SPECIAL_EL,
179      dt => DTDD_EL,
180      em => FORMATTING_EL,
181      embed => MISC_SPECIAL_EL,
182      fieldset => MISC_SPECIAL_EL,
183      figure => MISC_SPECIAL_EL,
184      font => FORMATTING_EL,
185      footer => MISC_SPECIAL_EL,
186      form => FORM_EL,
187      frame => MISC_SPECIAL_EL,
188      frameset => FRAMESET_EL,
189      h1 => HEADING_EL,
190      h2 => HEADING_EL,
191      h3 => HEADING_EL,
192      h4 => HEADING_EL,
193      h5 => HEADING_EL,
194      h6 => HEADING_EL,
195      head => MISC_SPECIAL_EL,
196      header => MISC_SPECIAL_EL,
197      hgroup => MISC_SPECIAL_EL,
198      hr => MISC_SPECIAL_EL,
199      html => HTML_EL,
200      i => FORMATTING_EL,
201      iframe => MISC_SPECIAL_EL,
202      img => MISC_SPECIAL_EL,
203      #image => MISC_SPECIAL_EL, ## NOTE: Commented out in the spec.
204      input => MISC_SPECIAL_EL,
205      isindex => MISC_SPECIAL_EL,
206      ## XXX keygen? (Whether a void element is in Special or not does not
207      ## affect to the processing, however.)
208      li => LI_EL,
209      link => MISC_SPECIAL_EL,
210      listing => MISC_SPECIAL_EL,
211      marquee => MISC_SCOPING_EL,
212      menu => MISC_SPECIAL_EL,
213      meta => MISC_SPECIAL_EL,
214      nav => MISC_SPECIAL_EL,
215      nobr => NOBR_EL,
216      noembed => MISC_SPECIAL_EL,
217      noframes => MISC_SPECIAL_EL,
218      noscript => MISC_SPECIAL_EL,
219      object => MISC_SCOPING_EL,
220      ol => MISC_SPECIAL_EL,
221      optgroup => OPTGROUP_EL,
222      option => OPTION_EL,
223      p => P_EL,
224      param => MISC_SPECIAL_EL,
225      plaintext => MISC_SPECIAL_EL,
226      pre => MISC_SPECIAL_EL,
227      rp => RUBY_COMPONENT_EL,
228      rt => RUBY_COMPONENT_EL,
229      ruby => RUBY_EL,
230      s => FORMATTING_EL,
231      script => MISC_SPECIAL_EL,
232      select => SELECT_EL,
233      section => MISC_SPECIAL_EL,
234      small => FORMATTING_EL,
235      spacer => MISC_SPECIAL_EL,
236      strike => FORMATTING_EL,
237      strong => FORMATTING_EL,
238      style => MISC_SPECIAL_EL,
239      table => TABLE_EL,
240      tbody => TABLE_ROW_GROUP_EL,
241      td => TABLE_CELL_EL,
242      textarea => MISC_SPECIAL_EL,
243      tfoot => TABLE_ROW_GROUP_EL,
244      th => TABLE_CELL_EL,
245      thead => TABLE_ROW_GROUP_EL,
246      title => MISC_SPECIAL_EL,
247      tr => TABLE_ROW_EL,
248      tt => FORMATTING_EL,
249      u => FORMATTING_EL,
250      ul => MISC_SPECIAL_EL,
251      wbr => MISC_SPECIAL_EL,
252      xmp => MISC_SPECIAL_EL,
253  };  };
254    
255  my $c1_entity_char = {  my $el_category_f = {
256    0x80 => 0x20AC,    $MML_NS => {
257    0x81 => 0xFFFD,      'annotation-xml' => MML_AXML_EL,
258    0x82 => 0x201A,      mi => FOREIGN_EL | FOREIGN_FLOW_CONTENT_EL,
259    0x83 => 0x0192,      mo => FOREIGN_EL | FOREIGN_FLOW_CONTENT_EL,
260    0x84 => 0x201E,      mn => FOREIGN_EL | FOREIGN_FLOW_CONTENT_EL,
261    0x85 => 0x2026,      ms => FOREIGN_EL | FOREIGN_FLOW_CONTENT_EL,
262    0x86 => 0x2020,      mtext => FOREIGN_EL | FOREIGN_FLOW_CONTENT_EL,
263    0x87 => 0x2021,    },
264    0x88 => 0x02C6,    $SVG_NS => {
265    0x89 => 0x2030,      foreignObject => SCOPING_EL | FOREIGN_EL | FOREIGN_FLOW_CONTENT_EL,
266    0x8A => 0x0160,      desc => FOREIGN_EL | FOREIGN_FLOW_CONTENT_EL,
267    0x8B => 0x2039,      title => FOREIGN_EL | FOREIGN_FLOW_CONTENT_EL,
268    0x8C => 0x0152,    },
269    0x8D => 0xFFFD,    ## NOTE: In addition, FOREIGN_EL is set to non-HTML elements.
   0x8E => 0x017D,  
   0x8F => 0xFFFD,  
   0x90 => 0xFFFD,  
   0x91 => 0x2018,  
   0x92 => 0x2019,  
   0x93 => 0x201C,  
   0x94 => 0x201D,  
   0x95 => 0x2022,  
   0x96 => 0x2013,  
   0x97 => 0x2014,  
   0x98 => 0x02DC,  
   0x99 => 0x2122,  
   0x9A => 0x0161,  
   0x9B => 0x203A,  
   0x9C => 0x0153,  
   0x9D => 0xFFFD,  
   0x9E => 0x017E,  
   0x9F => 0x0178,  
 }; # $c1_entity_char  
   
 my $special_category = {  
   address => 1, area => 1, base => 1, basefont => 1, bgsound => 1,  
   blockquote => 1, body => 1, br => 1, center => 1, col => 1, colgroup => 1,  
   dd => 1, dir => 1, div => 1, dl => 1, dt => 1, embed => 1, fieldset => 1,  
   form => 1, frame => 1, frameset => 1, h1 => 1, h2 => 1, h3 => 1,  
   h4 => 1, h5 => 1, h6 => 1, head => 1, hr => 1, iframe => 1, image => 1,  
   img => 1, input => 1, isindex => 1, li => 1, link => 1, listing => 1,  
   menu => 1, meta => 1, noembed => 1, noframes => 1, noscript => 1,  
   ol => 1, optgroup => 1, option => 1, p => 1, param => 1, plaintext => 1,  
   pre => 1, script => 1, select => 1, spacer => 1, style => 1, tbody => 1,  
   textarea => 1, tfoot => 1, thead => 1, title => 1, tr => 1, ul => 1, wbr => 1,  
270  };  };
271  my $scoping_category = {  
272    button => 1, caption => 1, html => 1, marquee => 1, object => 1,  my $svg_attr_name = {
273    table => 1, td => 1, th => 1,    attributename => 'attributeName',
274      attributetype => 'attributeType',
275      basefrequency => 'baseFrequency',
276      baseprofile => 'baseProfile',
277      calcmode => 'calcMode',
278      clippathunits => 'clipPathUnits',
279      contentscripttype => 'contentScriptType',
280      contentstyletype => 'contentStyleType',
281      diffuseconstant => 'diffuseConstant',
282      edgemode => 'edgeMode',
283      externalresourcesrequired => 'externalResourcesRequired',
284      filterres => 'filterRes',
285      filterunits => 'filterUnits',
286      glyphref => 'glyphRef',
287      gradienttransform => 'gradientTransform',
288      gradientunits => 'gradientUnits',
289      kernelmatrix => 'kernelMatrix',
290      kernelunitlength => 'kernelUnitLength',
291      keypoints => 'keyPoints',
292      keysplines => 'keySplines',
293      keytimes => 'keyTimes',
294      lengthadjust => 'lengthAdjust',
295      limitingconeangle => 'limitingConeAngle',
296      markerheight => 'markerHeight',
297      markerunits => 'markerUnits',
298      markerwidth => 'markerWidth',
299      maskcontentunits => 'maskContentUnits',
300      maskunits => 'maskUnits',
301      numoctaves => 'numOctaves',
302      pathlength => 'pathLength',
303      patterncontentunits => 'patternContentUnits',
304      patterntransform => 'patternTransform',
305      patternunits => 'patternUnits',
306      pointsatx => 'pointsAtX',
307      pointsaty => 'pointsAtY',
308      pointsatz => 'pointsAtZ',
309      preservealpha => 'preserveAlpha',
310      preserveaspectratio => 'preserveAspectRatio',
311      primitiveunits => 'primitiveUnits',
312      refx => 'refX',
313      refy => 'refY',
314      repeatcount => 'repeatCount',
315      repeatdur => 'repeatDur',
316      requiredextensions => 'requiredExtensions',
317      requiredfeatures => 'requiredFeatures',
318      specularconstant => 'specularConstant',
319      specularexponent => 'specularExponent',
320      spreadmethod => 'spreadMethod',
321      startoffset => 'startOffset',
322      stddeviation => 'stdDeviation',
323      stitchtiles => 'stitchTiles',
324      surfacescale => 'surfaceScale',
325      systemlanguage => 'systemLanguage',
326      tablevalues => 'tableValues',
327      targetx => 'targetX',
328      targety => 'targetY',
329      textlength => 'textLength',
330      viewbox => 'viewBox',
331      viewtarget => 'viewTarget',
332      xchannelselector => 'xChannelSelector',
333      ychannelselector => 'yChannelSelector',
334      zoomandpan => 'zoomAndPan',
335  };  };
336  my $formatting_category = {  
337    a => 1, b => 1, big => 1, em => 1, font => 1, i => 1, nobr => 1,  my $foreign_attr_xname = {
338    s => 1, small => 1, strile => 1, strong => 1, tt => 1, u => 1,    'xlink:actuate' => [$XLINK_NS, ['xlink', 'actuate']],
339      'xlink:arcrole' => [$XLINK_NS, ['xlink', 'arcrole']],
340      'xlink:href' => [$XLINK_NS, ['xlink', 'href']],
341      'xlink:role' => [$XLINK_NS, ['xlink', 'role']],
342      'xlink:show' => [$XLINK_NS, ['xlink', 'show']],
343      'xlink:title' => [$XLINK_NS, ['xlink', 'title']],
344      'xlink:type' => [$XLINK_NS, ['xlink', 'type']],
345      'xml:base' => [$XML_NS, ['xml', 'base']],
346      'xml:lang' => [$XML_NS, ['xml', 'lang']],
347      'xml:space' => [$XML_NS, ['xml', 'space']],
348      'xmlns' => [$XMLNS_NS, [undef, 'xmlns']],
349      'xmlns:xlink' => [$XMLNS_NS, ['xmlns', 'xlink']],
350  };  };
 # $phrasing_category: all other elements  
351    
352  sub parse_string ($$$;$) {  ## ISSUE: xmlns:xlink="non-xlink-ns" is not an error.
353    my $self = shift->new;  
354    my $s = \$_[0];  ## TODO: Invoke the reset algorithm when a resettable element is
355    ## created (cf. HTML5 revision 2259).
356    
357    sub parse_byte_string ($$$$;$) {
358      my $self = shift;
359      my $charset_name = shift;
360      open my $input, '<', ref $_[0] ? $_[0] : \($_[0]);
361      return $self->parse_byte_stream ($charset_name, $input, @_[1..$#_]);
362    } # parse_byte_string
363    
364    sub parse_byte_stream ($$$$;$$) {
365      # my ($self, $charset_name, $byte_stream, $doc, $onerror, $get_wrapper) = @_;
366      my $self = ref $_[0] ? shift : shift->new;
367      my $charset_name = shift;
368      my $byte_stream = $_[0];
369    
370      my $onerror = $_[2] || sub {
371        my (%opt) = @_;
372        warn "Parse error ($opt{type})\n";
373      };
374      $self->{parse_error} = $onerror; # updated later by parse_char_string
375    
376      my $get_wrapper = $_[3] || sub ($) {
377        return $_[0]; # $_[0] = byte stream handle, returned = arg to char handle
378      };
379    
380      ## HTML5 encoding sniffing algorithm
381      require Message::Charset::Info;
382      my $charset;
383      my $buffer;
384      my ($char_stream, $e_status);
385    
386      SNIFFING: {
387        ## NOTE: By setting |allow_fallback| option true when the
388        ## |get_decode_handle| method is invoked, we ignore what the HTML5
389        ## spec requires, i.e. unsupported encoding should be ignored.
390          ## TODO: We should not do this unless the parser is invoked
391          ## in the conformance checking mode, in which this behavior
392          ## would be useful.
393    
394        ## Step 1
395        if (defined $charset_name) {
396          $charset = Message::Charset::Info->get_by_html_name ($charset_name);
397              ## TODO: Is this ok?  Transfer protocol's parameter should be
398              ## interpreted in its semantics?
399    
400          ($char_stream, $e_status) = $charset->get_decode_handle
401              ($byte_stream, allow_error_reporting => 1,
402               allow_fallback => 1);
403          if ($char_stream) {
404            $self->{confident} = 1;
405            last SNIFFING;
406          } else {
407            !!!parse-error (type => 'charset:not supported',
408                            layer => 'encode',
409                            line => 1, column => 1,
410                            value => $charset_name,
411                            level => $self->{level}->{uncertain});
412          }
413        }
414    
415        ## Step 2
416        my $byte_buffer = '';
417        for (1..1024) {
418          my $char = $byte_stream->getc;
419          last unless defined $char;
420          $byte_buffer .= $char;
421        } ## TODO: timeout
422    
423        ## Step 3
424        if ($byte_buffer =~ /^\xFE\xFF/) {
425          $charset = Message::Charset::Info->get_by_html_name ('utf-16be');
426          ($char_stream, $e_status) = $charset->get_decode_handle
427              ($byte_stream, allow_error_reporting => 1,
428               allow_fallback => 1, byte_buffer => \$byte_buffer);
429          $self->{confident} = 1;
430          last SNIFFING;
431        } elsif ($byte_buffer =~ /^\xFF\xFE/) {
432          $charset = Message::Charset::Info->get_by_html_name ('utf-16le');
433          ($char_stream, $e_status) = $charset->get_decode_handle
434              ($byte_stream, allow_error_reporting => 1,
435               allow_fallback => 1, byte_buffer => \$byte_buffer);
436          $self->{confident} = 1;
437          last SNIFFING;
438        } elsif ($byte_buffer =~ /^\xEF\xBB\xBF/) {
439          $charset = Message::Charset::Info->get_by_html_name ('utf-8');
440          ($char_stream, $e_status) = $charset->get_decode_handle
441              ($byte_stream, allow_error_reporting => 1,
442               allow_fallback => 1, byte_buffer => \$byte_buffer);
443          $self->{confident} = 1;
444          last SNIFFING;
445        }
446    
447        ## Step 4
448        ## TODO: <meta charset>
449    
450        ## Step 5
451        ## TODO: from history
452    
453        ## Step 6
454        require Whatpm::Charset::UniversalCharDet;
455        $charset_name = Whatpm::Charset::UniversalCharDet->detect_byte_string
456            ($byte_buffer);
457        if (defined $charset_name) {
458          $charset = Message::Charset::Info->get_by_html_name ($charset_name);
459    
460          require Whatpm::Charset::DecodeHandle;
461          $buffer = Whatpm::Charset::DecodeHandle::ByteBuffer->new
462              ($byte_stream);
463          ($char_stream, $e_status) = $charset->get_decode_handle
464              ($buffer, allow_error_reporting => 1,
465               allow_fallback => 1, byte_buffer => \$byte_buffer);
466          if ($char_stream) {
467            $buffer->{buffer} = $byte_buffer;
468            !!!parse-error (type => 'sniffing:chardet',
469                            text => $charset_name,
470                            level => $self->{level}->{info},
471                            layer => 'encode',
472                            line => 1, column => 1);
473            $self->{confident} = 0;
474            last SNIFFING;
475          }
476        }
477    
478        ## Step 7: default
479        ## TODO: Make this configurable.
480        $charset = Message::Charset::Info->get_by_html_name ('windows-1252');
481            ## NOTE: We choose |windows-1252| here, since |utf-8| should be
482            ## detectable in the step 6.
483        require Whatpm::Charset::DecodeHandle;
484        $buffer = Whatpm::Charset::DecodeHandle::ByteBuffer->new
485            ($byte_stream);
486        ($char_stream, $e_status)
487            = $charset->get_decode_handle ($buffer,
488                                           allow_error_reporting => 1,
489                                           allow_fallback => 1,
490                                           byte_buffer => \$byte_buffer);
491        $buffer->{buffer} = $byte_buffer;
492        !!!parse-error (type => 'sniffing:default',
493                        text => 'windows-1252',
494                        level => $self->{level}->{info},
495                        line => 1, column => 1,
496                        layer => 'encode');
497        $self->{confident} = 0;
498      } # SNIFFING
499    
500      if ($e_status & Message::Charset::Info::FALLBACK_ENCODING_IMPL ()) {
501        $self->{input_encoding} = $charset->get_iana_name; ## TODO: Should we set actual charset decoder's encoding name?
502        !!!parse-error (type => 'chardecode:fallback',
503                        #text => $self->{input_encoding},
504                        level => $self->{level}->{uncertain},
505                        line => 1, column => 1,
506                        layer => 'encode');
507      } elsif (not ($e_status &
508                    Message::Charset::Info::ERROR_REPORTING_ENCODING_IMPL ())) {
509        $self->{input_encoding} = $charset->get_iana_name;
510        !!!parse-error (type => 'chardecode:no error',
511                        text => $self->{input_encoding},
512                        level => $self->{level}->{uncertain},
513                        line => 1, column => 1,
514                        layer => 'encode');
515      } else {
516        $self->{input_encoding} = $charset->get_iana_name;
517      }
518    
519      $self->{change_encoding} = sub {
520        my $self = shift;
521        $charset_name = shift;
522        my $token = shift;
523    
524        $charset = Message::Charset::Info->get_by_html_name ($charset_name);
525        ($char_stream, $e_status) = $charset->get_decode_handle
526            ($byte_stream, allow_error_reporting => 1, allow_fallback => 1,
527             byte_buffer => \ $buffer->{buffer});
528        
529        if ($char_stream) { # if supported
530          ## "Change the encoding" algorithm:
531          
532          ## Step 1
533          if (defined $self->{input_encoding} and
534              $self->{input_encoding} eq $charset_name) {
535            !!!parse-error (type => 'charset label:matching',
536                            text => $charset_name,
537                            level => $self->{level}->{info});
538            $self->{confident} = 1;
539            return;
540          }
541    
542          ## Step 2 (HTML5 revision 3205)
543          if (defined $self->{input_encoding} and
544              Message::Charset::Info->get_by_html_name ($self->{input_encoding})
545              ->{category} & Message::Charset::Info::CHARSET_CATEGORY_UTF16 ()) {
546            $self->{confident} = 1;
547            return;
548          }
549    
550          ## Step 3
551          if ($charset->{category} &
552              Message::Charset::Info::CHARSET_CATEGORY_UTF16 ()) {
553            $charset = Message::Charset::Info->get_by_html_name ('utf-8');
554            ($char_stream, $e_status) = $charset->get_decode_handle
555                ($byte_stream,
556                 byte_buffer => \ $buffer->{buffer});
557          }
558          $charset_name = $charset->get_iana_name;
559    
560          !!!parse-error (type => 'charset label detected',
561                          text => $self->{input_encoding},
562                          value => $charset_name,
563                          level => $self->{level}->{warn},
564                          token => $token);
565          
566          ## Step 4
567          # if (can) {
568            ## change the encoding on the fly.
569            #$self->{confident} = 1;
570            #return;
571          # }
572          
573          ## Step 5
574          throw Whatpm::HTML::RestartParser ();
575        }
576      }; # $self->{change_encoding}
577    
578      my $char_onerror = sub {
579        my (undef, $type, %opt) = @_;
580        !!!parse-error (layer => 'encode',
581                        line => $self->{line}, column => $self->{column} + 1,
582                        %opt, type => $type);
583        if ($opt{octets}) {
584          ${$opt{octets}} = "\x{FFFD}"; # relacement character
585        }
586      };
587    
588      my $wrapped_char_stream = $get_wrapper->($char_stream);
589      $wrapped_char_stream->onerror ($char_onerror);
590    
591      my @args = ($_[1], $_[2]); # $doc, $onerror - $get_wrapper = undef;
592      my $return;
593      try {
594        $return = $self->parse_char_stream ($wrapped_char_stream, @args);  
595      } catch Whatpm::HTML::RestartParser with {
596        ## NOTE: Invoked after {change_encoding}.
597    
598        if ($e_status & Message::Charset::Info::FALLBACK_ENCODING_IMPL ()) {
599          $self->{input_encoding} = $charset->get_iana_name; ## TODO: Should we set actual charset decoder's encoding name?
600          !!!parse-error (type => 'chardecode:fallback',
601                          level => $self->{level}->{uncertain},
602                          #text => $self->{input_encoding},
603                          line => 1, column => 1,
604                          layer => 'encode');
605        } elsif (not ($e_status &
606                      Message::Charset::Info::ERROR_REPORTING_ENCODING_IMPL ())) {
607          $self->{input_encoding} = $charset->get_iana_name;
608          !!!parse-error (type => 'chardecode:no error',
609                          text => $self->{input_encoding},
610                          level => $self->{level}->{uncertain},
611                          line => 1, column => 1,
612                          layer => 'encode');
613        } else {
614          $self->{input_encoding} = $charset->get_iana_name;
615        }
616        $self->{confident} = 1;
617    
618        $wrapped_char_stream = $get_wrapper->($char_stream);
619        $wrapped_char_stream->onerror ($char_onerror);
620    
621        $return = $self->parse_char_stream ($wrapped_char_stream, @args);
622      };
623      return $return;
624    } # parse_byte_stream
625    
626    ## NOTE: HTML5 spec says that the encoding layer MUST NOT strip BOM
627    ## and the HTML layer MUST ignore it.  However, we does strip BOM in
628    ## the encoding layer and the HTML layer does not ignore any U+FEFF,
629    ## because the core part of our HTML parser expects a string of character,
630    ## not a string of bytes or code units or anything which might contain a BOM.
631    ## Therefore, any parser interface that accepts a string of bytes,
632    ## such as |parse_byte_string| in this module, must ensure that it does
633    ## strip the BOM and never strip any ZWNBSP.
634    
635    sub parse_char_string ($$$;$$) {
636      #my ($self, $s, $doc, $onerror, $get_wrapper) = @_;
637      my $self = shift;
638      my $s = ref $_[0] ? $_[0] : \($_[0]);
639      require Whatpm::Charset::DecodeHandle;
640      my $input = Whatpm::Charset::DecodeHandle::CharString->new ($s);
641      return $self->parse_char_stream ($input, @_[1..$#_]);
642    } # parse_char_string
643    *parse_string = \&parse_char_string; ## NOTE: Alias for backward compatibility.
644    
645    sub parse_char_stream ($$$;$$) {
646      my $self = ref $_[0] ? shift : shift->new;
647      my $input = $_[0];
648    $self->{document} = $_[1];    $self->{document} = $_[1];
649      @{$self->{document}->child_nodes} = ();
650    
651    ## NOTE: |set_inner_html| copies most of this method's code    ## NOTE: |set_inner_html| copies most of this method's code
652    
653    my $i = 0;    ## Confidence: irrelevant.
654    my $line = 1;    $self->{confident} = 1 unless exists $self->{confident};
655    my $column = 0;  
656    $self->{set_next_input_character} = sub {    $self->{document}->input_encoding ($self->{input_encoding})
657          if defined $self->{input_encoding};
658    ## TODO: |{input_encoding}| is needless?
659    
660      $self->{line_prev} = $self->{line} = 1;
661      $self->{column_prev} = -1;
662      $self->{column} = 0;
663      $self->{set_nc} = sub {
664      my $self = shift;      my $self = shift;
665    
666      pop @{$self->{prev_input_character}};      my $char = '';
667      unshift @{$self->{prev_input_character}}, $self->{next_input_character};      if (defined $self->{next_nc}) {
668          $char = $self->{next_nc};
669          delete $self->{next_nc};
670          $self->{nc} = ord $char;
671        } else {
672          $self->{char_buffer} = '';
673          $self->{char_buffer_pos} = 0;
674    
675          my $count = $input->manakai_read_until
676             ($self->{char_buffer}, qr/[^\x00\x0A\x0D]/, $self->{char_buffer_pos});
677          if ($count) {
678            $self->{line_prev} = $self->{line};
679            $self->{column_prev} = $self->{column};
680            $self->{column}++;
681            $self->{nc}
682                = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
683            return;
684          }
685    
686      $self->{next_input_character} = -1 and return if $i >= length $$s;        if ($input->read ($char, 1)) {
687      $self->{next_input_character} = ord substr $$s, $i++, 1;          $self->{nc} = ord $char;
688      $column++;        } else {
689            $self->{nc} = -1;
690            return;
691          }
692        }
693    
694        ($self->{line_prev}, $self->{column_prev})
695            = ($self->{line}, $self->{column});
696        $self->{column}++;
697            
698      if ($self->{next_input_character} == 0x000A) { # LF      if ($self->{nc} == 0x000A) { # LF
699        $line++;        !!!cp ('j1');
700        $column = 0;        $self->{line}++;
701      } elsif ($self->{next_input_character} == 0x000D) { # CR        $self->{column} = 0;
702        $i++ if substr ($$s, $i, 1) eq "\x0A";      } elsif ($self->{nc} == 0x000D) { # CR
703        $self->{next_input_character} = 0x000A; # LF # MUST        !!!cp ('j2');
704        $line++;  ## TODO: support for abort/streaming
705        $column = 0;        my $next = '';
706      } elsif ($self->{next_input_character} > 0x10FFFF) {        if ($input->read ($next, 1) and $next ne "\x0A") {
707        $self->{next_input_character} = 0xFFFD; # REPLACEMENT CHARACTER # MUST          $self->{next_nc} = $next;
708      } elsif ($self->{next_input_character} == 0x0000) { # NULL        }
709          $self->{nc} = 0x000A; # LF # MUST
710          $self->{line}++;
711          $self->{column} = 0;
712        } elsif ($self->{nc} == 0x0000) { # NULL
713          !!!cp ('j4');
714        !!!parse-error (type => 'NULL');        !!!parse-error (type => 'NULL');
715        $self->{next_input_character} = 0xFFFD; # REPLACEMENT CHARACTER # MUST        $self->{nc} = 0xFFFD; # REPLACEMENT CHARACTER # MUST
716      }      }
717    };    };
718    $self->{prev_input_character} = [-1, -1, -1];  
719    $self->{next_input_character} = -1;    $self->{read_until} = sub {
720        #my ($scalar, $specials_range, $offset) = @_;
721        return 0 if defined $self->{next_nc};
722    
723        my $pattern = qr/[^$_[1]\x00\x0A\x0D]/;
724        my $offset = $_[2] || 0;
725    
726        if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
727          pos ($self->{char_buffer}) = $self->{char_buffer_pos};
728          if ($self->{char_buffer} =~ /\G(?>$pattern)+/) {
729            substr ($_[0], $offset)
730                = substr ($self->{char_buffer}, $-[0], $+[0] - $-[0]);
731            my $count = $+[0] - $-[0];
732            if ($count) {
733              $self->{column} += $count;
734              $self->{char_buffer_pos} += $count;
735              $self->{line_prev} = $self->{line};
736              $self->{column_prev} = $self->{column} - 1;
737              $self->{nc} = -1;
738            }
739            return $count;
740          } else {
741            return 0;
742          }
743        } else {
744          my $count = $input->manakai_read_until ($_[0], $pattern, $_[2]);
745          if ($count) {
746            $self->{column} += $count;
747            $self->{line_prev} = $self->{line};
748            $self->{column_prev} = $self->{column} - 1;
749            $self->{nc} = -1;
750          }
751          return $count;
752        }
753      }; # $self->{read_until}
754    
755    my $onerror = $_[2] || sub {    my $onerror = $_[2] || sub {
756      my (%opt) = @_;      my (%opt) = @_;
757      warn "Parse error ($opt{type}) at line $opt{line} column $opt{column}\n";      my $line = $opt{token} ? $opt{token}->{line} : $opt{line};
758        my $column = $opt{token} ? $opt{token}->{column} : $opt{column};
759        warn "Parse error ($opt{type}) at line $line column $column\n";
760    };    };
761    $self->{parse_error} = sub {    $self->{parse_error} = sub {
762      $onerror->(@_, line => $line, column => $column);      $onerror->(line => $self->{line}, column => $self->{column}, @_);
763    };    };
764    
765      my $char_onerror = sub {
766        my (undef, $type, %opt) = @_;
767        !!!parse-error (layer => 'encode',
768                        line => $self->{line}, column => $self->{column} + 1,
769                        %opt, type => $type);
770      }; # $char_onerror
771    
772      if ($_[3]) {
773        $input = $_[3]->($input);
774        $input->onerror ($char_onerror);
775      } else {
776        $input->onerror ($char_onerror) unless defined $input->onerror;
777      }
778    
779    $self->_initialize_tokenizer;    $self->_initialize_tokenizer;
780    $self->_initialize_tree_constructor;    $self->_initialize_tree_constructor;
781    $self->_construct_tree;    $self->_construct_tree;
782    $self->_terminate_tree_constructor;    $self->_terminate_tree_constructor;
783    
784      delete $self->{parse_error}; # remove loop
785    
786    return $self->{document};    return $self->{document};
787  } # parse_string  } # parse_char_stream
788    
789  sub new ($) {  sub new ($) {
790    my $class = shift;    my $class = shift;
791    my $self = bless {}, $class;    my $self = bless {
792    $self->{set_next_input_character} = sub {      level => {must => 'm',
793      $self->{next_input_character} = -1;                should => 's',
794                  warn => 'w',
795                  info => 'i',
796                  uncertain => 'u'},
797      }, $class;
798      $self->{set_nc} = sub {
799        $self->{nc} = -1;
800    };    };
801    $self->{parse_error} = sub {    $self->{parse_error} = sub {
802      #      #
803    };    };
804      $self->{change_encoding} = sub {
805        # if ($_[0] is a supported encoding) {
806        #   run "change the encoding" algorithm;
807        #   throw Whatpm::HTML::RestartParser (charset => $new_encoding);
808        # }
809      };
810      $self->{application_cache_selection} = sub {
811        #
812      };
813    return $self;    return $self;
814  } # new  } # new
815    
816  sub CM_ENTITY () { 0b001 } # & markup in data  ## Insertion modes
 sub CM_LIMITED_MARKUP () { 0b010 } # < markup in data (limited)  
 sub CM_FULL_MARKUP () { 0b100 } # < markup in data (any)  
   
 sub PLAINTEXT_CONTENT_MODEL () { 0 }  
 sub CDATA_CONTENT_MODEL () { CM_LIMITED_MARKUP }  
 sub RCDATA_CONTENT_MODEL () { CM_ENTITY | CM_LIMITED_MARKUP }  
 sub PCDATA_CONTENT_MODEL () { CM_ENTITY | CM_FULL_MARKUP }  
   
 sub DOCTYPE_TOKEN () { 1 }  
 sub COMMENT_TOKEN () { 2 }  
 sub START_TAG_TOKEN () { 3 }  
 sub END_TAG_TOKEN () { 4 }  
 sub END_OF_FILE_TOKEN () { 5 }  
 sub CHARACTER_TOKEN () { 6 }  
817    
818  sub AFTER_HTML_IMS () { 0b100 }  sub AFTER_HTML_IMS () { 0b100 }
819  sub HEAD_IMS ()       { 0b1000 }  sub HEAD_IMS ()       { 0b1000 }
# Line 174  sub TABLE_IMS ()      { 0b1000000 } Line 823  sub TABLE_IMS ()      { 0b1000000 }
823  sub ROW_IMS ()        { 0b10000000 }  sub ROW_IMS ()        { 0b10000000 }
824  sub BODY_AFTER_IMS () { 0b100000000 }  sub BODY_AFTER_IMS () { 0b100000000 }
825  sub FRAME_IMS ()      { 0b1000000000 }  sub FRAME_IMS ()      { 0b1000000000 }
826    sub SELECT_IMS ()     { 0b10000000000 }
827    #sub IN_FOREIGN_CONTENT_IM () { 0b100000000000 } # see Whatpm::HTML::Tokenizer
828        ## NOTE: "in foreign content" insertion mode is special; it is combined
829        ## with the secondary insertion mode.  In this parser, they are stored
830        ## together in the bit-or'ed form.
831    sub IN_CDATA_RCDATA_IM () { 0b1000000000000 }
832        ## NOTE: "in CDATA/RCDATA" insertion mode is also special; it is
833        ## combined with the original insertion mode.  In thie parser,
834        ## they are stored together in the bit-or'ed form.
835    
836    sub IM_MASK () { 0b11111111111 }
837    
838    ## NOTE: "initial" and "before html" insertion modes have no constants.
839    
840    ## NOTE: "after after body" insertion mode.
841  sub AFTER_HTML_BODY_IM () { AFTER_HTML_IMS | BODY_AFTER_IMS }  sub AFTER_HTML_BODY_IM () { AFTER_HTML_IMS | BODY_AFTER_IMS }
842    
843    ## NOTE: "after after frameset" insertion mode.
844  sub AFTER_HTML_FRAMESET_IM () { AFTER_HTML_IMS | FRAME_IMS }  sub AFTER_HTML_FRAMESET_IM () { AFTER_HTML_IMS | FRAME_IMS }
845    
846  sub IN_HEAD_IM () { HEAD_IMS | 0b00 }  sub IN_HEAD_IM () { HEAD_IMS | 0b00 }
847  sub IN_HEAD_NOSCRIPT_IM () { HEAD_IMS | 0b01 }  sub IN_HEAD_NOSCRIPT_IM () { HEAD_IMS | 0b01 }
848  sub AFTER_HEAD_IM () { HEAD_IMS | 0b10 }  sub AFTER_HEAD_IM () { HEAD_IMS | 0b10 }
# Line 190  sub IN_TABLE_IM () { TABLE_IMS } Line 856  sub IN_TABLE_IM () { TABLE_IMS }
856  sub AFTER_BODY_IM () { BODY_AFTER_IMS }  sub AFTER_BODY_IM () { BODY_AFTER_IMS }
857  sub IN_FRAMESET_IM () { FRAME_IMS | 0b01 }  sub IN_FRAMESET_IM () { FRAME_IMS | 0b01 }
858  sub AFTER_FRAMESET_IM () { FRAME_IMS | 0b10 }  sub AFTER_FRAMESET_IM () { FRAME_IMS | 0b10 }
859  sub IN_SELECT_IM () { 0b01 }  sub IN_SELECT_IM () { SELECT_IMS | 0b01 }
860    sub IN_SELECT_IN_TABLE_IM () { SELECT_IMS | 0b10 }
861  sub IN_COLUMN_GROUP_IM () { 0b10 }  sub IN_COLUMN_GROUP_IM () { 0b10 }
862    
 ## Implementations MUST act as if state machine in the spec  
   
 sub _initialize_tokenizer ($) {  
   my $self = shift;  
   $self->{state} = 'data'; # MUST  
   $self->{content_model} = PCDATA_CONTENT_MODEL; # be  
   undef $self->{current_token}; # start tag, end tag, comment, or DOCTYPE  
   undef $self->{current_attribute};  
   undef $self->{last_emitted_start_tag_name};  
   undef $self->{last_attribute_value_state};  
   $self->{char} = [];  
   # $self->{next_input_character}  
   !!!next-input-character;  
   $self->{token} = [];  
   # $self->{escape}  
 } # _initialize_tokenizer  
   
 ## A token has:  
 ##   ->{type} == DOCTYPE_TOKEN, START_TAG_TOKEN, END_TAG_TOKEN, COMMENT_TOKEN,  
 ##       CHARACTER_TOKEN, or END_OF_FILE_TOKEN  
 ##   ->{name} (DOCTYPE_TOKEN)  
 ##   ->{tag_name} (START_TAG_TOKEN, END_TAG_TOKEN)  
 ##   ->{public_identifier} (DOCTYPE_TOKEN)  
 ##   ->{system_identifier} (DOCTYPE_TOKEN)  
 ##   ->{correct} == 1 or 0 (DOCTYPE_TOKEN)  
 ##   ->{attributes} isa HASH (START_TAG_TOKEN, END_TAG_TOKEN)  
 ##   ->{data} (COMMENT_TOKEN, CHARACTER_TOKEN)  
   
 ## Emitted token MUST immediately be handled by the tree construction state.  
   
 ## Before each step, UA MAY check to see if either one of the scripts in  
 ## "list of scripts that will execute as soon as possible" or the first  
 ## script in the "list of scripts that will execute asynchronously",  
 ## has completed loading.  If one has, then it MUST be executed  
 ## and removed from the list.  
   
 sub _get_next_token ($) {  
   my $self = shift;  
   if (@{$self->{token}}) {  
     return shift @{$self->{token}};  
   }  
   
   A: {  
     if ($self->{state} eq 'data') {  
       if ($self->{next_input_character} == 0x0026) { # &  
         if ($self->{content_model} & CM_ENTITY) { # PCDATA | RCDATA  
           $self->{state} = 'entity data';  
           !!!next-input-character;  
           redo A;  
         } else {  
           #  
         }  
       } elsif ($self->{next_input_character} == 0x002D) { # -  
         if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA  
           unless ($self->{escape}) {  
             if ($self->{prev_input_character}->[0] == 0x002D and # -  
                 $self->{prev_input_character}->[1] == 0x0021 and # !  
                 $self->{prev_input_character}->[2] == 0x003C) { # <  
               $self->{escape} = 1;  
             }  
           }  
         }  
           
         #  
       } elsif ($self->{next_input_character} == 0x003C) { # <  
         if ($self->{content_model} & CM_FULL_MARKUP or # PCDATA  
             (($self->{content_model} & CM_LIMITED_MARKUP) and # CDATA | RCDATA  
              not $self->{escape})) {  
           $self->{state} = 'tag open';  
           !!!next-input-character;  
           redo A;  
         } else {  
           #  
         }  
       } elsif ($self->{next_input_character} == 0x003E) { # >  
         if ($self->{escape} and  
             ($self->{content_model} & CM_LIMITED_MARKUP)) { # RCDATA | CDATA  
           if ($self->{prev_input_character}->[0] == 0x002D and # -  
               $self->{prev_input_character}->[1] == 0x002D) { # -  
             delete $self->{escape};  
           }  
         }  
           
         #  
       } elsif ($self->{next_input_character} == -1) {  
         !!!emit ({type => END_OF_FILE_TOKEN});  
         last A; ## TODO: ok?  
       }  
       # Anything else  
       my $token = {type => CHARACTER_TOKEN,  
                    data => chr $self->{next_input_character}};  
       ## Stay in the data state  
       !!!next-input-character;  
   
       !!!emit ($token);  
   
       redo A;  
     } elsif ($self->{state} eq 'entity data') {  
       ## (cannot happen in CDATA state)  
         
       my $token = $self->_tokenize_attempt_to_consume_an_entity (0);  
   
       $self->{state} = 'data';  
       # next-input-character is already done  
   
       unless (defined $token) {  
         !!!emit ({type => CHARACTER_TOKEN, data => '&'});  
       } else {  
         !!!emit ($token);  
       }  
   
       redo A;  
     } elsif ($self->{state} eq 'tag open') {  
       if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA  
         if ($self->{next_input_character} == 0x002F) { # /  
           !!!next-input-character;  
           $self->{state} = 'close tag open';  
           redo A;  
         } else {  
           ## reconsume  
           $self->{state} = 'data';  
   
           !!!emit ({type => CHARACTER_TOKEN, data => '<'});  
   
           redo A;  
         }  
       } elsif ($self->{content_model} & CM_FULL_MARKUP) { # PCDATA  
         if ($self->{next_input_character} == 0x0021) { # !  
           $self->{state} = 'markup declaration open';  
           !!!next-input-character;  
           redo A;  
         } elsif ($self->{next_input_character} == 0x002F) { # /  
           $self->{state} = 'close tag open';  
           !!!next-input-character;  
           redo A;  
         } elsif (0x0041 <= $self->{next_input_character} and  
                  $self->{next_input_character} <= 0x005A) { # A..Z  
           $self->{current_token}  
             = {type => START_TAG_TOKEN,  
                tag_name => chr ($self->{next_input_character} + 0x0020)};  
           $self->{state} = 'tag name';  
           !!!next-input-character;  
           redo A;  
         } elsif (0x0061 <= $self->{next_input_character} and  
                  $self->{next_input_character} <= 0x007A) { # a..z  
           $self->{current_token} = {type => START_TAG_TOKEN,  
                             tag_name => chr ($self->{next_input_character})};  
           $self->{state} = 'tag name';  
           !!!next-input-character;  
           redo A;  
         } elsif ($self->{next_input_character} == 0x003E) { # >  
           !!!parse-error (type => 'empty start tag');  
           $self->{state} = 'data';  
           !!!next-input-character;  
   
           !!!emit ({type => CHARACTER_TOKEN, data => '<>'});  
   
           redo A;  
         } elsif ($self->{next_input_character} == 0x003F) { # ?  
           !!!parse-error (type => 'pio');  
           $self->{state} = 'bogus comment';  
           ## $self->{next_input_character} is intentionally left as is  
           redo A;  
         } else {  
           !!!parse-error (type => 'bare stago');  
           $self->{state} = 'data';  
           ## reconsume  
   
           !!!emit ({type => CHARACTER_TOKEN, data => '<'});  
   
           redo A;  
         }  
       } else {  
         die "$0: $self->{content_model} in tag open";  
       }  
     } elsif ($self->{state} eq 'close tag open') {  
       if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA  
         if (defined $self->{last_emitted_start_tag_name}) {  
           ## NOTE: <http://krijnhoetmer.nl/irc-logs/whatwg/20070626#l-564>  
           my @next_char;  
           TAGNAME: for (my $i = 0; $i < length $self->{last_emitted_start_tag_name}; $i++) {  
             push @next_char, $self->{next_input_character};  
             my $c = ord substr ($self->{last_emitted_start_tag_name}, $i, 1);  
             my $C = 0x0061 <= $c && $c <= 0x007A ? $c - 0x0020 : $c;  
             if ($self->{next_input_character} == $c or $self->{next_input_character} == $C) {  
               !!!next-input-character;  
               next TAGNAME;  
             } else {  
               $self->{next_input_character} = shift @next_char; # reconsume  
               !!!back-next-input-character (@next_char);  
               $self->{state} = 'data';  
   
               !!!emit ({type => CHARACTER_TOKEN, data => '</'});  
     
               redo A;  
             }  
           }  
           push @next_char, $self->{next_input_character};  
         
           unless ($self->{next_input_character} == 0x0009 or # HT  
                   $self->{next_input_character} == 0x000A or # LF  
                   $self->{next_input_character} == 0x000B or # VT  
                   $self->{next_input_character} == 0x000C or # FF  
                   $self->{next_input_character} == 0x0020 or # SP  
                   $self->{next_input_character} == 0x003E or # >  
                   $self->{next_input_character} == 0x002F or # /  
                   $self->{next_input_character} == -1) {  
             $self->{next_input_character} = shift @next_char; # reconsume  
             !!!back-next-input-character (@next_char);  
             $self->{state} = 'data';  
             !!!emit ({type => CHARACTER_TOKEN, data => '</'});  
             redo A;  
           } else {  
             $self->{next_input_character} = shift @next_char;  
             !!!back-next-input-character (@next_char);  
             # and consume...  
           }  
         } else {  
           ## No start tag token has ever been emitted  
           # next-input-character is already done  
           $self->{state} = 'data';  
           !!!emit ({type => CHARACTER_TOKEN, data => '</'});  
           redo A;  
         }  
       }  
         
       if (0x0041 <= $self->{next_input_character} and  
           $self->{next_input_character} <= 0x005A) { # A..Z  
         $self->{current_token} = {type => END_TAG_TOKEN,  
                           tag_name => chr ($self->{next_input_character} + 0x0020)};  
         $self->{state} = 'tag name';  
         !!!next-input-character;  
         redo A;  
       } elsif (0x0061 <= $self->{next_input_character} and  
                $self->{next_input_character} <= 0x007A) { # a..z  
         $self->{current_token} = {type => END_TAG_TOKEN,  
                           tag_name => chr ($self->{next_input_character})};  
         $self->{state} = 'tag name';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x003E) { # >  
         !!!parse-error (type => 'empty end tag');  
         $self->{state} = 'data';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'bare etago');  
         $self->{state} = 'data';  
         # reconsume  
   
         !!!emit ({type => CHARACTER_TOKEN, data => '</'});  
   
         redo A;  
       } else {  
         !!!parse-error (type => 'bogus end tag');  
         $self->{state} = 'bogus comment';  
         ## $self->{next_input_character} is intentionally left as is  
         redo A;  
       }  
     } elsif ($self->{state} eq 'tag name') {  
       if ($self->{next_input_character} == 0x0009 or # HT  
           $self->{next_input_character} == 0x000A or # LF  
           $self->{next_input_character} == 0x000B or # VT  
           $self->{next_input_character} == 0x000C or # FF  
           $self->{next_input_character} == 0x0020) { # SP  
         $self->{state} = 'before attribute name';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x003E) { # >  
         if ($self->{current_token}->{type} == START_TAG_TOKEN) {  
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
           $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};  
         } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {  
           $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST  
           if ($self->{current_token}->{attributes}) {  
             !!!parse-error (type => 'end tag attribute');  
           }  
         } else {  
           die "$0: $self->{current_token}->{type}: Unknown token type";  
         }  
         $self->{state} = 'data';  
         !!!next-input-character;  
   
         !!!emit ($self->{current_token}); # start tag or end tag  
   
         redo A;  
       } elsif (0x0041 <= $self->{next_input_character} and  
                $self->{next_input_character} <= 0x005A) { # A..Z  
         $self->{current_token}->{tag_name} .= chr ($self->{next_input_character} + 0x0020);  
           # start tag or end tag  
         ## Stay in this state  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed tag');  
         if ($self->{current_token}->{type} == START_TAG_TOKEN) {  
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
           $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};  
         } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {  
           $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST  
           if ($self->{current_token}->{attributes}) {  
             !!!parse-error (type => 'end tag attribute');  
           }  
         } else {  
           die "$0: $self->{current_token}->{type}: Unknown token type";  
         }  
         $self->{state} = 'data';  
         # reconsume  
   
         !!!emit ($self->{current_token}); # start tag or end tag  
   
         redo A;  
       } elsif ($self->{next_input_character} == 0x002F) { # /  
         !!!next-input-character;  
         if ($self->{next_input_character} == 0x003E and # >  
             $self->{current_token}->{type} == START_TAG_TOKEN and  
             $permitted_slash_tag_name->{$self->{current_token}->{tag_name}}) {  
           # permitted slash  
           #  
         } else {  
           !!!parse-error (type => 'nestc');  
         }  
         $self->{state} = 'before attribute name';  
         # next-input-character is already done  
         redo A;  
       } else {  
         $self->{current_token}->{tag_name} .= chr $self->{next_input_character};  
           # start tag or end tag  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'before attribute name') {  
       if ($self->{next_input_character} == 0x0009 or # HT  
           $self->{next_input_character} == 0x000A or # LF  
           $self->{next_input_character} == 0x000B or # VT  
           $self->{next_input_character} == 0x000C or # FF  
           $self->{next_input_character} == 0x0020) { # SP  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x003E) { # >  
         if ($self->{current_token}->{type} == START_TAG_TOKEN) {  
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
           $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};  
         } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {  
           $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST  
           if ($self->{current_token}->{attributes}) {  
             !!!parse-error (type => 'end tag attribute');  
           }  
         } else {  
           die "$0: $self->{current_token}->{type}: Unknown token type";  
         }  
         $self->{state} = 'data';  
         !!!next-input-character;  
   
         !!!emit ($self->{current_token}); # start tag or end tag  
   
         redo A;  
       } elsif (0x0041 <= $self->{next_input_character} and  
                $self->{next_input_character} <= 0x005A) { # A..Z  
         $self->{current_attribute} = {name => chr ($self->{next_input_character} + 0x0020),  
                               value => ''};  
         $self->{state} = 'attribute name';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x002F) { # /  
         !!!next-input-character;  
         if ($self->{next_input_character} == 0x003E and # >  
             $self->{current_token}->{type} == START_TAG_TOKEN and  
             $permitted_slash_tag_name->{$self->{current_token}->{tag_name}}) {  
           # permitted slash  
           #  
         } else {  
           !!!parse-error (type => 'nestc');  
         }  
         ## Stay in the state  
         # next-input-character is already done  
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed tag');  
         if ($self->{current_token}->{type} == START_TAG_TOKEN) {  
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
           $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};  
         } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {  
           $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST  
           if ($self->{current_token}->{attributes}) {  
             !!!parse-error (type => 'end tag attribute');  
           }  
         } else {  
           die "$0: $self->{current_token}->{type}: Unknown token type";  
         }  
         $self->{state} = 'data';  
         # reconsume  
   
         !!!emit ($self->{current_token}); # start tag or end tag  
   
         redo A;  
       } else {  
         $self->{current_attribute} = {name => chr ($self->{next_input_character}),  
                               value => ''};  
         $self->{state} = 'attribute name';  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'attribute name') {  
       my $before_leave = sub {  
         if (exists $self->{current_token}->{attributes} # start tag or end tag  
             ->{$self->{current_attribute}->{name}}) { # MUST  
           !!!parse-error (type => 'duplicate attribute:'.$self->{current_attribute}->{name});  
           ## Discard $self->{current_attribute} # MUST  
         } else {  
           $self->{current_token}->{attributes}->{$self->{current_attribute}->{name}}  
             = $self->{current_attribute};  
         }  
       }; # $before_leave  
   
       if ($self->{next_input_character} == 0x0009 or # HT  
           $self->{next_input_character} == 0x000A or # LF  
           $self->{next_input_character} == 0x000B or # VT  
           $self->{next_input_character} == 0x000C or # FF  
           $self->{next_input_character} == 0x0020) { # SP  
         $before_leave->();  
         $self->{state} = 'after attribute name';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x003D) { # =  
         $before_leave->();  
         $self->{state} = 'before attribute value';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x003E) { # >  
         $before_leave->();  
         if ($self->{current_token}->{type} == START_TAG_TOKEN) {  
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
           $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};  
         } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {  
           $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST  
           if ($self->{current_token}->{attributes}) {  
             !!!parse-error (type => 'end tag attribute');  
           }  
         } else {  
           die "$0: $self->{current_token}->{type}: Unknown token type";  
         }  
         $self->{state} = 'data';  
         !!!next-input-character;  
   
         !!!emit ($self->{current_token}); # start tag or end tag  
   
         redo A;  
       } elsif (0x0041 <= $self->{next_input_character} and  
                $self->{next_input_character} <= 0x005A) { # A..Z  
         $self->{current_attribute}->{name} .= chr ($self->{next_input_character} + 0x0020);  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x002F) { # /  
         $before_leave->();  
         !!!next-input-character;  
         if ($self->{next_input_character} == 0x003E and # >  
             $self->{current_token}->{type} == START_TAG_TOKEN and  
             $permitted_slash_tag_name->{$self->{current_token}->{tag_name}}) {  
           # permitted slash  
           #  
         } else {  
           !!!parse-error (type => 'nestc');  
         }  
         $self->{state} = 'before attribute name';  
         # next-input-character is already done  
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed tag');  
         $before_leave->();  
         if ($self->{current_token}->{type} == START_TAG_TOKEN) {  
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
           $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};  
         } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {  
           $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST  
           if ($self->{current_token}->{attributes}) {  
             !!!parse-error (type => 'end tag attribute');  
           }  
         } else {  
           die "$0: $self->{current_token}->{type}: Unknown token type";  
         }  
         $self->{state} = 'data';  
         # reconsume  
   
         !!!emit ($self->{current_token}); # start tag or end tag  
   
         redo A;  
       } else {  
         $self->{current_attribute}->{name} .= chr ($self->{next_input_character});  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'after attribute name') {  
       if ($self->{next_input_character} == 0x0009 or # HT  
           $self->{next_input_character} == 0x000A or # LF  
           $self->{next_input_character} == 0x000B or # VT  
           $self->{next_input_character} == 0x000C or # FF  
           $self->{next_input_character} == 0x0020) { # SP  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x003D) { # =  
         $self->{state} = 'before attribute value';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x003E) { # >  
         if ($self->{current_token}->{type} == START_TAG_TOKEN) {  
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
           $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};  
         } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {  
           $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST  
           if ($self->{current_token}->{attributes}) {  
             !!!parse-error (type => 'end tag attribute');  
           }  
         } else {  
           die "$0: $self->{current_token}->{type}: Unknown token type";  
         }  
         $self->{state} = 'data';  
         !!!next-input-character;  
   
         !!!emit ($self->{current_token}); # start tag or end tag  
   
         redo A;  
       } elsif (0x0041 <= $self->{next_input_character} and  
                $self->{next_input_character} <= 0x005A) { # A..Z  
         $self->{current_attribute} = {name => chr ($self->{next_input_character} + 0x0020),  
                               value => ''};  
         $self->{state} = 'attribute name';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x002F) { # /  
         !!!next-input-character;  
         if ($self->{next_input_character} == 0x003E and # >  
             $self->{current_token}->{type} == START_TAG_TOKEN and  
             $permitted_slash_tag_name->{$self->{current_token}->{tag_name}}) {  
           # permitted slash  
           #  
         } else {  
           !!!parse-error (type => 'nestc');  
           ## TODO: Different error type for <aa / bb> than <aa/>  
         }  
         $self->{state} = 'before attribute name';  
         # next-input-character is already done  
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed tag');  
         if ($self->{current_token}->{type} == START_TAG_TOKEN) {  
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
           $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};  
         } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {  
           $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST  
           if ($self->{current_token}->{attributes}) {  
             !!!parse-error (type => 'end tag attribute');  
           }  
         } else {  
           die "$0: $self->{current_token}->{type}: Unknown token type";  
         }  
         $self->{state} = 'data';  
         # reconsume  
   
         !!!emit ($self->{current_token}); # start tag or end tag  
   
         redo A;  
       } else {  
         $self->{current_attribute} = {name => chr ($self->{next_input_character}),  
                               value => ''};  
         $self->{state} = 'attribute name';  
         !!!next-input-character;  
         redo A;          
       }  
     } elsif ($self->{state} eq 'before attribute value') {  
       if ($self->{next_input_character} == 0x0009 or # HT  
           $self->{next_input_character} == 0x000A or # LF  
           $self->{next_input_character} == 0x000B or # VT  
           $self->{next_input_character} == 0x000C or # FF  
           $self->{next_input_character} == 0x0020) { # SP        
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x0022) { # "  
         $self->{state} = 'attribute value (double-quoted)';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x0026) { # &  
         $self->{state} = 'attribute value (unquoted)';  
         ## reconsume  
         redo A;  
       } elsif ($self->{next_input_character} == 0x0027) { # '  
         $self->{state} = 'attribute value (single-quoted)';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x003E) { # >  
         if ($self->{current_token}->{type} == START_TAG_TOKEN) {  
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
           $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};  
         } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {  
           $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST  
           if ($self->{current_token}->{attributes}) {  
             !!!parse-error (type => 'end tag attribute');  
           }  
         } else {  
           die "$0: $self->{current_token}->{type}: Unknown token type";  
         }  
         $self->{state} = 'data';  
         !!!next-input-character;  
   
         !!!emit ($self->{current_token}); # start tag or end tag  
   
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed tag');  
         if ($self->{current_token}->{type} == START_TAG_TOKEN) {  
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
           $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};  
         } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {  
           $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST  
           if ($self->{current_token}->{attributes}) {  
             !!!parse-error (type => 'end tag attribute');  
           }  
         } else {  
           die "$0: $self->{current_token}->{type}: Unknown token type";  
         }  
         $self->{state} = 'data';  
         ## reconsume  
   
         !!!emit ($self->{current_token}); # start tag or end tag  
   
         redo A;  
       } else {  
         $self->{current_attribute}->{value} .= chr ($self->{next_input_character});  
         $self->{state} = 'attribute value (unquoted)';  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'attribute value (double-quoted)') {  
       if ($self->{next_input_character} == 0x0022) { # "  
         $self->{state} = 'before attribute name';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x0026) { # &  
         $self->{last_attribute_value_state} = 'attribute value (double-quoted)';  
         $self->{state} = 'entity in attribute value';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed attribute value');  
         if ($self->{current_token}->{type} == START_TAG_TOKEN) {  
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
           $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};  
         } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {  
           $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST  
           if ($self->{current_token}->{attributes}) {  
             !!!parse-error (type => 'end tag attribute');  
           }  
         } else {  
           die "$0: $self->{current_token}->{type}: Unknown token type";  
         }  
         $self->{state} = 'data';  
         ## reconsume  
   
         !!!emit ($self->{current_token}); # start tag or end tag  
   
         redo A;  
       } else {  
         $self->{current_attribute}->{value} .= chr ($self->{next_input_character});  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'attribute value (single-quoted)') {  
       if ($self->{next_input_character} == 0x0027) { # '  
         $self->{state} = 'before attribute name';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x0026) { # &  
         $self->{last_attribute_value_state} = 'attribute value (single-quoted)';  
         $self->{state} = 'entity in attribute value';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed attribute value');  
         if ($self->{current_token}->{type} == START_TAG_TOKEN) {  
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
           $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};  
         } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {  
           $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST  
           if ($self->{current_token}->{attributes}) {  
             !!!parse-error (type => 'end tag attribute');  
           }  
         } else {  
           die "$0: $self->{current_token}->{type}: Unknown token type";  
         }  
         $self->{state} = 'data';  
         ## reconsume  
   
         !!!emit ($self->{current_token}); # start tag or end tag  
   
         redo A;  
       } else {  
         $self->{current_attribute}->{value} .= chr ($self->{next_input_character});  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'attribute value (unquoted)') {  
       if ($self->{next_input_character} == 0x0009 or # HT  
           $self->{next_input_character} == 0x000A or # LF  
           $self->{next_input_character} == 0x000B or # HT  
           $self->{next_input_character} == 0x000C or # FF  
           $self->{next_input_character} == 0x0020) { # SP  
         $self->{state} = 'before attribute name';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x0026) { # &  
         $self->{last_attribute_value_state} = 'attribute value (unquoted)';  
         $self->{state} = 'entity in attribute value';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x003E) { # >  
         if ($self->{current_token}->{type} == START_TAG_TOKEN) {  
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
           $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};  
         } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {  
           $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST  
           if ($self->{current_token}->{attributes}) {  
             !!!parse-error (type => 'end tag attribute');  
           }  
         } else {  
           die "$0: $self->{current_token}->{type}: Unknown token type";  
         }  
         $self->{state} = 'data';  
         !!!next-input-character;  
   
         !!!emit ($self->{current_token}); # start tag or end tag  
   
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed tag');  
         if ($self->{current_token}->{type} == START_TAG_TOKEN) {  
           $self->{current_token}->{first_start_tag}  
               = not defined $self->{last_emitted_start_tag_name};  
           $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};  
         } elsif ($self->{current_token}->{type} == END_TAG_TOKEN) {  
           $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST  
           if ($self->{current_token}->{attributes}) {  
             !!!parse-error (type => 'end tag attribute');  
           }  
         } else {  
           die "$0: $self->{current_token}->{type}: Unknown token type";  
         }  
         $self->{state} = 'data';  
         ## reconsume  
   
         !!!emit ($self->{current_token}); # start tag or end tag  
   
         redo A;  
       } else {  
         $self->{current_attribute}->{value} .= chr ($self->{next_input_character});  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'entity in attribute value') {  
       my $token = $self->_tokenize_attempt_to_consume_an_entity (1);  
   
       unless (defined $token) {  
         $self->{current_attribute}->{value} .= '&';  
       } else {  
         $self->{current_attribute}->{value} .= $token->{data};  
         ## ISSUE: spec says "append the returned character token to the current attribute's value"  
       }  
   
       $self->{state} = $self->{last_attribute_value_state};  
       # next-input-character is already done  
       redo A;  
     } elsif ($self->{state} eq 'bogus comment') {  
       ## (only happen if PCDATA state)  
         
       my $token = {type => COMMENT_TOKEN, data => ''};  
   
       BC: {  
         if ($self->{next_input_character} == 0x003E) { # >  
           $self->{state} = 'data';  
           !!!next-input-character;  
   
           !!!emit ($token);  
   
           redo A;  
         } elsif ($self->{next_input_character} == -1) {  
           $self->{state} = 'data';  
           ## reconsume  
   
           !!!emit ($token);  
   
           redo A;  
         } else {  
           $token->{data} .= chr ($self->{next_input_character});  
           !!!next-input-character;  
           redo BC;  
         }  
       } # BC  
     } elsif ($self->{state} eq 'markup declaration open') {  
       ## (only happen if PCDATA state)  
   
       my @next_char;  
       push @next_char, $self->{next_input_character};  
         
       if ($self->{next_input_character} == 0x002D) { # -  
         !!!next-input-character;  
         push @next_char, $self->{next_input_character};  
         if ($self->{next_input_character} == 0x002D) { # -  
           $self->{current_token} = {type => COMMENT_TOKEN, data => ''};  
           $self->{state} = 'comment start';  
           !!!next-input-character;  
           redo A;  
         }  
       } elsif ($self->{next_input_character} == 0x0044 or # D  
                $self->{next_input_character} == 0x0064) { # d  
         !!!next-input-character;  
         push @next_char, $self->{next_input_character};  
         if ($self->{next_input_character} == 0x004F or # O  
             $self->{next_input_character} == 0x006F) { # o  
           !!!next-input-character;  
           push @next_char, $self->{next_input_character};  
           if ($self->{next_input_character} == 0x0043 or # C  
               $self->{next_input_character} == 0x0063) { # c  
             !!!next-input-character;  
             push @next_char, $self->{next_input_character};  
             if ($self->{next_input_character} == 0x0054 or # T  
                 $self->{next_input_character} == 0x0074) { # t  
               !!!next-input-character;  
               push @next_char, $self->{next_input_character};  
               if ($self->{next_input_character} == 0x0059 or # Y  
                   $self->{next_input_character} == 0x0079) { # y  
                 !!!next-input-character;  
                 push @next_char, $self->{next_input_character};  
                 if ($self->{next_input_character} == 0x0050 or # P  
                     $self->{next_input_character} == 0x0070) { # p  
                   !!!next-input-character;  
                   push @next_char, $self->{next_input_character};  
                   if ($self->{next_input_character} == 0x0045 or # E  
                       $self->{next_input_character} == 0x0065) { # e  
                     ## ISSUE: What a stupid code this is!  
                     $self->{state} = 'DOCTYPE';  
                     !!!next-input-character;  
                     redo A;  
                   }  
                 }  
               }  
             }  
           }  
         }  
       }  
   
       !!!parse-error (type => 'bogus comment');  
       $self->{next_input_character} = shift @next_char;  
       !!!back-next-input-character (@next_char);  
       $self->{state} = 'bogus comment';  
       redo A;  
         
       ## ISSUE: typos in spec: chacacters, is is a parse error  
       ## ISSUE: spec is somewhat unclear on "is the first character that will be in the comment"; what is "that will be in the comment" is what the algorithm defines, isn't it?  
     } elsif ($self->{state} eq 'comment start') {  
       if ($self->{next_input_character} == 0x002D) { # -  
         $self->{state} = 'comment start dash';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x003E) { # >  
         !!!parse-error (type => 'bogus comment');  
         $self->{state} = 'data';  
         !!!next-input-character;  
   
         !!!emit ($self->{current_token}); # comment  
   
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed comment');  
         $self->{state} = 'data';  
         ## reconsume  
   
         !!!emit ($self->{current_token}); # comment  
   
         redo A;  
       } else {  
         $self->{current_token}->{data} # comment  
             .= chr ($self->{next_input_character});  
         $self->{state} = 'comment';  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'comment start dash') {  
       if ($self->{next_input_character} == 0x002D) { # -  
         $self->{state} = 'comment end';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x003E) { # >  
         !!!parse-error (type => 'bogus comment');  
         $self->{state} = 'data';  
         !!!next-input-character;  
   
         !!!emit ($self->{current_token}); # comment  
   
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed comment');  
         $self->{state} = 'data';  
         ## reconsume  
   
         !!!emit ($self->{current_token}); # comment  
   
         redo A;  
       } else {  
         $self->{current_token}->{data} # comment  
             .= '-' . chr ($self->{next_input_character});  
         $self->{state} = 'comment';  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'comment') {  
       if ($self->{next_input_character} == 0x002D) { # -  
         $self->{state} = 'comment end dash';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed comment');  
         $self->{state} = 'data';  
         ## reconsume  
   
         !!!emit ($self->{current_token}); # comment  
   
         redo A;  
       } else {  
         $self->{current_token}->{data} .= chr ($self->{next_input_character}); # comment  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'comment end dash') {  
       if ($self->{next_input_character} == 0x002D) { # -  
         $self->{state} = 'comment end';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed comment');  
         $self->{state} = 'data';  
         ## reconsume  
   
         !!!emit ($self->{current_token}); # comment  
   
         redo A;  
       } else {  
         $self->{current_token}->{data} .= '-' . chr ($self->{next_input_character}); # comment  
         $self->{state} = 'comment';  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'comment end') {  
       if ($self->{next_input_character} == 0x003E) { # >  
         $self->{state} = 'data';  
         !!!next-input-character;  
   
         !!!emit ($self->{current_token}); # comment  
   
         redo A;  
       } elsif ($self->{next_input_character} == 0x002D) { # -  
         !!!parse-error (type => 'dash in comment');  
         $self->{current_token}->{data} .= '-'; # comment  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed comment');  
         $self->{state} = 'data';  
         ## reconsume  
   
         !!!emit ($self->{current_token}); # comment  
   
         redo A;  
       } else {  
         !!!parse-error (type => 'dash in comment');  
         $self->{current_token}->{data} .= '--' . chr ($self->{next_input_character}); # comment  
         $self->{state} = 'comment';  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'DOCTYPE') {  
       if ($self->{next_input_character} == 0x0009 or # HT  
           $self->{next_input_character} == 0x000A or # LF  
           $self->{next_input_character} == 0x000B or # VT  
           $self->{next_input_character} == 0x000C or # FF  
           $self->{next_input_character} == 0x0020) { # SP  
         $self->{state} = 'before DOCTYPE name';  
         !!!next-input-character;  
         redo A;  
       } else {  
         !!!parse-error (type => 'no space before DOCTYPE name');  
         $self->{state} = 'before DOCTYPE name';  
         ## reconsume  
         redo A;  
       }  
     } elsif ($self->{state} eq 'before DOCTYPE name') {  
       if ($self->{next_input_character} == 0x0009 or # HT  
           $self->{next_input_character} == 0x000A or # LF  
           $self->{next_input_character} == 0x000B or # VT  
           $self->{next_input_character} == 0x000C or # FF  
           $self->{next_input_character} == 0x0020) { # SP  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x003E) { # >  
         !!!parse-error (type => 'no DOCTYPE name');  
         $self->{state} = 'data';  
         !!!next-input-character;  
   
         !!!emit ({type => DOCTYPE_TOKEN}); # incorrect  
   
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'no DOCTYPE name');  
         $self->{state} = 'data';  
         ## reconsume  
   
         !!!emit ({type => DOCTYPE_TOKEN}); # incorrect  
   
         redo A;  
       } else {  
         $self->{current_token}  
             = {type => DOCTYPE_TOKEN,  
                name => chr ($self->{next_input_character}),  
                correct => 1};  
 ## ISSUE: "Set the token's name name to the" in the spec  
         $self->{state} = 'DOCTYPE name';  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'DOCTYPE name') {  
 ## ISSUE: Redundant "First," in the spec.  
       if ($self->{next_input_character} == 0x0009 or # HT  
           $self->{next_input_character} == 0x000A or # LF  
           $self->{next_input_character} == 0x000B or # VT  
           $self->{next_input_character} == 0x000C or # FF  
           $self->{next_input_character} == 0x0020) { # SP  
         $self->{state} = 'after DOCTYPE name';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x003E) { # >  
         $self->{state} = 'data';  
         !!!next-input-character;  
   
         !!!emit ($self->{current_token}); # DOCTYPE  
   
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed DOCTYPE');  
         $self->{state} = 'data';  
         ## reconsume  
   
         delete $self->{current_token}->{correct};  
         !!!emit ($self->{current_token}); # DOCTYPE  
   
         redo A;  
       } else {  
         $self->{current_token}->{name}  
           .= chr ($self->{next_input_character}); # DOCTYPE  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'after DOCTYPE name') {  
       if ($self->{next_input_character} == 0x0009 or # HT  
           $self->{next_input_character} == 0x000A or # LF  
           $self->{next_input_character} == 0x000B or # VT  
           $self->{next_input_character} == 0x000C or # FF  
           $self->{next_input_character} == 0x0020) { # SP  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x003E) { # >  
         $self->{state} = 'data';  
         !!!next-input-character;  
   
         !!!emit ($self->{current_token}); # DOCTYPE  
   
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed DOCTYPE');  
         $self->{state} = 'data';  
         ## reconsume  
   
         delete $self->{current_token}->{correct};  
         !!!emit ($self->{current_token}); # DOCTYPE  
   
         redo A;  
       } elsif ($self->{next_input_character} == 0x0050 or # P  
                $self->{next_input_character} == 0x0070) { # p  
         !!!next-input-character;  
         if ($self->{next_input_character} == 0x0055 or # U  
             $self->{next_input_character} == 0x0075) { # u  
           !!!next-input-character;  
           if ($self->{next_input_character} == 0x0042 or # B  
               $self->{next_input_character} == 0x0062) { # b  
             !!!next-input-character;  
             if ($self->{next_input_character} == 0x004C or # L  
                 $self->{next_input_character} == 0x006C) { # l  
               !!!next-input-character;  
               if ($self->{next_input_character} == 0x0049 or # I  
                   $self->{next_input_character} == 0x0069) { # i  
                 !!!next-input-character;  
                 if ($self->{next_input_character} == 0x0043 or # C  
                     $self->{next_input_character} == 0x0063) { # c  
                   $self->{state} = 'before DOCTYPE public identifier';  
                   !!!next-input-character;  
                   redo A;  
                 }  
               }  
             }  
           }  
         }  
   
         #  
       } elsif ($self->{next_input_character} == 0x0053 or # S  
                $self->{next_input_character} == 0x0073) { # s  
         !!!next-input-character;  
         if ($self->{next_input_character} == 0x0059 or # Y  
             $self->{next_input_character} == 0x0079) { # y  
           !!!next-input-character;  
           if ($self->{next_input_character} == 0x0053 or # S  
               $self->{next_input_character} == 0x0073) { # s  
             !!!next-input-character;  
             if ($self->{next_input_character} == 0x0054 or # T  
                 $self->{next_input_character} == 0x0074) { # t  
               !!!next-input-character;  
               if ($self->{next_input_character} == 0x0045 or # E  
                   $self->{next_input_character} == 0x0065) { # e  
                 !!!next-input-character;  
                 if ($self->{next_input_character} == 0x004D or # M  
                     $self->{next_input_character} == 0x006D) { # m  
                   $self->{state} = 'before DOCTYPE system identifier';  
                   !!!next-input-character;  
                   redo A;  
                 }  
               }  
             }  
           }  
         }  
   
         #  
       } else {  
         !!!next-input-character;  
         #  
       }  
   
       !!!parse-error (type => 'string after DOCTYPE name');  
       $self->{state} = 'bogus DOCTYPE';  
       # next-input-character is already done  
       redo A;  
     } elsif ($self->{state} eq 'before DOCTYPE public identifier') {  
       if ({  
             0x0009 => 1, 0x000A => 1, 0x000B => 1, 0x000C => 1, 0x0020 => 1,  
             #0x000D => 1, # HT, LF, VT, FF, SP, CR  
           }->{$self->{next_input_character}}) {  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} eq 0x0022) { # "  
         $self->{current_token}->{public_identifier} = ''; # DOCTYPE  
         $self->{state} = 'DOCTYPE public identifier (double-quoted)';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} eq 0x0027) { # '  
         $self->{current_token}->{public_identifier} = ''; # DOCTYPE  
         $self->{state} = 'DOCTYPE public identifier (single-quoted)';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} eq 0x003E) { # >  
         !!!parse-error (type => 'no PUBLIC literal');  
   
         $self->{state} = 'data';  
         !!!next-input-character;  
   
         delete $self->{current_token}->{correct};  
         !!!emit ($self->{current_token}); # DOCTYPE  
   
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed DOCTYPE');  
   
         $self->{state} = 'data';  
         ## reconsume  
   
         delete $self->{current_token}->{correct};  
         !!!emit ($self->{current_token}); # DOCTYPE  
   
         redo A;  
       } else {  
         !!!parse-error (type => 'string after PUBLIC');  
         $self->{state} = 'bogus DOCTYPE';  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'DOCTYPE public identifier (double-quoted)') {  
       if ($self->{next_input_character} == 0x0022) { # "  
         $self->{state} = 'after DOCTYPE public identifier';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed PUBLIC literal');  
   
         $self->{state} = 'data';  
         ## reconsume  
   
         delete $self->{current_token}->{correct};  
         !!!emit ($self->{current_token}); # DOCTYPE  
   
         redo A;  
       } else {  
         $self->{current_token}->{public_identifier} # DOCTYPE  
             .= chr $self->{next_input_character};  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'DOCTYPE public identifier (single-quoted)') {  
       if ($self->{next_input_character} == 0x0027) { # '  
         $self->{state} = 'after DOCTYPE public identifier';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed PUBLIC literal');  
   
         $self->{state} = 'data';  
         ## reconsume  
   
         delete $self->{current_token}->{correct};  
         !!!emit ($self->{current_token}); # DOCTYPE  
   
         redo A;  
       } else {  
         $self->{current_token}->{public_identifier} # DOCTYPE  
             .= chr $self->{next_input_character};  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'after DOCTYPE public identifier') {  
       if ({  
             0x0009 => 1, 0x000A => 1, 0x000B => 1, 0x000C => 1, 0x0020 => 1,  
             #0x000D => 1, # HT, LF, VT, FF, SP, CR  
           }->{$self->{next_input_character}}) {  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x0022) { # "  
         $self->{current_token}->{system_identifier} = ''; # DOCTYPE  
         $self->{state} = 'DOCTYPE system identifier (double-quoted)';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x0027) { # '  
         $self->{current_token}->{system_identifier} = ''; # DOCTYPE  
         $self->{state} = 'DOCTYPE system identifier (single-quoted)';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x003E) { # >  
         $self->{state} = 'data';  
         !!!next-input-character;  
   
         !!!emit ($self->{current_token}); # DOCTYPE  
   
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed DOCTYPE');  
   
         $self->{state} = 'data';  
         ## reconsume  
   
         delete $self->{current_token}->{correct};  
         !!!emit ($self->{current_token}); # DOCTYPE  
   
         redo A;  
       } else {  
         !!!parse-error (type => 'string after PUBLIC literal');  
         $self->{state} = 'bogus DOCTYPE';  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'before DOCTYPE system identifier') {  
       if ({  
             0x0009 => 1, 0x000A => 1, 0x000B => 1, 0x000C => 1, 0x0020 => 1,  
             #0x000D => 1, # HT, LF, VT, FF, SP, CR  
           }->{$self->{next_input_character}}) {  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x0022) { # "  
         $self->{current_token}->{system_identifier} = ''; # DOCTYPE  
         $self->{state} = 'DOCTYPE system identifier (double-quoted)';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x0027) { # '  
         $self->{current_token}->{system_identifier} = ''; # DOCTYPE  
         $self->{state} = 'DOCTYPE system identifier (single-quoted)';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x003E) { # >  
         !!!parse-error (type => 'no SYSTEM literal');  
         $self->{state} = 'data';  
         !!!next-input-character;  
   
         delete $self->{current_token}->{correct};  
         !!!emit ($self->{current_token}); # DOCTYPE  
   
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed DOCTYPE');  
   
         $self->{state} = 'data';  
         ## reconsume  
   
         delete $self->{current_token}->{correct};  
         !!!emit ($self->{current_token}); # DOCTYPE  
   
         redo A;  
       } else {  
         !!!parse-error (type => 'string after SYSTEM');  
         $self->{state} = 'bogus DOCTYPE';  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'DOCTYPE system identifier (double-quoted)') {  
       if ($self->{next_input_character} == 0x0022) { # "  
         $self->{state} = 'after DOCTYPE system identifier';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed SYSTEM literal');  
   
         $self->{state} = 'data';  
         ## reconsume  
   
         delete $self->{current_token}->{correct};  
         !!!emit ($self->{current_token}); # DOCTYPE  
   
         redo A;  
       } else {  
         $self->{current_token}->{system_identifier} # DOCTYPE  
             .= chr $self->{next_input_character};  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'DOCTYPE system identifier (single-quoted)') {  
       if ($self->{next_input_character} == 0x0027) { # '  
         $self->{state} = 'after DOCTYPE system identifier';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed SYSTEM literal');  
   
         $self->{state} = 'data';  
         ## reconsume  
   
         delete $self->{current_token}->{correct};  
         !!!emit ($self->{current_token}); # DOCTYPE  
   
         redo A;  
       } else {  
         $self->{current_token}->{system_identifier} # DOCTYPE  
             .= chr $self->{next_input_character};  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'after DOCTYPE system identifier') {  
       if ({  
             0x0009 => 1, 0x000A => 1, 0x000B => 1, 0x000C => 1, 0x0020 => 1,  
             #0x000D => 1, # HT, LF, VT, FF, SP, CR  
           }->{$self->{next_input_character}}) {  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x003E) { # >  
         $self->{state} = 'data';  
         !!!next-input-character;  
   
         !!!emit ($self->{current_token}); # DOCTYPE  
   
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed DOCTYPE');  
   
         $self->{state} = 'data';  
         ## reconsume  
   
         delete $self->{current_token}->{correct};  
         !!!emit ($self->{current_token}); # DOCTYPE  
   
         redo A;  
       } else {  
         !!!parse-error (type => 'string after SYSTEM literal');  
         $self->{state} = 'bogus DOCTYPE';  
         !!!next-input-character;  
         redo A;  
       }  
     } elsif ($self->{state} eq 'bogus DOCTYPE') {  
       if ($self->{next_input_character} == 0x003E) { # >  
         $self->{state} = 'data';  
         !!!next-input-character;  
   
         delete $self->{current_token}->{correct};  
         !!!emit ($self->{current_token}); # DOCTYPE  
   
         redo A;  
       } elsif ($self->{next_input_character} == -1) {  
         !!!parse-error (type => 'unclosed DOCTYPE');  
         $self->{state} = 'data';  
         ## reconsume  
   
         delete $self->{current_token}->{correct};  
         !!!emit ($self->{current_token}); # DOCTYPE  
   
         redo A;  
       } else {  
         ## Stay in the state  
         !!!next-input-character;  
         redo A;  
       }  
     } else {  
       die "$0: $self->{state}: Unknown state";  
     }  
   } # A    
   
   die "$0: _get_next_token: unexpected case";  
 } # _get_next_token  
   
 sub _tokenize_attempt_to_consume_an_entity ($$) {  
   my ($self, $in_attr) = @_;  
   
   if ({  
        0x0009 => 1, 0x000A => 1, 0x000B => 1, 0x000C => 1, # HT, LF, VT, FF,  
        0x0020 => 1, 0x003C => 1, 0x0026 => 1, -1 => 1, # SP, <, & # 0x000D # CR  
       }->{$self->{next_input_character}}) {  
     ## Don't consume  
     ## No error  
     return undef;  
   } elsif ($self->{next_input_character} == 0x0023) { # #  
     !!!next-input-character;  
     if ($self->{next_input_character} == 0x0078 or # x  
         $self->{next_input_character} == 0x0058) { # X  
       my $code;  
       X: {  
         my $x_char = $self->{next_input_character};  
         !!!next-input-character;  
         if (0x0030 <= $self->{next_input_character} and  
             $self->{next_input_character} <= 0x0039) { # 0..9  
           $code ||= 0;  
           $code *= 0x10;  
           $code += $self->{next_input_character} - 0x0030;  
           redo X;  
         } elsif (0x0061 <= $self->{next_input_character} and  
                  $self->{next_input_character} <= 0x0066) { # a..f  
           $code ||= 0;  
           $code *= 0x10;  
           $code += $self->{next_input_character} - 0x0060 + 9;  
           redo X;  
         } elsif (0x0041 <= $self->{next_input_character} and  
                  $self->{next_input_character} <= 0x0046) { # A..F  
           $code ||= 0;  
           $code *= 0x10;  
           $code += $self->{next_input_character} - 0x0040 + 9;  
           redo X;  
         } elsif (not defined $code) { # no hexadecimal digit  
           !!!parse-error (type => 'bare hcro');  
           !!!back-next-input-character ($x_char, $self->{next_input_character});  
           $self->{next_input_character} = 0x0023; # #  
           return undef;  
         } elsif ($self->{next_input_character} == 0x003B) { # ;  
           !!!next-input-character;  
         } else {  
           !!!parse-error (type => 'no refc');  
         }  
   
         if ($code == 0 or (0xD800 <= $code and $code <= 0xDFFF)) {  
           !!!parse-error (type => sprintf 'invalid character reference:U+%04X', $code);  
           $code = 0xFFFD;  
         } elsif ($code > 0x10FFFF) {  
           !!!parse-error (type => sprintf 'invalid character reference:U-%08X', $code);  
           $code = 0xFFFD;  
         } elsif ($code == 0x000D) {  
           !!!parse-error (type => 'CR character reference');  
           $code = 0x000A;  
         } elsif (0x80 <= $code and $code <= 0x9F) {  
           !!!parse-error (type => sprintf 'C1 character reference:U+%04X', $code);  
           $code = $c1_entity_char->{$code};  
         }  
   
         return {type => CHARACTER_TOKEN, data => chr $code};  
       } # X  
     } elsif (0x0030 <= $self->{next_input_character} and  
              $self->{next_input_character} <= 0x0039) { # 0..9  
       my $code = $self->{next_input_character} - 0x0030;  
       !!!next-input-character;  
         
       while (0x0030 <= $self->{next_input_character} and  
                 $self->{next_input_character} <= 0x0039) { # 0..9  
         $code *= 10;  
         $code += $self->{next_input_character} - 0x0030;  
           
         !!!next-input-character;  
       }  
   
       if ($self->{next_input_character} == 0x003B) { # ;  
         !!!next-input-character;  
       } else {  
         !!!parse-error (type => 'no refc');  
       }  
   
       if ($code == 0 or (0xD800 <= $code and $code <= 0xDFFF)) {  
         !!!parse-error (type => sprintf 'invalid character reference:U+%04X', $code);  
         $code = 0xFFFD;  
       } elsif ($code > 0x10FFFF) {  
         !!!parse-error (type => sprintf 'invalid character reference:U-%08X', $code);  
         $code = 0xFFFD;  
       } elsif ($code == 0x000D) {  
         !!!parse-error (type => 'CR character reference');  
         $code = 0x000A;  
       } elsif (0x80 <= $code and $code <= 0x9F) {  
         !!!parse-error (type => sprintf 'C1 character reference:U+%04X', $code);  
         $code = $c1_entity_char->{$code};  
       }  
         
       return {type => CHARACTER_TOKEN, data => chr $code};  
     } else {  
       !!!parse-error (type => 'bare nero');  
       !!!back-next-input-character ($self->{next_input_character});  
       $self->{next_input_character} = 0x0023; # #  
       return undef;  
     }  
   } elsif ((0x0041 <= $self->{next_input_character} and  
             $self->{next_input_character} <= 0x005A) or  
            (0x0061 <= $self->{next_input_character} and  
             $self->{next_input_character} <= 0x007A)) {  
     my $entity_name = chr $self->{next_input_character};  
     !!!next-input-character;  
   
     my $value = $entity_name;  
     my $match = 0;  
     require Whatpm::_NamedEntityList;  
     our $EntityChar;  
   
     while (length $entity_name < 10 and  
            ## NOTE: Some number greater than the maximum length of entity name  
            ((0x0041 <= $self->{next_input_character} and # a  
              $self->{next_input_character} <= 0x005A) or # x  
             (0x0061 <= $self->{next_input_character} and # a  
              $self->{next_input_character} <= 0x007A) or # z  
             (0x0030 <= $self->{next_input_character} and # 0  
              $self->{next_input_character} <= 0x0039) or # 9  
             $self->{next_input_character} == 0x003B)) { # ;  
       $entity_name .= chr $self->{next_input_character};  
       if (defined $EntityChar->{$entity_name}) {  
         if ($self->{next_input_character} == 0x003B) { # ;  
           $value = $EntityChar->{$entity_name};  
           $match = 1;  
           !!!next-input-character;  
           last;  
         } else {  
           $value = $EntityChar->{$entity_name};  
           $match = -1;  
           !!!next-input-character;  
         }  
       } else {  
         $value .= chr $self->{next_input_character};  
         $match *= 2;  
         !!!next-input-character;  
       }  
     }  
       
     if ($match > 0) {  
       return {type => CHARACTER_TOKEN, data => $value};  
     } elsif ($match < 0) {  
       !!!parse-error (type => 'no refc');  
       if ($in_attr and $match < -1) {  
         return {type => CHARACTER_TOKEN, data => '&'.$entity_name};  
       } else {  
         return {type => CHARACTER_TOKEN, data => $value};  
       }  
     } else {  
       !!!parse-error (type => 'bare ero');  
       ## NOTE: No characters are consumed in the spec.  
       return {type => CHARACTER_TOKEN, data => '&'.$value};  
     }  
   } else {  
     ## no characters are consumed  
     !!!parse-error (type => 'bare ero');  
     return undef;  
   }  
 } # _tokenize_attempt_to_consume_an_entity  
   
863  sub _initialize_tree_constructor ($) {  sub _initialize_tree_constructor ($) {
864    my $self = shift;    my $self = shift;
865    ## NOTE: $self->{document} MUST be specified before this method is called    ## NOTE: $self->{document} MUST be specified before this method is called
# Line 1815  sub _initialize_tree_constructor ($) { Line 867  sub _initialize_tree_constructor ($) {
867    ## TODO: Turn mutation events off # MUST    ## TODO: Turn mutation events off # MUST
868    ## TODO: Turn loose Document option (manakai extension) on    ## TODO: Turn loose Document option (manakai extension) on
869    $self->{document}->manakai_is_html (1); # MUST    $self->{document}->manakai_is_html (1); # MUST
870      $self->{document}->set_user_data (manakai_source_line => 1);
871      $self->{document}->set_user_data (manakai_source_column => 1);
872    
873      $self->{frameset_ok} = 1;
874  } # _initialize_tree_constructor  } # _initialize_tree_constructor
875    
876  sub _terminate_tree_constructor ($) {  sub _terminate_tree_constructor ($) {
# Line 1834  sub _construct_tree ($) { Line 890  sub _construct_tree ($) {
890    ## When an interactive UA render the $self->{document} available    ## When an interactive UA render the $self->{document} available
891    ## to the user, or when it begin accepting user input, are    ## to the user, or when it begin accepting user input, are
892    ## not defined.    ## not defined.
   
   ## Append a character: collect it and all subsequent consecutive  
   ## characters and insert one Text node whose data is concatenation  
   ## of all those characters. # MUST  
893        
894    !!!next-token;    !!!next-token;
895    
   $self->{insertion_mode} = BEFORE_HEAD_IM;  
896    undef $self->{form_element};    undef $self->{form_element};
897    undef $self->{head_element};    undef $self->{head_element};
898      undef $self->{head_element_inserted};
899    $self->{open_elements} = [];    $self->{open_elements} = [];
900    undef $self->{inner_html_node};    undef $self->{inner_html_node};
901      undef $self->{ignore_newline};
902    
903      ## NOTE: The "initial" insertion mode.
904    $self->_tree_construction_initial; # MUST    $self->_tree_construction_initial; # MUST
905    
906      ## NOTE: The "before html" insertion mode.
907    $self->_tree_construction_root_element;    $self->_tree_construction_root_element;
908      $self->{insertion_mode} = BEFORE_HEAD_IM;
909    
910      ## NOTE: The "before head" insertion mode and so on.
911    $self->_tree_construction_main;    $self->_tree_construction_main;
912  } # _construct_tree  } # _construct_tree
913    
914  sub _tree_construction_initial ($) {  sub _tree_construction_initial ($) {
915    my $self = shift;    my $self = shift;
916    
917      ## NOTE: "initial" insertion mode
918    
919    INITIAL: {    INITIAL: {
920      if ($token->{type} == DOCTYPE_TOKEN) {      if ($token->{type} == DOCTYPE_TOKEN) {
921        ## NOTE: Conformance checkers MAY, instead of reporting "not HTML5"        ## NOTE: Conformance checkers MAY, instead of reporting "not
922        ## error, switch to a conformance checking mode for another        ## HTML5" error, switch to a conformance checking mode for
923        ## language.        ## another language.  (We don't support such mode switchings; it
924          ## is nonsense to do anything different from what browsers do.)
925        my $doctype_name = $token->{name};        my $doctype_name = $token->{name};
926        $doctype_name = '' unless defined $doctype_name;        $doctype_name = '' unless defined $doctype_name;
927        $doctype_name =~ tr/a-z/A-Z/;        my $doctype = $self->{document}->create_document_type_definition
928        if (not defined $token->{name} or # <!DOCTYPE>            ($doctype_name);
929            defined $token->{public_identifier} or  
930            defined $token->{system_identifier}) {        $doctype_name =~ tr/A-Z/a-z/; # ASCII case-insensitive
931          !!!parse-error (type => 'not HTML5');        if ($doctype_name ne 'html') {
932        } elsif ($doctype_name ne 'HTML') {          !!!cp ('t1');
933          ## ISSUE: ASCII case-insensitive? (in fact it does not matter)          !!!parse-error (type => 'not HTML5', token => $token);
934          !!!parse-error (type => 'not HTML5');        } elsif (defined $token->{pubid}) {
935            !!!cp ('t2');
936            ## XXX Obsolete permitted DOCTYPEs
937            !!!parse-error (type => 'not HTML5', token => $token);
938          } elsif (defined $token->{sysid}) {
939            if ($token->{sysid} eq 'about:legacy-compat') {
940              !!!cp ('t1.2'); ## <!DOCTYPE HTML SYSTEM "about:legacy-compat">
941              !!!parse-error (type => 'XSLT-compat', token => $token,
942                              level => $self->{level}->{should});
943            } else {
944              !!!parse-error (type => 'not HTML5', token => $token);
945            }
946          } else { ## <!DOCTYPE HTML>
947            !!!cp ('t3');
948            #
949        }        }
950                
951        my $doctype = $self->{document}->create_document_type_definition        ## NOTE: Default value for both |public_id| and |system_id| attributes
952          ($token->{name}); ## ISSUE: If name is missing (e.g. <!DOCTYPE>)?        ## are empty strings, so that we don't set any value in missing cases.
953        $doctype->public_id ($token->{public_identifier})        $doctype->public_id ($token->{pubid}) if defined $token->{pubid};
954            if defined $token->{public_identifier};        $doctype->system_id ($token->{sysid}) if defined $token->{sysid};
955        $doctype->system_id ($token->{system_identifier})  
           if defined $token->{system_identifier};  
956        ## NOTE: Other DocumentType attributes are null or empty lists.        ## NOTE: Other DocumentType attributes are null or empty lists.
957        ## ISSUE: internalSubset = null??        ## In Firefox3, |internalSubset| attribute is set to the empty
958          ## string, while |null| is an allowed value for the attribute
959          ## according to DOM3 Core.
960        $self->{document}->append_child ($doctype);        $self->{document}->append_child ($doctype);
961                
962        if (not $token->{correct} or $doctype_name ne 'HTML') {        if ($token->{quirks} or $doctype_name ne 'html') {
963            !!!cp ('t4');
964          $self->{document}->manakai_compat_mode ('quirks');          $self->{document}->manakai_compat_mode ('quirks');
965        } elsif (defined $token->{public_identifier}) {        } elsif (defined $token->{pubid}) {
966          my $pubid = $token->{public_identifier};          my $pubid = $token->{pubid};
967          $pubid =~ tr/a-z/A-z/;          $pubid =~ tr/a-z/A-z/;
968          if ({          my $prefix = [
969            "+//SILMARIL//DTD HTML PRO V0R11 19970101//EN" => 1,            "+//SILMARIL//DTD HTML PRO V0R11 19970101//",
970            "-//ADVASOFT LTD//DTD HTML 3.0 ASWEDIT + EXTENSIONS//EN" => 1,            "-//ADVASOFT LTD//DTD HTML 3.0 ASWEDIT + EXTENSIONS//",
971            "-//AS//DTD HTML 3.0 ASWEDIT + EXTENSIONS//EN" => 1,            "-//AS//DTD HTML 3.0 ASWEDIT + EXTENSIONS//",
972            "-//IETF//DTD HTML 2.0 LEVEL 1//EN" => 1,            "-//IETF//DTD HTML 2.0 LEVEL 1//",
973            "-//IETF//DTD HTML 2.0 LEVEL 2//EN" => 1,            "-//IETF//DTD HTML 2.0 LEVEL 2//",
974            "-//IETF//DTD HTML 2.0 STRICT LEVEL 1//EN" => 1,            "-//IETF//DTD HTML 2.0 STRICT LEVEL 1//",
975            "-//IETF//DTD HTML 2.0 STRICT LEVEL 2//EN" => 1,            "-//IETF//DTD HTML 2.0 STRICT LEVEL 2//",
976            "-//IETF//DTD HTML 2.0 STRICT//EN" => 1,            "-//IETF//DTD HTML 2.0 STRICT//",
977            "-//IETF//DTD HTML 2.0//EN" => 1,            "-//IETF//DTD HTML 2.0//",
978            "-//IETF//DTD HTML 2.1E//EN" => 1,            "-//IETF//DTD HTML 2.1E//",
979            "-//IETF//DTD HTML 3.0//EN" => 1,            "-//IETF//DTD HTML 3.0//",
980            "-//IETF//DTD HTML 3.0//EN//" => 1,            "-//IETF//DTD HTML 3.2 FINAL//",
981            "-//IETF//DTD HTML 3.2 FINAL//EN" => 1,            "-//IETF//DTD HTML 3.2//",
982            "-//IETF//DTD HTML 3.2//EN" => 1,            "-//IETF//DTD HTML 3//",
983            "-//IETF//DTD HTML 3//EN" => 1,            "-//IETF//DTD HTML LEVEL 0//",
984            "-//IETF//DTD HTML LEVEL 0//EN" => 1,            "-//IETF//DTD HTML LEVEL 1//",
985            "-//IETF//DTD HTML LEVEL 0//EN//2.0" => 1,            "-//IETF//DTD HTML LEVEL 2//",
986            "-//IETF//DTD HTML LEVEL 1//EN" => 1,            "-//IETF//DTD HTML LEVEL 3//",
987            "-//IETF//DTD HTML LEVEL 1//EN//2.0" => 1,            "-//IETF//DTD HTML STRICT LEVEL 0//",
988            "-//IETF//DTD HTML LEVEL 2//EN" => 1,            "-//IETF//DTD HTML STRICT LEVEL 1//",
989            "-//IETF//DTD HTML LEVEL 2//EN//2.0" => 1,            "-//IETF//DTD HTML STRICT LEVEL 2//",
990            "-//IETF//DTD HTML LEVEL 3//EN" => 1,            "-//IETF//DTD HTML STRICT LEVEL 3//",
991            "-//IETF//DTD HTML LEVEL 3//EN//3.0" => 1,            "-//IETF//DTD HTML STRICT//",
992            "-//IETF//DTD HTML STRICT LEVEL 0//EN" => 1,            "-//IETF//DTD HTML//",
993            "-//IETF//DTD HTML STRICT LEVEL 0//EN//2.0" => 1,            "-//METRIUS//DTD METRIUS PRESENTATIONAL//",
994            "-//IETF//DTD HTML STRICT LEVEL 1//EN" => 1,            "-//MICROSOFT//DTD INTERNET EXPLORER 2.0 HTML STRICT//",
995            "-//IETF//DTD HTML STRICT LEVEL 1//EN//2.0" => 1,            "-//MICROSOFT//DTD INTERNET EXPLORER 2.0 HTML//",
996            "-//IETF//DTD HTML STRICT LEVEL 2//EN" => 1,            "-//MICROSOFT//DTD INTERNET EXPLORER 2.0 TABLES//",
997            "-//IETF//DTD HTML STRICT LEVEL 2//EN//2.0" => 1,            "-//MICROSOFT//DTD INTERNET EXPLORER 3.0 HTML STRICT//",
998            "-//IETF//DTD HTML STRICT LEVEL 3//EN" => 1,            "-//MICROSOFT//DTD INTERNET EXPLORER 3.0 HTML//",
999            "-//IETF//DTD HTML STRICT LEVEL 3//EN//3.0" => 1,            "-//MICROSOFT//DTD INTERNET EXPLORER 3.0 TABLES//",
1000            "-//IETF//DTD HTML STRICT//EN" => 1,            "-//NETSCAPE COMM. CORP.//DTD HTML//",
1001            "-//IETF//DTD HTML STRICT//EN//2.0" => 1,            "-//NETSCAPE COMM. CORP.//DTD STRICT HTML//",
1002            "-//IETF//DTD HTML STRICT//EN//3.0" => 1,            "-//O'REILLY AND ASSOCIATES//DTD HTML 2.0//",
1003            "-//IETF//DTD HTML//EN" => 1,            "-//O'REILLY AND ASSOCIATES//DTD HTML EXTENDED 1.0//",
1004            "-//IETF//DTD HTML//EN//2.0" => 1,            "-//O'REILLY AND ASSOCIATES//DTD HTML EXTENDED RELAXED 1.0//",
1005            "-//IETF//DTD HTML//EN//3.0" => 1,            "-//SOFTQUAD SOFTWARE//DTD HOTMETAL PRO 6.0::19990601::EXTENSIONS TO HTML 4.0//",
1006            "-//METRIUS//DTD METRIUS PRESENTATIONAL//EN" => 1,            "-//SOFTQUAD//DTD HOTMETAL PRO 4.0::19971010::EXTENSIONS TO HTML 4.0//",
1007            "-//MICROSOFT//DTD INTERNET EXPLORER 2.0 HTML STRICT//EN" => 1,            "-//SPYGLASS//DTD HTML 2.0 EXTENDED//",
1008            "-//MICROSOFT//DTD INTERNET EXPLORER 2.0 HTML//EN" => 1,            "-//SQ//DTD HTML 2.0 HOTMETAL + EXTENSIONS//",
1009            "-//MICROSOFT//DTD INTERNET EXPLORER 2.0 TABLES//EN" => 1,            "-//SUN MICROSYSTEMS CORP.//DTD HOTJAVA HTML//",
1010            "-//MICROSOFT//DTD INTERNET EXPLORER 3.0 HTML STRICT//EN" => 1,            "-//SUN MICROSYSTEMS CORP.//DTD HOTJAVA STRICT HTML//",
1011            "-//MICROSOFT//DTD INTERNET EXPLORER 3.0 HTML//EN" => 1,            "-//W3C//DTD HTML 3 1995-03-24//",
1012            "-//MICROSOFT//DTD INTERNET EXPLORER 3.0 TABLES//EN" => 1,            "-//W3C//DTD HTML 3.2 DRAFT//",
1013            "-//NETSCAPE COMM. CORP.//DTD HTML//EN" => 1,            "-//W3C//DTD HTML 3.2 FINAL//",
1014            "-//NETSCAPE COMM. CORP.//DTD STRICT HTML//EN" => 1,            "-//W3C//DTD HTML 3.2//",
1015            "-//O'REILLY AND ASSOCIATES//DTD HTML 2.0//EN" => 1,            "-//W3C//DTD HTML 3.2S DRAFT//",
1016            "-//O'REILLY AND ASSOCIATES//DTD HTML EXTENDED 1.0//EN" => 1,            "-//W3C//DTD HTML 4.0 FRAMESET//",
1017            "-//SPYGLASS//DTD HTML 2.0 EXTENDED//EN" => 1,            "-//W3C//DTD HTML 4.0 TRANSITIONAL//",
1018            "-//SQ//DTD HTML 2.0 HOTMETAL + EXTENSIONS//EN" => 1,            "-//W3C//DTD HTML EXPERIMETNAL 19960712//",
1019            "-//SUN MICROSYSTEMS CORP.//DTD HOTJAVA HTML//EN" => 1,            "-//W3C//DTD HTML EXPERIMENTAL 970421//",
1020            "-//SUN MICROSYSTEMS CORP.//DTD HOTJAVA STRICT HTML//EN" => 1,            "-//W3C//DTD W3 HTML//",
1021            "-//W3C//DTD HTML 3 1995-03-24//EN" => 1,            "-//W3O//DTD W3 HTML 3.0//",
1022            "-//W3C//DTD HTML 3.2 DRAFT//EN" => 1,            "-//WEBTECHS//DTD MOZILLA HTML 2.0//",
1023            "-//W3C//DTD HTML 3.2 FINAL//EN" => 1,            "-//WEBTECHS//DTD MOZILLA HTML//",
1024            "-//W3C//DTD HTML 3.2//EN" => 1,          ]; # $prefix
1025            "-//W3C//DTD HTML 3.2S DRAFT//EN" => 1,          my $match;
1026            "-//W3C//DTD HTML 4.0 FRAMESET//EN" => 1,          for (@$prefix) {
1027            "-//W3C//DTD HTML 4.0 TRANSITIONAL//EN" => 1,            if (substr ($prefix, 0, length $_) eq $_) {
1028            "-//W3C//DTD HTML EXPERIMETNAL 19960712//EN" => 1,              $match = 1;
1029            "-//W3C//DTD HTML EXPERIMENTAL 970421//EN" => 1,              last;
1030            "-//W3C//DTD W3 HTML//EN" => 1,            }
1031            "-//W3O//DTD W3 HTML 3.0//EN" => 1,          }
1032            "-//W3O//DTD W3 HTML 3.0//EN//" => 1,          if ($match or
1033            "-//W3O//DTD W3 HTML STRICT 3.0//EN//" => 1,              $pubid eq "-//W3O//DTD W3 HTML STRICT 3.0//EN//" or
1034            "-//WEBTECHS//DTD MOZILLA HTML 2.0//EN" => 1,              $pubid eq "-/W3C/DTD HTML 4.0 TRANSITIONAL/EN" or
1035            "-//WEBTECHS//DTD MOZILLA HTML//EN" => 1,              $pubid eq "HTML") {
1036            "-/W3C/DTD HTML 4.0 TRANSITIONAL/EN" => 1,            !!!cp ('t5');
           "HTML" => 1,  
         }->{$pubid}) {  
1037            $self->{document}->manakai_compat_mode ('quirks');            $self->{document}->manakai_compat_mode ('quirks');
1038          } elsif ($pubid eq "-//W3C//DTD HTML 4.01 FRAMESET//EN" or          } elsif ($pubid =~ m[^-//W3C//DTD HTML 4.01 FRAMESET//] or
1039                   $pubid eq "-//W3C//DTD HTML 4.01 TRANSITIONAL//EN") {                   $pubid =~ m[^-//W3C//DTD HTML 4.01 TRANSITIONAL//]) {
1040            if (defined $token->{system_identifier}) {            if (defined $token->{sysid}) {
1041                !!!cp ('t6');
1042              $self->{document}->manakai_compat_mode ('quirks');              $self->{document}->manakai_compat_mode ('quirks');
1043            } else {            } else {
1044                !!!cp ('t7');
1045              $self->{document}->manakai_compat_mode ('limited quirks');              $self->{document}->manakai_compat_mode ('limited quirks');
1046            }            }
1047          } elsif ($pubid eq "-//W3C//DTD XHTML 1.0 Frameset//EN" or          } elsif ($pubid =~ m[^-//W3C//DTD XHTML 1.0 FRAMESET//] or
1048                   $pubid eq "-//W3C//DTD XHTML 1.0 Transitional//EN") {                   $pubid =~ m[^-//W3C//DTD XHTML 1.0 TRANSITIONAL//]) {
1049              !!!cp ('t8');
1050            $self->{document}->manakai_compat_mode ('limited quirks');            $self->{document}->manakai_compat_mode ('limited quirks');
1051            } else {
1052              !!!cp ('t9');
1053          }          }
1054          } else {
1055            !!!cp ('t10');
1056        }        }
1057        if (defined $token->{system_identifier}) {        if (defined $token->{sysid}) {
1058          my $sysid = $token->{system_identifier};          my $sysid = $token->{sysid};
1059          $sysid =~ tr/A-Z/a-z/;          $sysid =~ tr/A-Z/a-z/;
1060          if ($sysid eq "http://www.ibm.com/data/dtd/v11/ibmxhtml1-transitional.dtd") {          if ($sysid eq "http://www.ibm.com/data/dtd/v11/ibmxhtml1-transitional.dtd") {
1061              ## NOTE: Ensure that |PUBLIC "(limited quirks)" "(quirks)"| is
1062              ## marked as quirks.
1063            $self->{document}->manakai_compat_mode ('quirks');            $self->{document}->manakai_compat_mode ('quirks');
1064              !!!cp ('t11');
1065            } else {
1066              !!!cp ('t12');
1067          }          }
1068          } else {
1069            !!!cp ('t13');
1070        }        }
1071                
1072        ## Go to the root element phase.        ## Go to the "before html" insertion mode.
1073        !!!next-token;        !!!next-token;
1074        return;        return;
1075      } elsif ({      } elsif ({
# Line 1986  sub _tree_construction_initial ($) { Line 1077  sub _tree_construction_initial ($) {
1077                END_TAG_TOKEN, 1,                END_TAG_TOKEN, 1,
1078                END_OF_FILE_TOKEN, 1,                END_OF_FILE_TOKEN, 1,
1079               }->{$token->{type}}) {               }->{$token->{type}}) {
1080        !!!parse-error (type => 'no DOCTYPE');        !!!cp ('t14');
1081          !!!parse-error (type => 'no DOCTYPE', token => $token);
1082        $self->{document}->manakai_compat_mode ('quirks');        $self->{document}->manakai_compat_mode ('quirks');
1083        ## Go to the root element phase        ## Go to the "before html" insertion mode.
1084        ## reprocess        ## reprocess
1085          !!!ack-later;
1086        return;        return;
1087      } elsif ($token->{type} == CHARACTER_TOKEN) {      } elsif ($token->{type} == CHARACTER_TOKEN) {
1088        if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) { # \x0D        if ($token->{data} =~ s/^([\x09\x0A\x0C\x20]+)//) {
1089          ## Ignore the token          ## Ignore the token
1090    
1091          unless (length $token->{data}) {          unless (length $token->{data}) {
1092            ## Stay in the phase            !!!cp ('t15');
1093              ## Stay in the insertion mode.
1094            !!!next-token;            !!!next-token;
1095            redo INITIAL;            redo INITIAL;
1096            } else {
1097              !!!cp ('t16');
1098          }          }
1099          } else {
1100            !!!cp ('t17');
1101        }        }
1102    
1103        !!!parse-error (type => 'no DOCTYPE');        !!!parse-error (type => 'no DOCTYPE', token => $token);
1104        $self->{document}->manakai_compat_mode ('quirks');        $self->{document}->manakai_compat_mode ('quirks');
1105        ## Go to the root element phase        ## Go to the "before html" insertion mode.
1106        ## reprocess        ## reprocess
1107        return;        return;
1108      } elsif ($token->{type} == COMMENT_TOKEN) {      } elsif ($token->{type} == COMMENT_TOKEN) {
1109          !!!cp ('t18');
1110        my $comment = $self->{document}->create_comment ($token->{data});        my $comment = $self->{document}->create_comment ($token->{data});
1111        $self->{document}->append_child ($comment);        $self->{document}->append_child ($comment);
1112                
1113        ## Stay in the phase.        ## Stay in the insertion mode.
1114        !!!next-token;        !!!next-token;
1115        redo INITIAL;        redo INITIAL;
1116      } else {      } else {
1117        die "$0: $token->{type}: Unknown token type";        die "$0: $token->{type}: Unknown token type";
1118      }      }
1119    } # INITIAL    } # INITIAL
1120    
1121      die "$0: _tree_construction_initial: This should be never reached";
1122  } # _tree_construction_initial  } # _tree_construction_initial
1123    
1124  sub _tree_construction_root_element ($) {  sub _tree_construction_root_element ($) {
1125    my $self = shift;    my $self = shift;
1126    
1127      ## NOTE: "before html" insertion mode.
1128        
1129    B: {    B: {
1130        if ($token->{type} == DOCTYPE_TOKEN) {        if ($token->{type} == DOCTYPE_TOKEN) {
1131          !!!parse-error (type => 'in html:#DOCTYPE');          !!!cp ('t19');
1132            !!!parse-error (type => 'in html:#DOCTYPE', token => $token);
1133          ## Ignore the token          ## Ignore the token
1134          ## Stay in the phase          ## Stay in the insertion mode.
1135          !!!next-token;          !!!next-token;
1136          redo B;          redo B;
1137        } elsif ($token->{type} == COMMENT_TOKEN) {        } elsif ($token->{type} == COMMENT_TOKEN) {
1138            !!!cp ('t20');
1139          my $comment = $self->{document}->create_comment ($token->{data});          my $comment = $self->{document}->create_comment ($token->{data});
1140          $self->{document}->append_child ($comment);          $self->{document}->append_child ($comment);
1141          ## Stay in the phase          ## Stay in the insertion mode.
1142          !!!next-token;          !!!next-token;
1143          redo B;          redo B;
1144        } elsif ($token->{type} == CHARACTER_TOKEN) {        } elsif ($token->{type} == CHARACTER_TOKEN) {
1145          if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) { # \x0D          if ($token->{data} =~ s/^([\x09\x0A\x0C\x20]+)//) {
1146            ## Ignore the token.            ## Ignore the token.
1147    
1148            unless (length $token->{data}) {            unless (length $token->{data}) {
1149              ## Stay in the phase              !!!cp ('t21');
1150                ## Stay in the insertion mode.
1151              !!!next-token;              !!!next-token;
1152              redo B;              redo B;
1153              } else {
1154                !!!cp ('t22');
1155            }            }
1156            } else {
1157              !!!cp ('t23');
1158          }          }
1159    
1160            $self->{application_cache_selection}->(undef);
1161    
1162          #          #
1163          } elsif ($token->{type} == START_TAG_TOKEN) {
1164            if ($token->{tag_name} eq 'html') {
1165              my $root_element;
1166              !!!create-element ($root_element, $HTML_NS, $token->{tag_name}, $token->{attributes}, $token);
1167              $self->{document}->append_child ($root_element);
1168              push @{$self->{open_elements}},
1169                  [$root_element, $el_category->{html}];
1170    
1171              if ($token->{attributes}->{manifest}) {
1172                !!!cp ('t24');
1173                $self->{application_cache_selection}
1174                    ->($token->{attributes}->{manifest}->{value});
1175                ## ISSUE: Spec is unclear on relative references.
1176                ## According to Hixie (#whatwg 2008-03-19), it should be
1177                ## resolved against the base URI of the document in HTML
1178                ## or xml:base of the element in XHTML.
1179              } else {
1180                !!!cp ('t25');
1181                $self->{application_cache_selection}->(undef);
1182              }
1183    
1184              !!!nack ('t25c');
1185    
1186              !!!next-token;
1187              return; ## Go to the "before head" insertion mode.
1188            } else {
1189              !!!cp ('t25.1');
1190              #
1191            }
1192        } elsif ({        } elsif ({
                 START_TAG_TOKEN, 1,  
1193                  END_TAG_TOKEN, 1,                  END_TAG_TOKEN, 1,
1194                  END_OF_FILE_TOKEN, 1,                  END_OF_FILE_TOKEN, 1,
1195                 }->{$token->{type}}) {                 }->{$token->{type}}) {
1196          ## ISSUE: There is an issue in the spec          !!!cp ('t26');
1197          #          #
1198        } else {        } else {
1199          die "$0: $token->{type}: Unknown token type";          die "$0: $token->{type}: Unknown token type";
1200        }        }
1201        my $root_element; !!!create-element ($root_element, 'html');  
1202        $self->{document}->append_child ($root_element);      my $root_element;
1203        push @{$self->{open_elements}}, [$root_element, 'html'];      !!!create-element ($root_element, $HTML_NS, 'html',, $token);
1204        ## reprocess      $self->{document}->append_child ($root_element);
1205        #redo B;      push @{$self->{open_elements}}, [$root_element, $el_category->{html}];
1206        return; ## Go to the main phase.  
1207        $self->{application_cache_selection}->(undef);
1208    
1209        ## NOTE: Reprocess the token.
1210        !!!ack-later;
1211        return; ## Go to the "before head" insertion mode.
1212    } # B    } # B
1213    
1214      die "$0: _tree_construction_root_element: This should never be reached";
1215  } # _tree_construction_root_element  } # _tree_construction_root_element
1216    
1217  sub _reset_insertion_mode ($) {  sub _reset_insertion_mode ($) {
# Line 2078  sub _reset_insertion_mode ($) { Line 1226  sub _reset_insertion_mode ($) {
1226            
1227      ## Step 3      ## Step 3
1228      S3: {      S3: {
       ## ISSUE: Oops! "If node is the first node in the stack of open  
       ## elements, then set last to true. If the context element of the  
       ## HTML fragment parsing algorithm is neither a td element nor a  
       ## th element, then set node to the context element. (fragment case)":  
       ## The second "if" is in the scope of the first "if"!?  
1229        if ($self->{open_elements}->[0]->[0] eq $node->[0]) {        if ($self->{open_elements}->[0]->[0] eq $node->[0]) {
1230          $last = 1;          $last = 1;
1231          if (defined $self->{inner_html_node}) {          if (defined $self->{inner_html_node}) {
1232            if ($self->{inner_html_node}->[1] eq 'td' or            !!!cp ('t28');
1233                $self->{inner_html_node}->[1] eq 'th') {            $node = $self->{inner_html_node};
1234              #          } else {
1235            } else {            die "_reset_insertion_mode: t27";
             $node = $self->{inner_html_node};  
           }  
1236          }          }
1237        }        }
1238              
1239        ## Step 4..13        ## Step 4..14
1240        my $new_mode = {        my $new_mode;
1241          if ($node->[1] & FOREIGN_EL) {
1242            !!!cp ('t28.1');
1243            ## NOTE: Strictly spaking, the line below only applies to MathML and
1244            ## SVG elements.  Currently the HTML syntax supports only MathML and
1245            ## SVG elements as foreigners.
1246            $new_mode = IN_BODY_IM | IN_FOREIGN_CONTENT_IM;
1247          } elsif ($node->[1] == TABLE_CELL_EL) {
1248            if ($last) {
1249              !!!cp ('t28.2');
1250              #
1251            } else {
1252              !!!cp ('t28.3');
1253              $new_mode = IN_CELL_IM;
1254            }
1255          } else {
1256            !!!cp ('t28.4');
1257            $new_mode = {
1258                        select => IN_SELECT_IM,                        select => IN_SELECT_IM,
1259                        td => IN_CELL_IM,                        ## NOTE: |option| and |optgroup| do not set
1260                        th => IN_CELL_IM,                        ## insertion mode to "in select" by themselves.
1261                        tr => IN_ROW_IM,                        tr => IN_ROW_IM,
1262                        tbody => IN_TABLE_BODY_IM,                        tbody => IN_TABLE_BODY_IM,
1263                        thead => IN_TABLE_BODY_IM,                        thead => IN_TABLE_BODY_IM,
# Line 2110  sub _reset_insertion_mode ($) { Line 1268  sub _reset_insertion_mode ($) {
1268                        head => IN_BODY_IM, # not in head!                        head => IN_BODY_IM, # not in head!
1269                        body => IN_BODY_IM,                        body => IN_BODY_IM,
1270                        frameset => IN_FRAMESET_IM,                        frameset => IN_FRAMESET_IM,
1271                       }->{$node->[1]};                       }->{$node->[0]->manakai_local_name};
1272          }
1273        $self->{insertion_mode} = $new_mode and return if defined $new_mode;        $self->{insertion_mode} = $new_mode and return if defined $new_mode;
1274                
1275        ## Step 14        ## Step 15
1276        if ($node->[1] eq 'html') {        if ($node->[1] == HTML_EL) {
1277          unless (defined $self->{head_element}) {          unless (defined $self->{head_element}) {
1278              !!!cp ('t29');
1279            $self->{insertion_mode} = BEFORE_HEAD_IM;            $self->{insertion_mode} = BEFORE_HEAD_IM;
1280          } else {          } else {
1281              ## ISSUE: Can this state be reached?
1282              !!!cp ('t30');
1283            $self->{insertion_mode} = AFTER_HEAD_IM;            $self->{insertion_mode} = AFTER_HEAD_IM;
1284          }          }
1285          return;          return;
1286          } else {
1287            !!!cp ('t31');
1288        }        }
1289                
1290        ## Step 15        ## Step 16
1291        $self->{insertion_mode} = IN_BODY_IM and return if $last;        $self->{insertion_mode} = IN_BODY_IM and return if $last;
1292                
1293        ## Step 16        ## Step 17
1294        $i--;        $i--;
1295        $node = $self->{open_elements}->[$i];        $node = $self->{open_elements}->[$i];
1296                
1297        ## Step 17        ## Step 18
1298        redo S3;        redo S3;
1299      } # S3      } # S3
1300    
1301      die "$0: _reset_insertion_mode: This line should never be reached";
1302  } # _reset_insertion_mode  } # _reset_insertion_mode
1303    
1304  sub _tree_construction_main ($) {  sub _tree_construction_main ($) {
# Line 2154  sub _tree_construction_main ($) { Line 1320  sub _tree_construction_main ($) {
1320      return if $entry->[0] eq '#marker';      return if $entry->[0] eq '#marker';
1321      for (@{$self->{open_elements}}) {      for (@{$self->{open_elements}}) {
1322        if ($entry->[0] eq $_->[0]) {        if ($entry->[0] eq $_->[0]) {
1323            !!!cp ('t32');
1324          return;          return;
1325        }        }
1326      }      }
# Line 2168  sub _tree_construction_main ($) { Line 1335  sub _tree_construction_main ($) {
1335    
1336        ## Step 6        ## Step 6
1337        if ($entry->[0] eq '#marker') {        if ($entry->[0] eq '#marker') {
1338            !!!cp ('t33_1');
1339          #          #
1340        } else {        } else {
1341          my $in_open_elements;          my $in_open_elements;
1342          OE: for (@{$self->{open_elements}}) {          OE: for (@{$self->{open_elements}}) {
1343            if ($entry->[0] eq $_->[0]) {            if ($entry->[0] eq $_->[0]) {
1344                !!!cp ('t33');
1345              $in_open_elements = 1;              $in_open_elements = 1;
1346              last OE;              last OE;
1347            }            }
1348          }          }
1349          if ($in_open_elements) {          if ($in_open_elements) {
1350              !!!cp ('t34');
1351            #            #
1352          } else {          } else {
1353              ## NOTE: <!DOCTYPE HTML><p><b><i><u></p> <p>X
1354              !!!cp ('t35');
1355            redo S4;            redo S4;
1356          }          }
1357        }        }
# Line 2202  sub _tree_construction_main ($) { Line 1374  sub _tree_construction_main ($) {
1374    
1375        ## Step 11        ## Step 11
1376        unless ($clone->[0] eq $active_formatting_elements->[-1]->[0]) {        unless ($clone->[0] eq $active_formatting_elements->[-1]->[0]) {
1377            !!!cp ('t36');
1378          ## Step 7'          ## Step 7'
1379          $i++;          $i++;
1380          $entry = $active_formatting_elements->[$i];          $entry = $active_formatting_elements->[$i];
1381                    
1382          redo S7;          redo S7;
1383        }        }
1384    
1385          !!!cp ('t37');
1386      } # S7      } # S7
1387    }; # $reconstruct_active_formatting_elements    }; # $reconstruct_active_formatting_elements
1388    
1389    my $clear_up_to_marker = sub {    my $clear_up_to_marker = sub {
1390      for (reverse 0..$#$active_formatting_elements) {      for (reverse 0..$#$active_formatting_elements) {
1391        if ($active_formatting_elements->[$_]->[0] eq '#marker') {        if ($active_formatting_elements->[$_]->[0] eq '#marker') {
1392            !!!cp ('t38');
1393          splice @$active_formatting_elements, $_;          splice @$active_formatting_elements, $_;
1394          return;          return;
1395        }        }
1396      }      }
1397    
1398        !!!cp ('t39');
1399    }; # $clear_up_to_marker    }; # $clear_up_to_marker
1400    
1401    my $parse_rcdata = sub ($$) {    my $insert;
1402      my ($content_model_flag, $insert) = @_;  
1403      my $parse_rcdata = sub ($) {
1404        my ($content_model_flag) = @_;
1405    
1406      ## Step 1      ## Step 1
1407      my $start_tag_name = $token->{tag_name};      my $start_tag_name = $token->{tag_name};
1408      my $el;      !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
     !!!create-element ($el, $start_tag_name, $token->{attributes});  
1409    
1410      ## Step 2      ## Step 2
     $insert->($el); # /context node/->append_child ($el)  
   
     ## Step 3  
1411      $self->{content_model} = $content_model_flag; # CDATA or RCDATA      $self->{content_model} = $content_model_flag; # CDATA or RCDATA
1412      delete $self->{escape}; # MUST      delete $self->{escape}; # MUST
1413    
1414      ## Step 4      ## Step 3, 4
1415      my $text = '';      $self->{insertion_mode} |= IN_CDATA_RCDATA_IM;
     !!!next-token;  
     while ($token->{type} == CHARACTER_TOKEN) { # or until stop tokenizing  
       $text .= $token->{data};  
       !!!next-token;  
     }  
   
     ## Step 5  
     if (length $text) {  
       my $text = $self->{document}->create_text_node ($text);  
       $el->append_child ($text);  
     }  
   
     ## Step 6  
     $self->{content_model} = PCDATA_CONTENT_MODEL;  
1416    
1417      ## Step 7      !!!nack ('t40.1');
     if ($token->{type} == END_TAG_TOKEN and $token->{tag_name} eq $start_tag_name) {  
       ## Ignore the token  
     } elsif ($content_model_flag == CDATA_CONTENT_MODEL) {  
       !!!parse-error (type => 'in CDATA:#'.$token->{type});  
     } elsif ($content_model_flag == RCDATA_CONTENT_MODEL) {  
       !!!parse-error (type => 'in RCDATA:#'.$token->{type});  
     } else {  
       die "$0: $content_model_flag in parse_rcdata";  
     }  
1418      !!!next-token;      !!!next-token;
1419    }; # $parse_rcdata    }; # $parse_rcdata
1420    
1421    my $script_start_tag = sub ($) {    my $script_start_tag = sub () {
1422      my $insert = $_[0];      ## Step 1
1423      my $script_el;      my $script_el;
1424      !!!create-element ($script_el, 'script', $token->{attributes});      !!!create-element ($script_el, $HTML_NS, 'script', $token->{attributes}, $token);
1425    
1426        ## Step 2
1427      ## TODO: mark as "parser-inserted"      ## TODO: mark as "parser-inserted"
1428    
1429        ## Step 3
1430        ## TODO: Mark as "already executed", if ...
1431    
1432        ## Step 4 (HTML5 revision 2702)
1433        $insert->($script_el);
1434        push @{$self->{open_elements}}, [$script_el, $el_category->{script}];
1435    
1436        ## Step 5
1437      $self->{content_model} = CDATA_CONTENT_MODEL;      $self->{content_model} = CDATA_CONTENT_MODEL;
1438      delete $self->{escape}; # MUST      delete $self->{escape}; # MUST
       
     my $text = '';  
     !!!next-token;  
     while ($token->{type} == CHARACTER_TOKEN) {  
       $text .= $token->{data};  
       !!!next-token;  
     } # stop if non-character token or tokenizer stops tokenising  
     if (length $text) {  
       $script_el->manakai_append_text ($text);  
     }  
                 
     $self->{content_model} = PCDATA_CONTENT_MODEL;  
1439    
1440      if ($token->{type} == END_TAG_TOKEN and      ## Step 6-7
1441          $token->{tag_name} eq 'script') {      $self->{insertion_mode} |= IN_CDATA_RCDATA_IM;
       ## Ignore the token  
     } else {  
       !!!parse-error (type => 'in CDATA:#'.$token->{type});  
       ## ISSUE: And ignore?  
       ## TODO: mark as "already executed"  
     }  
       
     if (defined $self->{inner_html_node}) {  
       ## TODO: mark as "already executed"  
     } else {  
       ## TODO: $old_insertion_point = current insertion point  
       ## TODO: insertion point = just before the next input character  
1442    
1443        $insert->($script_el);      !!!nack ('t40.2');
         
       ## TODO: insertion point = $old_insertion_point (might be "undefined")  
         
       ## TODO: if there is a script that will execute as soon as the parser resume, then...  
     }  
       
1444      !!!next-token;      !!!next-token;
1445    }; # $script_start_tag    }; # $script_start_tag
1446    
1447      ## NOTE: $open_tables->[-1]->[0] is the "current table" element node.
1448      ## NOTE: $open_tables->[-1]->[1] is the "tainted" flag (OBSOLETE; unused).
1449      ## NOTE: $open_tables->[-1]->[2] is set false when non-Text node inserted.
1450      my $open_tables = [[$self->{open_elements}->[0]->[0]]];
1451    
1452    my $formatting_end_tag = sub {    my $formatting_end_tag = sub {
1453      my $tag_name = shift;      my $end_tag_token = shift;
1454        my $tag_name = $end_tag_token->{tag_name};
1455    
1456        ## NOTE: The adoption agency algorithm (AAA).
1457    
1458      FET: {      FET: {
1459        ## Step 1        ## Step 1
1460        my $formatting_element;        my $formatting_element;
1461        my $formatting_element_i_in_active;        my $formatting_element_i_in_active;
1462        AFE: for (reverse 0..$#$active_formatting_elements) {        AFE: for (reverse 0..$#$active_formatting_elements) {
1463          if ($active_formatting_elements->[$_]->[1] eq $tag_name) {          if ($active_formatting_elements->[$_]->[0] eq '#marker') {
1464              !!!cp ('t52');
1465              last AFE;
1466            } elsif ($active_formatting_elements->[$_]->[0]->manakai_local_name
1467                         eq $tag_name) {
1468              !!!cp ('t51');
1469            $formatting_element = $active_formatting_elements->[$_];            $formatting_element = $active_formatting_elements->[$_];
1470            $formatting_element_i_in_active = $_;            $formatting_element_i_in_active = $_;
1471            last AFE;            last AFE;
         } elsif ($active_formatting_elements->[$_]->[0] eq '#marker') {  
           last AFE;  
1472          }          }
1473        } # AFE        } # AFE
1474        unless (defined $formatting_element) {        unless (defined $formatting_element) {
1475          !!!parse-error (type => 'unmatched end tag:'.$tag_name);          !!!cp ('t53');
1476            !!!parse-error (type => 'unmatched end tag', text => $tag_name, token => $end_tag_token);
1477          ## Ignore the token          ## Ignore the token
1478          !!!next-token;          !!!next-token;
1479          return;          return;
# Line 2340  sub _tree_construction_main ($) { Line 1485  sub _tree_construction_main ($) {
1485          my $node = $self->{open_elements}->[$_];          my $node = $self->{open_elements}->[$_];
1486          if ($node->[0] eq $formatting_element->[0]) {          if ($node->[0] eq $formatting_element->[0]) {
1487            if ($in_scope) {            if ($in_scope) {
1488                !!!cp ('t54');
1489              $formatting_element_i_in_open = $_;              $formatting_element_i_in_open = $_;
1490              last INSCOPE;              last INSCOPE;
1491            } else { # in open elements but not in scope            } else { # in open elements but not in scope
1492              !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});              !!!cp ('t55');
1493                !!!parse-error (type => 'unmatched end tag',
1494                                text => $token->{tag_name},
1495                                token => $end_tag_token);
1496              ## Ignore the token              ## Ignore the token
1497              !!!next-token;              !!!next-token;
1498              return;              return;
1499            }            }
1500          } elsif ({          } elsif ($node->[1] & SCOPING_EL) {
1501                    table => 1, caption => 1, td => 1, th => 1,            !!!cp ('t56');
                   button => 1, marquee => 1, object => 1, html => 1,  
                  }->{$node->[1]}) {  
1502            $in_scope = 0;            $in_scope = 0;
1503          }          }
1504        } # INSCOPE        } # INSCOPE
1505        unless (defined $formatting_element_i_in_open) {        unless (defined $formatting_element_i_in_open) {
1506          !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});          !!!cp ('t57');
1507            !!!parse-error (type => 'unmatched end tag',
1508                            text => $token->{tag_name},
1509                            token => $end_tag_token);
1510          pop @$active_formatting_elements; # $formatting_element          pop @$active_formatting_elements; # $formatting_element
1511          !!!next-token; ## TODO: ok?          !!!next-token; ## TODO: ok?
1512          return;          return;
1513        }        }
1514        if (not $self->{open_elements}->[-1]->[0] eq $formatting_element->[0]) {        if (not $self->{open_elements}->[-1]->[0] eq $formatting_element->[0]) {
1515          !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);          !!!cp ('t58');
1516            !!!parse-error (type => 'not closed',
1517                            text => $self->{open_elements}->[-1]->[0]
1518                                ->manakai_local_name,
1519                            token => $end_tag_token);
1520        }        }
1521                
1522        ## Step 2        ## Step 2
# Line 2370  sub _tree_construction_main ($) { Line 1524  sub _tree_construction_main ($) {
1524        my $furthest_block_i_in_open;        my $furthest_block_i_in_open;
1525        OE: for (reverse 0..$#{$self->{open_elements}}) {        OE: for (reverse 0..$#{$self->{open_elements}}) {
1526          my $node = $self->{open_elements}->[$_];          my $node = $self->{open_elements}->[$_];
1527          if (not $formatting_category->{$node->[1]} and          if (not ($node->[1] & FORMATTING_EL) and
1528              #not $phrasing_category->{$node->[1]} and              #not $phrasing_category->{$node->[1]} and
1529              ($special_category->{$node->[1]} or              ($node->[1] & SPECIAL_EL or
1530               $scoping_category->{$node->[1]})) {               $node->[1] & SCOPING_EL)) { ## Scoping is redundant, maybe
1531              !!!cp ('t59');
1532            $furthest_block = $node;            $furthest_block = $node;
1533            $furthest_block_i_in_open = $_;            $furthest_block_i_in_open = $_;
1534              ## NOTE: The topmost (eldest) node.
1535          } elsif ($node->[0] eq $formatting_element->[0]) {          } elsif ($node->[0] eq $formatting_element->[0]) {
1536              !!!cp ('t60');
1537            last OE;            last OE;
1538          }          }
1539        } # OE        } # OE
1540                
1541        ## Step 3        ## Step 3
1542        unless (defined $furthest_block) { # MUST        unless (defined $furthest_block) { # MUST
1543            !!!cp ('t61');
1544          splice @{$self->{open_elements}}, $formatting_element_i_in_open;          splice @{$self->{open_elements}}, $formatting_element_i_in_open;
1545          splice @$active_formatting_elements, $formatting_element_i_in_active, 1;          splice @$active_formatting_elements, $formatting_element_i_in_active, 1;
1546          !!!next-token;          !!!next-token;
# Line 2395  sub _tree_construction_main ($) { Line 1553  sub _tree_construction_main ($) {
1553        ## Step 5        ## Step 5
1554        my $furthest_block_parent = $furthest_block->[0]->parent_node;        my $furthest_block_parent = $furthest_block->[0]->parent_node;
1555        if (defined $furthest_block_parent) {        if (defined $furthest_block_parent) {
1556            !!!cp ('t62');
1557          $furthest_block_parent->remove_child ($furthest_block->[0]);          $furthest_block_parent->remove_child ($furthest_block->[0]);
1558        }        }
1559                
# Line 2417  sub _tree_construction_main ($) { Line 1576  sub _tree_construction_main ($) {
1576          S7S2: {          S7S2: {
1577            for (reverse 0..$#$active_formatting_elements) {            for (reverse 0..$#$active_formatting_elements) {
1578              if ($active_formatting_elements->[$_]->[0] eq $node->[0]) {              if ($active_formatting_elements->[$_]->[0] eq $node->[0]) {
1579                  !!!cp ('t63');
1580                $node_i_in_active = $_;                $node_i_in_active = $_;
1581                last S7S2;                last S7S2;
1582              }              }
# Line 2430  sub _tree_construction_main ($) { Line 1590  sub _tree_construction_main ($) {
1590                    
1591          ## Step 4          ## Step 4
1592          if ($last_node->[0] eq $furthest_block->[0]) {          if ($last_node->[0] eq $furthest_block->[0]) {
1593              !!!cp ('t64');
1594            $bookmark_prev_el = $node->[0];            $bookmark_prev_el = $node->[0];
1595          }          }
1596                    
1597          ## Step 5          ## Step 5
1598          if ($node->[0]->has_child_nodes ()) {          if ($node->[0]->has_child_nodes ()) {
1599              !!!cp ('t65');
1600            my $clone = [$node->[0]->clone_node (0), $node->[1]];            my $clone = [$node->[0]->clone_node (0), $node->[1]];
1601            $active_formatting_elements->[$node_i_in_active] = $clone;            $active_formatting_elements->[$node_i_in_active] = $clone;
1602            $self->{open_elements}->[$node_i_in_open] = $clone;            $self->{open_elements}->[$node_i_in_open] = $clone;
# Line 2452  sub _tree_construction_main ($) { Line 1614  sub _tree_construction_main ($) {
1614        } # S7          } # S7  
1615                
1616        ## Step 8        ## Step 8
1617        $common_ancestor_node->[0]->append_child ($last_node->[0]);        if ($common_ancestor_node->[1] & TABLE_ROWS_EL) {
1618            ## Foster parenting.
1619            my $foster_parent_element;
1620            my $next_sibling;
1621            OE: for (reverse 0..$#{$self->{open_elements}}) {
1622              if ($self->{open_elements}->[$_]->[1] == TABLE_EL) {
1623                !!!cp ('t65.2');
1624                $foster_parent_element = $self->{open_elements}->[$_ - 1]->[0];
1625                $next_sibling = $self->{open_elements}->[$_]->[0];
1626                undef $next_sibling
1627                    unless $next_sibling->parent_node eq $foster_parent_element;
1628                last OE;
1629              }
1630            } # OE
1631            $foster_parent_element ||= $self->{open_elements}->[0]->[0];
1632    
1633            $foster_parent_element->insert_before ($last_node->[0], $next_sibling);
1634            $open_tables->[-1]->[1] = 1; # tainted
1635          } else {
1636            !!!cp ('t65.3');
1637            $common_ancestor_node->[0]->append_child ($last_node->[0]);
1638          }
1639                
1640        ## Step 9        ## Step 9
1641        my $clone = [$formatting_element->[0]->clone_node (0),        my $clone = [$formatting_element->[0]->clone_node (0),
# Line 2469  sub _tree_construction_main ($) { Line 1652  sub _tree_construction_main ($) {
1652        my $i;        my $i;
1653        AFE: for (reverse 0..$#$active_formatting_elements) {        AFE: for (reverse 0..$#$active_formatting_elements) {
1654          if ($active_formatting_elements->[$_]->[0] eq $formatting_element->[0]) {          if ($active_formatting_elements->[$_]->[0] eq $formatting_element->[0]) {
1655              !!!cp ('t66');
1656            splice @$active_formatting_elements, $_, 1;            splice @$active_formatting_elements, $_, 1;
1657            $i-- and last AFE if defined $i;            $i-- and last AFE if defined $i;
1658          } elsif ($active_formatting_elements->[$_]->[0] eq $bookmark_prev_el) {          } elsif ($active_formatting_elements->[$_]->[0] eq $bookmark_prev_el) {
1659              !!!cp ('t67');
1660            $i = $_;            $i = $_;
1661          }          }
1662        } # AFE        } # AFE
# Line 2481  sub _tree_construction_main ($) { Line 1666  sub _tree_construction_main ($) {
1666        undef $i;        undef $i;
1667        OE: for (reverse 0..$#{$self->{open_elements}}) {        OE: for (reverse 0..$#{$self->{open_elements}}) {
1668          if ($self->{open_elements}->[$_]->[0] eq $formatting_element->[0]) {          if ($self->{open_elements}->[$_]->[0] eq $formatting_element->[0]) {
1669              !!!cp ('t68');
1670            splice @{$self->{open_elements}}, $_, 1;            splice @{$self->{open_elements}}, $_, 1;
1671            $i-- and last OE if defined $i;            $i-- and last OE if defined $i;
1672          } elsif ($self->{open_elements}->[$_]->[0] eq $furthest_block->[0]) {          } elsif ($self->{open_elements}->[$_]->[0] eq $furthest_block->[0]) {
1673              !!!cp ('t69');
1674            $i = $_;            $i = $_;
1675          }          }
1676        } # OE        } # OE
1677        splice @{$self->{open_elements}}, $i + 1, 1, $clone;        splice @{$self->{open_elements}}, $i + 1, 0, $clone;
1678                
1679        ## Step 14        ## Step 14
1680        redo FET;        redo FET;
1681      } # FET      } # FET
1682    }; # $formatting_end_tag    }; # $formatting_end_tag
1683    
1684    my $insert_to_current = sub {    $insert = my $insert_to_current = sub {
1685      $self->{open_elements}->[-1]->[0]->append_child ($_[0]);      $self->{open_elements}->[-1]->[0]->append_child ($_[0]);
1686    }; # $insert_to_current    }; # $insert_to_current
1687    
1688      ## Foster parenting.  Note that there are three "foster parenting"
1689      ## code in the parser: for elements (this one), for texts, and for
1690      ## elements in the AAA code.
1691    my $insert_to_foster = sub {    my $insert_to_foster = sub {
1692                         my $child = shift;      my $child = shift;
1693                         if ({      if ($self->{open_elements}->[-1]->[1] & TABLE_ROWS_EL) {
1694                              table => 1, tbody => 1, tfoot => 1,        # MUST
1695                              thead => 1, tr => 1,        my $foster_parent_element;
1696                             }->{$self->{open_elements}->[-1]->[1]}) {        my $next_sibling;
1697                           # MUST        OE: for (reverse 0..$#{$self->{open_elements}}) {
1698                           my $foster_parent_element;          if ($self->{open_elements}->[$_]->[1] == TABLE_EL) {
1699                           my $next_sibling;            !!!cp ('t71');
1700                           OE: for (reverse 0..$#{$self->{open_elements}}) {            $foster_parent_element = $self->{open_elements}->[$_ - 1]->[0];
1701                             if ($self->{open_elements}->[$_]->[1] eq 'table') {            $next_sibling = $self->{open_elements}->[$_]->[0];
1702                               my $parent = $self->{open_elements}->[$_]->[0]->parent_node;            undef $next_sibling
1703                               if (defined $parent and $parent->node_type == 1) {                unless $next_sibling->parent_node eq $foster_parent_element;
1704                                 $foster_parent_element = $parent;            last OE;
1705                                 $next_sibling = $self->{open_elements}->[$_]->[0];          }
1706                               } else {        } # OE
1707                                 $foster_parent_element        $foster_parent_element ||= $self->{open_elements}->[0]->[0];
1708                                   = $self->{open_elements}->[$_ - 1]->[0];  
1709                               }        $foster_parent_element->insert_before ($child, $next_sibling);
1710                               last OE;        $open_tables->[-1]->[1] = 1; # tainted
1711                             }      } else {
1712                           } # OE        !!!cp ('t72');
1713                           $foster_parent_element = $self->{open_elements}->[0]->[0]        $self->{open_elements}->[-1]->[0]->append_child ($child);
1714                             unless defined $foster_parent_element;      }
                          $foster_parent_element->insert_before  
                            ($child, $next_sibling);  
                        } else {  
                          $self->{open_elements}->[-1]->[0]->append_child ($child);  
                        }  
1715    }; # $insert_to_foster    }; # $insert_to_foster
1716    
1717    my $insert;    ## NOTE: Insert a character (MUST): When a character is inserted, if
1718      ## the last node that was inserted by the parser is a Text node and
1719      ## the character has to be inserted after that node, then the
1720      ## character is appended to the Text node.  However, if any other
1721      ## node is inserted by the parser, then a new Text node is created
1722      ## and the character is appended as that Text node.  If I'm not
1723      ## wrong, for a parser with scripting disabled, there are only two
1724      ## cases where this occurs.  One is the case where an element node
1725      ## is inserted to the |head| element.  This is covered by using the
1726      ## |$self->{head_element_inserted}| flag.  Another is the case where
1727      ## an element or comment is inserted into the |table| subtree while
1728      ## foster parenting happens.  This is covered by using the [2] flag
1729      ## of the |$open_tables| structure.  All other cases are handled
1730      ## simply by calling |manakai_append_text| method.
1731    
1732      ## TODO: |<body><script>document.write("a<br>");
1733      ## document.body.removeChild (document.body.lastChild);
1734      ## document.write ("b")</script>|
1735    
1736      B: while (1) {
1737    
1738        ## The "in table text" insertion mode.
1739        if ($self->{insertion_mode} & TABLE_IMS and
1740            not $self->{insertion_mode} & IN_FOREIGN_CONTENT_IM and
1741            not $self->{insertion_mode} & IN_CDATA_RCDATA_IM) {
1742          C: {
1743            my $s;
1744            if ($token->{type} == CHARACTER_TOKEN) {
1745              !!!cp ('t194');
1746              $self->{pending_chars} ||= [];
1747              push @{$self->{pending_chars}}, $token;
1748              !!!next-token;
1749              next B;
1750            } else {
1751              if ($self->{pending_chars}) {
1752                $s = join '', map { $_->{data} } @{$self->{pending_chars}};
1753                delete $self->{pending_chars};
1754                if ($s =~ /[^\x09\x0A\x0C\x0D\x20]/) {
1755                  !!!cp ('t195');
1756                  #
1757                } else {
1758                  !!!cp ('t195.1');
1759                  #$self->{open_elements}->[-1]->[0]->manakai_append_text ($s);
1760                  $self->{open_elements}->[-1]->[0]->append_child
1761                      ($self->{document}->create_text_node ($s));
1762                  last C;
1763                }
1764              } else {
1765                !!!cp ('t195.2');
1766                last C;
1767              }
1768            }
1769    
1770            ## Foster parenting.
1771            !!!parse-error (type => 'in table:#text', token => $token);
1772    
1773            ## NOTE: As if in body, but insert into the foster parent element.
1774            $reconstruct_active_formatting_elements->($insert_to_foster);
1775                
1776            if ($self->{open_elements}->[-1]->[1] & TABLE_ROWS_EL) {
1777              # MUST
1778              my $foster_parent_element;
1779              my $next_sibling;
1780              OE: for (reverse 0..$#{$self->{open_elements}}) {
1781                if ($self->{open_elements}->[$_]->[1] == TABLE_EL) {
1782                  !!!cp ('t197');
1783                  $foster_parent_element = $self->{open_elements}->[$_ - 1]->[0];
1784                  $next_sibling = $self->{open_elements}->[$_]->[0];
1785                  undef $next_sibling
1786                    unless $next_sibling->parent_node eq $foster_parent_element;
1787                  last OE;
1788                }
1789              } # OE
1790              $foster_parent_element ||= $self->{open_elements}->[0]->[0];
1791    
1792              !!!cp ('t199');
1793              $foster_parent_element->insert_before
1794                  ($self->{document}->create_text_node ($s), $next_sibling);
1795    
1796              $open_tables->[-1]->[1] = 1; # tainted
1797              $open_tables->[-1]->[2] = 1; # ~node inserted
1798            } else {
1799              ## NOTE: Fragment case or in a foster parent'ed element
1800              ## (e.g. |<table><span>a|).  In fragment case, whether the
1801              ## character is appended to existing node or a new node is
1802              ## created is irrelevant, since the foster parent'ed nodes
1803              ## are discarded and fragment parsing does not invoke any
1804              ## script.
1805              !!!cp ('t200');
1806              $self->{open_elements}->[-1]->[0]->manakai_append_text ($s);
1807            }
1808          } # C
1809        } # TABLE_IMS
1810    
   B: {  
1811      if ($token->{type} == DOCTYPE_TOKEN) {      if ($token->{type} == DOCTYPE_TOKEN) {
1812        !!!parse-error (type => 'DOCTYPE in the middle');        !!!cp ('t73');
1813          !!!parse-error (type => 'in html:#DOCTYPE', token => $token);
1814        ## Ignore the token        ## Ignore the token
1815        ## Stay in the phase        ## Stay in the phase
1816        !!!next-token;        !!!next-token;
1817        redo B;        next B;
     } elsif ($token->{type} == END_OF_FILE_TOKEN) {  
       if ($self->{insertion_mode} & AFTER_HTML_IMS) {  
         #  
       } else {  
         ## Generate implied end tags  
         if ({  
              dd => 1, dt => 1, li => 1, p => 1, td => 1, th => 1, tr => 1,  
              tbody => 1, tfoot=> 1, thead => 1,  
             }->{$self->{open_elements}->[-1]->[1]}) {  
           !!!back-token;  
           $token = {type => END_TAG_TOKEN, tag_name => $self->{open_elements}->[-1]->[1]};  
           redo B;  
         }  
           
         if (@{$self->{open_elements}} > 2 or  
             (@{$self->{open_elements}} == 2 and $self->{open_elements}->[1]->[1] ne 'body')) {  
           !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
         } elsif (defined $self->{inner_html_node} and  
                  @{$self->{open_elements}} > 1 and  
                  $self->{open_elements}->[1]->[1] ne 'body') {  
           !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
         }  
   
         ## ISSUE: There is an issue in the spec.  
       }  
   
       ## Stop parsing  
       last B;  
1818      } elsif ($token->{type} == START_TAG_TOKEN and      } elsif ($token->{type} == START_TAG_TOKEN and
1819               $token->{tag_name} eq 'html') {               $token->{tag_name} eq 'html') {
1820        if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {        if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {
1821          ## Turn into the main phase          !!!cp ('t79');
1822          !!!parse-error (type => 'after html:html');          !!!parse-error (type => 'after html', text => 'html', token => $token);
1823          $self->{insertion_mode} = AFTER_BODY_IM;          $self->{insertion_mode} = AFTER_BODY_IM;
1824        } elsif ($self->{insertion_mode} == AFTER_HTML_FRAMESET_IM) {        } elsif ($self->{insertion_mode} == AFTER_HTML_FRAMESET_IM) {
1825          ## Turn into the main phase          !!!cp ('t80');
1826          !!!parse-error (type => 'after html:html');          !!!parse-error (type => 'after html', text => 'html', token => $token);
1827          $self->{insertion_mode} = AFTER_FRAMESET_IM;          $self->{insertion_mode} = AFTER_FRAMESET_IM;
1828          } else {
1829            !!!cp ('t81');
1830        }        }
1831    
1832  ## ISSUE: "aa<html>" is not a parse error.        !!!cp ('t82');
1833  ## ISSUE: "<html>" in fragment is not a parse error.        !!!parse-error (type => 'not first start tag', token => $token);
       unless ($token->{first_start_tag}) {  
         !!!parse-error (type => 'not first start tag');  
       }  
1834        my $top_el = $self->{open_elements}->[0]->[0];        my $top_el = $self->{open_elements}->[0]->[0];
1835        for my $attr_name (keys %{$token->{attributes}}) {        for my $attr_name (keys %{$token->{attributes}}) {
1836          unless ($top_el->has_attribute_ns (undef, $attr_name)) {          unless ($top_el->has_attribute_ns (undef, $attr_name)) {
1837              !!!cp ('t84');
1838            $top_el->set_attribute_ns            $top_el->set_attribute_ns
1839              (undef, [undef, $attr_name],              (undef, [undef, $attr_name],
1840               $token->{attributes}->{$attr_name}->{value});               $token->{attributes}->{$attr_name}->{value});
1841          }          }
1842        }        }
1843          !!!nack ('t84.1');
1844        !!!next-token;        !!!next-token;
1845        redo B;        next B;
1846      } elsif ($token->{type} == COMMENT_TOKEN) {      } elsif ($token->{type} == COMMENT_TOKEN) {
1847        my $comment = $self->{document}->create_comment ($token->{data});        my $comment = $self->{document}->create_comment ($token->{data});
1848        if ($self->{insertion_mode} & AFTER_HTML_IMS) {        if ($self->{insertion_mode} & AFTER_HTML_IMS) {
1849            !!!cp ('t85');
1850          $self->{document}->append_child ($comment);          $self->{document}->append_child ($comment);
1851        } elsif ($self->{insertion_mode} == AFTER_BODY_IM) {        } elsif ($self->{insertion_mode} == AFTER_BODY_IM) {
1852            !!!cp ('t86');
1853          $self->{open_elements}->[0]->[0]->append_child ($comment);          $self->{open_elements}->[0]->[0]->append_child ($comment);
1854        } else {        } else {
1855            !!!cp ('t87');
1856          $self->{open_elements}->[-1]->[0]->append_child ($comment);          $self->{open_elements}->[-1]->[0]->append_child ($comment);
1857            $open_tables->[-1]->[2] = 0 if @$open_tables; # ~node inserted
1858        }        }
1859        !!!next-token;        !!!next-token;
1860        redo B;        next B;
1861      } elsif ($self->{insertion_mode} & HEAD_IMS) {      } elsif ($self->{insertion_mode} & IN_CDATA_RCDATA_IM) {
1862        if ($token->{type} == CHARACTER_TOKEN) {        if ($token->{type} == CHARACTER_TOKEN) {
1863          if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {          $token->{data} =~ s/^\x0A// if $self->{ignore_newline};
1864            $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);          delete $self->{ignore_newline};
1865    
1866            if (length $token->{data}) {
1867              !!!cp ('t43');
1868              $self->{open_elements}->[-1]->[0]->manakai_append_text
1869                  ($token->{data});
1870            } else {
1871              !!!cp ('t43.1');
1872            }
1873            !!!next-token;
1874            next B;
1875          } elsif ($token->{type} == END_TAG_TOKEN) {
1876            delete $self->{ignore_newline};
1877    
1878            if ($token->{tag_name} eq 'script') {
1879              !!!cp ('t50');
1880              
1881              ## Para 1-2
1882              my $script = pop @{$self->{open_elements}};
1883              
1884              ## Para 3
1885              $self->{insertion_mode} &= ~ IN_CDATA_RCDATA_IM;
1886    
1887              ## Para 4
1888              ## TODO: $old_insertion_point = $current_insertion_point;
1889              ## TODO: $current_insertion_point = just before $self->{nc};
1890    
1891              ## Para 5
1892              ## TODO: Run the $script->[0].
1893    
1894              ## Para 6
1895              ## TODO: $current_insertion_point = $old_insertion_point;
1896    
1897              ## Para 7
1898              ## TODO: if ($pending_external_script) {
1899                ## TODO: ...
1900              ## TODO: }
1901    
1902              !!!next-token;
1903              next B;
1904            } else {
1905              !!!cp ('t42');
1906    
1907              pop @{$self->{open_elements}};
1908    
1909              $self->{insertion_mode} &= ~ IN_CDATA_RCDATA_IM;
1910              !!!next-token;
1911              next B;
1912            }
1913          } elsif ($token->{type} == END_OF_FILE_TOKEN) {
1914            delete $self->{ignore_newline};
1915    
1916            !!!cp ('t44');
1917            !!!parse-error (type => 'not closed',
1918                            text => $self->{open_elements}->[-1]->[0]
1919                                ->manakai_local_name,
1920                            token => $token);
1921    
1922            #if ($self->{open_elements}->[-1]->[1] == SCRIPT_EL) {
1923            #  ## TODO: Mark as "already executed"
1924            #}
1925    
1926            pop @{$self->{open_elements}};
1927    
1928            $self->{insertion_mode} &= ~ IN_CDATA_RCDATA_IM;
1929            ## Reprocess.
1930            next B;
1931          } else {
1932            die "$0: $token->{type}: In CDATA/RCDATA: Unknown token type";        
1933          }
1934        } elsif ($self->{insertion_mode} & IN_FOREIGN_CONTENT_IM) {
1935          if ($token->{type} == CHARACTER_TOKEN) {
1936            !!!cp ('t87.1');
1937    
1938            $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});
1939    
1940            if ($token->{data} =~ /[^\x09\x0A\x0C\x0D\x20]/) {
1941              delete $self->{frameset_ok};
1942            }
1943    
1944            !!!next-token;
1945            next B;
1946          } elsif ($token->{type} == START_TAG_TOKEN) {
1947            if ((not {mglyph => 1, malignmark => 1}->{$token->{tag_name}} and
1948                 $self->{open_elements}->[-1]->[1] & FOREIGN_FLOW_CONTENT_EL) or
1949                not ($self->{open_elements}->[-1]->[1] & FOREIGN_EL) or
1950                ($token->{tag_name} eq 'svg' and
1951                 $self->{open_elements}->[-1]->[1] == MML_AXML_EL)) {
1952              ## NOTE: "using the rules for secondary insertion mode"then"continue"
1953              !!!cp ('t87.2');
1954              #
1955            } elsif ({
1956                      b => 1, big => 1, blockquote => 1, body => 1, br => 1,
1957                      center => 1, code => 1, dd => 1, div => 1, dl => 1, dt => 1,
1958                      em => 1, embed => 1, h1 => 1, h2 => 1, h3 => 1,
1959                      h4 => 1, h5 => 1, h6 => 1, head => 1, hr => 1, i => 1,
1960                      img => 1, li => 1, listing => 1, menu => 1, meta => 1,
1961                      nobr => 1, ol => 1, p => 1, pre => 1, ruby => 1, s => 1,
1962                      small => 1, span => 1, strong => 1, strike => 1, sub => 1,
1963                      sup => 1, table => 1, tt => 1, u => 1, ul => 1, var => 1,
1964                     }->{$token->{tag_name}} or
1965                     ($token->{tag_name} eq 'font' and
1966                      ($token->{attributes}->{color} or
1967                       $token->{attributes}->{face} or
1968                       $token->{attributes}->{size}))) {
1969              !!!cp ('t87.2');
1970              !!!parse-error (type => 'not closed',
1971                              text => $self->{open_elements}->[-1]->[0]
1972                                  ->manakai_local_name,
1973                              token => $token);
1974    
1975              pop @{$self->{open_elements}}
1976                  while $self->{open_elements}->[-1]->[1] & FOREIGN_EL;
1977    
1978              $self->{insertion_mode} &= ~ IN_FOREIGN_CONTENT_IM;
1979              ## Reprocess.
1980              next B;
1981            } else {
1982              my $nsuri = $self->{open_elements}->[-1]->[0]->namespace_uri;
1983              my $tag_name = $token->{tag_name};
1984              if ($nsuri eq $SVG_NS) {
1985                $tag_name = {
1986                   altglyph => 'altGlyph',
1987                   altglyphdef => 'altGlyphDef',
1988                   altglyphitem => 'altGlyphItem',
1989                   animatecolor => 'animateColor',
1990                   animatemotion => 'animateMotion',
1991                   animatetransform => 'animateTransform',
1992                   clippath => 'clipPath',
1993                   feblend => 'feBlend',
1994                   fecolormatrix => 'feColorMatrix',
1995                   fecomponenttransfer => 'feComponentTransfer',
1996                   fecomposite => 'feComposite',
1997                   feconvolvematrix => 'feConvolveMatrix',
1998                   fediffuselighting => 'feDiffuseLighting',
1999                   fedisplacementmap => 'feDisplacementMap',
2000                   fedistantlight => 'feDistantLight',
2001                   feflood => 'feFlood',
2002                   fefunca => 'feFuncA',
2003                   fefuncb => 'feFuncB',
2004                   fefuncg => 'feFuncG',
2005                   fefuncr => 'feFuncR',
2006                   fegaussianblur => 'feGaussianBlur',
2007                   feimage => 'feImage',
2008                   femerge => 'feMerge',
2009                   femergenode => 'feMergeNode',
2010                   femorphology => 'feMorphology',
2011                   feoffset => 'feOffset',
2012                   fepointlight => 'fePointLight',
2013                   fespecularlighting => 'feSpecularLighting',
2014                   fespotlight => 'feSpotLight',
2015                   fetile => 'feTile',
2016                   feturbulence => 'feTurbulence',
2017                   foreignobject => 'foreignObject',
2018                   glyphref => 'glyphRef',
2019                   lineargradient => 'linearGradient',
2020                   radialgradient => 'radialGradient',
2021                   #solidcolor => 'solidColor', ## NOTE: Commented in spec (SVG1.2)
2022                   textpath => 'textPath',  
2023                }->{$tag_name} || $tag_name;
2024              }
2025    
2026              ## "adjust SVG attributes" (SVG only) - done in insert-element-f
2027    
2028              ## "adjust foreign attributes" - done in insert-element-f
2029    
2030              !!!insert-element-f ($nsuri, $tag_name, $token->{attributes}, $token);
2031    
2032              if ($self->{self_closing}) {
2033                pop @{$self->{open_elements}};
2034                !!!ack ('t87.3');
2035              } else {
2036                !!!cp ('t87.4');
2037              }
2038    
2039              !!!next-token;
2040              next B;
2041            }
2042          } elsif ($token->{type} == END_TAG_TOKEN) {
2043            ## NOTE: "using the rules for secondary insertion mode" then "continue"
2044            if ($token->{tag_name} eq 'script') {
2045              !!!cp ('t87.41');
2046              #
2047              ## XXXscript: Execute script here.
2048            } else {
2049              !!!cp ('t87.5');
2050              #
2051            }
2052          } elsif ($token->{type} == END_OF_FILE_TOKEN) {
2053            !!!cp ('t87.6');
2054            !!!parse-error (type => 'not closed',
2055                            text => $self->{open_elements}->[-1]->[0]
2056                                ->manakai_local_name,
2057                            token => $token);
2058    
2059            pop @{$self->{open_elements}}
2060                while $self->{open_elements}->[-1]->[1] & FOREIGN_EL;
2061    
2062            ## NOTE: |<span><svg>| ... two parse errors, |<svg>| ... a parse error.
2063    
2064            $self->{insertion_mode} &= ~ IN_FOREIGN_CONTENT_IM;
2065            ## Reprocess.
2066            next B;
2067          } else {
2068            die "$0: $token->{type}: Unknown token type";        
2069          }
2070        }
2071    
2072        if ($self->{insertion_mode} & HEAD_IMS) {
2073          if ($token->{type} == CHARACTER_TOKEN) {
2074            if ($token->{data} =~ s/^([\x09\x0A\x0C\x20]+)//) {
2075              unless ($self->{insertion_mode} == BEFORE_HEAD_IM) {
2076                if ($self->{head_element_inserted}) {
2077                  !!!cp ('t88.3');
2078                  $self->{open_elements}->[-1]->[0]->append_child
2079                    ($self->{document}->create_text_node ($1));
2080                  delete $self->{head_element_inserted};
2081                  ## NOTE: |</head> <link> |
2082                  #
2083                } else {
2084                  !!!cp ('t88.2');
2085                  $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);
2086                  ## NOTE: |</head> &#x20;|
2087                  #
2088                }
2089              } else {
2090                !!!cp ('t88.1');
2091                ## Ignore the token.
2092                #
2093              }
2094            unless (length $token->{data}) {            unless (length $token->{data}) {
2095                !!!cp ('t88');
2096              !!!next-token;              !!!next-token;
2097              redo B;              next B;
2098            }            }
2099    ## TODO: set $token->{column} appropriately
2100          }          }
2101    
2102          if ($self->{insertion_mode} == BEFORE_HEAD_IM) {          if ($self->{insertion_mode} == BEFORE_HEAD_IM) {
2103              !!!cp ('t89');
2104            ## As if <head>            ## As if <head>
2105            !!!create-element ($self->{head_element}, 'head');            !!!create-element ($self->{head_element}, $HTML_NS, 'head',, $token);
2106            $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});            $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});
2107            push @{$self->{open_elements}}, [$self->{head_element}, 'head'];            push @{$self->{open_elements}},
2108                  [$self->{head_element}, $el_category->{head}];
2109    
2110            ## Reprocess in the "in head" insertion mode...            ## Reprocess in the "in head" insertion mode...
2111            pop @{$self->{open_elements}};            pop @{$self->{open_elements}};
2112    
2113            ## Reprocess in the "after head" insertion mode...            ## Reprocess in the "after head" insertion mode...
2114          } elsif ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {          } elsif ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
2115              !!!cp ('t90');
2116            ## As if </noscript>            ## As if </noscript>
2117            pop @{$self->{open_elements}};            pop @{$self->{open_elements}};
2118            !!!parse-error (type => 'in noscript:#character');            !!!parse-error (type => 'in noscript:#text', token => $token);
2119                        
2120            ## Reprocess in the "in head" insertion mode...            ## Reprocess in the "in head" insertion mode...
2121            ## As if </head>            ## As if </head>
# Line 2635  sub _tree_construction_main ($) { Line 2123  sub _tree_construction_main ($) {
2123    
2124            ## Reprocess in the "after head" insertion mode...            ## Reprocess in the "after head" insertion mode...
2125          } elsif ($self->{insertion_mode} == IN_HEAD_IM) {          } elsif ($self->{insertion_mode} == IN_HEAD_IM) {
2126              !!!cp ('t91');
2127            pop @{$self->{open_elements}};            pop @{$self->{open_elements}};
2128    
2129            ## Reprocess in the "after head" insertion mode...            ## Reprocess in the "after head" insertion mode...
2130            } else {
2131              !!!cp ('t92');
2132          }          }
2133    
2134              ## "after head" insertion mode          ## "after head" insertion mode
2135              ## As if <body>          ## As if <body>
2136              !!!insert-element ('body');          !!!insert-element ('body',, $token);
2137              $self->{insertion_mode} = IN_BODY_IM;          $self->{insertion_mode} = IN_BODY_IM;
2138              ## reprocess          ## The "frameset-ok" flag is left unchanged in this case.
2139              redo B;          ## Reporcess the token.
2140            } elsif ($token->{type} == START_TAG_TOKEN) {          next B;
2141              if ($token->{tag_name} eq 'head') {        } elsif ($token->{type} == START_TAG_TOKEN) {
2142                if ($self->{insertion_mode} == BEFORE_HEAD_IM) {          if ($token->{tag_name} eq 'head') {
2143                  !!!create-element ($self->{head_element}, $token->{tag_name}, $token->{attributes});            if ($self->{insertion_mode} == BEFORE_HEAD_IM) {
2144                  $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});              !!!cp ('t93');
2145                  push @{$self->{open_elements}}, [$self->{head_element}, $token->{tag_name}];              !!!create-element ($self->{head_element}, $HTML_NS, $token->{tag_name}, $token->{attributes}, $token);
2146                  $self->{insertion_mode} = IN_HEAD_IM;              $self->{open_elements}->[-1]->[0]->append_child
2147                  !!!next-token;                  ($self->{head_element});
2148                  redo B;              push @{$self->{open_elements}},
2149                } elsif ($self->{insertion_mode} == AFTER_HEAD_IM) {                  [$self->{head_element}, $el_category->{head}];
2150                  #              $self->{insertion_mode} = IN_HEAD_IM;
2151                } else {              !!!nack ('t93.1');
2152                  !!!parse-error (type => 'in head:head'); # or in head noscript              !!!next-token;
2153                  ## Ignore the token              next B;
2154                  !!!next-token;            } elsif ($self->{insertion_mode} == AFTER_HEAD_IM) {
2155                  redo B;              !!!cp ('t93.2');
2156                }              !!!parse-error (type => 'after head', text => 'head',
2157              } elsif ($self->{insertion_mode} == BEFORE_HEAD_IM) {                              token => $token);
2158                ## As if <head>              ## Ignore the token
2159                !!!create-element ($self->{head_element}, 'head');              !!!nack ('t93.3');
2160                $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});              !!!next-token;
2161                push @{$self->{open_elements}}, [$self->{head_element}, 'head'];              next B;
2162              } else {
2163                !!!cp ('t95');
2164                !!!parse-error (type => 'in head:head',
2165                                token => $token); # or in head noscript
2166                ## Ignore the token
2167                !!!nack ('t95.1');
2168                !!!next-token;
2169                next B;
2170              }
2171            } elsif ($self->{insertion_mode} == BEFORE_HEAD_IM) {
2172              !!!cp ('t96');
2173              ## As if <head>
2174              !!!create-element ($self->{head_element}, $HTML_NS, 'head',, $token);
2175              $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});
2176              push @{$self->{open_elements}},
2177                  [$self->{head_element}, $el_category->{head}];
2178    
2179                $self->{insertion_mode} = IN_HEAD_IM;            $self->{insertion_mode} = IN_HEAD_IM;
2180                ## Reprocess in the "in head" insertion mode...            ## Reprocess in the "in head" insertion mode...
2181              }          } else {
2182              !!!cp ('t97');
2183            }
2184    
2185              if ($token->{tag_name} eq 'base') {          if ($token->{tag_name} eq 'base') {
2186                if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {            if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
2187                  ## As if </noscript>              !!!cp ('t98');
2188                  pop @{$self->{open_elements}};              ## As if </noscript>
2189                  !!!parse-error (type => 'in noscript:base');              pop @{$self->{open_elements}};
2190                              !!!parse-error (type => 'in noscript', text => 'base',
2191                  $self->{insertion_mode} = IN_HEAD_IM;                              token => $token);
2192                  ## Reprocess in the "in head" insertion mode...            
2193                }              $self->{insertion_mode} = IN_HEAD_IM;
2194                ## Reprocess in the "in head" insertion mode...
2195              } else {
2196                !!!cp ('t99');
2197              }
2198    
2199                ## NOTE: There is a "as if in head" code clone.            ## NOTE: There is a "as if in head" code clone.
2200                if ($self->{insertion_mode} == AFTER_HEAD_IM) {            if ($self->{insertion_mode} == AFTER_HEAD_IM) {
2201                  !!!parse-error (type => 'after head:'.$token->{tag_name});              !!!cp ('t100');
2202                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];              !!!parse-error (type => 'after head',
2203                }                              text => $token->{tag_name}, token => $token);
2204                !!!insert-element ($token->{tag_name}, $token->{attributes});              push @{$self->{open_elements}},
2205                pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.                  [$self->{head_element}, $el_category->{head}];
2206                pop @{$self->{open_elements}}              $self->{head_element_inserted} = 1;
2207                    if $self->{insertion_mode} == AFTER_HEAD_IM;            } else {
2208                !!!next-token;              !!!cp ('t101');
2209                redo B;            }
2210              } elsif ($token->{tag_name} eq 'link') {            !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
2211                ## NOTE: There is a "as if in head" code clone.            pop @{$self->{open_elements}};
2212                if ($self->{insertion_mode} == AFTER_HEAD_IM) {            pop @{$self->{open_elements}} # <head>
2213                  !!!parse-error (type => 'after head:'.$token->{tag_name});                if $self->{insertion_mode} == AFTER_HEAD_IM;
2214                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];            !!!nack ('t101.1');
2215                }            !!!next-token;
2216                !!!insert-element ($token->{tag_name}, $token->{attributes});            next B;
2217                pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.          } elsif ($token->{tag_name} eq 'link') {
2218                pop @{$self->{open_elements}}            ## NOTE: There is a "as if in head" code clone.
2219                    if $self->{insertion_mode} == AFTER_HEAD_IM;            if ($self->{insertion_mode} == AFTER_HEAD_IM) {
2220                !!!next-token;              !!!cp ('t102');
2221                redo B;              !!!parse-error (type => 'after head',
2222              } elsif ($token->{tag_name} eq 'meta') {                              text => $token->{tag_name}, token => $token);
2223                ## NOTE: There is a "as if in head" code clone.              push @{$self->{open_elements}},
2224                if ($self->{insertion_mode} == AFTER_HEAD_IM) {                  [$self->{head_element}, $el_category->{head}];
2225                  !!!parse-error (type => 'after head:'.$token->{tag_name});              $self->{head_element_inserted} = 1;
2226                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];            } else {
2227                }              !!!cp ('t103');
2228                !!!insert-element ($token->{tag_name}, $token->{attributes});            }
2229                pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.            !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
2230              pop @{$self->{open_elements}};
2231              pop @{$self->{open_elements}} # <head>
2232                  if $self->{insertion_mode} == AFTER_HEAD_IM;
2233              !!!ack ('t103.1');
2234              !!!next-token;
2235              next B;
2236            } elsif ($token->{tag_name} eq 'command') {
2237              if ($self->{insertion_mode} == IN_HEAD_IM) {
2238                ## NOTE: If the insertion mode at the time of the emission
2239                ## of the token was "before head", $self->{insertion_mode}
2240                ## is already changed to |IN_HEAD_IM|.
2241    
2242                ## NOTE: There is a "as if in head" code clone.
2243                !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
2244                pop @{$self->{open_elements}};
2245                pop @{$self->{open_elements}} # <head>
2246                    if $self->{insertion_mode} == AFTER_HEAD_IM;
2247                !!!ack ('t103.2');
2248                !!!next-token;
2249                next B;
2250              } else {
2251                ## NOTE: "in head noscript" or "after head" insertion mode
2252                ## - in these cases, these tags are treated as same as
2253                ## normal in-body tags.
2254                !!!cp ('t103.3');
2255                #
2256              }
2257            } elsif ($token->{tag_name} eq 'meta') {
2258              ## NOTE: There is a "as if in head" code clone.
2259              if ($self->{insertion_mode} == AFTER_HEAD_IM) {
2260                !!!cp ('t104');
2261                !!!parse-error (type => 'after head',
2262                                text => $token->{tag_name}, token => $token);
2263                push @{$self->{open_elements}},
2264                    [$self->{head_element}, $el_category->{head}];
2265                $self->{head_element_inserted} = 1;
2266              } else {
2267                !!!cp ('t105');
2268              }
2269              !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
2270              my $meta_el = pop @{$self->{open_elements}};
2271    
2272                unless ($self->{confident}) {                unless ($self->{confident}) {
2273                  my $charset;                  if ($token->{attributes}->{charset}) {
2274                  if ($token->{attributes}->{charset}) { ## TODO: And if supported                    !!!cp ('t106');
2275                    $charset = $token->{attributes}->{charset}->{value};                    ## NOTE: Whether the encoding is supported or not is handled
2276                      ## in the {change_encoding} callback.
2277                      $self->{change_encoding}
2278                          ->($self, $token->{attributes}->{charset}->{value},
2279                             $token);
2280                      
2281                      $meta_el->[0]->get_attribute_node_ns (undef, 'charset')
2282                          ->set_user_data (manakai_has_reference =>
2283                                               $token->{attributes}->{charset}
2284                                                   ->{has_reference});
2285                    } elsif ($token->{attributes}->{content}) {
2286                      if ($token->{attributes}->{content}->{value}
2287                          =~ /[Cc][Hh][Aa][Rr][Ss][Ee][Tt]
2288                              [\x09\x0A\x0C\x0D\x20]*=
2289                              [\x09\x0A\x0C\x0D\x20]*(?>"([^"]*)"|'([^']*)'|
2290                              ([^"'\x09\x0A\x0C\x0D\x20]
2291                               [^\x09\x0A\x0C\x0D\x20\x3B]*))/x) {
2292                        !!!cp ('t107');
2293                        ## NOTE: Whether the encoding is supported or not is handled
2294                        ## in the {change_encoding} callback.
2295                        $self->{change_encoding}
2296                            ->($self, defined $1 ? $1 : defined $2 ? $2 : $3,
2297                               $token);
2298                        $meta_el->[0]->get_attribute_node_ns (undef, 'content')
2299                            ->set_user_data (manakai_has_reference =>
2300                                                 $token->{attributes}->{content}
2301                                                       ->{has_reference});
2302                      } else {
2303                        !!!cp ('t108');
2304                      }
2305                  }                  }
2306                  if ($token->{attributes}->{'http-equiv'}) {                } else {
2307                    ## ISSUE: Algorithm name in the spec was incorrect so that not linked to the definition.                  if ($token->{attributes}->{charset}) {
2308                    if ($token->{attributes}->{'http-equiv'}->{value}                    !!!cp ('t109');
2309                        =~ /\A[^;]*;[\x09-\x0D\x20]*charset[\x09-\x0D\x20]*=                    $meta_el->[0]->get_attribute_node_ns (undef, 'charset')
2310                            [\x09-\x0D\x20]*(?>"([^"]*)"|'([^']*)'|                        ->set_user_data (manakai_has_reference =>
2311                            ([^"'\x09-\x0D\x20][^\x09-\x0D\x20]*))/x) {                                             $token->{attributes}->{charset}
2312                      $charset = defined $1 ? $1 : defined $2 ? $2 : $3;                                                 ->{has_reference});
2313                    } ## TODO: And if supported                  }
2314                    if ($token->{attributes}->{content}) {
2315                      !!!cp ('t110');
2316                      $meta_el->[0]->get_attribute_node_ns (undef, 'content')
2317                          ->set_user_data (manakai_has_reference =>
2318                                               $token->{attributes}->{content}
2319                                                   ->{has_reference});
2320                  }                  }
                 ## TODO: Change the encoding  
2321                }                }
2322    
2323                ## TODO: Extracting |charset| from |meta|.                pop @{$self->{open_elements}} # <head>
               pop @{$self->{open_elements}}  
2324                    if $self->{insertion_mode} == AFTER_HEAD_IM;                    if $self->{insertion_mode} == AFTER_HEAD_IM;
2325                  !!!ack ('t110.1');
2326                !!!next-token;                !!!next-token;
2327                redo B;                next B;
2328              } elsif ($token->{tag_name} eq 'title') {          } elsif ($token->{tag_name} eq 'title') {
2329                if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {            if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
2330                  ## As if </noscript>              !!!cp ('t111');
2331                  pop @{$self->{open_elements}};              ## As if </noscript>
2332                  !!!parse-error (type => 'in noscript:title');              pop @{$self->{open_elements}};
2333                              !!!parse-error (type => 'in noscript', text => 'title',
2334                  $self->{insertion_mode} = IN_HEAD_IM;                              token => $token);
2335                  ## Reprocess in the "in head" insertion mode...            
2336                } elsif ($self->{insertion_mode} == AFTER_HEAD_IM) {              $self->{insertion_mode} = IN_HEAD_IM;
2337                  !!!parse-error (type => 'after head:'.$token->{tag_name});              ## Reprocess in the "in head" insertion mode...
2338                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];            } elsif ($self->{insertion_mode} == AFTER_HEAD_IM) {
2339                }              !!!cp ('t112');
2340                !!!parse-error (type => 'after head',
2341                                text => $token->{tag_name}, token => $token);
2342                push @{$self->{open_elements}},
2343                    [$self->{head_element}, $el_category->{head}];
2344                $self->{head_element_inserted} = 1;
2345              } else {
2346                !!!cp ('t113');
2347              }
2348    
2349                ## NOTE: There is a "as if in head" code clone.            ## NOTE: There is a "as if in head" code clone.
2350                my $parent = defined $self->{head_element} ? $self->{head_element}            $parse_rcdata->(RCDATA_CONTENT_MODEL);
2351                    : $self->{open_elements}->[-1]->[0];  
2352                $parse_rcdata->(RCDATA_CONTENT_MODEL,            ## NOTE: At this point the stack of open elements contain
2353                                sub { $parent->append_child ($_[0]) });            ## the |head| element (index == -2) and the |script| element
2354                pop @{$self->{open_elements}}            ## (index == -1).  In the "after head" insertion mode the
2355                    if $self->{insertion_mode} == AFTER_HEAD_IM;            ## |head| element is inserted only for the purpose of
2356                redo B;            ## providing the context for the |script| element, and
2357              } elsif ($token->{tag_name} eq 'style') {            ## therefore we can now and have to remove the element from
2358                ## NOTE: Or (scripting is enabled and tag_name eq 'noscript' and            ## the stack.
2359                ## insertion mode IN_HEAD_IM)            splice @{$self->{open_elements}}, -2, 1, () # <head>
2360                ## NOTE: There is a "as if in head" code clone.                if ($self->{insertion_mode} & IM_MASK) == AFTER_HEAD_IM;
2361                if ($self->{insertion_mode} == AFTER_HEAD_IM) {            next B;
2362                  !!!parse-error (type => 'after head:'.$token->{tag_name});          } elsif ($token->{tag_name} eq 'style' or
2363                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];                   $token->{tag_name} eq 'noframes') {
2364                }            ## NOTE: Or (scripting is enabled and tag_name eq 'noscript' and
2365                $parse_rcdata->(CDATA_CONTENT_MODEL, $insert_to_current);            ## insertion mode IN_HEAD_IM)
2366                pop @{$self->{open_elements}}            ## NOTE: There is a "as if in head" code clone.
2367                    if $self->{insertion_mode} == AFTER_HEAD_IM;            if ($self->{insertion_mode} == AFTER_HEAD_IM) {
2368                redo B;              !!!cp ('t114');
2369              } elsif ($token->{tag_name} eq 'noscript') {              !!!parse-error (type => 'after head',
2370                                text => $token->{tag_name}, token => $token);
2371                push @{$self->{open_elements}},
2372                    [$self->{head_element}, $el_category->{head}];
2373                $self->{head_element_inserted} = 1;
2374              } else {
2375                !!!cp ('t115');
2376              }
2377              $parse_rcdata->(CDATA_CONTENT_MODEL);
2378              ## ISSUE: A spec bug [Bug 6038]
2379              splice @{$self->{open_elements}}, -2, 1, () # <head>
2380                  if ($self->{insertion_mode} & IM_MASK) == AFTER_HEAD_IM;
2381              next B;
2382            } elsif ($token->{tag_name} eq 'noscript') {
2383                if ($self->{insertion_mode} == IN_HEAD_IM) {                if ($self->{insertion_mode} == IN_HEAD_IM) {
2384                    !!!cp ('t116');
2385                  ## NOTE: and scripting is disalbed                  ## NOTE: and scripting is disalbed
2386                  !!!insert-element ($token->{tag_name}, $token->{attributes});                  !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
2387                  $self->{insertion_mode} = IN_HEAD_NOSCRIPT_IM;                  $self->{insertion_mode} = IN_HEAD_NOSCRIPT_IM;
2388                    !!!nack ('t116.1');
2389                  !!!next-token;                  !!!next-token;
2390                  redo B;                  next B;
2391                } elsif ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {                } elsif ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
2392                  !!!parse-error (type => 'in noscript:noscript');                  !!!cp ('t117');
2393                    !!!parse-error (type => 'in noscript', text => 'noscript',
2394                                    token => $token);
2395                  ## Ignore the token                  ## Ignore the token
2396                    !!!nack ('t117.1');
2397                  !!!next-token;                  !!!next-token;
2398                  redo B;                  next B;
2399                } else {                } else {
2400                    !!!cp ('t118');
2401                  #                  #
2402                }                }
2403              } elsif ($token->{tag_name} eq 'script') {          } elsif ($token->{tag_name} eq 'script') {
2404                if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {            if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
2405                  ## As if </noscript>              !!!cp ('t119');
2406                  pop @{$self->{open_elements}};              ## As if </noscript>
2407                  !!!parse-error (type => 'in noscript:script');              pop @{$self->{open_elements}};
2408                              !!!parse-error (type => 'in noscript', text => 'script',
2409                  $self->{insertion_mode} = IN_HEAD_IM;                              token => $token);
2410                  ## Reprocess in the "in head" insertion mode...            
2411                } elsif ($self->{insertion_mode} == AFTER_HEAD_IM) {              $self->{insertion_mode} = IN_HEAD_IM;
2412                  !!!parse-error (type => 'after head:'.$token->{tag_name});              ## Reprocess in the "in head" insertion mode...
2413                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];            } elsif ($self->{insertion_mode} == AFTER_HEAD_IM) {
2414                }              !!!cp ('t120');
2415                !!!parse-error (type => 'after head',
2416                                text => $token->{tag_name}, token => $token);
2417                push @{$self->{open_elements}},
2418                    [$self->{head_element}, $el_category->{head}];
2419                $self->{head_element_inserted} = 1;
2420              } else {
2421                !!!cp ('t121');
2422              }
2423    
2424                ## NOTE: There is a "as if in head" code clone.            ## NOTE: There is a "as if in head" code clone.
2425                $script_start_tag->($insert_to_current);            $script_start_tag->();
2426                pop @{$self->{open_elements}}            ## ISSUE: A spec bug  [Bug 6038]
2427                    if $self->{insertion_mode} == AFTER_HEAD_IM;            splice @{$self->{open_elements}}, -2, 1 # <head>
2428                redo B;                if ($self->{insertion_mode} & IM_MASK) == AFTER_HEAD_IM;
2429              } elsif ($token->{tag_name} eq 'body' or            next B;
2430                       $token->{tag_name} eq 'frameset') {          } elsif ($token->{tag_name} eq 'body' or
2431                if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {                   $token->{tag_name} eq 'frameset') {
2432                  ## As if </noscript>            if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
2433                  pop @{$self->{open_elements}};              !!!cp ('t122');
2434                  !!!parse-error (type => 'in noscript:'.$token->{tag_name});              ## As if </noscript>
2435                                pop @{$self->{open_elements}};
2436                  ## Reprocess in the "in head" insertion mode...              !!!parse-error (type => 'in noscript',
2437                  ## As if </head>                              text => $token->{tag_name}, token => $token);
2438                  pop @{$self->{open_elements}};              
2439                                ## Reprocess in the "in head" insertion mode...
2440                  ## Reprocess in the "after head" insertion mode...              ## As if </head>
2441                } elsif ($self->{insertion_mode} == IN_HEAD_IM) {              pop @{$self->{open_elements}};
2442                  pop @{$self->{open_elements}};              
2443                                ## Reprocess in the "after head" insertion mode...
2444                  ## Reprocess in the "after head" insertion mode...            } elsif ($self->{insertion_mode} == IN_HEAD_IM) {
2445                }              !!!cp ('t124');
2446                pop @{$self->{open_elements}};
2447                
2448                ## Reprocess in the "after head" insertion mode...
2449              } else {
2450                !!!cp ('t125');
2451              }
2452    
2453                ## "after head" insertion mode            ## "after head" insertion mode
2454                !!!insert-element ($token->{tag_name}, $token->{attributes});            !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
2455                if ($token->{tag_name} eq 'body') {            if ($token->{tag_name} eq 'body') {
2456                  $self->{insertion_mode} = IN_BODY_IM;              !!!cp ('t126');
2457                } elsif ($token->{tag_name} eq 'frameset') {              delete $self->{frameset_ok};
2458                  $self->{insertion_mode} = IN_FRAMESET_IM;              $self->{insertion_mode} = IN_BODY_IM;
2459                } else {            } elsif ($token->{tag_name} eq 'frameset') {
2460                  die "$0: tag name: $self->{tag_name}";              !!!cp ('t127');
2461                }              $self->{insertion_mode} = IN_FRAMESET_IM;
2462                !!!next-token;            } else {
2463                redo B;              die "$0: tag name: $self->{tag_name}";
2464              } else {            }
2465                #            !!!nack ('t127.1');
2466              }            !!!next-token;
2467              next B;
2468            } else {
2469              !!!cp ('t128');
2470              #
2471            }
2472    
2473              if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {              if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
2474                  !!!cp ('t129');
2475                ## As if </noscript>                ## As if </noscript>
2476                pop @{$self->{open_elements}};                pop @{$self->{open_elements}};
2477                !!!parse-error (type => 'in noscript:/'.$token->{tag_name});                !!!parse-error (type => 'in noscript:/',
2478                                  text => $token->{tag_name}, token => $token);
2479                                
2480                ## Reprocess in the "in head" insertion mode...                ## Reprocess in the "in head" insertion mode...
2481                ## As if </head>                ## As if </head>
# Line 2847  sub _tree_construction_main ($) { Line 2483  sub _tree_construction_main ($) {
2483    
2484                ## Reprocess in the "after head" insertion mode...                ## Reprocess in the "after head" insertion mode...
2485              } elsif ($self->{insertion_mode} == IN_HEAD_IM) {              } elsif ($self->{insertion_mode} == IN_HEAD_IM) {
2486                  !!!cp ('t130');
2487                ## As if </head>                ## As if </head>
2488                pop @{$self->{open_elements}};                pop @{$self->{open_elements}};
2489    
2490                ## Reprocess in the "after head" insertion mode...                ## Reprocess in the "after head" insertion mode...
2491                } else {
2492                  !!!cp ('t131');
2493              }              }
2494    
2495              ## "after head" insertion mode          ## "after head" insertion mode
2496              ## As if <body>          ## As if <body>
2497              !!!insert-element ('body');          !!!insert-element ('body',, $token);
2498              $self->{insertion_mode} = IN_BODY_IM;          $self->{insertion_mode} = IN_BODY_IM;
2499              ## reprocess          ## The "frameset-ok" flag is not changed in this case.
2500              redo B;          ## Reprocess the token.
2501            } elsif ($token->{type} == END_TAG_TOKEN) {          !!!ack-later;
2502              if ($token->{tag_name} eq 'head') {          next B;
2503                if ($self->{insertion_mode} == BEFORE_HEAD_IM) {        } elsif ($token->{type} == END_TAG_TOKEN) {
2504                  ## As if <head>          ## "Before head", "in head", and "after head" insertion modes
2505                  !!!create-element ($self->{head_element}, 'head');          ## ignore most of end tags.  Exceptions are "body", "html",
2506                  $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});          ## and "br" end tags.  "Before head" and "in head" insertion
2507                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];          ## modes also recognize "head" end tag.  "In head noscript"
2508            ## insertion modes ignore end tags except for "noscript" and
2509            ## "br".
2510    
2511            if ($token->{tag_name} eq 'head') {
2512              if ($self->{insertion_mode} == BEFORE_HEAD_IM) {
2513                !!!cp ('t132');
2514                ## As if <head>
2515                !!!create-element ($self->{head_element}, $HTML_NS, 'head',, $token);
2516                $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});
2517                push @{$self->{open_elements}},
2518                    [$self->{head_element}, $el_category->{head}];
2519    
2520                  ## Reprocess in the "in head" insertion mode...              ## Reprocess in the "in head" insertion mode...
2521                  pop @{$self->{open_elements}};              pop @{$self->{open_elements}};
2522                  $self->{insertion_mode} = AFTER_HEAD_IM;              $self->{insertion_mode} = AFTER_HEAD_IM;
2523                  !!!next-token;              !!!next-token;
2524                  redo B;              next B;
2525                } elsif ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {            } elsif ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
2526                  ## As if </noscript>              !!!cp ('t133');
2527                  pop @{$self->{open_elements}};              #
2528                  !!!parse-error (type => 'in noscript:script');            } elsif ($self->{insertion_mode} == IN_HEAD_IM) {
2529                                !!!cp ('t134');
2530                  ## Reprocess in the "in head" insertion mode...              pop @{$self->{open_elements}};
2531                  pop @{$self->{open_elements}};              $self->{insertion_mode} = AFTER_HEAD_IM;
2532                  $self->{insertion_mode} = AFTER_HEAD_IM;              !!!next-token;
2533                  !!!next-token;              next B;
2534                  redo B;            } elsif ($self->{insertion_mode} == AFTER_HEAD_IM) {
2535                } elsif ($self->{insertion_mode} == IN_HEAD_IM) {              !!!cp ('t134.1');
2536                  pop @{$self->{open_elements}};              #
2537                  $self->{insertion_mode} = AFTER_HEAD_IM;            } else {
2538                  !!!next-token;              die "$0: $self->{insertion_mode}: Unknown insertion mode";
2539                  redo B;            }
2540                } else {          } elsif ($token->{tag_name} eq 'noscript') {
2541                  #            if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
2542                }              !!!cp ('t136');
2543              } elsif ($token->{tag_name} eq 'noscript') {              pop @{$self->{open_elements}};
2544                if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {              $self->{insertion_mode} = IN_HEAD_IM;
2545                  pop @{$self->{open_elements}};              !!!next-token;
2546                  $self->{insertion_mode} = IN_HEAD_IM;              next B;
2547                  !!!next-token;            } else {
2548                  redo B;              !!!cp ('t138');
2549                } elsif ($self->{insertion_mode} == BEFORE_HEAD_IM) {              #
2550                  !!!parse-error (type => 'unmatched end tag:noscript');            }
2551                  ## Ignore the token ## ISSUE: An issue in the spec.          } elsif ({
2552                  !!!next-token;              body => ($self->{insertion_mode} != IN_HEAD_NOSCRIPT_IM),
2553                  redo B;              html => ($self->{insertion_mode} != IN_HEAD_NOSCRIPT_IM),
2554                } else {              br => 1,
2555                  #          }->{$token->{tag_name}}) {
2556                }            if ($self->{insertion_mode} == BEFORE_HEAD_IM) {
2557              } elsif ({              !!!cp ('t142.2');
2558                        body => 1, html => 1,              ## (before head) as if <head>, (in head) as if </head>
2559                       }->{$token->{tag_name}}) {              !!!create-element ($self->{head_element}, $HTML_NS, 'head',, $token);
2560                if ($self->{insertion_mode} == BEFORE_HEAD_IM) {              $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});
2561                  ## As if <head>              $self->{insertion_mode} = AFTER_HEAD_IM;
2562                  !!!create-element ($self->{head_element}, 'head');    
2563                  $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});              ## Reprocess in the "after head" insertion mode...
2564                  push @{$self->{open_elements}}, [$self->{head_element}, 'head'];            } elsif ($self->{insertion_mode} == IN_HEAD_IM) {
2565                !!!cp ('t143.2');
2566                ## As if </head>
2567                pop @{$self->{open_elements}};
2568                $self->{insertion_mode} = AFTER_HEAD_IM;
2569      
2570                ## Reprocess in the "after head" insertion mode...
2571              } elsif ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
2572                !!!cp ('t143.3');
2573                ## NOTE: Two parse errors for <head><noscript></br>
2574                !!!parse-error (type => 'unmatched end tag',
2575                                text => $token->{tag_name}, token => $token);
2576                ## As if </noscript>
2577                pop @{$self->{open_elements}};
2578                $self->{insertion_mode} = IN_HEAD_IM;
2579    
2580                  $self->{insertion_mode} = IN_HEAD_IM;              ## Reprocess in the "in head" insertion mode...
2581                  ## Reprocess in the "in head" insertion mode...              ## As if </head>
2582                } elsif ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {              pop @{$self->{open_elements}};
2583                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});              $self->{insertion_mode} = AFTER_HEAD_IM;
                 ## Ignore the token  
                 !!!next-token;  
                 redo B;  
               }  
                 
               #  
             } elsif ({  
                       p => 1, br => 1,  
                      }->{$token->{tag_name}}) {  
               if ($self->{insertion_mode} == BEFORE_HEAD_IM) {  
                 ## As if <head>  
                 !!!create-element ($self->{head_element}, 'head');  
                 $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});  
                 push @{$self->{open_elements}}, [$self->{head_element}, 'head'];  
2584    
2585                  $self->{insertion_mode} = IN_HEAD_IM;              ## Reprocess in the "after head" insertion mode...
2586                  ## Reprocess in the "in head" insertion mode...            } elsif ($self->{insertion_mode} == AFTER_HEAD_IM) {
2587                }              !!!cp ('t143.4');
2588                #
2589              } else {
2590                die "$0: $self->{insertion_mode}: Unknown insertion mode";
2591              }
2592    
2593                #            ## "after head" insertion mode
2594              } else {            ## As if <body>
2595                if ($self->{insertion_mode} == AFTER_HEAD_IM) {            !!!insert-element ('body',, $token);
2596                  #            $self->{insertion_mode} = IN_BODY_IM;
2597                } else {            ## The "frameset-ok" flag is left unchanged in this case.
2598                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});            ## Reprocess the token.
2599                  ## Ignore the token            next B;
2600                  !!!next-token;          }
                 redo B;  
               }  
             }  
2601    
2602              if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {          ## End tags are ignored by default.
2603                ## As if </noscript>          !!!cp ('t145');
2604                pop @{$self->{open_elements}};          !!!parse-error (type => 'unmatched end tag',
2605                !!!parse-error (type => 'in noscript:/'.$token->{tag_name});                          text => $token->{tag_name}, token => $token);
2606                          ## Ignore the token.
2607                ## Reprocess in the "in head" insertion mode...          !!!next-token;
2608                ## As if </head>          next B;
2609                pop @{$self->{open_elements}};        } elsif ($token->{type} == END_OF_FILE_TOKEN) {
2610            if ($self->{insertion_mode} == BEFORE_HEAD_IM) {
2611              !!!cp ('t149.1');
2612    
2613                ## Reprocess in the "after head" insertion mode...            ## NOTE: As if <head>
2614              } elsif ($self->{insertion_mode} == IN_HEAD_IM) {            !!!create-element ($self->{head_element}, $HTML_NS, 'head',, $token);
2615                ## As if </head>            $self->{open_elements}->[-1]->[0]->append_child
2616                pop @{$self->{open_elements}};                ($self->{head_element});
2617              #push @{$self->{open_elements}},
2618              #    [$self->{head_element}, $el_category->{head}];
2619              #$self->{insertion_mode} = IN_HEAD_IM;
2620              ## NOTE: Reprocess.
2621    
2622              ## NOTE: As if </head>
2623              #pop @{$self->{open_elements}};
2624              #$self->{insertion_mode} = IN_AFTER_HEAD_IM;
2625              ## NOTE: Reprocess.
2626              
2627              #
2628            } elsif ($self->{insertion_mode} == IN_HEAD_IM) {
2629              !!!cp ('t149.2');
2630    
2631                ## Reprocess in the "after head" insertion mode...            ## NOTE: As if </head>
2632              } elsif ($self->{insertion_mode} == BEFORE_HEAD_IM) {            pop @{$self->{open_elements}};
2633                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});            #$self->{insertion_mode} = IN_AFTER_HEAD_IM;
2634                ## Ignore the token ## ISSUE: An issue in the spec.            ## NOTE: Reprocess.
               !!!next-token;  
               redo B;  
             }  
2635    
2636              ## "after head" insertion mode            #
2637              ## As if <body>          } elsif ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
2638              !!!insert-element ('body');            !!!cp ('t149.3');
2639              $self->{insertion_mode} = IN_BODY_IM;  
2640              ## reprocess            !!!parse-error (type => 'in noscript:#eof', token => $token);
2641              redo B;  
2642            } else {            ## As if </noscript>
2643              die "$0: $token->{type}: Unknown token type";            pop @{$self->{open_elements}};
2644            }            #$self->{insertion_mode} = IN_HEAD_IM;
2645              ## NOTE: Reprocess.
2646    
2647              ## NOTE: As if </head>
2648              pop @{$self->{open_elements}};
2649              #$self->{insertion_mode} = IN_AFTER_HEAD_IM;
2650              ## NOTE: Reprocess.
2651    
2652            ## ISSUE: An issue in the spec.            #
2653            } else {
2654              !!!cp ('t149.4');
2655              #
2656            }
2657    
2658            ## NOTE: As if <body>
2659            !!!insert-element ('body',, $token);
2660            $self->{insertion_mode} = IN_BODY_IM;
2661            ## The "frameset-ok" flag is left unchanged in this case.
2662            ## Reprocess the token.
2663            next B;
2664          } else {
2665            die "$0: $token->{type}: Unknown token type";
2666          }
2667      } elsif ($self->{insertion_mode} & BODY_IMS) {      } elsif ($self->{insertion_mode} & BODY_IMS) {
2668            if ($token->{type} == CHARACTER_TOKEN) {        if ($token->{type} == CHARACTER_TOKEN) {
2669              ## NOTE: There is a code clone of "character in body".          !!!cp ('t150');
2670              $reconstruct_active_formatting_elements->($insert_to_current);          $reconstruct_active_formatting_elements->($insert_to_current);
2671                        
2672              $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});          $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});
2673    
2674              !!!next-token;          if ($token->{data} =~ /[^\x09\x0A\x0C\x0D\x20]/) {
2675              redo B;            delete $self->{frameset_ok};
2676            } elsif ($token->{type} == START_TAG_TOKEN) {          }
2677    
2678            !!!next-token;
2679            next B;
2680          } elsif ($token->{type} == START_TAG_TOKEN) {
2681              if ({              if ({
2682                   caption => 1, col => 1, colgroup => 1, tbody => 1,                   caption => 1, col => 1, colgroup => 1, tbody => 1,
2683                   td => 1, tfoot => 1, th => 1, thead => 1, tr => 1,                   td => 1, tfoot => 1, th => 1, thead => 1, tr => 1,
2684                  }->{$token->{tag_name}}) {                  }->{$token->{tag_name}}) {
2685                if ($self->{insertion_mode} == IN_CELL_IM) {                if (($self->{insertion_mode} & IM_MASK) == IN_CELL_IM) {
2686                  ## have an element in table scope                  ## have an element in table scope
2687                  my $tn;                  for (reverse 0..$#{$self->{open_elements}}) {
                 INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
2688                    my $node = $self->{open_elements}->[$_];                    my $node = $self->{open_elements}->[$_];
2689                    if ($node->[1] eq 'td' or $node->[1] eq 'th') {                    if ($node->[1] == TABLE_CELL_EL) {
2690                      $tn = $node->[1];                      !!!cp ('t151');
2691                      last INSCOPE;  
2692                    } elsif ({                      ## Close the cell
2693                              table => 1, html => 1,                      !!!back-token; # <x>
2694                             }->{$node->[1]}) {                      $token = {type => END_TAG_TOKEN,
2695                      last INSCOPE;                                tag_name => $node->[0]->manakai_local_name,
2696                    }                                line => $token->{line},
2697                  } # INSCOPE                                column => $token->{column}};
2698                    unless (defined $tn) {                      next B;
2699                      !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                    } elsif ($node->[1] & TABLE_SCOPING_EL) {
2700                      ## Ignore the token                      !!!cp ('t152');
2701                      !!!next-token;                      ## ISSUE: This case can never be reached, maybe.
2702                      redo B;                      last;
2703                    }                    }
2704                    }
2705    
2706                    !!!cp ('t153');
2707                    !!!parse-error (type => 'start tag not allowed',
2708                        text => $token->{tag_name}, token => $token);
2709                    ## Ignore the token
2710                    !!!nack ('t153.1');
2711                    !!!next-token;
2712                    next B;
2713                  } elsif (($self->{insertion_mode} & IM_MASK) == IN_CAPTION_IM) {
2714                    !!!parse-error (type => 'not closed', text => 'caption',
2715                                    token => $token);
2716                                    
2717                  ## Close the cell                  ## NOTE: As if </caption>.
                 !!!back-token; # <?>  
                 $token = {type => END_TAG_TOKEN, tag_name => $tn};  
                 redo B;  
               } elsif ($self->{insertion_mode} == IN_CAPTION_IM) {  
                 !!!parse-error (type => 'not closed:caption');  
                   
                 ## As if </caption>  
2718                  ## have a table element in table scope                  ## have a table element in table scope
2719                  my $i;                  my $i;
2720                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                  INSCOPE: {
2721                    my $node = $self->{open_elements}->[$_];                    for (reverse 0..$#{$self->{open_elements}}) {
2722                    if ($node->[1] eq 'caption') {                      my $node = $self->{open_elements}->[$_];
2723                      $i = $_;                      if ($node->[1] == CAPTION_EL) {
2724                      last INSCOPE;                        !!!cp ('t155');
2725                    } elsif ({                        $i = $_;
2726                              table => 1, html => 1,                        last INSCOPE;
2727                             }->{$node->[1]}) {                      } elsif ($node->[1] & TABLE_SCOPING_EL) {
2728                      last INSCOPE;                        !!!cp ('t156');
2729                          last;
2730                        }
2731                    }                    }
2732    
2733                      !!!cp ('t157');
2734                      !!!parse-error (type => 'start tag not allowed',
2735                                      text => $token->{tag_name}, token => $token);
2736                      ## Ignore the token
2737                      !!!nack ('t157.1');
2738                      !!!next-token;
2739                      next B;
2740                  } # INSCOPE                  } # INSCOPE
                   unless (defined $i) {  
                     !!!parse-error (type => 'unmatched end tag:caption');  
                     ## Ignore the token  
                     !!!next-token;  
                     redo B;  
                   }  
2741                                    
2742                  ## generate implied end tags                  ## generate implied end tags
2743                  if ({                  while ($self->{open_elements}->[-1]->[1]
2744                       dd => 1, dt => 1, li => 1, p => 1,                             & END_TAG_OPTIONAL_EL) {
2745                       td => 1, th => 1, tr => 1,                    !!!cp ('t158');
2746                       tbody => 1, tfoot=> 1, thead => 1,                    pop @{$self->{open_elements}};
                     }->{$self->{open_elements}->[-1]->[1]}) {  
                   !!!back-token; # <?>  
                   $token = {type => END_TAG_TOKEN, tag_name => 'caption'};  
                   !!!back-token;  
                   $token = {type => END_TAG_TOKEN,  
                             tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                   redo B;  
2747                  }                  }
2748    
2749                  if ($self->{open_elements}->[-1]->[1] ne 'caption') {                  unless ($self->{open_elements}->[-1]->[1] == CAPTION_EL) {
2750                    !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                    !!!cp ('t159');
2751                      !!!parse-error (type => 'not closed',
2752                                      text => $self->{open_elements}->[-1]->[0]
2753                                          ->manakai_local_name,
2754                                      token => $token);
2755                    } else {
2756                      !!!cp ('t160');
2757                  }                  }
2758                                    
2759                  splice @{$self->{open_elements}}, $i;                  splice @{$self->{open_elements}}, $i;
# Line 3069  sub _tree_construction_main ($) { Line 2763  sub _tree_construction_main ($) {
2763                  $self->{insertion_mode} = IN_TABLE_IM;                  $self->{insertion_mode} = IN_TABLE_IM;
2764                                    
2765                  ## reprocess                  ## reprocess
2766                  redo B;                  !!!ack-later;
2767                    next B;
2768                } else {                } else {
2769                    !!!cp ('t161');
2770                  #                  #
2771                }                }
2772              } else {              } else {
2773                  !!!cp ('t162');
2774                #                #
2775              }              }
2776            } elsif ($token->{type} == END_TAG_TOKEN) {            } elsif ($token->{type} == END_TAG_TOKEN) {
2777              if ($token->{tag_name} eq 'td' or $token->{tag_name} eq 'th') {              if ($token->{tag_name} eq 'td' or $token->{tag_name} eq 'th') {
2778                if ($self->{insertion_mode} == IN_CELL_IM) {                if (($self->{insertion_mode} & IM_MASK) == IN_CELL_IM) {
2779                  ## have an element in table scope                  ## have an element in table scope
2780                  my $i;                  my $i;
2781                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
2782                    my $node = $self->{open_elements}->[$_];                    my $node = $self->{open_elements}->[$_];
2783                    if ($node->[1] eq $token->{tag_name}) {                    if ($node->[0]->manakai_local_name eq $token->{tag_name}) {
2784                        !!!cp ('t163');
2785                      $i = $_;                      $i = $_;
2786                      last INSCOPE;                      last INSCOPE;
2787                    } elsif ({                    } elsif ($node->[1] & TABLE_SCOPING_EL) {
2788                              table => 1, html => 1,                      !!!cp ('t164');
                            }->{$node->[1]}) {  
2789                      last INSCOPE;                      last INSCOPE;
2790                    }                    }
2791                  } # INSCOPE                  } # INSCOPE
2792                    unless (defined $i) {                    unless (defined $i) {
2793                      !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                      !!!cp ('t165');
2794                        !!!parse-error (type => 'unmatched end tag',
2795                                        text => $token->{tag_name},
2796                                        token => $token);
2797                      ## Ignore the token                      ## Ignore the token
2798                      !!!next-token;                      !!!next-token;
2799                      redo B;                      next B;
2800                    }                    }
2801                                    
2802                  ## generate implied end tags                  ## generate implied end tags
2803                  if ({                  while ($self->{open_elements}->[-1]->[1]
2804                       dd => 1, dt => 1, li => 1, p => 1,                             & END_TAG_OPTIONAL_EL) {
2805                       td => ($token->{tag_name} eq 'th'),                    !!!cp ('t166');
2806                       th => ($token->{tag_name} eq 'td'),                    pop @{$self->{open_elements}};
                      tr => 1,  
                      tbody => 1, tfoot=> 1, thead => 1,  
                     }->{$self->{open_elements}->[-1]->[1]}) {  
                   !!!back-token;  
                   $token = {type => END_TAG_TOKEN,  
                             tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                   redo B;  
2807                  }                  }
2808                    
2809                  if ($self->{open_elements}->[-1]->[1] ne $token->{tag_name}) {                  if ($self->{open_elements}->[-1]->[0]->manakai_local_name
2810                    !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                          ne $token->{tag_name}) {
2811                      !!!cp ('t167');
2812                      !!!parse-error (type => 'not closed',
2813                                      text => $self->{open_elements}->[-1]->[0]
2814                                          ->manakai_local_name,
2815                                      token => $token);
2816                    } else {
2817                      !!!cp ('t168');
2818                  }                  }
2819                                    
2820                  splice @{$self->{open_elements}}, $i;                  splice @{$self->{open_elements}}, $i;
# Line 3124  sub _tree_construction_main ($) { Line 2824  sub _tree_construction_main ($) {
2824                  $self->{insertion_mode} = IN_ROW_IM;                  $self->{insertion_mode} = IN_ROW_IM;
2825                                    
2826                  !!!next-token;                  !!!next-token;
2827                  redo B;                  next B;
2828                } elsif ($self->{insertion_mode} == IN_CAPTION_IM) {                } elsif (($self->{insertion_mode} & IM_MASK) == IN_CAPTION_IM) {
2829                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  !!!cp ('t169');
2830                    !!!parse-error (type => 'unmatched end tag',
2831                                    text => $token->{tag_name}, token => $token);
2832                  ## Ignore the token                  ## Ignore the token
2833                  !!!next-token;                  !!!next-token;
2834                  redo B;                  next B;
2835                } else {                } else {
2836                    !!!cp ('t170');
2837                  #                  #
2838                }                }
2839              } elsif ($token->{tag_name} eq 'caption') {              } elsif ($token->{tag_name} eq 'caption') {
2840                if ($self->{insertion_mode} == IN_CAPTION_IM) {                if (($self->{insertion_mode} & IM_MASK) == IN_CAPTION_IM) {
2841                  ## have a table element in table scope                  ## have a table element in table scope
2842                  my $i;                  my $i;
2843                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                  INSCOPE: {
2844                    my $node = $self->{open_elements}->[$_];                    for (reverse 0..$#{$self->{open_elements}}) {
2845                    if ($node->[1] eq $token->{tag_name}) {                      my $node = $self->{open_elements}->[$_];
2846                      $i = $_;                      if ($node->[1] == CAPTION_EL) {
2847                      last INSCOPE;                        !!!cp ('t171');
2848                    } elsif ({                        $i = $_;
2849                              table => 1, html => 1,                        last INSCOPE;
2850                             }->{$node->[1]}) {                      } elsif ($node->[1] & TABLE_SCOPING_EL) {
2851                      last INSCOPE;                        !!!cp ('t172');
2852                          last;
2853                        }
2854                    }                    }
2855    
2856                      !!!cp ('t173');
2857                      !!!parse-error (type => 'unmatched end tag',
2858                                      text => $token->{tag_name}, token => $token);
2859                      ## Ignore the token
2860                      !!!next-token;
2861                      next B;
2862                  } # INSCOPE                  } # INSCOPE
                   unless (defined $i) {  
                     !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
                     ## Ignore the token  
                     !!!next-token;  
                     redo B;  
                   }  
2863                                    
2864                  ## generate implied end tags                  ## generate implied end tags
2865                  if ({                  while ($self->{open_elements}->[-1]->[1]
2866                       dd => 1, dt => 1, li => 1, p => 1,                             & END_TAG_OPTIONAL_EL) {
2867                       td => 1, th => 1, tr => 1,                    !!!cp ('t174');
2868                       tbody => 1, tfoot=> 1, thead => 1,                    pop @{$self->{open_elements}};
                     }->{$self->{open_elements}->[-1]->[1]}) {  
                   !!!back-token;  
                   $token = {type => END_TAG_TOKEN,  
                             tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                   redo B;  
2869                  }                  }
2870                                    
2871                  if ($self->{open_elements}->[-1]->[1] ne 'caption') {                  unless ($self->{open_elements}->[-1]->[1] == CAPTION_EL) {
2872                    !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                    !!!cp ('t175');
2873                      !!!parse-error (type => 'not closed',
2874                                      text => $self->{open_elements}->[-1]->[0]
2875                                          ->manakai_local_name,
2876                                      token => $token);
2877                    } else {
2878                      !!!cp ('t176');
2879                  }                  }
2880                                    
2881                  splice @{$self->{open_elements}}, $i;                  splice @{$self->{open_elements}}, $i;
# Line 3178  sub _tree_construction_main ($) { Line 2885  sub _tree_construction_main ($) {
2885                  $self->{insertion_mode} = IN_TABLE_IM;                  $self->{insertion_mode} = IN_TABLE_IM;
2886                                    
2887                  !!!next-token;                  !!!next-token;
2888                  redo B;                  next B;
2889                } elsif ($self->{insertion_mode} == IN_CELL_IM) {                } elsif (($self->{insertion_mode} & IM_MASK) == IN_CELL_IM) {
2890                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  !!!cp ('t177');
2891                    !!!parse-error (type => 'unmatched end tag',
2892                                    text => $token->{tag_name}, token => $token);
2893                  ## Ignore the token                  ## Ignore the token
2894                  !!!next-token;                  !!!next-token;
2895                  redo B;                  next B;
2896                } else {                } else {
2897                    !!!cp ('t178');
2898                  #                  #
2899                }                }
2900              } elsif ({              } elsif ({
2901                        table => 1, tbody => 1, tfoot => 1,                        table => 1, tbody => 1, tfoot => 1,
2902                        thead => 1, tr => 1,                        thead => 1, tr => 1,
2903                       }->{$token->{tag_name}} and                       }->{$token->{tag_name}} and
2904                       $self->{insertion_mode} == IN_CELL_IM) {                       ($self->{insertion_mode} & IM_MASK) == IN_CELL_IM) {
2905                ## have an element in table scope                ## have an element in table scope
2906                my $i;                my $i;
2907                my $tn;                my $tn;
2908                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                INSCOPE: {
2909                  my $node = $self->{open_elements}->[$_];                  for (reverse 0..$#{$self->{open_elements}}) {
2910                  if ($node->[1] eq $token->{tag_name}) {                    my $node = $self->{open_elements}->[$_];
2911                    $i = $_;                    if ($node->[0]->manakai_local_name eq $token->{tag_name}) {
2912                    last INSCOPE;                      !!!cp ('t179');
2913                  } elsif ($node->[1] eq 'td' or $node->[1] eq 'th') {                      $i = $_;
2914                    $tn = $node->[1];  
2915                    ## NOTE: There is exactly one |td| or |th| element                      ## Close the cell
2916                    ## in scope in the stack of open elements by definition.                      !!!back-token; # </x>
2917                  } elsif ({                      $token = {type => END_TAG_TOKEN, tag_name => $tn,
2918                            table => 1, html => 1,                                line => $token->{line},
2919                           }->{$node->[1]}) {                                column => $token->{column}};
2920                    last INSCOPE;                      next B;
2921                      } elsif ($node->[1] == TABLE_CELL_EL) {
2922                        !!!cp ('t180');
2923                        $tn = $node->[0]->manakai_local_name;
2924                        ## NOTE: There is exactly one |td| or |th| element
2925                        ## in scope in the stack of open elements by definition.
2926                      } elsif ($node->[1] & TABLE_SCOPING_EL) {
2927                        ## ISSUE: Can this be reached?
2928                        !!!cp ('t181');
2929                        last;
2930                      }
2931                  }                  }
2932                } # INSCOPE  
2933                unless (defined $i) {                  !!!cp ('t182');
2934                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  !!!parse-error (type => 'unmatched end tag',
2935                        text => $token->{tag_name}, token => $token);
2936                  ## Ignore the token                  ## Ignore the token
2937                  !!!next-token;                  !!!next-token;
2938                  redo B;                  next B;
2939                }                } # INSCOPE
   
               ## Close the cell  
               !!!back-token; # </?>  
               $token = {type => END_TAG_TOKEN, tag_name => $tn};  
               redo B;  
2940              } elsif ($token->{tag_name} eq 'table' and              } elsif ($token->{tag_name} eq 'table' and
2941                       $self->{insertion_mode} == IN_CAPTION_IM) {                       ($self->{insertion_mode} & IM_MASK) == IN_CAPTION_IM) {
2942                !!!parse-error (type => 'not closed:caption');                !!!parse-error (type => 'not closed', text => 'caption',
2943                                  token => $token);
2944    
2945                ## As if </caption>                ## As if </caption>
2946                ## have a table element in table scope                ## have a table element in table scope
2947                my $i;                my $i;
2948                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
2949                  my $node = $self->{open_elements}->[$_];                  my $node = $self->{open_elements}->[$_];
2950                  if ($node->[1] eq 'caption') {                  if ($node->[1] == CAPTION_EL) {
2951                      !!!cp ('t184');
2952                    $i = $_;                    $i = $_;
2953                    last INSCOPE;                    last INSCOPE;
2954                  } elsif ({                  } elsif ($node->[1] & TABLE_SCOPING_EL) {
2955                            table => 1, html => 1,                    !!!cp ('t185');
                          }->{$node->[1]}) {  
2956                    last INSCOPE;                    last INSCOPE;
2957                  }                  }
2958                } # INSCOPE                } # INSCOPE
2959                unless (defined $i) {                unless (defined $i) {
2960                  !!!parse-error (type => 'unmatched end tag:caption');                  !!!cp ('t186');
2961            ## TODO: Wrong error type?
2962                    !!!parse-error (type => 'unmatched end tag',
2963                                    text => 'caption', token => $token);
2964                  ## Ignore the token                  ## Ignore the token
2965                  !!!next-token;                  !!!next-token;
2966                  redo B;                  next B;
2967                }                }
2968                                
2969                ## generate implied end tags                ## generate implied end tags
2970                if ({                while ($self->{open_elements}->[-1]->[1] & END_TAG_OPTIONAL_EL) {
2971                     dd => 1, dt => 1, li => 1, p => 1,                  !!!cp ('t187');
2972                     td => 1, th => 1, tr => 1,                  pop @{$self->{open_elements}};
                    tbody => 1, tfoot=> 1, thead => 1,  
                   }->{$self->{open_elements}->[-1]->[1]}) {  
                 !!!back-token; # </table>  
                 $token = {type => END_TAG_TOKEN, tag_name => 'caption'};  
                 !!!back-token;  
                 $token = {type => END_TAG_TOKEN,  
                           tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                 redo B;  
2973                }                }
2974    
2975                if ($self->{open_elements}->[-1]->[1] ne 'caption') {                unless ($self->{open_elements}->[-1]->[1] == CAPTION_EL) {
2976                  !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                  !!!cp ('t188');
2977                    !!!parse-error (type => 'not closed',
2978                                    text => $self->{open_elements}->[-1]->[0]
2979                                        ->manakai_local_name,
2980                                    token => $token);
2981                  } else {
2982                    !!!cp ('t189');
2983                }                }
2984    
2985                splice @{$self->{open_elements}}, $i;                splice @{$self->{open_elements}}, $i;
# Line 3271  sub _tree_construction_main ($) { Line 2989  sub _tree_construction_main ($) {
2989                $self->{insertion_mode} = IN_TABLE_IM;                $self->{insertion_mode} = IN_TABLE_IM;
2990    
2991                ## reprocess                ## reprocess
2992                redo B;                next B;
2993              } elsif ({              } elsif ({
2994                        body => 1, col => 1, colgroup => 1, html => 1,                        body => 1, col => 1, colgroup => 1, html => 1,
2995                       }->{$token->{tag_name}}) {                       }->{$token->{tag_name}}) {
2996                if ($self->{insertion_mode} & BODY_TABLE_IMS) {                if ($self->{insertion_mode} & BODY_TABLE_IMS) {
2997                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  !!!cp ('t190');
2998                    !!!parse-error (type => 'unmatched end tag',
2999                                    text => $token->{tag_name}, token => $token);
3000                  ## Ignore the token                  ## Ignore the token
3001                  !!!next-token;                  !!!next-token;
3002                  redo B;                  next B;
3003                } else {                } else {
3004                    !!!cp ('t191');
3005                  #                  #
3006                }                }
3007              } elsif ({          } elsif ({
3008                        tbody => 1, tfoot => 1,                    tbody => 1, tfoot => 1,
3009                        thead => 1, tr => 1,                    thead => 1, tr => 1,
3010                       }->{$token->{tag_name}} and                   }->{$token->{tag_name}} and
3011                       $self->{insertion_mode} == IN_CAPTION_IM) {                   ($self->{insertion_mode} & IM_MASK) == IN_CAPTION_IM) {
3012                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});            !!!cp ('t192');
3013                ## Ignore the token            !!!parse-error (type => 'unmatched end tag',
3014                !!!next-token;                            text => $token->{tag_name}, token => $token);
3015                redo B;            ## Ignore the token
3016              } else {            !!!next-token;
3017                #            next B;
3018              }          } else {
3019              !!!cp ('t193');
3020              #
3021            }
3022          } elsif ($token->{type} == END_OF_FILE_TOKEN) {
3023            for my $entry (@{$self->{open_elements}}) {
3024              unless ($entry->[1] & ALL_END_TAG_OPTIONAL_EL) {
3025                !!!cp ('t75');
3026                !!!parse-error (type => 'in body:#eof', token => $token);
3027                last;
3028              }
3029            }
3030    
3031            ## Stop parsing.
3032            last B;
3033        } else {        } else {
3034          die "$0: $token->{type}: Unknown token type";          die "$0: $token->{type}: Unknown token type";
3035        }        }
# Line 3302  sub _tree_construction_main ($) { Line 3037  sub _tree_construction_main ($) {
3037        $insert = $insert_to_current;        $insert = $insert_to_current;
3038        #        #
3039      } elsif ($self->{insertion_mode} & TABLE_IMS) {      } elsif ($self->{insertion_mode} & TABLE_IMS) {
3040            if ($token->{type} == CHARACTER_TOKEN) {        if ($token->{type} == START_TAG_TOKEN) {
3041              ## NOTE: There are "character in table" code clones.          if ({
3042              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {               tr => (($self->{insertion_mode} & IM_MASK) != IN_ROW_IM),
3043                $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);               th => 1, td => 1,
3044                              }->{$token->{tag_name}}) {
3045                unless (length $token->{data}) {            if (($self->{insertion_mode} & IM_MASK) == IN_TABLE_IM) {
3046                  !!!next-token;              ## Clear back to table context
3047                  redo B;              while (not ($self->{open_elements}->[-1]->[1]
3048                }                              & TABLE_SCOPING_EL)) {
3049                  !!!cp ('t201');
3050                  pop @{$self->{open_elements}};
3051              }              }
   
             !!!parse-error (type => 'in table:#character');  
   
             ## As if in body, but insert into foster parent element  
             ## ISSUE: Spec says that "whenever a node would be inserted  
             ## into the current node" while characters might not be  
             ## result in a new Text node.  
             $reconstruct_active_formatting_elements->($insert_to_foster);  
3052                            
3053              if ({              !!!insert-element ('tbody',, $token);
3054                   table => 1, tbody => 1, tfoot => 1,              $self->{insertion_mode} = IN_TABLE_BODY_IM;
3055                   thead => 1, tr => 1,              ## reprocess in the "in table body" insertion mode...
3056                  }->{$self->{open_elements}->[-1]->[1]}) {            }
3057                # MUST            
3058                my $foster_parent_element;            if (($self->{insertion_mode} & IM_MASK) == IN_TABLE_BODY_IM) {
3059                my $next_sibling;              unless ($token->{tag_name} eq 'tr') {
3060                my $prev_sibling;                !!!cp ('t202');
3061                OE: for (reverse 0..$#{$self->{open_elements}}) {                !!!parse-error (type => 'missing start tag:tr', token => $token);
                 if ($self->{open_elements}->[$_]->[1] eq 'table') {  
                   my $parent = $self->{open_elements}->[$_]->[0]->parent_node;  
                   if (defined $parent and $parent->node_type == 1) {  
                     $foster_parent_element = $parent;  
                     $next_sibling = $self->{open_elements}->[$_]->[0];  
                     $prev_sibling = $next_sibling->previous_sibling;  
                   } else {  
                     $foster_parent_element = $self->{open_elements}->[$_ - 1]->[0];  
                     $prev_sibling = $foster_parent_element->last_child;  
                   }  
                   last OE;  
                 }  
               } # OE  
               $foster_parent_element = $self->{open_elements}->[0]->[0] and  
               $prev_sibling = $foster_parent_element->last_child  
                 unless defined $foster_parent_element;  
               if (defined $prev_sibling and  
                   $prev_sibling->node_type == 3) {  
                 $prev_sibling->manakai_append_text ($token->{data});  
               } else {  
                 $foster_parent_element->insert_before  
                   ($self->{document}->create_text_node ($token->{data}),  
                    $next_sibling);  
               }  
             } else {  
               $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});  
3062              }              }
               
             !!!next-token;  
             redo B;  
           } elsif ($token->{type} == START_TAG_TOKEN) {  
             if ({  
                  tr => ($self->{insertion_mode} != IN_ROW_IM),  
                  th => 1, td => 1,  
                 }->{$token->{tag_name}}) {  
               if ($self->{insertion_mode} == IN_TABLE_IM) {  
                 ## Clear back to table context  
                 while ($self->{open_elements}->[-1]->[1] ne 'table' and  
                        $self->{open_elements}->[-1]->[1] ne 'html') {  
                   !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
                   pop @{$self->{open_elements}};  
                 }  
3063                                    
3064                  !!!insert-element ('tbody');              ## Clear back to table body context
3065                  $self->{insertion_mode} = IN_TABLE_BODY_IM;              while (not ($self->{open_elements}->[-1]->[1]
3066                  ## reprocess in the "in table body" insertion mode...                              & TABLE_ROWS_SCOPING_EL)) {
3067                }                !!!cp ('t203');
3068                  ## ISSUE: Can this case be reached?
3069                if ($self->{insertion_mode} == IN_TABLE_BODY_IM) {                pop @{$self->{open_elements}};
3070                  unless ($token->{tag_name} eq 'tr') {              }
                   !!!parse-error (type => 'missing start tag:tr');  
                 }  
                   
                 ## Clear back to table body context  
                 while (not {  
                   tbody => 1, tfoot => 1, thead => 1, html => 1,  
                 }->{$self->{open_elements}->[-1]->[1]}) {  
                   !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
                   pop @{$self->{open_elements}};  
                 }  
3071                                    
3072                  $self->{insertion_mode} = IN_ROW_IM;              $self->{insertion_mode} = IN_ROW_IM;
3073                  if ($token->{tag_name} eq 'tr') {              if ($token->{tag_name} eq 'tr') {
3074                    !!!insert-element ($token->{tag_name}, $token->{attributes});                !!!cp ('t204');
3075                    !!!next-token;                !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
3076                    redo B;                $open_tables->[-1]->[2] = 0 if @$open_tables; # ~node inserted
3077                  } else {                !!!nack ('t204');
3078                    !!!insert-element ('tr');                !!!next-token;
3079                    ## reprocess in the "in row" insertion mode                next B;
3080                  }              } else {
3081                }                !!!cp ('t205');
3082                  !!!insert-element ('tr',, $token);
3083                  ## reprocess in the "in row" insertion mode
3084                }
3085              } else {
3086                !!!cp ('t206');
3087              }
3088    
3089                ## Clear back to table row context                ## Clear back to table row context
3090                while (not {                while (not ($self->{open_elements}->[-1]->[1]
3091                  tr => 1, html => 1,                                & TABLE_ROW_SCOPING_EL)) {
3092                }->{$self->{open_elements}->[-1]->[1]}) {                  !!!cp ('t207');
                 !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
3093                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
3094                }                }
3095                                
3096                !!!insert-element ($token->{tag_name}, $token->{attributes});            !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
3097                $self->{insertion_mode} = IN_CELL_IM;            $open_tables->[-1]->[2] = 0 if @$open_tables; # ~node inserted
3098              $self->{insertion_mode} = IN_CELL_IM;
3099    
3100                push @$active_formatting_elements, ['#marker', ''];            push @$active_formatting_elements, ['#marker', ''];
3101                                
3102              !!!nack ('t207.1');
3103              !!!next-token;
3104              next B;
3105            } elsif ({
3106                      caption => 1, col => 1, colgroup => 1,
3107                      tbody => 1, tfoot => 1, thead => 1,
3108                      tr => 1, # $self->{insertion_mode} == IN_ROW_IM
3109                     }->{$token->{tag_name}}) {
3110              if (($self->{insertion_mode} & IM_MASK) == IN_ROW_IM) {
3111                ## As if </tr>
3112                ## have an element in table scope
3113                my $i;
3114                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3115                  my $node = $self->{open_elements}->[$_];
3116                  if ($node->[1] == TABLE_ROW_EL) {
3117                    !!!cp ('t208');
3118                    $i = $_;
3119                    last INSCOPE;
3120                  } elsif ($node->[1] & TABLE_SCOPING_EL) {
3121                    !!!cp ('t209');
3122                    last INSCOPE;
3123                  }
3124                } # INSCOPE
3125                unless (defined $i) {
3126                  !!!cp ('t210');
3127                  ## TODO: This type is wrong.
3128                  !!!parse-error (type => 'unmacthed end tag',
3129                                  text => $token->{tag_name}, token => $token);
3130                  ## Ignore the token
3131                  !!!nack ('t210.1');
3132                !!!next-token;                !!!next-token;
3133                redo B;                next B;
3134              } elsif ({              }
                       caption => 1, col => 1, colgroup => 1,  
                       tbody => 1, tfoot => 1, thead => 1,  
                       tr => 1, # $self->{insertion_mode} == IN_ROW_IM  
                      }->{$token->{tag_name}}) {  
               if ($self->{insertion_mode} == IN_ROW_IM) {  
                 ## As if </tr>  
                 ## have an element in table scope  
                 my $i;  
                 INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
                   my $node = $self->{open_elements}->[$_];  
                   if ($node->[1] eq 'tr') {  
                     $i = $_;  
                     last INSCOPE;  
                   } elsif ({  
                             table => 1, html => 1,  
                            }->{$node->[1]}) {  
                     last INSCOPE;  
                   }  
                 } # INSCOPE  
                 unless (defined $i) {  
                   !!!parse-error (type => 'unmacthed end tag:'.$token->{tag_name});  
                   ## Ignore the token  
                   !!!next-token;  
                   redo B;  
                 }  
3135                                    
3136                  ## Clear back to table row context                  ## Clear back to table row context
3137                  while (not {                  while (not ($self->{open_elements}->[-1]->[1]
3138                    tr => 1, html => 1,                                  & TABLE_ROW_SCOPING_EL)) {
3139                  }->{$self->{open_elements}->[-1]->[1]}) {                    !!!cp ('t211');
3140                    !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                    ## ISSUE: Can this case be reached?
3141                    pop @{$self->{open_elements}};                    pop @{$self->{open_elements}};
3142                  }                  }
3143                                    
3144                  pop @{$self->{open_elements}}; # tr                  pop @{$self->{open_elements}}; # tr
3145                  $self->{insertion_mode} = IN_TABLE_BODY_IM;                  $self->{insertion_mode} = IN_TABLE_BODY_IM;
3146                  if ($token->{tag_name} eq 'tr') {                  if ($token->{tag_name} eq 'tr') {
3147                      !!!cp ('t212');
3148                    ## reprocess                    ## reprocess
3149                    redo B;                    !!!ack-later;
3150                      next B;
3151                  } else {                  } else {
3152                      !!!cp ('t213');
3153                    ## reprocess in the "in table body" insertion mode...                    ## reprocess in the "in table body" insertion mode...
3154                  }                  }
3155                }                }
3156    
3157                if ($self->{insertion_mode} == IN_TABLE_BODY_IM) {                if (($self->{insertion_mode} & IM_MASK) == IN_TABLE_BODY_IM) {
3158                  ## have an element in table scope                  ## have an element in table scope
3159                  my $i;                  my $i;
3160                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3161                    my $node = $self->{open_elements}->[$_];                    my $node = $self->{open_elements}->[$_];
3162                    if ({                    if ($node->[1] == TABLE_ROW_GROUP_EL) {
3163                         tbody => 1, thead => 1, tfoot => 1,                      !!!cp ('t214');
                       }->{$node->[1]}) {  
3164                      $i = $_;                      $i = $_;
3165                      last INSCOPE;                      last INSCOPE;
3166                    } elsif ({                    } elsif ($node->[1] & TABLE_SCOPING_EL) {
3167                              table => 1, html => 1,                      !!!cp ('t215');
                            }->{$node->[1]}) {  
3168                      last INSCOPE;                      last INSCOPE;
3169                    }                    }
3170                  } # INSCOPE                  } # INSCOPE
3171                  unless (defined $i) {                  unless (defined $i) {
3172                    !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                    !!!cp ('t216');
3173    ## TODO: This erorr type is wrong.
3174                      !!!parse-error (type => 'unmatched end tag',
3175                                      text => $token->{tag_name}, token => $token);
3176                    ## Ignore the token                    ## Ignore the token
3177                      !!!nack ('t216.1');
3178                    !!!next-token;                    !!!next-token;
3179                    redo B;                    next B;
3180                  }                  }
3181    
3182                  ## Clear back to table body context                  ## Clear back to table body context
3183                  while (not {                  while (not ($self->{open_elements}->[-1]->[1]
3184                    tbody => 1, tfoot => 1, thead => 1, html => 1,                                  & TABLE_ROWS_SCOPING_EL)) {
3185                  }->{$self->{open_elements}->[-1]->[1]}) {                    !!!cp ('t217');
3186                    !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                    ## ISSUE: Can this state be reached?
3187                    pop @{$self->{open_elements}};                    pop @{$self->{open_elements}};
3188                  }                  }
3189                                    
# Line 3503  sub _tree_construction_main ($) { Line 3197  sub _tree_construction_main ($) {
3197                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
3198                  $self->{insertion_mode} = IN_TABLE_IM;                  $self->{insertion_mode} = IN_TABLE_IM;
3199                  ## reprocess in "in table" insertion mode...                  ## reprocess in "in table" insertion mode...
3200                  } else {
3201                    !!!cp ('t218');
3202                }                }
3203    
3204                if ($token->{tag_name} eq 'col') {            if ($token->{tag_name} eq 'col') {
3205                  ## Clear back to table context              ## Clear back to table context
3206                  while ($self->{open_elements}->[-1]->[1] ne 'table' and              while (not ($self->{open_elements}->[-1]->[1]
3207                         $self->{open_elements}->[-1]->[1] ne 'html') {                              & TABLE_SCOPING_EL)) {
3208                    !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                !!!cp ('t219');
3209                    pop @{$self->{open_elements}};                ## ISSUE: Can this state be reached?
3210                  }                pop @{$self->{open_elements}};
3211                                }
3212                  !!!insert-element ('colgroup');              
3213                  $self->{insertion_mode} = IN_COLUMN_GROUP_IM;              !!!insert-element ('colgroup',, $token);
3214                  ## reprocess              $self->{insertion_mode} = IN_COLUMN_GROUP_IM;
3215                  redo B;              ## reprocess
3216                } elsif ({              $open_tables->[-1]->[2] = 0 if @$open_tables; # ~node inserted
3217                          caption => 1,              !!!ack-later;
3218                          colgroup => 1,              next B;
3219                          tbody => 1, tfoot => 1, thead => 1,            } elsif ({
3220                         }->{$token->{tag_name}}) {                      caption => 1,
3221                  ## Clear back to table context                      colgroup => 1,
3222                  while ($self->{open_elements}->[-1]->[1] ne 'table' and                      tbody => 1, tfoot => 1, thead => 1,
3223                         $self->{open_elements}->[-1]->[1] ne 'html') {                     }->{$token->{tag_name}}) {
3224                    !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);              ## Clear back to table context
3225                    while (not ($self->{open_elements}->[-1]->[1]
3226                                    & TABLE_SCOPING_EL)) {
3227                      !!!cp ('t220');
3228                      ## ISSUE: Can this state be reached?
3229                    pop @{$self->{open_elements}};                    pop @{$self->{open_elements}};
3230                  }                  }
3231                                    
3232                  push @$active_formatting_elements, ['#marker', '']              push @$active_formatting_elements, ['#marker', '']
3233                      if $token->{tag_name} eq 'caption';                  if $token->{tag_name} eq 'caption';
3234                                    
3235                  !!!insert-element ($token->{tag_name}, $token->{attributes});              !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
3236                  $self->{insertion_mode} = {              $open_tables->[-1]->[2] = 0 if @$open_tables; # ~node inserted
3237                                             caption => IN_CAPTION_IM,              $self->{insertion_mode} = {
3238                                             colgroup => IN_COLUMN_GROUP_IM,                                         caption => IN_CAPTION_IM,
3239                                             tbody => IN_TABLE_BODY_IM,                                         colgroup => IN_COLUMN_GROUP_IM,
3240                                             tfoot => IN_TABLE_BODY_IM,                                         tbody => IN_TABLE_BODY_IM,
3241                                             thead => IN_TABLE_BODY_IM,                                         tfoot => IN_TABLE_BODY_IM,
3242                                            }->{$token->{tag_name}};                                         thead => IN_TABLE_BODY_IM,
3243                  !!!next-token;                                        }->{$token->{tag_name}};
3244                  redo B;              !!!next-token;
3245                } else {              !!!nack ('t220.1');
3246                  die "$0: in table: <>: $token->{tag_name}";              next B;
3247                }            } else {
3248                die "$0: in table: <>: $token->{tag_name}";
3249              }
3250              } elsif ($token->{tag_name} eq 'table') {              } elsif ($token->{tag_name} eq 'table') {
3251                ## NOTE: There are code clones for this "table in table"                !!!parse-error (type => 'not closed',
3252                !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                                text => $self->{open_elements}->[-1]->[0]
3253                                      ->manakai_local_name,
3254                                  token => $token);
3255    
3256                ## As if </table>                ## As if </table>
3257                ## have a table element in table scope                ## have a table element in table scope
3258                my $i;                my $i;
3259                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3260                  my $node = $self->{open_elements}->[$_];                  my $node = $self->{open_elements}->[$_];
3261                  if ($node->[1] eq 'table') {                  if ($node->[1] == TABLE_EL) {
3262                      !!!cp ('t221');
3263                    $i = $_;                    $i = $_;
3264                    last INSCOPE;                    last INSCOPE;
3265                  } elsif ({                  } elsif ($node->[1] & TABLE_SCOPING_EL) {
3266                            table => 1, html => 1,                    !!!cp ('t222');
                          }->{$node->[1]}) {  
3267                    last INSCOPE;                    last INSCOPE;
3268                  }                  }
3269                } # INSCOPE                } # INSCOPE
3270                unless (defined $i) {                unless (defined $i) {
3271                  !!!parse-error (type => 'unmatched end tag:table');                  !!!cp ('t223');
3272    ## TODO: The following is wrong, maybe.
3273                    !!!parse-error (type => 'unmatched end tag', text => 'table',
3274                                    token => $token);
3275                  ## Ignore tokens </table><table>                  ## Ignore tokens </table><table>
3276                    !!!nack ('t223.1');
3277                  !!!next-token;                  !!!next-token;
3278                  redo B;                  next B;
3279                }                }
3280                                
3281    ## TODO: Followings are removed from the latest spec.
3282                ## generate implied end tags                ## generate implied end tags
3283                if ({                while ($self->{open_elements}->[-1]->[1] & END_TAG_OPTIONAL_EL) {
3284                     dd => 1, dt => 1, li => 1, p => 1,                  !!!cp ('t224');
3285                     td => 1, th => 1, tr => 1,                  pop @{$self->{open_elements}};
                    tbody => 1, tfoot=> 1, thead => 1,  
                   }->{$self->{open_elements}->[-1]->[1]}) {  
                 !!!back-token; # <table>  
                 $token = {type => END_TAG_TOKEN, tag_name => 'table'};  
                 !!!back-token;  
                 $token = {type => END_TAG_TOKEN,  
                           tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                 redo B;  
3286                }                }
3287    
3288                if ($self->{open_elements}->[-1]->[1] ne 'table') {                unless ($self->{open_elements}->[-1]->[1] == TABLE_EL) {
3289                  !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                  !!!cp ('t225');
3290                    ## NOTE: |<table><tr><table>|
3291                    !!!parse-error (type => 'not closed',
3292                                    text => $self->{open_elements}->[-1]->[0]
3293                                        ->manakai_local_name,
3294                                    token => $token);
3295                  } else {
3296                    !!!cp ('t226');
3297                }                }
3298    
3299                splice @{$self->{open_elements}}, $i;                splice @{$self->{open_elements}}, $i;
3300                  pop @{$open_tables};
3301    
3302                $self->_reset_insertion_mode;                $self->_reset_insertion_mode;
3303    
3304                ## reprocess            ## reprocess
3305                redo B;            !!!ack-later;
3306              next B;
3307            } elsif ($token->{tag_name} eq 'style') {
3308              !!!cp ('t227.8');
3309              ## NOTE: This is a "as if in head" code clone.
3310              $parse_rcdata->(CDATA_CONTENT_MODEL);
3311              $open_tables->[-1]->[2] = 0 if @$open_tables; # ~node inserted
3312              next B;
3313            } elsif ($token->{tag_name} eq 'script') {
3314              !!!cp ('t227.6');
3315              ## NOTE: This is a "as if in head" code clone.
3316              $script_start_tag->();
3317              $open_tables->[-1]->[2] = 0 if @$open_tables; # ~node inserted
3318              next B;
3319            } elsif ($token->{tag_name} eq 'input') {
3320              if ($token->{attributes}->{type}) {
3321                my $type = $token->{attributes}->{type}->{value};
3322                $type =~ tr/A-Z/a-z/; ## ASCII case-insensitive.
3323                if ($type eq 'hidden') {
3324                  !!!cp ('t227.3');
3325                  !!!parse-error (type => 'in table',
3326                                  text => $token->{tag_name}, token => $token);
3327    
3328                  !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
3329                  $open_tables->[-1]->[2] = 0 if @$open_tables; # ~node inserted
3330    
3331                  ## TODO: form element pointer
3332    
3333                  pop @{$self->{open_elements}};
3334    
3335                  !!!next-token;
3336                  !!!ack ('t227.2.1');
3337                  next B;
3338              } else {              } else {
3339                  !!!cp ('t227.1');
3340                #                #
3341              }              }
3342            } elsif ($token->{type} == END_TAG_TOKEN) {            } else {
3343              if ($token->{tag_name} eq 'tr' and              !!!cp ('t227.4');
3344                  $self->{insertion_mode} == IN_ROW_IM) {              #
3345                ## have an element in table scope            }
3346            } else {
3347              !!!cp ('t227');
3348              #
3349            }
3350    
3351            !!!parse-error (type => 'in table', text => $token->{tag_name},
3352                            token => $token);
3353    
3354            $insert = $insert_to_foster;
3355            #
3356          } elsif ($token->{type} == END_TAG_TOKEN) {
3357            if ($token->{tag_name} eq 'tr' and
3358                ($self->{insertion_mode} & IM_MASK) == IN_ROW_IM) {
3359              ## have an element in table scope
3360                my $i;                my $i;
3361                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3362                  my $node = $self->{open_elements}->[$_];                  my $node = $self->{open_elements}->[$_];
3363                  if ($node->[1] eq $token->{tag_name}) {                  if ($node->[1] == TABLE_ROW_EL) {
3364                      !!!cp ('t228');
3365                    $i = $_;                    $i = $_;
3366                    last INSCOPE;                    last INSCOPE;
3367                  } elsif ({                  } elsif ($node->[1] & TABLE_SCOPING_EL) {
3368                            table => 1, html => 1,                    !!!cp ('t229');
                          }->{$node->[1]}) {  
3369                    last INSCOPE;                    last INSCOPE;
3370                  }                  }
3371                } # INSCOPE                } # INSCOPE
3372                unless (defined $i) {                unless (defined $i) {
3373                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  !!!cp ('t230');
3374                    !!!parse-error (type => 'unmatched end tag',
3375                                    text => $token->{tag_name}, token => $token);
3376                  ## Ignore the token                  ## Ignore the token
3377                    !!!nack ('t230.1');
3378                  !!!next-token;                  !!!next-token;
3379                  redo B;                  next B;
3380                  } else {
3381                    !!!cp ('t232');
3382                }                }
3383    
3384                ## Clear back to table row context                ## Clear back to table row context
3385                while (not {                while (not ($self->{open_elements}->[-1]->[1]
3386                  tr => 1, html => 1,                                & TABLE_ROW_SCOPING_EL)) {
3387                }->{$self->{open_elements}->[-1]->[1]}) {                  !!!cp ('t231');
3388                  !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  ## ISSUE: Can this state be reached?
3389                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
3390                }                }
3391    
3392                pop @{$self->{open_elements}}; # tr                pop @{$self->{open_elements}}; # tr
3393                $self->{insertion_mode} = IN_TABLE_BODY_IM;                $self->{insertion_mode} = IN_TABLE_BODY_IM;
3394                !!!next-token;                !!!next-token;
3395                redo B;                !!!nack ('t231.1');
3396                  next B;
3397              } elsif ($token->{tag_name} eq 'table') {              } elsif ($token->{tag_name} eq 'table') {
3398                if ($self->{insertion_mode} == IN_ROW_IM) {                if (($self->{insertion_mode} & IM_MASK) == IN_ROW_IM) {
3399                  ## As if </tr>                  ## As if </tr>
3400                  ## have an element in table scope                  ## have an element in table scope
3401                  my $i;                  my $i;
3402                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3403                    my $node = $self->{open_elements}->[$_];                    my $node = $self->{open_elements}->[$_];
3404                    if ($node->[1] eq 'tr') {                    if ($node->[1] == TABLE_ROW_EL) {
3405                        !!!cp ('t233');
3406                      $i = $_;                      $i = $_;
3407                      last INSCOPE;                      last INSCOPE;
3408                    } elsif ({                    } elsif ($node->[1] & TABLE_SCOPING_EL) {
3409                              table => 1, html => 1,                      !!!cp ('t234');
                            }->{$node->[1]}) {  
3410                      last INSCOPE;                      last INSCOPE;
3411                    }                    }
3412                  } # INSCOPE                  } # INSCOPE
3413                  unless (defined $i) {                  unless (defined $i) {
3414                    !!!parse-error (type => 'unmatched end tag:'.$token->{type});                    !!!cp ('t235');
3415    ## TODO: The following is wrong.
3416                      !!!parse-error (type => 'unmatched end tag',
3417                                      text => $token->{type}, token => $token);
3418                    ## Ignore the token                    ## Ignore the token
3419                      !!!nack ('t236.1');
3420                    !!!next-token;                    !!!next-token;
3421                    redo B;                    next B;
3422                  }                  }
3423                                    
3424                  ## Clear back to table row context                  ## Clear back to table row context
3425                  while (not {                  while (not ($self->{open_elements}->[-1]->[1]
3426                    tr => 1, html => 1,                                  & TABLE_ROW_SCOPING_EL)) {
3427                  }->{$self->{open_elements}->[-1]->[1]}) {                    !!!cp ('t236');
3428                    !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  ## ISSUE: Can this state be reached?
3429                    pop @{$self->{open_elements}};                    pop @{$self->{open_elements}};
3430                  }                  }
3431                                    
# Line 3668  sub _tree_construction_main ($) { Line 3434  sub _tree_construction_main ($) {
3434                  ## reprocess in the "in table body" insertion mode...                  ## reprocess in the "in table body" insertion mode...
3435                }                }
3436    
3437                if ($self->{insertion_mode} == IN_TABLE_BODY_IM) {                if (($self->{insertion_mode} & IM_MASK) == IN_TABLE_BODY_IM) {
3438                  ## have an element in table scope                  ## have an element in table scope
3439                  my $i;                  my $i;
3440                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3441                    my $node = $self->{open_elements}->[$_];                    my $node = $self->{open_elements}->[$_];
3442                    if ({                    if ($node->[1] == TABLE_ROW_GROUP_EL) {
3443                         tbody => 1, thead => 1, tfoot => 1,                      !!!cp ('t237');
                       }->{$node->[1]}) {  
3444                      $i = $_;                      $i = $_;
3445                      last INSCOPE;                      last INSCOPE;
3446                    } elsif ({                    } elsif ($node->[1] & TABLE_SCOPING_EL) {
3447                              table => 1, html => 1,                      !!!cp ('t238');
                            }->{$node->[1]}) {  
3448                      last INSCOPE;                      last INSCOPE;
3449                    }                    }
3450                  } # INSCOPE                  } # INSCOPE
3451                  unless (defined $i) {                  unless (defined $i) {
3452                    !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                    !!!cp ('t239');
3453                      !!!parse-error (type => 'unmatched end tag',
3454                                      text => $token->{tag_name}, token => $token);
3455                    ## Ignore the token                    ## Ignore the token
3456                      !!!nack ('t239.1');
3457                    !!!next-token;                    !!!next-token;
3458                    redo B;                    next B;
3459                  }                  }
3460                                    
3461                  ## Clear back to table body context                  ## Clear back to table body context
3462                  while (not {                  while (not ($self->{open_elements}->[-1]->[1]
3463                    tbody => 1, tfoot => 1, thead => 1, html => 1,                                  & TABLE_ROWS_SCOPING_EL)) {
3464                  }->{$self->{open_elements}->[-1]->[1]}) {                    !!!cp ('t240');
                   !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
3465                    pop @{$self->{open_elements}};                    pop @{$self->{open_elements}};
3466                  }                  }
3467                                    
# Line 3711  sub _tree_construction_main ($) { Line 3477  sub _tree_construction_main ($) {
3477                  ## reprocess in the "in table" insertion mode...                  ## reprocess in the "in table" insertion mode...
3478                }                }
3479    
3480                  ## NOTE: </table> in the "in table" insertion mode.
3481                  ## When you edit the code fragment below, please ensure that
3482                  ## the code for <table> in the "in table" insertion mode
3483                  ## is synced with it.
3484    
3485                ## have a table element in table scope                ## have a table element in table scope
3486                my $i;                my $i;
3487                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3488                  my $node = $self->{open_elements}->[$_];                  my $node = $self->{open_elements}->[$_];
3489                  if ($node->[1] eq $token->{tag_name}) {                  if ($node->[1] == TABLE_EL) {
3490                      !!!cp ('t241');
3491                    $i = $_;                    $i = $_;
3492                    last INSCOPE;                    last INSCOPE;
3493                  } elsif ({                  } elsif ($node->[1] & TABLE_SCOPING_EL) {
3494                            table => 1, html => 1,                    !!!cp ('t242');
                          }->{$node->[1]}) {  
3495                    last INSCOPE;                    last INSCOPE;
3496                  }                  }
3497                } # INSCOPE                } # INSCOPE
3498                unless (defined $i) {                unless (defined $i) {
3499                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  !!!cp ('t243');
3500                    !!!parse-error (type => 'unmatched end tag',
3501                                    text => $token->{tag_name}, token => $token);
3502                  ## Ignore the token                  ## Ignore the token
3503                    !!!nack ('t243.1');
3504                  !!!next-token;                  !!!next-token;
3505                  redo B;                  next B;
               }  
   
               ## generate implied end tags  
               if ({  
                    dd => 1, dt => 1, li => 1, p => 1,  
                    td => 1, th => 1, tr => 1,  
                    tbody => 1, tfoot=> 1, thead => 1,  
                   }->{$self->{open_elements}->[-1]->[1]}) {  
                 !!!back-token;  
                 $token = {type => END_TAG_TOKEN,  
                           tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                 redo B;  
               }  
                 
               if ($self->{open_elements}->[-1]->[1] ne 'table') {  
                 !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
3506                }                }
3507                                    
3508                splice @{$self->{open_elements}}, $i;                splice @{$self->{open_elements}}, $i;
3509                  pop @{$open_tables};
3510                                
3511                $self->_reset_insertion_mode;                $self->_reset_insertion_mode;
3512                                
3513                !!!next-token;                !!!next-token;
3514                redo B;                next B;
3515              } elsif ({              } elsif ({
3516                        tbody => 1, tfoot => 1, thead => 1,                        tbody => 1, tfoot => 1, thead => 1,
3517                       }->{$token->{tag_name}} and                       }->{$token->{tag_name}} and
3518                       $self->{insertion_mode} & ROW_IMS) {                       $self->{insertion_mode} & ROW_IMS) {
3519                if ($self->{insertion_mode} == IN_ROW_IM) {                if (($self->{insertion_mode} & IM_MASK) == IN_ROW_IM) {
3520                  ## have an element in table scope                  ## have an element in table scope
3521                  my $i;                  my $i;
3522                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3523                    my $node = $self->{open_elements}->[$_];                    my $node = $self->{open_elements}->[$_];
3524                    if ($node->[1] eq $token->{tag_name}) {                    if ($node->[0]->manakai_local_name eq $token->{tag_name}) {
3525                        !!!cp ('t247');
3526                      $i = $_;                      $i = $_;
3527                      last INSCOPE;                      last INSCOPE;
3528                    } elsif ({                    } elsif ($node->[1] & TABLE_SCOPING_EL) {
3529                              table => 1, html => 1,                      !!!cp ('t248');
                            }->{$node->[1]}) {  
3530                      last INSCOPE;                      last INSCOPE;
3531                    }                    }
3532                  } # INSCOPE                  } # INSCOPE
3533                    unless (defined $i) {                    unless (defined $i) {
3534                      !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                      !!!cp ('t249');
3535                        !!!parse-error (type => 'unmatched end tag',
3536                                        text => $token->{tag_name}, token => $token);
3537                      ## Ignore the token                      ## Ignore the token
3538                        !!!nack ('t249.1');
3539                      !!!next-token;                      !!!next-token;
3540                      redo B;                      next B;
3541                    }                    }
3542                                    
3543                  ## As if </tr>                  ## As if </tr>
# Line 3783  sub _tree_construction_main ($) { Line 3545  sub _tree_construction_main ($) {
3545                  my $i;                  my $i;
3546                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3547                    my $node = $self->{open_elements}->[$_];                    my $node = $self->{open_elements}->[$_];
3548                    if ($node->[1] eq 'tr') {                    if ($node->[1] == TABLE_ROW_EL) {
3549                        !!!cp ('t250');
3550                      $i = $_;                      $i = $_;
3551                      last INSCOPE;                      last INSCOPE;
3552                    } elsif ({                    } elsif ($node->[1] & TABLE_SCOPING_EL) {
3553                              table => 1, html => 1,                      !!!cp ('t251');
                            }->{$node->[1]}) {  
3554                      last INSCOPE;                      last INSCOPE;
3555                    }                    }
3556                  } # INSCOPE                  } # INSCOPE
3557                    unless (defined $i) {                    unless (defined $i) {
3558                      !!!parse-error (type => 'unmatched end tag:tr');                      !!!cp ('t252');
3559                        !!!parse-error (type => 'unmatched end tag',
3560                                        text => 'tr', token => $token);
3561                      ## Ignore the token                      ## Ignore the token
3562                        !!!nack ('t252.1');
3563                      !!!next-token;                      !!!next-token;
3564                      redo B;                      next B;
3565                    }                    }
3566                                    
3567                  ## Clear back to table row context                  ## Clear back to table row context
3568                  while (not {                  while (not ($self->{open_elements}->[-1]->[1]
3569                    tr => 1, html => 1,                                  & TABLE_ROW_SCOPING_EL)) {
3570                  }->{$self->{open_elements}->[-1]->[1]}) {                    !!!cp ('t253');
3571                    !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  ## ISSUE: Can this case be reached?
3572                    pop @{$self->{open_elements}};                    pop @{$self->{open_elements}};
3573                  }                  }
3574                                    
# Line 3816  sub _tree_construction_main ($) { Line 3581  sub _tree_construction_main ($) {
3581                my $i;                my $i;
3582                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3583                  my $node = $self->{open_elements}->[$_];                  my $node = $self->{open_elements}->[$_];
3584                  if ($node->[1] eq $token->{tag_name}) {                  if ($node->[0]->manakai_local_name eq $token->{tag_name}) {
3585                      !!!cp ('t254');
3586                    $i = $_;                    $i = $_;
3587                    last INSCOPE;                    last INSCOPE;
3588                  } elsif ({                  } elsif ($node->[1] & TABLE_SCOPING_EL) {
3589                            table => 1, html => 1,                    !!!cp ('t255');
                          }->{$node->[1]}) {  
3590                    last INSCOPE;                    last INSCOPE;
3591                  }                  }
3592                } # INSCOPE                } # INSCOPE
3593                unless (defined $i) {                unless (defined $i) {
3594                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  !!!cp ('t256');
3595                    !!!parse-error (type => 'unmatched end tag',
3596                                    text => $token->{tag_name}, token => $token);
3597                  ## Ignore the token                  ## Ignore the token
3598                    !!!nack ('t256.1');
3599                  !!!next-token;                  !!!next-token;
3600                  redo B;                  next B;
3601                }                }
3602    
3603                ## Clear back to table body context                ## Clear back to table body context
3604                while (not {                while (not ($self->{open_elements}->[-1]->[1]
3605                  tbody => 1, tfoot => 1, thead => 1, html => 1,                                & TABLE_ROWS_SCOPING_EL)) {
3606                }->{$self->{open_elements}->[-1]->[1]}) {                  !!!cp ('t257');
3607                  !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  ## ISSUE: Can this case be reached?
3608                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
3609                }                }
3610    
3611                pop @{$self->{open_elements}};                pop @{$self->{open_elements}};
3612                $self->{insertion_mode} = IN_TABLE_IM;                $self->{insertion_mode} = IN_TABLE_IM;
3613                  !!!nack ('t257.1');
3614                !!!next-token;                !!!next-token;
3615                redo B;                next B;
3616              } elsif ({              } elsif ({
3617                        body => 1, caption => 1, col => 1, colgroup => 1,                        body => 1, caption => 1, col => 1, colgroup => 1,
3618                        html => 1, td => 1, th => 1,                        html => 1, td => 1, th => 1,
3619                        tr => 1, # $self->{insertion_mode} == IN_ROW_IM                        tr => 1, # $self->{insertion_mode} == IN_ROW_IM
3620                        tbody => 1, tfoot => 1, thead => 1, # $self->{insertion_mode} == IN_TABLE_IM                        tbody => 1, tfoot => 1, thead => 1, # $self->{insertion_mode} == IN_TABLE_IM
3621                       }->{$token->{tag_name}}) {                       }->{$token->{tag_name}}) {
3622                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});            !!!cp ('t258');
3623                ## Ignore the token            !!!parse-error (type => 'unmatched end tag',
3624                !!!next-token;                            text => $token->{tag_name}, token => $token);
3625                redo B;            ## Ignore the token
3626              } else {            !!!nack ('t258.1');
3627                #             !!!next-token;
3628              }            next B;
3629            } else {          } else {
3630              die "$0: $token->{type}: Unknown token type";            !!!cp ('t259');
3631            }            !!!parse-error (type => 'in table:/',
3632                              text => $token->{tag_name}, token => $token);
3633    
3634        !!!parse-error (type => 'in table:'.$token->{tag_name});            $insert = $insert_to_foster;
3635              #
3636            }
3637          } elsif ($token->{type} == END_OF_FILE_TOKEN) {
3638            unless ($self->{open_elements}->[-1]->[1] == HTML_EL and
3639                    @{$self->{open_elements}} == 1) { # redundant, maybe
3640              !!!parse-error (type => 'in body:#eof', token => $token);
3641              !!!cp ('t259.1');
3642              #
3643            } else {
3644              !!!cp ('t259.2');
3645              #
3646            }
3647    
3648        $insert = $insert_to_foster;          ## Stop parsing
3649        #          last B;
3650      } elsif ($self->{insertion_mode} == IN_COLUMN_GROUP_IM) {        } else {
3651            die "$0: $token->{type}: Unknown token type";
3652          }
3653        } elsif (($self->{insertion_mode} & IM_MASK) == IN_COLUMN_GROUP_IM) {
3654            if ($token->{type} == CHARACTER_TOKEN) {            if ($token->{type} == CHARACTER_TOKEN) {
3655              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {              if ($token->{data} =~ s/^([\x09\x0A\x0C\x20]+)//) {
3656                $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);                $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);
3657                unless (length $token->{data}) {                unless (length $token->{data}) {
3658                    !!!cp ('t260');
3659                  !!!next-token;                  !!!next-token;
3660                  redo B;                  next B;
3661                }                }
3662              }              }
3663                            
3664                !!!cp ('t261');
3665              #              #
3666            } elsif ($token->{type} == START_TAG_TOKEN) {            } elsif ($token->{type} == START_TAG_TOKEN) {
3667              if ($token->{tag_name} eq 'col') {              if ($token->{tag_name} eq 'col') {
3668                !!!insert-element ($token->{tag_name}, $token->{attributes});                !!!cp ('t262');
3669                  !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
3670                pop @{$self->{open_elements}};                pop @{$self->{open_elements}};
3671                  !!!ack ('t262.1');
3672                !!!next-token;                !!!next-token;
3673                redo B;                next B;
3674              } else {              } else {
3675                  !!!cp ('t263');
3676                #                #
3677              }              }
3678            } elsif ($token->{type} == END_TAG_TOKEN) {            } elsif ($token->{type} == END_TAG_TOKEN) {
3679              if ($token->{tag_name} eq 'colgroup') {              if ($token->{tag_name} eq 'colgroup') {
3680                if ($self->{open_elements}->[-1]->[1] eq 'html') {                if ($self->{open_elements}->[-1]->[1] == HTML_EL) {
3681                  !!!parse-error (type => 'unmatched end tag:colgroup');                  !!!cp ('t264');
3682                    !!!parse-error (type => 'unmatched end tag',
3683                                    text => 'colgroup', token => $token);
3684                  ## Ignore the token                  ## Ignore the token
3685                  !!!next-token;                  !!!next-token;
3686                  redo B;                  next B;
3687                } else {                } else {
3688                    !!!cp ('t265');
3689                  pop @{$self->{open_elements}}; # colgroup                  pop @{$self->{open_elements}}; # colgroup
3690                  $self->{insertion_mode} = IN_TABLE_IM;                  $self->{insertion_mode} = IN_TABLE_IM;
3691                  !!!next-token;                  !!!next-token;
3692                  redo B;                              next B;            
3693                }                }
3694              } elsif ($token->{tag_name} eq 'col') {              } elsif ($token->{tag_name} eq 'col') {
3695                !!!parse-error (type => 'unmatched end tag:col');                !!!cp ('t266');
3696                  !!!parse-error (type => 'unmatched end tag',
3697                                  text => 'col', token => $token);
3698                ## Ignore the token                ## Ignore the token
3699                !!!next-token;                !!!next-token;
3700                redo B;                next B;
3701              } else {              } else {
3702                  !!!cp ('t267');
3703                #                #
3704              }              }
3705            } else {        } elsif ($token->{type} == END_OF_FILE_TOKEN) {
3706              #          if ($self->{open_elements}->[-1]->[1] == HTML_EL and
3707            }              @{$self->{open_elements}} == 1) { # redundant, maybe
3708              !!!cp ('t270.2');
3709              ## Stop parsing.
3710              last B;
3711            } else {
3712              ## NOTE: As if </colgroup>.
3713              !!!cp ('t270.1');
3714              pop @{$self->{open_elements}}; # colgroup
3715              $self->{insertion_mode} = IN_TABLE_IM;
3716              ## Reprocess.
3717              next B;
3718            }
3719          } else {
3720            die "$0: $token->{type}: Unknown token type";
3721          }
3722    
3723            ## As if </colgroup>            ## As if </colgroup>
3724            if ($self->{open_elements}->[-1]->[1] eq 'html') {            if ($self->{open_elements}->[-1]->[1] == HTML_EL) {
3725              !!!parse-error (type => 'unmatched end tag:colgroup');              !!!cp ('t269');
3726    ## TODO: Wrong error type?
3727                !!!parse-error (type => 'unmatched end tag',
3728                                text => 'colgroup', token => $token);
3729              ## Ignore the token              ## Ignore the token
3730                !!!nack ('t269.1');
3731              !!!next-token;              !!!next-token;
3732              redo B;              next B;
3733            } else {            } else {
3734                !!!cp ('t270');
3735              pop @{$self->{open_elements}}; # colgroup              pop @{$self->{open_elements}}; # colgroup
3736              $self->{insertion_mode} = IN_TABLE_IM;              $self->{insertion_mode} = IN_TABLE_IM;
3737                !!!ack-later;
3738              ## reprocess              ## reprocess
3739              redo B;              next B;
3740              }
3741        } elsif ($self->{insertion_mode} & SELECT_IMS) {
3742          if ($token->{type} == CHARACTER_TOKEN) {
3743            !!!cp ('t271');
3744            $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});
3745            !!!next-token;
3746            next B;
3747          } elsif ($token->{type} == START_TAG_TOKEN) {
3748            if ($token->{tag_name} eq 'option') {
3749              if ($self->{open_elements}->[-1]->[1] == OPTION_EL) {
3750                !!!cp ('t272');
3751                ## As if </option>
3752                pop @{$self->{open_elements}};
3753              } else {
3754                !!!cp ('t273');
3755            }            }
     } elsif ($self->{insertion_mode} == IN_SELECT_IM) {  
           if ($token->{type} == CHARACTER_TOKEN) {  
             $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});  
             !!!next-token;  
             redo B;  
           } elsif ($token->{type} == START_TAG_TOKEN) {  
             if ($token->{tag_name} eq 'option') {  
               if ($self->{open_elements}->[-1]->[1] eq 'option') {  
                 ## As if </option>  
                 pop @{$self->{open_elements}};  
               }  
3756    
3757                !!!insert-element ($token->{tag_name}, $token->{attributes});            !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
3758                !!!next-token;            !!!nack ('t273.1');
3759                redo B;            !!!next-token;
3760              } elsif ($token->{tag_name} eq 'optgroup') {            next B;
3761                if ($self->{open_elements}->[-1]->[1] eq 'option') {          } elsif ($token->{tag_name} eq 'optgroup') {
3762                  ## As if </option>            if ($self->{open_elements}->[-1]->[1] == OPTION_EL) {
3763                  pop @{$self->{open_elements}};              !!!cp ('t274');
3764                }              ## As if </option>
3765                pop @{$self->{open_elements}};
3766              } else {
3767                !!!cp ('t275');
3768              }
3769    
3770                if ($self->{open_elements}->[-1]->[1] eq 'optgroup') {            if ($self->{open_elements}->[-1]->[1] == OPTGROUP_EL) {
3771                  ## As if </optgroup>              !!!cp ('t276');
3772                  pop @{$self->{open_elements}};              ## As if </optgroup>
3773                }              pop @{$self->{open_elements}};
3774              } else {
3775                !!!cp ('t277');
3776              }
3777    
3778                !!!insert-element ($token->{tag_name}, $token->{attributes});            !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
3779                !!!next-token;            !!!nack ('t277.1');
3780                redo B;            !!!next-token;
3781              } elsif ($token->{tag_name} eq 'select') {            next B;
3782                !!!parse-error (type => 'not closed:select');          } elsif ({
3783                ## As if </select> instead                     select => 1, input => 1, textarea => 1, keygen => 1,
3784                ## have an element in table scope                   }->{$token->{tag_name}} or
3785                my $i;                   (($self->{insertion_mode} & IM_MASK)
3786                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                        == IN_SELECT_IN_TABLE_IM and
3787                  my $node = $self->{open_elements}->[$_];                    {
3788                  if ($node->[1] eq $token->{tag_name}) {                     caption => 1, table => 1,
3789                    $i = $_;                     tbody => 1, tfoot => 1, thead => 1,
3790                    last INSCOPE;                     tr => 1, td => 1, th => 1,
3791                  } elsif ({                    }->{$token->{tag_name}})) {
3792                            table => 1, html => 1,  
3793                           }->{$node->[1]}) {            ## 1. Parse error.
3794                    last INSCOPE;            if ($token->{tag_name} eq 'select') {
3795                  }                !!!parse-error (type => 'select in select', ## XXX: documentation
3796                } # INSCOPE                                token => $token);
3797                unless (defined $i) {            } else {
3798                  !!!parse-error (type => 'unmatched end tag:select');              !!!parse-error (type => 'not closed', text => 'select',
3799                  ## Ignore the token                              token => $token);
3800                  !!!next-token;            }
3801                  redo B;  
3802                }            ## 2./<select>-1. Unless "have an element in table scope" (select):
3803              my $i;
3804              INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3805                my $node = $self->{open_elements}->[$_];
3806                if ($node->[1] == SELECT_EL) {
3807                  !!!cp ('t278');
3808                  $i = $_;
3809                  last INSCOPE;
3810                } elsif ($node->[1] & TABLE_SCOPING_EL) {
3811                  !!!cp ('t279');
3812                  last INSCOPE;
3813                }
3814              } # INSCOPE
3815              unless (defined $i) {
3816                !!!cp ('t280');
3817                if ($token->{tag_name} eq 'select') {
3818                  ## NOTE: This error would be raised when
3819                  ## |select.innerHTML = '<select>'| is executed; in this
3820                  ## case two errors, "select in select" and "unmatched
3821                  ## end tags" are reported to the user, the latter might
3822                  ## be confusing but this is what the spec requires.
3823                  !!!parse-error (type => 'unmatched end tag',
3824                                  text => 'select',
3825                                  token => $token);
3826                }
3827                ## Ignore the token.
3828                !!!nack ('t280.1');
3829                !!!next-token;
3830                next B;
3831              }
3832    
3833              ## 3. Otherwise, as if there were <select>:
3834                                
3835                splice @{$self->{open_elements}}, $i;            !!!cp ('t281');
3836              splice @{$self->{open_elements}}, $i;
3837    
3838                $self->_reset_insertion_mode;            $self->_reset_insertion_mode;
3839    
3840                !!!next-token;            if ($token->{tag_name} eq 'select') {
3841                redo B;              !!!nack ('t281.2');
3842              } else {              !!!next-token;
3843                #              next B;
3844              } else {
3845                !!!cp ('t281.1');
3846                !!!ack-later;
3847                ## Reprocess the token.
3848                next B;
3849              }
3850            } elsif ($token->{tag_name} eq 'script') {
3851              !!!cp ('t281.3');
3852              ## NOTE: This is an "as if in head" code clone
3853              $script_start_tag->();
3854              next B;
3855            } else {
3856              !!!cp ('t282');
3857              !!!parse-error (type => 'in select',
3858                              text => $token->{tag_name}, token => $token);
3859              ## Ignore the token
3860              !!!nack ('t282.1');
3861              !!!next-token;
3862              next B;
3863            }
3864          } elsif ($token->{type} == END_TAG_TOKEN) {
3865            if ($token->{tag_name} eq 'optgroup') {
3866              if ($self->{open_elements}->[-1]->[1] == OPTION_EL and
3867                  $self->{open_elements}->[-2]->[1] == OPTGROUP_EL) {
3868                !!!cp ('t283');
3869                ## As if </option>
3870                splice @{$self->{open_elements}}, -2;
3871              } elsif ($self->{open_elements}->[-1]->[1] == OPTGROUP_EL) {
3872                !!!cp ('t284');
3873                pop @{$self->{open_elements}};
3874              } else {
3875                !!!cp ('t285');
3876                !!!parse-error (type => 'unmatched end tag',
3877                                text => $token->{tag_name}, token => $token);
3878                ## Ignore the token
3879              }
3880              !!!nack ('t285.1');
3881              !!!next-token;
3882              next B;
3883            } elsif ($token->{tag_name} eq 'option') {
3884              if ($self->{open_elements}->[-1]->[1] == OPTION_EL) {
3885                !!!cp ('t286');
3886                pop @{$self->{open_elements}};
3887              } else {
3888                !!!cp ('t287');
3889                !!!parse-error (type => 'unmatched end tag',
3890                                text => $token->{tag_name}, token => $token);
3891                ## Ignore the token
3892              }
3893              !!!nack ('t287.1');
3894              !!!next-token;
3895              next B;
3896            } elsif ($token->{tag_name} eq 'select') {
3897              ## have an element in table scope
3898              my $i;
3899              INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3900                my $node = $self->{open_elements}->[$_];
3901                if ($node->[1] == SELECT_EL) {
3902                  !!!cp ('t288');
3903                  $i = $_;
3904                  last INSCOPE;
3905                } elsif ($node->[1] & TABLE_SCOPING_EL) {
3906                  !!!cp ('t289');
3907                  last INSCOPE;
3908              }              }
3909            } elsif ($token->{type} == END_TAG_TOKEN) {            } # INSCOPE
3910              if ($token->{tag_name} eq 'optgroup') {            unless (defined $i) {
3911                if ($self->{open_elements}->[-1]->[1] eq 'option' and              !!!cp ('t290');
3912                    $self->{open_elements}->[-2]->[1] eq 'optgroup') {              !!!parse-error (type => 'unmatched end tag',
3913                  ## As if </option>                              text => $token->{tag_name}, token => $token);
3914                  splice @{$self->{open_elements}}, -2;              ## Ignore the token
3915                } elsif ($self->{open_elements}->[-1]->[1] eq 'optgroup') {              !!!nack ('t290.1');
3916                  pop @{$self->{open_elements}};              !!!next-token;
3917                } else {              next B;
3918                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});            }
                 ## Ignore the token  
               }  
               !!!next-token;  
               redo B;  
             } elsif ($token->{tag_name} eq 'option') {  
               if ($self->{open_elements}->[-1]->[1] eq 'option') {  
                 pop @{$self->{open_elements}};  
               } else {  
                 !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
                 ## Ignore the token  
               }  
               !!!next-token;  
               redo B;  
             } elsif ($token->{tag_name} eq 'select') {  
               ## have an element in table scope  
               my $i;  
               INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
                 my $node = $self->{open_elements}->[$_];  
                 if ($node->[1] eq $token->{tag_name}) {  
                   $i = $_;  
                   last INSCOPE;  
                 } elsif ({  
                           table => 1, html => 1,  
                          }->{$node->[1]}) {  
                   last INSCOPE;  
                 }  
               } # INSCOPE  
               unless (defined $i) {  
                 !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
                 ## Ignore the token  
                 !!!next-token;  
                 redo B;  
               }  
3919                                
3920                splice @{$self->{open_elements}}, $i;            !!!cp ('t291');
3921              splice @{$self->{open_elements}}, $i;
3922    
3923                $self->_reset_insertion_mode;            $self->_reset_insertion_mode;
3924    
3925                !!!next-token;            !!!nack ('t291.1');
3926                redo B;            !!!next-token;
3927              } elsif ({            next B;
3928                        caption => 1, table => 1, tbody => 1,          } elsif (($self->{insertion_mode} & IM_MASK)
3929                        tfoot => 1, thead => 1, tr => 1, td => 1, th => 1,                       == IN_SELECT_IN_TABLE_IM and
3930                       }->{$token->{tag_name}}) {                   {
3931                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                    caption => 1, table => 1, tbody => 1,
3932                                    tfoot => 1, thead => 1, tr => 1, td => 1, th => 1,
3933                ## have an element in table scope                   }->{$token->{tag_name}}) {
3934                my $i;  ## TODO: The following is wrong?
3935                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {            !!!parse-error (type => 'unmatched end tag',
3936                  my $node = $self->{open_elements}->[$_];                            text => $token->{tag_name}, token => $token);
                 if ($node->[1] eq $token->{tag_name}) {  
                   $i = $_;  
                   last INSCOPE;  
                 } elsif ({  
                           table => 1, html => 1,  
                          }->{$node->[1]}) {  
                   last INSCOPE;  
                 }  
               } # INSCOPE  
               unless (defined $i) {  
                 ## Ignore the token  
                 !!!next-token;  
                 redo B;  
               }  
3937                                
3938                ## As if </select>            ## have an element in table scope
3939                ## have an element in table scope            my $i;
3940                undef $i;            INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3941                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {              my $node = $self->{open_elements}->[$_];
3942                  my $node = $self->{open_elements}->[$_];              if ($node->[0]->manakai_local_name eq $token->{tag_name}) {
3943                  if ($node->[1] eq 'select') {                !!!cp ('t292');
3944                    $i = $_;                $i = $_;
3945                    last INSCOPE;                last INSCOPE;
3946                  } elsif ({              } elsif ($node->[1] & TABLE_SCOPING_EL) {
3947                            table => 1, html => 1,                !!!cp ('t293');
3948                           }->{$node->[1]}) {                last INSCOPE;
3949                    last INSCOPE;              }
3950                  }            } # INSCOPE
3951                } # INSCOPE            unless (defined $i) {
3952                unless (defined $i) {              !!!cp ('t294');
3953                  !!!parse-error (type => 'unmatched end tag:select');              ## Ignore the token
3954                  ## Ignore the </select> token              !!!nack ('t294.1');
3955                  !!!next-token; ## TODO: ok?              !!!next-token;
3956                  redo B;              next B;
3957                }            }
3958                                
3959                splice @{$self->{open_elements}}, $i;            ## As if </select>
3960              ## have an element in table scope
3961                $self->_reset_insertion_mode;            undef $i;
3962              INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
3963                ## reprocess              my $node = $self->{open_elements}->[$_];
3964                redo B;              if ($node->[1] == SELECT_EL) {
3965              } else {                !!!cp ('t295');
3966                #                $i = $_;
3967                  last INSCOPE;
3968                } elsif ($node->[1] & TABLE_SCOPING_EL) {
3969    ## ISSUE: Can this state be reached?
3970                  !!!cp ('t296');
3971                  last INSCOPE;
3972              }              }
3973            } else {            } # INSCOPE
3974              #            unless (defined $i) {
3975                !!!cp ('t297');
3976    ## TODO: The following error type is correct?
3977                !!!parse-error (type => 'unmatched end tag',
3978                                text => 'select', token => $token);
3979                ## Ignore the </select> token
3980                !!!nack ('t297.1');
3981                !!!next-token; ## TODO: ok?
3982                next B;
3983            }            }
3984                  
3985              !!!cp ('t298');
3986              splice @{$self->{open_elements}}, $i;
3987    
3988              $self->_reset_insertion_mode;
3989    
3990            !!!parse-error (type => 'in select:'.$token->{tag_name});            !!!ack-later;
3991              ## reprocess
3992              next B;
3993            } else {
3994              !!!cp ('t299');
3995              !!!parse-error (type => 'in select:/',
3996                              text => $token->{tag_name}, token => $token);
3997            ## Ignore the token            ## Ignore the token
3998              !!!nack ('t299.3');
3999            !!!next-token;            !!!next-token;
4000            redo B;            next B;
4001            }
4002          } elsif ($token->{type} == END_OF_FILE_TOKEN) {
4003            unless ($self->{open_elements}->[-1]->[1] == HTML_EL and
4004                    @{$self->{open_elements}} == 1) { # redundant, maybe
4005              !!!cp ('t299.1');
4006              !!!parse-error (type => 'in body:#eof', token => $token);
4007            } else {
4008              !!!cp ('t299.2');
4009            }
4010    
4011            ## Stop parsing.
4012            last B;
4013          } else {
4014            die "$0: $token->{type}: Unknown token type";
4015          }
4016      } elsif ($self->{insertion_mode} & BODY_AFTER_IMS) {      } elsif ($self->{insertion_mode} & BODY_AFTER_IMS) {
4017        if ($token->{type} == CHARACTER_TOKEN) {        if ($token->{type} == CHARACTER_TOKEN) {
4018          if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {          if ($token->{data} =~ s/^([\x09\x0A\x0C\x20]+)//) {
4019            my $data = $1;            my $data = $1;
4020            ## As if in body            ## As if in body
4021            $reconstruct_active_formatting_elements->($insert_to_current);            $reconstruct_active_formatting_elements->($insert_to_current);
# Line 4106  sub _tree_construction_main ($) { Line 4023  sub _tree_construction_main ($) {
4023            $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);            $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);
4024                        
4025            unless (length $token->{data}) {            unless (length $token->{data}) {
4026                !!!cp ('t300');
4027              !!!next-token;              !!!next-token;
4028              redo B;              next B;
4029            }            }
4030          }          }
4031                    
4032          if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {          if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {
4033            !!!parse-error (type => 'after html:#character');            !!!cp ('t301');
4034              !!!parse-error (type => 'after html:#text', token => $token);
4035            ## Reprocess in the "main" phase, "after body" insertion mode...            #
4036            } else {
4037              !!!cp ('t302');
4038              ## "after body" insertion mode
4039              !!!parse-error (type => 'after body:#text', token => $token);
4040              #
4041          }          }
           
         ## "after body" insertion mode  
         !!!parse-error (type => 'after body:#character');  
4042    
4043          $self->{insertion_mode} = IN_BODY_IM;          $self->{insertion_mode} = IN_BODY_IM;
4044          ## reprocess          ## reprocess
4045          redo B;          next B;
4046        } elsif ($token->{type} == START_TAG_TOKEN) {        } elsif ($token->{type} == START_TAG_TOKEN) {
4047          if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {          if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {
4048            !!!parse-error (type => 'after html:'.$token->{tag_name});            !!!cp ('t303');
4049                        !!!parse-error (type => 'after html',
4050            ## Reprocess in the "main" phase, "after body" insertion mode...                            text => $token->{tag_name}, token => $token);
4051              #
4052            } else {
4053              !!!cp ('t304');
4054              ## "after body" insertion mode
4055              !!!parse-error (type => 'after body',
4056                              text => $token->{tag_name}, token => $token);
4057              #
4058          }          }
4059    
         ## "after body" insertion mode  
         !!!parse-error (type => 'after body:'.$token->{tag_name});  
   
4060          $self->{insertion_mode} = IN_BODY_IM;          $self->{insertion_mode} = IN_BODY_IM;
4061            !!!ack-later;
4062          ## reprocess          ## reprocess
4063          redo B;          next B;
4064        } elsif ($token->{type} == END_TAG_TOKEN) {        } elsif ($token->{type} == END_TAG_TOKEN) {
4065          if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {          if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {
4066            !!!parse-error (type => 'after html:/'.$token->{tag_name});            !!!cp ('t305');
4067              !!!parse-error (type => 'after html:/',
4068                              text => $token->{tag_name}, token => $token);
4069                        
4070            $self->{insertion_mode} = AFTER_BODY_IM;            $self->{insertion_mode} = IN_BODY_IM;
4071            ## Reprocess in the "main" phase, "after body" insertion mode...            ## Reprocess.
4072              next B;
4073            } else {
4074              !!!cp ('t306');
4075          }          }
4076    
4077          ## "after body" insertion mode          ## "after body" insertion mode
4078          if ($token->{tag_name} eq 'html') {          if ($token->{tag_name} eq 'html') {
4079            if (defined $self->{inner_html_node}) {            if (defined $self->{inner_html_node}) {
4080              !!!parse-error (type => 'unmatched end tag:html');              !!!cp ('t307');
4081                !!!parse-error (type => 'unmatched end tag',
4082                                text => 'html', token => $token);
4083              ## Ignore the token              ## Ignore the token
4084              !!!next-token;              !!!next-token;
4085              redo B;              next B;
4086            } else {            } else {
4087                !!!cp ('t308');
4088              $self->{insertion_mode} = AFTER_HTML_BODY_IM;              $self->{insertion_mode} = AFTER_HTML_BODY_IM;
4089              !!!next-token;              !!!next-token;
4090              redo B;              next B;
4091            }            }
4092          } else {          } else {
4093            !!!parse-error (type => 'after body:/'.$token->{tag_name});            !!!cp ('t309');
4094              !!!parse-error (type => 'after body:/',
4095                              text => $token->{tag_name}, token => $token);
4096    
4097            $self->{insertion_mode} = IN_BODY_IM;            $self->{insertion_mode} = IN_BODY_IM;
4098            ## reprocess            ## reprocess
4099            redo B;            next B;
4100          }          }
4101          } elsif ($token->{type} == END_OF_FILE_TOKEN) {
4102            !!!cp ('t309.2');
4103            ## Stop parsing
4104            last B;
4105        } else {        } else {
4106          die "$0: $token->{type}: Unknown token type";          die "$0: $token->{type}: Unknown token type";
4107        }        }
4108      } elsif ($self->{insertion_mode} & FRAME_IMS) {      } elsif ($self->{insertion_mode} & FRAME_IMS) {
4109        if ($token->{type} == CHARACTER_TOKEN) {        if ($token->{type} == CHARACTER_TOKEN) {
4110          if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {          if ($token->{data} =~ s/^([\x09\x0A\x0C\x20]+)//) {
4111            $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);            $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);
4112                        
4113            unless (length $token->{data}) {            unless (length $token->{data}) {
4114                !!!cp ('t310');
4115              !!!next-token;              !!!next-token;
4116              redo B;              next B;
4117            }            }
4118          }          }
4119                    
4120          if ($token->{data} =~ s/^[^\x09\x0A\x0B\x0C\x20]+//) {          if ($token->{data} =~ s/^[^\x09\x0A\x0C\x20]+//) {
4121            if ($self->{insertion_mode} == IN_FRAMESET_IM) {            if ($self->{insertion_mode} == IN_FRAMESET_IM) {
4122              !!!parse-error (type => 'in frameset:#character');              !!!cp ('t311');
4123                !!!parse-error (type => 'in frameset:#text', token => $token);
4124            } elsif ($self->{insertion_mode} == AFTER_FRAMESET_IM) {            } elsif ($self->{insertion_mode} == AFTER_FRAMESET_IM) {
4125              !!!parse-error (type => 'after frameset:#character');              !!!cp ('t312');
4126            } else { # "after html frameset"              !!!parse-error (type => 'after frameset:#text', token => $token);
4127              !!!parse-error (type => 'after html:#character');            } else { # "after after frameset"
4128                !!!cp ('t313');
4129              $self->{insertion_mode} = AFTER_FRAMESET_IM;              !!!parse-error (type => 'after html:#text', token => $token);
             ## Reprocess in the "main" phase, "after frameset"...  
             !!!parse-error (type => 'after frameset:#character');  
4130            }            }
4131                        
4132            ## Ignore the token.            ## Ignore the token.
4133            if (length $token->{data}) {            if (length $token->{data}) {
4134                !!!cp ('t314');
4135              ## reprocess the rest of characters              ## reprocess the rest of characters
4136            } else {            } else {
4137                !!!cp ('t315');
4138              !!!next-token;              !!!next-token;
4139            }            }
4140            redo B;            next B;
4141          }          }
4142                    
4143          die qq[$0: Character "$token->{data}"];          die qq[$0: Character "$token->{data}"];
4144        } elsif ($token->{type} == START_TAG_TOKEN) {        } elsif ($token->{type} == START_TAG_TOKEN) {
         if ($self->{insertion_mode} == AFTER_HTML_FRAMESET_IM) {  
           !!!parse-error (type => 'after html:'.$token->{tag_name});  
   
           $self->{insertion_mode} = AFTER_FRAMESET_IM;  
           ## Process in the "main" phase, "after frameset" insertion mode...  
         }  
   
4145          if ($token->{tag_name} eq 'frameset' and          if ($token->{tag_name} eq 'frameset' and
4146              $self->{insertion_mode} == IN_FRAMESET_IM) {              $self->{insertion_mode} == IN_FRAMESET_IM) {
4147            !!!insert-element ($token->{tag_name}, $token->{attributes});            !!!cp ('t318');
4148              !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
4149              !!!nack ('t318.1');
4150            !!!next-token;            !!!next-token;
4151            redo B;            next B;
4152          } elsif ($token->{tag_name} eq 'frame' and          } elsif ($token->{tag_name} eq 'frame' and
4153                   $self->{insertion_mode} == IN_FRAMESET_IM) {                   $self->{insertion_mode} == IN_FRAMESET_IM) {
4154            !!!insert-element ($token->{tag_name}, $token->{attributes});            !!!cp ('t319');
4155              !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
4156            pop @{$self->{open_elements}};            pop @{$self->{open_elements}};
4157              !!!ack ('t319.1');
4158            !!!next-token;            !!!next-token;
4159            redo B;            next B;
4160          } elsif ($token->{tag_name} eq 'noframes') {          } elsif ($token->{tag_name} eq 'noframes') {
4161            ## NOTE: As if in body.            !!!cp ('t320');
4162            $parse_rcdata->(CDATA_CONTENT_MODEL, $insert_to_current);            ## NOTE: As if in head.
4163            redo B;            $parse_rcdata->(CDATA_CONTENT_MODEL);
4164              next B;
4165    
4166              ## NOTE: |<!DOCTYPE HTML><frameset></frameset></html><noframes></noframes>|
4167              ## has no parse error.
4168          } else {          } else {
4169            if ($self->{insertion_mode} == IN_FRAMESET_IM) {            if ($self->{insertion_mode} == IN_FRAMESET_IM) {
4170              !!!parse-error (type => 'in frameset:'.$token->{tag_name});              !!!cp ('t321');
4171            } else {              !!!parse-error (type => 'in frameset',
4172              !!!parse-error (type => 'after frameset:'.$token->{tag_name});                              text => $token->{tag_name}, token => $token);
4173              } elsif ($self->{insertion_mode} == AFTER_FRAMESET_IM) {
4174                !!!cp ('t322');
4175                !!!parse-error (type => 'after frameset',
4176                                text => $token->{tag_name}, token => $token);
4177              } else { # "after after frameset"
4178                !!!cp ('t322.2');
4179                !!!parse-error (type => 'after after frameset',
4180                                text => $token->{tag_name}, token => $token);
4181            }            }
4182            ## Ignore the token            ## Ignore the token
4183              !!!nack ('t322.1');
4184            !!!next-token;            !!!next-token;
4185            redo B;            next B;
4186          }          }
4187        } elsif ($token->{type} == END_TAG_TOKEN) {        } elsif ($token->{type} == END_TAG_TOKEN) {
         if ($self->{insertion_mode} == AFTER_HTML_FRAMESET_IM) {  
           !!!parse-error (type => 'after html:/'.$token->{tag_name});  
   
           $self->{insertion_mode} = AFTER_FRAMESET_IM;  
           ## Process in the "main" phase, "after frameset" insertion mode...  
         }  
   
4188          if ($token->{tag_name} eq 'frameset' and          if ($token->{tag_name} eq 'frameset' and
4189              $self->{insertion_mode} == IN_FRAMESET_IM) {              $self->{insertion_mode} == IN_FRAMESET_IM) {
4190            if ($self->{open_elements}->[-1]->[1] eq 'html' and            if ($self->{open_elements}->[-1]->[1] == HTML_EL and
4191                @{$self->{open_elements}} == 1) {                @{$self->{open_elements}} == 1) {
4192              !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});              !!!cp ('t325');
4193                !!!parse-error (type => 'unmatched end tag',
4194                                text => $token->{tag_name}, token => $token);
4195              ## Ignore the token              ## Ignore the token
4196              !!!next-token;              !!!next-token;
4197            } else {            } else {
4198                !!!cp ('t326');
4199              pop @{$self->{open_elements}};              pop @{$self->{open_elements}};
4200              !!!next-token;              !!!next-token;
4201            }            }
4202    
4203            if (not defined $self->{inner_html_node} and            if (not defined $self->{inner_html_node} and
4204                $self->{open_elements}->[-1]->[1] ne 'frameset') {                not ($self->{open_elements}->[-1]->[1] == FRAMESET_EL)) {
4205                !!!cp ('t327');
4206              $self->{insertion_mode} = AFTER_FRAMESET_IM;              $self->{insertion_mode} = AFTER_FRAMESET_IM;
4207              } else {
4208                !!!cp ('t328');
4209            }            }
4210            redo B;            next B;
4211          } elsif ($token->{tag_name} eq 'html' and          } elsif ($token->{tag_name} eq 'html' and
4212                   $self->{insertion_mode} == AFTER_FRAMESET_IM) {                   $self->{insertion_mode} == AFTER_FRAMESET_IM) {
4213              !!!cp ('t329');
4214            $self->{insertion_mode} = AFTER_HTML_FRAMESET_IM;            $self->{insertion_mode} = AFTER_HTML_FRAMESET_IM;
4215            !!!next-token;            !!!next-token;
4216            redo B;            next B;
4217          } else {          } else {
4218            if ($self->{insertion_mode} == IN_FRAMESET_IM) {            if ($self->{insertion_mode} == IN_FRAMESET_IM) {
4219              !!!parse-error (type => 'in frameset:/'.$token->{tag_name});              !!!cp ('t330');
4220            } else {              !!!parse-error (type => 'in frameset:/',
4221              !!!parse-error (type => 'after frameset:/'.$token->{tag_name});                              text => $token->{tag_name}, token => $token);
4222              } elsif ($self->{insertion_mode} == AFTER_FRAMESET_IM) {
4223                !!!cp ('t330.1');
4224                !!!parse-error (type => 'after frameset:/',
4225                                text => $token->{tag_name}, token => $token);
4226              } else { # "after after html"
4227                !!!cp ('t331');
4228                !!!parse-error (type => 'after after frameset:/',
4229                                text => $token->{tag_name}, token => $token);
4230            }            }
4231            ## Ignore the token            ## Ignore the token
4232            !!!next-token;            !!!next-token;
4233            redo B;            next B;
4234            }
4235          } elsif ($token->{type} == END_OF_FILE_TOKEN) {
4236            unless ($self->{open_elements}->[-1]->[1] == HTML_EL and
4237                    @{$self->{open_elements}} == 1) { # redundant, maybe
4238              !!!cp ('t331.1');
4239              !!!parse-error (type => 'in body:#eof', token => $token);
4240            } else {
4241              !!!cp ('t331.2');
4242          }          }
4243            
4244            ## Stop parsing
4245            last B;
4246        } else {        } else {
4247          die "$0: $token->{type}: Unknown token type";          die "$0: $token->{type}: Unknown token type";
4248        }        }
   
       ## ISSUE: An issue in spec here  
4249      } else {      } else {
4250        die "$0: $self->{insertion_mode}: Unknown insertion mode";        die "$0: $self->{insertion_mode}: Unknown insertion mode";
4251      }      }
# Line 4285  sub _tree_construction_main ($) { Line 4253  sub _tree_construction_main ($) {
4253      ## "in body" insertion mode      ## "in body" insertion mode
4254      if ($token->{type} == START_TAG_TOKEN) {      if ($token->{type} == START_TAG_TOKEN) {
4255        if ($token->{tag_name} eq 'script') {        if ($token->{tag_name} eq 'script') {
4256            !!!cp ('t332');
4257          ## NOTE: This is an "as if in head" code clone          ## NOTE: This is an "as if in head" code clone
4258          $script_start_tag->($insert);          $script_start_tag->();
4259          redo B;          next B;
4260        } elsif ($token->{tag_name} eq 'style') {        } elsif ($token->{tag_name} eq 'style') {
4261            !!!cp ('t333');
4262          ## NOTE: This is an "as if in head" code clone          ## NOTE: This is an "as if in head" code clone
4263          $parse_rcdata->(CDATA_CONTENT_MODEL, $insert);          $parse_rcdata->(CDATA_CONTENT_MODEL);
4264          redo B;          next B;
4265        } elsif ({        } elsif ({
4266                  base => 1, link => 1,                  base => 1, command => 1, link => 1,
4267                 }->{$token->{tag_name}}) {                 }->{$token->{tag_name}}) {
4268            !!!cp ('t334');
4269          ## NOTE: This is an "as if in head" code clone, only "-t" differs          ## NOTE: This is an "as if in head" code clone, only "-t" differs
4270          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
4271          pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.          pop @{$self->{open_elements}};
4272            !!!ack ('t334.1');
4273          !!!next-token;          !!!next-token;
4274          redo B;          next B;
4275        } elsif ($token->{tag_name} eq 'meta') {        } elsif ($token->{tag_name} eq 'meta') {
4276          ## NOTE: This is an "as if in head" code clone, only "-t" differs          ## NOTE: This is an "as if in head" code clone, only "-t" differs
4277          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
4278          pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.          my $meta_el = pop @{$self->{open_elements}};
4279    
4280          unless ($self->{confident}) {          unless ($self->{confident}) {
4281            my $charset;            if ($token->{attributes}->{charset}) {
4282            if ($token->{attributes}->{charset}) { ## TODO: And if supported              !!!cp ('t335');
4283              $charset = $token->{attributes}->{charset}->{value};              ## NOTE: Whether the encoding is supported or not is handled
4284            }              ## in the {change_encoding} callback.
4285            if ($token->{attributes}->{'http-equiv'}) {              $self->{change_encoding}
4286              ## ISSUE: Algorithm name in the spec was incorrect so that not linked to the definition.                  ->($self, $token->{attributes}->{charset}->{value}, $token);
4287              if ($token->{attributes}->{'http-equiv'}->{value}              
4288                  =~ /\A[^;]*;[\x09-\x0D\x20]*charset[\x09-\x0D\x20]*=              $meta_el->[0]->get_attribute_node_ns (undef, 'charset')
4289                      [\x09-\x0D\x20]*(?>"([^"]*)"|'([^']*)'|                  ->set_user_data (manakai_has_reference =>
4290                      ([^"'\x09-\x0D\x20][^\x09-\x0D\x20]*))/x) {                                       $token->{attributes}->{charset}
4291                $charset = defined $1 ? $1 : defined $2 ? $2 : $3;                                           ->{has_reference});
4292              } ## TODO: And if supported            } elsif ($token->{attributes}->{content}) {
4293                if ($token->{attributes}->{content}->{value}
4294                    =~ /[Cc][Hh][Aa][Rr][Ss][Ee][Tt]
4295                        [\x09\x0A\x0C\x0D\x20]*=
4296                        [\x09\x0A\x0C\x0D\x20]*(?>"([^"]*)"|'([^']*)'|
4297                        ([^"'\x09\x0A\x0C\x0D\x20][^\x09\x0A\x0C\x0D\x20\x3B]*))
4298                       /x) {
4299                  !!!cp ('t336');
4300                  ## NOTE: Whether the encoding is supported or not is handled
4301                  ## in the {change_encoding} callback.
4302                  $self->{change_encoding}
4303                      ->($self, defined $1 ? $1 : defined $2 ? $2 : $3, $token);
4304                  $meta_el->[0]->get_attribute_node_ns (undef, 'content')
4305                      ->set_user_data (manakai_has_reference =>
4306                                           $token->{attributes}->{content}
4307                                                 ->{has_reference});
4308                }
4309              }
4310            } else {
4311              if ($token->{attributes}->{charset}) {
4312                !!!cp ('t337');
4313                $meta_el->[0]->get_attribute_node_ns (undef, 'charset')
4314                    ->set_user_data (manakai_has_reference =>
4315                                         $token->{attributes}->{charset}
4316                                             ->{has_reference});
4317              }
4318              if ($token->{attributes}->{content}) {
4319                !!!cp ('t338');
4320                $meta_el->[0]->get_attribute_node_ns (undef, 'content')
4321                    ->set_user_data (manakai_has_reference =>
4322                                         $token->{attributes}->{content}
4323                                             ->{has_reference});
4324            }            }
           ## TODO: Change the encoding  
4325          }          }
4326    
4327            !!!ack ('t338.1');
4328          !!!next-token;          !!!next-token;
4329          redo B;          next B;
4330        } elsif ($token->{tag_name} eq 'title') {        } elsif ($token->{tag_name} eq 'title') {
4331          !!!parse-error (type => 'in body:title');          !!!cp ('t341');
4332          ## NOTE: This is an "as if in head" code clone          ## NOTE: This is an "as if in head" code clone
4333          $parse_rcdata->(RCDATA_CONTENT_MODEL, sub {          $parse_rcdata->(RCDATA_CONTENT_MODEL);
4334            if (defined $self->{head_element}) {          next B;
             $self->{head_element}->append_child ($_[0]);  
           } else {  
             $insert->($_[0]);  
           }  
         });  
         redo B;  
4335        } elsif ($token->{tag_name} eq 'body') {        } elsif ($token->{tag_name} eq 'body') {
4336          !!!parse-error (type => 'in body:body');          !!!parse-error (type => 'in body', text => 'body', token => $token);
4337                                
4338          if (@{$self->{open_elements}} == 1 or          if (@{$self->{open_elements}} == 1 or
4339              $self->{open_elements}->[1]->[1] ne 'body') {              not ($self->{open_elements}->[1]->[1] == BODY_EL)) {
4340              !!!cp ('t342');
4341            ## Ignore the token            ## Ignore the token
4342          } else {          } else {
4343            my $body_el = $self->{open_elements}->[1]->[0];            my $body_el = $self->{open_elements}->[1]->[0];
4344            for my $attr_name (keys %{$token->{attributes}}) {            for my $attr_name (keys %{$token->{attributes}}) {
4345              unless ($body_el->has_attribute_ns (undef, $attr_name)) {              unless ($body_el->has_attribute_ns (undef, $attr_name)) {
4346                  !!!cp ('t343');
4347                $body_el->set_attribute_ns                $body_el->set_attribute_ns
4348                  (undef, [undef, $attr_name],                  (undef, [undef, $attr_name],
4349                   $token->{attributes}->{$attr_name}->{value});                   $token->{attributes}->{$attr_name}->{value});
4350              }              }
4351            }            }
4352          }          }
4353            !!!nack ('t343.1');
4354          !!!next-token;          !!!next-token;
4355          redo B;          next B;
4356          } elsif ($token->{tag_name} eq 'frameset') {
4357            !!!parse-error (type => 'in body', text => $token->{tag_name},
4358                            token => $token);
4359    
4360            if (@{$self->{open_elements}} == 1 or
4361                not ($self->{open_elements}->[1]->[1] == BODY_EL)) {
4362              !!!cp ('t343.2');
4363              ## Ignore the token.
4364            } elsif (not $self->{frameset_ok}) {
4365              !!!cp ('t343.3');
4366              ## Ignore the token.
4367            } else {
4368              !!!cp ('t343.4');
4369              
4370              ## 1. Remove the second element.
4371              my $body = $self->{open_elements}->[1]->[0];
4372              my $body_parent = $body->parent_node;
4373              $body_parent->remove_child ($body) if $body_parent;
4374    
4375              ## 2. Pop nodes.
4376              splice @{$self->{open_elements}}, 1;
4377    
4378              ## 3. Insert.
4379              !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
4380    
4381              ## 4. Switch.
4382              $self->{insertion_mode} = IN_FRAMESET_IM;
4383            }
4384    
4385            !!!nack ('t343.5');
4386            !!!next-token;
4387            next B;
4388        } elsif ({        } elsif ({
4389                  address => 1, blockquote => 1, center => 1, dir => 1,                  ## NOTE: Start tags for non-phrasing flow content elements
4390                  div => 1, dl => 1, fieldset => 1, listing => 1,  
4391                  menu => 1, ol => 1, p => 1, ul => 1,                  ## NOTE: The normal one
4392                  pre => 1,                  address => 1, article => 1, aside => 1, blockquote => 1,
4393                    center => 1, datagrid => 1, details => 1, dialog => 1,
4394                    dir => 1, div => 1, dl => 1, fieldset => 1, figure => 1,
4395                    footer => 1, h1 => 1, h2 => 1, h3 => 1, h4 => 1, h5 => 1,
4396                    h6 => 1, header => 1, hgroup => 1,
4397                    menu => 1, nav => 1, ol => 1, p => 1,
4398                    section => 1, ul => 1,
4399                    ## NOTE: As normal, but drops leading newline
4400                    pre => 1, listing => 1,
4401                    ## NOTE: As normal, but interacts with the form element pointer
4402                    form => 1,
4403                    
4404                    table => 1,
4405                    hr => 1,
4406                 }->{$token->{tag_name}}) {                 }->{$token->{tag_name}}) {
4407          ## has a p element in scope  
4408          INSCOPE: for (reverse @{$self->{open_elements}}) {          ## 1. When there is an opening |form| element:
4409            if ($_->[1] eq 'p') {          if ($token->{tag_name} eq 'form' and defined $self->{form_element}) {
4410              !!!back-token;            !!!cp ('t350');
4411              $token = {type => END_TAG_TOKEN, tag_name => 'p'};            !!!parse-error (type => 'in form:form', token => $token);
4412              redo B;            ## Ignore the token
4413            } elsif ({            !!!nack ('t350.1');
4414                      table => 1, caption => 1, td => 1, th => 1,            !!!next-token;
4415                      button => 1, marquee => 1, object => 1, html => 1,            next B;
4416                     }->{$_->[1]}) {          }
4417              last INSCOPE;  
4418            ## 2. Close the |p| element, if any.
4419            if ($token->{tag_name} ne 'table' or # The Hixie Quirk
4420                $self->{document}->manakai_compat_mode ne 'quirks') {
4421              ## has a p element in scope
4422              INSCOPE: for (reverse @{$self->{open_elements}}) {
4423                if ($_->[1] == P_EL) {
4424                  !!!cp ('t344');
4425                  !!!back-token; # <form>
4426                  $token = {type => END_TAG_TOKEN, tag_name => 'p',
4427                            line => $token->{line}, column => $token->{column}};
4428                  next B;
4429                } elsif ($_->[1] & SCOPING_EL) {
4430                  !!!cp ('t345');
4431                  last INSCOPE;
4432                }
4433              } # INSCOPE
4434            }
4435    
4436            ## 3. Close the opening <hn> element, if any.
4437            if ({h1 => 1, h2 => 1, h3 => 1,
4438                 h4 => 1, h5 => 1, h6 => 1}->{$token->{tag_name}}) {
4439              if ($self->{open_elements}->[-1]->[1] == HEADING_EL) {
4440                !!!parse-error (type => 'not closed',
4441                                text => $self->{open_elements}->[-1]->[0]->manakai_local_name,
4442                                token => $token);
4443                pop @{$self->{open_elements}};
4444            }            }
4445          } # INSCOPE          }
4446              
4447          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          ## 4. Insertion.
4448          if ($token->{tag_name} eq 'pre') {          !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
4449            if ($token->{tag_name} eq 'pre' or $token->{tag_name} eq 'listing') {
4450              !!!nack ('t346.1');
4451            !!!next-token;            !!!next-token;
4452            if ($token->{type} == CHARACTER_TOKEN) {            if ($token->{type} == CHARACTER_TOKEN) {
4453              $token->{data} =~ s/^\x0A//;              $token->{data} =~ s/^\x0A//;
4454              unless (length $token->{data}) {              unless (length $token->{data}) {
4455                  !!!cp ('t346');
4456                !!!next-token;                !!!next-token;
4457                } else {
4458                  !!!cp ('t349');
4459              }              }
4460              } else {
4461                !!!cp ('t348');
4462            }            }
4463          } else {  
4464              delete $self->{frameset_ok};
4465            } elsif ($token->{tag_name} eq 'form') {
4466              !!!cp ('t347.1');
4467              $self->{form_element} = $self->{open_elements}->[-1]->[0];
4468    
4469              !!!nack ('t347.2');
4470            !!!next-token;            !!!next-token;
4471          }          } elsif ($token->{tag_name} eq 'table') {
4472          redo B;            !!!cp ('t382');
4473        } elsif ($token->{tag_name} eq 'form') {            push @{$open_tables}, [$self->{open_elements}->[-1]->[0]];
4474          if (defined $self->{form_element}) {  
4475            !!!parse-error (type => 'in form:form');            delete $self->{frameset_ok};
4476            ## Ignore the token            
4477              $self->{insertion_mode} = IN_TABLE_IM;
4478    
4479              !!!nack ('t382.1');
4480              !!!next-token;
4481            } elsif ($token->{tag_name} eq 'hr') {
4482              !!!cp ('t386');
4483              pop @{$self->{open_elements}};
4484              
4485              !!!ack ('t386.1');
4486    
4487              delete $self->{frameset_ok};
4488    
4489            !!!next-token;            !!!next-token;
           redo B;  
4490          } else {          } else {
4491            ## has a p element in scope            !!!nack ('t347.1');
           INSCOPE: for (reverse @{$self->{open_elements}}) {  
             if ($_->[1] eq 'p') {  
               !!!back-token;  
               $token = {type => END_TAG_TOKEN, tag_name => 'p'};  
               redo B;  
             } elsif ({  
                       table => 1, caption => 1, td => 1, th => 1,  
                       button => 1, marquee => 1, object => 1, html => 1,  
                      }->{$_->[1]}) {  
               last INSCOPE;  
             }  
           } # INSCOPE  
               
           !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
           $self->{form_element} = $self->{open_elements}->[-1]->[0];  
4492            !!!next-token;            !!!next-token;
           redo B;  
4493          }          }
4494            next B;
4495        } elsif ($token->{tag_name} eq 'li') {        } elsif ($token->{tag_name} eq 'li') {
4496          ## has a p element in scope          ## NOTE: As normal, but imply </li> when there's another <li> ...
4497          INSCOPE: for (reverse @{$self->{open_elements}}) {  
4498            if ($_->[1] eq 'p') {          ## NOTE: Special, Scope (<li><foo><li> == <li><foo><li/></foo></li>)::
4499              !!!back-token;            ## Interpreted as <li><foo/></li><li/> (non-conforming):
4500              $token = {type => END_TAG_TOKEN, tag_name => 'p'};            ## blockquote (O9.27), center (O), dd (Fx3, O, S3.1.2, IE7),
4501              redo B;            ## dt (Fx, O, S, IE), dl (O), fieldset (O, S, IE), form (Fx, O, S),
4502            } elsif ({            ## hn (O), pre (O), applet (O, S), button (O, S), marquee (Fx, O, S),
4503                      table => 1, caption => 1, td => 1, th => 1,            ## object (Fx)
4504                      button => 1, marquee => 1, object => 1, html => 1,            ## Generate non-tree (non-conforming):
4505                     }->{$_->[1]}) {            ## basefont (IE7 (where basefont is non-void)), center (IE),
4506              last INSCOPE;            ## form (IE), hn (IE)
4507            }          ## address, div, p (<li><foo><li> == <li><foo/></li><li/>)::
4508          } # INSCOPE            ## Interpreted as <li><foo><li/></foo></li> (non-conforming):
4509                        ## div (Fx, S)
4510          ## Step 1  
4511            ## 1. Frameset-ng
4512            delete $self->{frameset_ok};
4513    
4514            my $non_optional;
4515          my $i = -1;          my $i = -1;
4516          my $node = $self->{open_elements}->[$i];  
4517          LI: {          ## 2.
4518            ## Step 2          for my $node (reverse @{$self->{open_elements}}) {
4519            if ($node->[1] eq 'li') {            if ($node->[1] == LI_EL) {
4520              if ($i != -1) {              ## 3. (a) As if </li>
4521                !!!parse-error (type => 'end tag missing:'.              {
4522                                $self->{open_elements}->[-1]->[1]);                ## If no </li> - not applied
4523                  #
4524    
4525                  ## Otherwise
4526    
4527                  ## 1. generate implied end tags, except for </li>
4528                  #
4529    
4530                  ## 2. If current node != "li", parse error
4531                  if ($non_optional) {
4532                    !!!parse-error (type => 'not closed',
4533                                    text => $non_optional->[0]->manakai_local_name,
4534                                    token => $token);
4535                    !!!cp ('t355');
4536                  } else {
4537                    !!!cp ('t356');
4538                  }
4539    
4540                  ## 3. Pop
4541                  splice @{$self->{open_elements}}, $i;
4542              }              }
4543              splice @{$self->{open_elements}}, $i;  
4544              last LI;              last; ## 3. (b) goto 5.
4545            }            } elsif (
4546                                 ## NOTE: not "formatting" and not "phrasing"
4547            ## Step 3                     ($node->[1] & SPECIAL_EL or
4548            if (not $formatting_category->{$node->[1]} and                      $node->[1] & SCOPING_EL) and
4549                #not $phrasing_category->{$node->[1]} and                     ## NOTE: "li", "dt", and "dd" are in |SPECIAL_EL|.
4550                ($special_category->{$node->[1]} or                     (not $node->[1] & ADDRESS_DIV_P_EL)
4551                 $scoping_category->{$node->[1]}) and                    ) {
4552                $node->[1] ne 'address' and $node->[1] ne 'div') {              ## 4.
4553              last LI;              !!!cp ('t357');
4554                last; ## goto 6.
4555              } elsif ($node->[1] & END_TAG_OPTIONAL_EL) {
4556                !!!cp ('t358');
4557                #
4558              } else {
4559                !!!cp ('t359');
4560                $non_optional ||= $node;
4561                #
4562            }            }
4563                        ## 5.
4564            ## Step 4            ## goto 3.
4565            $i--;            $i--;
4566            $node = $self->{open_elements}->[$i];          }
4567            redo LI;  
4568          } # LI          ## 6. (a) has a |p| element in scope
             
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
         !!!next-token;  
         redo B;  
       } elsif ($token->{tag_name} eq 'dd' or $token->{tag_name} eq 'dt') {  
         ## has a p element in scope  
4569          INSCOPE: for (reverse @{$self->{open_elements}}) {          INSCOPE: for (reverse @{$self->{open_elements}}) {
4570            if ($_->[1] eq 'p') {            if ($_->[1] == P_EL) {
4571              !!!back-token;              !!!cp ('t353');
4572              $token = {type => END_TAG_TOKEN, tag_name => 'p'};  
4573              redo B;              ## NOTE: |<p><li>|, for example.
4574            } elsif ({  
4575                      table => 1, caption => 1, td => 1, th => 1,              !!!back-token; # <x>
4576                      button => 1, marquee => 1, object => 1, html => 1,              $token = {type => END_TAG_TOKEN, tag_name => 'p',
4577                     }->{$_->[1]}) {                        line => $token->{line}, column => $token->{column}};
4578                next B;
4579              } elsif ($_->[1] & SCOPING_EL) {
4580                !!!cp ('t354');
4581              last INSCOPE;              last INSCOPE;
4582            }            }
4583          } # INSCOPE          } # INSCOPE
4584              
4585          ## Step 1          ## 6. (b) insert
4586            !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
4587            !!!nack ('t359.1');
4588            !!!next-token;
4589            next B;
4590          } elsif ($token->{tag_name} eq 'dt' or
4591                   $token->{tag_name} eq 'dd') {
4592            ## NOTE: As normal, but imply </dt> or </dd> when ...
4593    
4594            ## 1. Frameset-ng
4595            delete $self->{frameset_ok};
4596    
4597            my $non_optional;
4598          my $i = -1;          my $i = -1;
4599          my $node = $self->{open_elements}->[$i];  
4600          LI: {          ## 2.
4601            ## Step 2          for my $node (reverse @{$self->{open_elements}}) {
4602            if ($node->[1] eq 'dt' or $node->[1] eq 'dd') {            if ($node->[1] == DTDD_EL) {
4603              if ($i != -1) {              ## 3. (a) As if </li>
4604                !!!parse-error (type => 'end tag missing:'.              {
4605                                $self->{open_elements}->[-1]->[1]);                ## If no </li> - not applied
4606                  #
4607    
4608                  ## Otherwise
4609    
4610                  ## 1. generate implied end tags, except for </dt> or </dd>
4611                  #
4612    
4613                  ## 2. If current node != "dt"|"dd", parse error
4614                  if ($non_optional) {
4615                    !!!parse-error (type => 'not closed',
4616                                    text => $non_optional->[0]->manakai_local_name,
4617                                    token => $token);
4618                    !!!cp ('t355.1');
4619                  } else {
4620                    !!!cp ('t356.1');
4621                  }
4622    
4623                  ## 3. Pop
4624                  splice @{$self->{open_elements}}, $i;
4625              }              }
4626              splice @{$self->{open_elements}}, $i;  
4627              last LI;              last; ## 3. (b) goto 5.
4628            }            } elsif (
4629                                 ## NOTE: not "formatting" and not "phrasing"
4630            ## Step 3                     ($node->[1] & SPECIAL_EL or
4631            if (not $formatting_category->{$node->[1]} and                      $node->[1] & SCOPING_EL) and
4632                #not $phrasing_category->{$node->[1]} and                     ## NOTE: "li", "dt", and "dd" are in |SPECIAL_EL|.
4633                ($special_category->{$node->[1]} or  
4634                 $scoping_category->{$node->[1]}) and                     (not $node->[1] & ADDRESS_DIV_P_EL)
4635                $node->[1] ne 'address' and $node->[1] ne 'div') {                    ) {
4636              last LI;              ## 4.
4637                !!!cp ('t357.1');
4638                last; ## goto 5.
4639              } elsif ($node->[1] & END_TAG_OPTIONAL_EL) {
4640                !!!cp ('t358.1');
4641                #
4642              } else {
4643                !!!cp ('t359.1');
4644                $non_optional ||= $node;
4645                #
4646            }            }
4647                        ## 5.
4648            ## Step 4            ## goto 3.
4649            $i--;            $i--;
4650            $node = $self->{open_elements}->[$i];          }
4651            redo LI;  
4652          } # LI          ## 6. (a) has a |p| element in scope
             
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
         !!!next-token;  
         redo B;  
       } elsif ($token->{tag_name} eq 'plaintext') {  
         ## has a p element in scope  
4653          INSCOPE: for (reverse @{$self->{open_elements}}) {          INSCOPE: for (reverse @{$self->{open_elements}}) {
4654            if ($_->[1] eq 'p') {            if ($_->[1] == P_EL) {
4655              !!!back-token;              !!!cp ('t353.1');
4656              $token = {type => END_TAG_TOKEN, tag_name => 'p'};              !!!back-token; # <x>
4657              redo B;              $token = {type => END_TAG_TOKEN, tag_name => 'p',
4658            } elsif ({                        line => $token->{line}, column => $token->{column}};
4659                      table => 1, caption => 1, td => 1, th => 1,              next B;
4660                      button => 1, marquee => 1, object => 1, html => 1,            } elsif ($_->[1] & SCOPING_EL) {
4661                     }->{$_->[1]}) {              !!!cp ('t354.1');
4662              last INSCOPE;              last INSCOPE;
4663            }            }
4664          } # INSCOPE          } # INSCOPE
4665              
4666          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          ## 6. (b) insert
4667                      !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
4668          $self->{content_model} = PLAINTEXT_CONTENT_MODEL;          !!!nack ('t359.2');
             
4669          !!!next-token;          !!!next-token;
4670          redo B;          next B;
4671        } elsif ({        } elsif ($token->{tag_name} eq 'plaintext') {
4672                  h1 => 1, h2 => 1, h3 => 1, h4 => 1, h5 => 1, h6 => 1,          ## NOTE: As normal, but effectively ends parsing
4673                 }->{$token->{tag_name}}) {  
4674          ## has a p element in scope          ## has a p element in scope
4675          INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {          INSCOPE: for (reverse @{$self->{open_elements}}) {
4676            my $node = $self->{open_elements}->[$_];            if ($_->[1] == P_EL) {
4677            if ($node->[1] eq 'p') {              !!!cp ('t367');
4678              !!!back-token;              !!!back-token; # <plaintext>
4679              $token = {type => END_TAG_TOKEN, tag_name => 'p'};              $token = {type => END_TAG_TOKEN, tag_name => 'p',
4680              redo B;                        line => $token->{line}, column => $token->{column}};
4681            } elsif ({              next B;
4682                      table => 1, caption => 1, td => 1, th => 1,            } elsif ($_->[1] & SCOPING_EL) {
4683                      button => 1, marquee => 1, object => 1, html => 1,              !!!cp ('t368');
                    }->{$node->[1]}) {  
4684              last INSCOPE;              last INSCOPE;
4685            }            }
4686          } # INSCOPE          } # INSCOPE
4687                        
4688          ## NOTE: See <http://html5.org/tools/web-apps-tracker?from=925&to=926>          !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
         ## has an element in scope  
         #my $i;  
         #INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
         #  my $node = $self->{open_elements}->[$_];  
         #  if ({  
         #       h1 => 1, h2 => 1, h3 => 1, h4 => 1, h5 => 1, h6 => 1,  
         #      }->{$node->[1]}) {  
         #    $i = $_;  
         #    last INSCOPE;  
         #  } elsif ({  
         #            table => 1, caption => 1, td => 1, th => 1,  
         #            button => 1, marquee => 1, object => 1, html => 1,  
         #           }->{$node->[1]}) {  
         #    last INSCOPE;  
         #  }  
         #} # INSCOPE  
         #    
         #if (defined $i) {  
         #  !!! parse-error (type => 'in hn:hn');  
         #  splice @{$self->{open_elements}}, $i;  
         #}  
4689                        
4690          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          $self->{content_model} = PLAINTEXT_CONTENT_MODEL;
4691                        
4692            !!!nack ('t368.1');
4693          !!!next-token;          !!!next-token;
4694          redo B;          next B;
4695        } elsif ($token->{tag_name} eq 'a') {        } elsif ($token->{tag_name} eq 'a') {
4696          AFE: for my $i (reverse 0..$#$active_formatting_elements) {          AFE: for my $i (reverse 0..$#$active_formatting_elements) {
4697            my $node = $active_formatting_elements->[$i];            my $node = $active_formatting_elements->[$i];
4698            if ($node->[1] eq 'a') {            if ($node->[1] == A_EL) {
4699              !!!parse-error (type => 'in a:a');              !!!cp ('t371');
4700                !!!parse-error (type => 'in a:a', token => $token);
4701                            
4702              !!!back-token;              !!!back-token; # <a>
4703              $token = {type => END_TAG_TOKEN, tag_name => 'a'};              $token = {type => END_TAG_TOKEN, tag_name => 'a',
4704              $formatting_end_tag->($token->{tag_name});                        line => $token->{line}, column => $token->{column}};
4705                $formatting_end_tag->($token);
4706                            
4707              AFE2: for (reverse 0..$#$active_formatting_elements) {              AFE2: for (reverse 0..$#$active_formatting_elements) {
4708                if ($active_formatting_elements->[$_]->[0] eq $node->[0]) {                if ($active_formatting_elements->[$_]->[0] eq $node->[0]) {
4709                    !!!cp ('t372');
4710                  splice @$active_formatting_elements, $_, 1;                  splice @$active_formatting_elements, $_, 1;
4711                  last AFE2;                  last AFE2;
4712                }                }
4713              } # AFE2              } # AFE2
4714              OE: for (reverse 0..$#{$self->{open_elements}}) {              OE: for (reverse 0..$#{$self->{open_elements}}) {
4715                if ($self->{open_elements}->[$_]->[0] eq $node->[0]) {                if ($self->{open_elements}->[$_]->[0] eq $node->[0]) {
4716                    !!!cp ('t373');
4717                  splice @{$self->{open_elements}}, $_, 1;                  splice @{$self->{open_elements}}, $_, 1;
4718                  last OE;                  last OE;
4719                }                }
4720              } # OE              } # OE
4721              last AFE;              last AFE;
4722            } elsif ($node->[0] eq '#marker') {            } elsif ($node->[0] eq '#marker') {
4723                !!!cp ('t374');
4724              last AFE;              last AFE;
4725            }            }
4726          } # AFE          } # AFE
4727                        
4728          $reconstruct_active_formatting_elements->($insert_to_current);          $reconstruct_active_formatting_elements->($insert_to_current);
4729    
4730          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
4731          push @$active_formatting_elements, $self->{open_elements}->[-1];          push @$active_formatting_elements, $self->{open_elements}->[-1];
4732    
4733            !!!nack ('t374.1');
4734          !!!next-token;          !!!next-token;
4735          redo B;          next B;
       } elsif ({  
                 b => 1, big => 1, em => 1, font => 1, i => 1,  
                 s => 1, small => 1, strile => 1,  
                 strong => 1, tt => 1, u => 1,  
                }->{$token->{tag_name}}) {  
         $reconstruct_active_formatting_elements->($insert_to_current);  
           
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
         push @$active_formatting_elements, $self->{open_elements}->[-1];  
           
         !!!next-token;  
         redo B;  
4736        } elsif ($token->{tag_name} eq 'nobr') {        } elsif ($token->{tag_name} eq 'nobr') {
4737          $reconstruct_active_formatting_elements->($insert_to_current);          $reconstruct_active_formatting_elements->($insert_to_current);
4738    
4739          ## has a |nobr| element in scope          ## has a |nobr| element in scope
4740          INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {          INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
4741            my $node = $self->{open_elements}->[$_];            my $node = $self->{open_elements}->[$_];
4742            if ($node->[1] eq 'nobr') {            if ($node->[1] == NOBR_EL) {
4743              !!!parse-error (type => 'not closed:nobr');              !!!cp ('t376');
4744              !!!back-token;              !!!parse-error (type => 'in nobr:nobr', token => $token);
4745              $token = {type => END_TAG_TOKEN, tag_name => 'nobr'};              !!!back-token; # <nobr>
4746              redo B;              $token = {type => END_TAG_TOKEN, tag_name => 'nobr',
4747            } elsif ({                        line => $token->{line}, column => $token->{column}};
4748                      table => 1, caption => 1, td => 1, th => 1,              next B;
4749                      button => 1, marquee => 1, object => 1, html => 1,            } elsif ($node->[1] & SCOPING_EL) {
4750                     }->{$node->[1]}) {              !!!cp ('t377');
4751              last INSCOPE;              last INSCOPE;
4752            }            }
4753          } # INSCOPE          } # INSCOPE
4754                    
4755          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
4756          push @$active_formatting_elements, $self->{open_elements}->[-1];          push @$active_formatting_elements, $self->{open_elements}->[-1];
4757                    
4758            !!!nack ('t377.1');
4759          !!!next-token;          !!!next-token;
4760          redo B;          next B;
4761        } elsif ($token->{tag_name} eq 'button') {        } elsif ($token->{tag_name} eq 'button') {
4762          ## has a button element in scope          ## has a button element in scope
4763          INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {          INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
4764            my $node = $self->{open_elements}->[$_];            my $node = $self->{open_elements}->[$_];
4765            if ($node->[1] eq 'button') {            if ($node->[1] == BUTTON_EL) {
4766              !!!parse-error (type => 'in button:button');              !!!cp ('t378');
4767              !!!back-token;              !!!parse-error (type => 'in button:button', token => $token);
4768              $token = {type => END_TAG_TOKEN, tag_name => 'button'};              !!!back-token; # <button>
4769              redo B;              $token = {type => END_TAG_TOKEN, tag_name => 'button',
4770            } elsif ({                        line => $token->{line}, column => $token->{column}};
4771                      table => 1, caption => 1, td => 1, th => 1,              next B;
4772                      button => 1, marquee => 1, object => 1, html => 1,            } elsif ($node->[1] & SCOPING_EL) {
4773                     }->{$node->[1]}) {              !!!cp ('t379');
4774              last INSCOPE;              last INSCOPE;
4775            }            }
4776          } # INSCOPE          } # INSCOPE
4777                        
4778          $reconstruct_active_formatting_elements->($insert_to_current);          $reconstruct_active_formatting_elements->($insert_to_current);
4779                        
4780          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
4781          push @$active_formatting_elements, ['#marker', ''];  
4782            ## TODO: associate with $self->{form_element} if defined
4783    
         !!!next-token;  
         redo B;  
       } elsif ($token->{tag_name} eq 'marquee' or  
                $token->{tag_name} eq 'object') {  
         $reconstruct_active_formatting_elements->($insert_to_current);  
           
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
4784          push @$active_formatting_elements, ['#marker', ''];          push @$active_formatting_elements, ['#marker', ''];
4785            
4786          !!!next-token;          delete $self->{frameset_ok};
4787          redo B;  
4788        } elsif ($token->{tag_name} eq 'xmp') {          !!!nack ('t379.1');
         $reconstruct_active_formatting_elements->($insert_to_current);  
         $parse_rcdata->(CDATA_CONTENT_MODEL, $insert);  
         redo B;  
       } elsif ($token->{tag_name} eq 'table') {  
         ## has a p element in scope  
         INSCOPE: for (reverse @{$self->{open_elements}}) {  
           if ($_->[1] eq 'p') {  
             !!!back-token;  
             $token = {type => END_TAG_TOKEN, tag_name => 'p'};  
             redo B;  
           } elsif ({  
                     table => 1, caption => 1, td => 1, th => 1,  
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$_->[1]}) {  
             last INSCOPE;  
           }  
         } # INSCOPE  
             
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
             
         $self->{insertion_mode} = IN_TABLE_IM;  
             
4789          !!!next-token;          !!!next-token;
4790          redo B;          next B;
4791        } elsif ({        } elsif ({
4792                  area => 1, basefont => 1, bgsound => 1, br => 1,                  xmp => 1,
4793                  embed => 1, img => 1, param => 1, spacer => 1, wbr => 1,                  iframe => 1,
4794                  image => 1,                  noembed => 1,
4795                    noframes => 1, ## NOTE: This is an "as if in head" code clone.
4796                    noscript => 0, ## TODO: 1 if scripting is enabled
4797                 }->{$token->{tag_name}}) {                 }->{$token->{tag_name}}) {
4798          if ($token->{tag_name} eq 'image') {          if ($token->{tag_name} eq 'xmp') {
4799            !!!parse-error (type => 'image');            !!!cp ('t381');
4800            $token->{tag_name} = 'img';            $reconstruct_active_formatting_elements->($insert_to_current);
         }  
4801    
4802          ## NOTE: There is an "as if <br>" code clone.            delete $self->{frameset_ok};
4803          $reconstruct_active_formatting_elements->($insert_to_current);          } elsif ($token->{tag_name} eq 'iframe') {
4804                      !!!cp ('t381.1');
4805          !!!insert-element-t ($token->{tag_name}, $token->{attributes});            delete $self->{frameset_ok};
4806          pop @{$self->{open_elements}};          } else {
4807                      !!!cp ('t399');
4808          !!!next-token;          }
4809          redo B;          ## NOTE: There is an "as if in body" code clone.
4810        } elsif ($token->{tag_name} eq 'hr') {          $parse_rcdata->(CDATA_CONTENT_MODEL);
4811          ## has a p element in scope          next B;
         INSCOPE: for (reverse @{$self->{open_elements}}) {  
           if ($_->[1] eq 'p') {  
             !!!back-token;  
             $token = {type => END_TAG_TOKEN, tag_name => 'p'};  
             redo B;  
           } elsif ({  
                     table => 1, caption => 1, td => 1, th => 1,  
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$_->[1]}) {  
             last INSCOPE;  
           }  
         } # INSCOPE  
             
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
         pop @{$self->{open_elements}};  
             
         !!!next-token;  
         redo B;  
       } elsif ($token->{tag_name} eq 'input') {  
         $reconstruct_active_formatting_elements->($insert_to_current);  
           
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
         ## TODO: associate with $self->{form_element} if defined  
         pop @{$self->{open_elements}};  
           
         !!!next-token;  
         redo B;  
4812        } elsif ($token->{tag_name} eq 'isindex') {        } elsif ($token->{tag_name} eq 'isindex') {
4813          !!!parse-error (type => 'isindex');          !!!parse-error (type => 'isindex', token => $token);
4814                    
4815          if (defined $self->{form_element}) {          if (defined $self->{form_element}) {
4816              !!!cp ('t389');
4817            ## Ignore the token            ## Ignore the token
4818              !!!nack ('t389'); ## NOTE: Not acknowledged.
4819            !!!next-token;            !!!next-token;
4820            redo B;            next B;
4821          } else {          } else {
4822              !!!ack ('t391.1');
4823    
4824            my $at = $token->{attributes};            my $at = $token->{attributes};
4825            my $form_attrs;            my $form_attrs;
4826            $form_attrs->{action} = $at->{action} if $at->{action};            $form_attrs->{action} = $at->{action} if $at->{action};
# Line 4765  sub _tree_construction_main ($) { Line 4830  sub _tree_construction_main ($) {
4830            delete $at->{prompt};            delete $at->{prompt};
4831            my @tokens = (            my @tokens = (
4832                          {type => START_TAG_TOKEN, tag_name => 'form',                          {type => START_TAG_TOKEN, tag_name => 'form',
4833                           attributes => $form_attrs},                           attributes => $form_attrs,
4834                          {type => START_TAG_TOKEN, tag_name => 'hr'},                           line => $token->{line}, column => $token->{column}},
4835                          {type => START_TAG_TOKEN, tag_name => 'p'},                          {type => START_TAG_TOKEN, tag_name => 'hr',
4836                          {type => START_TAG_TOKEN, tag_name => 'label'},                           line => $token->{line}, column => $token->{column}},
4837                            {type => START_TAG_TOKEN, tag_name => 'label',
4838                             line => $token->{line}, column => $token->{column}},
4839                         );                         );
4840            if ($prompt_attr) {            if ($prompt_attr) {
4841              push @tokens, {type => CHARACTER_TOKEN, data => $prompt_attr->{value}};              !!!cp ('t390');
4842                push @tokens, {type => CHARACTER_TOKEN, data => $prompt_attr->{value},
4843                               #line => $token->{line}, column => $token->{column},
4844                              };
4845            } else {            } else {
4846                !!!cp ('t391');
4847              push @tokens, {type => CHARACTER_TOKEN,              push @tokens, {type => CHARACTER_TOKEN,
4848                             data => 'This is a searchable index. Insert your search keywords here: '}; # SHOULD                             data => 'This is a searchable index. Insert your search keywords here: ',
4849                               #line => $token->{line}, column => $token->{column},
4850                              }; # SHOULD
4851              ## TODO: make this configurable              ## TODO: make this configurable
4852            }            }
4853            push @tokens,            push @tokens,
4854                          {type => START_TAG_TOKEN, tag_name => 'input', attributes => $at},                          {type => START_TAG_TOKEN, tag_name => 'input', attributes => $at,
4855                             line => $token->{line}, column => $token->{column}},
4856                          #{type => CHARACTER_TOKEN, data => ''}, # SHOULD                          #{type => CHARACTER_TOKEN, data => ''}, # SHOULD
4857                          {type => END_TAG_TOKEN, tag_name => 'label'},                          {type => END_TAG_TOKEN, tag_name => 'label',
4858                          {type => END_TAG_TOKEN, tag_name => 'p'},                           line => $token->{line}, column => $token->{column}},
4859                          {type => START_TAG_TOKEN, tag_name => 'hr'},                          {type => START_TAG_TOKEN, tag_name => 'hr',
4860                          {type => END_TAG_TOKEN, tag_name => 'form'};                           line => $token->{line}, column => $token->{column}},
4861            $token = shift @tokens;                          {type => END_TAG_TOKEN, tag_name => 'form',
4862                             line => $token->{line}, column => $token->{column}};
4863            !!!back-token (@tokens);            !!!back-token (@tokens);
4864            redo B;            !!!next-token;
4865              next B;
4866          }          }
4867        } elsif ($token->{tag_name} eq 'textarea') {        } elsif ($token->{tag_name} eq 'textarea') {
4868          my $tag_name = $token->{tag_name};          ## 1. Insert
4869          my $el;          !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
         !!!create-element ($el, $token->{tag_name}, $token->{attributes});  
4870                    
4871            ## Step 2 # XXX
4872          ## TODO: $self->{form_element} if defined          ## TODO: $self->{form_element} if defined
4873    
4874            ## 2. Drop U+000A LINE FEED
4875            $self->{ignore_newline} = 1;
4876    
4877            ## 3. RCDATA
4878          $self->{content_model} = RCDATA_CONTENT_MODEL;          $self->{content_model} = RCDATA_CONTENT_MODEL;
4879          delete $self->{escape}; # MUST          delete $self->{escape}; # MUST
4880            
4881          $insert->($el);          ## 4., 6. Insertion mode
4882                    $self->{insertion_mode} |= IN_CDATA_RCDATA_IM;
4883          my $text = '';  
4884            ## 5. Frameset-ng.
4885            delete $self->{frameset_ok};
4886    
4887            !!!nack ('t392.1');
4888          !!!next-token;          !!!next-token;
4889          if ($token->{type} == CHARACTER_TOKEN) {          next B;
4890            $token->{data} =~ s/^\x0A//;        } elsif ($token->{tag_name} eq 'optgroup' or
4891            unless (length $token->{data}) {                 $token->{tag_name} eq 'option') {
4892              !!!next-token;          ## has an |option| element in scope
4893            INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
4894              my $node = $self->{open_elements}->[$_];
4895              if ($node->[1] == OPTION_EL) {
4896                !!!cp ('t397.1');
4897                ## NOTE: As if </option>
4898                !!!back-token; # <option> or <optgroup>
4899                $token = {type => END_TAG_TOKEN, tag_name => 'option',
4900                          line => $token->{line}, column => $token->{column}};
4901                next B;
4902              } elsif ($node->[1] & SCOPING_EL) {
4903                !!!cp ('t397.2');
4904                last INSCOPE;
4905            }            }
4906          }          } # INSCOPE
4907          while ($token->{type} == CHARACTER_TOKEN) {  
4908            $text .= $token->{data};          $reconstruct_active_formatting_elements->($insert_to_current);
4909            !!!next-token;  
4910          }          !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
4911          if (length $text) {  
4912            $el->manakai_append_text ($text);          !!!nack ('t397.3');
         }  
           
         $self->{content_model} = PCDATA_CONTENT_MODEL;  
           
         if ($token->{type} == END_TAG_TOKEN and  
             $token->{tag_name} eq $tag_name) {  
           ## Ignore the token  
         } else {  
           !!!parse-error (type => 'in RCDATA:#'.$token->{type});  
         }  
4913          !!!next-token;          !!!next-token;
4914          redo B;          redo B;
4915        } elsif ({        } elsif ($token->{tag_name} eq 'rt' or
4916                  iframe => 1,                 $token->{tag_name} eq 'rp') {
4917                  noembed => 1,          ## has a |ruby| element in scope
4918                  noframes => 1,          INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
4919                  noscript => 0, ## TODO: 1 if scripting is enabled            my $node = $self->{open_elements}->[$_];
4920                 }->{$token->{tag_name}}) {            if ($node->[1] == RUBY_EL) {
4921          ## NOTE: There are two "as if in body" code clones.              !!!cp ('t398.1');
4922          $parse_rcdata->(CDATA_CONTENT_MODEL, $insert);              ## generate implied end tags
4923                while ($self->{open_elements}->[-1]->[1] & END_TAG_OPTIONAL_EL) {
4924                  !!!cp ('t398.2');
4925                  pop @{$self->{open_elements}};
4926                }
4927                unless ($self->{open_elements}->[-1]->[1] == RUBY_EL) {
4928                  !!!cp ('t398.3');
4929                  !!!parse-error (type => 'not closed',
4930                                  text => $self->{open_elements}->[-1]->[0]
4931                                      ->manakai_local_name,
4932                                  token => $token);
4933                  pop @{$self->{open_elements}}
4934                      while not $self->{open_elements}->[-1]->[1] == RUBY_EL;
4935                }
4936                last INSCOPE;
4937              } elsif ($node->[1] & SCOPING_EL) {
4938                !!!cp ('t398.4');
4939                last INSCOPE;
4940              }
4941            } # INSCOPE
4942              
4943            ## TODO: <non-ruby><rt> is not allowed.
4944    
4945            !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
4946    
4947            !!!nack ('t398.5');
4948            !!!next-token;
4949          redo B;          redo B;
4950        } elsif ($token->{tag_name} eq 'select') {        } elsif ($token->{tag_name} eq 'math' or
4951                   $token->{tag_name} eq 'svg') {
4952          $reconstruct_active_formatting_elements->($insert_to_current);          $reconstruct_active_formatting_elements->($insert_to_current);
4953    
4954            ## "Adjust MathML attributes" ('math' only) - done in insert-element-f
4955    
4956            ## "adjust SVG attributes" ('svg' only) - done in insert-element-f
4957    
4958            ## "adjust foreign attributes" - done in insert-element-f
4959                    
4960          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!insert-element-f ($token->{tag_name} eq 'math' ? $MML_NS : $SVG_NS, $token->{tag_name}, $token->{attributes}, $token);
4961                    
4962          $self->{insertion_mode} = IN_SELECT_IM;          if ($self->{self_closing}) {
4963              pop @{$self->{open_elements}};
4964              !!!ack ('t398.6');
4965            } else {
4966              !!!cp ('t398.7');
4967              $self->{insertion_mode} |= IN_FOREIGN_CONTENT_IM;
4968              ## NOTE: |<body><math><mi><svg>| -> "in foreign content" insertion
4969              ## mode, "in body" (not "in foreign content") secondary insertion
4970              ## mode, maybe.
4971            }
4972    
4973          !!!next-token;          !!!next-token;
4974          redo B;          next B;
4975        } elsif ({        } elsif ({
4976                  caption => 1, col => 1, colgroup => 1, frame => 1,                  caption => 1, col => 1, colgroup => 1, frame => 1,
4977                  frameset => 1, head => 1, option => 1, optgroup => 1,                  head => 1,
4978                  tbody => 1, td => 1, tfoot => 1, th => 1,                  tbody => 1, td => 1, tfoot => 1, th => 1,
4979                  thead => 1, tr => 1,                  thead => 1, tr => 1,
4980                 }->{$token->{tag_name}}) {                 }->{$token->{tag_name}}) {
4981          !!!parse-error (type => 'in body:'.$token->{tag_name});          !!!cp ('t401');
4982            !!!parse-error (type => 'in body',
4983                            text => $token->{tag_name}, token => $token);
4984          ## Ignore the token          ## Ignore the token
4985            !!!nack ('t401.1'); ## NOTE: |<col/>| or |<frame/>| here is an error.
4986            !!!next-token;
4987            next B;
4988          } elsif ($token->{tag_name} eq 'param' or
4989                   $token->{tag_name} eq 'source') {
4990            !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
4991            pop @{$self->{open_elements}};
4992    
4993            !!!ack ('t398.5');
4994          !!!next-token;          !!!next-token;
4995          redo B;          redo B;
           
         ## ISSUE: An issue on HTML5 new elements in the spec.  
4996        } else {        } else {
4997            if ($token->{tag_name} eq 'image') {
4998              !!!cp ('t384');
4999              !!!parse-error (type => 'image', token => $token);
5000              $token->{tag_name} = 'img';
5001            } else {
5002              !!!cp ('t385');
5003            }
5004    
5005            ## NOTE: There is an "as if <br>" code clone.
5006          $reconstruct_active_formatting_elements->($insert_to_current);          $reconstruct_active_formatting_elements->($insert_to_current);
5007                    
5008          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
5009    
5010            if ({
5011                 applet => 1, marquee => 1, object => 1,
5012                }->{$token->{tag_name}}) {
5013              !!!cp ('t380');
5014    
5015              push @$active_formatting_elements, ['#marker', ''];
5016    
5017              delete $self->{frameset_ok};
5018    
5019              !!!nack ('t380.1');
5020            } elsif ({
5021                      b => 1, big => 1, em => 1, font => 1, i => 1,
5022                      s => 1, small => 1, strike => 1,
5023                      strong => 1, tt => 1, u => 1,
5024                     }->{$token->{tag_name}}) {
5025              !!!cp ('t375');
5026              push @$active_formatting_elements, $self->{open_elements}->[-1];
5027              !!!nack ('t375.1');
5028            } elsif ($token->{tag_name} eq 'input') {
5029              !!!cp ('t388');
5030              ## TODO: associate with $self->{form_element} if defined
5031              pop @{$self->{open_elements}};
5032              !!!ack ('t388.2');
5033            } elsif ({
5034                      area => 1, basefont => 1, bgsound => 1, br => 1,
5035                      embed => 1, img => 1, spacer => 1, wbr => 1,
5036                      keygen => 1,
5037                     }->{$token->{tag_name}}) {
5038              !!!cp ('t388.1');
5039    
5040              pop @{$self->{open_elements}};
5041    
5042              delete $self->{frameset_ok};
5043    
5044              !!!ack ('t388.3');
5045            } elsif ($token->{tag_name} eq 'select') {
5046              ## TODO: associate with $self->{form_element} if defined
5047    
5048              delete $self->{frameset_ok};
5049              
5050              if ($self->{insertion_mode} & TABLE_IMS or
5051                  $self->{insertion_mode} & BODY_TABLE_IMS or
5052                  ($self->{insertion_mode} & IM_MASK) == IN_COLUMN_GROUP_IM) {
5053                !!!cp ('t400.1');
5054                $self->{insertion_mode} = IN_SELECT_IN_TABLE_IM;
5055              } else {
5056                !!!cp ('t400.2');
5057                $self->{insertion_mode} = IN_SELECT_IM;
5058              }
5059              !!!nack ('t400.3');
5060            } else {
5061              !!!nack ('t402');
5062            }
5063                    
5064          !!!next-token;          !!!next-token;
5065          redo B;          next B;
5066        }        }
5067      } elsif ($token->{type} == END_TAG_TOKEN) {      } elsif ($token->{type} == END_TAG_TOKEN) {
5068        if ($token->{tag_name} eq 'body') {        if ($token->{tag_name} eq 'body' or $token->{tag_name} eq 'html') {
5069          if (@{$self->{open_elements}} > 1 and  
5070              $self->{open_elements}->[1]->[1] eq 'body') {          ## 1. If not "have an element in scope":
5071            for (@{$self->{open_elements}}) {          ## "has a |body| element in scope"
5072              unless ({          my $i;
5073                         dd => 1, dt => 1, li => 1, p => 1, td => 1,          INSCOPE: {
5074                         th => 1, tr => 1, body => 1, html => 1,            for (reverse @{$self->{open_elements}}) {
5075                       tbody => 1, tfoot => 1, thead => 1,              if ($_->[1] == BODY_EL) {
5076                      }->{$_->[1]}) {                !!!cp ('t405');
5077                !!!parse-error (type => 'not closed:'.$_->[1]);                $i = $_;
5078                  last INSCOPE;
5079                } elsif ($_->[1] & SCOPING_EL) {
5080                  !!!cp ('t405.1');
5081                  last;
5082              }              }
5083            }            }
5084    
5085            $self->{insertion_mode} = AFTER_BODY_IM;            ## NOTE: |<marquee></body>|, |<svg><foreignobject></body>|,
5086            !!!next-token;            ## and fragment cases.
5087            redo B;  
5088          } else {            !!!parse-error (type => 'unmatched end tag',
5089            !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                            text => $token->{tag_name}, token => $token);
5090            ## Ignore the token            ## Ignore the token.  (</body> or </html>)
5091            !!!next-token;            !!!next-token;
5092            redo B;            next B;
5093          }          } # INSCOPE
5094        } elsif ($token->{tag_name} eq 'html') {  
5095          if (@{$self->{open_elements}} > 1 and $self->{open_elements}->[1]->[1] eq 'body') {          ## 2. If unclosed elements:
5096            ## ISSUE: There is an issue in the spec.          for (@{$self->{open_elements}}) {
5097            if ($self->{open_elements}->[-1]->[1] ne 'body') {            unless ($_->[1] & ALL_END_TAG_OPTIONAL_EL ||
5098              !!!parse-error (type => 'not closed:'.$self->{open_elements}->[1]->[1]);                    $_->[1] == OPTGROUP_EL ||
5099                      $_->[1] == OPTION_EL ||
5100                      $_->[1] == RUBY_COMPONENT_EL) {
5101                !!!cp ('t403');
5102                !!!parse-error (type => 'not closed',
5103                                text => $_->[0]->manakai_local_name,
5104                                token => $token);
5105                last;
5106              } else {
5107                !!!cp ('t404');
5108            }            }
5109            $self->{insertion_mode} = AFTER_BODY_IM;          }
5110            ## reprocess  
5111            redo B;          ## 3. Switch the insertion mode.
5112          } else {          $self->{insertion_mode} = AFTER_BODY_IM;
5113            !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});          if ($token->{tag_name} eq 'body') {
           ## Ignore the token  
5114            !!!next-token;            !!!next-token;
5115            redo B;          } else { # html
5116              ## Reprocess.
5117          }          }
5118            next B;
5119        } elsif ({        } elsif ({
5120                  address => 1, blockquote => 1, center => 1, dir => 1,                  ## NOTE: End tags for non-phrasing flow content elements
5121                  div => 1, dl => 1, fieldset => 1, listing => 1,  
5122                  menu => 1, ol => 1, pre => 1, ul => 1,                  ## NOTE: The normal ones
5123                  p => 1,                  address => 1, article => 1, aside => 1, blockquote => 1,
5124                    center => 1, datagrid => 1, details => 1, dialog => 1,
5125                    dir => 1, div => 1, dl => 1, fieldset => 1, figure => 1,
5126                    footer => 1, header => 1, hgroup => 1,
5127                    listing => 1, menu => 1, nav => 1,
5128                    ol => 1, pre => 1, section => 1, ul => 1,
5129    
5130                    ## NOTE: As normal, but ... optional tags
5131                  dd => 1, dt => 1, li => 1,                  dd => 1, dt => 1, li => 1,
5132                  button => 1, marquee => 1, object => 1,  
5133                    applet => 1, button => 1, marquee => 1, object => 1,
5134                 }->{$token->{tag_name}}) {                 }->{$token->{tag_name}}) {
5135            ## NOTE: Code for <li> start tags includes "as if </li>" code.
5136            ## Code for <dt> or <dd> start tags includes "as if </dt> or
5137            ## </dd>" code.
5138    
5139          ## has an element in scope          ## has an element in scope
5140          my $i;          my $i;
5141          INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {          INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
5142            my $node = $self->{open_elements}->[$_];            my $node = $self->{open_elements}->[$_];
5143            if ($node->[1] eq $token->{tag_name}) {            if ($node->[0]->manakai_local_name eq $token->{tag_name}) {
5144              ## generate implied end tags              !!!cp ('t410');
             if ({  
                  dd => ($token->{tag_name} ne 'dd'),  
                  dt => ($token->{tag_name} ne 'dt'),  
                  li => ($token->{tag_name} ne 'li'),  
                  p => ($token->{tag_name} ne 'p'),  
                  td => 1, th => 1, tr => 1,  
                  tbody => 1, tfoot=> 1, thead => 1,  
                 }->{$self->{open_elements}->[-1]->[1]}) {  
               !!!back-token;  
               $token = {type => END_TAG_TOKEN,  
                         tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
               redo B;  
             }  
5145              $i = $_;              $i = $_;
5146              last INSCOPE unless $token->{tag_name} eq 'p';              last INSCOPE;
5147            } elsif ({            } elsif ($node->[1] & SCOPING_EL) {
5148                      table => 1, caption => 1, td => 1, th => 1,              !!!cp ('t411');
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$node->[1]}) {  
5149              last INSCOPE;              last INSCOPE;
5150            }            }
5151          } # INSCOPE          } # INSCOPE
5152            
5153          if ($self->{open_elements}->[-1]->[1] ne $token->{tag_name}) {          unless (defined $i) { # has an element in scope
5154            if (defined $i) {            !!!cp ('t413');
5155              !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);            !!!parse-error (type => 'unmatched end tag',
5156                              text => $token->{tag_name}, token => $token);
5157              ## NOTE: Ignore the token.
5158            } else {
5159              ## Step 1. generate implied end tags
5160              while ({
5161                      ## END_TAG_OPTIONAL_EL
5162                      dd => ($token->{tag_name} ne 'dd'),
5163                      dt => ($token->{tag_name} ne 'dt'),
5164                      li => ($token->{tag_name} ne 'li'),
5165                      option => 1,
5166                      optgroup => 1,
5167                      p => 1,
5168                      rt => 1,
5169                      rp => 1,
5170                     }->{$self->{open_elements}->[-1]->[0]->manakai_local_name}) {
5171                !!!cp ('t409');
5172                pop @{$self->{open_elements}};
5173              }
5174    
5175              ## Step 2.
5176              if ($self->{open_elements}->[-1]->[0]->manakai_local_name
5177                      ne $token->{tag_name}) {
5178                !!!cp ('t412');
5179                !!!parse-error (type => 'not closed',
5180                                text => $self->{open_elements}->[-1]->[0]
5181                                    ->manakai_local_name,
5182                                token => $token);
5183            } else {            } else {
5184              !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});              !!!cp ('t414');
5185            }            }
5186          }  
5187                      ## Step 3.
         if (defined $i) {  
5188            splice @{$self->{open_elements}}, $i;            splice @{$self->{open_elements}}, $i;
5189          } elsif ($token->{tag_name} eq 'p') {  
5190            ## As if <p>, then reprocess the current token            ## Step 4.
5191            my $el;            $clear_up_to_marker->()
5192            !!!create-element ($el, 'p');                if {
5193            $insert->($el);                  applet => 1, button => 1, marquee => 1, object => 1,
5194                  }->{$token->{tag_name}};
5195          }          }
         $clear_up_to_marker->()  
           if {  
             button => 1, marquee => 1, object => 1,  
           }->{$token->{tag_name}};  
5196          !!!next-token;          !!!next-token;
5197          redo B;          next B;
5198        } elsif ($token->{tag_name} eq 'form') {        } elsif ($token->{tag_name} eq 'form') {
5199            ## NOTE: As normal, but interacts with the form element pointer
5200    
5201            undef $self->{form_element};
5202    
5203          ## has an element in scope          ## has an element in scope
5204            my $i;
5205          INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {          INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
5206            my $node = $self->{open_elements}->[$_];            my $node = $self->{open_elements}->[$_];
5207            if ($node->[1] eq $token->{tag_name}) {            if ($node->[1] == FORM_EL) {
5208              ## generate implied end tags              !!!cp ('t418');
5209              if ({              $i = $_;
                  dd => 1, dt => 1, li => 1, p => 1,  
                  td => 1, th => 1, tr => 1,  
                  tbody => 1, tfoot=> 1, thead => 1,  
                 }->{$self->{open_elements}->[-1]->[1]}) {  
               !!!back-token;  
               $token = {type => END_TAG_TOKEN,  
                         tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
               redo B;  
             }  
5210              last INSCOPE;              last INSCOPE;
5211            } elsif ({            } elsif ($node->[1] & SCOPING_EL) {
5212                      table => 1, caption => 1, td => 1, th => 1,              !!!cp ('t419');
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$node->[1]}) {  
5213              last INSCOPE;              last INSCOPE;
5214            }            }
5215          } # INSCOPE          } # INSCOPE
5216            
5217          if ($self->{open_elements}->[-1]->[1] eq $token->{tag_name}) {          unless (defined $i) { # has an element in scope
5218            pop @{$self->{open_elements}};            !!!cp ('t421');
5219              !!!parse-error (type => 'unmatched end tag',
5220                              text => $token->{tag_name}, token => $token);
5221              ## NOTE: Ignore the token.
5222          } else {          } else {
5223            !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);            ## Step 1. generate implied end tags
5224              while ($self->{open_elements}->[-1]->[1] & END_TAG_OPTIONAL_EL) {
5225                !!!cp ('t417');
5226                pop @{$self->{open_elements}};
5227              }
5228              
5229              ## Step 2.
5230              if ($self->{open_elements}->[-1]->[0]->manakai_local_name
5231                      ne $token->{tag_name}) {
5232                !!!cp ('t417.1');
5233                !!!parse-error (type => 'not closed',
5234                                text => $self->{open_elements}->[-1]->[0]
5235                                    ->manakai_local_name,
5236                                token => $token);
5237              } else {
5238                !!!cp ('t420');
5239              }  
5240              
5241              ## Step 3.
5242              splice @{$self->{open_elements}}, $i;
5243          }          }
5244    
         undef $self->{form_element};  
5245          !!!next-token;          !!!next-token;
5246          redo B;          next B;
5247        } elsif ({        } elsif ({
5248                    ## NOTE: As normal, except acts as a closer for any ...
5249                  h1 => 1, h2 => 1, h3 => 1, h4 => 1, h5 => 1, h6 => 1,                  h1 => 1, h2 => 1, h3 => 1, h4 => 1, h5 => 1, h6 => 1,
5250                 }->{$token->{tag_name}}) {                 }->{$token->{tag_name}}) {
5251          ## has an element in scope          ## has an element in scope
5252          my $i;          my $i;
5253          INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {          INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
5254            my $node = $self->{open_elements}->[$_];            my $node = $self->{open_elements}->[$_];
5255            if ({            if ($node->[1] == HEADING_EL) {
5256                 h1 => 1, h2 => 1, h3 => 1, h4 => 1, h5 => 1, h6 => 1,              !!!cp ('t423');
               }->{$node->[1]}) {  
             ## generate implied end tags  
             if ({  
                  dd => 1, dt => 1, li => 1, p => 1,  
                  td => 1, th => 1, tr => 1,  
                  tbody => 1, tfoot=> 1, thead => 1,  
                 }->{$self->{open_elements}->[-1]->[1]}) {  
               !!!back-token;  
               $token = {type => END_TAG_TOKEN,  
                         tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
               redo B;  
             }  
5257              $i = $_;              $i = $_;
5258              last INSCOPE;              last INSCOPE;
5259            } elsif ({            } elsif ($node->[1] & SCOPING_EL) {
5260                      table => 1, caption => 1, td => 1, th => 1,              !!!cp ('t424');
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$node->[1]}) {  
5261              last INSCOPE;              last INSCOPE;
5262            }            }
5263          } # INSCOPE          } # INSCOPE
5264            
5265          if ($self->{open_elements}->[-1]->[1] ne $token->{tag_name}) {          unless (defined $i) { # has an element in scope
5266            !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);            !!!cp ('t425.1');
5267              !!!parse-error (type => 'unmatched end tag',
5268                              text => $token->{tag_name}, token => $token);
5269              ## NOTE: Ignore the token.
5270            } else {
5271              ## Step 1. generate implied end tags
5272              while ($self->{open_elements}->[-1]->[1] & END_TAG_OPTIONAL_EL) {
5273                !!!cp ('t422');
5274                pop @{$self->{open_elements}};
5275              }
5276              
5277              ## Step 2.
5278              if ($self->{open_elements}->[-1]->[0]->manakai_local_name
5279                      ne $token->{tag_name}) {
5280                !!!cp ('t425');
5281                !!!parse-error (type => 'unmatched end tag',
5282                                text => $token->{tag_name}, token => $token);
5283              } else {
5284                !!!cp ('t426');
5285              }
5286    
5287              ## Step 3.
5288              splice @{$self->{open_elements}}, $i;
5289          }          }
5290                    
         splice @{$self->{open_elements}}, $i if defined $i;  
5291          !!!next-token;          !!!next-token;
5292          redo B;          next B;
5293          } elsif ($token->{tag_name} eq 'p') {
5294            ## NOTE: As normal, except </p> implies <p> and ...
5295    
5296            ## has an element in scope
5297            my $non_optional;
5298            my $i;
5299            INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
5300              my $node = $self->{open_elements}->[$_];
5301              if ($node->[1] == P_EL) {
5302                !!!cp ('t410.1');
5303                $i = $_;
5304                last INSCOPE;
5305              } elsif ($node->[1] & SCOPING_EL) {
5306                !!!cp ('t411.1');
5307                last INSCOPE;
5308              } elsif ($node->[1] & END_TAG_OPTIONAL_EL) {
5309                ## NOTE: |END_TAG_OPTIONAL_EL| includes "p"
5310                !!!cp ('t411.2');
5311                #
5312              } else {
5313                !!!cp ('t411.3');
5314                $non_optional ||= $node;
5315                #
5316              }
5317            } # INSCOPE
5318    
5319            if (defined $i) {
5320              ## 1. Generate implied end tags
5321              #
5322    
5323              ## 2. If current node != "p", parse error
5324              if ($non_optional) {
5325                !!!cp ('t412.1');
5326                !!!parse-error (type => 'not closed',
5327                                text => $non_optional->[0]->manakai_local_name,
5328                                token => $token);
5329              } else {
5330                !!!cp ('t414.1');
5331              }
5332    
5333              ## 3. Pop
5334              splice @{$self->{open_elements}}, $i;
5335            } else {
5336              !!!cp ('t413.1');
5337              !!!parse-error (type => 'unmatched end tag',
5338                              text => $token->{tag_name}, token => $token);
5339    
5340              !!!cp ('t415.1');
5341              ## As if <p>, then reprocess the current token
5342              my $el;
5343              !!!create-element ($el, $HTML_NS, 'p',, $token);
5344              $insert->($el);
5345              ## NOTE: Not inserted into |$self->{open_elements}|.
5346            }
5347    
5348            !!!next-token;
5349            next B;
5350        } elsif ({        } elsif ({
5351                  a => 1,                  a => 1,
5352                  b => 1, big => 1, em => 1, font => 1, i => 1,                  b => 1, big => 1, em => 1, font => 1, i => 1,
5353                  nobr => 1, s => 1, small => 1, strile => 1,                  nobr => 1, s => 1, small => 1, strike => 1,
5354                  strong => 1, tt => 1, u => 1,                  strong => 1, tt => 1, u => 1,
5355                 }->{$token->{tag_name}}) {                 }->{$token->{tag_name}}) {
5356          $formatting_end_tag->($token->{tag_name});          !!!cp ('t427');
5357          redo B;          $formatting_end_tag->($token);
5358            next B;
5359        } elsif ($token->{tag_name} eq 'br') {        } elsif ($token->{tag_name} eq 'br') {
5360          !!!parse-error (type => 'unmatched end tag:br');          !!!cp ('t428');
5361            !!!parse-error (type => 'unmatched end tag',
5362                            text => 'br', token => $token);
5363    
5364          ## As if <br>          ## As if <br>
5365          $reconstruct_active_formatting_elements->($insert_to_current);          $reconstruct_active_formatting_elements->($insert_to_current);
5366                    
5367          my $el;          my $el;
5368          !!!create-element ($el, 'br');          !!!create-element ($el, $HTML_NS, 'br',, $token);
5369          $insert->($el);          $insert->($el);
5370                    
5371          ## Ignore the token.          ## Ignore the token.
5372          !!!next-token;          !!!next-token;
5373          redo B;          next B;
       } elsif ({  
                 caption => 1, col => 1, colgroup => 1, frame => 1,  
                 frameset => 1, head => 1, option => 1, optgroup => 1,  
                 tbody => 1, td => 1, tfoot => 1, th => 1,  
                 thead => 1, tr => 1,  
                 area => 1, basefont => 1, bgsound => 1,  
                 embed => 1, hr => 1, iframe => 1, image => 1,  
                 img => 1, input => 1, isindex => 1, noembed => 1,  
                 noframes => 1, param => 1, select => 1, spacer => 1,  
                 table => 1, textarea => 1, wbr => 1,  
                 noscript => 0, ## TODO: if scripting is enabled  
                }->{$token->{tag_name}}) {  
         !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
         ## Ignore the token  
         !!!next-token;  
         redo B;  
           
         ## ISSUE: Issue on HTML5 new elements in spec  
           
5374        } else {        } else {
5375            if ($token->{tag_name} eq 'sarcasm') {
5376              sleep 0.001; # take a deep breath
5377            }
5378    
5379          ## Step 1          ## Step 1
5380          my $node_i = -1;          my $node_i = -1;
5381          my $node = $self->{open_elements}->[$node_i];          my $node = $self->{open_elements}->[$node_i];
5382    
5383          ## Step 2          ## Step 2
5384          S2: {          S2: {
5385            if ($node->[1] eq $token->{tag_name}) {            my $node_tag_name = $node->[0]->manakai_local_name;
5386              $node_tag_name =~ tr/A-Z/a-z/; # for SVG camelCase tag names
5387              if ($node_tag_name eq $token->{tag_name}) {
5388              ## Step 1              ## Step 1
5389              ## generate implied end tags              ## generate implied end tags
5390              if ({              while ($self->{open_elements}->[-1]->[1] & END_TAG_OPTIONAL_EL) {
5391                   dd => 1, dt => 1, li => 1, p => 1,                !!!cp ('t430');
5392                   td => 1, th => 1, tr => 1,                ## NOTE: |<ruby><rt></ruby>|.
5393                   tbody => 1, tfoot => 1, thead => 1,                ## ISSUE: <ruby><rt></rt> will also take this code path,
5394                  }->{$self->{open_elements}->[-1]->[1]}) {                ## which seems wrong.
5395                !!!back-token;                pop @{$self->{open_elements}};
5396                $token = {type => END_TAG_TOKEN,                $node_i++;
                         tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
               redo B;  
5397              }              }
5398                    
5399              ## Step 2              ## Step 2
5400              if ($token->{tag_name} ne $self->{open_elements}->[-1]->[1]) {              my $current_tag_name
5401                !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                  = $self->{open_elements}->[-1]->[0]->manakai_local_name;
5402                $current_tag_name =~ tr/A-Z/a-z/;
5403                if ($current_tag_name ne $token->{tag_name}) {
5404                  !!!cp ('t431');
5405                  ## NOTE: <x><y></x>
5406                  !!!parse-error (type => 'not closed',
5407                                  text => $self->{open_elements}->[-1]->[0]
5408                                      ->manakai_local_name,
5409                                  token => $token);
5410                } else {
5411                  !!!cp ('t432');
5412              }              }
5413                            
5414              ## Step 3              ## Step 3
5415              splice @{$self->{open_elements}}, $node_i;              splice @{$self->{open_elements}}, $node_i if $node_i < 0;
5416    
5417              !!!next-token;              !!!next-token;
5418              last S2;              last S2;
5419            } else {            } else {
5420              ## Step 3              ## Step 3
5421              if (not $formatting_category->{$node->[1]} and              if (not ($node->[1] & FORMATTING_EL) and
5422                  #not $phrasing_category->{$node->[1]} and                  #not $phrasing_category->{$node->[1]} and
5423                  ($special_category->{$node->[1]} or                  ($node->[1] & SPECIAL_EL or
5424                   $scoping_category->{$node->[1]})) {                   $node->[1] & SCOPING_EL)) {
5425                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                !!!cp ('t433');
5426                  !!!parse-error (type => 'unmatched end tag',
5427                                  text => $token->{tag_name}, token => $token);
5428                ## Ignore the token                ## Ignore the token
5429                !!!next-token;                !!!next-token;
5430                last S2;                last S2;
5431    
5432                  ## NOTE: |<span><dd></span>a|: In Safari 3.1.2 and Opera
5433                  ## 9.27, "a" is a child of <dd> (conforming).  In
5434                  ## Firefox 3.0.2, "a" is a child of <body>.  In WinIE 7,
5435                  ## "a" is a child of both <body> and <dd>.
5436              }              }
5437                
5438                !!!cp ('t434');
5439            }            }
5440                        
5441            ## Step 4            ## Step 4
# Line 5122  sub _tree_construction_main ($) { Line 5445  sub _tree_construction_main ($) {
5445            ## Step 5;            ## Step 5;
5446            redo S2;            redo S2;
5447          } # S2          } # S2
5448          redo B;          next B;
5449        }        }
5450      }      }
5451      redo B;      next B;
5452      } continue { # B
5453        if ($self->{insertion_mode} & IN_FOREIGN_CONTENT_IM) {
5454          ## NOTE: The code below is executed in cases where it does not have
5455          ## to be, but it it is harmless even in those cases.
5456          ## has an element in scope
5457          INSCOPE: {
5458            for (reverse 0..$#{$self->{open_elements}}) {
5459              my $node = $self->{open_elements}->[$_];
5460              if ($node->[1] & FOREIGN_EL) {
5461                last INSCOPE;
5462              } elsif ($node->[1] & SCOPING_EL) {
5463                last;
5464              }
5465            }
5466            
5467            ## NOTE: No foreign element in scope.
5468            $self->{insertion_mode} &= ~ IN_FOREIGN_CONTENT_IM;
5469          } # INSCOPE
5470        }
5471    } # B    } # B
5472    
   ## NOTE: The "trailing end" phase in HTML5 is split into  
   ## two insertion modes: "after html body" and "after html frameset".  
   ## NOTE: States in the main stage is preserved while  
   ## the parser stays in the trailing end phase. # MUST  
   
5473    ## Stop parsing # MUST    ## Stop parsing # MUST
5474        
5475    ## TODO: script stuffs    ## TODO: script stuffs
5476  } # _tree_construct_main  } # _tree_construct_main
5477    
5478  sub set_inner_html ($$$) {  ## XXX: How this method is organized is somewhat out of date, although
5479    ## it still does what the current spec documents.
5480    sub set_inner_html ($$$$;$) {
5481    my $class = shift;    my $class = shift;
5482    my $node = shift;    my $node = shift; # /context/
5483    my $s = \$_[0];    #my $s = \$_[0];
5484    my $onerror = $_[1];    my $onerror = $_[1];
5485      my $get_wrapper = $_[2] || sub ($) { return $_[0] };
5486    
5487    my $nt = $node->node_type;    my $nt = $node->node_type;
5488    if ($nt == 9) {    if ($nt == 9) { # Document (invoke the algorithm with no /context/ element)
5489      # MUST      # MUST
5490            
5491      ## Step 1 # MUST      ## Step 1 # MUST
# Line 5159  sub set_inner_html ($$$) { Line 5499  sub set_inner_html ($$$) {
5499      }      }
5500    
5501      ## Step 3, 4, 5 # MUST      ## Step 3, 4, 5 # MUST
5502      $class->parse_string ($$s => $node, $onerror);      $class->parse_char_string ($_[0] => $node, $onerror, $get_wrapper);
5503    } elsif ($nt == 1) {    } elsif ($nt == 1) { # Element (invoke the algorithm with /context/ element)
5504      ## TODO: If non-html element      ## TODO: If non-html element
5505    
5506      ## NOTE: Most of this code is copied from |parse_string|      ## NOTE: Most of this code is copied from |parse_string|
5507    
5508      ## Step 1 # MUST  ## TODO: Support for $get_wrapper
5509    
5510        ## F1. Create an HTML document.
5511      my $this_doc = $node->owner_document;      my $this_doc = $node->owner_document;
5512      my $doc = $this_doc->implementation->create_document;      my $doc = $this_doc->implementation->create_document;
5513      $doc->manakai_is_html (1);      $doc->manakai_is_html (1);
5514    
5515        ## F2. Propagate quirkness flag
5516        my $node_doc = $node->owner_document;
5517        $doc->manakai_compat_mode ($node_doc->manakai_compat_mode);
5518    
5519        ## F3. Create an HTML parser
5520      my $p = $class->new;      my $p = $class->new;
5521      $p->{document} = $doc;      $p->{document} = $doc;
5522    
5523      ## Step 9 # MUST      ## Step 8 # MUST
5524      my $i = 0;      my $i = 0;
5525      my $line = 1;      $p->{line_prev} = $p->{line} = 1;
5526      my $column = 0;      $p->{column_prev} = $p->{column} = 0;
5527      $p->{set_next_input_character} = sub {      require Whatpm::Charset::DecodeHandle;
5528        my $input = Whatpm::Charset::DecodeHandle::CharString->new (\($_[0]));
5529        $input = $get_wrapper->($input);
5530        $p->{set_nc} = sub {
5531        my $self = shift;        my $self = shift;
5532    
5533        pop @{$self->{prev_input_character}};        my $char = '';
5534        unshift @{$self->{prev_input_character}}, $self->{next_input_character};        if (defined $self->{next_nc}) {
5535            $char = $self->{next_nc};
5536            delete $self->{next_nc};
5537            $self->{nc} = ord $char;
5538          } else {
5539            $self->{char_buffer} = '';
5540            $self->{char_buffer_pos} = 0;
5541            
5542            my $count = $input->manakai_read_until
5543                ($self->{char_buffer}, qr/[^\x00\x0A\x0D]/,
5544                 $self->{char_buffer_pos});
5545            if ($count) {
5546              $self->{line_prev} = $self->{line};
5547              $self->{column_prev} = $self->{column};
5548              $self->{column}++;
5549              $self->{nc}
5550                  = ord substr ($self->{char_buffer},
5551                                $self->{char_buffer_pos}++, 1);
5552              return;
5553            }
5554            
5555            if ($input->read ($char, 1)) {
5556              $self->{nc} = ord $char;
5557            } else {
5558              $self->{nc} = -1;
5559              return;
5560            }
5561          }
5562    
5563        $self->{next_input_character} = -1 and return if $i >= length $$s;        ($p->{line_prev}, $p->{column_prev}) = ($p->{line}, $p->{column});
5564        $self->{next_input_character} = ord substr $$s, $i++, 1;        $p->{column}++;
5565        $column++;  
5566          if ($self->{nc} == 0x000A) { # LF
5567        if ($self->{next_input_character} == 0x000A) { # LF          $p->{line}++;
5568          $line++;          $p->{column} = 0;
5569          $column = 0;          !!!cp ('i1');
5570        } elsif ($self->{next_input_character} == 0x000D) { # CR        } elsif ($self->{nc} == 0x000D) { # CR
5571          $i++ if substr ($$s, $i, 1) eq "\x0A";  ## TODO: support for abort/streaming
5572          $self->{next_input_character} = 0x000A; # LF # MUST          my $next = '';
5573          $line++;          if ($input->read ($next, 1) and $next ne "\x0A") {
5574          $column = 0;            $self->{next_nc} = $next;
5575        } elsif ($self->{next_input_character} > 0x10FFFF) {          }
5576          $self->{next_input_character} = 0xFFFD; # REPLACEMENT CHARACTER # MUST          $self->{nc} = 0x000A; # LF # MUST
5577        } elsif ($self->{next_input_character} == 0x0000) { # NULL          $p->{line}++;
5578            $p->{column} = 0;
5579            !!!cp ('i2');
5580          } elsif ($self->{nc} == 0x0000) { # NULL
5581            !!!cp ('i4');
5582          !!!parse-error (type => 'NULL');          !!!parse-error (type => 'NULL');
5583          $self->{next_input_character} = 0xFFFD; # REPLACEMENT CHARACTER # MUST          $self->{nc} = 0xFFFD; # REPLACEMENT CHARACTER # MUST
5584        }        }
5585      };      };
5586      $p->{prev_input_character} = [-1, -1, -1];  
5587      $p->{next_input_character} = -1;      $p->{read_until} = sub {
5588              #my ($scalar, $specials_range, $offset) = @_;
5589          return 0 if defined $p->{next_nc};
5590    
5591          my $pattern = qr/[^$_[1]\x00\x0A\x0D]/;
5592          my $offset = $_[2] || 0;
5593          
5594          if ($p->{char_buffer_pos} < length $p->{char_buffer}) {
5595            pos ($p->{char_buffer}) = $p->{char_buffer_pos};
5596            if ($p->{char_buffer} =~ /\G(?>$pattern)+/) {
5597              substr ($_[0], $offset)
5598                  = substr ($p->{char_buffer}, $-[0], $+[0] - $-[0]);
5599              my $count = $+[0] - $-[0];
5600              if ($count) {
5601                $p->{column} += $count;
5602                $p->{char_buffer_pos} += $count;
5603                $p->{line_prev} = $p->{line};
5604                $p->{column_prev} = $p->{column} - 1;
5605                $p->{nc} = -1;
5606              }
5607              return $count;
5608            } else {
5609              return 0;
5610            }
5611          } else {
5612            my $count = $input->manakai_read_until ($_[0], $pattern, $_[2]);
5613            if ($count) {
5614              $p->{column} += $count;
5615              $p->{column_prev} += $count;
5616              $p->{nc} = -1;
5617            }
5618            return $count;
5619          }
5620        }; # $p->{read_until}
5621    
5622      my $ponerror = $onerror || sub {      my $ponerror = $onerror || sub {
5623        my (%opt) = @_;        my (%opt) = @_;
5624        warn "Parse error ($opt{type}) at line $opt{line} column $opt{column}\n";        my $line = $opt{line};
5625          my $column = $opt{column};
5626          if (defined $opt{token} and defined $opt{token}->{line}) {
5627            $line = $opt{token}->{line};
5628            $column = $opt{token}->{column};
5629          }
5630          warn "Parse error ($opt{type}) at line $line column $column\n";
5631      };      };
5632      $p->{parse_error} = sub {      $p->{parse_error} = sub {
5633        $ponerror->(@_, line => $line, column => $column);        $ponerror->(line => $p->{line}, column => $p->{column}, @_);
5634      };      };
5635            
5636        my $char_onerror = sub {
5637          my (undef, $type, %opt) = @_;
5638          $ponerror->(layer => 'encode',
5639                      line => $p->{line}, column => $p->{column} + 1,
5640                      %opt, type => $type);
5641        }; # $char_onerror
5642        $input->onerror ($char_onerror);
5643    
5644      $p->_initialize_tokenizer;      $p->_initialize_tokenizer;
5645      $p->_initialize_tree_constructor;      $p->_initialize_tree_constructor;
5646    
5647      ## Step 2      ## F4. If /context/ is not undef...
5648      my $node_ln = $node->local_name;  
5649        ## F4.1. content model flag
5650        my $node_ln = $node->manakai_local_name;
5651      $p->{content_model} = {      $p->{content_model} = {
5652        title => RCDATA_CONTENT_MODEL,        title => RCDATA_CONTENT_MODEL,
5653        textarea => RCDATA_CONTENT_MODEL,        textarea => RCDATA_CONTENT_MODEL,
# Line 5231  sub set_inner_html ($$$) { Line 5662  sub set_inner_html ($$$) {
5662      }->{$node_ln};      }->{$node_ln};
5663      $p->{content_model} = PCDATA_CONTENT_MODEL      $p->{content_model} = PCDATA_CONTENT_MODEL
5664          unless defined $p->{content_model};          unless defined $p->{content_model};
         ## ISSUE: What is "the name of the element"? local name?  
5665    
5666      $p->{inner_html_node} = [$node, $node_ln];      $p->{inner_html_node} = [$node, $el_category->{$node_ln}];
5667          ## TODO: Foreign element OK?
5668    
5669      ## Step 4      ## F4.2. Root |html| element
5670      my $root = $doc->create_element_ns      my $root = $doc->create_element_ns
5671        ('http://www.w3.org/1999/xhtml', [undef, 'html']);        ('http://www.w3.org/1999/xhtml', [undef, 'html']);
5672    
5673      ## Step 5 # MUST      ## F4.3.
5674      $doc->append_child ($root);      $doc->append_child ($root);
5675    
5676      ## Step 6 # MUST      ## F4.4.
5677      push @{$p->{open_elements}}, [$root, 'html'];      push @{$p->{open_elements}}, [$root, $el_category->{html}];
5678    
5679      undef $p->{head_element};      undef $p->{head_element};
5680        undef $p->{head_element_inserted};
5681    
5682      ## Step 7 # MUST      ## F4.5.
5683      $p->_reset_insertion_mode;      $p->_reset_insertion_mode;
5684    
5685      ## Step 8 # MUST      ## F4.6.
5686      my $anode = $node;      my $anode = $node;
5687      AN: while (defined $anode) {      AN: while (defined $anode) {
5688        if ($anode->node_type == 1) {        if ($anode->node_type == 1) {
5689          my $nsuri = $anode->namespace_uri;          my $nsuri = $anode->namespace_uri;
5690          if (defined $nsuri and $nsuri eq 'http://www.w3.org/1999/xhtml') {          if (defined $nsuri and $nsuri eq 'http://www.w3.org/1999/xhtml') {
5691            if ($anode->local_name eq 'form') { ## TODO: case?            if ($anode->manakai_local_name eq 'form') {
5692                !!!cp ('i5');
5693              $p->{form_element} = $anode;              $p->{form_element} = $anode;
5694              last AN;              last AN;
5695            }            }
# Line 5264  sub set_inner_html ($$$) { Line 5697  sub set_inner_html ($$$) {
5697        }        }
5698        $anode = $anode->parent_node;        $anode = $anode->parent_node;
5699      } # AN      } # AN
5700        
5701      ## Step 3 # MUST      ## F.5. Set the input stream.
5702      ## Step 10 # MUST      $p->{confident} = 1; ## Confident: irrelevant.
5703    
5704        ## F.6. Start the parser.
5705      {      {
5706        my $self = $p;        my $self = $p;
5707        !!!next-token;        !!!next-token;
5708      }      }
5709      $p->_tree_construction_main;      $p->_tree_construction_main;
5710    
5711      ## Step 11 # MUST      ## F.7.
5712      my @cn = @{$node->child_nodes};      my @cn = @{$node->child_nodes};
5713      for (@cn) {      for (@cn) {
5714        $node->remove_child ($_);        $node->remove_child ($_);
5715      }      }
5716      ## ISSUE: mutation events? read-only?      ## ISSUE: mutation events? read-only?
5717    
5718      ## Step 12 # MUST      ## Step 11 # MUST
5719      @cn = @{$root->child_nodes};      @cn = @{$root->child_nodes};
5720      for (@cn) {      for (@cn) {
5721        $this_doc->adopt_node ($_);        $this_doc->adopt_node ($_);
# Line 5289  sub set_inner_html ($$$) { Line 5724  sub set_inner_html ($$$) {
5724      ## ISSUE: mutation events?      ## ISSUE: mutation events?
5725    
5726      $p->_terminate_tree_constructor;      $p->_terminate_tree_constructor;
5727    
5728        delete $p->{parse_error}; # delete loop
5729    } else {    } else {
5730      die "$0: |set_inner_html| is not defined for node of type $nt";      die "$0: |set_inner_html| is not defined for node of type $nt";
5731    }    }
# Line 5296  sub set_inner_html ($$$) { Line 5733  sub set_inner_html ($$$) {
5733    
5734  } # tree construction stage  } # tree construction stage
5735    
5736  sub get_inner_html ($$$) {  package Whatpm::HTML::RestartParser;
5737    my (undef, $node, $on_error) = @_;  push our @ISA, 'Error';
   
   ## Step 1  
   my $s = '';  
   
   my $in_cdata;  
   my $parent = $node;  
   while (defined $parent) {  
     if ($parent->node_type == 1 and  
         $parent->namespace_uri eq 'http://www.w3.org/1999/xhtml' and  
         {  
           style => 1, script => 1, xmp => 1, iframe => 1,  
           noembed => 1, noframes => 1, noscript => 1,  
         }->{$parent->local_name}) { ## TODO: case thingy  
       $in_cdata = 1;  
     }  
     $parent = $parent->parent_node;  
   }  
   
   ## Step 2  
   my @node = @{$node->child_nodes};  
   C: while (@node) {  
     my $child = shift @node;  
     unless (ref $child) {  
       if ($child eq 'cdata-out') {  
         $in_cdata = 0;  
       } else {  
         $s .= $child; # end tag  
       }  
       next C;  
     }  
       
     my $nt = $child->node_type;  
     if ($nt == 1) { # Element  
       my $tag_name = $child->tag_name; ## TODO: manakai_tag_name  
       $s .= '<' . $tag_name;  
       ## NOTE: Non-HTML case:  
       ## <http://permalink.gmane.org/gmane.org.w3c.whatwg.discuss/11191>  
   
       my @attrs = @{$child->attributes}; # sort order MUST be stable  
       for my $attr (@attrs) { # order is implementation dependent  
         my $attr_name = $attr->name; ## TODO: manakai_name  
         $s .= ' ' . $attr_name . '="';  
         my $attr_value = $attr->value;  
         ## escape  
         $attr_value =~ s/&/&amp;/g;  
         $attr_value =~ s/</&lt;/g;  
         $attr_value =~ s/>/&gt;/g;  
         $attr_value =~ s/"/&quot;/g;  
         $s .= $attr_value . '"';  
       }  
       $s .= '>';  
         
       next C if {  
         area => 1, base => 1, basefont => 1, bgsound => 1,  
         br => 1, col => 1, embed => 1, frame => 1, hr => 1,  
         img => 1, input => 1, link => 1, meta => 1, param => 1,  
         spacer => 1, wbr => 1,  
       }->{$tag_name};  
   
       $s .= "\x0A" if $tag_name eq 'pre' or $tag_name eq 'textarea';  
   
       if (not $in_cdata and {  
         style => 1, script => 1, xmp => 1, iframe => 1,  
         noembed => 1, noframes => 1, noscript => 1,  
         plaintext => 1,  
       }->{$tag_name}) {  
         unshift @node, 'cdata-out';  
         $in_cdata = 1;  
       }  
   
       unshift @node, @{$child->child_nodes}, '</' . $tag_name . '>';  
     } elsif ($nt == 3 or $nt == 4) {  
       if ($in_cdata) {  
         $s .= $child->data;  
       } else {  
         my $value = $child->data;  
         $value =~ s/&/&amp;/g;  
         $value =~ s/</&lt;/g;  
         $value =~ s/>/&gt;/g;  
         $value =~ s/"/&quot;/g;  
         $s .= $value;  
       }  
     } elsif ($nt == 8) {  
       $s .= '<!--' . $child->data . '-->';  
     } elsif ($nt == 10) {  
       $s .= '<!DOCTYPE ' . $child->name . '>';  
     } elsif ($nt == 5) { # entrefs  
       push @node, @{$child->child_nodes};  
     } else {  
       $on_error->($child) if defined $on_error;  
     }  
     ## ISSUE: This code does not support PIs.  
   } # C  
     
   ## Step 3  
   return \$s;  
 } # get_inner_html  
5738    
5739  1;  1;
5740  # $Date$  # $Date$

Legend:
Removed from v.1.56  
changed lines
  Added in v.1.243

admin@suikawiki.org
ViewVC Help
Powered by ViewVC 1.1.24