/[suikacvs]/markup/html/whatpm/Whatpm/HTML.pm.src
Suika

Diff of /markup/html/whatpm/Whatpm/HTML.pm.src

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 1.6 by wakaba, Sat May 26 08:12:34 2007 UTC revision 1.188 by wakaba, Sat Sep 20 10:20:47 2008 UTC
# Line 1  Line 1 
1  package Whatpm::HTML;  package Whatpm::HTML;
2  use strict;  use strict;
3  our $VERSION=do{my @r=(q$Revision$=~/\d+/g);sprintf "%d."."%02d" x $#r,@r};  our $VERSION=do{my @r=(q$Revision$=~/\d+/g);sprintf "%d."."%02d" x $#r,@r};
4    use Error qw(:try);
5    
6  ## This is an early version of an HTML parser.  ## NOTE: This module don't check all HTML5 parse errors; character
7    ## encoding related parse errors are expected to be handled by relevant
8    ## modules.
9    ## Parse errors for control characters that are not allowed in HTML5
10    ## documents, for surrogate code points, and for noncharacter code
11    ## points, as well as U+FFFD substitions for characters whose code points
12    ## is higher than U+10FFFF may be detected by combining the parser with
13    ## the checker implemented by Whatpm::Charset::UnicodeChecker (for its
14    ## usage example, see |t/HTML-tree.t| in the Whatpm package or the
15    ## WebHACC::Language::HTML module in the WebHACC package).
16    
17    ## ISSUE:
18    ## var doc = implementation.createDocument (null, null, null);
19    ## doc.write ('');
20    ## alert (doc.compatMode);
21    
22    require IO::Handle;
23    
24    my $HTML_NS = q<http://www.w3.org/1999/xhtml>;
25    my $MML_NS = q<http://www.w3.org/1998/Math/MathML>;
26    my $SVG_NS = q<http://www.w3.org/2000/svg>;
27    my $XLINK_NS = q<http://www.w3.org/1999/xlink>;
28    my $XML_NS = q<http://www.w3.org/XML/1998/namespace>;
29    my $XMLNS_NS = q<http://www.w3.org/2000/xmlns/>;
30    
31    sub A_EL () { 0b1 }
32    sub ADDRESS_EL () { 0b10 }
33    sub BODY_EL () { 0b100 }
34    sub BUTTON_EL () { 0b1000 }
35    sub CAPTION_EL () { 0b10000 }
36    sub DD_EL () { 0b100000 }
37    sub DIV_EL () { 0b1000000 }
38    sub DT_EL () { 0b10000000 }
39    sub FORM_EL () { 0b100000000 }
40    sub FORMATTING_EL () { 0b1000000000 }
41    sub FRAMESET_EL () { 0b10000000000 }
42    sub HEADING_EL () { 0b100000000000 }
43    sub HTML_EL () { 0b1000000000000 }
44    sub LI_EL () { 0b10000000000000 }
45    sub NOBR_EL () { 0b100000000000000 }
46    sub OPTION_EL () { 0b1000000000000000 }
47    sub OPTGROUP_EL () { 0b10000000000000000 }
48    sub P_EL () { 0b100000000000000000 }
49    sub SELECT_EL () { 0b1000000000000000000 }
50    sub TABLE_EL () { 0b10000000000000000000 }
51    sub TABLE_CELL_EL () { 0b100000000000000000000 }
52    sub TABLE_ROW_EL () { 0b1000000000000000000000 }
53    sub TABLE_ROW_GROUP_EL () { 0b10000000000000000000000 }
54    sub MISC_SCOPING_EL () { 0b100000000000000000000000 }
55    sub MISC_SPECIAL_EL () { 0b1000000000000000000000000 }
56    sub FOREIGN_EL () { 0b10000000000000000000000000 }
57    sub FOREIGN_FLOW_CONTENT_EL () { 0b100000000000000000000000000 }
58    sub MML_AXML_EL () { 0b1000000000000000000000000000 }
59    sub RUBY_EL () { 0b10000000000000000000000000000 }
60    sub RUBY_COMPONENT_EL () { 0b100000000000000000000000000000 }
61    
62    sub TABLE_ROWS_EL () {
63      TABLE_EL |
64      TABLE_ROW_EL |
65      TABLE_ROW_GROUP_EL
66    }
67    
68    ## NOTE: Used in "generate implied end tags" algorithm.
69    ## NOTE: There is a code where a modified version of END_TAG_OPTIONAL_EL
70    ## is used in "generate implied end tags" implementation (search for the
71    ## function mae).
72    sub END_TAG_OPTIONAL_EL () {
73      DD_EL |
74      DT_EL |
75      LI_EL |
76      P_EL |
77      RUBY_COMPONENT_EL
78    }
79    
80    ## NOTE: Used in </body> and EOF algorithms.
81    sub ALL_END_TAG_OPTIONAL_EL () {
82      DD_EL |
83      DT_EL |
84      LI_EL |
85      P_EL |
86    
87      BODY_EL |
88      HTML_EL |
89      TABLE_CELL_EL |
90      TABLE_ROW_EL |
91      TABLE_ROW_GROUP_EL
92    }
93    
94    sub SCOPING_EL () {
95      BUTTON_EL |
96      CAPTION_EL |
97      HTML_EL |
98      TABLE_EL |
99      TABLE_CELL_EL |
100      MISC_SCOPING_EL
101    }
102    
103    sub TABLE_SCOPING_EL () {
104      HTML_EL |
105      TABLE_EL
106    }
107    
108    sub TABLE_ROWS_SCOPING_EL () {
109      HTML_EL |
110      TABLE_ROW_GROUP_EL
111    }
112    
113    sub TABLE_ROW_SCOPING_EL () {
114      HTML_EL |
115      TABLE_ROW_EL
116    }
117    
118    sub SPECIAL_EL () {
119      ADDRESS_EL |
120      BODY_EL |
121      DIV_EL |
122    
123      DD_EL |
124      DT_EL |
125      LI_EL |
126      P_EL |
127    
128      FORM_EL |
129      FRAMESET_EL |
130      HEADING_EL |
131      OPTION_EL |
132      OPTGROUP_EL |
133      SELECT_EL |
134      TABLE_ROW_EL |
135      TABLE_ROW_GROUP_EL |
136      MISC_SPECIAL_EL
137    }
138    
139    my $el_category = {
140      a => A_EL | FORMATTING_EL,
141      address => ADDRESS_EL,
142      applet => MISC_SCOPING_EL,
143      area => MISC_SPECIAL_EL,
144      b => FORMATTING_EL,
145      base => MISC_SPECIAL_EL,
146      basefont => MISC_SPECIAL_EL,
147      bgsound => MISC_SPECIAL_EL,
148      big => FORMATTING_EL,
149      blockquote => MISC_SPECIAL_EL,
150      body => BODY_EL,
151      br => MISC_SPECIAL_EL,
152      button => BUTTON_EL,
153      caption => CAPTION_EL,
154      center => MISC_SPECIAL_EL,
155      col => MISC_SPECIAL_EL,
156      colgroup => MISC_SPECIAL_EL,
157      dd => DD_EL,
158      dir => MISC_SPECIAL_EL,
159      div => DIV_EL,
160      dl => MISC_SPECIAL_EL,
161      dt => DT_EL,
162      em => FORMATTING_EL,
163      embed => MISC_SPECIAL_EL,
164      fieldset => MISC_SPECIAL_EL,
165      font => FORMATTING_EL,
166      form => FORM_EL,
167      frame => MISC_SPECIAL_EL,
168      frameset => FRAMESET_EL,
169      h1 => HEADING_EL,
170      h2 => HEADING_EL,
171      h3 => HEADING_EL,
172      h4 => HEADING_EL,
173      h5 => HEADING_EL,
174      h6 => HEADING_EL,
175      head => MISC_SPECIAL_EL,
176      hr => MISC_SPECIAL_EL,
177      html => HTML_EL,
178      i => FORMATTING_EL,
179      iframe => MISC_SPECIAL_EL,
180      img => MISC_SPECIAL_EL,
181      input => MISC_SPECIAL_EL,
182      isindex => MISC_SPECIAL_EL,
183      li => LI_EL,
184      link => MISC_SPECIAL_EL,
185      listing => MISC_SPECIAL_EL,
186      marquee => MISC_SCOPING_EL,
187      menu => MISC_SPECIAL_EL,
188      meta => MISC_SPECIAL_EL,
189      nobr => NOBR_EL | FORMATTING_EL,
190      noembed => MISC_SPECIAL_EL,
191      noframes => MISC_SPECIAL_EL,
192      noscript => MISC_SPECIAL_EL,
193      object => MISC_SCOPING_EL,
194      ol => MISC_SPECIAL_EL,
195      optgroup => OPTGROUP_EL,
196      option => OPTION_EL,
197      p => P_EL,
198      param => MISC_SPECIAL_EL,
199      plaintext => MISC_SPECIAL_EL,
200      pre => MISC_SPECIAL_EL,
201      rp => RUBY_COMPONENT_EL,
202      rt => RUBY_COMPONENT_EL,
203      ruby => RUBY_EL,
204      s => FORMATTING_EL,
205      script => MISC_SPECIAL_EL,
206      select => SELECT_EL,
207      small => FORMATTING_EL,
208      spacer => MISC_SPECIAL_EL,
209      strike => FORMATTING_EL,
210      strong => FORMATTING_EL,
211      style => MISC_SPECIAL_EL,
212      table => TABLE_EL,
213      tbody => TABLE_ROW_GROUP_EL,
214      td => TABLE_CELL_EL,
215      textarea => MISC_SPECIAL_EL,
216      tfoot => TABLE_ROW_GROUP_EL,
217      th => TABLE_CELL_EL,
218      thead => TABLE_ROW_GROUP_EL,
219      title => MISC_SPECIAL_EL,
220      tr => TABLE_ROW_EL,
221      tt => FORMATTING_EL,
222      u => FORMATTING_EL,
223      ul => MISC_SPECIAL_EL,
224      wbr => MISC_SPECIAL_EL,
225    };
226    
227    my $el_category_f = {
228      $MML_NS => {
229        'annotation-xml' => MML_AXML_EL,
230        mi => FOREIGN_FLOW_CONTENT_EL,
231        mo => FOREIGN_FLOW_CONTENT_EL,
232        mn => FOREIGN_FLOW_CONTENT_EL,
233        ms => FOREIGN_FLOW_CONTENT_EL,
234        mtext => FOREIGN_FLOW_CONTENT_EL,
235      },
236      $SVG_NS => {
237        foreignObject => FOREIGN_FLOW_CONTENT_EL,
238        desc => FOREIGN_FLOW_CONTENT_EL,
239        title => FOREIGN_FLOW_CONTENT_EL,
240      },
241      ## NOTE: In addition, FOREIGN_EL is set to non-HTML elements.
242    };
243    
244  my $permitted_slash_tag_name = {  my $svg_attr_name = {
245    base => 1,    attributename => 'attributeName',
246    link => 1,    attributetype => 'attributeType',
247    meta => 1,    basefrequency => 'baseFrequency',
248    hr => 1,    baseprofile => 'baseProfile',
249    br => 1,    calcmode => 'calcMode',
250    img=> 1,    clippathunits => 'clipPathUnits',
251    embed => 1,    contentscripttype => 'contentScriptType',
252    param => 1,    contentstyletype => 'contentStyleType',
253    area => 1,    diffuseconstant => 'diffuseConstant',
254    col => 1,    edgemode => 'edgeMode',
255    input => 1,    externalresourcesrequired => 'externalResourcesRequired',
256      filterres => 'filterRes',
257      filterunits => 'filterUnits',
258      glyphref => 'glyphRef',
259      gradienttransform => 'gradientTransform',
260      gradientunits => 'gradientUnits',
261      kernelmatrix => 'kernelMatrix',
262      kernelunitlength => 'kernelUnitLength',
263      keypoints => 'keyPoints',
264      keysplines => 'keySplines',
265      keytimes => 'keyTimes',
266      lengthadjust => 'lengthAdjust',
267      limitingconeangle => 'limitingConeAngle',
268      markerheight => 'markerHeight',
269      markerunits => 'markerUnits',
270      markerwidth => 'markerWidth',
271      maskcontentunits => 'maskContentUnits',
272      maskunits => 'maskUnits',
273      numoctaves => 'numOctaves',
274      pathlength => 'pathLength',
275      patterncontentunits => 'patternContentUnits',
276      patterntransform => 'patternTransform',
277      patternunits => 'patternUnits',
278      pointsatx => 'pointsAtX',
279      pointsaty => 'pointsAtY',
280      pointsatz => 'pointsAtZ',
281      preservealpha => 'preserveAlpha',
282      preserveaspectratio => 'preserveAspectRatio',
283      primitiveunits => 'primitiveUnits',
284      refx => 'refX',
285      refy => 'refY',
286      repeatcount => 'repeatCount',
287      repeatdur => 'repeatDur',
288      requiredextensions => 'requiredExtensions',
289      requiredfeatures => 'requiredFeatures',
290      specularconstant => 'specularConstant',
291      specularexponent => 'specularExponent',
292      spreadmethod => 'spreadMethod',
293      startoffset => 'startOffset',
294      stddeviation => 'stdDeviation',
295      stitchtiles => 'stitchTiles',
296      surfacescale => 'surfaceScale',
297      systemlanguage => 'systemLanguage',
298      tablevalues => 'tableValues',
299      targetx => 'targetX',
300      targety => 'targetY',
301      textlength => 'textLength',
302      viewbox => 'viewBox',
303      viewtarget => 'viewTarget',
304      xchannelselector => 'xChannelSelector',
305      ychannelselector => 'yChannelSelector',
306      zoomandpan => 'zoomAndPan',
307  };  };
308    
309  my $entity_char = {  my $foreign_attr_xname = {
310    AElig => "\x{00C6}",    'xlink:actuate' => [$XLINK_NS, ['xlink', 'actuate']],
311    Aacute => "\x{00C1}",    'xlink:arcrole' => [$XLINK_NS, ['xlink', 'arcrole']],
312    Acirc => "\x{00C2}",    'xlink:href' => [$XLINK_NS, ['xlink', 'href']],
313    Agrave => "\x{00C0}",    'xlink:role' => [$XLINK_NS, ['xlink', 'role']],
314    Alpha => "\x{0391}",    'xlink:show' => [$XLINK_NS, ['xlink', 'show']],
315    Aring => "\x{00C5}",    'xlink:title' => [$XLINK_NS, ['xlink', 'title']],
316    Atilde => "\x{00C3}",    'xlink:type' => [$XLINK_NS, ['xlink', 'type']],
317    Auml => "\x{00C4}",    'xml:base' => [$XML_NS, ['xml', 'base']],
318    Beta => "\x{0392}",    'xml:lang' => [$XML_NS, ['xml', 'lang']],
319    Ccedil => "\x{00C7}",    'xml:space' => [$XML_NS, ['xml', 'space']],
320    Chi => "\x{03A7}",    'xmlns' => [$XMLNS_NS, [undef, 'xmlns']],
321    Dagger => "\x{2021}",    'xmlns:xlink' => [$XMLNS_NS, ['xmlns', 'xlink']],
322    Delta => "\x{0394}",  };
323    ETH => "\x{00D0}",  
324    Eacute => "\x{00C9}",  ## ISSUE: xmlns:xlink="non-xlink-ns" is not an error.
   Ecirc => "\x{00CA}",  
   Egrave => "\x{00C8}",  
   Epsilon => "\x{0395}",  
   Eta => "\x{0397}",  
   Euml => "\x{00CB}",  
   Gamma => "\x{0393}",  
   Iacute => "\x{00CD}",  
   Icirc => "\x{00CE}",  
   Igrave => "\x{00CC}",  
   Iota => "\x{0399}",  
   Iuml => "\x{00CF}",  
   Kappa => "\x{039A}",  
   Lambda => "\x{039B}",  
   Mu => "\x{039C}",  
   Ntilde => "\x{00D1}",  
   Nu => "\x{039D}",  
   OElig => "\x{0152}",  
   Oacute => "\x{00D3}",  
   Ocirc => "\x{00D4}",  
   Ograve => "\x{00D2}",  
   Omega => "\x{03A9}",  
   Omicron => "\x{039F}",  
   Oslash => "\x{00D8}",  
   Otilde => "\x{00D5}",  
   Ouml => "\x{00D6}",  
   Phi => "\x{03A6}",  
   Pi => "\x{03A0}",  
   Prime => "\x{2033}",  
   Psi => "\x{03A8}",  
   Rho => "\x{03A1}",  
   Scaron => "\x{0160}",  
   Sigma => "\x{03A3}",  
   THORN => "\x{00DE}",  
   Tau => "\x{03A4}",  
   Theta => "\x{0398}",  
   Uacute => "\x{00DA}",  
   Ucirc => "\x{00DB}",  
   Ugrave => "\x{00D9}",  
   Upsilon => "\x{03A5}",  
   Uuml => "\x{00DC}",  
   Xi => "\x{039E}",  
   Yacute => "\x{00DD}",  
   Yuml => "\x{0178}",  
   Zeta => "\x{0396}",  
   aacute => "\x{00E1}",  
   acirc => "\x{00E2}",  
   acute => "\x{00B4}",  
   aelig => "\x{00E6}",  
   agrave => "\x{00E0}",  
   alefsym => "\x{2135}",  
   alpha => "\x{03B1}",  
   amp => "\x{0026}",  
   AMP => "\x{0026}",  
   and => "\x{2227}",  
   ang => "\x{2220}",  
   apos => "\x{0027}",  
   aring => "\x{00E5}",  
   asymp => "\x{2248}",  
   atilde => "\x{00E3}",  
   auml => "\x{00E4}",  
   bdquo => "\x{201E}",  
   beta => "\x{03B2}",  
   brvbar => "\x{00A6}",  
   bull => "\x{2022}",  
   cap => "\x{2229}",  
   ccedil => "\x{00E7}",  
   cedil => "\x{00B8}",  
   cent => "\x{00A2}",  
   chi => "\x{03C7}",  
   circ => "\x{02C6}",  
   clubs => "\x{2663}",  
   cong => "\x{2245}",  
   copy => "\x{00A9}",  
   COPY => "\x{00A9}",  
   crarr => "\x{21B5}",  
   cup => "\x{222A}",  
   curren => "\x{00A4}",  
   dArr => "\x{21D3}",  
   dagger => "\x{2020}",  
   darr => "\x{2193}",  
   deg => "\x{00B0}",  
   delta => "\x{03B4}",  
   diams => "\x{2666}",  
   divide => "\x{00F7}",  
   eacute => "\x{00E9}",  
   ecirc => "\x{00EA}",  
   egrave => "\x{00E8}",  
   empty => "\x{2205}",  
   emsp => "\x{2003}",  
   ensp => "\x{2002}",  
   epsilon => "\x{03B5}",  
   equiv => "\x{2261}",  
   eta => "\x{03B7}",  
   eth => "\x{00F0}",  
   euml => "\x{00EB}",  
   euro => "\x{20AC}",  
   exist => "\x{2203}",  
   fnof => "\x{0192}",  
   forall => "\x{2200}",  
   frac12 => "\x{00BD}",  
   frac14 => "\x{00BC}",  
   frac34 => "\x{00BE}",  
   frasl => "\x{2044}",  
   gamma => "\x{03B3}",  
   ge => "\x{2265}",  
   gt => "\x{003E}",  
   GT => "\x{003E}",  
   hArr => "\x{21D4}",  
   harr => "\x{2194}",  
   hearts => "\x{2665}",  
   hellip => "\x{2026}",  
   iacute => "\x{00ED}",  
   icirc => "\x{00EE}",  
   iexcl => "\x{00A1}",  
   igrave => "\x{00EC}",  
   image => "\x{2111}",  
   infin => "\x{221E}",  
   int => "\x{222B}",  
   iota => "\x{03B9}",  
   iquest => "\x{00BF}",  
   isin => "\x{2208}",  
   iuml => "\x{00EF}",  
   kappa => "\x{03BA}",  
   lArr => "\x{21D0}",  
   lambda => "\x{03BB}",  
   lang => "\x{2329}",  
   laquo => "\x{00AB}",  
   larr => "\x{2190}",  
   lceil => "\x{2308}",  
   ldquo => "\x{201C}",  
   le => "\x{2264}",  
   lfloor => "\x{230A}",  
   lowast => "\x{2217}",  
   loz => "\x{25CA}",  
   lrm => "\x{200E}",  
   lsaquo => "\x{2039}",  
   lsquo => "\x{2018}",  
   lt => "\x{003C}",  
   LT => "\x{003C}",  
   macr => "\x{00AF}",  
   mdash => "\x{2014}",  
   micro => "\x{00B5}",  
   middot => "\x{00B7}",  
   minus => "\x{2212}",  
   mu => "\x{03BC}",  
   nabla => "\x{2207}",  
   nbsp => "\x{00A0}",  
   ndash => "\x{2013}",  
   ne => "\x{2260}",  
   ni => "\x{220B}",  
   not => "\x{00AC}",  
   notin => "\x{2209}",  
   nsub => "\x{2284}",  
   ntilde => "\x{00F1}",  
   nu => "\x{03BD}",  
   oacute => "\x{00F3}",  
   ocirc => "\x{00F4}",  
   oelig => "\x{0153}",  
   ograve => "\x{00F2}",  
   oline => "\x{203E}",  
   omega => "\x{03C9}",  
   omicron => "\x{03BF}",  
   oplus => "\x{2295}",  
   or => "\x{2228}",  
   ordf => "\x{00AA}",  
   ordm => "\x{00BA}",  
   oslash => "\x{00F8}",  
   otilde => "\x{00F5}",  
   otimes => "\x{2297}",  
   ouml => "\x{00F6}",  
   para => "\x{00B6}",  
   part => "\x{2202}",  
   permil => "\x{2030}",  
   perp => "\x{22A5}",  
   phi => "\x{03C6}",  
   pi => "\x{03C0}",  
   piv => "\x{03D6}",  
   plusmn => "\x{00B1}",  
   pound => "\x{00A3}",  
   prime => "\x{2032}",  
   prod => "\x{220F}",  
   prop => "\x{221D}",  
   psi => "\x{03C8}",  
   quot => "\x{0022}",  
   QUOT => "\x{0022}",  
   rArr => "\x{21D2}",  
   radic => "\x{221A}",  
   rang => "\x{232A}",  
   raquo => "\x{00BB}",  
   rarr => "\x{2192}",  
   rceil => "\x{2309}",  
   rdquo => "\x{201D}",  
   real => "\x{211C}",  
   reg => "\x{00AE}",  
   REG => "\x{00AE}",  
   rfloor => "\x{230B}",  
   rho => "\x{03C1}",  
   rlm => "\x{200F}",  
   rsaquo => "\x{203A}",  
   rsquo => "\x{2019}",  
   sbquo => "\x{201A}",  
   scaron => "\x{0161}",  
   sdot => "\x{22C5}",  
   sect => "\x{00A7}",  
   shy => "\x{00AD}",  
   sigma => "\x{03C3}",  
   sigmaf => "\x{03C2}",  
   sim => "\x{223C}",  
   spades => "\x{2660}",  
   sub => "\x{2282}",  
   sube => "\x{2286}",  
   sum => "\x{2211}",  
   sup => "\x{2283}",  
   sup1 => "\x{00B9}",  
   sup2 => "\x{00B2}",  
   sup3 => "\x{00B3}",  
   supe => "\x{2287}",  
   szlig => "\x{00DF}",  
   tau => "\x{03C4}",  
   there4 => "\x{2234}",  
   theta => "\x{03B8}",  
   thetasym => "\x{03D1}",  
   thinsp => "\x{2009}",  
   thorn => "\x{00FE}",  
   tilde => "\x{02DC}",  
   times => "\x{00D7}",  
   trade => "\x{2122}",  
   uArr => "\x{21D1}",  
   uacute => "\x{00FA}",  
   uarr => "\x{2191}",  
   ucirc => "\x{00FB}",  
   ugrave => "\x{00F9}",  
   uml => "\x{00A8}",  
   upsih => "\x{03D2}",  
   upsilon => "\x{03C5}",  
   uuml => "\x{00FC}",  
   weierp => "\x{2118}",  
   xi => "\x{03BE}",  
   yacute => "\x{00FD}",  
   yen => "\x{00A5}",  
   yuml => "\x{00FF}",  
   zeta => "\x{03B6}",  
   zwj => "\x{200D}",  
   zwnj => "\x{200C}",  
 }; # $entity_char  
325    
 ## <http://lists.whatwg.org/pipermail/whatwg-whatwg.org/2006-December/thread.html#8562>  
326  my $c1_entity_char = {  my $c1_entity_char = {
327       128, 8364,    0x80 => 0x20AC,
328       129, 65533,    0x81 => 0xFFFD,
329       130, 8218,    0x82 => 0x201A,
330       131, 402,    0x83 => 0x0192,
331       132, 8222,    0x84 => 0x201E,
332       133, 8230,    0x85 => 0x2026,
333       134, 8224,    0x86 => 0x2020,
334       135, 8225,    0x87 => 0x2021,
335       136, 710,    0x88 => 0x02C6,
336       137, 8240,    0x89 => 0x2030,
337       138, 352,    0x8A => 0x0160,
338       139, 8249,    0x8B => 0x2039,
339       140, 338,    0x8C => 0x0152,
340       141, 65533,    0x8D => 0xFFFD,
341       142, 381,    0x8E => 0x017D,
342       143, 65533,    0x8F => 0xFFFD,
343       144, 65533,    0x90 => 0xFFFD,
344       145, 8216,    0x91 => 0x2018,
345       146, 8217,    0x92 => 0x2019,
346       147, 8220,    0x93 => 0x201C,
347       148, 8221,    0x94 => 0x201D,
348       149, 8226,    0x95 => 0x2022,
349       150, 8211,    0x96 => 0x2013,
350       151, 8212,    0x97 => 0x2014,
351       152, 732,    0x98 => 0x02DC,
352       153, 8482,    0x99 => 0x2122,
353       154, 353,    0x9A => 0x0161,
354       155, 8250,    0x9B => 0x203A,
355       156, 339,    0x9C => 0x0153,
356       157, 65533,    0x9D => 0xFFFD,
357       158, 382,    0x9E => 0x017E,
358       159, 376,    0x9F => 0x0178,
359  }; # $c1_entity_char  }; # $c1_entity_char
360    
361  my $special_category = {  sub parse_byte_string ($$$$;$) {
362    address => 1, area => 1, base => 1, basefont => 1, bgsound => 1,    my $self = shift;
363    blockquote => 1, body => 1, br => 1, center => 1, col => 1, colgroup => 1,    my $charset_name = shift;
364    dd => 1, dir => 1, div => 1, dl => 1, dt => 1, embed => 1, fieldset => 1,    open my $input, '<', ref $_[0] ? $_[0] : \($_[0]);
365    form => 1, frame => 1, frameset => 1, h1 => 1, h2 => 1, h3 => 1,    return $self->parse_byte_stream ($charset_name, $input, @_[1..$#_]);
366    h4 => 1, h5 => 1, h6 => 1, head => 1, hr => 1, iframe => 1, image => 1,  } # parse_byte_string
367    img => 1, input => 1, isindex => 1, li => 1, link => 1, listing => 1,  
368    menu => 1, meta => 1, noembed => 1, noframes => 1, noscript => 1,  sub parse_byte_stream ($$$$;$$) {
369    ol => 1, optgroup => 1, option => 1, p => 1, param => 1, plaintext => 1,    # my ($self, $charset_name, $byte_stream, $doc, $onerror, $get_wrapper) = @_;
370    pre => 1, script => 1, select => 1, spacer => 1, style => 1, tbody => 1,    my $self = ref $_[0] ? shift : shift->new;
371    textarea => 1, tfoot => 1, thead => 1, title => 1, tr => 1, ul => 1, wbr => 1,    my $charset_name = shift;
372  };    my $byte_stream = $_[0];
373  my $scoping_category = {  
374    button => 1, caption => 1, html => 1, marquee => 1, object => 1,    my $onerror = $_[2] || sub {
375    table => 1, td => 1, th => 1,      my (%opt) = @_;
376  };      warn "Parse error ($opt{type})\n";
377  my $formatting_category = {    };
378    a => 1, b => 1, big => 1, em => 1, font => 1, i => 1, nobr => 1,    $self->{parse_error} = $onerror; # updated later by parse_char_string
379    s => 1, small => 1, strile => 1, strong => 1, tt => 1, u => 1,  
380  };    my $get_wrapper = $_[3] || sub ($) {
381  # $phrasing_category: all other elements      return $_[0]; # $_[0] = byte stream handle, returned = arg to char handle
382      };
383    
384      ## HTML5 encoding sniffing algorithm
385      require Message::Charset::Info;
386      my $charset;
387      my $buffer;
388      my ($char_stream, $e_status);
389    
390      SNIFFING: {
391        ## NOTE: By setting |allow_fallback| option true when the
392        ## |get_decode_handle| method is invoked, we ignore what the HTML5
393        ## spec requires, i.e. unsupported encoding should be ignored.
394          ## TODO: We should not do this unless the parser is invoked
395          ## in the conformance checking mode, in which this behavior
396          ## would be useful.
397    
398        ## Step 1
399        if (defined $charset_name) {
400          $charset = Message::Charset::Info->get_by_html_name ($charset_name);
401              ## TODO: Is this ok?  Transfer protocol's parameter should be
402              ## interpreted in its semantics?
403    
404          ## ISSUE: Unsupported encoding is not ignored according to the spec.
405          ($char_stream, $e_status) = $charset->get_decode_handle
406              ($byte_stream, allow_error_reporting => 1,
407               allow_fallback => 1);
408          if ($char_stream) {
409            $self->{confident} = 1;
410            last SNIFFING;
411          } else {
412            ## TODO: unsupported error
413          }
414        }
415    
416        ## Step 2
417        my $byte_buffer = '';
418        for (1..1024) {
419          my $char = $byte_stream->getc;
420          last unless defined $char;
421          $byte_buffer .= $char;
422        } ## TODO: timeout
423    
424        ## Step 3
425        if ($byte_buffer =~ /^\xFE\xFF/) {
426          $charset = Message::Charset::Info->get_by_html_name ('utf-16be');
427          ($char_stream, $e_status) = $charset->get_decode_handle
428              ($byte_stream, allow_error_reporting => 1,
429               allow_fallback => 1, byte_buffer => \$byte_buffer);
430          $self->{confident} = 1;
431          last SNIFFING;
432        } elsif ($byte_buffer =~ /^\xFF\xFE/) {
433          $charset = Message::Charset::Info->get_by_html_name ('utf-16le');
434          ($char_stream, $e_status) = $charset->get_decode_handle
435              ($byte_stream, allow_error_reporting => 1,
436               allow_fallback => 1, byte_buffer => \$byte_buffer);
437          $self->{confident} = 1;
438          last SNIFFING;
439        } elsif ($byte_buffer =~ /^\xEF\xBB\xBF/) {
440          $charset = Message::Charset::Info->get_by_html_name ('utf-8');
441          ($char_stream, $e_status) = $charset->get_decode_handle
442              ($byte_stream, allow_error_reporting => 1,
443               allow_fallback => 1, byte_buffer => \$byte_buffer);
444          $self->{confident} = 1;
445          last SNIFFING;
446        }
447    
448        ## Step 4
449        ## TODO: <meta charset>
450    
451        ## Step 5
452        ## TODO: from history
453    
454        ## Step 6
455        require Whatpm::Charset::UniversalCharDet;
456        $charset_name = Whatpm::Charset::UniversalCharDet->detect_byte_string
457            ($byte_buffer);
458        if (defined $charset_name) {
459          $charset = Message::Charset::Info->get_by_html_name ($charset_name);
460    
461          ## ISSUE: Unsupported encoding is not ignored according to the spec.
462          require Whatpm::Charset::DecodeHandle;
463          $buffer = Whatpm::Charset::DecodeHandle::ByteBuffer->new
464              ($byte_stream);
465          ($char_stream, $e_status) = $charset->get_decode_handle
466              ($buffer, allow_error_reporting => 1,
467               allow_fallback => 1, byte_buffer => \$byte_buffer);
468          if ($char_stream) {
469            $buffer->{buffer} = $byte_buffer;
470            !!!parse-error (type => 'sniffing:chardet',
471                            text => $charset_name,
472                            level => $self->{level}->{info},
473                            layer => 'encode',
474                            line => 1, column => 1);
475            $self->{confident} = 0;
476            last SNIFFING;
477          }
478        }
479    
480        ## Step 7: default
481        ## TODO: Make this configurable.
482        $charset = Message::Charset::Info->get_by_html_name ('windows-1252');
483            ## NOTE: We choose |windows-1252| here, since |utf-8| should be
484            ## detectable in the step 6.
485        require Whatpm::Charset::DecodeHandle;
486        $buffer = Whatpm::Charset::DecodeHandle::ByteBuffer->new
487            ($byte_stream);
488        ($char_stream, $e_status)
489            = $charset->get_decode_handle ($buffer,
490                                           allow_error_reporting => 1,
491                                           allow_fallback => 1,
492                                           byte_buffer => \$byte_buffer);
493        $buffer->{buffer} = $byte_buffer;
494        !!!parse-error (type => 'sniffing:default',
495                        text => 'windows-1252',
496                        level => $self->{level}->{info},
497                        line => 1, column => 1,
498                        layer => 'encode');
499        $self->{confident} = 0;
500      } # SNIFFING
501    
502      if ($e_status & Message::Charset::Info::FALLBACK_ENCODING_IMPL ()) {
503        $self->{input_encoding} = $charset->get_iana_name; ## TODO: Should we set actual charset decoder's encoding name?
504        !!!parse-error (type => 'chardecode:fallback',
505                        #text => $self->{input_encoding},
506                        level => $self->{level}->{uncertain},
507                        line => 1, column => 1,
508                        layer => 'encode');
509      } elsif (not ($e_status &
510                    Message::Charset::Info::ERROR_REPORTING_ENCODING_IMPL ())) {
511        $self->{input_encoding} = $charset->get_iana_name;
512        !!!parse-error (type => 'chardecode:no error',
513                        text => $self->{input_encoding},
514                        level => $self->{level}->{uncertain},
515                        line => 1, column => 1,
516                        layer => 'encode');
517      } else {
518        $self->{input_encoding} = $charset->get_iana_name;
519      }
520    
521      $self->{change_encoding} = sub {
522        my $self = shift;
523        $charset_name = shift;
524        my $token = shift;
525    
526        $charset = Message::Charset::Info->get_by_html_name ($charset_name);
527        ($char_stream, $e_status) = $charset->get_decode_handle
528            ($byte_stream, allow_error_reporting => 1, allow_fallback => 1,
529             byte_buffer => \ $buffer->{buffer});
530        
531        if ($char_stream) { # if supported
532          ## "Change the encoding" algorithm:
533    
534          ## Step 1    
535          if ($charset->{category} &
536              Message::Charset::Info::CHARSET_CATEGORY_UTF16 ()) {
537            $charset = Message::Charset::Info->get_by_html_name ('utf-8');
538            ($char_stream, $e_status) = $charset->get_decode_handle
539                ($byte_stream,
540                 byte_buffer => \ $buffer->{buffer});
541          }
542          $charset_name = $charset->get_iana_name;
543          
544          ## Step 2
545          if (defined $self->{input_encoding} and
546              $self->{input_encoding} eq $charset_name) {
547            !!!parse-error (type => 'charset label:matching',
548                            text => $charset_name,
549                            level => $self->{level}->{info});
550            $self->{confident} = 1;
551            return;
552          }
553    
554  sub parse_string ($$$;$) {        !!!parse-error (type => 'charset label detected',
555    my $self = shift->new;                        text => $self->{input_encoding},
556    my $s = \$_[0];                        value => $charset_name,
557                          level => $self->{level}->{warn},
558                          token => $token);
559          
560          ## Step 3
561          # if (can) {
562            ## change the encoding on the fly.
563            #$self->{confident} = 1;
564            #return;
565          # }
566          
567          ## Step 4
568          throw Whatpm::HTML::RestartParser ();
569        }
570      }; # $self->{change_encoding}
571    
572      my $char_onerror = sub {
573        my (undef, $type, %opt) = @_;
574        !!!parse-error (layer => 'encode',
575                        line => $self->{line}, column => $self->{column} + 1,
576                        %opt, type => $type);
577        if ($opt{octets}) {
578          ${$opt{octets}} = "\x{FFFD}"; # relacement character
579        }
580      };
581    
582      my $wrapped_char_stream = $get_wrapper->($char_stream);
583      $wrapped_char_stream->onerror ($char_onerror);
584    
585      my @args = ($_[1], $_[2]); # $doc, $onerror - $get_wrapper = undef;
586      my $return;
587      try {
588        $return = $self->parse_char_stream ($wrapped_char_stream, @args);  
589      } catch Whatpm::HTML::RestartParser with {
590        ## NOTE: Invoked after {change_encoding}.
591    
592        if ($e_status & Message::Charset::Info::FALLBACK_ENCODING_IMPL ()) {
593          $self->{input_encoding} = $charset->get_iana_name; ## TODO: Should we set actual charset decoder's encoding name?
594          !!!parse-error (type => 'chardecode:fallback',
595                          level => $self->{level}->{uncertain},
596                          #text => $self->{input_encoding},
597                          line => 1, column => 1,
598                          layer => 'encode');
599        } elsif (not ($e_status &
600                      Message::Charset::Info::ERROR_REPORTING_ENCODING_IMPL ())) {
601          $self->{input_encoding} = $charset->get_iana_name;
602          !!!parse-error (type => 'chardecode:no error',
603                          text => $self->{input_encoding},
604                          level => $self->{level}->{uncertain},
605                          line => 1, column => 1,
606                          layer => 'encode');
607        } else {
608          $self->{input_encoding} = $charset->get_iana_name;
609        }
610        $self->{confident} = 1;
611    
612        $wrapped_char_stream = $get_wrapper->($char_stream);
613        $wrapped_char_stream->onerror ($char_onerror);
614    
615        $return = $self->parse_char_stream ($wrapped_char_stream, @args);
616      };
617      return $return;
618    } # parse_byte_stream
619    
620    ## NOTE: HTML5 spec says that the encoding layer MUST NOT strip BOM
621    ## and the HTML layer MUST ignore it.  However, we does strip BOM in
622    ## the encoding layer and the HTML layer does not ignore any U+FEFF,
623    ## because the core part of our HTML parser expects a string of character,
624    ## not a string of bytes or code units or anything which might contain a BOM.
625    ## Therefore, any parser interface that accepts a string of bytes,
626    ## such as |parse_byte_string| in this module, must ensure that it does
627    ## strip the BOM and never strip any ZWNBSP.
628    
629    sub parse_char_string ($$$;$$) {
630      #my ($self, $s, $doc, $onerror, $get_wrapper) = @_;
631      my $self = shift;
632      my $s = ref $_[0] ? $_[0] : \($_[0]);
633      require Whatpm::Charset::DecodeHandle;
634      my $input = Whatpm::Charset::DecodeHandle::CharString->new ($s);
635      return $self->parse_char_stream ($input, @_[1..$#_]);
636    } # parse_char_string
637    *parse_string = \&parse_char_string; ## NOTE: Alias for backward compatibility.
638    
639    sub parse_char_stream ($$$;$$) {
640      my $self = ref $_[0] ? shift : shift->new;
641      my $input = $_[0];
642    $self->{document} = $_[1];    $self->{document} = $_[1];
643      @{$self->{document}->child_nodes} = ();
644    
645    ## NOTE: |set_inner_html| copies most of this method's code    ## NOTE: |set_inner_html| copies most of this method's code
646    
647    my $i = 0;    $self->{confident} = 1 unless exists $self->{confident};
648    my $line = 1;    $self->{document}->input_encoding ($self->{input_encoding})
649    my $column = 0;        if defined $self->{input_encoding};
650    $self->{set_next_input_character} = sub {  ## TODO: |{input_encoding}| is needless?
651    
652      $self->{line_prev} = $self->{line} = 1;
653      $self->{column_prev} = -1;
654      $self->{column} = 0;
655      $self->{set_nc} = sub {
656      my $self = shift;      my $self = shift;
657      $self->{next_input_character} = -1 and return if $i >= length $$s;  
658      $self->{next_input_character} = ord substr $$s, $i++, 1;      my $char = '';
659      $column++;      if (defined $self->{next_nc}) {
660              $char = $self->{next_nc};
661      if ($self->{next_input_character} == 0x000A) { # LF        delete $self->{next_nc};
662        $line++;        $self->{nc} = ord $char;
663        $column = 0;      } else {
664      } elsif ($self->{next_input_character} == 0x000D) { # CR        $self->{char_buffer} = '';
665        if ($i >= length $$s) {        $self->{char_buffer_pos} = 0;
666          #  
667          my $count = $input->manakai_read_until
668             ($self->{char_buffer}, qr/[^\x00\x0A\x0D]/, $self->{char_buffer_pos});
669          if ($count) {
670            $self->{line_prev} = $self->{line};
671            $self->{column_prev} = $self->{column};
672            $self->{column}++;
673            $self->{nc}
674                = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
675            return;
676          }
677    
678          if ($input->read ($char, 1)) {
679            $self->{nc} = ord $char;
680        } else {        } else {
681          my $next_char = ord substr $$s, $i++, 1;          $self->{nc} = -1;
682          if ($next_char == 0x000A) { # LF          return;
           #  
         } else {  
           push @{$self->{char}}, $next_char;  
         }  
683        }        }
684        $self->{next_input_character} = 0x000A; # LF # MUST      }
685        $line++;  
686        $column = 0;      ($self->{line_prev}, $self->{column_prev})
687      } elsif ($self->{next_input_character} > 0x10FFFF) {          = ($self->{line}, $self->{column});
688        $self->{next_input_character} = 0xFFFD; # REPLACEMENT CHARACTER # MUST      $self->{column}++;
689      } elsif ($self->{next_input_character} == 0x0000) { # NULL      
690        $self->{next_input_character} = 0xFFFD; # REPLACEMENT CHARACTER # MUST      if ($self->{nc} == 0x000A) { # LF
691          !!!cp ('j1');
692          $self->{line}++;
693          $self->{column} = 0;
694        } elsif ($self->{nc} == 0x000D) { # CR
695          !!!cp ('j2');
696    ## TODO: support for abort/streaming
697          my $next = '';
698          if ($input->read ($next, 1) and $next ne "\x0A") {
699            $self->{next_nc} = $next;
700          }
701          $self->{nc} = 0x000A; # LF # MUST
702          $self->{line}++;
703          $self->{column} = 0;
704        } elsif ($self->{nc} == 0x0000) { # NULL
705          !!!cp ('j4');
706          !!!parse-error (type => 'NULL');
707          $self->{nc} = 0xFFFD; # REPLACEMENT CHARACTER # MUST
708      }      }
709    };    };
710    
711      $self->{read_until} = sub {
712        #my ($scalar, $specials_range, $offset) = @_;
713        return 0 if defined $self->{next_nc};
714    
715        my $pattern = qr/[^$_[1]\x00\x0A\x0D]/;
716        my $offset = $_[2] || 0;
717    
718        if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
719          pos ($self->{char_buffer}) = $self->{char_buffer_pos};
720          if ($self->{char_buffer} =~ /\G(?>$pattern)+/) {
721            substr ($_[0], $offset)
722                = substr ($self->{char_buffer}, $-[0], $+[0] - $-[0]);
723            my $count = $+[0] - $-[0];
724            if ($count) {
725              $self->{column} += $count;
726              $self->{char_buffer_pos} += $count;
727              $self->{line_prev} = $self->{line};
728              $self->{column_prev} = $self->{column} - 1;
729              $self->{nc} = -1;
730            }
731            return $count;
732          } else {
733            return 0;
734          }
735        } else {
736          my $count = $input->manakai_read_until ($_[0], $pattern, $_[2]);
737          if ($count) {
738            $self->{column} += $count;
739            $self->{line_prev} = $self->{line};
740            $self->{column_prev} = $self->{column} - 1;
741            $self->{nc} = -1;
742          }
743          return $count;
744        }
745      }; # $self->{read_until}
746    
747    my $onerror = $_[2] || sub {    my $onerror = $_[2] || sub {
748      my (%opt) = @_;      my (%opt) = @_;
749      warn "Parse error ($opt{type}) at line $opt{line} column $opt{column}\n";      my $line = $opt{token} ? $opt{token}->{line} : $opt{line};
750        my $column = $opt{token} ? $opt{token}->{column} : $opt{column};
751        warn "Parse error ($opt{type}) at line $line column $column\n";
752    };    };
753    $self->{parse_error} = sub {    $self->{parse_error} = sub {
754      $onerror->(@_, line => $line, column => $column);      $onerror->(line => $self->{line}, column => $self->{column}, @_);
755    };    };
756    
757      my $char_onerror = sub {
758        my (undef, $type, %opt) = @_;
759        !!!parse-error (layer => 'encode',
760                        line => $self->{line}, column => $self->{column} + 1,
761                        %opt, type => $type);
762      }; # $char_onerror
763    
764      if ($_[3]) {
765        $input = $_[3]->($input);
766        $input->onerror ($char_onerror);
767      } else {
768        $input->onerror ($char_onerror) unless defined $input->onerror;
769      }
770    
771    $self->_initialize_tokenizer;    $self->_initialize_tokenizer;
772    $self->_initialize_tree_constructor;    $self->_initialize_tree_constructor;
773    $self->_construct_tree;    $self->_construct_tree;
774    $self->_terminate_tree_constructor;    $self->_terminate_tree_constructor;
775    
776      delete $self->{parse_error}; # remove loop
777    
778    return $self->{document};    return $self->{document};
779  } # parse_string  } # parse_char_stream
780    
781  sub new ($) {  sub new ($) {
782    my $class = shift;    my $class = shift;
783    my $self = bless {}, $class;    my $self = bless {
784    $self->{set_next_input_character} = sub {      level => {must => 'm',
785      $self->{next_input_character} = -1;                should => 's',
786                  warn => 'w',
787                  info => 'i',
788                  uncertain => 'u'},
789      }, $class;
790      $self->{set_nc} = sub {
791        $self->{nc} = -1;
792    };    };
793    $self->{parse_error} = sub {    $self->{parse_error} = sub {
794      #      #
795    };    };
796      $self->{change_encoding} = sub {
797        # if ($_[0] is a supported encoding) {
798        #   run "change the encoding" algorithm;
799        #   throw Whatpm::HTML::RestartParser (charset => $new_encoding);
800        # }
801      };
802      $self->{application_cache_selection} = sub {
803        #
804      };
805    return $self;    return $self;
806  } # new  } # new
807    
808    sub CM_ENTITY () { 0b001 } # & markup in data
809    sub CM_LIMITED_MARKUP () { 0b010 } # < markup in data (limited)
810    sub CM_FULL_MARKUP () { 0b100 } # < markup in data (any)
811    
812    sub PLAINTEXT_CONTENT_MODEL () { 0 }
813    sub CDATA_CONTENT_MODEL () { CM_LIMITED_MARKUP }
814    sub RCDATA_CONTENT_MODEL () { CM_ENTITY | CM_LIMITED_MARKUP }
815    sub PCDATA_CONTENT_MODEL () { CM_ENTITY | CM_FULL_MARKUP }
816    
817    sub DATA_STATE () { 0 }
818    #sub ENTITY_DATA_STATE () { 1 }
819    sub TAG_OPEN_STATE () { 2 }
820    sub CLOSE_TAG_OPEN_STATE () { 3 }
821    sub TAG_NAME_STATE () { 4 }
822    sub BEFORE_ATTRIBUTE_NAME_STATE () { 5 }
823    sub ATTRIBUTE_NAME_STATE () { 6 }
824    sub AFTER_ATTRIBUTE_NAME_STATE () { 7 }
825    sub BEFORE_ATTRIBUTE_VALUE_STATE () { 8 }
826    sub ATTRIBUTE_VALUE_DOUBLE_QUOTED_STATE () { 9 }
827    sub ATTRIBUTE_VALUE_SINGLE_QUOTED_STATE () { 10 }
828    sub ATTRIBUTE_VALUE_UNQUOTED_STATE () { 11 }
829    #sub ENTITY_IN_ATTRIBUTE_VALUE_STATE () { 12 }
830    sub MARKUP_DECLARATION_OPEN_STATE () { 13 }
831    sub COMMENT_START_STATE () { 14 }
832    sub COMMENT_START_DASH_STATE () { 15 }
833    sub COMMENT_STATE () { 16 }
834    sub COMMENT_END_STATE () { 17 }
835    sub COMMENT_END_DASH_STATE () { 18 }
836    sub BOGUS_COMMENT_STATE () { 19 }
837    sub DOCTYPE_STATE () { 20 }
838    sub BEFORE_DOCTYPE_NAME_STATE () { 21 }
839    sub DOCTYPE_NAME_STATE () { 22 }
840    sub AFTER_DOCTYPE_NAME_STATE () { 23 }
841    sub BEFORE_DOCTYPE_PUBLIC_IDENTIFIER_STATE () { 24 }
842    sub DOCTYPE_PUBLIC_IDENTIFIER_DOUBLE_QUOTED_STATE () { 25 }
843    sub DOCTYPE_PUBLIC_IDENTIFIER_SINGLE_QUOTED_STATE () { 26 }
844    sub AFTER_DOCTYPE_PUBLIC_IDENTIFIER_STATE () { 27 }
845    sub BEFORE_DOCTYPE_SYSTEM_IDENTIFIER_STATE () { 28 }
846    sub DOCTYPE_SYSTEM_IDENTIFIER_DOUBLE_QUOTED_STATE () { 29 }
847    sub DOCTYPE_SYSTEM_IDENTIFIER_SINGLE_QUOTED_STATE () { 30 }
848    sub AFTER_DOCTYPE_SYSTEM_IDENTIFIER_STATE () { 31 }
849    sub BOGUS_DOCTYPE_STATE () { 32 }
850    sub AFTER_ATTRIBUTE_VALUE_QUOTED_STATE () { 33 }
851    sub SELF_CLOSING_START_TAG_STATE () { 34 }
852    sub CDATA_SECTION_STATE () { 35 }
853    sub MD_HYPHEN_STATE () { 36 } # "markup declaration open state" in the spec
854    sub MD_DOCTYPE_STATE () { 37 } # "markup declaration open state" in the spec
855    sub MD_CDATA_STATE () { 38 } # "markup declaration open state" in the spec
856    sub CDATA_RCDATA_CLOSE_TAG_STATE () { 39 } # "close tag open state" in the spec
857    sub CDATA_SECTION_MSE1_STATE () { 40 } # "CDATA section state" in the spec
858    sub CDATA_SECTION_MSE2_STATE () { 41 } # "CDATA section state" in the spec
859    sub PUBLIC_STATE () { 42 } # "after DOCTYPE name state" in the spec
860    sub SYSTEM_STATE () { 43 } # "after DOCTYPE name state" in the spec
861    ## NOTE: "Entity data state", "entity in attribute value state", and
862    ## "consume a character reference" algorithm are jointly implemented
863    ## using the following six states:
864    sub ENTITY_STATE () { 44 }
865    sub ENTITY_HASH_STATE () { 45 }
866    sub NCR_NUM_STATE () { 46 }
867    sub HEXREF_X_STATE () { 47 }
868    sub HEXREF_HEX_STATE () { 48 }
869    sub ENTITY_NAME_STATE () { 49 }
870    sub PCDATA_STATE () { 50 } # "data state" in the spec
871    
872    sub DOCTYPE_TOKEN () { 1 }
873    sub COMMENT_TOKEN () { 2 }
874    sub START_TAG_TOKEN () { 3 }
875    sub END_TAG_TOKEN () { 4 }
876    sub END_OF_FILE_TOKEN () { 5 }
877    sub CHARACTER_TOKEN () { 6 }
878    
879    sub AFTER_HTML_IMS () { 0b100 }
880    sub HEAD_IMS ()       { 0b1000 }
881    sub BODY_IMS ()       { 0b10000 }
882    sub BODY_TABLE_IMS () { 0b100000 }
883    sub TABLE_IMS ()      { 0b1000000 }
884    sub ROW_IMS ()        { 0b10000000 }
885    sub BODY_AFTER_IMS () { 0b100000000 }
886    sub FRAME_IMS ()      { 0b1000000000 }
887    sub SELECT_IMS ()     { 0b10000000000 }
888    sub IN_FOREIGN_CONTENT_IM () { 0b100000000000 }
889        ## NOTE: "in foreign content" insertion mode is special; it is combined
890        ## with the secondary insertion mode.  In this parser, they are stored
891        ## together in the bit-or'ed form.
892    
893    ## NOTE: "initial" and "before html" insertion modes have no constants.
894    
895    ## NOTE: "after after body" insertion mode.
896    sub AFTER_HTML_BODY_IM () { AFTER_HTML_IMS | BODY_AFTER_IMS }
897    
898    ## NOTE: "after after frameset" insertion mode.
899    sub AFTER_HTML_FRAMESET_IM () { AFTER_HTML_IMS | FRAME_IMS }
900    
901    sub IN_HEAD_IM () { HEAD_IMS | 0b00 }
902    sub IN_HEAD_NOSCRIPT_IM () { HEAD_IMS | 0b01 }
903    sub AFTER_HEAD_IM () { HEAD_IMS | 0b10 }
904    sub BEFORE_HEAD_IM () { HEAD_IMS | 0b11 }
905    sub IN_BODY_IM () { BODY_IMS }
906    sub IN_CELL_IM () { BODY_IMS | BODY_TABLE_IMS | 0b01 }
907    sub IN_CAPTION_IM () { BODY_IMS | BODY_TABLE_IMS | 0b10 }
908    sub IN_ROW_IM () { TABLE_IMS | ROW_IMS | 0b01 }
909    sub IN_TABLE_BODY_IM () { TABLE_IMS | ROW_IMS | 0b10 }
910    sub IN_TABLE_IM () { TABLE_IMS }
911    sub AFTER_BODY_IM () { BODY_AFTER_IMS }
912    sub IN_FRAMESET_IM () { FRAME_IMS | 0b01 }
913    sub AFTER_FRAMESET_IM () { FRAME_IMS | 0b10 }
914    sub IN_SELECT_IM () { SELECT_IMS | 0b01 }
915    sub IN_SELECT_IN_TABLE_IM () { SELECT_IMS | 0b10 }
916    sub IN_COLUMN_GROUP_IM () { 0b10 }
917    
918  ## Implementations MUST act as if state machine in the spec  ## Implementations MUST act as if state machine in the spec
919    
920  sub _initialize_tokenizer ($) {  sub _initialize_tokenizer ($) {
921    my $self = shift;    my $self = shift;
922    $self->{state} = 'data'; # MUST    $self->{state} = DATA_STATE; # MUST
923    $self->{content_model_flag} = 'PCDATA'; # be    #$self->{s_kwd}; # state keyword - initialized when used
924    undef $self->{current_token}; # start tag, end tag, comment, or DOCTYPE    #$self->{entity__value}; # initialized when used
925    undef $self->{current_attribute};    #$self->{entity__match}; # initialized when used
926    undef $self->{last_emitted_start_tag_name};    $self->{content_model} = PCDATA_CONTENT_MODEL; # be
927    undef $self->{last_attribute_value_state};    undef $self->{ct}; # current token
928    $self->{char} = [];    undef $self->{ca}; # current attribute
929    # $self->{next_input_character}    undef $self->{last_stag_name}; # last emitted start tag name
930      #$self->{prev_state}; # initialized when used
931      delete $self->{self_closing};
932      $self->{char_buffer} = '';
933      $self->{char_buffer_pos} = 0;
934      $self->{nc} = -1; # next input character
935      #$self->{next_nc}
936    !!!next-input-character;    !!!next-input-character;
937    $self->{token} = [];    $self->{token} = [];
938      # $self->{escape}
939  } # _initialize_tokenizer  } # _initialize_tokenizer
940    
941  ## A token has:  ## A token has:
942  ##   ->{type} eq 'DOCTYPE', 'start tag', 'end tag', 'comment',  ##   ->{type} == DOCTYPE_TOKEN, START_TAG_TOKEN, END_TAG_TOKEN, COMMENT_TOKEN,
943  ##       'character', or 'end-of-file'  ##       CHARACTER_TOKEN, or END_OF_FILE_TOKEN
944  ##   ->{name} (DOCTYPE, start tag (tagname), end tag (tagname))  ##   ->{name} (DOCTYPE_TOKEN)
945      ## ISSUE: the spec need s/tagname/tag name/  ##   ->{tag_name} (START_TAG_TOKEN, END_TAG_TOKEN)
946  ##   ->{error} == 1 or 0 (DOCTYPE)  ##   ->{pubid} (DOCTYPE_TOKEN)
947  ##   ->{attributes} isa HASH (start tag, end tag)  ##   ->{sysid} (DOCTYPE_TOKEN)
948  ##   ->{data} (comment, character)  ##   ->{quirks} == 1 or 0 (DOCTYPE_TOKEN): "force-quirks" flag
949    ##   ->{attributes} isa HASH (START_TAG_TOKEN, END_TAG_TOKEN)
950  ## Macros  ##        ->{name}
951  ##   Macros MUST be preceded by three EXCLAMATION MARKs.  ##        ->{value}
952  ##   emit ($token)  ##        ->{has_reference} == 1 or 0
953  ##     Emits the specified token.  ##   ->{data} (COMMENT_TOKEN, CHARACTER_TOKEN)
954    ## NOTE: The "self-closing flag" is hold as |$self->{self_closing}|.
955    ##     |->{self_closing}| is used to save the value of |$self->{self_closing}|
956    ##     while the token is pushed back to the stack.
957    
958  ## Emitted token MUST immediately be handled by the tree construction state.  ## Emitted token MUST immediately be handled by the tree construction state.
959    
# Line 444  sub _initialize_tokenizer ($) { Line 963  sub _initialize_tokenizer ($) {
963  ## has completed loading.  If one has, then it MUST be executed  ## has completed loading.  If one has, then it MUST be executed
964  ## and removed from the list.  ## and removed from the list.
965    
966    ## TODO: Polytheistic slash SHOULD NOT be used. (Applied only to atheists.)
967    ## (This requirement was dropped from HTML5 spec, unfortunately.)
968    
969    my $is_space = {
970      0x0009 => 1, # CHARACTER TABULATION (HT)
971      0x000A => 1, # LINE FEED (LF)
972      #0x000B => 0, # LINE TABULATION (VT)
973      0x000C => 1, # FORM FEED (FF)
974      #0x000D => 1, # CARRIAGE RETURN (CR)
975      0x0020 => 1, # SPACE (SP)
976    };
977    
978  sub _get_next_token ($) {  sub _get_next_token ($) {
979    my $self = shift;    my $self = shift;
980    
981      if ($self->{self_closing}) {
982        !!!parse-error (type => 'nestc', token => $self->{ct});
983        ## NOTE: The |self_closing| flag is only set by start tag token.
984        ## In addition, when a start tag token is emitted, it is always set to
985        ## |ct|.
986        delete $self->{self_closing};
987      }
988    
989    if (@{$self->{token}}) {    if (@{$self->{token}}) {
990        $self->{self_closing} = $self->{token}->[0]->{self_closing};
991      return shift @{$self->{token}};      return shift @{$self->{token}};
992    }    }
993    
994    A: {    A: {
995      if ($self->{state} eq 'data') {      if ($self->{state} == PCDATA_STATE) {
996        if ($self->{next_input_character} == 0x0026) { # &        ## NOTE: Same as |DATA_STATE|, but only for |PCDATA| content model.
997          if ($self->{content_model_flag} eq 'PCDATA' or  
998              $self->{content_model_flag} eq 'RCDATA') {        if ($self->{nc} == 0x0026) { # &
999            $self->{state} = 'entity data';          !!!cp (0.1);
1000            ## NOTE: In the spec, the tokenizer is switched to the
1001            ## "entity data state".  In this implementation, the tokenizer
1002            ## is switched to the |ENTITY_STATE|, which is an implementation
1003            ## of the "consume a character reference" algorithm.
1004            $self->{entity_add} = -1;
1005            $self->{prev_state} = DATA_STATE;
1006            $self->{state} = ENTITY_STATE;
1007            !!!next-input-character;
1008            redo A;
1009          } elsif ($self->{nc} == 0x003C) { # <
1010            !!!cp (0.2);
1011            $self->{state} = TAG_OPEN_STATE;
1012            !!!next-input-character;
1013            redo A;
1014          } elsif ($self->{nc} == -1) {
1015            !!!cp (0.3);
1016            !!!emit ({type => END_OF_FILE_TOKEN,
1017                      line => $self->{line}, column => $self->{column}});
1018            last A; ## TODO: ok?
1019          } else {
1020            !!!cp (0.4);
1021            #
1022          }
1023    
1024          # Anything else
1025          my $token = {type => CHARACTER_TOKEN,
1026                       data => chr $self->{nc},
1027                       line => $self->{line}, column => $self->{column},
1028                      };
1029          $self->{read_until}->($token->{data}, q[<&], length $token->{data});
1030    
1031          ## Stay in the state.
1032          !!!next-input-character;
1033          !!!emit ($token);
1034          redo A;
1035        } elsif ($self->{state} == DATA_STATE) {
1036          $self->{s_kwd} = '' unless defined $self->{s_kwd};
1037          if ($self->{nc} == 0x0026) { # &
1038            $self->{s_kwd} = '';
1039            if ($self->{content_model} & CM_ENTITY and # PCDATA | RCDATA
1040                not $self->{escape}) {
1041              !!!cp (1);
1042              ## NOTE: In the spec, the tokenizer is switched to the
1043              ## "entity data state".  In this implementation, the tokenizer
1044              ## is switched to the |ENTITY_STATE|, which is an implementation
1045              ## of the "consume a character reference" algorithm.
1046              $self->{entity_add} = -1;
1047              $self->{prev_state} = DATA_STATE;
1048              $self->{state} = ENTITY_STATE;
1049            !!!next-input-character;            !!!next-input-character;
1050            redo A;            redo A;
1051          } else {          } else {
1052              !!!cp (2);
1053            #            #
1054          }          }
1055        } elsif ($self->{next_input_character} == 0x003C) { # <        } elsif ($self->{nc} == 0x002D) { # -
1056          if ($self->{content_model_flag} ne 'PLAINTEXT') {          if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
1057            $self->{state} = 'tag open';            $self->{s_kwd} .= '-';
1058              
1059              if ($self->{s_kwd} eq '<!--') {
1060                !!!cp (3);
1061                $self->{escape} = 1; # unless $self->{escape};
1062                $self->{s_kwd} = '--';
1063                #
1064              } elsif ($self->{s_kwd} eq '---') {
1065                !!!cp (4);
1066                $self->{s_kwd} = '--';
1067                #
1068              } else {
1069                !!!cp (5);
1070                #
1071              }
1072            }
1073            
1074            #
1075          } elsif ($self->{nc} == 0x0021) { # !
1076            if (length $self->{s_kwd}) {
1077              !!!cp (5.1);
1078              $self->{s_kwd} .= '!';
1079              #
1080            } else {
1081              !!!cp (5.2);
1082              #$self->{s_kwd} = '';
1083              #
1084            }
1085            #
1086          } elsif ($self->{nc} == 0x003C) { # <
1087            if ($self->{content_model} & CM_FULL_MARKUP or # PCDATA
1088                (($self->{content_model} & CM_LIMITED_MARKUP) and # CDATA | RCDATA
1089                 not $self->{escape})) {
1090              !!!cp (6);
1091              $self->{state} = TAG_OPEN_STATE;
1092            !!!next-input-character;            !!!next-input-character;
1093            redo A;            redo A;
1094          } else {          } else {
1095              !!!cp (7);
1096              $self->{s_kwd} = '';
1097            #            #
1098          }          }
1099        } elsif ($self->{next_input_character} == -1) {        } elsif ($self->{nc} == 0x003E) { # >
1100          !!!emit ({type => 'end-of-file'});          if ($self->{escape} and
1101                ($self->{content_model} & CM_LIMITED_MARKUP)) { # RCDATA | CDATA
1102              if ($self->{s_kwd} eq '--') {
1103                !!!cp (8);
1104                delete $self->{escape};
1105              } else {
1106                !!!cp (9);
1107              }
1108            } else {
1109              !!!cp (10);
1110            }
1111            
1112            $self->{s_kwd} = '';
1113            #
1114          } elsif ($self->{nc} == -1) {
1115            !!!cp (11);
1116            $self->{s_kwd} = '';
1117            !!!emit ({type => END_OF_FILE_TOKEN,
1118                      line => $self->{line}, column => $self->{column}});
1119          last A; ## TODO: ok?          last A; ## TODO: ok?
1120          } else {
1121            !!!cp (12);
1122            $self->{s_kwd} = '';
1123            #
1124        }        }
       # Anything else  
       my $token = {type => 'character',  
                    data => chr $self->{next_input_character}};  
       ## Stay in the data state  
       !!!next-input-character;  
1125    
1126        !!!emit ($token);        # Anything else
1127          my $token = {type => CHARACTER_TOKEN,
1128        redo A;                     data => chr $self->{nc},
1129      } elsif ($self->{state} eq 'entity data') {                     line => $self->{line}, column => $self->{column},
1130        ## (cannot happen in CDATA state)                    };
1131                if ($self->{read_until}->($token->{data}, q[-!<>&],
1132        my $token = $self->_tokenize_attempt_to_consume_an_entity;                                  length $token->{data})) {
1133            $self->{s_kwd} = '';
1134        $self->{state} = 'data';        }
       # next-input-character is already done  
1135    
1136        unless (defined $token) {        ## Stay in the data state.
1137          !!!emit ({type => 'character', data => '&'});        if ($self->{content_model} == PCDATA_CONTENT_MODEL) {
1138            !!!cp (13);
1139            $self->{state} = PCDATA_STATE;
1140        } else {        } else {
1141          !!!emit ($token);          !!!cp (14);
1142            ## Stay in the state.
1143        }        }
1144          !!!next-input-character;
1145          !!!emit ($token);
1146        redo A;        redo A;
1147      } elsif ($self->{state} eq 'tag open') {      } elsif ($self->{state} == TAG_OPEN_STATE) {
1148        if ($self->{content_model_flag} eq 'RCDATA' or        if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
1149            $self->{content_model_flag} eq 'CDATA') {          if ($self->{nc} == 0x002F) { # /
1150          if ($self->{next_input_character} == 0x002F) { # /            !!!cp (15);
1151            !!!next-input-character;            !!!next-input-character;
1152            $self->{state} = 'close tag open';            $self->{state} = CLOSE_TAG_OPEN_STATE;
1153            redo A;            redo A;
1154            } elsif ($self->{nc} == 0x0021) { # !
1155              !!!cp (15.1);
1156              $self->{s_kwd} = '<' unless $self->{escape};
1157              #
1158          } else {          } else {
1159            ## reconsume            !!!cp (16);
1160            $self->{state} = 'data';            #
   
           !!!emit ({type => 'character', data => '<'});  
   
           redo A;  
1161          }          }
1162        } elsif ($self->{content_model_flag} eq 'PCDATA') {  
1163          if ($self->{next_input_character} == 0x0021) { # !          ## reconsume
1164            $self->{state} = 'markup declaration open';          $self->{state} = DATA_STATE;
1165            !!!emit ({type => CHARACTER_TOKEN, data => '<',
1166                      line => $self->{line_prev},
1167                      column => $self->{column_prev},
1168                     });
1169            redo A;
1170          } elsif ($self->{content_model} & CM_FULL_MARKUP) { # PCDATA
1171            if ($self->{nc} == 0x0021) { # !
1172              !!!cp (17);
1173              $self->{state} = MARKUP_DECLARATION_OPEN_STATE;
1174            !!!next-input-character;            !!!next-input-character;
1175            redo A;            redo A;
1176          } elsif ($self->{next_input_character} == 0x002F) { # /          } elsif ($self->{nc} == 0x002F) { # /
1177            $self->{state} = 'close tag open';            !!!cp (18);
1178              $self->{state} = CLOSE_TAG_OPEN_STATE;
1179            !!!next-input-character;            !!!next-input-character;
1180            redo A;            redo A;
1181          } elsif (0x0041 <= $self->{next_input_character} and          } elsif (0x0041 <= $self->{nc} and
1182                   $self->{next_input_character} <= 0x005A) { # A..Z                   $self->{nc} <= 0x005A) { # A..Z
1183            $self->{current_token}            !!!cp (19);
1184              = {type => 'start tag',            $self->{ct}
1185                 tag_name => chr ($self->{next_input_character} + 0x0020)};              = {type => START_TAG_TOKEN,
1186            $self->{state} = 'tag name';                 tag_name => chr ($self->{nc} + 0x0020),
1187                   line => $self->{line_prev},
1188                   column => $self->{column_prev}};
1189              $self->{state} = TAG_NAME_STATE;
1190            !!!next-input-character;            !!!next-input-character;
1191            redo A;            redo A;
1192          } elsif (0x0061 <= $self->{next_input_character} and          } elsif (0x0061 <= $self->{nc} and
1193                   $self->{next_input_character} <= 0x007A) { # a..z                   $self->{nc} <= 0x007A) { # a..z
1194            $self->{current_token} = {type => 'start tag',            !!!cp (20);
1195                              tag_name => chr ($self->{next_input_character})};            $self->{ct} = {type => START_TAG_TOKEN,
1196            $self->{state} = 'tag name';                                      tag_name => chr ($self->{nc}),
1197                                        line => $self->{line_prev},
1198                                        column => $self->{column_prev}};
1199              $self->{state} = TAG_NAME_STATE;
1200            !!!next-input-character;            !!!next-input-character;
1201            redo A;            redo A;
1202          } elsif ($self->{next_input_character} == 0x003E) { # >          } elsif ($self->{nc} == 0x003E) { # >
1203            !!!parse-error (type => 'empty start tag');            !!!cp (21);
1204            $self->{state} = 'data';            !!!parse-error (type => 'empty start tag',
1205                              line => $self->{line_prev},
1206                              column => $self->{column_prev});
1207              $self->{state} = DATA_STATE;
1208            !!!next-input-character;            !!!next-input-character;
1209    
1210            !!!emit ({type => 'character', data => '<>'});            !!!emit ({type => CHARACTER_TOKEN, data => '<>',
1211                        line => $self->{line_prev},
1212                        column => $self->{column_prev},
1213                       });
1214    
1215            redo A;            redo A;
1216          } elsif ($self->{next_input_character} == 0x003F) { # ?          } elsif ($self->{nc} == 0x003F) { # ?
1217            !!!parse-error (type => 'pio');            !!!cp (22);
1218            $self->{state} = 'bogus comment';            !!!parse-error (type => 'pio',
1219            ## $self->{next_input_character} is intentionally left as is                            line => $self->{line_prev},
1220                              column => $self->{column_prev});
1221              $self->{state} = BOGUS_COMMENT_STATE;
1222              $self->{ct} = {type => COMMENT_TOKEN, data => '',
1223                                        line => $self->{line_prev},
1224                                        column => $self->{column_prev},
1225                                       };
1226              ## $self->{nc} is intentionally left as is
1227            redo A;            redo A;
1228          } else {          } else {
1229            !!!parse-error (type => 'bare stago');            !!!cp (23);
1230            $self->{state} = 'data';            !!!parse-error (type => 'bare stago',
1231                              line => $self->{line_prev},
1232                              column => $self->{column_prev});
1233              $self->{state} = DATA_STATE;
1234            ## reconsume            ## reconsume
1235    
1236            !!!emit ({type => 'character', data => '<'});            !!!emit ({type => CHARACTER_TOKEN, data => '<',
1237                        line => $self->{line_prev},
1238                        column => $self->{column_prev},
1239                       });
1240    
1241            redo A;            redo A;
1242          }          }
1243        } else {        } else {
1244          die "$0: $self->{content_model_flag}: Unknown content model flag";          die "$0: $self->{content_model} in tag open";
1245        }        }
1246      } elsif ($self->{state} eq 'close tag open') {      } elsif ($self->{state} == CLOSE_TAG_OPEN_STATE) {
1247        if ($self->{content_model_flag} eq 'RCDATA' or        ## NOTE: The "close tag open state" in the spec is implemented as
1248            $self->{content_model_flag} eq 'CDATA') {        ## |CLOSE_TAG_OPEN_STATE| and |CDATA_RCDATA_CLOSE_TAG_STATE|.
1249          my @next_char;  
1250          TAGNAME: for (my $i = 0; $i < length $self->{last_emitted_start_tag_name}; $i++) {        my ($l, $c) = ($self->{line_prev}, $self->{column_prev} - 1); # "<"of"</"
1251            push @next_char, $self->{next_input_character};        if ($self->{content_model} & CM_LIMITED_MARKUP) { # RCDATA | CDATA
1252            my $c = ord substr ($self->{last_emitted_start_tag_name}, $i, 1);          if (defined $self->{last_stag_name}) {
1253            my $C = 0x0061 <= $c && $c <= 0x007A ? $c - 0x0020 : $c;            $self->{state} = CDATA_RCDATA_CLOSE_TAG_STATE;
1254            if ($self->{next_input_character} == $c or $self->{next_input_character} == $C) {            $self->{s_kwd} = '';
1255              !!!next-input-character;            ## Reconsume.
             next TAGNAME;  
           } else {  
             !!!parse-error (type => 'unmatched end tag');  
             $self->{next_input_character} = shift @next_char; # reconsume  
             !!!back-next-input-character (@next_char);  
             $self->{state} = 'data';  
   
             !!!emit ({type => 'character', data => '</'});  
   
             redo A;  
           }  
         }  
         push @next_char, $self->{next_input_character};  
       
         unless ($self->{next_input_character} == 0x0009 or # HT  
                 $self->{next_input_character} == 0x000A or # LF  
                 $self->{next_input_character} == 0x000B or # VT  
                 $self->{next_input_character} == 0x000C or # FF  
                 $self->{next_input_character} == 0x0020 or # SP  
                 $self->{next_input_character} == 0x003E or # >  
                 $self->{next_input_character} == 0x002F or # /  
                 $self->{next_input_character} == 0x003C or # <  
                 $self->{next_input_character} == -1) {  
           !!!parse-error (type => 'unmatched end tag');  
           $self->{next_input_character} = shift @next_char; # reconsume  
           !!!back-next-input-character (@next_char);  
           $self->{state} = 'data';  
   
           !!!emit ({type => 'character', data => '</'});  
   
1256            redo A;            redo A;
1257          } else {          } else {
1258            $self->{next_input_character} = shift @next_char;            ## No start tag token has ever been emitted
1259            !!!back-next-input-character (@next_char);            ## NOTE: See <http://krijnhoetmer.nl/irc-logs/whatwg/20070626#l-564>.
1260            # and consume...            !!!cp (28);
1261              $self->{state} = DATA_STATE;
1262              ## Reconsume.
1263              !!!emit ({type => CHARACTER_TOKEN, data => '</',
1264                        line => $l, column => $c,
1265                       });
1266              redo A;
1267          }          }
1268        }        }
1269          
1270        if (0x0041 <= $self->{next_input_character} and        if (0x0041 <= $self->{nc} and
1271            $self->{next_input_character} <= 0x005A) { # A..Z            $self->{nc} <= 0x005A) { # A..Z
1272          $self->{current_token} = {type => 'end tag',          !!!cp (29);
1273                            tag_name => chr ($self->{next_input_character} + 0x0020)};          $self->{ct}
1274          $self->{state} = 'tag name';              = {type => END_TAG_TOKEN,
1275          !!!next-input-character;                 tag_name => chr ($self->{nc} + 0x0020),
1276          redo A;                 line => $l, column => $c};
1277        } elsif (0x0061 <= $self->{next_input_character} and          $self->{state} = TAG_NAME_STATE;
1278                 $self->{next_input_character} <= 0x007A) { # a..z          !!!next-input-character;
1279          $self->{current_token} = {type => 'end tag',          redo A;
1280                            tag_name => chr ($self->{next_input_character})};        } elsif (0x0061 <= $self->{nc} and
1281          $self->{state} = 'tag name';                 $self->{nc} <= 0x007A) { # a..z
1282          !!!next-input-character;          !!!cp (30);
1283          redo A;          $self->{ct} = {type => END_TAG_TOKEN,
1284        } elsif ($self->{next_input_character} == 0x003E) { # >                                    tag_name => chr ($self->{nc}),
1285          !!!parse-error (type => 'empty end tag');                                    line => $l, column => $c};
1286          $self->{state} = 'data';          $self->{state} = TAG_NAME_STATE;
1287            !!!next-input-character;
1288            redo A;
1289          } elsif ($self->{nc} == 0x003E) { # >
1290            !!!cp (31);
1291            !!!parse-error (type => 'empty end tag',
1292                            line => $self->{line_prev}, ## "<" in "</>"
1293                            column => $self->{column_prev} - 1);
1294            $self->{state} = DATA_STATE;
1295          !!!next-input-character;          !!!next-input-character;
1296          redo A;          redo A;
1297        } elsif ($self->{next_input_character} == -1) {        } elsif ($self->{nc} == -1) {
1298            !!!cp (32);
1299          !!!parse-error (type => 'bare etago');          !!!parse-error (type => 'bare etago');
1300          $self->{state} = 'data';          $self->{state} = DATA_STATE;
1301          # reconsume          # reconsume
1302    
1303          !!!emit ({type => 'character', data => '</'});          !!!emit ({type => CHARACTER_TOKEN, data => '</',
1304                      line => $l, column => $c,
1305                     });
1306    
1307          redo A;          redo A;
1308        } else {        } else {
1309            !!!cp (33);
1310          !!!parse-error (type => 'bogus end tag');          !!!parse-error (type => 'bogus end tag');
1311          $self->{state} = 'bogus comment';          $self->{state} = BOGUS_COMMENT_STATE;
1312          ## $self->{next_input_character} is intentionally left as is          $self->{ct} = {type => COMMENT_TOKEN, data => '',
1313          redo A;                                    line => $self->{line_prev}, # "<" of "</"
1314        }                                    column => $self->{column_prev} - 1,
1315      } elsif ($self->{state} eq 'tag name') {                                   };
1316        if ($self->{next_input_character} == 0x0009 or # HT          ## NOTE: $self->{nc} is intentionally left as is.
1317            $self->{next_input_character} == 0x000A or # LF          ## Although the "anything else" case of the spec not explicitly
1318            $self->{next_input_character} == 0x000B or # VT          ## states that the next input character is to be reconsumed,
1319            $self->{next_input_character} == 0x000C or # FF          ## it will be included to the |data| of the comment token
1320            $self->{next_input_character} == 0x0020) { # SP          ## generated from the bogus end tag, as defined in the
1321          $self->{state} = 'before attribute name';          ## "bogus comment state" entry.
1322          !!!next-input-character;          redo A;
1323          redo A;        }
1324        } elsif ($self->{next_input_character} == 0x003E) { # >      } elsif ($self->{state} == CDATA_RCDATA_CLOSE_TAG_STATE) {
1325          if ($self->{current_token}->{type} eq 'start tag') {        my $ch = substr $self->{last_stag_name}, length $self->{s_kwd}, 1;
1326            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};        if (length $ch) {
1327          } elsif ($self->{current_token}->{type} eq 'end tag') {          my $CH = $ch;
1328            $self->{content_model_flag} = 'PCDATA'; # MUST          $ch =~ tr/a-z/A-Z/;
1329            if ($self->{current_token}->{attributes}) {          my $nch = chr $self->{nc};
1330              !!!parse-error (type => 'end tag attribute');          if ($nch eq $ch or $nch eq $CH) {
1331            }            !!!cp (24);
1332              ## Stay in the state.
1333              $self->{s_kwd} .= $nch;
1334              !!!next-input-character;
1335              redo A;
1336          } else {          } else {
1337            die "$0: $self->{current_token}->{type}: Unknown token type";            !!!cp (25);
1338              $self->{state} = DATA_STATE;
1339              ## Reconsume.
1340              !!!emit ({type => CHARACTER_TOKEN,
1341                        data => '</' . $self->{s_kwd},
1342                        line => $self->{line_prev},
1343                        column => $self->{column_prev} - 1 - length $self->{s_kwd},
1344                       });
1345              redo A;
1346          }          }
1347          $self->{state} = 'data';        } else { # after "<{tag-name}"
1348          !!!next-input-character;          unless ($is_space->{$self->{nc}} or
1349                    {
1350          !!!emit ($self->{current_token}); # start tag or end tag                   0x003E => 1, # >
1351          undef $self->{current_token};                   0x002F => 1, # /
1352                     -1 => 1, # EOF
1353          redo A;                  }->{$self->{nc}}) {
1354        } elsif (0x0041 <= $self->{next_input_character} and            !!!cp (26);
1355                 $self->{next_input_character} <= 0x005A) { # A..Z            ## Reconsume.
1356          $self->{current_token}->{tag_name} .= chr ($self->{next_input_character} + 0x0020);            $self->{state} = DATA_STATE;
1357              !!!emit ({type => CHARACTER_TOKEN,
1358                        data => '</' . $self->{s_kwd},
1359                        line => $self->{line_prev},
1360                        column => $self->{column_prev} - 1 - length $self->{s_kwd},
1361                       });
1362              redo A;
1363            } else {
1364              !!!cp (27);
1365              $self->{ct}
1366                  = {type => END_TAG_TOKEN,
1367                     tag_name => $self->{last_stag_name},
1368                     line => $self->{line_prev},
1369                     column => $self->{column_prev} - 1 - length $self->{s_kwd}};
1370              $self->{state} = TAG_NAME_STATE;
1371              ## Reconsume.
1372              redo A;
1373            }
1374          }
1375        } elsif ($self->{state} == TAG_NAME_STATE) {
1376          if ($is_space->{$self->{nc}}) {
1377            !!!cp (34);
1378            $self->{state} = BEFORE_ATTRIBUTE_NAME_STATE;
1379            !!!next-input-character;
1380            redo A;
1381          } elsif ($self->{nc} == 0x003E) { # >
1382            if ($self->{ct}->{type} == START_TAG_TOKEN) {
1383              !!!cp (35);
1384              $self->{last_stag_name} = $self->{ct}->{tag_name};
1385            } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
1386              $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
1387              #if ($self->{ct}->{attributes}) {
1388              #  ## NOTE: This should never be reached.
1389              #  !!! cp (36);
1390              #  !!! parse-error (type => 'end tag attribute');
1391              #} else {
1392                !!!cp (37);
1393              #}
1394            } else {
1395              die "$0: $self->{ct}->{type}: Unknown token type";
1396            }
1397            $self->{state} = DATA_STATE;
1398            !!!next-input-character;
1399    
1400            !!!emit ($self->{ct}); # start tag or end tag
1401    
1402            redo A;
1403          } elsif (0x0041 <= $self->{nc} and
1404                   $self->{nc} <= 0x005A) { # A..Z
1405            !!!cp (38);
1406            $self->{ct}->{tag_name} .= chr ($self->{nc} + 0x0020);
1407            # start tag or end tag            # start tag or end tag
1408          ## Stay in this state          ## Stay in this state
1409          !!!next-input-character;          !!!next-input-character;
1410          redo A;          redo A;
1411        } elsif ($self->{next_input_character} == 0x003C or # <        } elsif ($self->{nc} == -1) {
                $self->{next_input_character} == -1) {  
1412          !!!parse-error (type => 'unclosed tag');          !!!parse-error (type => 'unclosed tag');
1413          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{ct}->{type} == START_TAG_TOKEN) {
1414            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            !!!cp (39);
1415          } elsif ($self->{current_token}->{type} eq 'end tag') {            $self->{last_stag_name} = $self->{ct}->{tag_name};
1416            $self->{content_model_flag} = 'PCDATA'; # MUST          } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
1417            if ($self->{current_token}->{attributes}) {            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
1418              !!!parse-error (type => 'end tag attribute');            #if ($self->{ct}->{attributes}) {
1419            }            #  ## NOTE: This state should never be reached.
1420              #  !!! cp (40);
1421              #  !!! parse-error (type => 'end tag attribute');
1422              #} else {
1423                !!!cp (41);
1424              #}
1425          } else {          } else {
1426            die "$0: $self->{current_token}->{type}: Unknown token type";            die "$0: $self->{ct}->{type}: Unknown token type";
1427          }          }
1428          $self->{state} = 'data';          $self->{state} = DATA_STATE;
1429          # reconsume          # reconsume
1430    
1431          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{ct}); # start tag or end tag
         undef $self->{current_token};  
1432    
1433          redo A;          redo A;
1434        } elsif ($self->{next_input_character} == 0x002F) { # /        } elsif ($self->{nc} == 0x002F) { # /
1435            !!!cp (42);
1436            $self->{state} = SELF_CLOSING_START_TAG_STATE;
1437          !!!next-input-character;          !!!next-input-character;
         if ($self->{next_input_character} == 0x003E and # >  
             $self->{current_token}->{type} eq 'start tag' and  
             $permitted_slash_tag_name->{$self->{current_token}->{tag_name}}) {  
           # permitted slash  
           #  
         } else {  
           !!!parse-error (type => 'nestc');  
         }  
         $self->{state} = 'before attribute name';  
         # next-input-character is already done  
1438          redo A;          redo A;
1439        } else {        } else {
1440          $self->{current_token}->{tag_name} .= chr $self->{next_input_character};          !!!cp (44);
1441            $self->{ct}->{tag_name} .= chr $self->{nc};
1442            # start tag or end tag            # start tag or end tag
1443          ## Stay in the state          ## Stay in the state
1444          !!!next-input-character;          !!!next-input-character;
1445          redo A;          redo A;
1446        }        }
1447      } elsif ($self->{state} eq 'before attribute name') {      } elsif ($self->{state} == BEFORE_ATTRIBUTE_NAME_STATE) {
1448        if ($self->{next_input_character} == 0x0009 or # HT        if ($is_space->{$self->{nc}}) {
1449            $self->{next_input_character} == 0x000A or # LF          !!!cp (45);
           $self->{next_input_character} == 0x000B or # VT  
           $self->{next_input_character} == 0x000C or # FF  
           $self->{next_input_character} == 0x0020) { # SP  
1450          ## Stay in the state          ## Stay in the state
1451          !!!next-input-character;          !!!next-input-character;
1452          redo A;          redo A;
1453        } elsif ($self->{next_input_character} == 0x003E) { # >        } elsif ($self->{nc} == 0x003E) { # >
1454          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{ct}->{type} == START_TAG_TOKEN) {
1455            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            !!!cp (46);
1456          } elsif ($self->{current_token}->{type} eq 'end tag') {            $self->{last_stag_name} = $self->{ct}->{tag_name};
1457            $self->{content_model_flag} = 'PCDATA'; # MUST          } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
1458            if ($self->{current_token}->{attributes}) {            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
1459              if ($self->{ct}->{attributes}) {
1460                !!!cp (47);
1461              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
1462              } else {
1463                !!!cp (48);
1464            }            }
1465          } else {          } else {
1466            die "$0: $self->{current_token}->{type}: Unknown token type";            die "$0: $self->{ct}->{type}: Unknown token type";
1467          }          }
1468          $self->{state} = 'data';          $self->{state} = DATA_STATE;
1469          !!!next-input-character;          !!!next-input-character;
1470    
1471          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{ct}); # start tag or end tag
         undef $self->{current_token};  
1472    
1473          redo A;          redo A;
1474        } elsif (0x0041 <= $self->{next_input_character} and        } elsif (0x0041 <= $self->{nc} and
1475                 $self->{next_input_character} <= 0x005A) { # A..Z                 $self->{nc} <= 0x005A) { # A..Z
1476          $self->{current_attribute} = {name => chr ($self->{next_input_character} + 0x0020),          !!!cp (49);
1477                                value => ''};          $self->{ca}
1478          $self->{state} = 'attribute name';              = {name => chr ($self->{nc} + 0x0020),
1479                   value => '',
1480                   line => $self->{line}, column => $self->{column}};
1481            $self->{state} = ATTRIBUTE_NAME_STATE;
1482          !!!next-input-character;          !!!next-input-character;
1483          redo A;          redo A;
1484        } elsif ($self->{next_input_character} == 0x002F) { # /        } elsif ($self->{nc} == 0x002F) { # /
1485            !!!cp (50);
1486            $self->{state} = SELF_CLOSING_START_TAG_STATE;
1487          !!!next-input-character;          !!!next-input-character;
         if ($self->{next_input_character} == 0x003E and # >  
             $self->{current_token}->{type} eq 'start tag' and  
             $permitted_slash_tag_name->{$self->{current_token}->{tag_name}}) {  
           # permitted slash  
           #  
         } else {  
           !!!parse-error (type => 'nestc');  
         }  
         ## Stay in the state  
         # next-input-character is already done  
1488          redo A;          redo A;
1489        } elsif ($self->{next_input_character} == 0x003C or # <        } elsif ($self->{nc} == -1) {
                $self->{next_input_character} == -1) {  
1490          !!!parse-error (type => 'unclosed tag');          !!!parse-error (type => 'unclosed tag');
1491          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{ct}->{type} == START_TAG_TOKEN) {
1492            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            !!!cp (52);
1493          } elsif ($self->{current_token}->{type} eq 'end tag') {            $self->{last_stag_name} = $self->{ct}->{tag_name};
1494            $self->{content_model_flag} = 'PCDATA'; # MUST          } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
1495            if ($self->{current_token}->{attributes}) {            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
1496              if ($self->{ct}->{attributes}) {
1497                !!!cp (53);
1498              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
1499              } else {
1500                !!!cp (54);
1501            }            }
1502          } else {          } else {
1503            die "$0: $self->{current_token}->{type}: Unknown token type";            die "$0: $self->{ct}->{type}: Unknown token type";
1504          }          }
1505          $self->{state} = 'data';          $self->{state} = DATA_STATE;
1506          # reconsume          # reconsume
1507    
1508          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{ct}); # start tag or end tag
         undef $self->{current_token};  
1509    
1510          redo A;          redo A;
1511        } else {        } else {
1512          $self->{current_attribute} = {name => chr ($self->{next_input_character}),          if ({
1513                                value => ''};               0x0022 => 1, # "
1514          $self->{state} = 'attribute name';               0x0027 => 1, # '
1515                 0x003D => 1, # =
1516                }->{$self->{nc}}) {
1517              !!!cp (55);
1518              !!!parse-error (type => 'bad attribute name');
1519            } else {
1520              !!!cp (56);
1521            }
1522            $self->{ca}
1523                = {name => chr ($self->{nc}),
1524                   value => '',
1525                   line => $self->{line}, column => $self->{column}};
1526            $self->{state} = ATTRIBUTE_NAME_STATE;
1527          !!!next-input-character;          !!!next-input-character;
1528          redo A;          redo A;
1529        }        }
1530      } elsif ($self->{state} eq 'attribute name') {      } elsif ($self->{state} == ATTRIBUTE_NAME_STATE) {
1531        my $before_leave = sub {        my $before_leave = sub {
1532          if (exists $self->{current_token}->{attributes} # start tag or end tag          if (exists $self->{ct}->{attributes} # start tag or end tag
1533              ->{$self->{current_attribute}->{name}}) { # MUST              ->{$self->{ca}->{name}}) { # MUST
1534            !!!parse-error (type => 'dupulicate attribute');            !!!cp (57);
1535            ## Discard $self->{current_attribute} # MUST            !!!parse-error (type => 'duplicate attribute', text => $self->{ca}->{name}, line => $self->{ca}->{line}, column => $self->{ca}->{column});
1536          } else {            ## Discard $self->{ca} # MUST
1537            $self->{current_token}->{attributes}->{$self->{current_attribute}->{name}}          } else {
1538              = $self->{current_attribute};            !!!cp (58);
1539              $self->{ct}->{attributes}->{$self->{ca}->{name}}
1540                = $self->{ca};
1541          }          }
1542        }; # $before_leave        }; # $before_leave
1543    
1544        if ($self->{next_input_character} == 0x0009 or # HT        if ($is_space->{$self->{nc}}) {
1545            $self->{next_input_character} == 0x000A or # LF          !!!cp (59);
           $self->{next_input_character} == 0x000B or # VT  
           $self->{next_input_character} == 0x000C or # FF  
           $self->{next_input_character} == 0x0020) { # SP  
1546          $before_leave->();          $before_leave->();
1547          $self->{state} = 'after attribute name';          $self->{state} = AFTER_ATTRIBUTE_NAME_STATE;
1548          !!!next-input-character;          !!!next-input-character;
1549          redo A;          redo A;
1550        } elsif ($self->{next_input_character} == 0x003D) { # =        } elsif ($self->{nc} == 0x003D) { # =
1551            !!!cp (60);
1552          $before_leave->();          $before_leave->();
1553          $self->{state} = 'before attribute value';          $self->{state} = BEFORE_ATTRIBUTE_VALUE_STATE;
1554          !!!next-input-character;          !!!next-input-character;
1555          redo A;          redo A;
1556        } elsif ($self->{next_input_character} == 0x003E) { # >        } elsif ($self->{nc} == 0x003E) { # >
1557          $before_leave->();          $before_leave->();
1558          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{ct}->{type} == START_TAG_TOKEN) {
1559            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            !!!cp (61);
1560          } elsif ($self->{current_token}->{type} eq 'end tag') {            $self->{last_stag_name} = $self->{ct}->{tag_name};
1561            $self->{content_model_flag} = 'PCDATA'; # MUST          } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
1562            if ($self->{current_token}->{attributes}) {            !!!cp (62);
1563              $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
1564              if ($self->{ct}->{attributes}) {
1565              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
1566            }            }
1567          } else {          } else {
1568            die "$0: $self->{current_token}->{type}: Unknown token type";            die "$0: $self->{ct}->{type}: Unknown token type";
1569          }          }
1570          $self->{state} = 'data';          $self->{state} = DATA_STATE;
1571          !!!next-input-character;          !!!next-input-character;
1572    
1573          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{ct}); # start tag or end tag
         undef $self->{current_token};  
1574    
1575          redo A;          redo A;
1576        } elsif (0x0041 <= $self->{next_input_character} and        } elsif (0x0041 <= $self->{nc} and
1577                 $self->{next_input_character} <= 0x005A) { # A..Z                 $self->{nc} <= 0x005A) { # A..Z
1578          $self->{current_attribute}->{name} .= chr ($self->{next_input_character} + 0x0020);          !!!cp (63);
1579            $self->{ca}->{name} .= chr ($self->{nc} + 0x0020);
1580          ## Stay in the state          ## Stay in the state
1581          !!!next-input-character;          !!!next-input-character;
1582          redo A;          redo A;
1583        } elsif ($self->{next_input_character} == 0x002F) { # /        } elsif ($self->{nc} == 0x002F) { # /
1584            !!!cp (64);
1585          $before_leave->();          $before_leave->();
1586            $self->{state} = SELF_CLOSING_START_TAG_STATE;
1587          !!!next-input-character;          !!!next-input-character;
         if ($self->{next_input_character} == 0x003E and # >  
             $self->{current_token}->{type} eq 'start tag' and  
             $permitted_slash_tag_name->{$self->{current_token}->{tag_name}}) {  
           # permitted slash  
           #  
         } else {  
           !!!parse-error (type => 'nestc');  
         }  
         $self->{state} = 'before attribute name';  
         # next-input-character is already done  
1588          redo A;          redo A;
1589        } elsif ($self->{next_input_character} == 0x003C or # <        } elsif ($self->{nc} == -1) {
                $self->{next_input_character} == -1) {  
1590          !!!parse-error (type => 'unclosed tag');          !!!parse-error (type => 'unclosed tag');
1591          $before_leave->();          $before_leave->();
1592          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{ct}->{type} == START_TAG_TOKEN) {
1593            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            !!!cp (66);
1594          } elsif ($self->{current_token}->{type} eq 'end tag') {            $self->{last_stag_name} = $self->{ct}->{tag_name};
1595            $self->{content_model_flag} = 'PCDATA'; # MUST          } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
1596            if ($self->{current_token}->{attributes}) {            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
1597              if ($self->{ct}->{attributes}) {
1598                !!!cp (67);
1599              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
1600              } else {
1601                ## NOTE: This state should never be reached.
1602                !!!cp (68);
1603            }            }
1604          } else {          } else {
1605            die "$0: $self->{current_token}->{type}: Unknown token type";            die "$0: $self->{ct}->{type}: Unknown token type";
1606          }          }
1607          $self->{state} = 'data';          $self->{state} = DATA_STATE;
1608          # reconsume          # reconsume
1609    
1610          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{ct}); # start tag or end tag
         undef $self->{current_token};  
1611    
1612          redo A;          redo A;
1613        } else {        } else {
1614          $self->{current_attribute}->{name} .= chr ($self->{next_input_character});          if ($self->{nc} == 0x0022 or # "
1615                $self->{nc} == 0x0027) { # '
1616              !!!cp (69);
1617              !!!parse-error (type => 'bad attribute name');
1618            } else {
1619              !!!cp (70);
1620            }
1621            $self->{ca}->{name} .= chr ($self->{nc});
1622          ## Stay in the state          ## Stay in the state
1623          !!!next-input-character;          !!!next-input-character;
1624          redo A;          redo A;
1625        }        }
1626      } elsif ($self->{state} eq 'after attribute name') {      } elsif ($self->{state} == AFTER_ATTRIBUTE_NAME_STATE) {
1627        if ($self->{next_input_character} == 0x0009 or # HT        if ($is_space->{$self->{nc}}) {
1628            $self->{next_input_character} == 0x000A or # LF          !!!cp (71);
           $self->{next_input_character} == 0x000B or # VT  
           $self->{next_input_character} == 0x000C or # FF  
           $self->{next_input_character} == 0x0020) { # SP  
1629          ## Stay in the state          ## Stay in the state
1630          !!!next-input-character;          !!!next-input-character;
1631          redo A;          redo A;
1632        } elsif ($self->{next_input_character} == 0x003D) { # =        } elsif ($self->{nc} == 0x003D) { # =
1633          $self->{state} = 'before attribute value';          !!!cp (72);
1634            $self->{state} = BEFORE_ATTRIBUTE_VALUE_STATE;
1635          !!!next-input-character;          !!!next-input-character;
1636          redo A;          redo A;
1637        } elsif ($self->{next_input_character} == 0x003E) { # >        } elsif ($self->{nc} == 0x003E) { # >
1638          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{ct}->{type} == START_TAG_TOKEN) {
1639            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            !!!cp (73);
1640          } elsif ($self->{current_token}->{type} eq 'end tag') {            $self->{last_stag_name} = $self->{ct}->{tag_name};
1641            $self->{content_model_flag} = 'PCDATA'; # MUST          } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
1642            if ($self->{current_token}->{attributes}) {            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
1643              if ($self->{ct}->{attributes}) {
1644                !!!cp (74);
1645              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
1646              } else {
1647                ## NOTE: This state should never be reached.
1648                !!!cp (75);
1649            }            }
1650          } else {          } else {
1651            die "$0: $self->{current_token}->{type}: Unknown token type";            die "$0: $self->{ct}->{type}: Unknown token type";
1652          }          }
1653          $self->{state} = 'data';          $self->{state} = DATA_STATE;
1654          !!!next-input-character;          !!!next-input-character;
1655    
1656          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{ct}); # start tag or end tag
         undef $self->{current_token};  
1657    
1658          redo A;          redo A;
1659        } elsif (0x0041 <= $self->{next_input_character} and        } elsif (0x0041 <= $self->{nc} and
1660                 $self->{next_input_character} <= 0x005A) { # A..Z                 $self->{nc} <= 0x005A) { # A..Z
1661          $self->{current_attribute} = {name => chr ($self->{next_input_character} + 0x0020),          !!!cp (76);
1662                                value => ''};          $self->{ca}
1663          $self->{state} = 'attribute name';              = {name => chr ($self->{nc} + 0x0020),
1664                   value => '',
1665                   line => $self->{line}, column => $self->{column}};
1666            $self->{state} = ATTRIBUTE_NAME_STATE;
1667          !!!next-input-character;          !!!next-input-character;
1668          redo A;          redo A;
1669        } elsif ($self->{next_input_character} == 0x002F) { # /        } elsif ($self->{nc} == 0x002F) { # /
1670            !!!cp (77);
1671            $self->{state} = SELF_CLOSING_START_TAG_STATE;
1672          !!!next-input-character;          !!!next-input-character;
         if ($self->{next_input_character} == 0x003E and # >  
             $self->{current_token}->{type} eq 'start tag' and  
             $permitted_slash_tag_name->{$self->{current_token}->{tag_name}}) {  
           # permitted slash  
           #  
         } else {  
           !!!parse-error (type => 'nestc');  
         }  
         $self->{state} = 'before attribute name';  
         # next-input-character is already done  
1673          redo A;          redo A;
1674        } elsif ($self->{next_input_character} == 0x003C or # <        } elsif ($self->{nc} == -1) {
                $self->{next_input_character} == -1) {  
1675          !!!parse-error (type => 'unclosed tag');          !!!parse-error (type => 'unclosed tag');
1676          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{ct}->{type} == START_TAG_TOKEN) {
1677            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            !!!cp (79);
1678          } elsif ($self->{current_token}->{type} eq 'end tag') {            $self->{last_stag_name} = $self->{ct}->{tag_name};
1679            $self->{content_model_flag} = 'PCDATA'; # MUST          } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
1680            if ($self->{current_token}->{attributes}) {            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
1681              if ($self->{ct}->{attributes}) {
1682                !!!cp (80);
1683              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
1684              } else {
1685                ## NOTE: This state should never be reached.
1686                !!!cp (81);
1687            }            }
1688          } else {          } else {
1689            die "$0: $self->{current_token}->{type}: Unknown token type";            die "$0: $self->{ct}->{type}: Unknown token type";
1690          }          }
1691          $self->{state} = 'data';          $self->{state} = DATA_STATE;
1692          # reconsume          # reconsume
1693    
1694          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{ct}); # start tag or end tag
         undef $self->{current_token};  
1695    
1696          redo A;          redo A;
1697        } else {        } else {
1698          $self->{current_attribute} = {name => chr ($self->{next_input_character}),          if ($self->{nc} == 0x0022 or # "
1699                                value => ''};              $self->{nc} == 0x0027) { # '
1700          $self->{state} = 'attribute name';            !!!cp (78);
1701              !!!parse-error (type => 'bad attribute name');
1702            } else {
1703              !!!cp (82);
1704            }
1705            $self->{ca}
1706                = {name => chr ($self->{nc}),
1707                   value => '',
1708                   line => $self->{line}, column => $self->{column}};
1709            $self->{state} = ATTRIBUTE_NAME_STATE;
1710          !!!next-input-character;          !!!next-input-character;
1711          redo A;                  redo A;        
1712        }        }
1713      } elsif ($self->{state} eq 'before attribute value') {      } elsif ($self->{state} == BEFORE_ATTRIBUTE_VALUE_STATE) {
1714        if ($self->{next_input_character} == 0x0009 or # HT        if ($is_space->{$self->{nc}}) {
1715            $self->{next_input_character} == 0x000A or # LF          !!!cp (83);
           $self->{next_input_character} == 0x000B or # VT  
           $self->{next_input_character} == 0x000C or # FF  
           $self->{next_input_character} == 0x0020) { # SP        
1716          ## Stay in the state          ## Stay in the state
1717          !!!next-input-character;          !!!next-input-character;
1718          redo A;          redo A;
1719        } elsif ($self->{next_input_character} == 0x0022) { # "        } elsif ($self->{nc} == 0x0022) { # "
1720          $self->{state} = 'attribute value (double-quoted)';          !!!cp (84);
1721            $self->{state} = ATTRIBUTE_VALUE_DOUBLE_QUOTED_STATE;
1722          !!!next-input-character;          !!!next-input-character;
1723          redo A;          redo A;
1724        } elsif ($self->{next_input_character} == 0x0026) { # &        } elsif ($self->{nc} == 0x0026) { # &
1725          $self->{state} = 'attribute value (unquoted)';          !!!cp (85);
1726            $self->{state} = ATTRIBUTE_VALUE_UNQUOTED_STATE;
1727          ## reconsume          ## reconsume
1728          redo A;          redo A;
1729        } elsif ($self->{next_input_character} == 0x0027) { # '        } elsif ($self->{nc} == 0x0027) { # '
1730          $self->{state} = 'attribute value (single-quoted)';          !!!cp (86);
1731            $self->{state} = ATTRIBUTE_VALUE_SINGLE_QUOTED_STATE;
1732          !!!next-input-character;          !!!next-input-character;
1733          redo A;          redo A;
1734        } elsif ($self->{next_input_character} == 0x003E) { # >        } elsif ($self->{nc} == 0x003E) { # >
1735          if ($self->{current_token}->{type} eq 'start tag') {          !!!parse-error (type => 'empty unquoted attribute value');
1736            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};          if ($self->{ct}->{type} == START_TAG_TOKEN) {
1737          } elsif ($self->{current_token}->{type} eq 'end tag') {            !!!cp (87);
1738            $self->{content_model_flag} = 'PCDATA'; # MUST            $self->{last_stag_name} = $self->{ct}->{tag_name};
1739            if ($self->{current_token}->{attributes}) {          } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
1740              $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
1741              if ($self->{ct}->{attributes}) {
1742                !!!cp (88);
1743              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
1744              } else {
1745                ## NOTE: This state should never be reached.
1746                !!!cp (89);
1747            }            }
1748          } else {          } else {
1749            die "$0: $self->{current_token}->{type}: Unknown token type";            die "$0: $self->{ct}->{type}: Unknown token type";
1750          }          }
1751          $self->{state} = 'data';          $self->{state} = DATA_STATE;
1752          !!!next-input-character;          !!!next-input-character;
1753    
1754          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{ct}); # start tag or end tag
         undef $self->{current_token};  
1755    
1756          redo A;          redo A;
1757        } elsif ($self->{next_input_character} == 0x003C or # <        } elsif ($self->{nc} == -1) {
                $self->{next_input_character} == -1) {  
1758          !!!parse-error (type => 'unclosed tag');          !!!parse-error (type => 'unclosed tag');
1759          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{ct}->{type} == START_TAG_TOKEN) {
1760            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            !!!cp (90);
1761          } elsif ($self->{current_token}->{type} eq 'end tag') {            $self->{last_stag_name} = $self->{ct}->{tag_name};
1762            $self->{content_model_flag} = 'PCDATA'; # MUST          } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
1763            if ($self->{current_token}->{attributes}) {            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
1764              if ($self->{ct}->{attributes}) {
1765                !!!cp (91);
1766              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
1767              } else {
1768                ## NOTE: This state should never be reached.
1769                !!!cp (92);
1770            }            }
1771          } else {          } else {
1772            die "$0: $self->{current_token}->{type}: Unknown token type";            die "$0: $self->{ct}->{type}: Unknown token type";
1773          }          }
1774          $self->{state} = 'data';          $self->{state} = DATA_STATE;
1775          ## reconsume          ## reconsume
1776    
1777          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{ct}); # start tag or end tag
         undef $self->{current_token};  
1778    
1779          redo A;          redo A;
1780        } else {        } else {
1781          $self->{current_attribute}->{value} .= chr ($self->{next_input_character});          if ($self->{nc} == 0x003D) { # =
1782          $self->{state} = 'attribute value (unquoted)';            !!!cp (93);
1783              !!!parse-error (type => 'bad attribute value');
1784            } else {
1785              !!!cp (94);
1786            }
1787            $self->{ca}->{value} .= chr ($self->{nc});
1788            $self->{state} = ATTRIBUTE_VALUE_UNQUOTED_STATE;
1789          !!!next-input-character;          !!!next-input-character;
1790          redo A;          redo A;
1791        }        }
1792      } elsif ($self->{state} eq 'attribute value (double-quoted)') {      } elsif ($self->{state} == ATTRIBUTE_VALUE_DOUBLE_QUOTED_STATE) {
1793        if ($self->{next_input_character} == 0x0022) { # "        if ($self->{nc} == 0x0022) { # "
1794          $self->{state} = 'before attribute name';          !!!cp (95);
1795            $self->{state} = AFTER_ATTRIBUTE_VALUE_QUOTED_STATE;
1796          !!!next-input-character;          !!!next-input-character;
1797          redo A;          redo A;
1798        } elsif ($self->{next_input_character} == 0x0026) { # &        } elsif ($self->{nc} == 0x0026) { # &
1799          $self->{last_attribute_value_state} = 'attribute value (double-quoted)';          !!!cp (96);
1800          $self->{state} = 'entity in attribute value';          ## NOTE: In the spec, the tokenizer is switched to the
1801            ## "entity in attribute value state".  In this implementation, the
1802            ## tokenizer is switched to the |ENTITY_STATE|, which is an
1803            ## implementation of the "consume a character reference" algorithm.
1804            $self->{prev_state} = $self->{state};
1805            $self->{entity_add} = 0x0022; # "
1806            $self->{state} = ENTITY_STATE;
1807          !!!next-input-character;          !!!next-input-character;
1808          redo A;          redo A;
1809        } elsif ($self->{next_input_character} == -1) {        } elsif ($self->{nc} == -1) {
1810          !!!parse-error (type => 'unclosed attribute value');          !!!parse-error (type => 'unclosed attribute value');
1811          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{ct}->{type} == START_TAG_TOKEN) {
1812            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            !!!cp (97);
1813          } elsif ($self->{current_token}->{type} eq 'end tag') {            $self->{last_stag_name} = $self->{ct}->{tag_name};
1814            $self->{content_model_flag} = 'PCDATA'; # MUST          } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
1815            if ($self->{current_token}->{attributes}) {            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
1816              if ($self->{ct}->{attributes}) {
1817                !!!cp (98);
1818              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
1819              } else {
1820                ## NOTE: This state should never be reached.
1821                !!!cp (99);
1822            }            }
1823          } else {          } else {
1824            die "$0: $self->{current_token}->{type}: Unknown token type";            die "$0: $self->{ct}->{type}: Unknown token type";
1825          }          }
1826          $self->{state} = 'data';          $self->{state} = DATA_STATE;
1827          ## reconsume          ## reconsume
1828    
1829          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{ct}); # start tag or end tag
         undef $self->{current_token};  
1830    
1831          redo A;          redo A;
1832        } else {        } else {
1833          $self->{current_attribute}->{value} .= chr ($self->{next_input_character});          !!!cp (100);
1834            $self->{ca}->{value} .= chr ($self->{nc});
1835            $self->{read_until}->($self->{ca}->{value},
1836                                  q["&],
1837                                  length $self->{ca}->{value});
1838    
1839          ## Stay in the state          ## Stay in the state
1840          !!!next-input-character;          !!!next-input-character;
1841          redo A;          redo A;
1842        }        }
1843      } elsif ($self->{state} eq 'attribute value (single-quoted)') {      } elsif ($self->{state} == ATTRIBUTE_VALUE_SINGLE_QUOTED_STATE) {
1844        if ($self->{next_input_character} == 0x0027) { # '        if ($self->{nc} == 0x0027) { # '
1845          $self->{state} = 'before attribute name';          !!!cp (101);
1846          !!!next-input-character;          $self->{state} = AFTER_ATTRIBUTE_VALUE_QUOTED_STATE;
1847          redo A;          !!!next-input-character;
1848        } elsif ($self->{next_input_character} == 0x0026) { # &          redo A;
1849          $self->{last_attribute_value_state} = 'attribute value (single-quoted)';        } elsif ($self->{nc} == 0x0026) { # &
1850          $self->{state} = 'entity in attribute value';          !!!cp (102);
1851            ## NOTE: In the spec, the tokenizer is switched to the
1852            ## "entity in attribute value state".  In this implementation, the
1853            ## tokenizer is switched to the |ENTITY_STATE|, which is an
1854            ## implementation of the "consume a character reference" algorithm.
1855            $self->{entity_add} = 0x0027; # '
1856            $self->{prev_state} = $self->{state};
1857            $self->{state} = ENTITY_STATE;
1858          !!!next-input-character;          !!!next-input-character;
1859          redo A;          redo A;
1860        } elsif ($self->{next_input_character} == -1) {        } elsif ($self->{nc} == -1) {
1861          !!!parse-error (type => 'unclosed attribute value');          !!!parse-error (type => 'unclosed attribute value');
1862          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{ct}->{type} == START_TAG_TOKEN) {
1863            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            !!!cp (103);
1864          } elsif ($self->{current_token}->{type} eq 'end tag') {            $self->{last_stag_name} = $self->{ct}->{tag_name};
1865            $self->{content_model_flag} = 'PCDATA'; # MUST          } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
1866            if ($self->{current_token}->{attributes}) {            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
1867              if ($self->{ct}->{attributes}) {
1868                !!!cp (104);
1869              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
1870              } else {
1871                ## NOTE: This state should never be reached.
1872                !!!cp (105);
1873            }            }
1874          } else {          } else {
1875            die "$0: $self->{current_token}->{type}: Unknown token type";            die "$0: $self->{ct}->{type}: Unknown token type";
1876          }          }
1877          $self->{state} = 'data';          $self->{state} = DATA_STATE;
1878          ## reconsume          ## reconsume
1879    
1880          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{ct}); # start tag or end tag
         undef $self->{current_token};  
1881    
1882          redo A;          redo A;
1883        } else {        } else {
1884          $self->{current_attribute}->{value} .= chr ($self->{next_input_character});          !!!cp (106);
1885            $self->{ca}->{value} .= chr ($self->{nc});
1886            $self->{read_until}->($self->{ca}->{value},
1887                                  q['&],
1888                                  length $self->{ca}->{value});
1889    
1890          ## Stay in the state          ## Stay in the state
1891          !!!next-input-character;          !!!next-input-character;
1892          redo A;          redo A;
1893        }        }
1894      } elsif ($self->{state} eq 'attribute value (unquoted)') {      } elsif ($self->{state} == ATTRIBUTE_VALUE_UNQUOTED_STATE) {
1895        if ($self->{next_input_character} == 0x0009 or # HT        if ($is_space->{$self->{nc}}) {
1896            $self->{next_input_character} == 0x000A or # LF          !!!cp (107);
1897            $self->{next_input_character} == 0x000B or # HT          $self->{state} = BEFORE_ATTRIBUTE_NAME_STATE;
1898            $self->{next_input_character} == 0x000C or # FF          !!!next-input-character;
1899            $self->{next_input_character} == 0x0020) { # SP          redo A;
1900          $self->{state} = 'before attribute name';        } elsif ($self->{nc} == 0x0026) { # &
1901          !!!next-input-character;          !!!cp (108);
1902          redo A;          ## NOTE: In the spec, the tokenizer is switched to the
1903        } elsif ($self->{next_input_character} == 0x0026) { # &          ## "entity in attribute value state".  In this implementation, the
1904          $self->{last_attribute_value_state} = 'attribute value (unquoted)';          ## tokenizer is switched to the |ENTITY_STATE|, which is an
1905          $self->{state} = 'entity in attribute value';          ## implementation of the "consume a character reference" algorithm.
1906          !!!next-input-character;          $self->{entity_add} = -1;
1907          redo A;          $self->{prev_state} = $self->{state};
1908        } elsif ($self->{next_input_character} == 0x003E) { # >          $self->{state} = ENTITY_STATE;
1909          if ($self->{current_token}->{type} eq 'start tag') {          !!!next-input-character;
1910            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};          redo A;
1911          } elsif ($self->{current_token}->{type} eq 'end tag') {        } elsif ($self->{nc} == 0x003E) { # >
1912            $self->{content_model_flag} = 'PCDATA'; # MUST          if ($self->{ct}->{type} == START_TAG_TOKEN) {
1913            if ($self->{current_token}->{attributes}) {            !!!cp (109);
1914              $self->{last_stag_name} = $self->{ct}->{tag_name};
1915            } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
1916              $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
1917              if ($self->{ct}->{attributes}) {
1918                !!!cp (110);
1919              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
1920              } else {
1921                ## NOTE: This state should never be reached.
1922                !!!cp (111);
1923            }            }
1924          } else {          } else {
1925            die "$0: $self->{current_token}->{type}: Unknown token type";            die "$0: $self->{ct}->{type}: Unknown token type";
1926          }          }
1927          $self->{state} = 'data';          $self->{state} = DATA_STATE;
1928          !!!next-input-character;          !!!next-input-character;
1929    
1930          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{ct}); # start tag or end tag
         undef $self->{current_token};  
1931    
1932          redo A;          redo A;
1933        } elsif ($self->{next_input_character} == 0x003C or # <        } elsif ($self->{nc} == -1) {
                $self->{next_input_character} == -1) {  
1934          !!!parse-error (type => 'unclosed tag');          !!!parse-error (type => 'unclosed tag');
1935          if ($self->{current_token}->{type} eq 'start tag') {          if ($self->{ct}->{type} == START_TAG_TOKEN) {
1936            $self->{last_emitted_start_tag_name} = $self->{current_token}->{tag_name};            !!!cp (112);
1937          } elsif ($self->{current_token}->{type} eq 'end tag') {            $self->{last_stag_name} = $self->{ct}->{tag_name};
1938            $self->{content_model_flag} = 'PCDATA'; # MUST          } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
1939            if ($self->{current_token}->{attributes}) {            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
1940              if ($self->{ct}->{attributes}) {
1941                !!!cp (113);
1942              !!!parse-error (type => 'end tag attribute');              !!!parse-error (type => 'end tag attribute');
1943              } else {
1944                ## NOTE: This state should never be reached.
1945                !!!cp (114);
1946            }            }
1947          } else {          } else {
1948            die "$0: $self->{current_token}->{type}: Unknown token type";            die "$0: $self->{ct}->{type}: Unknown token type";
1949          }          }
1950          $self->{state} = 'data';          $self->{state} = DATA_STATE;
1951          ## reconsume          ## reconsume
1952    
1953          !!!emit ($self->{current_token}); # start tag or end tag          !!!emit ($self->{ct}); # start tag or end tag
         undef $self->{current_token};  
1954    
1955          redo A;          redo A;
1956        } else {        } else {
1957          $self->{current_attribute}->{value} .= chr ($self->{next_input_character});          if ({
1958                 0x0022 => 1, # "
1959                 0x0027 => 1, # '
1960                 0x003D => 1, # =
1961                }->{$self->{nc}}) {
1962              !!!cp (115);
1963              !!!parse-error (type => 'bad attribute value');
1964            } else {
1965              !!!cp (116);
1966            }
1967            $self->{ca}->{value} .= chr ($self->{nc});
1968            $self->{read_until}->($self->{ca}->{value},
1969                                  q["'=& >],
1970                                  length $self->{ca}->{value});
1971    
1972          ## Stay in the state          ## Stay in the state
1973          !!!next-input-character;          !!!next-input-character;
1974          redo A;          redo A;
1975        }        }
1976      } elsif ($self->{state} eq 'entity in attribute value') {      } elsif ($self->{state} == AFTER_ATTRIBUTE_VALUE_QUOTED_STATE) {
1977        my $token = $self->_tokenize_attempt_to_consume_an_entity;        if ($is_space->{$self->{nc}}) {
1978            !!!cp (118);
1979            $self->{state} = BEFORE_ATTRIBUTE_NAME_STATE;
1980            !!!next-input-character;
1981            redo A;
1982          } elsif ($self->{nc} == 0x003E) { # >
1983            if ($self->{ct}->{type} == START_TAG_TOKEN) {
1984              !!!cp (119);
1985              $self->{last_stag_name} = $self->{ct}->{tag_name};
1986            } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
1987              $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
1988              if ($self->{ct}->{attributes}) {
1989                !!!cp (120);
1990                !!!parse-error (type => 'end tag attribute');
1991              } else {
1992                ## NOTE: This state should never be reached.
1993                !!!cp (121);
1994              }
1995            } else {
1996              die "$0: $self->{ct}->{type}: Unknown token type";
1997            }
1998            $self->{state} = DATA_STATE;
1999            !!!next-input-character;
2000    
2001        unless (defined $token) {          !!!emit ($self->{ct}); # start tag or end tag
2002          $self->{current_attribute}->{value} .= '&';  
2003            redo A;
2004          } elsif ($self->{nc} == 0x002F) { # /
2005            !!!cp (122);
2006            $self->{state} = SELF_CLOSING_START_TAG_STATE;
2007            !!!next-input-character;
2008            redo A;
2009          } elsif ($self->{nc} == -1) {
2010            !!!parse-error (type => 'unclosed tag');
2011            if ($self->{ct}->{type} == START_TAG_TOKEN) {
2012              !!!cp (122.3);
2013              $self->{last_stag_name} = $self->{ct}->{tag_name};
2014            } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
2015              if ($self->{ct}->{attributes}) {
2016                !!!cp (122.1);
2017                !!!parse-error (type => 'end tag attribute');
2018              } else {
2019                ## NOTE: This state should never be reached.
2020                !!!cp (122.2);
2021              }
2022            } else {
2023              die "$0: $self->{ct}->{type}: Unknown token type";
2024            }
2025            $self->{state} = DATA_STATE;
2026            ## Reconsume.
2027            !!!emit ($self->{ct}); # start tag or end tag
2028            redo A;
2029        } else {        } else {
2030          $self->{current_attribute}->{value} .= $token->{data};          !!!cp ('124.1');
2031          ## ISSUE: spec says "append the returned character token to the current attribute's value"          !!!parse-error (type => 'no space between attributes');
2032            $self->{state} = BEFORE_ATTRIBUTE_NAME_STATE;
2033            ## reconsume
2034            redo A;
2035        }        }
2036        } elsif ($self->{state} == SELF_CLOSING_START_TAG_STATE) {
2037          if ($self->{nc} == 0x003E) { # >
2038            if ($self->{ct}->{type} == END_TAG_TOKEN) {
2039              !!!cp ('124.2');
2040              !!!parse-error (type => 'nestc', token => $self->{ct});
2041              ## TODO: Different type than slash in start tag
2042              $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
2043              if ($self->{ct}->{attributes}) {
2044                !!!cp ('124.4');
2045                !!!parse-error (type => 'end tag attribute');
2046              } else {
2047                !!!cp ('124.5');
2048              }
2049              ## TODO: Test |<title></title/>|
2050            } else {
2051              !!!cp ('124.3');
2052              $self->{self_closing} = 1;
2053            }
2054    
2055        $self->{state} = $self->{last_attribute_value_state};          $self->{state} = DATA_STATE;
2056        # next-input-character is already done          !!!next-input-character;
       redo A;  
     } elsif ($self->{state} eq 'bogus comment') {  
       ## (only happen if PCDATA state)  
         
       my $token = {type => 'comment', data => ''};  
   
       BC: {  
         if ($self->{next_input_character} == 0x003E) { # >  
           $self->{state} = 'data';  
           !!!next-input-character;  
   
           !!!emit ($token);  
   
           redo A;  
         } elsif ($self->{next_input_character} == -1) {  
           $self->{state} = 'data';  
           ## reconsume  
2057    
2058            !!!emit ($token);          !!!emit ($self->{ct}); # start tag or end tag
2059    
2060            redo A;          redo A;
2061          } elsif ($self->{nc} == -1) {
2062            !!!parse-error (type => 'unclosed tag');
2063            if ($self->{ct}->{type} == START_TAG_TOKEN) {
2064              !!!cp (124.7);
2065              $self->{last_stag_name} = $self->{ct}->{tag_name};
2066            } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
2067              if ($self->{ct}->{attributes}) {
2068                !!!cp (124.5);
2069                !!!parse-error (type => 'end tag attribute');
2070              } else {
2071                ## NOTE: This state should never be reached.
2072                !!!cp (124.6);
2073              }
2074          } else {          } else {
2075            $token->{data} .= chr ($self->{next_input_character});            die "$0: $self->{ct}->{type}: Unknown token type";
           !!!next-input-character;  
           redo BC;  
2076          }          }
2077        } # BC          $self->{state} = DATA_STATE;
2078      } elsif ($self->{state} eq 'markup declaration open') {          ## Reconsume.
2079            !!!emit ($self->{ct}); # start tag or end tag
2080            redo A;
2081          } else {
2082            !!!cp ('124.4');
2083            !!!parse-error (type => 'nestc');
2084            ## TODO: This error type is wrong.
2085            $self->{state} = BEFORE_ATTRIBUTE_NAME_STATE;
2086            ## Reconsume.
2087            redo A;
2088          }
2089        } elsif ($self->{state} == BOGUS_COMMENT_STATE) {
2090        ## (only happen if PCDATA state)        ## (only happen if PCDATA state)
2091    
2092        my @next_char;        ## NOTE: Unlike spec's "bogus comment state", this implementation
2093        push @next_char, $self->{next_input_character};        ## consumes characters one-by-one basis.
2094                
2095        if ($self->{next_input_character} == 0x002D) { # -        if ($self->{nc} == 0x003E) { # >
2096            !!!cp (124);
2097            $self->{state} = DATA_STATE;
2098          !!!next-input-character;          !!!next-input-character;
2099          push @next_char, $self->{next_input_character};  
2100          if ($self->{next_input_character} == 0x002D) { # -          !!!emit ($self->{ct}); # comment
2101            $self->{current_token} = {type => 'comment', data => ''};          redo A;
2102            $self->{state} = 'comment';        } elsif ($self->{nc} == -1) {
2103            !!!next-input-character;          !!!cp (125);
2104            redo A;          $self->{state} = DATA_STATE;
2105          }          ## reconsume
2106        } elsif ($self->{next_input_character} == 0x0044 or # D  
2107                 $self->{next_input_character} == 0x0064) { # d          !!!emit ($self->{ct}); # comment
2108            redo A;
2109          } else {
2110            !!!cp (126);
2111            $self->{ct}->{data} .= chr ($self->{nc}); # comment
2112            $self->{read_until}->($self->{ct}->{data},
2113                                  q[>],
2114                                  length $self->{ct}->{data});
2115    
2116            ## Stay in the state.
2117          !!!next-input-character;          !!!next-input-character;
2118          push @next_char, $self->{next_input_character};          redo A;
2119          if ($self->{next_input_character} == 0x004F or # O        }
2120              $self->{next_input_character} == 0x006F) { # o      } elsif ($self->{state} == MARKUP_DECLARATION_OPEN_STATE) {
2121            !!!next-input-character;        ## (only happen if PCDATA state)
2122            push @next_char, $self->{next_input_character};        
2123            if ($self->{next_input_character} == 0x0043 or # C        if ($self->{nc} == 0x002D) { # -
2124                $self->{next_input_character} == 0x0063) { # c          !!!cp (133);
2125              !!!next-input-character;          $self->{state} = MD_HYPHEN_STATE;
2126              push @next_char, $self->{next_input_character};          !!!next-input-character;
2127              if ($self->{next_input_character} == 0x0054 or # T          redo A;
2128                  $self->{next_input_character} == 0x0074) { # t        } elsif ($self->{nc} == 0x0044 or # D
2129                !!!next-input-character;                 $self->{nc} == 0x0064) { # d
2130                push @next_char, $self->{next_input_character};          ## ASCII case-insensitive.
2131                if ($self->{next_input_character} == 0x0059 or # Y          !!!cp (130);
2132                    $self->{next_input_character} == 0x0079) { # y          $self->{state} = MD_DOCTYPE_STATE;
2133                  !!!next-input-character;          $self->{s_kwd} = chr $self->{nc};
2134                  push @next_char, $self->{next_input_character};          !!!next-input-character;
2135                  if ($self->{next_input_character} == 0x0050 or # P          redo A;
2136                      $self->{next_input_character} == 0x0070) { # p        } elsif ($self->{insertion_mode} & IN_FOREIGN_CONTENT_IM and
2137                    !!!next-input-character;                 $self->{open_elements}->[-1]->[1] & FOREIGN_EL and
2138                    push @next_char, $self->{next_input_character};                 $self->{nc} == 0x005B) { # [
2139                    if ($self->{next_input_character} == 0x0045 or # E          !!!cp (135.4);                
2140                        $self->{next_input_character} == 0x0065) { # e          $self->{state} = MD_CDATA_STATE;
2141                      ## ISSUE: What a stupid code this is!          $self->{s_kwd} = '[';
2142                      $self->{state} = 'DOCTYPE';          !!!next-input-character;
2143                      !!!next-input-character;          redo A;
2144                      redo A;        } else {
2145                    }          !!!cp (136);
                 }  
               }  
             }  
           }  
         }  
2146        }        }
2147    
2148        !!!parse-error (type => 'bogus comment open');        !!!parse-error (type => 'bogus comment',
2149        $self->{next_input_character} = shift @next_char;                        line => $self->{line_prev},
2150        !!!back-next-input-character (@next_char);                        column => $self->{column_prev} - 1);
2151        $self->{state} = 'bogus comment';        ## Reconsume.
2152          $self->{state} = BOGUS_COMMENT_STATE;
2153          $self->{ct} = {type => COMMENT_TOKEN, data => '',
2154                                    line => $self->{line_prev},
2155                                    column => $self->{column_prev} - 1,
2156                                   };
2157        redo A;        redo A;
2158              } elsif ($self->{state} == MD_HYPHEN_STATE) {
2159        ## ISSUE: typos in spec: chacacters, is is a parse error        if ($self->{nc} == 0x002D) { # -
2160        ## ISSUE: spec is somewhat unclear on "is the first character that will be in the comment"; what is "that will be in the comment" is what the algorithm defines, isn't it?          !!!cp (127);
2161      } elsif ($self->{state} eq 'comment') {          $self->{ct} = {type => COMMENT_TOKEN, data => '',
2162        if ($self->{next_input_character} == 0x002D) { # -                                    line => $self->{line_prev},
2163          $self->{state} = 'comment dash';                                    column => $self->{column_prev} - 2,
2164                                     };
2165            $self->{state} = COMMENT_START_STATE;
2166            !!!next-input-character;
2167            redo A;
2168          } else {
2169            !!!cp (128);
2170            !!!parse-error (type => 'bogus comment',
2171                            line => $self->{line_prev},
2172                            column => $self->{column_prev} - 2);
2173            $self->{state} = BOGUS_COMMENT_STATE;
2174            ## Reconsume.
2175            $self->{ct} = {type => COMMENT_TOKEN,
2176                                      data => '-',
2177                                      line => $self->{line_prev},
2178                                      column => $self->{column_prev} - 2,
2179                                     };
2180            redo A;
2181          }
2182        } elsif ($self->{state} == MD_DOCTYPE_STATE) {
2183          ## ASCII case-insensitive.
2184          if ($self->{nc} == [
2185                undef,
2186                0x004F, # O
2187                0x0043, # C
2188                0x0054, # T
2189                0x0059, # Y
2190                0x0050, # P
2191              ]->[length $self->{s_kwd}] or
2192              $self->{nc} == [
2193                undef,
2194                0x006F, # o
2195                0x0063, # c
2196                0x0074, # t
2197                0x0079, # y
2198                0x0070, # p
2199              ]->[length $self->{s_kwd}]) {
2200            !!!cp (131);
2201            ## Stay in the state.
2202            $self->{s_kwd} .= chr $self->{nc};
2203            !!!next-input-character;
2204            redo A;
2205          } elsif ((length $self->{s_kwd}) == 6 and
2206                   ($self->{nc} == 0x0045 or # E
2207                    $self->{nc} == 0x0065)) { # e
2208            !!!cp (129);
2209            $self->{state} = DOCTYPE_STATE;
2210            $self->{ct} = {type => DOCTYPE_TOKEN,
2211                                      quirks => 1,
2212                                      line => $self->{line_prev},
2213                                      column => $self->{column_prev} - 7,
2214                                     };
2215            !!!next-input-character;
2216            redo A;
2217          } else {
2218            !!!cp (132);        
2219            !!!parse-error (type => 'bogus comment',
2220                            line => $self->{line_prev},
2221                            column => $self->{column_prev} - 1 - length $self->{s_kwd});
2222            $self->{state} = BOGUS_COMMENT_STATE;
2223            ## Reconsume.
2224            $self->{ct} = {type => COMMENT_TOKEN,
2225                                      data => $self->{s_kwd},
2226                                      line => $self->{line_prev},
2227                                      column => $self->{column_prev} - 1 - length $self->{s_kwd},
2228                                     };
2229            redo A;
2230          }
2231        } elsif ($self->{state} == MD_CDATA_STATE) {
2232          if ($self->{nc} == {
2233                '[' => 0x0043, # C
2234                '[C' => 0x0044, # D
2235                '[CD' => 0x0041, # A
2236                '[CDA' => 0x0054, # T
2237                '[CDAT' => 0x0041, # A
2238              }->{$self->{s_kwd}}) {
2239            !!!cp (135.1);
2240            ## Stay in the state.
2241            $self->{s_kwd} .= chr $self->{nc};
2242            !!!next-input-character;
2243            redo A;
2244          } elsif ($self->{s_kwd} eq '[CDATA' and
2245                   $self->{nc} == 0x005B) { # [
2246            !!!cp (135.2);
2247            $self->{ct} = {type => CHARACTER_TOKEN,
2248                                      data => '',
2249                                      line => $self->{line_prev},
2250                                      column => $self->{column_prev} - 7};
2251            $self->{state} = CDATA_SECTION_STATE;
2252            !!!next-input-character;
2253            redo A;
2254          } else {
2255            !!!cp (135.3);
2256            !!!parse-error (type => 'bogus comment',
2257                            line => $self->{line_prev},
2258                            column => $self->{column_prev} - 1 - length $self->{s_kwd});
2259            $self->{state} = BOGUS_COMMENT_STATE;
2260            ## Reconsume.
2261            $self->{ct} = {type => COMMENT_TOKEN,
2262                                      data => $self->{s_kwd},
2263                                      line => $self->{line_prev},
2264                                      column => $self->{column_prev} - 1 - length $self->{s_kwd},
2265                                     };
2266            redo A;
2267          }
2268        } elsif ($self->{state} == COMMENT_START_STATE) {
2269          if ($self->{nc} == 0x002D) { # -
2270            !!!cp (137);
2271            $self->{state} = COMMENT_START_DASH_STATE;
2272          !!!next-input-character;          !!!next-input-character;
2273          redo A;          redo A;
2274        } elsif ($self->{next_input_character} == -1) {        } elsif ($self->{nc} == 0x003E) { # >
2275            !!!cp (138);
2276            !!!parse-error (type => 'bogus comment');
2277            $self->{state} = DATA_STATE;
2278            !!!next-input-character;
2279    
2280            !!!emit ($self->{ct}); # comment
2281    
2282            redo A;
2283          } elsif ($self->{nc} == -1) {
2284            !!!cp (139);
2285          !!!parse-error (type => 'unclosed comment');          !!!parse-error (type => 'unclosed comment');
2286          $self->{state} = 'data';          $self->{state} = DATA_STATE;
2287          ## reconsume          ## reconsume
2288    
2289          !!!emit ($self->{current_token}); # comment          !!!emit ($self->{ct}); # comment
         undef $self->{current_token};  
2290    
2291          redo A;          redo A;
2292        } else {        } else {
2293          $self->{current_token}->{data} .= chr ($self->{next_input_character}); # comment          !!!cp (140);
2294            $self->{ct}->{data} # comment
2295                .= chr ($self->{nc});
2296            $self->{state} = COMMENT_STATE;
2297            !!!next-input-character;
2298            redo A;
2299          }
2300        } elsif ($self->{state} == COMMENT_START_DASH_STATE) {
2301          if ($self->{nc} == 0x002D) { # -
2302            !!!cp (141);
2303            $self->{state} = COMMENT_END_STATE;
2304            !!!next-input-character;
2305            redo A;
2306          } elsif ($self->{nc} == 0x003E) { # >
2307            !!!cp (142);
2308            !!!parse-error (type => 'bogus comment');
2309            $self->{state} = DATA_STATE;
2310            !!!next-input-character;
2311    
2312            !!!emit ($self->{ct}); # comment
2313    
2314            redo A;
2315          } elsif ($self->{nc} == -1) {
2316            !!!cp (143);
2317            !!!parse-error (type => 'unclosed comment');
2318            $self->{state} = DATA_STATE;
2319            ## reconsume
2320    
2321            !!!emit ($self->{ct}); # comment
2322    
2323            redo A;
2324          } else {
2325            !!!cp (144);
2326            $self->{ct}->{data} # comment
2327                .= '-' . chr ($self->{nc});
2328            $self->{state} = COMMENT_STATE;
2329            !!!next-input-character;
2330            redo A;
2331          }
2332        } elsif ($self->{state} == COMMENT_STATE) {
2333          if ($self->{nc} == 0x002D) { # -
2334            !!!cp (145);
2335            $self->{state} = COMMENT_END_DASH_STATE;
2336            !!!next-input-character;
2337            redo A;
2338          } elsif ($self->{nc} == -1) {
2339            !!!cp (146);
2340            !!!parse-error (type => 'unclosed comment');
2341            $self->{state} = DATA_STATE;
2342            ## reconsume
2343    
2344            !!!emit ($self->{ct}); # comment
2345    
2346            redo A;
2347          } else {
2348            !!!cp (147);
2349            $self->{ct}->{data} .= chr ($self->{nc}); # comment
2350            $self->{read_until}->($self->{ct}->{data},
2351                                  q[-],
2352                                  length $self->{ct}->{data});
2353    
2354          ## Stay in the state          ## Stay in the state
2355          !!!next-input-character;          !!!next-input-character;
2356          redo A;          redo A;
2357        }        }
2358      } elsif ($self->{state} eq 'comment dash') {      } elsif ($self->{state} == COMMENT_END_DASH_STATE) {
2359        if ($self->{next_input_character} == 0x002D) { # -        if ($self->{nc} == 0x002D) { # -
2360          $self->{state} = 'comment end';          !!!cp (148);
2361            $self->{state} = COMMENT_END_STATE;
2362          !!!next-input-character;          !!!next-input-character;
2363          redo A;          redo A;
2364        } elsif ($self->{next_input_character} == -1) {        } elsif ($self->{nc} == -1) {
2365            !!!cp (149);
2366          !!!parse-error (type => 'unclosed comment');          !!!parse-error (type => 'unclosed comment');
2367          $self->{state} = 'data';          $self->{state} = DATA_STATE;
2368          ## reconsume          ## reconsume
2369    
2370          !!!emit ($self->{current_token}); # comment          !!!emit ($self->{ct}); # comment
         undef $self->{current_token};  
2371    
2372          redo A;          redo A;
2373        } else {        } else {
2374          $self->{current_token}->{data} .= '-' . chr ($self->{next_input_character}); # comment          !!!cp (150);
2375          $self->{state} = 'comment';          $self->{ct}->{data} .= '-' . chr ($self->{nc}); # comment
2376            $self->{state} = COMMENT_STATE;
2377          !!!next-input-character;          !!!next-input-character;
2378          redo A;          redo A;
2379        }        }
2380      } elsif ($self->{state} eq 'comment end') {      } elsif ($self->{state} == COMMENT_END_STATE) {
2381        if ($self->{next_input_character} == 0x003E) { # >        if ($self->{nc} == 0x003E) { # >
2382          $self->{state} = 'data';          !!!cp (151);
2383            $self->{state} = DATA_STATE;
2384          !!!next-input-character;          !!!next-input-character;
2385    
2386          !!!emit ($self->{current_token}); # comment          !!!emit ($self->{ct}); # comment
         undef $self->{current_token};  
2387    
2388          redo A;          redo A;
2389        } elsif ($self->{next_input_character} == 0x002D) { # -        } elsif ($self->{nc} == 0x002D) { # -
2390          !!!parse-error (type => 'dash in comment');          !!!cp (152);
2391          $self->{current_token}->{data} .= '-'; # comment          !!!parse-error (type => 'dash in comment',
2392                            line => $self->{line_prev},
2393                            column => $self->{column_prev});
2394            $self->{ct}->{data} .= '-'; # comment
2395          ## Stay in the state          ## Stay in the state
2396          !!!next-input-character;          !!!next-input-character;
2397          redo A;          redo A;
2398        } elsif ($self->{next_input_character} == -1) {        } elsif ($self->{nc} == -1) {
2399            !!!cp (153);
2400          !!!parse-error (type => 'unclosed comment');          !!!parse-error (type => 'unclosed comment');
2401          $self->{state} = 'data';          $self->{state} = DATA_STATE;
2402          ## reconsume          ## reconsume
2403    
2404          !!!emit ($self->{current_token}); # comment          !!!emit ($self->{ct}); # comment
         undef $self->{current_token};  
2405    
2406          redo A;          redo A;
2407        } else {        } else {
2408          !!!parse-error (type => 'dash in comment');          !!!cp (154);
2409          $self->{current_token}->{data} .= '--' . chr ($self->{next_input_character}); # comment          !!!parse-error (type => 'dash in comment',
2410          $self->{state} = 'comment';                          line => $self->{line_prev},
2411                            column => $self->{column_prev});
2412            $self->{ct}->{data} .= '--' . chr ($self->{nc}); # comment
2413            $self->{state} = COMMENT_STATE;
2414          !!!next-input-character;          !!!next-input-character;
2415          redo A;          redo A;
2416        }        }
2417      } elsif ($self->{state} eq 'DOCTYPE') {      } elsif ($self->{state} == DOCTYPE_STATE) {
2418        if ($self->{next_input_character} == 0x0009 or # HT        if ($is_space->{$self->{nc}}) {
2419            $self->{next_input_character} == 0x000A or # LF          !!!cp (155);
2420            $self->{next_input_character} == 0x000B or # VT          $self->{state} = BEFORE_DOCTYPE_NAME_STATE;
           $self->{next_input_character} == 0x000C or # FF  
           $self->{next_input_character} == 0x0020) { # SP  
         $self->{state} = 'before DOCTYPE name';  
2421          !!!next-input-character;          !!!next-input-character;
2422          redo A;          redo A;
2423        } else {        } else {
2424            !!!cp (156);
2425          !!!parse-error (type => 'no space before DOCTYPE name');          !!!parse-error (type => 'no space before DOCTYPE name');
2426          $self->{state} = 'before DOCTYPE name';          $self->{state} = BEFORE_DOCTYPE_NAME_STATE;
2427          ## reconsume          ## reconsume
2428          redo A;          redo A;
2429        }        }
2430      } elsif ($self->{state} eq 'before DOCTYPE name') {      } elsif ($self->{state} == BEFORE_DOCTYPE_NAME_STATE) {
2431        if ($self->{next_input_character} == 0x0009 or # HT        if ($is_space->{$self->{nc}}) {
2432            $self->{next_input_character} == 0x000A or # LF          !!!cp (157);
           $self->{next_input_character} == 0x000B or # VT  
           $self->{next_input_character} == 0x000C or # FF  
           $self->{next_input_character} == 0x0020) { # SP  
2433          ## Stay in the state          ## Stay in the state
2434          !!!next-input-character;          !!!next-input-character;
2435          redo A;          redo A;
2436        } elsif (0x0061 <= $self->{next_input_character} and        } elsif ($self->{nc} == 0x003E) { # >
2437                 $self->{next_input_character} <= 0x007A) { # a..z          !!!cp (158);
 ## ISSUE: "Set the token's name name to the" in the spec  
         $self->{current_token} = {type => 'DOCTYPE',  
                           name => chr ($self->{next_input_character} - 0x0020),  
                           error => 1};  
         $self->{state} = 'DOCTYPE name';  
         !!!next-input-character;  
         redo A;  
       } elsif ($self->{next_input_character} == 0x003E) { # >  
2438          !!!parse-error (type => 'no DOCTYPE name');          !!!parse-error (type => 'no DOCTYPE name');
2439          $self->{state} = 'data';          $self->{state} = DATA_STATE;
2440          !!!next-input-character;          !!!next-input-character;
2441    
2442          !!!emit ({type => 'DOCTYPE', name => '', error => 1});          !!!emit ($self->{ct}); # DOCTYPE (quirks)
2443    
2444          redo A;          redo A;
2445        } elsif ($self->{next_input_character} == -1) {        } elsif ($self->{nc} == -1) {
2446            !!!cp (159);
2447          !!!parse-error (type => 'no DOCTYPE name');          !!!parse-error (type => 'no DOCTYPE name');
2448          $self->{state} = 'data';          $self->{state} = DATA_STATE;
2449          ## reconsume          ## reconsume
2450    
2451          !!!emit ({type => 'DOCTYPE', name => '', error => 1});          !!!emit ($self->{ct}); # DOCTYPE (quirks)
2452    
2453          redo A;          redo A;
2454        } else {        } else {
2455          $self->{current_token} = {type => 'DOCTYPE',          !!!cp (160);
2456                            name => chr ($self->{next_input_character}),          $self->{ct}->{name} = chr $self->{nc};
2457                            error => 1};          delete $self->{ct}->{quirks};
2458  ## ISSUE: "Set the token's name name to the" in the spec  ## ISSUE: "Set the token's name name to the" in the spec
2459          $self->{state} = 'DOCTYPE name';          $self->{state} = DOCTYPE_NAME_STATE;
2460          !!!next-input-character;          !!!next-input-character;
2461          redo A;          redo A;
2462        }        }
2463      } elsif ($self->{state} eq 'DOCTYPE name') {      } elsif ($self->{state} == DOCTYPE_NAME_STATE) {
2464        if ($self->{next_input_character} == 0x0009 or # HT  ## ISSUE: Redundant "First," in the spec.
2465            $self->{next_input_character} == 0x000A or # LF        if ($is_space->{$self->{nc}}) {
2466            $self->{next_input_character} == 0x000B or # VT          !!!cp (161);
2467            $self->{next_input_character} == 0x000C or # FF          $self->{state} = AFTER_DOCTYPE_NAME_STATE;
           $self->{next_input_character} == 0x0020) { # SP  
         $self->{current_token}->{error} = ($self->{current_token}->{name} ne 'HTML'); # DOCTYPE  
         $self->{state} = 'after DOCTYPE name';  
2468          !!!next-input-character;          !!!next-input-character;
2469          redo A;          redo A;
2470        } elsif ($self->{next_input_character} == 0x003E) { # >        } elsif ($self->{nc} == 0x003E) { # >
2471          $self->{current_token}->{error} = ($self->{current_token}->{name} ne 'HTML'); # DOCTYPE          !!!cp (162);
2472          $self->{state} = 'data';          $self->{state} = DATA_STATE;
2473          !!!next-input-character;          !!!next-input-character;
2474    
2475          !!!emit ($self->{current_token}); # DOCTYPE          !!!emit ($self->{ct}); # DOCTYPE
2476          undef $self->{current_token};  
2477            redo A;
2478          } elsif ($self->{nc} == -1) {
2479            !!!cp (163);
2480            !!!parse-error (type => 'unclosed DOCTYPE');
2481            $self->{state} = DATA_STATE;
2482            ## reconsume
2483    
2484            $self->{ct}->{quirks} = 1;
2485            !!!emit ($self->{ct}); # DOCTYPE
2486    
2487          redo A;          redo A;
2488        } elsif (0x0061 <= $self->{next_input_character} and        } else {
2489                 $self->{next_input_character} <= 0x007A) { # a..z          !!!cp (164);
2490          $self->{current_token}->{name} .= chr ($self->{next_input_character} - 0x0020); # DOCTYPE          $self->{ct}->{name}
2491          #$self->{current_token}->{error} = ($self->{current_token}->{name} ne 'HTML');            .= chr ($self->{nc}); # DOCTYPE
2492            ## Stay in the state
2493            !!!next-input-character;
2494            redo A;
2495          }
2496        } elsif ($self->{state} == AFTER_DOCTYPE_NAME_STATE) {
2497          if ($is_space->{$self->{nc}}) {
2498            !!!cp (165);
2499          ## Stay in the state          ## Stay in the state
2500          !!!next-input-character;          !!!next-input-character;
2501          redo A;          redo A;
2502        } elsif ($self->{next_input_character} == -1) {        } elsif ($self->{nc} == 0x003E) { # >
2503            !!!cp (166);
2504            $self->{state} = DATA_STATE;
2505            !!!next-input-character;
2506    
2507            !!!emit ($self->{ct}); # DOCTYPE
2508    
2509            redo A;
2510          } elsif ($self->{nc} == -1) {
2511            !!!cp (167);
2512          !!!parse-error (type => 'unclosed DOCTYPE');          !!!parse-error (type => 'unclosed DOCTYPE');
2513          $self->{current_token}->{error} = ($self->{current_token}->{name} ne 'HTML'); # DOCTYPE          $self->{state} = DATA_STATE;
         $self->{state} = 'data';  
2514          ## reconsume          ## reconsume
2515    
2516          !!!emit ($self->{current_token});          $self->{ct}->{quirks} = 1;
2517          undef $self->{current_token};          !!!emit ($self->{ct}); # DOCTYPE
2518    
2519          redo A;          redo A;
2520          } elsif ($self->{nc} == 0x0050 or # P
2521                   $self->{nc} == 0x0070) { # p
2522            $self->{state} = PUBLIC_STATE;
2523            $self->{s_kwd} = chr $self->{nc};
2524            !!!next-input-character;
2525            redo A;
2526          } elsif ($self->{nc} == 0x0053 or # S
2527                   $self->{nc} == 0x0073) { # s
2528            $self->{state} = SYSTEM_STATE;
2529            $self->{s_kwd} = chr $self->{nc};
2530            !!!next-input-character;
2531            redo A;
2532          } else {
2533            !!!cp (180);
2534            !!!parse-error (type => 'string after DOCTYPE name');
2535            $self->{ct}->{quirks} = 1;
2536    
2537            $self->{state} = BOGUS_DOCTYPE_STATE;
2538            !!!next-input-character;
2539            redo A;
2540          }
2541        } elsif ($self->{state} == PUBLIC_STATE) {
2542          ## ASCII case-insensitive
2543          if ($self->{nc} == [
2544                undef,
2545                0x0055, # U
2546                0x0042, # B
2547                0x004C, # L
2548                0x0049, # I
2549              ]->[length $self->{s_kwd}] or
2550              $self->{nc} == [
2551                undef,
2552                0x0075, # u
2553                0x0062, # b
2554                0x006C, # l
2555                0x0069, # i
2556              ]->[length $self->{s_kwd}]) {
2557            !!!cp (175);
2558            ## Stay in the state.
2559            $self->{s_kwd} .= chr $self->{nc};
2560            !!!next-input-character;
2561            redo A;
2562          } elsif ((length $self->{s_kwd}) == 5 and
2563                   ($self->{nc} == 0x0043 or # C
2564                    $self->{nc} == 0x0063)) { # c
2565            !!!cp (168);
2566            $self->{state} = BEFORE_DOCTYPE_PUBLIC_IDENTIFIER_STATE;
2567            !!!next-input-character;
2568            redo A;
2569        } else {        } else {
2570          $self->{current_token}->{name}          !!!cp (169);
2571            .= chr ($self->{next_input_character}); # DOCTYPE          !!!parse-error (type => 'string after DOCTYPE name',
2572          #$self->{current_token}->{error} = ($self->{current_token}->{name} ne 'HTML');                          line => $self->{line_prev},
2573                            column => $self->{column_prev} + 1 - length $self->{s_kwd});
2574            $self->{ct}->{quirks} = 1;
2575    
2576            $self->{state} = BOGUS_DOCTYPE_STATE;
2577            ## Reconsume.
2578            redo A;
2579          }
2580        } elsif ($self->{state} == SYSTEM_STATE) {
2581          ## ASCII case-insensitive
2582          if ($self->{nc} == [
2583                undef,
2584                0x0059, # Y
2585                0x0053, # S
2586                0x0054, # T
2587                0x0045, # E
2588              ]->[length $self->{s_kwd}] or
2589              $self->{nc} == [
2590                undef,
2591                0x0079, # y
2592                0x0073, # s
2593                0x0074, # t
2594                0x0065, # e
2595              ]->[length $self->{s_kwd}]) {
2596            !!!cp (170);
2597            ## Stay in the state.
2598            $self->{s_kwd} .= chr $self->{nc};
2599            !!!next-input-character;
2600            redo A;
2601          } elsif ((length $self->{s_kwd}) == 5 and
2602                   ($self->{nc} == 0x004D or # M
2603                    $self->{nc} == 0x006D)) { # m
2604            !!!cp (171);
2605            $self->{state} = BEFORE_DOCTYPE_SYSTEM_IDENTIFIER_STATE;
2606            !!!next-input-character;
2607            redo A;
2608          } else {
2609            !!!cp (172);
2610            !!!parse-error (type => 'string after DOCTYPE name',
2611                            line => $self->{line_prev},
2612                            column => $self->{column_prev} + 1 - length $self->{s_kwd});
2613            $self->{ct}->{quirks} = 1;
2614    
2615            $self->{state} = BOGUS_DOCTYPE_STATE;
2616            ## Reconsume.
2617            redo A;
2618          }
2619        } elsif ($self->{state} == BEFORE_DOCTYPE_PUBLIC_IDENTIFIER_STATE) {
2620          if ($is_space->{$self->{nc}}) {
2621            !!!cp (181);
2622          ## Stay in the state          ## Stay in the state
2623          !!!next-input-character;          !!!next-input-character;
2624          redo A;          redo A;
2625          } elsif ($self->{nc} eq 0x0022) { # "
2626            !!!cp (182);
2627            $self->{ct}->{pubid} = ''; # DOCTYPE
2628            $self->{state} = DOCTYPE_PUBLIC_IDENTIFIER_DOUBLE_QUOTED_STATE;
2629            !!!next-input-character;
2630            redo A;
2631          } elsif ($self->{nc} eq 0x0027) { # '
2632            !!!cp (183);
2633            $self->{ct}->{pubid} = ''; # DOCTYPE
2634            $self->{state} = DOCTYPE_PUBLIC_IDENTIFIER_SINGLE_QUOTED_STATE;
2635            !!!next-input-character;
2636            redo A;
2637          } elsif ($self->{nc} eq 0x003E) { # >
2638            !!!cp (184);
2639            !!!parse-error (type => 'no PUBLIC literal');
2640    
2641            $self->{state} = DATA_STATE;
2642            !!!next-input-character;
2643    
2644            $self->{ct}->{quirks} = 1;
2645            !!!emit ($self->{ct}); # DOCTYPE
2646    
2647            redo A;
2648          } elsif ($self->{nc} == -1) {
2649            !!!cp (185);
2650            !!!parse-error (type => 'unclosed DOCTYPE');
2651    
2652            $self->{state} = DATA_STATE;
2653            ## reconsume
2654    
2655            $self->{ct}->{quirks} = 1;
2656            !!!emit ($self->{ct}); # DOCTYPE
2657    
2658            redo A;
2659          } else {
2660            !!!cp (186);
2661            !!!parse-error (type => 'string after PUBLIC');
2662            $self->{ct}->{quirks} = 1;
2663    
2664            $self->{state} = BOGUS_DOCTYPE_STATE;
2665            !!!next-input-character;
2666            redo A;
2667        }        }
2668      } elsif ($self->{state} eq 'after DOCTYPE name') {      } elsif ($self->{state} == DOCTYPE_PUBLIC_IDENTIFIER_DOUBLE_QUOTED_STATE) {
2669        if ($self->{next_input_character} == 0x0009 or # HT        if ($self->{nc} == 0x0022) { # "
2670            $self->{next_input_character} == 0x000A or # LF          !!!cp (187);
2671            $self->{next_input_character} == 0x000B or # VT          $self->{state} = AFTER_DOCTYPE_PUBLIC_IDENTIFIER_STATE;
2672            $self->{next_input_character} == 0x000C or # FF          !!!next-input-character;
2673            $self->{next_input_character} == 0x0020) { # SP          redo A;
2674          } elsif ($self->{nc} == 0x003E) { # >
2675            !!!cp (188);
2676            !!!parse-error (type => 'unclosed PUBLIC literal');
2677    
2678            $self->{state} = DATA_STATE;
2679            !!!next-input-character;
2680    
2681            $self->{ct}->{quirks} = 1;
2682            !!!emit ($self->{ct}); # DOCTYPE
2683    
2684            redo A;
2685          } elsif ($self->{nc} == -1) {
2686            !!!cp (189);
2687            !!!parse-error (type => 'unclosed PUBLIC literal');
2688    
2689            $self->{state} = DATA_STATE;
2690            ## reconsume
2691    
2692            $self->{ct}->{quirks} = 1;
2693            !!!emit ($self->{ct}); # DOCTYPE
2694    
2695            redo A;
2696          } else {
2697            !!!cp (190);
2698            $self->{ct}->{pubid} # DOCTYPE
2699                .= chr $self->{nc};
2700            $self->{read_until}->($self->{ct}->{pubid}, q[">],
2701                                  length $self->{ct}->{pubid});
2702    
2703            ## Stay in the state
2704            !!!next-input-character;
2705            redo A;
2706          }
2707        } elsif ($self->{state} == DOCTYPE_PUBLIC_IDENTIFIER_SINGLE_QUOTED_STATE) {
2708          if ($self->{nc} == 0x0027) { # '
2709            !!!cp (191);
2710            $self->{state} = AFTER_DOCTYPE_PUBLIC_IDENTIFIER_STATE;
2711            !!!next-input-character;
2712            redo A;
2713          } elsif ($self->{nc} == 0x003E) { # >
2714            !!!cp (192);
2715            !!!parse-error (type => 'unclosed PUBLIC literal');
2716    
2717            $self->{state} = DATA_STATE;
2718            !!!next-input-character;
2719    
2720            $self->{ct}->{quirks} = 1;
2721            !!!emit ($self->{ct}); # DOCTYPE
2722    
2723            redo A;
2724          } elsif ($self->{nc} == -1) {
2725            !!!cp (193);
2726            !!!parse-error (type => 'unclosed PUBLIC literal');
2727    
2728            $self->{state} = DATA_STATE;
2729            ## reconsume
2730    
2731            $self->{ct}->{quirks} = 1;
2732            !!!emit ($self->{ct}); # DOCTYPE
2733    
2734            redo A;
2735          } else {
2736            !!!cp (194);
2737            $self->{ct}->{pubid} # DOCTYPE
2738                .= chr $self->{nc};
2739            $self->{read_until}->($self->{ct}->{pubid}, q['>],
2740                                  length $self->{ct}->{pubid});
2741    
2742          ## Stay in the state          ## Stay in the state
2743          !!!next-input-character;          !!!next-input-character;
2744          redo A;          redo A;
2745        } elsif ($self->{next_input_character} == 0x003E) { # >        }
2746          $self->{state} = 'data';      } elsif ($self->{state} == AFTER_DOCTYPE_PUBLIC_IDENTIFIER_STATE) {
2747          if ($is_space->{$self->{nc}}) {
2748            !!!cp (195);
2749            ## Stay in the state
2750            !!!next-input-character;
2751            redo A;
2752          } elsif ($self->{nc} == 0x0022) { # "
2753            !!!cp (196);
2754            $self->{ct}->{sysid} = ''; # DOCTYPE
2755            $self->{state} = DOCTYPE_SYSTEM_IDENTIFIER_DOUBLE_QUOTED_STATE;
2756            !!!next-input-character;
2757            redo A;
2758          } elsif ($self->{nc} == 0x0027) { # '
2759            !!!cp (197);
2760            $self->{ct}->{sysid} = ''; # DOCTYPE
2761            $self->{state} = DOCTYPE_SYSTEM_IDENTIFIER_SINGLE_QUOTED_STATE;
2762            !!!next-input-character;
2763            redo A;
2764          } elsif ($self->{nc} == 0x003E) { # >
2765            !!!cp (198);
2766            $self->{state} = DATA_STATE;
2767          !!!next-input-character;          !!!next-input-character;
2768    
2769          !!!emit ($self->{current_token}); # DOCTYPE          !!!emit ($self->{ct}); # DOCTYPE
         undef $self->{current_token};  
2770    
2771          redo A;          redo A;
2772        } elsif ($self->{next_input_character} == -1) {        } elsif ($self->{nc} == -1) {
2773            !!!cp (199);
2774          !!!parse-error (type => 'unclosed DOCTYPE');          !!!parse-error (type => 'unclosed DOCTYPE');
2775          $self->{state} = 'data';  
2776            $self->{state} = DATA_STATE;
2777          ## reconsume          ## reconsume
2778    
2779          !!!emit ($self->{current_token}); # DOCTYPE          $self->{ct}->{quirks} = 1;
2780          undef $self->{current_token};          !!!emit ($self->{ct}); # DOCTYPE
2781    
2782          redo A;          redo A;
2783        } else {        } else {
2784          !!!parse-error (type => 'string after DOCTYPE name');          !!!cp (200);
2785          $self->{current_token}->{error} = 1; # DOCTYPE          !!!parse-error (type => 'string after PUBLIC literal');
2786          $self->{state} = 'bogus DOCTYPE';          $self->{ct}->{quirks} = 1;
2787    
2788            $self->{state} = BOGUS_DOCTYPE_STATE;
2789          !!!next-input-character;          !!!next-input-character;
2790          redo A;          redo A;
2791        }        }
2792      } elsif ($self->{state} eq 'bogus DOCTYPE') {      } elsif ($self->{state} == BEFORE_DOCTYPE_SYSTEM_IDENTIFIER_STATE) {
2793        if ($self->{next_input_character} == 0x003E) { # >        if ($is_space->{$self->{nc}}) {
2794          $self->{state} = 'data';          !!!cp (201);
2795            ## Stay in the state
2796            !!!next-input-character;
2797            redo A;
2798          } elsif ($self->{nc} == 0x0022) { # "
2799            !!!cp (202);
2800            $self->{ct}->{sysid} = ''; # DOCTYPE
2801            $self->{state} = DOCTYPE_SYSTEM_IDENTIFIER_DOUBLE_QUOTED_STATE;
2802            !!!next-input-character;
2803            redo A;
2804          } elsif ($self->{nc} == 0x0027) { # '
2805            !!!cp (203);
2806            $self->{ct}->{sysid} = ''; # DOCTYPE
2807            $self->{state} = DOCTYPE_SYSTEM_IDENTIFIER_SINGLE_QUOTED_STATE;
2808            !!!next-input-character;
2809            redo A;
2810          } elsif ($self->{nc} == 0x003E) { # >
2811            !!!cp (204);
2812            !!!parse-error (type => 'no SYSTEM literal');
2813            $self->{state} = DATA_STATE;
2814          !!!next-input-character;          !!!next-input-character;
2815    
2816          !!!emit ($self->{current_token}); # DOCTYPE          $self->{ct}->{quirks} = 1;
2817          undef $self->{current_token};          !!!emit ($self->{ct}); # DOCTYPE
2818    
2819          redo A;          redo A;
2820        } elsif ($self->{next_input_character} == -1) {        } elsif ($self->{nc} == -1) {
2821            !!!cp (205);
2822          !!!parse-error (type => 'unclosed DOCTYPE');          !!!parse-error (type => 'unclosed DOCTYPE');
2823          $self->{state} = 'data';  
2824            $self->{state} = DATA_STATE;
2825            ## reconsume
2826    
2827            $self->{ct}->{quirks} = 1;
2828            !!!emit ($self->{ct}); # DOCTYPE
2829    
2830            redo A;
2831          } else {
2832            !!!cp (206);
2833            !!!parse-error (type => 'string after SYSTEM');
2834            $self->{ct}->{quirks} = 1;
2835    
2836            $self->{state} = BOGUS_DOCTYPE_STATE;
2837            !!!next-input-character;
2838            redo A;
2839          }
2840        } elsif ($self->{state} == DOCTYPE_SYSTEM_IDENTIFIER_DOUBLE_QUOTED_STATE) {
2841          if ($self->{nc} == 0x0022) { # "
2842            !!!cp (207);
2843            $self->{state} = AFTER_DOCTYPE_SYSTEM_IDENTIFIER_STATE;
2844            !!!next-input-character;
2845            redo A;
2846          } elsif ($self->{nc} == 0x003E) { # >
2847            !!!cp (208);
2848            !!!parse-error (type => 'unclosed SYSTEM literal');
2849    
2850            $self->{state} = DATA_STATE;
2851            !!!next-input-character;
2852    
2853            $self->{ct}->{quirks} = 1;
2854            !!!emit ($self->{ct}); # DOCTYPE
2855    
2856            redo A;
2857          } elsif ($self->{nc} == -1) {
2858            !!!cp (209);
2859            !!!parse-error (type => 'unclosed SYSTEM literal');
2860    
2861            $self->{state} = DATA_STATE;
2862          ## reconsume          ## reconsume
2863    
2864          !!!emit ($self->{current_token}); # DOCTYPE          $self->{ct}->{quirks} = 1;
2865          undef $self->{current_token};          !!!emit ($self->{ct}); # DOCTYPE
2866    
2867          redo A;          redo A;
2868        } else {        } else {
2869            !!!cp (210);
2870            $self->{ct}->{sysid} # DOCTYPE
2871                .= chr $self->{nc};
2872            $self->{read_until}->($self->{ct}->{sysid}, q[">],
2873                                  length $self->{ct}->{sysid});
2874    
2875          ## Stay in the state          ## Stay in the state
2876          !!!next-input-character;          !!!next-input-character;
2877          redo A;          redo A;
2878        }        }
2879      } else {      } elsif ($self->{state} == DOCTYPE_SYSTEM_IDENTIFIER_SINGLE_QUOTED_STATE) {
2880        die "$0: $self->{state}: Unknown state";        if ($self->{nc} == 0x0027) { # '
2881      }          !!!cp (211);
2882    } # A            $self->{state} = AFTER_DOCTYPE_SYSTEM_IDENTIFIER_STATE;
2883            !!!next-input-character;
2884            redo A;
2885          } elsif ($self->{nc} == 0x003E) { # >
2886            !!!cp (212);
2887            !!!parse-error (type => 'unclosed SYSTEM literal');
2888    
2889    die "$0: _get_next_token: unexpected case";          $self->{state} = DATA_STATE;
2890  } # _get_next_token          !!!next-input-character;
2891    
2892  sub _tokenize_attempt_to_consume_an_entity ($) {          $self->{ct}->{quirks} = 1;
2893    my $self = shift;          !!!emit ($self->{ct}); # DOCTYPE
     
   if ($self->{next_input_character} == 0x0023) { # #  
     !!!next-input-character;  
     if ($self->{next_input_character} == 0x0078 or # x  
         $self->{next_input_character} == 0x0058) { # X  
       my $num;  
       X: {  
         my $x_char = $self->{next_input_character};  
         !!!next-input-character;  
         if (0x0030 <= $self->{next_input_character} and  
             $self->{next_input_character} <= 0x0039) { # 0..9  
           $num ||= 0;  
           $num *= 0x10;  
           $num += $self->{next_input_character} - 0x0030;  
           redo X;  
         } elsif (0x0061 <= $self->{next_input_character} and  
                  $self->{next_input_character} <= 0x0066) { # a..f  
           ## ISSUE: the spec says U+0078, which is apparently incorrect  
           $num ||= 0;  
           $num *= 0x10;  
           $num += $self->{next_input_character} - 0x0060 + 9;  
           redo X;  
         } elsif (0x0041 <= $self->{next_input_character} and  
                  $self->{next_input_character} <= 0x0046) { # A..F  
           ## ISSUE: the spec says U+0058, which is apparently incorrect  
           $num ||= 0;  
           $num *= 0x10;  
           $num += $self->{next_input_character} - 0x0040 + 9;  
           redo X;  
         } elsif (not defined $num) { # no hexadecimal digit  
           !!!parse-error (type => 'bare hcro');  
           $self->{next_input_character} = 0x0023; # #  
           !!!back-next-input-character ($x_char);  
           return undef;  
         } elsif ($self->{next_input_character} == 0x003B) { # ;  
           !!!next-input-character;  
         } else {  
           !!!parse-error (type => 'no refc');  
         }  
2894    
2895          ## TODO: check the definition for |a valid Unicode character|.          redo A;
2896          ## <http://lists.whatwg.org/pipermail/whatwg-whatwg.org/2006-December/thread.html#8189>        } elsif ($self->{nc} == -1) {
2897          if ($num > 1114111 or $num == 0) {          !!!cp (213);
2898            $num = 0xFFFD; # REPLACEMENT CHARACTER          !!!parse-error (type => 'unclosed SYSTEM literal');
2899            ## ISSUE: Why this is not an error?  
2900          } elsif (0x80 <= $num and $num <= 0x9F) {          $self->{state} = DATA_STATE;
2901            ## NOTE: <http://lists.whatwg.org/pipermail/whatwg-whatwg.org/2006-December/thread.html#8562>          ## reconsume
2902            ## ISSUE: Not in the spec yet; parse error?  
2903            $num = $c1_entity_char->{$num};          $self->{ct}->{quirks} = 1;
2904          }          !!!emit ($self->{ct}); # DOCTYPE
2905    
2906          return {type => 'character', data => chr $num};          redo A;
2907        } # X        } else {
2908      } elsif (0x0030 <= $self->{next_input_character} and          !!!cp (214);
2909               $self->{next_input_character} <= 0x0039) { # 0..9          $self->{ct}->{sysid} # DOCTYPE
2910        my $code = $self->{next_input_character} - 0x0030;              .= chr $self->{nc};
2911        !!!next-input-character;          $self->{read_until}->($self->{ct}->{sysid}, q['>],
2912                                  length $self->{ct}->{sysid});
2913    
2914            ## Stay in the state
2915            !!!next-input-character;
2916            redo A;
2917          }
2918        } elsif ($self->{state} == AFTER_DOCTYPE_SYSTEM_IDENTIFIER_STATE) {
2919          if ($is_space->{$self->{nc}}) {
2920            !!!cp (215);
2921            ## Stay in the state
2922            !!!next-input-character;
2923            redo A;
2924          } elsif ($self->{nc} == 0x003E) { # >
2925            !!!cp (216);
2926            $self->{state} = DATA_STATE;
2927            !!!next-input-character;
2928    
2929            !!!emit ($self->{ct}); # DOCTYPE
2930    
2931            redo A;
2932          } elsif ($self->{nc} == -1) {
2933            !!!cp (217);
2934            !!!parse-error (type => 'unclosed DOCTYPE');
2935            $self->{state} = DATA_STATE;
2936            ## reconsume
2937    
2938            $self->{ct}->{quirks} = 1;
2939            !!!emit ($self->{ct}); # DOCTYPE
2940    
2941            redo A;
2942          } else {
2943            !!!cp (218);
2944            !!!parse-error (type => 'string after SYSTEM literal');
2945            #$self->{ct}->{quirks} = 1;
2946    
2947            $self->{state} = BOGUS_DOCTYPE_STATE;
2948            !!!next-input-character;
2949            redo A;
2950          }
2951        } elsif ($self->{state} == BOGUS_DOCTYPE_STATE) {
2952          if ($self->{nc} == 0x003E) { # >
2953            !!!cp (219);
2954            $self->{state} = DATA_STATE;
2955            !!!next-input-character;
2956    
2957            !!!emit ($self->{ct}); # DOCTYPE
2958    
2959            redo A;
2960          } elsif ($self->{nc} == -1) {
2961            !!!cp (220);
2962            !!!parse-error (type => 'unclosed DOCTYPE');
2963            $self->{state} = DATA_STATE;
2964            ## reconsume
2965    
2966            !!!emit ($self->{ct}); # DOCTYPE
2967    
2968            redo A;
2969          } else {
2970            !!!cp (221);
2971            my $s = '';
2972            $self->{read_until}->($s, q[>], 0);
2973    
2974            ## Stay in the state
2975            !!!next-input-character;
2976            redo A;
2977          }
2978        } elsif ($self->{state} == CDATA_SECTION_STATE) {
2979          ## NOTE: "CDATA section state" in the state is jointly implemented
2980          ## by three states, |CDATA_SECTION_STATE|, |CDATA_SECTION_MSE1_STATE|,
2981          ## and |CDATA_SECTION_MSE2_STATE|.
2982                
2983        while (0x0030 <= $self->{next_input_character} and        if ($self->{nc} == 0x005D) { # ]
2984                  $self->{next_input_character} <= 0x0039) { # 0..9          !!!cp (221.1);
2985          $code *= 10;          $self->{state} = CDATA_SECTION_MSE1_STATE;
2986          $code += $self->{next_input_character} - 0x0030;          !!!next-input-character;
2987                    redo A;
2988          } elsif ($self->{nc} == -1) {
2989            $self->{state} = DATA_STATE;
2990            !!!next-input-character;
2991            if (length $self->{ct}->{data}) { # character
2992              !!!cp (221.2);
2993              !!!emit ($self->{ct}); # character
2994            } else {
2995              !!!cp (221.3);
2996              ## No token to emit. $self->{ct} is discarded.
2997            }        
2998            redo A;
2999          } else {
3000            !!!cp (221.4);
3001            $self->{ct}->{data} .= chr $self->{nc};
3002            $self->{read_until}->($self->{ct}->{data},
3003                                  q<]>,
3004                                  length $self->{ct}->{data});
3005    
3006            ## Stay in the state.
3007          !!!next-input-character;          !!!next-input-character;
3008            redo A;
3009        }        }
3010    
3011        if ($self->{next_input_character} == 0x003B) { # ;        ## ISSUE: "text tokens" in spec.
3012        } elsif ($self->{state} == CDATA_SECTION_MSE1_STATE) {
3013          if ($self->{nc} == 0x005D) { # ]
3014            !!!cp (221.5);
3015            $self->{state} = CDATA_SECTION_MSE2_STATE;
3016          !!!next-input-character;          !!!next-input-character;
3017            redo A;
3018        } else {        } else {
3019            !!!cp (221.6);
3020            $self->{ct}->{data} .= ']';
3021            $self->{state} = CDATA_SECTION_STATE;
3022            ## Reconsume.
3023            redo A;
3024          }
3025        } elsif ($self->{state} == CDATA_SECTION_MSE2_STATE) {
3026          if ($self->{nc} == 0x003E) { # >
3027            $self->{state} = DATA_STATE;
3028            !!!next-input-character;
3029            if (length $self->{ct}->{data}) { # character
3030              !!!cp (221.7);
3031              !!!emit ($self->{ct}); # character
3032            } else {
3033              !!!cp (221.8);
3034              ## No token to emit. $self->{ct} is discarded.
3035            }
3036            redo A;
3037          } elsif ($self->{nc} == 0x005D) { # ]
3038            !!!cp (221.9); # character
3039            $self->{ct}->{data} .= ']'; ## Add first "]" of "]]]".
3040            ## Stay in the state.
3041            !!!next-input-character;
3042            redo A;
3043          } else {
3044            !!!cp (221.11);
3045            $self->{ct}->{data} .= ']]'; # character
3046            $self->{state} = CDATA_SECTION_STATE;
3047            ## Reconsume.
3048            redo A;
3049          }
3050        } elsif ($self->{state} == ENTITY_STATE) {
3051          if ($is_space->{$self->{nc}} or
3052              {
3053                0x003C => 1, 0x0026 => 1, -1 => 1, # <, &
3054                $self->{entity_add} => 1,
3055              }->{$self->{nc}}) {
3056            !!!cp (1001);
3057            ## Don't consume
3058            ## No error
3059            ## Return nothing.
3060            #
3061          } elsif ($self->{nc} == 0x0023) { # #
3062            !!!cp (999);
3063            $self->{state} = ENTITY_HASH_STATE;
3064            $self->{s_kwd} = '#';
3065            !!!next-input-character;
3066            redo A;
3067          } elsif ((0x0041 <= $self->{nc} and
3068                    $self->{nc} <= 0x005A) or # A..Z
3069                   (0x0061 <= $self->{nc} and
3070                    $self->{nc} <= 0x007A)) { # a..z
3071            !!!cp (998);
3072            require Whatpm::_NamedEntityList;
3073            $self->{state} = ENTITY_NAME_STATE;
3074            $self->{s_kwd} = chr $self->{nc};
3075            $self->{entity__value} = $self->{s_kwd};
3076            $self->{entity__match} = 0;
3077            !!!next-input-character;
3078            redo A;
3079          } else {
3080            !!!cp (1027);
3081            !!!parse-error (type => 'bare ero');
3082            ## Return nothing.
3083            #
3084          }
3085    
3086          ## NOTE: No character is consumed by the "consume a character
3087          ## reference" algorithm.  In other word, there is an "&" character
3088          ## that does not introduce a character reference, which would be
3089          ## appended to the parent element or the attribute value in later
3090          ## process of the tokenizer.
3091    
3092          if ($self->{prev_state} == DATA_STATE) {
3093            !!!cp (997);
3094            $self->{state} = $self->{prev_state};
3095            ## Reconsume.
3096            !!!emit ({type => CHARACTER_TOKEN, data => '&',
3097                      line => $self->{line_prev},
3098                      column => $self->{column_prev},
3099                     });
3100            redo A;
3101          } else {
3102            !!!cp (996);
3103            $self->{ca}->{value} .= '&';
3104            $self->{state} = $self->{prev_state};
3105            ## Reconsume.
3106            redo A;
3107          }
3108        } elsif ($self->{state} == ENTITY_HASH_STATE) {
3109          if ($self->{nc} == 0x0078 or # x
3110              $self->{nc} == 0x0058) { # X
3111            !!!cp (995);
3112            $self->{state} = HEXREF_X_STATE;
3113            $self->{s_kwd} .= chr $self->{nc};
3114            !!!next-input-character;
3115            redo A;
3116          } elsif (0x0030 <= $self->{nc} and
3117                   $self->{nc} <= 0x0039) { # 0..9
3118            !!!cp (994);
3119            $self->{state} = NCR_NUM_STATE;
3120            $self->{s_kwd} = $self->{nc} - 0x0030;
3121            !!!next-input-character;
3122            redo A;
3123          } else {
3124            !!!parse-error (type => 'bare nero',
3125                            line => $self->{line_prev},
3126                            column => $self->{column_prev} - 1);
3127    
3128            ## NOTE: According to the spec algorithm, nothing is returned,
3129            ## and then "&#" is appended to the parent element or the attribute
3130            ## value in the later processing.
3131    
3132            if ($self->{prev_state} == DATA_STATE) {
3133              !!!cp (1019);
3134              $self->{state} = $self->{prev_state};
3135              ## Reconsume.
3136              !!!emit ({type => CHARACTER_TOKEN,
3137                        data => '&#',
3138                        line => $self->{line_prev},
3139                        column => $self->{column_prev} - 1,
3140                       });
3141              redo A;
3142            } else {
3143              !!!cp (993);
3144              $self->{ca}->{value} .= '&#';
3145              $self->{state} = $self->{prev_state};
3146              ## Reconsume.
3147              redo A;
3148            }
3149          }
3150        } elsif ($self->{state} == NCR_NUM_STATE) {
3151          if (0x0030 <= $self->{nc} and
3152              $self->{nc} <= 0x0039) { # 0..9
3153            !!!cp (1012);
3154            $self->{s_kwd} *= 10;
3155            $self->{s_kwd} += $self->{nc} - 0x0030;
3156            
3157            ## Stay in the state.
3158            !!!next-input-character;
3159            redo A;
3160          } elsif ($self->{nc} == 0x003B) { # ;
3161            !!!cp (1013);
3162            !!!next-input-character;
3163            #
3164          } else {
3165            !!!cp (1014);
3166          !!!parse-error (type => 'no refc');          !!!parse-error (type => 'no refc');
3167            ## Reconsume.
3168            #
3169        }        }
3170    
3171        ## TODO: check the definition for |a valid Unicode character|.        my $code = $self->{s_kwd};
3172        if ($code > 1114111 or $code == 0) {        my $l = $self->{line_prev};
3173          $code = 0xFFFD; # REPLACEMENT CHARACTER        my $c = $self->{column_prev};
3174          ## ISSUE: Why this is not an error?        if ($code == 0 or (0xD800 <= $code and $code <= 0xDFFF)) {
3175            !!!cp (1015);
3176            !!!parse-error (type => 'invalid character reference',
3177                            text => (sprintf 'U+%04X', $code),
3178                            line => $l, column => $c);
3179            $code = 0xFFFD;
3180          } elsif ($code > 0x10FFFF) {
3181            !!!cp (1016);
3182            !!!parse-error (type => 'invalid character reference',
3183                            text => (sprintf 'U-%08X', $code),
3184                            line => $l, column => $c);
3185            $code = 0xFFFD;
3186          } elsif ($code == 0x000D) {
3187            !!!cp (1017);
3188            !!!parse-error (type => 'CR character reference',
3189                            line => $l, column => $c);
3190            $code = 0x000A;
3191        } elsif (0x80 <= $code and $code <= 0x9F) {        } elsif (0x80 <= $code and $code <= 0x9F) {
3192          ## NOTE: <http://lists.whatwg.org/pipermail/whatwg-whatwg.org/2006-December/thread.html#8562>          !!!cp (1018);
3193          ## ISSUE: Not in the spec yet; parse error?          !!!parse-error (type => 'C1 character reference',
3194                            text => (sprintf 'U+%04X', $code),
3195                            line => $l, column => $c);
3196          $code = $c1_entity_char->{$code};          $code = $c1_entity_char->{$code};
3197        }        }
3198          
3199        return {type => 'character', data => chr $code};        if ($self->{prev_state} == DATA_STATE) {
3200      } else {          !!!cp (992);
3201        !!!parse-error (type => 'bare nero');          $self->{state} = $self->{prev_state};
3202        !!!back-next-input-character ($self->{next_input_character});          ## Reconsume.
3203        $self->{next_input_character} = 0x0023; # #          !!!emit ({type => CHARACTER_TOKEN, data => chr $code,
3204        return undef;                    line => $l, column => $c,
3205      }                   });
3206    } elsif ((0x0041 <= $self->{next_input_character} and          redo A;
3207              $self->{next_input_character} <= 0x005A) or        } else {
3208             (0x0061 <= $self->{next_input_character} and          !!!cp (991);
3209              $self->{next_input_character} <= 0x007A)) {          $self->{ca}->{value} .= chr $code;
3210      my $entity_name = chr $self->{next_input_character};          $self->{ca}->{has_reference} = 1;
3211      !!!next-input-character;          $self->{state} = $self->{prev_state};
3212            ## Reconsume.
3213      my $value = $entity_name;          redo A;
3214      my $match;        }
3215        } elsif ($self->{state} == HEXREF_X_STATE) {
3216      while (length $entity_name < 10 and        if ((0x0030 <= $self->{nc} and $self->{nc} <= 0x0039) or
3217             ## NOTE: Some number greater than the maximum length of entity name            (0x0041 <= $self->{nc} and $self->{nc} <= 0x0046) or
3218             ((0x0041 <= $self->{next_input_character} and            (0x0061 <= $self->{nc} and $self->{nc} <= 0x0066)) {
3219               $self->{next_input_character} <= 0x005A) or          # 0..9, A..F, a..f
3220              (0x0061 <= $self->{next_input_character} and          !!!cp (990);
3221               $self->{next_input_character} <= 0x007A) or          $self->{state} = HEXREF_HEX_STATE;
3222              (0x0030 <= $self->{next_input_character} and          $self->{s_kwd} = 0;
3223               $self->{next_input_character} <= 0x0039))) {          ## Reconsume.
3224        $entity_name .= chr $self->{next_input_character};          redo A;
       if (defined $entity_char->{$entity_name}) {  
         $value = $entity_char->{$entity_name};  
         $match = 1;  
3225        } else {        } else {
3226          $value .= chr $self->{next_input_character};          !!!parse-error (type => 'bare hcro',
3227                            line => $self->{line_prev},
3228                            column => $self->{column_prev} - 2);
3229    
3230            ## NOTE: According to the spec algorithm, nothing is returned,
3231            ## and then "&#" followed by "X" or "x" is appended to the parent
3232            ## element or the attribute value in the later processing.
3233    
3234            if ($self->{prev_state} == DATA_STATE) {
3235              !!!cp (1005);
3236              $self->{state} = $self->{prev_state};
3237              ## Reconsume.
3238              !!!emit ({type => CHARACTER_TOKEN,
3239                        data => '&' . $self->{s_kwd},
3240                        line => $self->{line_prev},
3241                        column => $self->{column_prev} - length $self->{s_kwd},
3242                       });
3243              redo A;
3244            } else {
3245              !!!cp (989);
3246              $self->{ca}->{value} .= '&' . $self->{s_kwd};
3247              $self->{state} = $self->{prev_state};
3248              ## Reconsume.
3249              redo A;
3250            }
3251        }        }
3252        !!!next-input-character;      } elsif ($self->{state} == HEXREF_HEX_STATE) {
3253      }        if (0x0030 <= $self->{nc} and $self->{nc} <= 0x0039) {
3254                # 0..9
3255      if ($match) {          !!!cp (1002);
3256        if ($self->{next_input_character} == 0x003B) { # ;          $self->{s_kwd} *= 0x10;
3257            $self->{s_kwd} += $self->{nc} - 0x0030;
3258            ## Stay in the state.
3259            !!!next-input-character;
3260            redo A;
3261          } elsif (0x0061 <= $self->{nc} and
3262                   $self->{nc} <= 0x0066) { # a..f
3263            !!!cp (1003);
3264            $self->{s_kwd} *= 0x10;
3265            $self->{s_kwd} += $self->{nc} - 0x0060 + 9;
3266            ## Stay in the state.
3267            !!!next-input-character;
3268            redo A;
3269          } elsif (0x0041 <= $self->{nc} and
3270                   $self->{nc} <= 0x0046) { # A..F
3271            !!!cp (1004);
3272            $self->{s_kwd} *= 0x10;
3273            $self->{s_kwd} += $self->{nc} - 0x0040 + 9;
3274            ## Stay in the state.
3275          !!!next-input-character;          !!!next-input-character;
3276            redo A;
3277          } elsif ($self->{nc} == 0x003B) { # ;
3278            !!!cp (1006);
3279            !!!next-input-character;
3280            #
3281        } else {        } else {
3282          !!!parse-error (type => 'refc');          !!!cp (1007);
3283            !!!parse-error (type => 'no refc',
3284                            line => $self->{line},
3285                            column => $self->{column});
3286            ## Reconsume.
3287            #
3288          }
3289    
3290          my $code = $self->{s_kwd};
3291          my $l = $self->{line_prev};
3292          my $c = $self->{column_prev};
3293          if ($code == 0 or (0xD800 <= $code and $code <= 0xDFFF)) {
3294            !!!cp (1008);
3295            !!!parse-error (type => 'invalid character reference',
3296                            text => (sprintf 'U+%04X', $code),
3297                            line => $l, column => $c);
3298            $code = 0xFFFD;
3299          } elsif ($code > 0x10FFFF) {
3300            !!!cp (1009);
3301            !!!parse-error (type => 'invalid character reference',
3302                            text => (sprintf 'U-%08X', $code),
3303                            line => $l, column => $c);
3304            $code = 0xFFFD;
3305          } elsif ($code == 0x000D) {
3306            !!!cp (1010);
3307            !!!parse-error (type => 'CR character reference', line => $l, column => $c);
3308            $code = 0x000A;
3309          } elsif (0x80 <= $code and $code <= 0x9F) {
3310            !!!cp (1011);
3311            !!!parse-error (type => 'C1 character reference', text => (sprintf 'U+%04X', $code), line => $l, column => $c);
3312            $code = $c1_entity_char->{$code};
3313          }
3314    
3315          if ($self->{prev_state} == DATA_STATE) {
3316            !!!cp (988);
3317            $self->{state} = $self->{prev_state};
3318            ## Reconsume.
3319            !!!emit ({type => CHARACTER_TOKEN, data => chr $code,
3320                      line => $l, column => $c,
3321                     });
3322            redo A;
3323          } else {
3324            !!!cp (987);
3325            $self->{ca}->{value} .= chr $code;
3326            $self->{ca}->{has_reference} = 1;
3327            $self->{state} = $self->{prev_state};
3328            ## Reconsume.
3329            redo A;
3330          }
3331        } elsif ($self->{state} == ENTITY_NAME_STATE) {
3332          if (length $self->{s_kwd} < 30 and
3333              ## NOTE: Some number greater than the maximum length of entity name
3334              ((0x0041 <= $self->{nc} and # a
3335                $self->{nc} <= 0x005A) or # x
3336               (0x0061 <= $self->{nc} and # a
3337                $self->{nc} <= 0x007A) or # z
3338               (0x0030 <= $self->{nc} and # 0
3339                $self->{nc} <= 0x0039) or # 9
3340               $self->{nc} == 0x003B)) { # ;
3341            our $EntityChar;
3342            $self->{s_kwd} .= chr $self->{nc};
3343            if (defined $EntityChar->{$self->{s_kwd}}) {
3344              if ($self->{nc} == 0x003B) { # ;
3345                !!!cp (1020);
3346                $self->{entity__value} = $EntityChar->{$self->{s_kwd}};
3347                $self->{entity__match} = 1;
3348                !!!next-input-character;
3349                #
3350              } else {
3351                !!!cp (1021);
3352                $self->{entity__value} = $EntityChar->{$self->{s_kwd}};
3353                $self->{entity__match} = -1;
3354                ## Stay in the state.
3355                !!!next-input-character;
3356                redo A;
3357              }
3358            } else {
3359              !!!cp (1022);
3360              $self->{entity__value} .= chr $self->{nc};
3361              $self->{entity__match} *= 2;
3362              ## Stay in the state.
3363              !!!next-input-character;
3364              redo A;
3365            }
3366        }        }
3367    
3368        return {type => 'character', data => $value};        my $data;
3369          my $has_ref;
3370          if ($self->{entity__match} > 0) {
3371            !!!cp (1023);
3372            $data = $self->{entity__value};
3373            $has_ref = 1;
3374            #
3375          } elsif ($self->{entity__match} < 0) {
3376            !!!parse-error (type => 'no refc');
3377            if ($self->{prev_state} != DATA_STATE and # in attribute
3378                $self->{entity__match} < -1) {
3379              !!!cp (1024);
3380              $data = '&' . $self->{s_kwd};
3381              #
3382            } else {
3383              !!!cp (1025);
3384              $data = $self->{entity__value};
3385              $has_ref = 1;
3386              #
3387            }
3388          } else {
3389            !!!cp (1026);
3390            !!!parse-error (type => 'bare ero',
3391                            line => $self->{line_prev},
3392                            column => $self->{column_prev} - length $self->{s_kwd});
3393            $data = '&' . $self->{s_kwd};
3394            #
3395          }
3396      
3397          ## NOTE: In these cases, when a character reference is found,
3398          ## it is consumed and a character token is returned, or, otherwise,
3399          ## nothing is consumed and returned, according to the spec algorithm.
3400          ## In this implementation, anything that has been examined by the
3401          ## tokenizer is appended to the parent element or the attribute value
3402          ## as string, either literal string when no character reference or
3403          ## entity-replaced string otherwise, in this stage, since any characters
3404          ## that would not be consumed are appended in the data state or in an
3405          ## appropriate attribute value state anyway.
3406    
3407          if ($self->{prev_state} == DATA_STATE) {
3408            !!!cp (986);
3409            $self->{state} = $self->{prev_state};
3410            ## Reconsume.
3411            !!!emit ({type => CHARACTER_TOKEN,
3412                      data => $data,
3413                      line => $self->{line_prev},
3414                      column => $self->{column_prev} + 1 - length $self->{s_kwd},
3415                     });
3416            redo A;
3417          } else {
3418            !!!cp (985);
3419            $self->{ca}->{value} .= $data;
3420            $self->{ca}->{has_reference} = 1 if $has_ref;
3421            $self->{state} = $self->{prev_state};
3422            ## Reconsume.
3423            redo A;
3424          }
3425      } else {      } else {
3426        !!!parse-error (type => 'bare ero');        die "$0: $self->{state}: Unknown state";
       ## NOTE: No characters are consumed in the spec.  
       !!!back-token ({type => 'character', data => $value});  
       return undef;  
3427      }      }
3428    } else {    } # A  
3429      ## no characters are consumed  
3430      !!!parse-error (type => 'bare ero');    die "$0: _get_next_token: unexpected case";
3431      return undef;  } # _get_next_token
   }  
 } # _tokenize_attempt_to_consume_an_entity  
3432    
3433  sub _initialize_tree_constructor ($) {  sub _initialize_tree_constructor ($) {
3434    my $self = shift;    my $self = shift;
# Line 1636  sub _initialize_tree_constructor ($) { Line 3436  sub _initialize_tree_constructor ($) {
3436    $self->{document}->strict_error_checking (0);    $self->{document}->strict_error_checking (0);
3437    ## TODO: Turn mutation events off # MUST    ## TODO: Turn mutation events off # MUST
3438    ## TODO: Turn loose Document option (manakai extension) on    ## TODO: Turn loose Document option (manakai extension) on
3439    ## TODO: Mark the Document as an HTML document # MUST    $self->{document}->manakai_is_html (1); # MUST
3440      $self->{document}->set_user_data (manakai_source_line => 1);
3441      $self->{document}->set_user_data (manakai_source_column => 1);
3442  } # _initialize_tree_constructor  } # _initialize_tree_constructor
3443    
3444  sub _terminate_tree_constructor ($) {  sub _terminate_tree_constructor ($) {
# Line 1663  sub _construct_tree ($) { Line 3465  sub _construct_tree ($) {
3465        
3466    !!!next-token;    !!!next-token;
3467    
   $self->{insertion_mode} = 'before head';  
3468    undef $self->{form_element};    undef $self->{form_element};
3469    undef $self->{head_element};    undef $self->{head_element};
3470    $self->{open_elements} = [];    $self->{open_elements} = [];
3471    undef $self->{inner_html_node};    undef $self->{inner_html_node};
3472    
3473      ## NOTE: The "initial" insertion mode.
3474    $self->_tree_construction_initial; # MUST    $self->_tree_construction_initial; # MUST
3475    
3476      ## NOTE: The "before html" insertion mode.
3477    $self->_tree_construction_root_element;    $self->_tree_construction_root_element;
3478      $self->{insertion_mode} = BEFORE_HEAD_IM;
3479    
3480      ## NOTE: The "before head" insertion mode and so on.
3481    $self->_tree_construction_main;    $self->_tree_construction_main;
3482  } # _construct_tree  } # _construct_tree
3483    
3484  sub _tree_construction_initial ($) {  sub _tree_construction_initial ($) {
3485    my $self = shift;    my $self = shift;
3486    B: {  
3487        if ($token->{type} eq 'DOCTYPE') {    ## NOTE: "initial" insertion mode
3488          if ($token->{error}) {  
3489            ## ISSUE: Spec currently left this case undefined.    INITIAL: {
3490            !!!parse-error (type => 'bogus DOCTYPE');      if ($token->{type} == DOCTYPE_TOKEN) {
3491          }        ## NOTE: Conformance checkers MAY, instead of reporting "not HTML5"
3492          my $doctype = $self->{document}->create_document_type_definition        ## error, switch to a conformance checking mode for another
3493            ($token->{name});        ## language.
3494          $self->{document}->append_child ($doctype);        my $doctype_name = $token->{name};
3495          #$phase = 'root element';        $doctype_name = '' unless defined $doctype_name;
3496          !!!next-token;        $doctype_name =~ tr/a-z/A-Z/; # ASCII case-insensitive
3497          #redo B;        if (not defined $token->{name} or # <!DOCTYPE>
3498          return;            defined $token->{sysid}) {
3499        } elsif ({          !!!cp ('t1');
3500                  comment => 1,          !!!parse-error (type => 'not HTML5', token => $token);
3501                  'start tag' => 1,        } elsif ($doctype_name ne 'HTML') {
3502                  'end tag' => 1,          !!!cp ('t2');
3503                  'end-of-file' => 1,          !!!parse-error (type => 'not HTML5', token => $token);
3504                 }->{$token->{type}}) {        } elsif (defined $token->{pubid}) {
3505          ## ISSUE: Spec currently left this case undefined.          if ($token->{pubid} eq 'XSLT-compat') {
3506          !!!parse-error (type => 'missing DOCTYPE');            !!!cp ('t1.2');
3507          #$phase = 'root element';            !!!parse-error (type => 'XSLT-compat', token => $token,
3508          ## reprocess                            level => $self->{level}->{should});
3509          #redo B;          } else {
3510          return;            !!!parse-error (type => 'not HTML5', token => $token);
3511        } elsif ($token->{type} eq 'character') {          }
3512          if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {        } else {
3513            $self->{document}->manakai_append_text ($1);          !!!cp ('t3');
3514            ## ISSUE: DOM3 Core does not allow Document > Text          #
3515            unless (length $token->{data}) {        }
3516              ## Stay in the phase        
3517              !!!next-token;        my $doctype = $self->{document}->create_document_type_definition
3518              redo B;          ($token->{name}); ## ISSUE: If name is missing (e.g. <!DOCTYPE>)?
3519          ## NOTE: Default value for both |public_id| and |system_id| attributes
3520          ## are empty strings, so that we don't set any value in missing cases.
3521          $doctype->public_id ($token->{pubid}) if defined $token->{pubid};
3522          $doctype->system_id ($token->{sysid}) if defined $token->{sysid};
3523          ## NOTE: Other DocumentType attributes are null or empty lists.
3524          ## ISSUE: internalSubset = null??
3525          $self->{document}->append_child ($doctype);
3526          
3527          if ($token->{quirks} or $doctype_name ne 'HTML') {
3528            !!!cp ('t4');
3529            $self->{document}->manakai_compat_mode ('quirks');
3530          } elsif (defined $token->{pubid}) {
3531            my $pubid = $token->{pubid};
3532            $pubid =~ tr/a-z/A-z/;
3533            my $prefix = [
3534              "+//SILMARIL//DTD HTML PRO V0R11 19970101//",
3535              "-//ADVASOFT LTD//DTD HTML 3.0 ASWEDIT + EXTENSIONS//",
3536              "-//AS//DTD HTML 3.0 ASWEDIT + EXTENSIONS//",
3537              "-//IETF//DTD HTML 2.0 LEVEL 1//",
3538              "-//IETF//DTD HTML 2.0 LEVEL 2//",
3539              "-//IETF//DTD HTML 2.0 STRICT LEVEL 1//",
3540              "-//IETF//DTD HTML 2.0 STRICT LEVEL 2//",
3541              "-//IETF//DTD HTML 2.0 STRICT//",
3542              "-//IETF//DTD HTML 2.0//",
3543              "-//IETF//DTD HTML 2.1E//",
3544              "-//IETF//DTD HTML 3.0//",
3545              "-//IETF//DTD HTML 3.2 FINAL//",
3546              "-//IETF//DTD HTML 3.2//",
3547              "-//IETF//DTD HTML 3//",
3548              "-//IETF//DTD HTML LEVEL 0//",
3549              "-//IETF//DTD HTML LEVEL 1//",
3550              "-//IETF//DTD HTML LEVEL 2//",
3551              "-//IETF//DTD HTML LEVEL 3//",
3552              "-//IETF//DTD HTML STRICT LEVEL 0//",
3553              "-//IETF//DTD HTML STRICT LEVEL 1//",
3554              "-//IETF//DTD HTML STRICT LEVEL 2//",
3555              "-//IETF//DTD HTML STRICT LEVEL 3//",
3556              "-//IETF//DTD HTML STRICT//",
3557              "-//IETF//DTD HTML//",
3558              "-//METRIUS//DTD METRIUS PRESENTATIONAL//",
3559              "-//MICROSOFT//DTD INTERNET EXPLORER 2.0 HTML STRICT//",
3560              "-//MICROSOFT//DTD INTERNET EXPLORER 2.0 HTML//",
3561              "-//MICROSOFT//DTD INTERNET EXPLORER 2.0 TABLES//",
3562              "-//MICROSOFT//DTD INTERNET EXPLORER 3.0 HTML STRICT//",
3563              "-//MICROSOFT//DTD INTERNET EXPLORER 3.0 HTML//",
3564              "-//MICROSOFT//DTD INTERNET EXPLORER 3.0 TABLES//",
3565              "-//NETSCAPE COMM. CORP.//DTD HTML//",
3566              "-//NETSCAPE COMM. CORP.//DTD STRICT HTML//",
3567              "-//O'REILLY AND ASSOCIATES//DTD HTML 2.0//",
3568              "-//O'REILLY AND ASSOCIATES//DTD HTML EXTENDED 1.0//",
3569              "-//O'REILLY AND ASSOCIATES//DTD HTML EXTENDED RELAXED 1.0//",
3570              "-//SOFTQUAD SOFTWARE//DTD HOTMETAL PRO 6.0::19990601::EXTENSIONS TO HTML 4.0//",
3571              "-//SOFTQUAD//DTD HOTMETAL PRO 4.0::19971010::EXTENSIONS TO HTML 4.0//",
3572              "-//SPYGLASS//DTD HTML 2.0 EXTENDED//",
3573              "-//SQ//DTD HTML 2.0 HOTMETAL + EXTENSIONS//",
3574              "-//SUN MICROSYSTEMS CORP.//DTD HOTJAVA HTML//",
3575              "-//SUN MICROSYSTEMS CORP.//DTD HOTJAVA STRICT HTML//",
3576              "-//W3C//DTD HTML 3 1995-03-24//",
3577              "-//W3C//DTD HTML 3.2 DRAFT//",
3578              "-//W3C//DTD HTML 3.2 FINAL//",
3579              "-//W3C//DTD HTML 3.2//",
3580              "-//W3C//DTD HTML 3.2S DRAFT//",
3581              "-//W3C//DTD HTML 4.0 FRAMESET//",
3582              "-//W3C//DTD HTML 4.0 TRANSITIONAL//",
3583              "-//W3C//DTD HTML EXPERIMETNAL 19960712//",
3584              "-//W3C//DTD HTML EXPERIMENTAL 970421//",
3585              "-//W3C//DTD W3 HTML//",
3586              "-//W3O//DTD W3 HTML 3.0//",
3587              "-//WEBTECHS//DTD MOZILLA HTML 2.0//",
3588              "-//WEBTECHS//DTD MOZILLA HTML//",
3589            ]; # $prefix
3590            my $match;
3591            for (@$prefix) {
3592              if (substr ($prefix, 0, length $_) eq $_) {
3593                $match = 1;
3594                last;
3595              }
3596            }
3597            if ($match or
3598                $pubid eq "-//W3O//DTD W3 HTML STRICT 3.0//EN//" or
3599                $pubid eq "-/W3C/DTD HTML 4.0 TRANSITIONAL/EN" or
3600                $pubid eq "HTML") {
3601              !!!cp ('t5');
3602              $self->{document}->manakai_compat_mode ('quirks');
3603            } elsif ($pubid =~ m[^-//W3C//DTD HTML 4.01 FRAMESET//] or
3604                     $pubid =~ m[^-//W3C//DTD HTML 4.01 TRANSITIONAL//]) {
3605              if (defined $token->{sysid}) {
3606                !!!cp ('t6');
3607                $self->{document}->manakai_compat_mode ('quirks');
3608              } else {
3609                !!!cp ('t7');
3610                $self->{document}->manakai_compat_mode ('limited quirks');
3611            }            }
3612            } elsif ($pubid =~ m[^-//W3C//DTD XHTML 1.0 FRAMESET//] or
3613                     $pubid =~ m[^-//W3C//DTD XHTML 1.0 TRANSITIONAL//]) {
3614              !!!cp ('t8');
3615              $self->{document}->manakai_compat_mode ('limited quirks');
3616            } else {
3617              !!!cp ('t9');
3618            }
3619          } else {
3620            !!!cp ('t10');
3621          }
3622          if (defined $token->{sysid}) {
3623            my $sysid = $token->{sysid};
3624            $sysid =~ tr/A-Z/a-z/;
3625            if ($sysid eq "http://www.ibm.com/data/dtd/v11/ibmxhtml1-transitional.dtd") {
3626              ## NOTE: Ensure that |PUBLIC "(limited quirks)" "(quirks)"| is
3627              ## marked as quirks.
3628              $self->{document}->manakai_compat_mode ('quirks');
3629              !!!cp ('t11');
3630            } else {
3631              !!!cp ('t12');
3632            }
3633          } else {
3634            !!!cp ('t13');
3635          }
3636          
3637          ## Go to the "before html" insertion mode.
3638          !!!next-token;
3639          return;
3640        } elsif ({
3641                  START_TAG_TOKEN, 1,
3642                  END_TAG_TOKEN, 1,
3643                  END_OF_FILE_TOKEN, 1,
3644                 }->{$token->{type}}) {
3645          !!!cp ('t14');
3646          !!!parse-error (type => 'no DOCTYPE', token => $token);
3647          $self->{document}->manakai_compat_mode ('quirks');
3648          ## Go to the "before html" insertion mode.
3649          ## reprocess
3650          !!!ack-later;
3651          return;
3652        } elsif ($token->{type} == CHARACTER_TOKEN) {
3653          if ($token->{data} =~ s/^([\x09\x0A\x0C\x20]+)//) {
3654            ## Ignore the token
3655    
3656            unless (length $token->{data}) {
3657              !!!cp ('t15');
3658              ## Stay in the insertion mode.
3659              !!!next-token;
3660              redo INITIAL;
3661            } else {
3662              !!!cp ('t16');
3663          }          }
         ## ISSUE: Spec currently left this case undefined.  
         !!!parse-error (type => 'missing DOCTYPE');  
         #$phase = 'root element';  
         ## reprocess  
         #redo B;  
         return;  
3664        } else {        } else {
3665          die "$0: $token->{type}: Unknown token";          !!!cp ('t17');
3666        }        }
3667      } # B  
3668          !!!parse-error (type => 'no DOCTYPE', token => $token);
3669          $self->{document}->manakai_compat_mode ('quirks');
3670          ## Go to the "before html" insertion mode.
3671          ## reprocess
3672          return;
3673        } elsif ($token->{type} == COMMENT_TOKEN) {
3674          !!!cp ('t18');
3675          my $comment = $self->{document}->create_comment ($token->{data});
3676          $self->{document}->append_child ($comment);
3677          
3678          ## Stay in the insertion mode.
3679          !!!next-token;
3680          redo INITIAL;
3681        } else {
3682          die "$0: $token->{type}: Unknown token type";
3683        }
3684      } # INITIAL
3685    
3686      die "$0: _tree_construction_initial: This should be never reached";
3687  } # _tree_construction_initial  } # _tree_construction_initial
3688    
3689  sub _tree_construction_root_element ($) {  sub _tree_construction_root_element ($) {
3690    my $self = shift;    my $self = shift;
3691    
3692      ## NOTE: "before html" insertion mode.
3693        
3694    B: {    B: {
3695        if ($token->{type} eq 'DOCTYPE') {        if ($token->{type} == DOCTYPE_TOKEN) {
3696          !!!parse-error (type => 'in html:#DOCTYPE');          !!!cp ('t19');
3697            !!!parse-error (type => 'in html:#DOCTYPE', token => $token);
3698          ## Ignore the token          ## Ignore the token
3699          ## Stay in the phase          ## Stay in the insertion mode.
3700          !!!next-token;          !!!next-token;
3701          redo B;          redo B;
3702        } elsif ($token->{type} eq 'comment') {        } elsif ($token->{type} == COMMENT_TOKEN) {
3703            !!!cp ('t20');
3704          my $comment = $self->{document}->create_comment ($token->{data});          my $comment = $self->{document}->create_comment ($token->{data});
3705          $self->{document}->append_child ($comment);          $self->{document}->append_child ($comment);
3706          ## Stay in the phase          ## Stay in the insertion mode.
3707          !!!next-token;          !!!next-token;
3708          redo B;          redo B;
3709        } elsif ($token->{type} eq 'character') {        } elsif ($token->{type} == CHARACTER_TOKEN) {
3710          if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {          if ($token->{data} =~ s/^([\x09\x0A\x0C\x20]+)//) {
3711            $self->{document}->manakai_append_text ($1);            ## Ignore the token.
3712            ## ISSUE: DOM3 Core does not allow Document > Text  
3713            unless (length $token->{data}) {            unless (length $token->{data}) {
3714              ## Stay in the phase              !!!cp ('t21');
3715                ## Stay in the insertion mode.
3716              !!!next-token;              !!!next-token;
3717              redo B;              redo B;
3718              } else {
3719                !!!cp ('t22');
3720            }            }
3721            } else {
3722              !!!cp ('t23');
3723          }          }
3724    
3725            $self->{application_cache_selection}->(undef);
3726    
3727          #          #
3728          } elsif ($token->{type} == START_TAG_TOKEN) {
3729            if ($token->{tag_name} eq 'html') {
3730              my $root_element;
3731              !!!create-element ($root_element, $HTML_NS, $token->{tag_name}, $token->{attributes}, $token);
3732              $self->{document}->append_child ($root_element);
3733              push @{$self->{open_elements}},
3734                  [$root_element, $el_category->{html}];
3735    
3736              if ($token->{attributes}->{manifest}) {
3737                !!!cp ('t24');
3738                $self->{application_cache_selection}
3739                    ->($token->{attributes}->{manifest}->{value});
3740                ## ISSUE: Spec is unclear on relative references.
3741                ## According to Hixie (#whatwg 2008-03-19), it should be
3742                ## resolved against the base URI of the document in HTML
3743                ## or xml:base of the element in XHTML.
3744              } else {
3745                !!!cp ('t25');
3746                $self->{application_cache_selection}->(undef);
3747              }
3748    
3749              !!!nack ('t25c');
3750    
3751              !!!next-token;
3752              return; ## Go to the "before head" insertion mode.
3753            } else {
3754              !!!cp ('t25.1');
3755              #
3756            }
3757        } elsif ({        } elsif ({
3758                  'start tag' => 1,                  END_TAG_TOKEN, 1,
3759                  'end tag' => 1,                  END_OF_FILE_TOKEN, 1,
                 'end-of-file' => 1,  
3760                 }->{$token->{type}}) {                 }->{$token->{type}}) {
3761          ## ISSUE: There is an issue in the spec          !!!cp ('t26');
3762          #          #
3763        } else {        } else {
3764          die "$0: $token->{type}: Unknown token";          die "$0: $token->{type}: Unknown token type";
3765        }        }
3766        my $root_element; !!!create-element ($root_element, 'html');  
3767        $self->{document}->append_child ($root_element);      my $root_element;
3768        push @{$self->{open_elements}}, [$root_element, 'html'];      !!!create-element ($root_element, $HTML_NS, 'html',, $token);
3769        #$phase = 'main';      $self->{document}->append_child ($root_element);
3770        ## reprocess      push @{$self->{open_elements}}, [$root_element, $el_category->{html}];
3771        #redo B;  
3772        return;      $self->{application_cache_selection}->(undef);
3773    
3774        ## NOTE: Reprocess the token.
3775        !!!ack-later;
3776        return; ## Go to the "before head" insertion mode.
3777    
3778        ## ISSUE: There is an issue in the spec
3779    } # B    } # B
3780    
3781      die "$0: _tree_construction_root_element: This should never be reached";
3782  } # _tree_construction_root_element  } # _tree_construction_root_element
3783    
3784  sub _reset_insertion_mode ($) {  sub _reset_insertion_mode ($) {
# Line 1782  sub _reset_insertion_mode ($) { Line 3793  sub _reset_insertion_mode ($) {
3793            
3794      ## Step 3      ## Step 3
3795      S3: {      S3: {
3796        $last = 1 if $self->{open_elements}->[0]->[0] eq $node->[0];        if ($self->{open_elements}->[0]->[0] eq $node->[0]) {
3797        if (defined $self->{inner_html_node}) {          $last = 1;
3798          if ($self->{inner_html_node}->[1] eq 'td' or          if (defined $self->{inner_html_node}) {
3799              $self->{inner_html_node}->[1] eq 'th') {            !!!cp ('t28');
3800              $node = $self->{inner_html_node};
3801            } else {
3802              die "_reset_insertion_mode: t27";
3803            }
3804          }
3805          
3806          ## Step 4..14
3807          my $new_mode;
3808          if ($node->[1] & FOREIGN_EL) {
3809            !!!cp ('t28.1');
3810            ## NOTE: Strictly spaking, the line below only applies to MathML and
3811            ## SVG elements.  Currently the HTML syntax supports only MathML and
3812            ## SVG elements as foreigners.
3813            $new_mode = IN_BODY_IM | IN_FOREIGN_CONTENT_IM;
3814          } elsif ($node->[1] & TABLE_CELL_EL) {
3815            if ($last) {
3816              !!!cp ('t28.2');
3817            #            #
3818          } else {          } else {
3819            $node = $self->{inner_html_node};            !!!cp ('t28.3');
3820              $new_mode = IN_CELL_IM;
3821          }          }
3822          } else {
3823            !!!cp ('t28.4');
3824            $new_mode = {
3825                          select => IN_SELECT_IM,
3826                          ## NOTE: |option| and |optgroup| do not set
3827                          ## insertion mode to "in select" by themselves.
3828                          tr => IN_ROW_IM,
3829                          tbody => IN_TABLE_BODY_IM,
3830                          thead => IN_TABLE_BODY_IM,
3831                          tfoot => IN_TABLE_BODY_IM,
3832                          caption => IN_CAPTION_IM,
3833                          colgroup => IN_COLUMN_GROUP_IM,
3834                          table => IN_TABLE_IM,
3835                          head => IN_BODY_IM, # not in head!
3836                          body => IN_BODY_IM,
3837                          frameset => IN_FRAMESET_IM,
3838                         }->{$node->[0]->manakai_local_name};
3839        }        }
       
       ## Step 4..13  
       my $new_mode = {  
                       select => 'in select',  
                       td => 'in cell',  
                       th => 'in cell',  
                       tr => 'in row',  
                       tbody => 'in table body',  
                       thead => 'in table head',  
                       tfoot => 'in table foot',  
                       caption => 'in caption',  
                       colgroup => 'in column group',  
                       table => 'in table',  
                       head => 'in body', # not in head!  
                       body => 'in body',  
                       frameset => 'in frameset',  
                      }->{$node->[1]};  
3840        $self->{insertion_mode} = $new_mode and return if defined $new_mode;        $self->{insertion_mode} = $new_mode and return if defined $new_mode;
3841                
3842        ## Step 14        ## Step 15
3843        if ($node->[1] eq 'html') {        if ($node->[1] & HTML_EL) {
3844          unless (defined $self->{head_element}) {          unless (defined $self->{head_element}) {
3845            $self->{insertion_mode} = 'before head';            !!!cp ('t29');
3846              $self->{insertion_mode} = BEFORE_HEAD_IM;
3847          } else {          } else {
3848            $self->{insertion_mode} = 'after head';            ## ISSUE: Can this state be reached?
3849              !!!cp ('t30');
3850              $self->{insertion_mode} = AFTER_HEAD_IM;
3851          }          }
3852          return;          return;
3853          } else {
3854            !!!cp ('t31');
3855        }        }
3856                
       ## Step 15  
       $self->{insertion_mode} = 'in body' and return if $last;  
         
3857        ## Step 16        ## Step 16
3858          $self->{insertion_mode} = IN_BODY_IM and return if $last;
3859          
3860          ## Step 17
3861        $i--;        $i--;
3862        $node = $self->{open_elements}->[$i];        $node = $self->{open_elements}->[$i];
3863                
3864        ## Step 17        ## Step 18
3865        redo S3;        redo S3;
3866      } # S3      } # S3
3867    
3868      die "$0: _reset_insertion_mode: This line should never be reached";
3869  } # _reset_insertion_mode  } # _reset_insertion_mode
3870    
3871  sub _tree_construction_main ($) {  sub _tree_construction_main ($) {
3872    my $self = shift;    my $self = shift;
3873    
   my $phase = 'main';  
   
3874    my $active_formatting_elements = [];    my $active_formatting_elements = [];
3875    
3876    my $reconstruct_active_formatting_elements = sub { # MUST    my $reconstruct_active_formatting_elements = sub { # MUST
# Line 1853  sub _tree_construction_main ($) { Line 3887  sub _tree_construction_main ($) {
3887      return if $entry->[0] eq '#marker';      return if $entry->[0] eq '#marker';
3888      for (@{$self->{open_elements}}) {      for (@{$self->{open_elements}}) {
3889        if ($entry->[0] eq $_->[0]) {        if ($entry->[0] eq $_->[0]) {
3890            !!!cp ('t32');
3891          return;          return;
3892        }        }
3893      }      }
# Line 1867  sub _tree_construction_main ($) { Line 3902  sub _tree_construction_main ($) {
3902    
3903        ## Step 6        ## Step 6
3904        if ($entry->[0] eq '#marker') {        if ($entry->[0] eq '#marker') {
3905            !!!cp ('t33_1');
3906          #          #
3907        } else {        } else {
3908          my $in_open_elements;          my $in_open_elements;
3909          OE: for (@{$self->{open_elements}}) {          OE: for (@{$self->{open_elements}}) {
3910            if ($entry->[0] eq $_->[0]) {            if ($entry->[0] eq $_->[0]) {
3911                !!!cp ('t33');
3912              $in_open_elements = 1;              $in_open_elements = 1;
3913              last OE;              last OE;
3914            }            }
3915          }          }
3916          if ($in_open_elements) {          if ($in_open_elements) {
3917              !!!cp ('t34');
3918            #            #
3919          } else {          } else {
3920              ## NOTE: <!DOCTYPE HTML><p><b><i><u></p> <p>X
3921              !!!cp ('t35');
3922            redo S4;            redo S4;
3923          }          }
3924        }        }
# Line 1901  sub _tree_construction_main ($) { Line 3941  sub _tree_construction_main ($) {
3941    
3942        ## Step 11        ## Step 11
3943        unless ($clone->[0] eq $active_formatting_elements->[-1]->[0]) {        unless ($clone->[0] eq $active_formatting_elements->[-1]->[0]) {
3944            !!!cp ('t36');
3945          ## Step 7'          ## Step 7'
3946          $i++;          $i++;
3947          $entry = $active_formatting_elements->[$i];          $entry = $active_formatting_elements->[$i];
3948                    
3949          redo S7;          redo S7;
3950        }        }
3951    
3952          !!!cp ('t37');
3953      } # S7      } # S7
3954    }; # $reconstruct_active_formatting_elements    }; # $reconstruct_active_formatting_elements
3955    
3956    my $clear_up_to_marker = sub {    my $clear_up_to_marker = sub {
3957      for (reverse 0..$#$active_formatting_elements) {      for (reverse 0..$#$active_formatting_elements) {
3958        if ($active_formatting_elements->[$_]->[0] eq '#marker') {        if ($active_formatting_elements->[$_]->[0] eq '#marker') {
3959            !!!cp ('t38');
3960          splice @$active_formatting_elements, $_;          splice @$active_formatting_elements, $_;
3961          return;          return;
3962        }        }
3963      }      }
3964    
3965        !!!cp ('t39');
3966    }; # $clear_up_to_marker    }; # $clear_up_to_marker
3967    
3968    my $style_start_tag = sub {    my $insert;
3969      my $style_el; !!!create-element ($style_el, 'style', $token->{attributes});  
3970      ## $self->{insertion_mode} eq 'in head' and ... (always true)    my $parse_rcdata = sub ($) {
3971      (($self->{insertion_mode} eq 'in head' and defined $self->{head_element})      my ($content_model_flag) = @_;
3972       ? $self->{head_element} : $self->{open_elements}->[-1]->[0])  
3973        ->append_child ($style_el);      ## Step 1
3974      $self->{content_model_flag} = 'CDATA';      my $start_tag_name = $token->{tag_name};
3975                      my $el;
3976        !!!create-element ($el, $HTML_NS, $start_tag_name, $token->{attributes}, $token);
3977    
3978        ## Step 2
3979        $insert->($el);
3980    
3981        ## Step 3
3982        $self->{content_model} = $content_model_flag; # CDATA or RCDATA
3983        delete $self->{escape}; # MUST
3984    
3985        ## Step 4
3986      my $text = '';      my $text = '';
3987        !!!nack ('t40.1');
3988      !!!next-token;      !!!next-token;
3989      while ($token->{type} eq 'character') {      while ($token->{type} == CHARACTER_TOKEN) { # or until stop tokenizing
3990          !!!cp ('t40');
3991        $text .= $token->{data};        $text .= $token->{data};
3992        !!!next-token;        !!!next-token;
3993      } # stop if non-character token or tokenizer stops tokenising      }
3994    
3995        ## Step 5
3996      if (length $text) {      if (length $text) {
3997        $style_el->manakai_append_text ($text);        !!!cp ('t41');
3998          my $text = $self->{document}->create_text_node ($text);
3999          $el->append_child ($text);
4000      }      }
4001        
4002      $self->{content_model_flag} = 'PCDATA';      ## Step 6
4003                      $self->{content_model} = PCDATA_CONTENT_MODEL;
4004      if ($token->{type} eq 'end tag' and $token->{tag_name} eq 'style') {  
4005        ## Step 7
4006        if ($token->{type} == END_TAG_TOKEN and
4007            $token->{tag_name} eq $start_tag_name) {
4008          !!!cp ('t42');
4009        ## Ignore the token        ## Ignore the token
4010      } else {      } else {
4011        !!!parse-error (type => 'in CDATA:#'.$token->{type});        ## NOTE: An end-of-file token.
4012        ## ISSUE: And ignore?        if ($content_model_flag == CDATA_CONTENT_MODEL) {
4013            !!!cp ('t43');
4014            !!!parse-error (type => 'in CDATA:#eof', token => $token);
4015          } elsif ($content_model_flag == RCDATA_CONTENT_MODEL) {
4016            !!!cp ('t44');
4017            !!!parse-error (type => 'in RCDATA:#eof', token => $token);
4018          } else {
4019            die "$0: $content_model_flag in parse_rcdata";
4020          }
4021      }      }
4022      !!!next-token;      !!!next-token;
4023    }; # $style_start_tag    }; # $parse_rcdata
4024    
4025    my $script_start_tag = sub {    my $script_start_tag = sub () {
4026      my $script_el;      my $script_el;
4027      !!!create-element ($script_el, 'script', $token->{attributes});      !!!create-element ($script_el, $HTML_NS, 'script', $token->{attributes}, $token);
4028      ## TODO: mark as "parser-inserted"      ## TODO: mark as "parser-inserted"
4029    
4030      $self->{content_model_flag} = 'CDATA';      $self->{content_model} = CDATA_CONTENT_MODEL;
4031        delete $self->{escape}; # MUST
4032            
4033      my $text = '';      my $text = '';
4034        !!!nack ('t45.1');
4035      !!!next-token;      !!!next-token;
4036      while ($token->{type} eq 'character') {      while ($token->{type} == CHARACTER_TOKEN) {
4037          !!!cp ('t45');
4038        $text .= $token->{data};        $text .= $token->{data};
4039        !!!next-token;        !!!next-token;
4040      } # stop if non-character token or tokenizer stops tokenising      } # stop if non-character token or tokenizer stops tokenising
4041      if (length $text) {      if (length $text) {
4042          !!!cp ('t46');
4043        $script_el->manakai_append_text ($text);        $script_el->manakai_append_text ($text);
4044      }      }
4045                                
4046      $self->{content_model_flag} = 'PCDATA';      $self->{content_model} = PCDATA_CONTENT_MODEL;
4047    
4048      if ($token->{type} eq 'end tag' and      if ($token->{type} == END_TAG_TOKEN and
4049          $token->{tag_name} eq 'script') {          $token->{tag_name} eq 'script') {
4050          !!!cp ('t47');
4051        ## Ignore the token        ## Ignore the token
4052      } else {      } else {
4053        !!!parse-error (type => 'in CDATA:#'.$token->{type});        !!!cp ('t48');
4054          !!!parse-error (type => 'in CDATA:#eof', token => $token);
4055        ## ISSUE: And ignore?        ## ISSUE: And ignore?
4056        ## TODO: mark as "already executed"        ## TODO: mark as "already executed"
4057      }      }
4058            
4059      if (defined $self->{inner_html_node}) {      if (defined $self->{inner_html_node}) {
4060          !!!cp ('t49');
4061        ## TODO: mark as "already executed"        ## TODO: mark as "already executed"
4062      } else {      } else {
4063          !!!cp ('t50');
4064        ## TODO: $old_insertion_point = current insertion point        ## TODO: $old_insertion_point = current insertion point
4065        ## TODO: insertion point = just before the next input character        ## TODO: insertion point = just before the next input character
4066          
4067        (($self->{insertion_mode} eq 'in head' and defined $self->{head_element})        $insert->($script_el);
        ? $self->{head_element} : $self->{open_elements}->[-1]->[0])->append_child ($script_el);  
4068                
4069        ## TODO: insertion point = $old_insertion_point (might be "undefined")        ## TODO: insertion point = $old_insertion_point (might be "undefined")
4070                
# Line 1993  sub _tree_construction_main ($) { Line 4074  sub _tree_construction_main ($) {
4074      !!!next-token;      !!!next-token;
4075    }; # $script_start_tag    }; # $script_start_tag
4076    
4077      ## NOTE: $open_tables->[-1]->[0] is the "current table" element node.
4078      ## NOTE: $open_tables->[-1]->[1] is the "tainted" flag.
4079      my $open_tables = [[$self->{open_elements}->[0]->[0]]];
4080    
4081    my $formatting_end_tag = sub {    my $formatting_end_tag = sub {
4082      my $tag_name = shift;      my $end_tag_token = shift;
4083        my $tag_name = $end_tag_token->{tag_name};
4084    
4085        ## NOTE: The adoption agency algorithm (AAA).
4086    
4087      FET: {      FET: {
4088        ## Step 1        ## Step 1
4089        my $formatting_element;        my $formatting_element;
4090        my $formatting_element_i_in_active;        my $formatting_element_i_in_active;
4091        AFE: for (reverse 0..$#$active_formatting_elements) {        AFE: for (reverse 0..$#$active_formatting_elements) {
4092          if ($active_formatting_elements->[$_]->[1] eq $tag_name) {          if ($active_formatting_elements->[$_]->[0] eq '#marker') {
4093              !!!cp ('t52');
4094              last AFE;
4095            } elsif ($active_formatting_elements->[$_]->[0]->manakai_local_name
4096                         eq $tag_name) {
4097              !!!cp ('t51');
4098            $formatting_element = $active_formatting_elements->[$_];            $formatting_element = $active_formatting_elements->[$_];
4099            $formatting_element_i_in_active = $_;            $formatting_element_i_in_active = $_;
4100            last AFE;            last AFE;
         } elsif ($active_formatting_elements->[$_]->[0] eq '#marker') {  
           last AFE;  
4101          }          }
4102        } # AFE        } # AFE
4103        unless (defined $formatting_element) {        unless (defined $formatting_element) {
4104          !!!parse-error (type => 'unmatched end tag:'.$tag_name);          !!!cp ('t53');
4105            !!!parse-error (type => 'unmatched end tag', text => $tag_name, token => $end_tag_token);
4106          ## Ignore the token          ## Ignore the token
4107          !!!next-token;          !!!next-token;
4108          return;          return;
# Line 2022  sub _tree_construction_main ($) { Line 4114  sub _tree_construction_main ($) {
4114          my $node = $self->{open_elements}->[$_];          my $node = $self->{open_elements}->[$_];
4115          if ($node->[0] eq $formatting_element->[0]) {          if ($node->[0] eq $formatting_element->[0]) {
4116            if ($in_scope) {            if ($in_scope) {
4117                !!!cp ('t54');
4118              $formatting_element_i_in_open = $_;              $formatting_element_i_in_open = $_;
4119              last INSCOPE;              last INSCOPE;
4120            } else { # in open elements but not in scope            } else { # in open elements but not in scope
4121              !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});              !!!cp ('t55');
4122                !!!parse-error (type => 'unmatched end tag',
4123                                text => $token->{tag_name},
4124                                token => $end_tag_token);
4125              ## Ignore the token              ## Ignore the token
4126              !!!next-token;              !!!next-token;
4127              return;              return;
4128            }            }
4129          } elsif ({          } elsif ($node->[1] & SCOPING_EL) {
4130                    table => 1, caption => 1, td => 1, th => 1,            !!!cp ('t56');
                   button => 1, marquee => 1, object => 1, html => 1,  
                  }->{$node->[1]}) {  
4131            $in_scope = 0;            $in_scope = 0;
4132          }          }
4133        } # INSCOPE        } # INSCOPE
4134        unless (defined $formatting_element_i_in_open) {        unless (defined $formatting_element_i_in_open) {
4135          !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});          !!!cp ('t57');
4136            !!!parse-error (type => 'unmatched end tag',
4137                            text => $token->{tag_name},
4138                            token => $end_tag_token);
4139          pop @$active_formatting_elements; # $formatting_element          pop @$active_formatting_elements; # $formatting_element
4140          !!!next-token; ## TODO: ok?          !!!next-token; ## TODO: ok?
4141          return;          return;
4142        }        }
4143        if (not $self->{open_elements}->[-1]->[0] eq $formatting_element->[0]) {        if (not $self->{open_elements}->[-1]->[0] eq $formatting_element->[0]) {
4144          !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);          !!!cp ('t58');
4145            !!!parse-error (type => 'not closed',
4146                            text => $self->{open_elements}->[-1]->[0]
4147                                ->manakai_local_name,
4148                            token => $end_tag_token);
4149        }        }
4150                
4151        ## Step 2        ## Step 2
# Line 2052  sub _tree_construction_main ($) { Line 4153  sub _tree_construction_main ($) {
4153        my $furthest_block_i_in_open;        my $furthest_block_i_in_open;
4154        OE: for (reverse 0..$#{$self->{open_elements}}) {        OE: for (reverse 0..$#{$self->{open_elements}}) {
4155          my $node = $self->{open_elements}->[$_];          my $node = $self->{open_elements}->[$_];
4156          if (not $formatting_category->{$node->[1]} and          if (not ($node->[1] & FORMATTING_EL) and
4157              #not $phrasing_category->{$node->[1]} and              #not $phrasing_category->{$node->[1]} and
4158              ($special_category->{$node->[1]} or              ($node->[1] & SPECIAL_EL or
4159               $scoping_category->{$node->[1]})) {               $node->[1] & SCOPING_EL)) { ## Scoping is redundant, maybe
4160              !!!cp ('t59');
4161            $furthest_block = $node;            $furthest_block = $node;
4162            $furthest_block_i_in_open = $_;            $furthest_block_i_in_open = $_;
4163          } elsif ($node->[0] eq $formatting_element->[0]) {          } elsif ($node->[0] eq $formatting_element->[0]) {
4164              !!!cp ('t60');
4165            last OE;            last OE;
4166          }          }
4167        } # OE        } # OE
4168                
4169        ## Step 3        ## Step 3
4170        unless (defined $furthest_block) { # MUST        unless (defined $furthest_block) { # MUST
4171            !!!cp ('t61');
4172          splice @{$self->{open_elements}}, $formatting_element_i_in_open;          splice @{$self->{open_elements}}, $formatting_element_i_in_open;
4173          splice @$active_formatting_elements, $formatting_element_i_in_active, 1;          splice @$active_formatting_elements, $formatting_element_i_in_active, 1;
4174          !!!next-token;          !!!next-token;
# Line 2077  sub _tree_construction_main ($) { Line 4181  sub _tree_construction_main ($) {
4181        ## Step 5        ## Step 5
4182        my $furthest_block_parent = $furthest_block->[0]->parent_node;        my $furthest_block_parent = $furthest_block->[0]->parent_node;
4183        if (defined $furthest_block_parent) {        if (defined $furthest_block_parent) {
4184            !!!cp ('t62');
4185          $furthest_block_parent->remove_child ($furthest_block->[0]);          $furthest_block_parent->remove_child ($furthest_block->[0]);
4186        }        }
4187                
# Line 2099  sub _tree_construction_main ($) { Line 4204  sub _tree_construction_main ($) {
4204          S7S2: {          S7S2: {
4205            for (reverse 0..$#$active_formatting_elements) {            for (reverse 0..$#$active_formatting_elements) {
4206              if ($active_formatting_elements->[$_]->[0] eq $node->[0]) {              if ($active_formatting_elements->[$_]->[0] eq $node->[0]) {
4207                  !!!cp ('t63');
4208                $node_i_in_active = $_;                $node_i_in_active = $_;
4209                last S7S2;                last S7S2;
4210              }              }
# Line 2112  sub _tree_construction_main ($) { Line 4218  sub _tree_construction_main ($) {
4218                    
4219          ## Step 4          ## Step 4
4220          if ($last_node->[0] eq $furthest_block->[0]) {          if ($last_node->[0] eq $furthest_block->[0]) {
4221              !!!cp ('t64');
4222            $bookmark_prev_el = $node->[0];            $bookmark_prev_el = $node->[0];
4223          }          }
4224                    
4225          ## Step 5          ## Step 5
4226          if ($node->[0]->has_child_nodes ()) {          if ($node->[0]->has_child_nodes ()) {
4227              !!!cp ('t65');
4228            my $clone = [$node->[0]->clone_node (0), $node->[1]];            my $clone = [$node->[0]->clone_node (0), $node->[1]];
4229            $active_formatting_elements->[$node_i_in_active] = $clone;            $active_formatting_elements->[$node_i_in_active] = $clone;
4230            $self->{open_elements}->[$node_i_in_open] = $clone;            $self->{open_elements}->[$node_i_in_open] = $clone;
# Line 2134  sub _tree_construction_main ($) { Line 4242  sub _tree_construction_main ($) {
4242        } # S7          } # S7  
4243                
4244        ## Step 8        ## Step 8
4245        $common_ancestor_node->[0]->append_child ($last_node->[0]);        if ($common_ancestor_node->[1] & TABLE_ROWS_EL) {
4246            my $foster_parent_element;
4247            my $next_sibling;
4248            OE: for (reverse 0..$#{$self->{open_elements}}) {
4249              if ($self->{open_elements}->[$_]->[1] & TABLE_EL) {
4250                                 my $parent = $self->{open_elements}->[$_]->[0]->parent_node;
4251                                 if (defined $parent and $parent->node_type == 1) {
4252                                   !!!cp ('t65.1');
4253                                   $foster_parent_element = $parent;
4254                                   $next_sibling = $self->{open_elements}->[$_]->[0];
4255                                 } else {
4256                                   !!!cp ('t65.2');
4257                                   $foster_parent_element
4258                                     = $self->{open_elements}->[$_ - 1]->[0];
4259                                 }
4260                                 last OE;
4261                               }
4262                             } # OE
4263                             $foster_parent_element = $self->{open_elements}->[0]->[0]
4264                               unless defined $foster_parent_element;
4265            $foster_parent_element->insert_before ($last_node->[0], $next_sibling);
4266            $open_tables->[-1]->[1] = 1; # tainted
4267          } else {
4268            !!!cp ('t65.3');
4269            $common_ancestor_node->[0]->append_child ($last_node->[0]);
4270          }
4271                
4272        ## Step 9        ## Step 9
4273        my $clone = [$formatting_element->[0]->clone_node (0),        my $clone = [$formatting_element->[0]->clone_node (0),
# Line 2151  sub _tree_construction_main ($) { Line 4284  sub _tree_construction_main ($) {
4284        my $i;        my $i;
4285        AFE: for (reverse 0..$#$active_formatting_elements) {        AFE: for (reverse 0..$#$active_formatting_elements) {
4286          if ($active_formatting_elements->[$_]->[0] eq $formatting_element->[0]) {          if ($active_formatting_elements->[$_]->[0] eq $formatting_element->[0]) {
4287              !!!cp ('t66');
4288            splice @$active_formatting_elements, $_, 1;            splice @$active_formatting_elements, $_, 1;
4289            $i-- and last AFE if defined $i;            $i-- and last AFE if defined $i;
4290          } elsif ($active_formatting_elements->[$_]->[0] eq $bookmark_prev_el) {          } elsif ($active_formatting_elements->[$_]->[0] eq $bookmark_prev_el) {
4291              !!!cp ('t67');
4292            $i = $_;            $i = $_;
4293          }          }
4294        } # AFE        } # AFE
# Line 2163  sub _tree_construction_main ($) { Line 4298  sub _tree_construction_main ($) {
4298        undef $i;        undef $i;
4299        OE: for (reverse 0..$#{$self->{open_elements}}) {        OE: for (reverse 0..$#{$self->{open_elements}}) {
4300          if ($self->{open_elements}->[$_]->[0] eq $formatting_element->[0]) {          if ($self->{open_elements}->[$_]->[0] eq $formatting_element->[0]) {
4301              !!!cp ('t68');
4302            splice @{$self->{open_elements}}, $_, 1;            splice @{$self->{open_elements}}, $_, 1;
4303            $i-- and last OE if defined $i;            $i-- and last OE if defined $i;
4304          } elsif ($self->{open_elements}->[$_]->[0] eq $furthest_block->[0]) {          } elsif ($self->{open_elements}->[$_]->[0] eq $furthest_block->[0]) {
4305              !!!cp ('t69');
4306            $i = $_;            $i = $_;
4307          }          }
4308        } # OE        } # OE
# Line 2176  sub _tree_construction_main ($) { Line 4313  sub _tree_construction_main ($) {
4313      } # FET      } # FET
4314    }; # $formatting_end_tag    }; # $formatting_end_tag
4315    
4316    my $insert_to_current = sub {    $insert = my $insert_to_current = sub {
4317      $self->{open_elements}->[-1]->[0]->append_child (shift);      $self->{open_elements}->[-1]->[0]->append_child ($_[0]);
4318    }; # $insert_to_current    }; # $insert_to_current
4319    
4320    my $insert_to_foster = sub {    my $insert_to_foster = sub {
4321                         my $child = shift;      my $child = shift;
4322                         if ({      if ($self->{open_elements}->[-1]->[1] & TABLE_ROWS_EL) {
4323                              table => 1, tbody => 1, tfoot => 1,        # MUST
4324                              thead => 1, tr => 1,        my $foster_parent_element;
4325                             }->{$self->{open_elements}->[-1]->[1]}) {        my $next_sibling;
4326                           # MUST        OE: for (reverse 0..$#{$self->{open_elements}}) {
4327                           my $foster_parent_element;          if ($self->{open_elements}->[$_]->[1] & TABLE_EL) {
                          my $next_sibling;  
                          OE: for (reverse 0..$#{$self->{open_elements}}) {  
                            if ($self->{open_elements}->[$_]->[1] eq 'table') {  
4328                               my $parent = $self->{open_elements}->[$_]->[0]->parent_node;                               my $parent = $self->{open_elements}->[$_]->[0]->parent_node;
4329                               if (defined $parent and $parent->node_type == 1) {                               if (defined $parent and $parent->node_type == 1) {
4330                                   !!!cp ('t70');
4331                                 $foster_parent_element = $parent;                                 $foster_parent_element = $parent;
4332                                 $next_sibling = $self->{open_elements}->[$_]->[0];                                 $next_sibling = $self->{open_elements}->[$_]->[0];
4333                               } else {                               } else {
4334                                   !!!cp ('t71');
4335                                 $foster_parent_element                                 $foster_parent_element
4336                                   = $self->{open_elements}->[$_ - 1]->[0];                                   = $self->{open_elements}->[$_ - 1]->[0];
4337                               }                               }
# Line 2206  sub _tree_construction_main ($) { Line 4342  sub _tree_construction_main ($) {
4342                             unless defined $foster_parent_element;                             unless defined $foster_parent_element;
4343                           $foster_parent_element->insert_before                           $foster_parent_element->insert_before
4344                             ($child, $next_sibling);                             ($child, $next_sibling);
4345                         } else {        $open_tables->[-1]->[1] = 1; # tainted
4346                           $self->{open_elements}->[-1]->[0]->append_child ($child);      } else {
4347                         }        !!!cp ('t72');
4348          $self->{open_elements}->[-1]->[0]->append_child ($child);
4349        }
4350    }; # $insert_to_foster    }; # $insert_to_foster
4351    
4352    my $in_body = sub {    B: while (1) {
4353      my $insert = shift;      if ($token->{type} == DOCTYPE_TOKEN) {
4354      if ($token->{type} eq 'start tag') {        !!!cp ('t73');
4355        if ($token->{tag_name} eq 'script') {        !!!parse-error (type => 'in html:#DOCTYPE', token => $token);
4356          $script_start_tag->();        ## Ignore the token
4357          return;        ## Stay in the phase
4358        } elsif ($token->{tag_name} eq 'style') {        !!!next-token;
4359          $style_start_tag->();        next B;
4360          return;      } elsif ($token->{type} == START_TAG_TOKEN and
4361        } elsif ({               $token->{tag_name} eq 'html') {
4362                  base => 1, link => 1, meta => 1,        if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {
4363                 }->{$token->{tag_name}}) {          !!!cp ('t79');
4364          !!!parse-error (type => 'in body:'.$token->{tag_name});          !!!parse-error (type => 'after html', text => 'html', token => $token);
4365          ## NOTE: This is an "as if in head" code clone          $self->{insertion_mode} = AFTER_BODY_IM;
4366          my $el;        } elsif ($self->{insertion_mode} == AFTER_HTML_FRAMESET_IM) {
4367          !!!create-element ($el, $token->{tag_name}, $token->{attributes});          !!!cp ('t80');
4368          if (defined $self->{head_element}) {          !!!parse-error (type => 'after html', text => 'html', token => $token);
4369            $self->{head_element}->append_child ($el);          $self->{insertion_mode} = AFTER_FRAMESET_IM;
4370          } else {        } else {
4371            $insert->($el);          !!!cp ('t81');
4372          }        }
4373            
4374          !!!next-token;        !!!cp ('t82');
4375          return;        !!!parse-error (type => 'not first start tag', token => $token);
4376        } elsif ($token->{tag_name} eq 'title') {        my $top_el = $self->{open_elements}->[0]->[0];
4377          !!!parse-error (type => 'in body:title');        for my $attr_name (keys %{$token->{attributes}}) {
4378          ## NOTE: There is an "as if in head" code clone          unless ($top_el->has_attribute_ns (undef, $attr_name)) {
4379          my $title_el;            !!!cp ('t84');
4380          !!!create-element ($title_el, 'title', $token->{attributes});            $top_el->set_attribute_ns
4381          (defined $self->{head_element} ? $self->{head_element} : $self->{open_elements}->[-1]->[0])              (undef, [undef, $attr_name],
4382            ->append_child ($title_el);               $token->{attributes}->{$attr_name}->{value});
         $self->{content_model_flag} = 'RCDATA';  
           
         my $text = '';  
         !!!next-token;  
         while ($token->{type} eq 'character') {  
           $text .= $token->{data};  
           !!!next-token;  
         }  
         if (length $text) {  
           $title_el->manakai_append_text ($text);  
         }  
           
         $self->{content_model_flag} = 'PCDATA';  
           
         if ($token->{type} eq 'end tag' and  
             $token->{tag_name} eq 'title') {  
           ## Ignore the token  
         } else {  
           !!!parse-error (type => 'in RCDATA:#'.$token->{type});  
           ## ISSUE: And ignore?  
         }  
         !!!next-token;  
         return;  
       } elsif ($token->{tag_name} eq 'body') {  
         !!!parse-error (type => 'in body:body');  
                 
         if (@{$self->{open_elements}} == 1 or  
             $self->{open_elements}->[1]->[1] ne 'body') {  
           ## Ignore the token  
         } else {  
           my $body_el = $self->{open_elements}->[1]->[0];  
           for my $attr_name (keys %{$token->{attributes}}) {  
             unless ($body_el->has_attribute_ns (undef, $attr_name)) {  
               $body_el->set_attribute_ns  
                 (undef, [undef, $attr_name],  
                  $token->{attributes}->{$attr_name}->{value});  
             }  
           }  
         }  
         !!!next-token;  
         return;  
       } elsif ({  
                 address => 1, blockquote => 1, center => 1, dir => 1,  
                 div => 1, dl => 1, fieldset => 1, listing => 1,  
                 menu => 1, ol => 1, p => 1, ul => 1,  
                 pre => 1,  
                }->{$token->{tag_name}}) {  
         ## has a p element in scope  
         INSCOPE: for (reverse @{$self->{open_elements}}) {  
           if ($_->[1] eq 'p') {  
             !!!back-token;  
             $token = {type => 'end tag', tag_name => 'p'};  
             return;  
           } elsif ({  
                     table => 1, caption => 1, td => 1, th => 1,  
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$_->[1]}) {  
             last INSCOPE;  
           }  
         } # INSCOPE  
             
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
         if ($token->{tag_name} eq 'pre') {  
           !!!next-token;  
           if ($token->{type} eq 'character') {  
             $token->{data} =~ s/^\x0A//;  
             unless (length $token->{data}) {  
               !!!next-token;  
             }  
           }  
         } else {  
           !!!next-token;  
         }  
         return;  
       } elsif ($token->{tag_name} eq 'form') {  
         if (defined $self->{form_element}) {  
           !!!parse-error (type => 'in form:form');  
           ## Ignore the token  
         } else {  
           ## has a p element in scope  
           INSCOPE: for (reverse @{$self->{open_elements}}) {  
             if ($_->[1] eq 'p') {  
               !!!back-token;  
               $token = {type => 'end tag', tag_name => 'p'};  
               return;  
             } elsif ({  
                       table => 1, caption => 1, td => 1, th => 1,  
                       button => 1, marquee => 1, object => 1, html => 1,  
                      }->{$_->[1]}) {  
               last INSCOPE;  
             }  
           } # INSCOPE  
               
           !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
           $self->{form_element} = $self->{open_elements}->[-1]->[0];  
           !!!next-token;  
           return;  
         }  
       } elsif ($token->{tag_name} eq 'li') {  
         ## has a p element in scope  
         INSCOPE: for (reverse @{$self->{open_elements}}) {  
           if ($_->[1] eq 'p') {  
             !!!back-token;  
             $token = {type => 'end tag', tag_name => 'p'};  
             return;  
           } elsif ({  
                     table => 1, caption => 1, td => 1, th => 1,  
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$_->[1]}) {  
             last INSCOPE;  
           }  
         } # INSCOPE  
             
         ## Step 1  
         my $i = -1;  
         my $node = $self->{open_elements}->[$i];  
         LI: {  
           ## Step 2  
           if ($node->[1] eq 'li') {  
             splice @{$self->{open_elements}}, $i;  
             last LI;  
           }  
             
           ## Step 3  
           if (not $formatting_category->{$node->[1]} and  
               #not $phrasing_category->{$node->[1]} and  
               ($special_category->{$node->[1]} or  
                $scoping_category->{$node->[1]}) and  
               $node->[1] ne 'address' and $node->[1] ne 'div') {  
             last LI;  
           }  
             
           ## Step 4  
           $i--;  
           $node = $self->{open_elements}->[$i];  
           redo LI;  
         } # LI  
             
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
         !!!next-token;  
         return;  
       } elsif ($token->{tag_name} eq 'dd' or $token->{tag_name} eq 'dt') {  
         ## has a p element in scope  
         INSCOPE: for (reverse @{$self->{open_elements}}) {  
           if ($_->[1] eq 'p') {  
             !!!back-token;  
             $token = {type => 'end tag', tag_name => 'p'};  
             return;  
           } elsif ({  
                     table => 1, caption => 1, td => 1, th => 1,  
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$_->[1]}) {  
             last INSCOPE;  
           }  
         } # INSCOPE  
             
         ## Step 1  
         my $i = -1;  
         my $node = $self->{open_elements}->[$i];  
         LI: {  
           ## Step 2  
           if ($node->[1] eq 'dt' or $node->[1] eq 'dd') {  
             splice @{$self->{open_elements}}, $i;  
             last LI;  
           }  
             
           ## Step 3  
           if (not $formatting_category->{$node->[1]} and  
               #not $phrasing_category->{$node->[1]} and  
               ($special_category->{$node->[1]} or  
                $scoping_category->{$node->[1]}) and  
               $node->[1] ne 'address' and $node->[1] ne 'div') {  
             last LI;  
           }  
             
           ## Step 4  
           $i--;  
           $node = $self->{open_elements}->[$i];  
           redo LI;  
         } # LI  
             
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
         !!!next-token;  
         return;  
       } elsif ($token->{tag_name} eq 'plaintext') {  
         ## has a p element in scope  
         INSCOPE: for (reverse @{$self->{open_elements}}) {  
           if ($_->[1] eq 'p') {  
             !!!back-token;  
             $token = {type => 'end tag', tag_name => 'p'};  
             return;  
           } elsif ({  
                     table => 1, caption => 1, td => 1, th => 1,  
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$_->[1]}) {  
             last INSCOPE;  
           }  
         } # INSCOPE  
             
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
             
         $self->{content_model_flag} = 'PLAINTEXT';  
             
         !!!next-token;  
         return;  
       } elsif ({  
                 h1 => 1, h2 => 1, h3 => 1, h4 => 1, h5 => 1, h6 => 1,  
                }->{$token->{tag_name}}) {  
         ## has a p element in scope  
         INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
           my $node = $self->{open_elements}->[$_];  
           if ($node->[1] eq 'p') {  
             !!!back-token;  
             $token = {type => 'end tag', tag_name => 'p'};  
             return;  
           } elsif ({  
                     table => 1, caption => 1, td => 1, th => 1,  
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$node->[1]}) {  
             last INSCOPE;  
           }  
         } # INSCOPE  
             
         ## has an element in scope  
         my $i;  
         INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
           my $node = $self->{open_elements}->[$_];  
           if ({  
                h1 => 1, h2 => 1, h3 => 1, h4 => 1, h5 => 1, h6 => 1,  
               }->{$node->[1]}) {  
             $i = $_;  
             last INSCOPE;  
           } elsif ({  
                     table => 1, caption => 1, td => 1, th => 1,  
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$node->[1]}) {  
             last INSCOPE;  
           }  
         } # INSCOPE  
             
         if (defined $i) {  
           !!!parse-error (type => 'in hn:hn');  
           splice @{$self->{open_elements}}, $i;  
4383          }          }
4384                    }
4385          !!!insert-element-t ($token->{tag_name}, $token->{attributes});        !!!nack ('t84.1');
4386                    !!!next-token;
4387          next B;
4388        } elsif ($token->{type} == COMMENT_TOKEN) {
4389          my $comment = $self->{document}->create_comment ($token->{data});
4390          if ($self->{insertion_mode} & AFTER_HTML_IMS) {
4391            !!!cp ('t85');
4392            $self->{document}->append_child ($comment);
4393          } elsif ($self->{insertion_mode} == AFTER_BODY_IM) {
4394            !!!cp ('t86');
4395            $self->{open_elements}->[0]->[0]->append_child ($comment);
4396          } else {
4397            !!!cp ('t87');
4398            $self->{open_elements}->[-1]->[0]->append_child ($comment);
4399          }
4400          !!!next-token;
4401          next B;
4402        } elsif ($self->{insertion_mode} & IN_FOREIGN_CONTENT_IM) {
4403          if ($token->{type} == CHARACTER_TOKEN) {
4404            !!!cp ('t87.1');
4405            $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});
4406          !!!next-token;          !!!next-token;
4407          return;          next B;
4408        } elsif ($token->{tag_name} eq 'a') {        } elsif ($token->{type} == START_TAG_TOKEN) {
4409          AFE: for my $i (reverse 0..$#$active_formatting_elements) {          if ((not {mglyph => 1, malignmark => 1}->{$token->{tag_name}} and
4410            my $node = $active_formatting_elements->[$i];               $self->{open_elements}->[-1]->[1] & FOREIGN_FLOW_CONTENT_EL) or
4411            if ($node->[1] eq 'a') {              not ($self->{open_elements}->[-1]->[1] & FOREIGN_EL) or
4412              !!!parse-error (type => 'in a:a');              ($token->{tag_name} eq 'svg' and
4413                             $self->{open_elements}->[-1]->[1] & MML_AXML_EL)) {
4414              !!!back-token;            ## NOTE: "using the rules for secondary insertion mode"then"continue"
4415              $token = {type => 'end tag', tag_name => 'a'};            !!!cp ('t87.2');
4416              $formatting_end_tag->($token->{tag_name});            #
4417                        } elsif ({
4418              AFE2: for (reverse 0..$#$active_formatting_elements) {                    b => 1, big => 1, blockquote => 1, body => 1, br => 1,
4419                if ($active_formatting_elements->[$_]->[0] eq $node->[0]) {                    center => 1, code => 1, dd => 1, div => 1, dl => 1, dt => 1,
4420                  splice @$active_formatting_elements, $_, 1;                    em => 1, embed => 1, font => 1, h1 => 1, h2 => 1, h3 => 1,
4421                  last AFE2;                    h4 => 1, h5 => 1, h6 => 1, head => 1, hr => 1, i => 1,
4422                }                    img => 1, li => 1, listing => 1, menu => 1, meta => 1,
4423              } # AFE2                    nobr => 1, ol => 1, p => 1, pre => 1, ruby => 1, s => 1,
4424              OE: for (reverse 0..$#{$self->{open_elements}}) {                    small => 1, span => 1, strong => 1, strike => 1, sub => 1,
4425                if ($self->{open_elements}->[$_]->[0] eq $node->[0]) {                    sup => 1, table => 1, tt => 1, u => 1, ul => 1, var => 1,
4426                  splice @{$self->{open_elements}}, $_, 1;                   }->{$token->{tag_name}}) {
4427                  last OE;            !!!cp ('t87.2');
4428                }            !!!parse-error (type => 'not closed',
4429              } # OE                            text => $self->{open_elements}->[-1]->[0]
4430              last AFE;                                ->manakai_local_name,
4431            } elsif ($node->[0] eq '#marker') {                            token => $token);
4432              last AFE;  
4433              pop @{$self->{open_elements}}
4434                  while $self->{open_elements}->[-1]->[1] & FOREIGN_EL;
4435    
4436              $self->{insertion_mode} &= ~ IN_FOREIGN_CONTENT_IM;
4437              ## Reprocess.
4438              next B;
4439            } else {
4440              my $nsuri = $self->{open_elements}->[-1]->[0]->namespace_uri;
4441              my $tag_name = $token->{tag_name};
4442              if ($nsuri eq $SVG_NS) {
4443                $tag_name = {
4444                   altglyph => 'altGlyph',
4445                   altglyphdef => 'altGlyphDef',
4446                   altglyphitem => 'altGlyphItem',
4447                   animatecolor => 'animateColor',
4448                   animatemotion => 'animateMotion',
4449                   animatetransform => 'animateTransform',
4450                   clippath => 'clipPath',
4451                   feblend => 'feBlend',
4452                   fecolormatrix => 'feColorMatrix',
4453                   fecomponenttransfer => 'feComponentTransfer',
4454                   fecomposite => 'feComposite',
4455                   feconvolvematrix => 'feConvolveMatrix',
4456                   fediffuselighting => 'feDiffuseLighting',
4457                   fedisplacementmap => 'feDisplacementMap',
4458                   fedistantlight => 'feDistantLight',
4459                   feflood => 'feFlood',
4460                   fefunca => 'feFuncA',
4461                   fefuncb => 'feFuncB',
4462                   fefuncg => 'feFuncG',
4463                   fefuncr => 'feFuncR',
4464                   fegaussianblur => 'feGaussianBlur',
4465                   feimage => 'feImage',
4466                   femerge => 'feMerge',
4467                   femergenode => 'feMergeNode',
4468                   femorphology => 'feMorphology',
4469                   feoffset => 'feOffset',
4470                   fepointlight => 'fePointLight',
4471                   fespecularlighting => 'feSpecularLighting',
4472                   fespotlight => 'feSpotLight',
4473                   fetile => 'feTile',
4474                   feturbulence => 'feTurbulence',
4475                   foreignobject => 'foreignObject',
4476                   glyphref => 'glyphRef',
4477                   lineargradient => 'linearGradient',
4478                   radialgradient => 'radialGradient',
4479                   #solidcolor => 'solidColor', ## NOTE: Commented in spec (SVG1.2)
4480                   textpath => 'textPath',  
4481                }->{$tag_name} || $tag_name;
4482            }            }
         } # AFE  
             
         $reconstruct_active_formatting_elements->($insert_to_current);  
4483    
4484          !!!insert-element-t ($token->{tag_name}, $token->{attributes});            ## "adjust SVG attributes" (SVG only) - done in insert-element-f
         push @$active_formatting_elements, $self->{open_elements}->[-1];  
4485    
4486          !!!next-token;            ## "adjust foreign attributes" - done in insert-element-f
         return;  
       } elsif ({  
                 b => 1, big => 1, em => 1, font => 1, i => 1,  
                 nobr => 1, s => 1, small => 1, strile => 1,  
                 strong => 1, tt => 1, u => 1,  
                }->{$token->{tag_name}}) {  
         $reconstruct_active_formatting_elements->($insert_to_current);  
           
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
         push @$active_formatting_elements, $self->{open_elements}->[-1];  
           
         !!!next-token;  
         return;  
       } elsif ($token->{tag_name} eq 'button') {  
         ## has a button element in scope  
         INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
           my $node = $self->{open_elements}->[$_];  
           if ($node->[1] eq 'button') {  
             !!!parse-error (type => 'in button:button');  
             !!!back-token;  
             $token = {type => 'end tag', tag_name => 'button'};  
             return;  
           } elsif ({  
                     table => 1, caption => 1, td => 1, th => 1,  
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$node->[1]}) {  
             last INSCOPE;  
           }  
         } # INSCOPE  
             
         $reconstruct_active_formatting_elements->($insert_to_current);  
             
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
         push @$active_formatting_elements, ['#marker', ''];  
4487    
4488          !!!next-token;            !!!insert-element-f ($nsuri, $tag_name, $token->{attributes}, $token);
4489          return;  
4490        } elsif ($token->{tag_name} eq 'marquee' or            if ($self->{self_closing}) {
4491                 $token->{tag_name} eq 'object') {              pop @{$self->{open_elements}};
4492          $reconstruct_active_formatting_elements->($insert_to_current);              !!!ack ('t87.3');
           
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
         push @$active_formatting_elements, ['#marker', ''];  
           
         !!!next-token;  
         return;  
       } elsif ($token->{tag_name} eq 'xmp') {  
         $reconstruct_active_formatting_elements->($insert_to_current);  
           
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
           
         $self->{content_model_flag} = 'CDATA';  
           
         !!!next-token;  
         return;  
       } elsif ($token->{tag_name} eq 'table') {  
         ## has a p element in scope  
         INSCOPE: for (reverse @{$self->{open_elements}}) {  
           if ($_->[1] eq 'p') {  
             !!!back-token;  
             $token = {type => 'end tag', tag_name => 'p'};  
             return;  
           } elsif ({  
                     table => 1, caption => 1, td => 1, th => 1,  
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$_->[1]}) {  
             last INSCOPE;  
           }  
         } # INSCOPE  
             
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
             
         $self->{insertion_mode} = 'in table';  
             
         !!!next-token;  
         return;  
       } elsif ({  
                 area => 1, basefont => 1, bgsound => 1, br => 1,  
                 embed => 1, img => 1, param => 1, spacer => 1, wbr => 1,  
                 image => 1,  
                }->{$token->{tag_name}}) {  
         if ($token->{tag_name} eq 'image') {  
           !!!parse-error (type => 'image');  
           $token->{tag_name} = 'img';  
         }  
           
         $reconstruct_active_formatting_elements->($insert_to_current);  
           
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
         pop @{$self->{open_elements}};  
           
         !!!next-token;  
         return;  
       } elsif ($token->{tag_name} eq 'hr') {  
         ## has a p element in scope  
         INSCOPE: for (reverse @{$self->{open_elements}}) {  
           if ($_->[1] eq 'p') {  
             !!!back-token;  
             $token = {type => 'end tag', tag_name => 'p'};  
             return;  
           } elsif ({  
                     table => 1, caption => 1, td => 1, th => 1,  
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$_->[1]}) {  
             last INSCOPE;  
           }  
         } # INSCOPE  
             
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
         pop @{$self->{open_elements}};  
             
         !!!next-token;  
         return;  
       } elsif ($token->{tag_name} eq 'input') {  
         $reconstruct_active_formatting_elements->($insert_to_current);  
           
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
         ## TODO: associate with $self->{form_element} if defined  
         pop @{$self->{open_elements}};  
           
         !!!next-token;  
         return;  
       } elsif ($token->{tag_name} eq 'isindex') {  
         !!!parse-error (type => 'isindex');  
           
         if (defined $self->{form_element}) {  
           ## Ignore the token  
           !!!next-token;  
           return;  
         } else {  
           my $at = $token->{attributes};  
           $at->{name} = {name => 'name', value => 'isindex'};  
           my @tokens = (  
                         {type => 'start tag', tag_name => 'form'},  
                         {type => 'start tag', tag_name => 'hr'},  
                         {type => 'start tag', tag_name => 'p'},  
                         {type => 'start tag', tag_name => 'label'},  
                         {type => 'character',  
                          data => 'This is a searchable index. Insert your search keywords here: '}, # SHOULD  
                         ## TODO: make this configurable  
                         {type => 'start tag', tag_name => 'input', attributes => $at},  
                         #{type => 'character', data => ''}, # SHOULD  
                         {type => 'end tag', tag_name => 'label'},  
                         {type => 'end tag', tag_name => 'p'},  
                         {type => 'start tag', tag_name => 'hr'},  
                         {type => 'end tag', tag_name => 'form'},  
                        );  
           $token = shift @tokens;  
           !!!back-token (@tokens);  
           return;  
         }  
       } elsif ({  
                 textarea => 1,  
                 iframe => 1,  
                 noembed => 1,  
                 noframes => 1,  
                 noscript => 0, ## TODO: 1 if scripting is enabled  
                }->{$token->{tag_name}}) {  
         my $tag_name = $token->{tag_name};  
         my $el;  
         !!!create-element ($el, $token->{tag_name}, $token->{attributes});  
           
         if ($token->{tag_name} eq 'textarea') {  
           ## TODO: $self->{form_element} if defined  
           $self->{content_model_flag} = 'RCDATA';  
         } else {  
           $self->{content_model_flag} = 'CDATA';  
         }  
           
         $insert->($el);  
           
         my $text = '';  
         !!!next-token;  
         while ($token->{type} eq 'character') {  
           $text .= $token->{data};  
           !!!next-token;  
         }  
         if (length $text) {  
           $el->manakai_append_text ($text);  
         }  
           
         $self->{content_model_flag} = 'PCDATA';  
           
         if ($token->{type} eq 'end tag' and  
             $token->{tag_name} eq $tag_name) {  
           ## Ignore the token  
         } else {  
           if ($token->{tag_name} eq 'textarea') {  
             !!!parse-error (type => 'in CDATA:#'.$token->{type});  
4493            } else {            } else {
4494              !!!parse-error (type => 'in RCDATA:#'.$token->{type});              !!!cp ('t87.4');
4495            }            }
4496            ## ISSUE: And ignore?  
4497              !!!next-token;
4498              next B;
4499          }          }
4500          !!!next-token;        } elsif ($token->{type} == END_TAG_TOKEN) {
4501          return;          ## NOTE: "using the rules for secondary insertion mode" then "continue"
4502        } elsif ($token->{tag_name} eq 'select') {          !!!cp ('t87.5');
4503          $reconstruct_active_formatting_elements->($insert_to_current);          #
4504                  } elsif ($token->{type} == END_OF_FILE_TOKEN) {
4505          !!!insert-element-t ($token->{tag_name}, $token->{attributes});          !!!cp ('t87.6');
4506                    !!!parse-error (type => 'not closed',
4507          $self->{insertion_mode} = 'in select';                          text => $self->{open_elements}->[-1]->[0]
4508          !!!next-token;                              ->manakai_local_name,
4509          return;                          token => $token);
4510        } elsif ({  
4511                  caption => 1, col => 1, colgroup => 1, frame => 1,          pop @{$self->{open_elements}}
4512                  frameset => 1, head => 1, option => 1, optgroup => 1,              while $self->{open_elements}->[-1]->[1] & FOREIGN_EL;
4513                  tbody => 1, td => 1, tfoot => 1, th => 1,  
4514                  thead => 1, tr => 1,          $self->{insertion_mode} &= ~ IN_FOREIGN_CONTENT_IM;
4515                 }->{$token->{tag_name}}) {          ## Reprocess.
4516          !!!parse-error (type => 'in body:'.$token->{tag_name});          next B;
         ## Ignore the token  
         !!!next-token;  
         return;  
           
         ## ISSUE: An issue on HTML5 new elements in the spec.  
4517        } else {        } else {
4518          $reconstruct_active_formatting_elements->($insert_to_current);          die "$0: $token->{type}: Unknown token type";        
           
         !!!insert-element-t ($token->{tag_name}, $token->{attributes});  
           
         !!!next-token;  
         return;  
4519        }        }
4520      } elsif ($token->{type} eq 'end tag') {      }
4521        if ($token->{tag_name} eq 'body') {  
4522          if (@{$self->{open_elements}} > 1 and $self->{open_elements}->[1]->[1] eq 'body') {      if ($self->{insertion_mode} & HEAD_IMS) {
4523            ## ISSUE: There is an issue in the spec.        if ($token->{type} == CHARACTER_TOKEN) {
4524            if ($self->{open_elements}->[-1]->[1] ne 'body') {          if ($token->{data} =~ s/^([\x09\x0A\x0C\x20]+)//) {
4525              !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);            unless ($self->{insertion_mode} == BEFORE_HEAD_IM) {
4526            }              !!!cp ('t88.2');
4527            $self->{insertion_mode} = 'after body';              $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);
4528            !!!next-token;              #
4529            return;            } else {
4530          } else {              !!!cp ('t88.1');
4531            !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});              ## Ignore the token.
4532            ## Ignore the token              #
           !!!next-token;  
           return;  
         }  
       } elsif ($token->{tag_name} eq 'html') {  
         if (@{$self->{open_elements}} > 1 and $self->{open_elements}->[1]->[1] eq 'body') {  
           ## ISSUE: There is an issue in the spec.  
           if ($self->{open_elements}->[-1]->[1] ne 'body') {  
             !!!parse-error (type => 'not closed:'.$self->{open_elements}->[1]->[1]);  
           }  
           $self->{insertion_mode} = 'after body';  
           ## reprocess  
           return;  
         } else {  
           !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
           ## Ignore the token  
           !!!next-token;  
           return;  
         }  
       } elsif ({  
                 address => 1, blockquote => 1, center => 1, dir => 1,  
                 div => 1, dl => 1, fieldset => 1, listing => 1,  
                 menu => 1, ol => 1, pre => 1, ul => 1,  
                 form => 1,  
                 p => 1,  
                 dd => 1, dt => 1, li => 1,  
                 button => 1, marquee => 1, object => 1,  
                }->{$token->{tag_name}}) {  
         ## has an element in scope  
         my $i;  
         INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
           my $node = $self->{open_elements}->[$_];  
           if ($node->[1] eq $token->{tag_name}) {  
             ## generate implied end tags  
             if ({  
                  dd => ($token->{tag_name} ne 'dd'),  
                  dt => ($token->{tag_name} ne 'dt'),  
                  li => ($token->{tag_name} ne 'li'),  
                  p => ($token->{tag_name} ne 'p'),  
                  td => 1, th => 1, tr => 1,  
                 }->{$self->{open_elements}->[-1]->[1]}) {  
               !!!back-token;  
               $token = {type => 'end tag',  
                         tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
               return;  
             }  
             $i = $_;  
             last INSCOPE unless $token->{tag_name} eq 'p';  
           } elsif ({  
                     table => 1, caption => 1, td => 1, th => 1,  
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$node->[1]}) {  
             last INSCOPE;  
4533            }            }
4534          } # INSCOPE            unless (length $token->{data}) {
4535                        !!!cp ('t88');
4536          if ($self->{open_elements}->[-1]->[1] ne $token->{tag_name}) {              !!!next-token;
4537            !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);              next B;
         }  
           
         splice @{$self->{open_elements}}, $i if defined $i;  
         undef $self->{form_element} if $token->{tag_name} eq 'form';  
         $clear_up_to_marker->()  
           if {  
             button => 1, marquee => 1, object => 1,  
           }->{$token->{tag_name}};  
         !!!next-token;  
         return;  
       } elsif ({  
                 h1 => 1, h2 => 1, h3 => 1, h4 => 1, h5 => 1, h6 => 1,  
                }->{$token->{tag_name}}) {  
         ## has an element in scope  
         my $i;  
         INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
           my $node = $self->{open_elements}->[$_];  
           if ({  
                h1 => 1, h2 => 1, h3 => 1, h4 => 1, h5 => 1, h6 => 1,  
               }->{$node->[1]}) {  
             ## generate implied end tags  
             if ({  
                  dd => 1, dt => 1, li => 1, p => 1,  
                  td => 1, th => 1, tr => 1,  
                 }->{$self->{open_elements}->[-1]->[1]}) {  
               !!!back-token;  
               $token = {type => 'end tag',  
                         tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
               return;  
             }  
             $i = $_;  
             last INSCOPE;  
           } elsif ({  
                     table => 1, caption => 1, td => 1, th => 1,  
                     button => 1, marquee => 1, object => 1, html => 1,  
                    }->{$node->[1]}) {  
             last INSCOPE;  
4538            }            }
4539          } # INSCOPE  ## TODO: set $token->{column} appropriately
           
         if ($self->{open_elements}->[-1]->[1] ne $token->{tag_name}) {  
           !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
4540          }          }
           
         splice @{$self->{open_elements}}, $i if defined $i;  
         !!!next-token;  
         return;  
       } elsif ({  
                 a => 1,  
                 b => 1, big => 1, em => 1, font => 1, i => 1,  
                 nobr => 1, s => 1, small => 1, strile => 1,  
                 strong => 1, tt => 1, u => 1,  
                }->{$token->{tag_name}}) {  
         $formatting_end_tag->($token->{tag_name});  
         return;  
       } elsif ({  
                 caption => 1, col => 1, colgroup => 1, frame => 1,  
                 frameset => 1, head => 1, option => 1, optgroup => 1,  
                 tbody => 1, td => 1, tfoot => 1, th => 1,  
                 thead => 1, tr => 1,  
                 area => 1, basefont => 1, bgsound => 1, br => 1,  
                 embed => 1, hr => 1, iframe => 1, image => 1,  
                 img => 1, input => 1, isindex => 1, noembed => 1,  
                 noframes => 1, param => 1, select => 1, spacer => 1,  
                 table => 1, textarea => 1, wbr => 1,  
                 noscript => 0, ## TODO: if scripting is enabled  
                }->{$token->{tag_name}}) {  
         !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
         ## Ignore the token  
         !!!next-token;  
         return;  
           
         ## ISSUE: Issue on HTML5 new elements in spec  
           
       } else {  
         ## Step 1  
         my $node_i = -1;  
         my $node = $self->{open_elements}->[$node_i];  
   
         ## Step 2  
         S2: {  
           if ($node->[1] eq $token->{tag_name}) {  
             ## Step 1  
             ## generate implied end tags  
             if ({  
                  dd => 1, dt => 1, li => 1, p => 1,  
                  td => 1, th => 1, tr => 1,  
                 }->{$self->{open_elements}->[-1]->[1]}) {  
               !!!back-token;  
               $token = {type => 'end tag',  
                         tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
               return;  
             }  
           
             ## Step 2  
             if ($token->{tag_name} ne $self->{open_elements}->[-1]->[1]) {  
               !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
             }  
               
             ## Step 3  
             splice @{$self->{open_elements}}, $node_i;  
4541    
4542              !!!next-token;          if ($self->{insertion_mode} == BEFORE_HEAD_IM) {
4543              last S2;            !!!cp ('t89');
4544            } else {            ## As if <head>
4545              ## Step 3            !!!create-element ($self->{head_element}, $HTML_NS, 'head',, $token);
4546              if (not $formatting_category->{$node->[1]} and            $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});
4547                  #not $phrasing_category->{$node->[1]} and            push @{$self->{open_elements}},
4548                  ($special_category->{$node->[1]} or                [$self->{head_element}, $el_category->{head}];
4549                   $scoping_category->{$node->[1]})) {  
4550                !!!parse-error (type => 'not closed:'.$node->[1]);            ## Reprocess in the "in head" insertion mode...
4551                ## Ignore the token            pop @{$self->{open_elements}};
4552                !!!next-token;  
4553                last S2;            ## Reprocess in the "after head" insertion mode...
4554              }          } elsif ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
4555            }            !!!cp ('t90');
4556                        ## As if </noscript>
4557            ## Step 4            pop @{$self->{open_elements}};
4558            $node_i--;            !!!parse-error (type => 'in noscript:#text', token => $token);
           $node = $self->{open_elements}->[$node_i];  
4559                        
4560            ## Step 5;            ## Reprocess in the "in head" insertion mode...
4561            redo S2;            ## As if </head>
4562          } # S2            pop @{$self->{open_elements}};
         return;  
       }  
     }  
   }; # $in_body  
4563    
4564    B: {            ## Reprocess in the "after head" insertion mode...
4565      if ($phase eq 'main') {          } elsif ($self->{insertion_mode} == IN_HEAD_IM) {
4566        if ($token->{type} eq 'DOCTYPE') {            !!!cp ('t91');
4567          !!!parse-error (type => 'in html:#DOCTYPE');            pop @{$self->{open_elements}};
         ## Ignore the token  
         ## Stay in the phase  
         !!!next-token;  
         redo B;  
       } elsif ($token->{type} eq 'start tag' and  
                $token->{tag_name} eq 'html') {  
         ## TODO: unless it is the first start tag token, parse-error  
         my $top_el = $self->{open_elements}->[0]->[0];  
         for my $attr_name (keys %{$token->{attributes}}) {  
           unless ($top_el->has_attribute_ns (undef, $attr_name)) {  
             $top_el->set_attribute_ns  
               (undef, [undef, $attr_name],  
                $token->{attributes}->{$attr_name}->{value});  
           }  
         }  
         !!!next-token;  
         redo B;  
       } elsif ($token->{type} eq 'end-of-file') {  
         ## Generate implied end tags  
         if ({  
              dd => 1, dt => 1, li => 1, p => 1, td => 1, th => 1, tr => 1,  
             }->{$self->{open_elements}->[-1]->[1]}) {  
           !!!back-token;  
           $token = {type => 'end tag', tag_name => $self->{open_elements}->[-1]->[1]};  
           redo B;  
         }  
           
         if (@{$self->{open_elements}} > 2 or  
             (@{$self->{open_elements}} == 2 and $self->{open_elements}->[1]->[1] ne 'body')) {  
           !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
         } elsif (defined $self->{inner_html_node} and  
                  @{$self->{open_elements}} > 1 and  
                  $self->{open_elements}->[1]->[1] ne 'body') {  
           !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
         }  
4568    
4569          ## Stop parsing            ## Reprocess in the "after head" insertion mode...
4570          last B;          } else {
4571              !!!cp ('t92');
4572            }
4573    
4574          ## ISSUE: There is an issue in the spec.          ## "after head" insertion mode
4575        } else {          ## As if <body>
4576          if ($self->{insertion_mode} eq 'before head') {          !!!insert-element ('body',, $token);
4577            if ($token->{type} eq 'character') {          $self->{insertion_mode} = IN_BODY_IM;
4578              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {          ## reprocess
4579                $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);          next B;
4580                unless (length $token->{data}) {        } elsif ($token->{type} == START_TAG_TOKEN) {
4581                  !!!next-token;          if ($token->{tag_name} eq 'head') {
4582                  redo B;            if ($self->{insertion_mode} == BEFORE_HEAD_IM) {
4583                }              !!!cp ('t93');
4584              }              !!!create-element ($self->{head_element}, $HTML_NS, $token->{tag_name}, $token->{attributes}, $token);
4585              ## As if <head>              $self->{open_elements}->[-1]->[0]->append_child
4586              !!!create-element ($self->{head_element}, 'head');                  ($self->{head_element});
4587              $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});              push @{$self->{open_elements}},
4588              push @{$self->{open_elements}}, [$self->{head_element}, 'head'];                  [$self->{head_element}, $el_category->{head}];
4589              $self->{insertion_mode} = 'in head';              $self->{insertion_mode} = IN_HEAD_IM;
4590              ## reprocess              !!!nack ('t93.1');
             redo B;  
           } elsif ($token->{type} eq 'comment') {  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
4591              !!!next-token;              !!!next-token;
4592              redo B;              next B;
4593            } elsif ($token->{type} eq 'start tag') {            } elsif ($self->{insertion_mode} == AFTER_HEAD_IM) {
4594              my $attr = $token->{tag_name} eq 'head' ? $token->{attributes} : {};              !!!cp ('t93.2');
4595              !!!create-element ($self->{head_element}, 'head', $attr);              !!!parse-error (type => 'after head', text => 'head',
4596              $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});                              token => $token);
4597              push @{$self->{open_elements}}, [$self->{head_element}, 'head'];              ## Ignore the token
4598              $self->{insertion_mode} = 'in head';              !!!nack ('t93.3');
4599              if ($token->{tag_name} eq 'head') {              !!!next-token;
4600                !!!next-token;              next B;
             #} elsif ({  
             #          base => 1, link => 1, meta => 1,  
             #          script => 1, style => 1, title => 1,  
             #         }->{$token->{tag_name}}) {  
             #  ## reprocess  
             } else {  
               ## reprocess  
             }  
             redo B;  
           } elsif ($token->{type} eq 'end tag') {  
             if ($token->{tag_name} eq 'html') {  
               ## As if <head>  
               !!!create-element ($self->{head_element}, 'head');  
               $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});  
               push @{$self->{open_elements}}, [$self->{head_element}, 'head'];  
               $self->{insertion_mode} = 'in head';  
               ## reprocess  
               redo B;  
             } else {  
               !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
               ## Ignore the token  
               !!!next-token;  
               redo B;  
             }  
4601            } else {            } else {
4602              die "$0: $token->{type}: Unknown type";              !!!cp ('t95');
4603            }              !!!parse-error (type => 'in head:head',
4604          } elsif ($self->{insertion_mode} eq 'in head') {                              token => $token); # or in head noscript
4605            if ($token->{type} eq 'character') {              ## Ignore the token
4606              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {              !!!nack ('t95.1');
               $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);  
               unless (length $token->{data}) {  
                 !!!next-token;  
                 redo B;  
               }  
             }  
               
             #  
           } elsif ($token->{type} eq 'comment') {  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
4607              !!!next-token;              !!!next-token;
4608              redo B;              next B;
4609            } elsif ($token->{type} eq 'start tag') {            }
4610              if ($token->{tag_name} eq 'title') {          } elsif ($self->{insertion_mode} == BEFORE_HEAD_IM) {
4611                ## NOTE: There is an "as if in head" code clone            !!!cp ('t96');
4612                my $title_el;            ## As if <head>
4613                !!!create-element ($title_el, 'title', $token->{attributes});            !!!create-element ($self->{head_element}, $HTML_NS, 'head',, $token);
4614                (defined $self->{head_element} ? $self->{head_element} : $self->{open_elements}->[-1]->[0])            $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});
4615                  ->append_child ($title_el);            push @{$self->{open_elements}},
4616                $self->{content_model_flag} = 'RCDATA';                [$self->{head_element}, $el_category->{head}];
4617    
4618                my $text = '';            $self->{insertion_mode} = IN_HEAD_IM;
4619                !!!next-token;            ## Reprocess in the "in head" insertion mode...
4620                while ($token->{type} eq 'character') {          } else {
4621                  $text .= $token->{data};            !!!cp ('t97');
4622                  !!!next-token;          }
4623                }  
4624                if (length $text) {              if ($token->{tag_name} eq 'base') {
4625                  $title_el->manakai_append_text ($text);                if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
4626                }                  !!!cp ('t98');
4627                                  ## As if </noscript>
4628                $self->{content_model_flag} = 'PCDATA';                  pop @{$self->{open_elements}};
4629                    !!!parse-error (type => 'in noscript', text => 'base',
4630                                    token => $token);
4631                                
4632                if ($token->{type} eq 'end tag' and                  $self->{insertion_mode} = IN_HEAD_IM;
4633                    $token->{tag_name} eq 'title') {                  ## Reprocess in the "in head" insertion mode...
                 ## Ignore the token  
4634                } else {                } else {
4635                  !!!parse-error (type => 'in RCDATA:#'.$token->{type});                  !!!cp ('t99');
                 ## ISSUE: And ignore?  
4636                }                }
               !!!next-token;  
               redo B;  
             } elsif ($token->{tag_name} eq 'style') {  
               $style_start_tag->();  
               redo B;  
             } elsif ($token->{tag_name} eq 'script') {  
               $script_start_tag->();  
               redo B;  
             } elsif ({base => 1, link => 1, meta => 1}->{$token->{tag_name}}) {  
               ## NOTE: There are "as if in head" code clones  
               my $el;  
               !!!create-element ($el, $token->{tag_name}, $token->{attributes});  
               (defined $self->{head_element} ? $self->{head_element} : $self->{open_elements}->[-1]->[0])  
                 ->append_child ($el);  
4637    
4638                !!!next-token;                ## NOTE: There is a "as if in head" code clone.
4639                redo B;                if ($self->{insertion_mode} == AFTER_HEAD_IM) {
4640              } elsif ($token->{tag_name} eq 'head') {                  !!!cp ('t100');
4641                !!!parse-error (type => 'in head:head');                  !!!parse-error (type => 'after head',
4642                ## Ignore the token                                  text => $token->{tag_name}, token => $token);
4643                !!!next-token;                  push @{$self->{open_elements}},
4644                redo B;                      [$self->{head_element}, $el_category->{head}];
             } else {  
               #  
             }  
           } elsif ($token->{type} eq 'end tag') {  
             if ($token->{tag_name} eq 'head') {  
               if ($self->{open_elements}->[-1]->[1] eq 'head') {  
                 pop @{$self->{open_elements}};  
4645                } else {                } else {
4646                  !!!parse-error (type => 'unmatched end tag:head');                  !!!cp ('t101');
4647                }                }
4648                $self->{insertion_mode} = 'after head';                !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
4649                !!!next-token;                pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.
4650                redo B;                pop @{$self->{open_elements}} # <head>
4651              } elsif ($token->{tag_name} eq 'html') {                    if $self->{insertion_mode} == AFTER_HEAD_IM;
4652                #                !!!nack ('t101.1');
             } else {  
               !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
               ## Ignore the token  
4653                !!!next-token;                !!!next-token;
4654                redo B;                next B;
4655              }              } elsif ($token->{tag_name} eq 'link') {
4656            } else {                ## NOTE: There is a "as if in head" code clone.
4657              #                if ($self->{insertion_mode} == AFTER_HEAD_IM) {
4658            }                  !!!cp ('t102');
4659                    !!!parse-error (type => 'after head',
4660            if ($self->{open_elements}->[-1]->[1] eq 'head') {                                  text => $token->{tag_name}, token => $token);
4661              ## As if </head>                  push @{$self->{open_elements}},
4662              pop @{$self->{open_elements}};                      [$self->{head_element}, $el_category->{head}];
4663            }                } else {
4664            $self->{insertion_mode} = 'after head';                  !!!cp ('t103');
           ## reprocess  
           redo B;  
   
           ## ISSUE: An issue in the spec.  
         } elsif ($self->{insertion_mode} eq 'after head') {  
           if ($token->{type} eq 'character') {  
             if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {  
               $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);  
               unless (length $token->{data}) {  
                 !!!next-token;  
                 redo B;  
4665                }                }
4666              }                !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
4667                              pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.
4668              #                pop @{$self->{open_elements}} # <head>
4669            } elsif ($token->{type} eq 'comment') {                    if $self->{insertion_mode} == AFTER_HEAD_IM;
4670              my $comment = $self->{document}->create_comment ($token->{data});                !!!ack ('t103.1');
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
             !!!next-token;  
             redo B;  
           } elsif ($token->{type} eq 'start tag') {  
             if ($token->{tag_name} eq 'body') {  
               !!!insert-element ('body', $token->{attributes});  
               $self->{insertion_mode} = 'in body';  
4671                !!!next-token;                !!!next-token;
4672                redo B;                next B;
4673              } elsif ($token->{tag_name} eq 'frameset') {              } elsif ($token->{tag_name} eq 'meta') {
4674                !!!insert-element ('frameset', $token->{attributes});                ## NOTE: There is a "as if in head" code clone.
4675                $self->{insertion_mode} = 'in frameset';                if ($self->{insertion_mode} == AFTER_HEAD_IM) {
4676                !!!next-token;                  !!!cp ('t104');
4677                redo B;                  !!!parse-error (type => 'after head',
4678              } elsif ({                                  text => $token->{tag_name}, token => $token);
4679                        base => 1, link => 1, meta => 1,                  push @{$self->{open_elements}},
4680                        script => 1, style => 1, title => 1,                      [$self->{head_element}, $el_category->{head}];
4681                       }->{$token->{tag_name}}) {                } else {
4682                !!!parse-error (type => 'after head:'.$token->{tag_name});                  !!!cp ('t105');
               $self->{insertion_mode} = 'in head';  
               ## reprocess  
               redo B;  
             } else {  
               #  
             }  
           } else {  
             #  
           }  
             
           ## As if <body>  
           !!!insert-element ('body');  
           $self->{insertion_mode} = 'in body';  
           ## reprocess  
           redo B;  
         } elsif ($self->{insertion_mode} eq 'in body') {  
           if ($token->{type} eq 'character') {  
             ## NOTE: There is a code clone of "character in body".  
             $reconstruct_active_formatting_elements->($insert_to_current);  
               
             $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});  
   
             !!!next-token;  
             redo B;  
           } elsif ($token->{type} eq 'comment') {  
             ## NOTE: There is a code clone of "comment in body".  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
             !!!next-token;  
             redo B;  
           } else {  
             $in_body->($insert_to_current);  
             redo B;  
           }  
         } elsif ($self->{insertion_mode} eq 'in table') {  
           if ($token->{type} eq 'character') {  
             ## NOTE: There are "character in table" code clones.  
             if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {  
               $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);  
                 
               unless (length $token->{data}) {  
                 !!!next-token;  
                 redo B;  
4683                }                }
4684              }                !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
4685                  my $meta_el = pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.
             !!!parse-error (type => 'in table:#character');  
4686    
4687              ## As if in body, but insert into foster parent element                unless ($self->{confident}) {
4688              ## ISSUE: Spec says that "whenever a node would be inserted                  if ($token->{attributes}->{charset}) {
4689              ## into the current node" while characters might not be                    !!!cp ('t106');
4690              ## result in a new Text node.                    ## NOTE: Whether the encoding is supported or not is handled
4691              $reconstruct_active_formatting_elements->($insert_to_foster);                    ## in the {change_encoding} callback.
4692                                  $self->{change_encoding}
4693              if ({                        ->($self, $token->{attributes}->{charset}->{value},
4694                   table => 1, tbody => 1, tfoot => 1,                           $token);
4695                   thead => 1, tr => 1,                    
4696                  }->{$self->{open_elements}->[-1]->[1]}) {                    $meta_el->[0]->get_attribute_node_ns (undef, 'charset')
4697                # MUST                        ->set_user_data (manakai_has_reference =>
4698                my $foster_parent_element;                                             $token->{attributes}->{charset}
4699                my $next_sibling;                                                 ->{has_reference});
4700                my $prev_sibling;                  } elsif ($token->{attributes}->{content}) {
4701                OE: for (reverse 0..$#{$self->{open_elements}}) {                    if ($token->{attributes}->{content}->{value}
4702                  if ($self->{open_elements}->[$_]->[1] eq 'table') {                        =~ /[Cc][Hh][Aa][Rr][Ss][Ee][Tt]
4703                    my $parent = $self->{open_elements}->[$_]->[0]->parent_node;                            [\x09\x0A\x0C\x0D\x20]*=
4704                    if (defined $parent and $parent->node_type == 1) {                            [\x09\x0A\x0C\x0D\x20]*(?>"([^"]*)"|'([^']*)'|
4705                      $foster_parent_element = $parent;                            ([^"'\x09\x0A\x0C\x0D\x20]
4706                      $next_sibling = $self->{open_elements}->[$_]->[0];                             [^\x09\x0A\x0C\x0D\x20\x3B]*))/x) {
4707                      $prev_sibling = $next_sibling->previous_sibling;                      !!!cp ('t107');
4708                        ## NOTE: Whether the encoding is supported or not is handled
4709                        ## in the {change_encoding} callback.
4710                        $self->{change_encoding}
4711                            ->($self, defined $1 ? $1 : defined $2 ? $2 : $3,
4712                               $token);
4713                        $meta_el->[0]->get_attribute_node_ns (undef, 'content')
4714                            ->set_user_data (manakai_has_reference =>
4715                                                 $token->{attributes}->{content}
4716                                                       ->{has_reference});
4717                    } else {                    } else {
4718                      $foster_parent_element = $self->{open_elements}->[$_ - 1]->[0];                      !!!cp ('t108');
                     $prev_sibling = $foster_parent_element->last_child;  
4719                    }                    }
                   last OE;  
4720                  }                  }
               } # OE  
               $foster_parent_element = $self->{open_elements}->[0]->[0] and  
               $prev_sibling = $foster_parent_element->last_child  
                 unless defined $foster_parent_element;  
               if (defined $prev_sibling and  
                   $prev_sibling->node_type == 3) {  
                 $prev_sibling->manakai_append_text ($token->{data});  
4721                } else {                } else {
4722                  $foster_parent_element->insert_before                  if ($token->{attributes}->{charset}) {
4723                    ($self->{document}->create_text_node ($token->{data}),                    !!!cp ('t109');
4724                     $next_sibling);                    $meta_el->[0]->get_attribute_node_ns (undef, 'charset')
4725                }                        ->set_user_data (manakai_has_reference =>
4726              } else {                                             $token->{attributes}->{charset}
4727                $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});                                                 ->{has_reference});
4728              }                  }
4729                                if ($token->{attributes}->{content}) {
4730              !!!next-token;                    !!!cp ('t110');
4731              redo B;                    $meta_el->[0]->get_attribute_node_ns (undef, 'content')
4732            } elsif ($token->{type} eq 'comment') {                        ->set_user_data (manakai_has_reference =>
4733              my $comment = $self->{document}->create_comment ($token->{data});                                             $token->{attributes}->{content}
4734              $self->{open_elements}->[-1]->[0]->append_child ($comment);                                                 ->{has_reference});
4735              !!!next-token;                  }
             redo B;  
           } elsif ($token->{type} eq 'start tag') {  
             if ({  
                  caption => 1,  
                  colgroup => 1,  
                  tbody => 1, tfoot => 1, thead => 1,  
                 }->{$token->{tag_name}}) {  
               ## Clear back to table context  
               while ($self->{open_elements}->[-1]->[1] ne 'table' and  
                      $self->{open_elements}->[-1]->[1] ne 'html') {  
                 !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
                 pop @{$self->{open_elements}};  
4736                }                }
4737    
4738                push @$active_formatting_elements, ['#marker', '']                pop @{$self->{open_elements}} # <head>
4739                  if $token->{tag_name} eq 'caption';                    if $self->{insertion_mode} == AFTER_HEAD_IM;
4740                  !!!ack ('t110.1');
               !!!insert-element ($token->{tag_name}, $token->{attributes});  
               $self->{insertion_mode} = {  
                                  caption => 'in caption',  
                                  colgroup => 'in column group',  
                                  tbody => 'in table body',  
                                  tfoot => 'in table body',  
                                  thead => 'in table body',  
                                 }->{$token->{tag_name}};  
4741                !!!next-token;                !!!next-token;
4742                redo B;                next B;
4743              } elsif ({              } elsif ($token->{tag_name} eq 'title') {
4744                        col => 1,                if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
4745                        td => 1, th => 1, tr => 1,                  !!!cp ('t111');
4746                       }->{$token->{tag_name}}) {                  ## As if </noscript>
               ## Clear back to table context  
               while ($self->{open_elements}->[-1]->[1] ne 'table' and  
                      $self->{open_elements}->[-1]->[1] ne 'html') {  
                 !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
4747                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
4748                    !!!parse-error (type => 'in noscript', text => 'title',
4749                                    token => $token);
4750                  
4751                    $self->{insertion_mode} = IN_HEAD_IM;
4752                    ## Reprocess in the "in head" insertion mode...
4753                  } elsif ($self->{insertion_mode} == AFTER_HEAD_IM) {
4754                    !!!cp ('t112');
4755                    !!!parse-error (type => 'after head',
4756                                    text => $token->{tag_name}, token => $token);
4757                    push @{$self->{open_elements}},
4758                        [$self->{head_element}, $el_category->{head}];
4759                  } else {
4760                    !!!cp ('t113');
4761                }                }
4762    
4763                !!!insert-element ($token->{tag_name} eq 'col' ? 'colgroup' : 'tbody');                ## NOTE: There is a "as if in head" code clone.
4764                $self->{insertion_mode} = $token->{tag_name} eq 'col'                my $parent = defined $self->{head_element} ? $self->{head_element}
4765                  ? 'in column group' : 'in table body';                    : $self->{open_elements}->[-1]->[0];
4766                ## reprocess                $parse_rcdata->(RCDATA_CONTENT_MODEL);
4767                redo B;                pop @{$self->{open_elements}} # <head>
4768              } elsif ($token->{tag_name} eq 'table') {                    if $self->{insertion_mode} == AFTER_HEAD_IM;
4769                ## NOTE: There are code clones for this "table in table"                next B;
4770                !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);              } elsif ($token->{tag_name} eq 'style' or
4771                         $token->{tag_name} eq 'noframes') {
4772                ## As if </table>                ## NOTE: Or (scripting is enabled and tag_name eq 'noscript' and
4773                ## have a table element in table scope                ## insertion mode IN_HEAD_IM)
4774                my $i;                ## NOTE: There is a "as if in head" code clone.
4775                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                if ($self->{insertion_mode} == AFTER_HEAD_IM) {
4776                  my $node = $self->{open_elements}->[$_];                  !!!cp ('t114');
4777                  if ($node->[1] eq 'table') {                  !!!parse-error (type => 'after head',
4778                    $i = $_;                                  text => $token->{tag_name}, token => $token);
4779                    last INSCOPE;                  push @{$self->{open_elements}},
4780                  } elsif ({                      [$self->{head_element}, $el_category->{head}];
4781                            table => 1, html => 1,                } else {
4782                           }->{$node->[1]}) {                  !!!cp ('t115');
4783                    last INSCOPE;                }
4784                  }                $parse_rcdata->(CDATA_CONTENT_MODEL);
4785                } # INSCOPE                pop @{$self->{open_elements}} # <head>
4786                unless (defined $i) {                    if $self->{insertion_mode} == AFTER_HEAD_IM;
4787                  !!!parse-error (type => 'unmatched end tag:table');                next B;
4788                  ## Ignore tokens </table><table>              } elsif ($token->{tag_name} eq 'noscript') {
4789                  if ($self->{insertion_mode} == IN_HEAD_IM) {
4790                    !!!cp ('t116');
4791                    ## NOTE: and scripting is disalbed
4792                    !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
4793                    $self->{insertion_mode} = IN_HEAD_NOSCRIPT_IM;
4794                    !!!nack ('t116.1');
4795                    !!!next-token;
4796                    next B;
4797                  } elsif ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
4798                    !!!cp ('t117');
4799                    !!!parse-error (type => 'in noscript', text => 'noscript',
4800                                    token => $token);
4801                    ## Ignore the token
4802                    !!!nack ('t117.1');
4803                  !!!next-token;                  !!!next-token;
4804                  redo B;                  next B;
4805                  } else {
4806                    !!!cp ('t118');
4807                    #
4808                }                }
4809                } elsif ($token->{tag_name} eq 'script') {
4810                  if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
4811                    !!!cp ('t119');
4812                    ## As if </noscript>
4813                    pop @{$self->{open_elements}};
4814                    !!!parse-error (type => 'in noscript', text => 'script',
4815                                    token => $token);
4816                                
4817                ## generate implied end tags                  $self->{insertion_mode} = IN_HEAD_IM;
4818                if ({                  ## Reprocess in the "in head" insertion mode...
4819                     dd => 1, dt => 1, li => 1, p => 1,                } elsif ($self->{insertion_mode} == AFTER_HEAD_IM) {
4820                     td => 1, th => 1, tr => 1,                  !!!cp ('t120');
4821                    }->{$self->{open_elements}->[-1]->[1]}) {                  !!!parse-error (type => 'after head',
4822                  !!!back-token; # <table>                                  text => $token->{tag_name}, token => $token);
4823                  $token = {type => 'end tag', tag_name => 'table'};                  push @{$self->{open_elements}},
4824                  !!!back-token;                      [$self->{head_element}, $el_category->{head}];
4825                  $token = {type => 'end tag',                } else {
4826                            tag_name => $self->{open_elements}->[-1]->[1]}; # MUST                  !!!cp ('t121');
                 redo B;  
4827                }                }
4828    
4829                if ($self->{open_elements}->[-1]->[1] ne 'table') {                ## NOTE: There is a "as if in head" code clone.
4830                  !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                $script_start_tag->();
4831                  pop @{$self->{open_elements}} # <head>
4832                      if $self->{insertion_mode} == AFTER_HEAD_IM;
4833                  next B;
4834                } elsif ($token->{tag_name} eq 'body' or
4835                         $token->{tag_name} eq 'frameset') {
4836                  if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
4837                    !!!cp ('t122');
4838                    ## As if </noscript>
4839                    pop @{$self->{open_elements}};
4840                    !!!parse-error (type => 'in noscript',
4841                                    text => $token->{tag_name}, token => $token);
4842                    
4843                    ## Reprocess in the "in head" insertion mode...
4844                    ## As if </head>
4845                    pop @{$self->{open_elements}};
4846                    
4847                    ## Reprocess in the "after head" insertion mode...
4848                  } elsif ($self->{insertion_mode} == IN_HEAD_IM) {
4849                    !!!cp ('t124');
4850                    pop @{$self->{open_elements}};
4851                    
4852                    ## Reprocess in the "after head" insertion mode...
4853                  } else {
4854                    !!!cp ('t125');
4855                }                }
4856    
4857                splice @{$self->{open_elements}}, $i;                ## "after head" insertion mode
4858                  !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
4859                  if ($token->{tag_name} eq 'body') {
4860                    !!!cp ('t126');
4861                    $self->{insertion_mode} = IN_BODY_IM;
4862                  } elsif ($token->{tag_name} eq 'frameset') {
4863                    !!!cp ('t127');
4864                    $self->{insertion_mode} = IN_FRAMESET_IM;
4865                  } else {
4866                    die "$0: tag name: $self->{tag_name}";
4867                  }
4868                  !!!nack ('t127.1');
4869                  !!!next-token;
4870                  next B;
4871                } else {
4872                  !!!cp ('t128');
4873                  #
4874                }
4875    
4876                $self->_reset_insertion_mode;              if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
4877                  !!!cp ('t129');
4878                  ## As if </noscript>
4879                  pop @{$self->{open_elements}};
4880                  !!!parse-error (type => 'in noscript:/',
4881                                  text => $token->{tag_name}, token => $token);
4882                  
4883                  ## Reprocess in the "in head" insertion mode...
4884                  ## As if </head>
4885                  pop @{$self->{open_elements}};
4886    
4887                ## reprocess                ## Reprocess in the "after head" insertion mode...
4888                redo B;              } elsif ($self->{insertion_mode} == IN_HEAD_IM) {
4889                  !!!cp ('t130');
4890                  ## As if </head>
4891                  pop @{$self->{open_elements}};
4892    
4893                  ## Reprocess in the "after head" insertion mode...
4894              } else {              } else {
4895                #                !!!cp ('t131');
4896              }              }
4897            } elsif ($token->{type} eq 'end tag') {  
4898              if ($token->{tag_name} eq 'table') {              ## "after head" insertion mode
4899                ## have a table element in table scope              ## As if <body>
4900                my $i;              !!!insert-element ('body',, $token);
4901                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {              $self->{insertion_mode} = IN_BODY_IM;
4902                  my $node = $self->{open_elements}->[$_];              ## reprocess
4903                  if ($node->[1] eq $token->{tag_name}) {              !!!ack-later;
4904                    $i = $_;              next B;
4905                    last INSCOPE;            } elsif ($token->{type} == END_TAG_TOKEN) {
4906                  } elsif ({              if ($token->{tag_name} eq 'head') {
4907                            table => 1, html => 1,                if ($self->{insertion_mode} == BEFORE_HEAD_IM) {
4908                           }->{$node->[1]}) {                  !!!cp ('t132');
4909                    last INSCOPE;                  ## As if <head>
4910                  }                  !!!create-element ($self->{head_element}, $HTML_NS, 'head',, $token);
4911                } # INSCOPE                  $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});
4912                unless (defined $i) {                  push @{$self->{open_elements}},
4913                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                      [$self->{head_element}, $el_category->{head}];
4914    
4915                    ## Reprocess in the "in head" insertion mode...
4916                    pop @{$self->{open_elements}};
4917                    $self->{insertion_mode} = AFTER_HEAD_IM;
4918                    !!!next-token;
4919                    next B;
4920                  } elsif ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
4921                    !!!cp ('t133');
4922                    ## As if </noscript>
4923                    pop @{$self->{open_elements}};
4924                    !!!parse-error (type => 'in noscript:/',
4925                                    text => 'head', token => $token);
4926                    
4927                    ## Reprocess in the "in head" insertion mode...
4928                    pop @{$self->{open_elements}};
4929                    $self->{insertion_mode} = AFTER_HEAD_IM;
4930                    !!!next-token;
4931                    next B;
4932                  } elsif ($self->{insertion_mode} == IN_HEAD_IM) {
4933                    !!!cp ('t134');
4934                    pop @{$self->{open_elements}};
4935                    $self->{insertion_mode} = AFTER_HEAD_IM;
4936                    !!!next-token;
4937                    next B;
4938                  } elsif ($self->{insertion_mode} == AFTER_HEAD_IM) {
4939                    !!!cp ('t134.1');
4940                    !!!parse-error (type => 'unmatched end tag', text => 'head',
4941                                    token => $token);
4942                  ## Ignore the token                  ## Ignore the token
4943                  !!!next-token;                  !!!next-token;
4944                  redo B;                  next B;
4945                  } else {
4946                    die "$0: $self->{insertion_mode}: Unknown insertion mode";
4947                }                }
4948                              } elsif ($token->{tag_name} eq 'noscript') {
4949                ## generate implied end tags                if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
4950                if ({                  !!!cp ('t136');
4951                     dd => 1, dt => 1, li => 1, p => 1,                  pop @{$self->{open_elements}};
4952                     td => 1, th => 1, tr => 1,                  $self->{insertion_mode} = IN_HEAD_IM;
4953                    }->{$self->{open_elements}->[-1]->[1]}) {                  !!!next-token;
4954                  !!!back-token;                  next B;
4955                  $token = {type => 'end tag',                } elsif ($self->{insertion_mode} == BEFORE_HEAD_IM or
4956                            tag_name => $self->{open_elements}->[-1]->[1]}; # MUST                         $self->{insertion_mode} == AFTER_HEAD_IM) {
4957                  redo B;                  !!!cp ('t137');
4958                    !!!parse-error (type => 'unmatched end tag',
4959                                    text => 'noscript', token => $token);
4960                    ## Ignore the token ## ISSUE: An issue in the spec.
4961                    !!!next-token;
4962                    next B;
4963                  } else {
4964                    !!!cp ('t138');
4965                    #
4966                }                }
4967                } elsif ({
4968                if ($self->{open_elements}->[-1]->[1] ne 'table') {                        body => 1, html => 1,
4969                  !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                       }->{$token->{tag_name}}) {
4970                  if ($self->{insertion_mode} == BEFORE_HEAD_IM or
4971                      $self->{insertion_mode} == IN_HEAD_IM or
4972                      $self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
4973                    !!!cp ('t140');
4974                    !!!parse-error (type => 'unmatched end tag',
4975                                    text => $token->{tag_name}, token => $token);
4976                    ## Ignore the token
4977                    !!!next-token;
4978                    next B;
4979                  } elsif ($self->{insertion_mode} == AFTER_HEAD_IM) {
4980                    !!!cp ('t140.1');
4981                    !!!parse-error (type => 'unmatched end tag',
4982                                    text => $token->{tag_name}, token => $token);
4983                    ## Ignore the token
4984                    !!!next-token;
4985                    next B;
4986                  } else {
4987                    die "$0: $self->{insertion_mode}: Unknown insertion mode";
4988                }                }
4989                } elsif ($token->{tag_name} eq 'p') {
4990                  !!!cp ('t142');
4991                  !!!parse-error (type => 'unmatched end tag',
4992                                  text => $token->{tag_name}, token => $token);
4993                  ## Ignore the token
4994                  !!!next-token;
4995                  next B;
4996                } elsif ($token->{tag_name} eq 'br') {
4997                  if ($self->{insertion_mode} == BEFORE_HEAD_IM) {
4998                    !!!cp ('t142.2');
4999                    ## (before head) as if <head>, (in head) as if </head>
5000                    !!!create-element ($self->{head_element}, $HTML_NS, 'head',, $token);
5001                    $self->{open_elements}->[-1]->[0]->append_child ($self->{head_element});
5002                    $self->{insertion_mode} = AFTER_HEAD_IM;
5003      
5004                    ## Reprocess in the "after head" insertion mode...
5005                  } elsif ($self->{insertion_mode} == IN_HEAD_IM) {
5006                    !!!cp ('t143.2');
5007                    ## As if </head>
5008                    pop @{$self->{open_elements}};
5009                    $self->{insertion_mode} = AFTER_HEAD_IM;
5010      
5011                    ## Reprocess in the "after head" insertion mode...
5012                  } elsif ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
5013                    !!!cp ('t143.3');
5014                    ## ISSUE: Two parse errors for <head><noscript></br>
5015                    !!!parse-error (type => 'unmatched end tag',
5016                                    text => 'br', token => $token);
5017                    ## As if </noscript>
5018                    pop @{$self->{open_elements}};
5019                    $self->{insertion_mode} = IN_HEAD_IM;
5020    
5021                splice @{$self->{open_elements}}, $i;                  ## Reprocess in the "in head" insertion mode...
5022                    ## As if </head>
5023                    pop @{$self->{open_elements}};
5024                    $self->{insertion_mode} = AFTER_HEAD_IM;
5025    
5026                $self->_reset_insertion_mode;                  ## Reprocess in the "after head" insertion mode...
5027                  } elsif ($self->{insertion_mode} == AFTER_HEAD_IM) {
5028                    !!!cp ('t143.4');
5029                    #
5030                  } else {
5031                    die "$0: $self->{insertion_mode}: Unknown insertion mode";
5032                  }
5033    
5034                  ## ISSUE: does not agree with IE7 - it doesn't ignore </br>.
5035                  !!!parse-error (type => 'unmatched end tag',
5036                                  text => 'br', token => $token);
5037                  ## Ignore the token
5038                !!!next-token;                !!!next-token;
5039                redo B;                next B;
5040              } elsif ({              } else {
5041                        body => 1, caption => 1, col => 1, colgroup => 1,                !!!cp ('t145');
5042                        html => 1, tbody => 1, td => 1, tfoot => 1, th => 1,                !!!parse-error (type => 'unmatched end tag',
5043                        thead => 1, tr => 1,                                text => $token->{tag_name}, token => $token);
                      }->{$token->{tag_name}}) {  
               !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
5044                ## Ignore the token                ## Ignore the token
5045                !!!next-token;                !!!next-token;
5046                redo B;                next B;
5047                }
5048    
5049                if ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
5050                  !!!cp ('t146');
5051                  ## As if </noscript>
5052                  pop @{$self->{open_elements}};
5053                  !!!parse-error (type => 'in noscript:/',
5054                                  text => $token->{tag_name}, token => $token);
5055                  
5056                  ## Reprocess in the "in head" insertion mode...
5057                  ## As if </head>
5058                  pop @{$self->{open_elements}};
5059    
5060                  ## Reprocess in the "after head" insertion mode...
5061                } elsif ($self->{insertion_mode} == IN_HEAD_IM) {
5062                  !!!cp ('t147');
5063                  ## As if </head>
5064                  pop @{$self->{open_elements}};
5065    
5066                  ## Reprocess in the "after head" insertion mode...
5067                } elsif ($self->{insertion_mode} == BEFORE_HEAD_IM) {
5068    ## ISSUE: This case cannot be reached?
5069                  !!!cp ('t148');
5070                  !!!parse-error (type => 'unmatched end tag',
5071                                  text => $token->{tag_name}, token => $token);
5072                  ## Ignore the token ## ISSUE: An issue in the spec.
5073                  !!!next-token;
5074                  next B;
5075              } else {              } else {
5076                #                !!!cp ('t149');
5077              }              }
           } else {  
             #  
           }  
5078    
5079            !!!parse-error (type => 'in table:'.$token->{tag_name});              ## "after head" insertion mode
5080            $in_body->($insert_to_foster);              ## As if <body>
5081            redo B;              !!!insert-element ('body',, $token);
5082          } elsif ($self->{insertion_mode} eq 'in caption') {              $self->{insertion_mode} = IN_BODY_IM;
5083            if ($token->{type} eq 'character') {              ## reprocess
5084              ## NOTE: This is a code clone of "character in body".              next B;
5085          } elsif ($token->{type} == END_OF_FILE_TOKEN) {
5086            if ($self->{insertion_mode} == BEFORE_HEAD_IM) {
5087              !!!cp ('t149.1');
5088    
5089              ## NOTE: As if <head>
5090              !!!create-element ($self->{head_element}, $HTML_NS, 'head',, $token);
5091              $self->{open_elements}->[-1]->[0]->append_child
5092                  ($self->{head_element});
5093              #push @{$self->{open_elements}},
5094              #    [$self->{head_element}, $el_category->{head}];
5095              #$self->{insertion_mode} = IN_HEAD_IM;
5096              ## NOTE: Reprocess.
5097    
5098              ## NOTE: As if </head>
5099              #pop @{$self->{open_elements}};
5100              #$self->{insertion_mode} = IN_AFTER_HEAD_IM;
5101              ## NOTE: Reprocess.
5102              
5103              #
5104            } elsif ($self->{insertion_mode} == IN_HEAD_IM) {
5105              !!!cp ('t149.2');
5106    
5107              ## NOTE: As if </head>
5108              pop @{$self->{open_elements}};
5109              #$self->{insertion_mode} = IN_AFTER_HEAD_IM;
5110              ## NOTE: Reprocess.
5111    
5112              #
5113            } elsif ($self->{insertion_mode} == IN_HEAD_NOSCRIPT_IM) {
5114              !!!cp ('t149.3');
5115    
5116              !!!parse-error (type => 'in noscript:#eof', token => $token);
5117    
5118              ## As if </noscript>
5119              pop @{$self->{open_elements}};
5120              #$self->{insertion_mode} = IN_HEAD_IM;
5121              ## NOTE: Reprocess.
5122    
5123              ## NOTE: As if </head>
5124              pop @{$self->{open_elements}};
5125              #$self->{insertion_mode} = IN_AFTER_HEAD_IM;
5126              ## NOTE: Reprocess.
5127    
5128              #
5129            } else {
5130              !!!cp ('t149.4');
5131              #
5132            }
5133    
5134            ## NOTE: As if <body>
5135            !!!insert-element ('body',, $token);
5136            $self->{insertion_mode} = IN_BODY_IM;
5137            ## NOTE: Reprocess.
5138            next B;
5139          } else {
5140            die "$0: $token->{type}: Unknown token type";
5141          }
5142    
5143              ## ISSUE: An issue in the spec.
5144        } elsif ($self->{insertion_mode} & BODY_IMS) {
5145              if ($token->{type} == CHARACTER_TOKEN) {
5146                !!!cp ('t150');
5147                ## NOTE: There is a code clone of "character in body".
5148              $reconstruct_active_formatting_elements->($insert_to_current);              $reconstruct_active_formatting_elements->($insert_to_current);
5149                            
5150              $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});              $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});
5151    
5152              !!!next-token;              !!!next-token;
5153              redo B;              next B;
5154            } elsif ($token->{type} eq 'comment') {            } elsif ($token->{type} == START_TAG_TOKEN) {
             ## NOTE: This is a code clone of "comment in body".  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
             !!!next-token;  
             redo B;  
           } elsif ($token->{type} eq 'start tag') {  
5155              if ({              if ({
5156                   caption => 1, col => 1, colgroup => 1, tbody => 1,                   caption => 1, col => 1, colgroup => 1, tbody => 1,
5157                   td => 1, tfoot => 1, th => 1, thead => 1, tr => 1,                   td => 1, tfoot => 1, th => 1, thead => 1, tr => 1,
5158                  }->{$token->{tag_name}}) {                  }->{$token->{tag_name}}) {
5159                !!!parse-error (type => 'not closed:caption');                if ($self->{insertion_mode} == IN_CELL_IM) {
5160                    ## have an element in table scope
5161                ## As if </caption>                  for (reverse 0..$#{$self->{open_elements}}) {
5162                ## have a table element in table scope                    my $node = $self->{open_elements}->[$_];
5163                my $i;                    if ($node->[1] & TABLE_CELL_EL) {
5164                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                      !!!cp ('t151');
5165                  my $node = $self->{open_elements}->[$_];  
5166                  if ($node->[1] eq 'caption') {                      ## Close the cell
5167                    $i = $_;                      !!!back-token; # <x>
5168                    last INSCOPE;                      $token = {type => END_TAG_TOKEN,
5169                  } elsif ({                                tag_name => $node->[0]->manakai_local_name,
5170                            table => 1, html => 1,                                line => $token->{line},
5171                           }->{$node->[1]}) {                                column => $token->{column}};
5172                    last INSCOPE;                      next B;
5173                      } elsif ($node->[1] & TABLE_SCOPING_EL) {
5174                        !!!cp ('t152');
5175                        ## ISSUE: This case can never be reached, maybe.
5176                        last;
5177                      }
5178                  }                  }
5179                } # INSCOPE  
5180                unless (defined $i) {                  !!!cp ('t153');
5181                  !!!parse-error (type => 'unmatched end tag:caption');                  !!!parse-error (type => 'start tag not allowed',
5182                        text => $token->{tag_name}, token => $token);
5183                  ## Ignore the token                  ## Ignore the token
5184                    !!!nack ('t153.1');
5185                  !!!next-token;                  !!!next-token;
5186                  redo B;                  next B;
5187                }                } elsif ($self->{insertion_mode} == IN_CAPTION_IM) {
5188                                  !!!parse-error (type => 'not closed', text => 'caption',
5189                ## generate implied end tags                                  token => $token);
5190                if ({                  
5191                     dd => 1, dt => 1, li => 1, p => 1,                  ## NOTE: As if </caption>.
5192                     td => 1, th => 1, tr => 1,                  ## have a table element in table scope
5193                    }->{$self->{open_elements}->[-1]->[1]}) {                  my $i;
5194                  !!!back-token; # <?>                  INSCOPE: {
5195                  $token = {type => 'end tag', tag_name => 'caption'};                    for (reverse 0..$#{$self->{open_elements}}) {
5196                  !!!back-token;                      my $node = $self->{open_elements}->[$_];
5197                  $token = {type => 'end tag',                      if ($node->[1] & CAPTION_EL) {
5198                            tag_name => $self->{open_elements}->[-1]->[1]}; # MUST                        !!!cp ('t155');
5199                  redo B;                        $i = $_;
5200                }                        last INSCOPE;
5201                        } elsif ($node->[1] & TABLE_SCOPING_EL) {
5202                if ($self->{open_elements}->[-1]->[1] ne 'caption') {                        !!!cp ('t156');
5203                  !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                        last;
5204                }                      }
5205                      }
               splice @{$self->{open_elements}}, $i;  
   
               $clear_up_to_marker->();  
5206    
5207                $self->{insertion_mode} = 'in table';                    !!!cp ('t157');
5208                      !!!parse-error (type => 'start tag not allowed',
5209                                      text => $token->{tag_name}, token => $token);
5210                      ## Ignore the token
5211                      !!!nack ('t157.1');
5212                      !!!next-token;
5213                      next B;
5214                    } # INSCOPE
5215                    
5216                    ## generate implied end tags
5217                    while ($self->{open_elements}->[-1]->[1]
5218                               & END_TAG_OPTIONAL_EL) {
5219                      !!!cp ('t158');
5220                      pop @{$self->{open_elements}};
5221                    }
5222    
5223                ## reprocess                  unless ($self->{open_elements}->[-1]->[1] & CAPTION_EL) {
5224                redo B;                    !!!cp ('t159');
5225                      !!!parse-error (type => 'not closed',
5226                                      text => $self->{open_elements}->[-1]->[0]
5227                                          ->manakai_local_name,
5228                                      token => $token);
5229                    } else {
5230                      !!!cp ('t160');
5231                    }
5232                    
5233                    splice @{$self->{open_elements}}, $i;
5234                    
5235                    $clear_up_to_marker->();
5236                    
5237                    $self->{insertion_mode} = IN_TABLE_IM;
5238                    
5239                    ## reprocess
5240                    !!!ack-later;
5241                    next B;
5242                  } else {
5243                    !!!cp ('t161');
5244                    #
5245                  }
5246              } else {              } else {
5247                  !!!cp ('t162');
5248                #                #
5249              }              }
5250            } elsif ($token->{type} eq 'end tag') {            } elsif ($token->{type} == END_TAG_TOKEN) {
5251              if ($token->{tag_name} eq 'caption') {              if ($token->{tag_name} eq 'td' or $token->{tag_name} eq 'th') {
5252                ## have a table element in table scope                if ($self->{insertion_mode} == IN_CELL_IM) {
5253                my $i;                  ## have an element in table scope
5254                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                  my $i;
5255                  my $node = $self->{open_elements}->[$_];                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
5256                  if ($node->[1] eq $token->{tag_name}) {                    my $node = $self->{open_elements}->[$_];
5257                    $i = $_;                    if ($node->[0]->manakai_local_name eq $token->{tag_name}) {
5258                    last INSCOPE;                      !!!cp ('t163');
5259                  } elsif ({                      $i = $_;
5260                            table => 1, html => 1,                      last INSCOPE;
5261                           }->{$node->[1]}) {                    } elsif ($node->[1] & TABLE_SCOPING_EL) {
5262                    last INSCOPE;                      !!!cp ('t164');
5263                        last INSCOPE;
5264                      }
5265                    } # INSCOPE
5266                      unless (defined $i) {
5267                        !!!cp ('t165');
5268                        !!!parse-error (type => 'unmatched end tag',
5269                                        text => $token->{tag_name},
5270                                        token => $token);
5271                        ## Ignore the token
5272                        !!!next-token;
5273                        next B;
5274                      }
5275                    
5276                    ## generate implied end tags
5277                    while ($self->{open_elements}->[-1]->[1]
5278                               & END_TAG_OPTIONAL_EL) {
5279                      !!!cp ('t166');
5280                      pop @{$self->{open_elements}};
5281                  }                  }
5282                } # INSCOPE  
5283                unless (defined $i) {                  if ($self->{open_elements}->[-1]->[0]->manakai_local_name
5284                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                          ne $token->{tag_name}) {
5285                      !!!cp ('t167');
5286                      !!!parse-error (type => 'not closed',
5287                                      text => $self->{open_elements}->[-1]->[0]
5288                                          ->manakai_local_name,
5289                                      token => $token);
5290                    } else {
5291                      !!!cp ('t168');
5292                    }
5293                    
5294                    splice @{$self->{open_elements}}, $i;
5295                    
5296                    $clear_up_to_marker->();
5297                    
5298                    $self->{insertion_mode} = IN_ROW_IM;
5299                    
5300                    !!!next-token;
5301                    next B;
5302                  } elsif ($self->{insertion_mode} == IN_CAPTION_IM) {
5303                    !!!cp ('t169');
5304                    !!!parse-error (type => 'unmatched end tag',
5305                                    text => $token->{tag_name}, token => $token);
5306                  ## Ignore the token                  ## Ignore the token
5307                  !!!next-token;                  !!!next-token;
5308                  redo B;                  next B;
5309                }                } else {
5310                                  !!!cp ('t170');
5311                ## generate implied end tags                  #
               if ({  
                    dd => 1, dt => 1, li => 1, p => 1,  
                    td => 1, th => 1, tr => 1,  
                   }->{$self->{open_elements}->[-1]->[1]}) {  
                 !!!back-token;  
                 $token = {type => 'end tag',  
                           tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                 redo B;  
5312                }                }
5313                } elsif ($token->{tag_name} eq 'caption') {
5314                  if ($self->{insertion_mode} == IN_CAPTION_IM) {
5315                    ## have a table element in table scope
5316                    my $i;
5317                    INSCOPE: {
5318                      for (reverse 0..$#{$self->{open_elements}}) {
5319                        my $node = $self->{open_elements}->[$_];
5320                        if ($node->[1] & CAPTION_EL) {
5321                          !!!cp ('t171');
5322                          $i = $_;
5323                          last INSCOPE;
5324                        } elsif ($node->[1] & TABLE_SCOPING_EL) {
5325                          !!!cp ('t172');
5326                          last;
5327                        }
5328                      }
5329    
5330                if ($self->{open_elements}->[-1]->[1] ne 'caption') {                    !!!cp ('t173');
5331                  !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                    !!!parse-error (type => 'unmatched end tag',
5332                                      text => $token->{tag_name}, token => $token);
5333                      ## Ignore the token
5334                      !!!next-token;
5335                      next B;
5336                    } # INSCOPE
5337                    
5338                    ## generate implied end tags
5339                    while ($self->{open_elements}->[-1]->[1]
5340                               & END_TAG_OPTIONAL_EL) {
5341                      !!!cp ('t174');
5342                      pop @{$self->{open_elements}};
5343                    }
5344                    
5345                    unless ($self->{open_elements}->[-1]->[1] & CAPTION_EL) {
5346                      !!!cp ('t175');
5347                      !!!parse-error (type => 'not closed',
5348                                      text => $self->{open_elements}->[-1]->[0]
5349                                          ->manakai_local_name,
5350                                      token => $token);
5351                    } else {
5352                      !!!cp ('t176');
5353                    }
5354                    
5355                    splice @{$self->{open_elements}}, $i;
5356                    
5357                    $clear_up_to_marker->();
5358                    
5359                    $self->{insertion_mode} = IN_TABLE_IM;
5360                    
5361                    !!!next-token;
5362                    next B;
5363                  } elsif ($self->{insertion_mode} == IN_CELL_IM) {
5364                    !!!cp ('t177');
5365                    !!!parse-error (type => 'unmatched end tag',
5366                                    text => $token->{tag_name}, token => $token);
5367                    ## Ignore the token
5368                    !!!next-token;
5369                    next B;
5370                  } else {
5371                    !!!cp ('t178');
5372                    #
5373                }                }
5374                } elsif ({
5375                          table => 1, tbody => 1, tfoot => 1,
5376                          thead => 1, tr => 1,
5377                         }->{$token->{tag_name}} and
5378                         $self->{insertion_mode} == IN_CELL_IM) {
5379                  ## have an element in table scope
5380                  my $i;
5381                  my $tn;
5382                  INSCOPE: {
5383                    for (reverse 0..$#{$self->{open_elements}}) {
5384                      my $node = $self->{open_elements}->[$_];
5385                      if ($node->[0]->manakai_local_name eq $token->{tag_name}) {
5386                        !!!cp ('t179');
5387                        $i = $_;
5388    
5389                        ## Close the cell
5390                        !!!back-token; # </x>
5391                        $token = {type => END_TAG_TOKEN, tag_name => $tn,
5392                                  line => $token->{line},
5393                                  column => $token->{column}};
5394                        next B;
5395                      } elsif ($node->[1] & TABLE_CELL_EL) {
5396                        !!!cp ('t180');
5397                        $tn = $node->[0]->manakai_local_name;
5398                        ## NOTE: There is exactly one |td| or |th| element
5399                        ## in scope in the stack of open elements by definition.
5400                      } elsif ($node->[1] & TABLE_SCOPING_EL) {
5401                        ## ISSUE: Can this be reached?
5402                        !!!cp ('t181');
5403                        last;
5404                      }
5405                    }
5406    
5407                splice @{$self->{open_elements}}, $i;                  !!!cp ('t182');
5408                    !!!parse-error (type => 'unmatched end tag',
5409                $clear_up_to_marker->();                      text => $token->{tag_name}, token => $token);
5410                    ## Ignore the token
5411                $self->{insertion_mode} = 'in table';                  !!!next-token;
5412                    next B;
5413                !!!next-token;                } # INSCOPE
5414                redo B;              } elsif ($token->{tag_name} eq 'table' and
5415              } elsif ($token->{tag_name} eq 'table') {                       $self->{insertion_mode} == IN_CAPTION_IM) {
5416                !!!parse-error (type => 'not closed:caption');                !!!parse-error (type => 'not closed', text => 'caption',
5417                                  token => $token);
5418    
5419                ## As if </caption>                ## As if </caption>
5420                ## have a table element in table scope                ## have a table element in table scope
5421                my $i;                my $i;
5422                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
5423                  my $node = $self->{open_elements}->[$_];                  my $node = $self->{open_elements}->[$_];
5424                  if ($node->[1] eq 'caption') {                  if ($node->[1] & CAPTION_EL) {
5425                      !!!cp ('t184');
5426                    $i = $_;                    $i = $_;
5427                    last INSCOPE;                    last INSCOPE;
5428                  } elsif ({                  } elsif ($node->[1] & TABLE_SCOPING_EL) {
5429                            table => 1, html => 1,                    !!!cp ('t185');
                          }->{$node->[1]}) {  
5430                    last INSCOPE;                    last INSCOPE;
5431                  }                  }
5432                } # INSCOPE                } # INSCOPE
5433                unless (defined $i) {                unless (defined $i) {
5434                  !!!parse-error (type => 'unmatched end tag:caption');                  !!!cp ('t186');
5435                    !!!parse-error (type => 'unmatched end tag',
5436                                    text => 'caption', token => $token);
5437                  ## Ignore the token                  ## Ignore the token
5438                  !!!next-token;                  !!!next-token;
5439                  redo B;                  next B;
5440                }                }
5441                                
5442                ## generate implied end tags                ## generate implied end tags
5443                if ({                while ($self->{open_elements}->[-1]->[1] & END_TAG_OPTIONAL_EL) {
5444                     dd => 1, dt => 1, li => 1, p => 1,                  !!!cp ('t187');
5445                     td => 1, th => 1, tr => 1,                  pop @{$self->{open_elements}};
                   }->{$self->{open_elements}->[-1]->[1]}) {  
                 !!!back-token; # </table>  
                 $token = {type => 'end tag', tag_name => 'caption'};  
                 !!!back-token;  
                 $token = {type => 'end tag',  
                           tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                 redo B;  
5446                }                }
5447    
5448                if ($self->{open_elements}->[-1]->[1] ne 'caption') {                unless ($self->{open_elements}->[-1]->[1] & CAPTION_EL) {
5449                  !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                  !!!cp ('t188');
5450                    !!!parse-error (type => 'not closed',
5451                                    text => $self->{open_elements}->[-1]->[0]
5452                                        ->manakai_local_name,
5453                                    token => $token);
5454                  } else {
5455                    !!!cp ('t189');
5456                }                }
5457    
5458                splice @{$self->{open_elements}}, $i;                splice @{$self->{open_elements}}, $i;
5459    
5460                $clear_up_to_marker->();                $clear_up_to_marker->();
5461    
5462                $self->{insertion_mode} = 'in table';                $self->{insertion_mode} = IN_TABLE_IM;
5463    
5464                ## reprocess                ## reprocess
5465                redo B;                next B;
5466              } elsif ({              } elsif ({
5467                        body => 1, col => 1, colgroup => 1,                        body => 1, col => 1, colgroup => 1, html => 1,
                       html => 1, tbody => 1, td => 1, tfoot => 1,  
                       th => 1, thead => 1, tr => 1,  
5468                       }->{$token->{tag_name}}) {                       }->{$token->{tag_name}}) {
5469                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                if ($self->{insertion_mode} & BODY_TABLE_IMS) {
5470                ## Ignore the token                  !!!cp ('t190');
5471                redo B;                  !!!parse-error (type => 'unmatched end tag',
5472              } else {                                  text => $token->{tag_name}, token => $token);
               #  
             }  
           } else {  
             #  
           }  
                 
           $in_body->($insert_to_current);  
           redo B;  
         } elsif ($self->{insertion_mode} eq 'in column group') {  
           if ($token->{type} eq 'character') {  
             if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {  
               $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);  
               unless (length $token->{data}) {  
                 !!!next-token;  
                 redo B;  
               }  
             }  
               
             #  
           } elsif ($token->{type} eq 'comment') {  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
             !!!next-token;  
             redo B;  
           } elsif ($token->{type} eq 'start tag') {  
             if ($token->{tag_name} eq 'col') {  
               !!!insert-element ($token->{tag_name}, $token->{attributes});  
               pop @{$self->{open_elements}};  
               !!!next-token;  
               redo B;  
             } else {  
               #  
             }  
           } elsif ($token->{type} eq 'end tag') {  
             if ($token->{tag_name} eq 'colgroup') {  
               if ($self->{open_elements}->[-1]->[1] eq 'html') {  
                 !!!parse-error (type => 'unmatched end tag:colgroup');  
5473                  ## Ignore the token                  ## Ignore the token
5474                  !!!next-token;                  !!!next-token;
5475                  redo B;                  next B;
5476                } else {                } else {
5477                  pop @{$self->{open_elements}}; # colgroup                  !!!cp ('t191');
5478                  $self->{insertion_mode} = 'in table';                  #
                 !!!next-token;  
                 redo B;              
5479                }                }
5480              } elsif ($token->{tag_name} eq 'col') {              } elsif ({
5481                !!!parse-error (type => 'unmatched end tag:col');                        tbody => 1, tfoot => 1,
5482                          thead => 1, tr => 1,
5483                         }->{$token->{tag_name}} and
5484                         $self->{insertion_mode} == IN_CAPTION_IM) {
5485                  !!!cp ('t192');
5486                  !!!parse-error (type => 'unmatched end tag',
5487                                  text => $token->{tag_name}, token => $token);
5488                ## Ignore the token                ## Ignore the token
5489                !!!next-token;                !!!next-token;
5490                redo B;                next B;
5491              } else {              } else {
5492                #                !!!cp ('t193');
5493                  #
5494              }              }
5495            } else {        } elsif ($token->{type} == END_OF_FILE_TOKEN) {
5496              #          for my $entry (@{$self->{open_elements}}) {
5497              unless ($entry->[1] & ALL_END_TAG_OPTIONAL_EL) {
5498                !!!cp ('t75');
5499                !!!parse-error (type => 'in body:#eof', token => $token);
5500                last;
5501            }            }
5502            }
5503    
5504            ## As if </colgroup>          ## Stop parsing.
5505            if ($self->{open_elements}->[-1]->[1] eq 'html') {          last B;
5506              !!!parse-error (type => 'unmatched end tag:colgroup');        } else {
5507              ## Ignore the token          die "$0: $token->{type}: Unknown token type";
5508          }
5509    
5510          $insert = $insert_to_current;
5511          #
5512        } elsif ($self->{insertion_mode} & TABLE_IMS) {
5513          if ($token->{type} == CHARACTER_TOKEN) {
5514            if (not $open_tables->[-1]->[1] and # tainted
5515                $token->{data} =~ s/^([\x09\x0A\x0C\x20]+)//) {
5516              $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);
5517                  
5518              unless (length $token->{data}) {
5519                !!!cp ('t194');
5520              !!!next-token;              !!!next-token;
5521              redo B;              next B;
5522            } else {            } else {
5523              pop @{$self->{open_elements}}; # colgroup              !!!cp ('t195');
             $self->{insertion_mode} = 'in table';  
             ## reprocess  
             redo B;  
5524            }            }
5525          } elsif ($self->{insertion_mode} eq 'in table body') {          }
           if ($token->{type} eq 'character') {  
             ## NOTE: This is a "character in table" code clone.  
             if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {  
               $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);  
                 
               unless (length $token->{data}) {  
                 !!!next-token;  
                 redo B;  
               }  
             }  
5526    
5527              !!!parse-error (type => 'in table:#character');          !!!parse-error (type => 'in table:#text', token => $token);
5528    
5529              ## As if in body, but insert into foster parent element              ## As if in body, but insert into foster parent element
5530              ## ISSUE: Spec says that "whenever a node would be inserted              ## ISSUE: Spec says that "whenever a node would be inserted
5531              ## into the current node" while characters might not be              ## into the current node" while characters might not be
5532              ## result in a new Text node.              ## result in a new Text node.
5533              $reconstruct_active_formatting_elements->($insert_to_foster);              $reconstruct_active_formatting_elements->($insert_to_foster);
5534                
5535              if ({              if ($self->{open_elements}->[-1]->[1] & TABLE_ROWS_EL) {
                  table => 1, tbody => 1, tfoot => 1,  
                  thead => 1, tr => 1,  
                 }->{$self->{open_elements}->[-1]->[1]}) {  
5536                # MUST                # MUST
5537                my $foster_parent_element;                my $foster_parent_element;
5538                my $next_sibling;                my $next_sibling;
5539                my $prev_sibling;                my $prev_sibling;
5540                OE: for (reverse 0..$#{$self->{open_elements}}) {                OE: for (reverse 0..$#{$self->{open_elements}}) {
5541                  if ($self->{open_elements}->[$_]->[1] eq 'table') {                  if ($self->{open_elements}->[$_]->[1] & TABLE_EL) {
5542                    my $parent = $self->{open_elements}->[$_]->[0]->parent_node;                    my $parent = $self->{open_elements}->[$_]->[0]->parent_node;
5543                    if (defined $parent and $parent->node_type == 1) {                    if (defined $parent and $parent->node_type == 1) {
5544                        !!!cp ('t196');
5545                      $foster_parent_element = $parent;                      $foster_parent_element = $parent;
5546                      $next_sibling = $self->{open_elements}->[$_]->[0];                      $next_sibling = $self->{open_elements}->[$_]->[0];
5547                      $prev_sibling = $next_sibling->previous_sibling;                      $prev_sibling = $next_sibling->previous_sibling;
5548                    } else {                    } else {
5549                        !!!cp ('t197');
5550                      $foster_parent_element = $self->{open_elements}->[$_ - 1]->[0];                      $foster_parent_element = $self->{open_elements}->[$_ - 1]->[0];
5551                      $prev_sibling = $foster_parent_element->last_child;                      $prev_sibling = $foster_parent_element->last_child;
5552                    }                    }
# Line 3725  sub _tree_construction_main ($) { Line 5558  sub _tree_construction_main ($) {
5558                  unless defined $foster_parent_element;                  unless defined $foster_parent_element;
5559                if (defined $prev_sibling and                if (defined $prev_sibling and
5560                    $prev_sibling->node_type == 3) {                    $prev_sibling->node_type == 3) {
5561                    !!!cp ('t198');
5562                  $prev_sibling->manakai_append_text ($token->{data});                  $prev_sibling->manakai_append_text ($token->{data});
5563                } else {                } else {
5564                    !!!cp ('t199');
5565                  $foster_parent_element->insert_before                  $foster_parent_element->insert_before
5566                    ($self->{document}->create_text_node ($token->{data}),                    ($self->{document}->create_text_node ($token->{data}),
5567                     $next_sibling);                     $next_sibling);
5568                }                }
5569              } else {            $open_tables->[-1]->[1] = 1; # tainted
5570                $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});          } else {
5571              !!!cp ('t200');
5572              $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});
5573            }
5574                
5575            !!!next-token;
5576            next B;
5577          } elsif ($token->{type} == START_TAG_TOKEN) {
5578            if ({
5579                 tr => ($self->{insertion_mode} != IN_ROW_IM),
5580                 th => 1, td => 1,
5581                }->{$token->{tag_name}}) {
5582              if ($self->{insertion_mode} == IN_TABLE_IM) {
5583                ## Clear back to table context
5584                while (not ($self->{open_elements}->[-1]->[1]
5585                                & TABLE_SCOPING_EL)) {
5586                  !!!cp ('t201');
5587                  pop @{$self->{open_elements}};
5588              }              }
5589                            
5590              !!!next-token;              !!!insert-element ('tbody',, $token);
5591              redo B;              $self->{insertion_mode} = IN_TABLE_BODY_IM;
5592            } elsif ($token->{type} eq 'comment') {              ## reprocess in the "in table body" insertion mode...
5593              ## Copied from 'in table'            }
5594              my $comment = $self->{document}->create_comment ($token->{data});            
5595              $self->{open_elements}->[-1]->[0]->append_child ($comment);            if ($self->{insertion_mode} == IN_TABLE_BODY_IM) {
5596              !!!next-token;              unless ($token->{tag_name} eq 'tr') {
5597              redo B;                !!!cp ('t202');
5598            } elsif ($token->{type} eq 'start tag') {                !!!parse-error (type => 'missing start tag:tr', token => $token);
5599              if ({              }
5600                   tr => 1,                  
5601                   th => 1, td => 1,              ## Clear back to table body context
5602                  }->{$token->{tag_name}}) {              while (not ($self->{open_elements}->[-1]->[1]
5603                unless ($token->{tag_name} eq 'tr') {                              & TABLE_ROWS_SCOPING_EL)) {
5604                  !!!parse-error (type => 'missing start tag:tr');                !!!cp ('t203');
5605                  ## ISSUE: Can this case be reached?
5606                  pop @{$self->{open_elements}};
5607                }
5608                    
5609                    $self->{insertion_mode} = IN_ROW_IM;
5610                    if ($token->{tag_name} eq 'tr') {
5611                      !!!cp ('t204');
5612                      !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
5613                      !!!nack ('t204');
5614                      !!!next-token;
5615                      next B;
5616                    } else {
5617                      !!!cp ('t205');
5618                      !!!insert-element ('tr',, $token);
5619                      ## reprocess in the "in row" insertion mode
5620                    }
5621                  } else {
5622                    !!!cp ('t206');
5623                }                }
5624    
5625                ## Clear back to table body context                ## Clear back to table row context
5626                while (not {                while (not ($self->{open_elements}->[-1]->[1]
5627                  tbody => 1, tfoot => 1, thead => 1, html => 1,                                & TABLE_ROW_SCOPING_EL)) {
5628                }->{$self->{open_elements}->[-1]->[1]}) {                  !!!cp ('t207');
                 !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
5629                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
5630                }                }
5631                                
5632                $self->{insertion_mode} = 'in row';                !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
5633                if ($token->{tag_name} eq 'tr') {                $self->{insertion_mode} = IN_CELL_IM;
5634                  !!!insert-element ($token->{tag_name}, $token->{attributes});  
5635                  !!!next-token;                push @$active_formatting_elements, ['#marker', ''];
5636                } else {                
5637                  !!!insert-element ('tr');                !!!nack ('t207.1');
5638                  ## reprocess                !!!next-token;
5639                }                next B;
               redo B;  
5640              } elsif ({              } elsif ({
5641                        caption => 1, col => 1, colgroup => 1,                        caption => 1, col => 1, colgroup => 1,
5642                        tbody => 1, tfoot => 1, thead => 1,                        tbody => 1, tfoot => 1, thead => 1,
5643                          tr => 1, # $self->{insertion_mode} == IN_ROW_IM
5644                       }->{$token->{tag_name}}) {                       }->{$token->{tag_name}}) {
5645                ## have an element in table scope                if ($self->{insertion_mode} == IN_ROW_IM) {
5646                my $i;                  ## As if </tr>
5647                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                  ## have an element in table scope
5648                  my $node = $self->{open_elements}->[$_];                  my $i;
5649                  if ({                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
5650                       tbody => 1, thead => 1, tfoot => 1,                    my $node = $self->{open_elements}->[$_];
5651                      }->{$node->[1]}) {                    if ($node->[1] & TABLE_ROW_EL) {
5652                    $i = $_;                      !!!cp ('t208');
5653                    last INSCOPE;                      $i = $_;
5654                  } elsif ({                      last INSCOPE;
5655                            table => 1, html => 1,                    } elsif ($node->[1] & TABLE_SCOPING_EL) {
5656                           }->{$node->[1]}) {                      !!!cp ('t209');
5657                    last INSCOPE;                      last INSCOPE;
5658                      }
5659                    } # INSCOPE
5660                    unless (defined $i) {
5661                      !!!cp ('t210');
5662    ## TODO: This type is wrong.
5663                      !!!parse-error (type => 'unmacthed end tag',
5664                                      text => $token->{tag_name}, token => $token);
5665                      ## Ignore the token
5666                      !!!nack ('t210.1');
5667                      !!!next-token;
5668                      next B;
5669                    }
5670                    
5671                    ## Clear back to table row context
5672                    while (not ($self->{open_elements}->[-1]->[1]
5673                                    & TABLE_ROW_SCOPING_EL)) {
5674                      !!!cp ('t211');
5675                      ## ISSUE: Can this case be reached?
5676                      pop @{$self->{open_elements}};
5677                    }
5678                    
5679                    pop @{$self->{open_elements}}; # tr
5680                    $self->{insertion_mode} = IN_TABLE_BODY_IM;
5681                    if ($token->{tag_name} eq 'tr') {
5682                      !!!cp ('t212');
5683                      ## reprocess
5684                      !!!ack-later;
5685                      next B;
5686                    } else {
5687                      !!!cp ('t213');
5688                      ## reprocess in the "in table body" insertion mode...
5689                  }                  }
               } # INSCOPE  
               unless (defined $i) {  
                 !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
                 ## Ignore the token  
                 !!!next-token;  
                 redo B;  
5690                }                }
5691    
5692                ## Clear back to table body context                if ($self->{insertion_mode} == IN_TABLE_BODY_IM) {
5693                while (not {                  ## have an element in table scope
5694                  tbody => 1, tfoot => 1, thead => 1, html => 1,                  my $i;
5695                }->{$self->{open_elements}->[-1]->[1]}) {                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
5696                  !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                    my $node = $self->{open_elements}->[$_];
5697                      if ($node->[1] & TABLE_ROW_GROUP_EL) {
5698                        !!!cp ('t214');
5699                        $i = $_;
5700                        last INSCOPE;
5701                      } elsif ($node->[1] & TABLE_SCOPING_EL) {
5702                        !!!cp ('t215');
5703                        last INSCOPE;
5704                      }
5705                    } # INSCOPE
5706                    unless (defined $i) {
5707                      !!!cp ('t216');
5708    ## TODO: This erorr type is wrong.
5709                      !!!parse-error (type => 'unmatched end tag',
5710                                      text => $token->{tag_name}, token => $token);
5711                      ## Ignore the token
5712                      !!!nack ('t216.1');
5713                      !!!next-token;
5714                      next B;
5715                    }
5716    
5717                    ## Clear back to table body context
5718                    while (not ($self->{open_elements}->[-1]->[1]
5719                                    & TABLE_ROWS_SCOPING_EL)) {
5720                      !!!cp ('t217');
5721                      ## ISSUE: Can this state be reached?
5722                      pop @{$self->{open_elements}};
5723                    }
5724                    
5725                    ## As if <{current node}>
5726                    ## have an element in table scope
5727                    ## true by definition
5728                    
5729                    ## Clear back to table body context
5730                    ## nop by definition
5731                    
5732                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
5733                    $self->{insertion_mode} = IN_TABLE_IM;
5734                    ## reprocess in "in table" insertion mode...
5735                  } else {
5736                    !!!cp ('t218');
5737                }                }
5738    
5739                ## As if <{current node}>                if ($token->{tag_name} eq 'col') {
5740                ## have an element in table scope                  ## Clear back to table context
5741                ## true by definition                  while (not ($self->{open_elements}->[-1]->[1]
5742                                    & TABLE_SCOPING_EL)) {
5743                ## Clear back to table body context                    !!!cp ('t219');
5744                ## nop by definition                    ## ISSUE: Can this state be reached?
5745                      pop @{$self->{open_elements}};
5746                pop @{$self->{open_elements}};                  }
5747                $self->{insertion_mode} = 'in table';                  
5748                ## reprocess                  !!!insert-element ('colgroup',, $token);
5749                redo B;                  $self->{insertion_mode} = IN_COLUMN_GROUP_IM;
5750                    ## reprocess
5751                    !!!ack-later;
5752                    next B;
5753                  } elsif ({
5754                            caption => 1,
5755                            colgroup => 1,
5756                            tbody => 1, tfoot => 1, thead => 1,
5757                           }->{$token->{tag_name}}) {
5758                    ## Clear back to table context
5759                    while (not ($self->{open_elements}->[-1]->[1]
5760                                    & TABLE_SCOPING_EL)) {
5761                      !!!cp ('t220');
5762                      ## ISSUE: Can this state be reached?
5763                      pop @{$self->{open_elements}};
5764                    }
5765                    
5766                    push @$active_formatting_elements, ['#marker', '']
5767                        if $token->{tag_name} eq 'caption';
5768                    
5769                    !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
5770                    $self->{insertion_mode} = {
5771                                               caption => IN_CAPTION_IM,
5772                                               colgroup => IN_COLUMN_GROUP_IM,
5773                                               tbody => IN_TABLE_BODY_IM,
5774                                               tfoot => IN_TABLE_BODY_IM,
5775                                               thead => IN_TABLE_BODY_IM,
5776                                              }->{$token->{tag_name}};
5777                    !!!next-token;
5778                    !!!nack ('t220.1');
5779                    next B;
5780                  } else {
5781                    die "$0: in table: <>: $token->{tag_name}";
5782                  }
5783              } elsif ($token->{tag_name} eq 'table') {              } elsif ($token->{tag_name} eq 'table') {
5784                ## NOTE: This is a code clone of "table in table"                !!!parse-error (type => 'not closed',
5785                !!!parse-error (type => 'not closed:table');                                text => $self->{open_elements}->[-1]->[0]
5786                                      ->manakai_local_name,
5787                                  token => $token);
5788    
5789                ## As if </table>                ## As if </table>
5790                ## have a table element in table scope                ## have a table element in table scope
5791                my $i;                my $i;
5792                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
5793                  my $node = $self->{open_elements}->[$_];                  my $node = $self->{open_elements}->[$_];
5794                  if ($node->[1] eq 'table') {                  if ($node->[1] & TABLE_EL) {
5795                      !!!cp ('t221');
5796                    $i = $_;                    $i = $_;
5797                    last INSCOPE;                    last INSCOPE;
5798                  } elsif ({                  } elsif ($node->[1] & TABLE_SCOPING_EL) {
5799                            table => 1, html => 1,                    !!!cp ('t222');
                          }->{$node->[1]}) {  
5800                    last INSCOPE;                    last INSCOPE;
5801                  }                  }
5802                } # INSCOPE                } # INSCOPE
5803                unless (defined $i) {                unless (defined $i) {
5804                  !!!parse-error (type => 'unmatched end tag:table');                  !!!cp ('t223');
5805    ## TODO: The following is wrong, maybe.
5806                    !!!parse-error (type => 'unmatched end tag', text => 'table',
5807                                    token => $token);
5808                  ## Ignore tokens </table><table>                  ## Ignore tokens </table><table>
5809                    !!!nack ('t223.1');
5810                  !!!next-token;                  !!!next-token;
5811                  redo B;                  next B;
5812                }                }
5813                                
5814    ## TODO: Followings are removed from the latest spec.
5815                ## generate implied end tags                ## generate implied end tags
5816                if ({                while ($self->{open_elements}->[-1]->[1] & END_TAG_OPTIONAL_EL) {
5817                     dd => 1, dt => 1, li => 1, p => 1,                  !!!cp ('t224');
5818                     td => 1, th => 1, tr => 1,                  pop @{$self->{open_elements}};
                   }->{$self->{open_elements}->[-1]->[1]}) {  
                 !!!back-token; # <table>  
                 $token = {type => 'end tag', tag_name => 'table'};  
                 !!!back-token;  
                 $token = {type => 'end tag',  
                           tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                 redo B;  
5819                }                }
5820    
5821                if ($self->{open_elements}->[-1]->[1] ne 'table') {                unless ($self->{open_elements}->[-1]->[1] & TABLE_EL) {
5822                  !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                  !!!cp ('t225');
5823                    ## NOTE: |<table><tr><table>|
5824                    !!!parse-error (type => 'not closed',
5825                                    text => $self->{open_elements}->[-1]->[0]
5826                                        ->manakai_local_name,
5827                                    token => $token);
5828                  } else {
5829                    !!!cp ('t226');
5830                }                }
5831    
5832                splice @{$self->{open_elements}}, $i;                splice @{$self->{open_elements}}, $i;
5833                  pop @{$open_tables};
5834    
5835                $self->_reset_insertion_mode;                $self->_reset_insertion_mode;
5836    
5837                ## reprocess            ## reprocess
5838                redo B;            !!!ack-later;
5839              } else {            next B;
5840                #          } elsif ($token->{tag_name} eq 'style') {
5841              }            if (not $open_tables->[-1]->[1]) { # tainted
5842            } elsif ($token->{type} eq 'end tag') {              !!!cp ('t227.8');
5843              if ({              ## NOTE: This is a "as if in head" code clone.
5844                   tbody => 1, tfoot => 1, thead => 1,              $parse_rcdata->(CDATA_CONTENT_MODEL);
5845                  }->{$token->{tag_name}}) {              next B;
5846                ## have an element in table scope            } else {
5847                my $i;              !!!cp ('t227.7');
5848                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {              #
5849                  my $node = $self->{open_elements}->[$_];            }
5850                  if ($node->[1] eq $token->{tag_name}) {          } elsif ($token->{tag_name} eq 'script') {
5851                    $i = $_;            if (not $open_tables->[-1]->[1]) { # tainted
5852                    last INSCOPE;              !!!cp ('t227.6');
5853                  } elsif ({              ## NOTE: This is a "as if in head" code clone.
5854                            table => 1, html => 1,              $script_start_tag->();
5855                           }->{$node->[1]}) {              next B;
5856                    last INSCOPE;            } else {
5857                  }              !!!cp ('t227.5');
5858                } # INSCOPE              #
5859                unless (defined $i) {            }
5860                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});          } elsif ($token->{tag_name} eq 'input') {
5861                  ## Ignore the token            if (not $open_tables->[-1]->[1]) { # tainted
5862                  !!!next-token;              if ($token->{attributes}->{type}) { ## TODO: case
5863                  redo B;                my $type = lc $token->{attributes}->{type}->{value};
5864                }                if ($type eq 'hidden') {
5865                    !!!cp ('t227.3');
5866                    !!!parse-error (type => 'in table',
5867                                    text => $token->{tag_name}, token => $token);
5868    
5869                ## Clear back to table body context                  !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
               while (not {  
                 tbody => 1, tfoot => 1, thead => 1, html => 1,  
               }->{$self->{open_elements}->[-1]->[1]}) {  
                 !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
                 pop @{$self->{open_elements}};  
               }  
5870    
5871                pop @{$self->{open_elements}};                  ## TODO: form element pointer
               $self->{insertion_mode} = 'in table';  
               !!!next-token;  
               redo B;  
             } elsif ($token->{tag_name} eq 'table') {  
               ## have an element in table scope  
               my $i;  
               INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
                 my $node = $self->{open_elements}->[$_];  
                 if ({  
                      tbody => 1, thead => 1, tfoot => 1,  
                     }->{$node->[1]}) {  
                   $i = $_;  
                   last INSCOPE;  
                 } elsif ({  
                           table => 1, html => 1,  
                          }->{$node->[1]}) {  
                   last INSCOPE;  
                 }  
               } # INSCOPE  
               unless (defined $i) {  
                 !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
                 ## Ignore the token  
                 !!!next-token;  
                 redo B;  
               }  
5872    
               ## Clear back to table body context  
               while (not {  
                 tbody => 1, tfoot => 1, thead => 1, html => 1,  
               }->{$self->{open_elements}->[-1]->[1]}) {  
                 !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
5873                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
               }  
   
               ## As if <{current node}>  
               ## have an element in table scope  
               ## true by definition  
   
               ## Clear back to table body context  
               ## nop by definition  
5874    
5875                pop @{$self->{open_elements}};                  !!!next-token;
5876                $self->{insertion_mode} = 'in table';                  !!!ack ('t227.2.1');
5877                ## reprocess                  next B;
5878                redo B;                } else {
5879              } elsif ({                  !!!cp ('t227.2');
5880                        body => 1, caption => 1, col => 1, colgroup => 1,                  #
5881                        html => 1, td => 1, th => 1, tr => 1,                }
                      }->{$token->{tag_name}}) {  
               !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
               ## Ignore the token  
               !!!next-token;  
               redo B;  
5882              } else {              } else {
5883                  !!!cp ('t227.1');
5884                #                #
5885              }              }
5886            } else {            } else {
5887                !!!cp ('t227.4');
5888              #              #
5889            }            }
5890                      } else {
5891            ## As if in table            !!!cp ('t227');
5892            !!!parse-error (type => 'in table:'.$token->{tag_name});            #
5893            $in_body->($insert_to_foster);          }
           redo B;  
         } elsif ($self->{insertion_mode} eq 'in row') {  
           if ($token->{type} eq 'character') {  
             ## NOTE: This is a "character in table" code clone.  
             if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {  
               $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);  
                 
               unless (length $token->{data}) {  
                 !!!next-token;  
                 redo B;  
               }  
             }  
5894    
5895              !!!parse-error (type => 'in table:#character');          !!!parse-error (type => 'in table', text => $token->{tag_name},
5896                            token => $token);
5897    
5898              ## As if in body, but insert into foster parent element          $insert = $insert_to_foster;
5899              ## ISSUE: Spec says that "whenever a node would be inserted          #
5900              ## into the current node" while characters might not be        } elsif ($token->{type} == END_TAG_TOKEN) {
5901              ## result in a new Text node.              if ($token->{tag_name} eq 'tr' and
5902              $reconstruct_active_formatting_elements->($insert_to_foster);                  $self->{insertion_mode} == IN_ROW_IM) {
               
             if ({  
                  table => 1, tbody => 1, tfoot => 1,  
                  thead => 1, tr => 1,  
                 }->{$self->{open_elements}->[-1]->[1]}) {  
               # MUST  
               my $foster_parent_element;  
               my $next_sibling;  
               my $prev_sibling;  
               OE: for (reverse 0..$#{$self->{open_elements}}) {  
                 if ($self->{open_elements}->[$_]->[1] eq 'table') {  
                   my $parent = $self->{open_elements}->[$_]->[0]->parent_node;  
                   if (defined $parent and $parent->node_type == 1) {  
                     $foster_parent_element = $parent;  
                     $next_sibling = $self->{open_elements}->[$_]->[0];  
                     $prev_sibling = $next_sibling->previous_sibling;  
                   } else {  
                     $foster_parent_element = $self->{open_elements}->[$_ - 1]->[0];  
                     $prev_sibling = $foster_parent_element->last_child;  
                   }  
                   last OE;  
                 }  
               } # OE  
               $foster_parent_element = $self->{open_elements}->[0]->[0] and  
               $prev_sibling = $foster_parent_element->last_child  
                 unless defined $foster_parent_element;  
               if (defined $prev_sibling and  
                   $prev_sibling->node_type == 3) {  
                 $prev_sibling->manakai_append_text ($token->{data});  
               } else {  
                 $foster_parent_element->insert_before  
                   ($self->{document}->create_text_node ($token->{data}),  
                    $next_sibling);  
               }  
             } else {  
               $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});  
             }  
               
             !!!next-token;  
             redo B;  
           } elsif ($token->{type} eq 'comment') {  
             ## Copied from 'in table'  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
             !!!next-token;  
             redo B;  
           } elsif ($token->{type} eq 'start tag') {  
             if ($token->{tag_name} eq 'th' or  
                 $token->{tag_name} eq 'td') {  
               ## Clear back to table row context  
               while (not {  
                 tr => 1, html => 1,  
               }->{$self->{open_elements}->[-1]->[1]}) {  
                 !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
                 pop @{$self->{open_elements}};  
               }  
                 
               !!!insert-element ($token->{tag_name}, $token->{attributes});  
               $self->{insertion_mode} = 'in cell';  
   
               push @$active_formatting_elements, ['#marker', ''];  
                 
               !!!next-token;  
               redo B;  
             } elsif ({  
                       caption => 1, col => 1, colgroup => 1,  
                       tbody => 1, tfoot => 1, thead => 1, tr => 1,  
                      }->{$token->{tag_name}}) {  
               ## As if </tr>  
5903                ## have an element in table scope                ## have an element in table scope
5904                my $i;                my $i;
5905                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
5906                  my $node = $self->{open_elements}->[$_];                  my $node = $self->{open_elements}->[$_];
5907                  if ($node->[1] eq 'tr') {                  if ($node->[1] & TABLE_ROW_EL) {
5908                      !!!cp ('t228');
5909                    $i = $_;                    $i = $_;
5910                    last INSCOPE;                    last INSCOPE;
5911                  } elsif ({                  } elsif ($node->[1] & TABLE_SCOPING_EL) {
5912                            table => 1, html => 1,                    !!!cp ('t229');
                          }->{$node->[1]}) {  
5913                    last INSCOPE;                    last INSCOPE;
5914                  }                  }
5915                } # INSCOPE                } # INSCOPE
5916                unless (defined $i) {                unless (defined $i) {
5917                  !!!parse-error (type => 'unmacthed end tag:'.$token->{tag_name});                  !!!cp ('t230');
5918                    !!!parse-error (type => 'unmatched end tag',
5919                                    text => $token->{tag_name}, token => $token);
5920                  ## Ignore the token                  ## Ignore the token
5921                    !!!nack ('t230.1');
5922                  !!!next-token;                  !!!next-token;
5923                  redo B;                  next B;
5924                  } else {
5925                    !!!cp ('t232');
5926                }                }
5927    
5928                ## Clear back to table row context                ## Clear back to table row context
5929                while (not {                while (not ($self->{open_elements}->[-1]->[1]
5930                  tr => 1, html => 1,                                & TABLE_ROW_SCOPING_EL)) {
5931                }->{$self->{open_elements}->[-1]->[1]}) {                  !!!cp ('t231');
5932                  !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  ## ISSUE: Can this state be reached?
5933                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
5934                }                }
5935    
5936                pop @{$self->{open_elements}}; # tr                pop @{$self->{open_elements}}; # tr
5937                $self->{insertion_mode} = 'in table body';                $self->{insertion_mode} = IN_TABLE_BODY_IM;
5938                ## reprocess                !!!next-token;
5939                redo B;                !!!nack ('t231.1');
5940                  next B;
5941              } elsif ($token->{tag_name} eq 'table') {              } elsif ($token->{tag_name} eq 'table') {
5942                ## NOTE: This is a code clone of "table in table"                if ($self->{insertion_mode} == IN_ROW_IM) {
5943                !!!parse-error (type => 'not closed:table');                  ## As if </tr>
5944                    ## have an element in table scope
5945                ## As if </table>                  my $i;
5946                ## have a table element in table scope                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
5947                my $i;                    my $node = $self->{open_elements}->[$_];
5948                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                    if ($node->[1] & TABLE_ROW_EL) {
5949                  my $node = $self->{open_elements}->[$_];                      !!!cp ('t233');
5950                  if ($node->[1] eq 'table') {                      $i = $_;
5951                    $i = $_;                      last INSCOPE;
5952                    last INSCOPE;                    } elsif ($node->[1] & TABLE_SCOPING_EL) {
5953                  } elsif ({                      !!!cp ('t234');
5954                            table => 1, html => 1,                      last INSCOPE;
5955                           }->{$node->[1]}) {                    }
5956                    last INSCOPE;                  } # INSCOPE
5957                    unless (defined $i) {
5958                      !!!cp ('t235');
5959    ## TODO: The following is wrong.
5960                      !!!parse-error (type => 'unmatched end tag',
5961                                      text => $token->{type}, token => $token);
5962                      ## Ignore the token
5963                      !!!nack ('t236.1');
5964                      !!!next-token;
5965                      next B;
5966                  }                  }
5967                } # INSCOPE                  
5968                unless (defined $i) {                  ## Clear back to table row context
5969                  !!!parse-error (type => 'unmatched end tag:table');                  while (not ($self->{open_elements}->[-1]->[1]
5970                  ## Ignore tokens </table><table>                                  & TABLE_ROW_SCOPING_EL)) {
5971                  !!!next-token;                    !!!cp ('t236');
5972                  redo B;  ## ISSUE: Can this state be reached?
5973                }                    pop @{$self->{open_elements}};
                 
               ## generate implied end tags  
               if ({  
                    dd => 1, dt => 1, li => 1, p => 1,  
                    td => 1, th => 1, tr => 1,  
                   }->{$self->{open_elements}->[-1]->[1]}) {  
                 !!!back-token; # <table>  
                 $token = {type => 'end tag', tag_name => 'table'};  
                 !!!back-token;  
                 $token = {type => 'end tag',  
                           tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                 redo B;  
               }  
   
               if ($self->{open_elements}->[-1]->[1] ne 'table') {  
                 !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
               }  
   
               splice @{$self->{open_elements}}, $i;  
   
               $self->_reset_insertion_mode;  
   
               ## reprocess  
               redo B;  
             } else {  
               #  
             }  
           } elsif ($token->{type} eq 'end tag') {  
             if ($token->{tag_name} eq 'tr') {  
               ## have an element in table scope  
               my $i;  
               INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
                 my $node = $self->{open_elements}->[$_];  
                 if ($node->[1] eq $token->{tag_name}) {  
                   $i = $_;  
                   last INSCOPE;  
                 } elsif ({  
                           table => 1, html => 1,  
                          }->{$node->[1]}) {  
                   last INSCOPE;  
5974                  }                  }
5975                } # INSCOPE                  
5976                unless (defined $i) {                  pop @{$self->{open_elements}}; # tr
5977                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  $self->{insertion_mode} = IN_TABLE_BODY_IM;
5978                  ## Ignore the token                  ## reprocess in the "in table body" insertion mode...
5979                  !!!next-token;                }
5980                  redo B;  
5981                }                if ($self->{insertion_mode} == IN_TABLE_BODY_IM) {
5982                    ## have an element in table scope
5983                ## Clear back to table row context                  my $i;
5984                while (not {                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
5985                  tr => 1, html => 1,                    my $node = $self->{open_elements}->[$_];
5986                }->{$self->{open_elements}->[-1]->[1]}) {                    if ($node->[1] & TABLE_ROW_GROUP_EL) {
5987                  !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);                      !!!cp ('t237');
5988                        $i = $_;
5989                        last INSCOPE;
5990                      } elsif ($node->[1] & TABLE_SCOPING_EL) {
5991                        !!!cp ('t238');
5992                        last INSCOPE;
5993                      }
5994                    } # INSCOPE
5995                    unless (defined $i) {
5996                      !!!cp ('t239');
5997                      !!!parse-error (type => 'unmatched end tag',
5998                                      text => $token->{tag_name}, token => $token);
5999                      ## Ignore the token
6000                      !!!nack ('t239.1');
6001                      !!!next-token;
6002                      next B;
6003                    }
6004                    
6005                    ## Clear back to table body context
6006                    while (not ($self->{open_elements}->[-1]->[1]
6007                                    & TABLE_ROWS_SCOPING_EL)) {
6008                      !!!cp ('t240');
6009                      pop @{$self->{open_elements}};
6010                    }
6011                    
6012                    ## As if <{current node}>
6013                    ## have an element in table scope
6014                    ## true by definition
6015                    
6016                    ## Clear back to table body context
6017                    ## nop by definition
6018                    
6019                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
6020                    $self->{insertion_mode} = IN_TABLE_IM;
6021                    ## reprocess in the "in table" insertion mode...
6022                }                }
6023    
6024                pop @{$self->{open_elements}}; # tr                ## NOTE: </table> in the "in table" insertion mode.
6025                $self->{insertion_mode} = 'in table body';                ## When you edit the code fragment below, please ensure that
6026                !!!next-token;                ## the code for <table> in the "in table" insertion mode
6027                redo B;                ## is synced with it.
6028              } elsif ($token->{tag_name} eq 'table') {  
6029                ## As if </tr>                ## have a table element in table scope
               ## have an element in table scope  
6030                my $i;                my $i;
6031                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
6032                  my $node = $self->{open_elements}->[$_];                  my $node = $self->{open_elements}->[$_];
6033                  if ($node->[1] eq 'tr') {                  if ($node->[1] & TABLE_EL) {
6034                      !!!cp ('t241');
6035                    $i = $_;                    $i = $_;
6036                    last INSCOPE;                    last INSCOPE;
6037                  } elsif ({                  } elsif ($node->[1] & TABLE_SCOPING_EL) {
6038                            table => 1, html => 1,                    !!!cp ('t242');
                          }->{$node->[1]}) {  
6039                    last INSCOPE;                    last INSCOPE;
6040                  }                  }
6041                } # INSCOPE                } # INSCOPE
6042                unless (defined $i) {                unless (defined $i) {
6043                  !!!parse-error (type => 'unmatched end tag:'.$token->{type});                  !!!cp ('t243');
6044                    !!!parse-error (type => 'unmatched end tag',
6045                                    text => $token->{tag_name}, token => $token);
6046                  ## Ignore the token                  ## Ignore the token
6047                    !!!nack ('t243.1');
6048                  !!!next-token;                  !!!next-token;
6049                  redo B;                  next B;
               }  
   
               ## Clear back to table row context  
               while (not {  
                 tr => 1, html => 1,  
               }->{$self->{open_elements}->[-1]->[1]}) {  
                 !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
                 pop @{$self->{open_elements}};  
6050                }                }
6051                    
6052                pop @{$self->{open_elements}}; # tr                splice @{$self->{open_elements}}, $i;
6053                $self->{insertion_mode} = 'in table body';                pop @{$open_tables};
6054                ## reprocess                
6055                redo B;                $self->_reset_insertion_mode;
6056                  
6057                  !!!next-token;
6058                  next B;
6059              } elsif ({              } elsif ({
6060                        tbody => 1, tfoot => 1, thead => 1,                        tbody => 1, tfoot => 1, thead => 1,
6061                       }->{$token->{tag_name}}) {                       }->{$token->{tag_name}} and
6062                ## have an element in table scope                       $self->{insertion_mode} & ROW_IMS) {
6063                my $i;                if ($self->{insertion_mode} == IN_ROW_IM) {
6064                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                  ## have an element in table scope
6065                  my $node = $self->{open_elements}->[$_];                  my $i;
6066                  if ($node->[1] eq $token->{tag_name}) {                  INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
6067                    $i = $_;                    my $node = $self->{open_elements}->[$_];
6068                    last INSCOPE;                    if ($node->[0]->manakai_local_name eq $token->{tag_name}) {
6069                  } elsif ({                      !!!cp ('t247');
6070                            table => 1, html => 1,                      $i = $_;
6071                           }->{$node->[1]}) {                      last INSCOPE;
6072                    last INSCOPE;                    } elsif ($node->[1] & TABLE_SCOPING_EL) {
6073                        !!!cp ('t248');
6074                        last INSCOPE;
6075                      }
6076                    } # INSCOPE
6077                      unless (defined $i) {
6078                        !!!cp ('t249');
6079                        !!!parse-error (type => 'unmatched end tag',
6080                                        text => $token->{tag_name}, token => $token);
6081                        ## Ignore the token
6082                        !!!nack ('t249.1');
6083                        !!!next-token;
6084                        next B;
6085                      }
6086                    
6087                    ## As if </tr>
6088                    ## have an element in table scope
6089                    my $i;
6090                    INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
6091                      my $node = $self->{open_elements}->[$_];
6092                      if ($node->[1] & TABLE_ROW_EL) {
6093                        !!!cp ('t250');
6094                        $i = $_;
6095                        last INSCOPE;
6096                      } elsif ($node->[1] & TABLE_SCOPING_EL) {
6097                        !!!cp ('t251');
6098                        last INSCOPE;
6099                      }
6100                    } # INSCOPE
6101                      unless (defined $i) {
6102                        !!!cp ('t252');
6103                        !!!parse-error (type => 'unmatched end tag',
6104                                        text => 'tr', token => $token);
6105                        ## Ignore the token
6106                        !!!nack ('t252.1');
6107                        !!!next-token;
6108                        next B;
6109                      }
6110                    
6111                    ## Clear back to table row context
6112                    while (not ($self->{open_elements}->[-1]->[1]
6113                                    & TABLE_ROW_SCOPING_EL)) {
6114                      !!!cp ('t253');
6115    ## ISSUE: Can this case be reached?
6116                      pop @{$self->{open_elements}};
6117                  }                  }
6118                } # INSCOPE                  
6119                unless (defined $i) {                  pop @{$self->{open_elements}}; # tr
6120                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                  $self->{insertion_mode} = IN_TABLE_BODY_IM;
6121                  ## Ignore the token                  ## reprocess in the "in table body" insertion mode...
                 !!!next-token;  
                 redo B;  
6122                }                }
6123    
               ## As if </tr>  
6124                ## have an element in table scope                ## have an element in table scope
6125                my $i;                my $i;
6126                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
6127                  my $node = $self->{open_elements}->[$_];                  my $node = $self->{open_elements}->[$_];
6128                  if ($node->[1] eq 'tr') {                  if ($node->[0]->manakai_local_name eq $token->{tag_name}) {
6129                      !!!cp ('t254');
6130                    $i = $_;                    $i = $_;
6131                    last INSCOPE;                    last INSCOPE;
6132                  } elsif ({                  } elsif ($node->[1] & TABLE_SCOPING_EL) {
6133                            table => 1, html => 1,                    !!!cp ('t255');
                          }->{$node->[1]}) {  
6134                    last INSCOPE;                    last INSCOPE;
6135                  }                  }
6136                } # INSCOPE                } # INSCOPE
6137                unless (defined $i) {                unless (defined $i) {
6138                  !!!parse-error (type => 'unmatched end tag:tr');                  !!!cp ('t256');
6139                    !!!parse-error (type => 'unmatched end tag',
6140                                    text => $token->{tag_name}, token => $token);
6141                  ## Ignore the token                  ## Ignore the token
6142                    !!!nack ('t256.1');
6143                  !!!next-token;                  !!!next-token;
6144                  redo B;                  next B;
6145                }                }
6146    
6147                ## Clear back to table row context                ## Clear back to table body context
6148                while (not {                while (not ($self->{open_elements}->[-1]->[1]
6149                  tr => 1, html => 1,                                & TABLE_ROWS_SCOPING_EL)) {
6150                }->{$self->{open_elements}->[-1]->[1]}) {                  !!!cp ('t257');
6151                  !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  ## ISSUE: Can this case be reached?
6152                  pop @{$self->{open_elements}};                  pop @{$self->{open_elements}};
6153                }                }
6154    
6155                pop @{$self->{open_elements}}; # tr                pop @{$self->{open_elements}};
6156                $self->{insertion_mode} = 'in table body';                $self->{insertion_mode} = IN_TABLE_IM;
6157                ## reprocess                !!!nack ('t257.1');
6158                redo B;                !!!next-token;
6159                  next B;
6160              } elsif ({              } elsif ({
6161                        body => 1, caption => 1, col => 1,                        body => 1, caption => 1, col => 1, colgroup => 1,
6162                        colgroup => 1, html => 1, td => 1, th => 1,                        html => 1, td => 1, th => 1,
6163                          tr => 1, # $self->{insertion_mode} == IN_ROW_IM
6164                          tbody => 1, tfoot => 1, thead => 1, # $self->{insertion_mode} == IN_TABLE_IM
6165                       }->{$token->{tag_name}}) {                       }->{$token->{tag_name}}) {
6166                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});            !!!cp ('t258');
6167                ## Ignore the token            !!!parse-error (type => 'unmatched end tag',
6168                !!!next-token;                            text => $token->{tag_name}, token => $token);
6169                redo B;            ## Ignore the token
6170              } else {            !!!nack ('t258.1');
6171                #             !!!next-token;
6172              }            next B;
6173            } else {          } else {
6174              #            !!!cp ('t259');
6175            }            !!!parse-error (type => 'in table:/',
6176                              text => $token->{tag_name}, token => $token);
6177    
6178            ## As if in table            $insert = $insert_to_foster;
6179            !!!parse-error (type => 'in table:'.$token->{tag_name});            #
6180            $in_body->($insert_to_foster);          }
6181            redo B;        } elsif ($token->{type} == END_OF_FILE_TOKEN) {
6182          } elsif ($self->{insertion_mode} eq 'in cell') {          unless ($self->{open_elements}->[-1]->[1] & HTML_EL and
6183            if ($token->{type} eq 'character') {                  @{$self->{open_elements}} == 1) { # redundant, maybe
6184              ## NOTE: This is a code clone of "character in body".            !!!parse-error (type => 'in body:#eof', token => $token);
6185              $reconstruct_active_formatting_elements->($insert_to_current);            !!!cp ('t259.1');
6186                          #
6187              $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});          } else {
6188              !!!cp ('t259.2');
6189              #
6190            }
6191    
6192              !!!next-token;          ## Stop parsing
6193              redo B;          last B;
6194            } elsif ($token->{type} eq 'comment') {        } else {
6195              ## NOTE: This is a code clone of "comment in body".          die "$0: $token->{type}: Unknown token type";
6196              my $comment = $self->{document}->create_comment ($token->{data});        }
6197              $self->{open_elements}->[-1]->[0]->append_child ($comment);      } elsif ($self->{insertion_mode} == IN_COLUMN_GROUP_IM) {
6198              !!!next-token;            if ($token->{type} == CHARACTER_TOKEN) {
6199              redo B;              if ($token->{data} =~ s/^([\x09\x0A\x0C\x20]+)//) {
6200            } elsif ($token->{type} eq 'start tag') {                $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);
6201              if ({                unless (length $token->{data}) {
6202                   caption => 1, col => 1, colgroup => 1,                  !!!cp ('t260');
                  tbody => 1, td => 1, tfoot => 1, th => 1,  
                  thead => 1, tr => 1,  
                 }->{$token->{tag_name}}) {  
               ## have an element in table scope  
               my $tn;  
               INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
                 my $node = $self->{open_elements}->[$_];  
                 if ($node->[1] eq 'td' or $node->[1] eq 'th') {  
                   $tn = $node->[1];  
                   last INSCOPE;  
                 } elsif ({  
                           table => 1, html => 1,  
                          }->{$node->[1]}) {  
                   last INSCOPE;  
                 }  
               } # INSCOPE  
               unless (defined $tn) {  
                 !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
                 ## Ignore the token  
6203                  !!!next-token;                  !!!next-token;
6204                  redo B;                  next B;
6205                }                }
6206                }
6207                ## Close the cell              
6208                !!!back-token; # <?>              !!!cp ('t261');
6209                $token = {type => 'end tag', tag_name => $tn};              #
6210                redo B;            } elsif ($token->{type} == START_TAG_TOKEN) {
6211              } else {              if ($token->{tag_name} eq 'col') {
6212                  !!!cp ('t262');
6213                  !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
6214                  pop @{$self->{open_elements}};
6215                  !!!ack ('t262.1');
6216                  !!!next-token;
6217                  next B;
6218                } else {
6219                  !!!cp ('t263');
6220                #                #
6221              }              }
6222            } elsif ($token->{type} eq 'end tag') {            } elsif ($token->{type} == END_TAG_TOKEN) {
6223              if ($token->{tag_name} eq 'td' or $token->{tag_name} eq 'th') {              if ($token->{tag_name} eq 'colgroup') {
6224                ## have an element in table scope                if ($self->{open_elements}->[-1]->[1] & HTML_EL) {
6225                my $i;                  !!!cp ('t264');
6226                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                  !!!parse-error (type => 'unmatched end tag',
6227                  my $node = $self->{open_elements}->[$_];                                  text => 'colgroup', token => $token);
                 if ($node->[1] eq $token->{tag_name}) {  
                   $i = $_;  
                   last INSCOPE;  
                 } elsif ({  
                           table => 1, html => 1,  
                          }->{$node->[1]}) {  
                   last INSCOPE;  
                 }  
               } # INSCOPE  
               unless (defined $i) {  
                 !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
6228                  ## Ignore the token                  ## Ignore the token
6229                  !!!next-token;                  !!!next-token;
6230                  redo B;                  next B;
6231                }                } else {
6232                                  !!!cp ('t265');
6233                ## generate implied end tags                  pop @{$self->{open_elements}}; # colgroup
6234                if ({                  $self->{insertion_mode} = IN_TABLE_IM;
6235                     dd => 1, dt => 1, li => 1, p => 1,                  !!!next-token;
6236                     td => ($token->{tag_name} eq 'th'),                  next B;            
                    th => ($token->{tag_name} eq 'td'),  
                    tr => 1,  
                   }->{$self->{open_elements}->[-1]->[1]}) {  
                 !!!back-token;  
                 $token = {type => 'end tag',  
                           tag_name => $self->{open_elements}->[-1]->[1]}; # MUST  
                 redo B;  
               }  
   
               if ($self->{open_elements}->[-1]->[1] ne $token->{tag_name}) {  
                 !!!parse-error (type => 'not closed:'.$self->{open_elements}->[-1]->[1]);  
6237                }                }
6238                } elsif ($token->{tag_name} eq 'col') {
6239                splice @{$self->{open_elements}}, $i;                !!!cp ('t266');
6240                  !!!parse-error (type => 'unmatched end tag',
6241                $clear_up_to_marker->();                                text => 'col', token => $token);
   
               $self->{insertion_mode} = 'in row';  
   
               !!!next-token;  
               redo B;  
             } elsif ({  
                       body => 1, caption => 1, col => 1,  
                       colgroup => 1, html => 1,  
                      }->{$token->{tag_name}}) {  
               !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
6242                ## Ignore the token                ## Ignore the token
6243                !!!next-token;                !!!next-token;
6244                redo B;                next B;
             } elsif ({  
                       table => 1, tbody => 1, tfoot => 1,  
                       thead => 1, tr => 1,  
                      }->{$token->{tag_name}}) {  
               ## have an element in table scope  
               my $i;  
               my $tn;  
               INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
                 my $node = $self->{open_elements}->[$_];  
                 if ($node->[1] eq $token->{tag_name}) {  
                   $i = $_;  
                   last INSCOPE;  
                 } elsif ($node->[1] eq 'td' or $node->[1] eq 'th') {  
                   $tn = $node->[1];  
                   ## NOTE: There is exactly one |td| or |th| element  
                   ## in scope in the stack of open elements by definition.  
                 } elsif ({  
                           table => 1, html => 1,  
                          }->{$node->[1]}) {  
                   last INSCOPE;  
                 }  
               } # INSCOPE  
               unless (defined $i) {  
                 !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
                 ## Ignore the token  
                 !!!next-token;  
                 redo B;  
               }  
   
               ## Close the cell  
               !!!back-token; # </?>  
               $token = {type => 'end tag', tag_name => $tn};  
               redo B;  
6245              } else {              } else {
6246                #                !!!cp ('t267');
6247                  #
6248              }              }
6249          } elsif ($token->{type} == END_OF_FILE_TOKEN) {
6250            if ($self->{open_elements}->[-1]->[1] & HTML_EL and
6251                @{$self->{open_elements}} == 1) { # redundant, maybe
6252              !!!cp ('t270.2');
6253              ## Stop parsing.
6254              last B;
6255            } else {
6256              ## NOTE: As if </colgroup>.
6257              !!!cp ('t270.1');
6258              pop @{$self->{open_elements}}; # colgroup
6259              $self->{insertion_mode} = IN_TABLE_IM;
6260              ## Reprocess.
6261              next B;
6262            }
6263          } else {
6264            die "$0: $token->{type}: Unknown token type";
6265          }
6266    
6267              ## As if </colgroup>
6268              if ($self->{open_elements}->[-1]->[1] & HTML_EL) {
6269                !!!cp ('t269');
6270    ## TODO: Wrong error type?
6271                !!!parse-error (type => 'unmatched end tag',
6272                                text => 'colgroup', token => $token);
6273                ## Ignore the token
6274                !!!nack ('t269.1');
6275                !!!next-token;
6276                next B;
6277            } else {            } else {
6278              #              !!!cp ('t270');
6279                pop @{$self->{open_elements}}; # colgroup
6280                $self->{insertion_mode} = IN_TABLE_IM;
6281                !!!ack-later;
6282                ## reprocess
6283                next B;
6284              }
6285        } elsif ($self->{insertion_mode} & SELECT_IMS) {
6286          if ($token->{type} == CHARACTER_TOKEN) {
6287            !!!cp ('t271');
6288            $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});
6289            !!!next-token;
6290            next B;
6291          } elsif ($token->{type} == START_TAG_TOKEN) {
6292            if ($token->{tag_name} eq 'option') {
6293              if ($self->{open_elements}->[-1]->[1] & OPTION_EL) {
6294                !!!cp ('t272');
6295                ## As if </option>
6296                pop @{$self->{open_elements}};
6297              } else {
6298                !!!cp ('t273');
6299            }            }
             
           $in_body->($insert_to_current);  
           redo B;  
         } elsif ($self->{insertion_mode} eq 'in select') {  
           if ($token->{type} eq 'character') {  
             $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});  
             !!!next-token;  
             redo B;  
           } elsif ($token->{type} eq 'comment') {  
             my $comment = $self->{document}->create_comment ($token->{data});  
             $self->{open_elements}->[-1]->[0]->append_child ($comment);  
             !!!next-token;  
             redo B;  
           } elsif ($token->{type} eq 'start tag') {  
             if ($token->{tag_name} eq 'option') {  
               if ($self->{open_elements}->[-1]->[1] eq 'option') {  
                 ## As if </option>  
                 pop @{$self->{open_elements}};  
               }  
6300    
6301                !!!insert-element ($token->{tag_name}, $token->{attributes});            !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
6302                !!!next-token;            !!!nack ('t273.1');
6303                redo B;            !!!next-token;
6304              } elsif ($token->{tag_name} eq 'optgroup') {            next B;
6305                if ($self->{open_elements}->[-1]->[1] eq 'option') {          } elsif ($token->{tag_name} eq 'optgroup') {
6306                  ## As if </option>            if ($self->{open_elements}->[-1]->[1] & OPTION_EL) {
6307                  pop @{$self->{open_elements}};              !!!cp ('t274');
6308                }              ## As if </option>
6309                pop @{$self->{open_elements}};
6310              } else {
6311                !!!cp ('t275');
6312              }
6313    
6314                if ($self->{open_elements}->[-1]->[1] eq 'optgroup') {            if ($self->{open_elements}->[-1]->[1] & OPTGROUP_EL) {
6315                  ## As if </optgroup>              !!!cp ('t276');
6316                  pop @{$self->{open_elements}};              ## As if </optgroup>
6317                }              pop @{$self->{open_elements}};
6318              } else {
6319                !!!cp ('t277');
6320              }
6321    
6322                !!!insert-element ($token->{tag_name}, $token->{attributes});            !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
6323                !!!next-token;            !!!nack ('t277.1');
6324                redo B;            !!!next-token;
6325              } elsif ($token->{tag_name} eq 'select') {            next B;
6326                !!!parse-error (type => 'not closed:select');          } elsif ({
6327                ## As if </select> instead                     select => 1, input => 1, textarea => 1,
6328                ## have an element in table scope                   }->{$token->{tag_name}} or
6329                my $i;                   ($self->{insertion_mode} == IN_SELECT_IN_TABLE_IM and
6330                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                    {
6331                  my $node = $self->{open_elements}->[$_];                     caption => 1, table => 1,
6332                  if ($node->[1] eq $token->{tag_name}) {                     tbody => 1, tfoot => 1, thead => 1,
6333                    $i = $_;                     tr => 1, td => 1, th => 1,
6334                    last INSCOPE;                    }->{$token->{tag_name}})) {
6335                  } elsif ({            ## TODO: The type below is not good - <select> is replaced by </select>
6336                            table => 1, html => 1,            !!!parse-error (type => 'not closed', text => 'select',
6337                           }->{$node->[1]}) {                            token => $token);
6338                    last INSCOPE;            ## NOTE: As if the token were </select> (<select> case) or
6339                  }            ## as if there were </select> (otherwise).
6340                } # INSCOPE            ## have an element in table scope
6341                unless (defined $i) {            my $i;
6342                  !!!parse-error (type => 'unmatched end tag:select');            INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
6343                  ## Ignore the token              my $node = $self->{open_elements}->[$_];
6344                  !!!next-token;              if ($node->[1] & SELECT_EL) {
6345                  redo B;                !!!cp ('t278');
6346                }                $i = $_;
6347                  last INSCOPE;
6348                } elsif ($node->[1] & TABLE_SCOPING_EL) {
6349                  !!!cp ('t279');
6350                  last INSCOPE;
6351                }
6352              } # INSCOPE
6353              unless (defined $i) {
6354                !!!cp ('t280');
6355                !!!parse-error (type => 'unmatched end tag',
6356                                text => 'select', token => $token);
6357                ## Ignore the token
6358                !!!nack ('t280.1');
6359                !!!next-token;
6360                next B;
6361              }
6362                                
6363                splice @{$self->{open_elements}}, $i;            !!!cp ('t281');
6364              splice @{$self->{open_elements}}, $i;
6365    
6366                $self->_reset_insertion_mode;            $self->_reset_insertion_mode;
6367    
6368                !!!next-token;            if ($token->{tag_name} eq 'select') {
6369                redo B;              !!!nack ('t281.2');
6370              } else {              !!!next-token;
6371                #              next B;
6372              } else {
6373                !!!cp ('t281.1');
6374                !!!ack-later;
6375                ## Reprocess the token.
6376                next B;
6377              }
6378            } else {
6379              !!!cp ('t282');
6380              !!!parse-error (type => 'in select',
6381                              text => $token->{tag_name}, token => $token);
6382              ## Ignore the token
6383              !!!nack ('t282.1');
6384              !!!next-token;
6385              next B;
6386            }
6387          } elsif ($token->{type} == END_TAG_TOKEN) {
6388            if ($token->{tag_name} eq 'optgroup') {
6389              if ($self->{open_elements}->[-1]->[1] & OPTION_EL and
6390                  $self->{open_elements}->[-2]->[1] & OPTGROUP_EL) {
6391                !!!cp ('t283');
6392                ## As if </option>
6393                splice @{$self->{open_elements}}, -2;
6394              } elsif ($self->{open_elements}->[-1]->[1] & OPTGROUP_EL) {
6395                !!!cp ('t284');
6396                pop @{$self->{open_elements}};
6397              } else {
6398                !!!cp ('t285');
6399                !!!parse-error (type => 'unmatched end tag',
6400                                text => $token->{tag_name}, token => $token);
6401                ## Ignore the token
6402              }
6403              !!!nack ('t285.1');
6404              !!!next-token;
6405              next B;
6406            } elsif ($token->{tag_name} eq 'option') {
6407              if ($self->{open_elements}->[-1]->[1] & OPTION_EL) {
6408                !!!cp ('t286');
6409                pop @{$self->{open_elements}};
6410              } else {
6411                !!!cp ('t287');
6412                !!!parse-error (type => 'unmatched end tag',
6413                                text => $token->{tag_name}, token => $token);
6414                ## Ignore the token
6415              }
6416              !!!nack ('t287.1');
6417              !!!next-token;
6418              next B;
6419            } elsif ($token->{tag_name} eq 'select') {
6420              ## have an element in table scope
6421              my $i;
6422              INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
6423                my $node = $self->{open_elements}->[$_];
6424                if ($node->[1] & SELECT_EL) {
6425                  !!!cp ('t288');
6426                  $i = $_;
6427                  last INSCOPE;
6428                } elsif ($node->[1] & TABLE_SCOPING_EL) {
6429                  !!!cp ('t289');
6430                  last INSCOPE;
6431              }              }
6432            } elsif ($token->{type} eq 'end tag') {            } # INSCOPE
6433              if ($token->{tag_name} eq 'optgroup') {            unless (defined $i) {
6434                if ($self->{open_elements}->[-1]->[1] eq 'option' and              !!!cp ('t290');
6435                    $self->{open_elements}->[-2]->[1] eq 'optgroup') {              !!!parse-error (type => 'unmatched end tag',
6436                  ## As if </option>                              text => $token->{tag_name}, token => $token);
6437                  splice @{$self->{open_elements}}, -2;              ## Ignore the token
6438                } elsif ($self->{open_elements}->[-1]->[1] eq 'optgroup') {              !!!nack ('t290.1');
6439                  pop @{$self->{open_elements}};              !!!next-token;
6440                } else {              next B;
6441                  !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});            }
                 ## Ignore the token  
               }  
               !!!next-token;  
               redo B;  
             } elsif ($token->{tag_name} eq 'option') {  
               if ($self->{open_elements}->[-1]->[1] eq 'option') {  
                 pop @{$self->{open_elements}};  
               } else {  
                 !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
                 ## Ignore the token  
               }  
               !!!next-token;  
               redo B;  
             } elsif ($token->{tag_name} eq 'select') {  
               ## have an element in table scope  
               my $i;  
               INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {  
                 my $node = $self->{open_elements}->[$_];  
                 if ($node->[1] eq $token->{tag_name}) {  
                   $i = $_;  
                   last INSCOPE;  
                 } elsif ({  
                           table => 1, html => 1,  
                          }->{$node->[1]}) {  
                   last INSCOPE;  
                 }  
               } # INSCOPE  
               unless (defined $i) {  
                 !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
                 ## Ignore the token  
                 !!!next-token;  
                 redo B;  
               }  
6442                                
6443                splice @{$self->{open_elements}}, $i;            !!!cp ('t291');
6444              splice @{$self->{open_elements}}, $i;
6445    
6446                $self->_reset_insertion_mode;            $self->_reset_insertion_mode;
6447    
6448                !!!next-token;            !!!nack ('t291.1');
6449                redo B;            !!!next-token;
6450              } elsif ({            next B;
6451                        caption => 1, table => 1, tbody => 1,          } elsif ($self->{insertion_mode} == IN_SELECT_IN_TABLE_IM and
6452                        tfoot => 1, thead => 1, tr => 1, td => 1, th => 1,                   {
6453                       }->{$token->{tag_name}}) {                    caption => 1, table => 1, tbody => 1,
6454                !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});                    tfoot => 1, thead => 1, tr => 1, td => 1, th => 1,
6455                                   }->{$token->{tag_name}}) {
6456                ## have an element in table scope  ## TODO: The following is wrong?
6457                my $i;            !!!parse-error (type => 'unmatched end tag',
6458                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {                            text => $token->{tag_name}, token => $token);
                 my $node = $self->{open_elements}->[$_];  
                 if ($node->[1] eq $token->{tag_name}) {  
                   $i = $_;  
                   last INSCOPE;  
                 } elsif ({  
                           table => 1, html => 1,  
                          }->{$node->[1]}) {  
                   last INSCOPE;  
                 }  
               } # INSCOPE  
               unless (defined $i) {  
                 ## Ignore the token  
                 !!!next-token;  
                 redo B;  
               }  
6459                                
6460                ## As if </select>            ## have an element in table scope
6461                ## have an element in table scope            my $i;
6462                undef $i;            INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
6463                INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {              my $node = $self->{open_elements}->[$_];
6464                  my $node = $self->{open_elements}->[$_];              if ($node->[0]->manakai_local_name eq $token->{tag_name}) {
6465                  if ($node->[1] eq 'select') {                !!!cp ('t292');
6466                    $i = $_;                $i = $_;
6467                    last INSCOPE;                last INSCOPE;
6468                  } elsif ({              } elsif ($node->[1] & TABLE_SCOPING_EL) {
6469                            table => 1, html => 1,                !!!cp ('t293');
6470                           }->{$node->[1]}) {                last INSCOPE;
6471                    last INSCOPE;              }
6472                  }            } # INSCOPE
6473                } # INSCOPE            unless (defined $i) {
6474                unless (defined $i) {              !!!cp ('t294');
6475                  !!!parse-error (type => 'unmatched end tag:select');              ## Ignore the token
6476                  ## Ignore the </select> token              !!!nack ('t294.1');
6477                  !!!next-token; ## TODO: ok?              !!!next-token;
6478                  redo B;              next B;
6479                }            }
6480                                
6481                splice @{$self->{open_elements}}, $i;            ## As if </select>
6482              ## have an element in table scope
6483                $self->_reset_insertion_mode;            undef $i;
6484              INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
6485                ## reprocess              my $node = $self->{open_elements}->[$_];
6486                redo B;              if ($node->[1] & SELECT_EL) {
6487              } else {                !!!cp ('t295');
6488                #                $i = $_;
6489                  last INSCOPE;
6490                } elsif ($node->[1] & TABLE_SCOPING_EL) {
6491    ## ISSUE: Can this state be reached?
6492                  !!!cp ('t296');
6493                  last INSCOPE;
6494              }              }
6495            } else {            } # INSCOPE
6496              #            unless (defined $i) {
6497                !!!cp ('t297');
6498    ## TODO: The following error type is correct?
6499                !!!parse-error (type => 'unmatched end tag',
6500                                text => 'select', token => $token);
6501                ## Ignore the </select> token
6502                !!!nack ('t297.1');
6503                !!!next-token; ## TODO: ok?
6504                next B;
6505            }            }
6506                  
6507              !!!cp ('t298');
6508              splice @{$self->{open_elements}}, $i;
6509    
6510            !!!parse-error (type => 'in select:'.$token->{tag_name});            $self->_reset_insertion_mode;
6511    
6512              !!!ack-later;
6513              ## reprocess
6514              next B;
6515            } else {
6516              !!!cp ('t299');
6517              !!!parse-error (type => 'in select:/',
6518                              text => $token->{tag_name}, token => $token);
6519            ## Ignore the token            ## Ignore the token
6520              !!!nack ('t299.3');
6521            !!!next-token;            !!!next-token;
6522            redo B;            next B;
6523          } elsif ($self->{insertion_mode} eq 'after body') {          }
6524            if ($token->{type} eq 'character') {        } elsif ($token->{type} == END_OF_FILE_TOKEN) {
6525              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {          unless ($self->{open_elements}->[-1]->[1] & HTML_EL and
6526                ## As if in body                  @{$self->{open_elements}} == 1) { # redundant, maybe
6527                $reconstruct_active_formatting_elements->($insert_to_current);            !!!cp ('t299.1');
6528                            !!!parse-error (type => 'in body:#eof', token => $token);
6529                $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});          } else {
6530              !!!cp ('t299.2');
6531            }
6532    
6533                unless (length $token->{data}) {          ## Stop parsing.
6534                  !!!next-token;          last B;
6535                  redo B;        } else {
6536                }          die "$0: $token->{type}: Unknown token type";
6537              }        }
6538                    } elsif ($self->{insertion_mode} & BODY_AFTER_IMS) {
6539              #        if ($token->{type} == CHARACTER_TOKEN) {
6540              !!!parse-error (type => 'after body:#'.$token->{type});          if ($token->{data} =~ s/^([\x09\x0A\x0C\x20]+)//) {
6541            } elsif ($token->{type} eq 'comment') {            my $data = $1;
6542              my $comment = $self->{document}->create_comment ($token->{data});            ## As if in body
6543              $self->{open_elements}->[0]->[0]->append_child ($comment);            $reconstruct_active_formatting_elements->($insert_to_current);
6544                  
6545              $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);
6546              
6547              unless (length $token->{data}) {
6548                !!!cp ('t300');
6549              !!!next-token;              !!!next-token;
6550              redo B;              next B;
           } elsif ($token->{type} eq 'start tag') {  
             !!!parse-error (type => 'after body:'.$token->{tag_name});  
             #  
           } elsif ($token->{type} eq 'end tag') {  
             if ($token->{tag_name} eq 'html') {  
               if (defined $self->{inner_html_node}) {  
                 !!!parse-error (type => 'unmatched end tag:html');  
                 ## Ignore the token  
                 !!!next-token;  
                 redo B;  
               } else {  
                 $phase = 'trailing end';  
                 !!!next-token;  
                 redo B;  
               }  
             } else {  
               !!!parse-error (type => 'after body:/'.$token->{tag_name});  
             }  
           } else {  
             !!!parse-error (type => 'after body:#'.$token->{type});  
6551            }            }
6552            }
6553            
6554            if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {
6555              !!!cp ('t301');
6556              !!!parse-error (type => 'after html:#text', token => $token);
6557              #
6558            } else {
6559              !!!cp ('t302');
6560              ## "after body" insertion mode
6561              !!!parse-error (type => 'after body:#text', token => $token);
6562              #
6563            }
6564    
6565            $self->{insertion_mode} = 'in body';          $self->{insertion_mode} = IN_BODY_IM;
6566            ## reprocess          ## reprocess
6567            redo B;          next B;
6568          } elsif ($self->{insertion_mode} eq 'in frameset') {        } elsif ($token->{type} == START_TAG_TOKEN) {
6569            if ($token->{type} eq 'character') {          if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {
6570              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {            !!!cp ('t303');
6571                $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});            !!!parse-error (type => 'after html',
6572                              text => $token->{tag_name}, token => $token);
6573              #
6574            } else {
6575              !!!cp ('t304');
6576              ## "after body" insertion mode
6577              !!!parse-error (type => 'after body',
6578                              text => $token->{tag_name}, token => $token);
6579              #
6580            }
6581    
6582                unless (length $token->{data}) {          $self->{insertion_mode} = IN_BODY_IM;
6583                  !!!next-token;          !!!ack-later;
6584                  redo B;          ## reprocess
6585                }          next B;
6586              }        } elsif ($token->{type} == END_TAG_TOKEN) {
6587            if ($self->{insertion_mode} == AFTER_HTML_BODY_IM) {
6588              !!!cp ('t305');
6589              !!!parse-error (type => 'after html:/',
6590                              text => $token->{tag_name}, token => $token);
6591              
6592              $self->{insertion_mode} = IN_BODY_IM;
6593              ## Reprocess.
6594              next B;
6595            } else {
6596              !!!cp ('t306');
6597            }
6598    
6599              #          ## "after body" insertion mode
6600            } elsif ($token->{type} eq 'comment') {          if ($token->{tag_name} eq 'html') {
6601              my $comment = $self->{document}->create_comment ($token->{data});            if (defined $self->{inner_html_node}) {
6602              $self->{open_elements}->[-1]->[0]->append_child ($comment);              !!!cp ('t307');
6603                !!!parse-error (type => 'unmatched end tag',
6604                                text => 'html', token => $token);
6605                ## Ignore the token
6606              !!!next-token;              !!!next-token;
6607              redo B;              next B;
           } elsif ($token->{type} eq 'start tag') {  
             if ($token->{tag_name} eq 'frameset') {  
               !!!insert-element ($token->{tag_name}, $token->{attributes});  
               !!!next-token;  
               redo B;  
             } elsif ($token->{tag_name} eq 'frame') {  
               !!!insert-element ($token->{tag_name}, $token->{attributes});  
               pop @{$self->{open_elements}};  
               !!!next-token;  
               redo B;  
             } elsif ($token->{tag_name} eq 'noframes') {  
               $in_body->($insert_to_current);  
               redo B;  
             } else {  
               #  
             }  
           } elsif ($token->{type} eq 'end tag') {  
             if ($token->{tag_name} eq 'frameset') {  
               if ($self->{open_elements}->[-1]->[1] eq 'html' and  
                   @{$self->{open_elements}} == 1) {  
                 !!!parse-error (type => 'unmatched end tag:'.$token->{tag_name});  
                 ## Ignore the token  
                 !!!next-token;  
               } else {  
                 pop @{$self->{open_elements}};  
                 !!!next-token;  
               }  
                 
               ## if not inner_html and  
               if ($self->{open_elements}->[-1]->[1] ne 'frameset') {  
                 $self->{insertion_mode} = 'after frameset';  
               }  
               redo B;  
             } else {  
               #  
             }  
6608            } else {            } else {
6609              #              !!!cp ('t308');
6610                $self->{insertion_mode} = AFTER_HTML_BODY_IM;
6611                !!!next-token;
6612                next B;
6613              }
6614            } else {
6615              !!!cp ('t309');
6616              !!!parse-error (type => 'after body:/',
6617                              text => $token->{tag_name}, token => $token);
6618    
6619              $self->{insertion_mode} = IN_BODY_IM;
6620              ## reprocess
6621              next B;
6622            }
6623          } elsif ($token->{type} == END_OF_FILE_TOKEN) {
6624            !!!cp ('t309.2');
6625            ## Stop parsing
6626            last B;
6627          } else {
6628            die "$0: $token->{type}: Unknown token type";
6629          }
6630        } elsif ($self->{insertion_mode} & FRAME_IMS) {
6631          if ($token->{type} == CHARACTER_TOKEN) {
6632            if ($token->{data} =~ s/^([\x09\x0A\x0C\x20]+)//) {
6633              $self->{open_elements}->[-1]->[0]->manakai_append_text ($1);
6634              
6635              unless (length $token->{data}) {
6636                !!!cp ('t310');
6637                !!!next-token;
6638                next B;
6639              }
6640            }
6641            
6642            if ($token->{data} =~ s/^[^\x09\x0A\x0C\x20]+//) {
6643              if ($self->{insertion_mode} == IN_FRAMESET_IM) {
6644                !!!cp ('t311');
6645                !!!parse-error (type => 'in frameset:#text', token => $token);
6646              } elsif ($self->{insertion_mode} == AFTER_FRAMESET_IM) {
6647                !!!cp ('t312');
6648                !!!parse-error (type => 'after frameset:#text', token => $token);
6649              } else { # "after after frameset"
6650                !!!cp ('t313');
6651                !!!parse-error (type => 'after html:#text', token => $token);
6652            }            }
6653                        
6654            if (defined $token->{tag_name}) {            ## Ignore the token.
6655              !!!parse-error (type => 'in frameset:'.$token->{tag_name});            if (length $token->{data}) {
6656                !!!cp ('t314');
6657                ## reprocess the rest of characters
6658            } else {            } else {
6659              !!!parse-error (type => 'in frameset:#'.$token->{type});              !!!cp ('t315');
6660                !!!next-token;
6661              }
6662              next B;
6663            }
6664            
6665            die qq[$0: Character "$token->{data}"];
6666          } elsif ($token->{type} == START_TAG_TOKEN) {
6667            if ($token->{tag_name} eq 'frameset' and
6668                $self->{insertion_mode} == IN_FRAMESET_IM) {
6669              !!!cp ('t318');
6670              !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
6671              !!!nack ('t318.1');
6672              !!!next-token;
6673              next B;
6674            } elsif ($token->{tag_name} eq 'frame' and
6675                     $self->{insertion_mode} == IN_FRAMESET_IM) {
6676              !!!cp ('t319');
6677              !!!insert-element ($token->{tag_name}, $token->{attributes}, $token);
6678              pop @{$self->{open_elements}};
6679              !!!ack ('t319.1');
6680              !!!next-token;
6681              next B;
6682            } elsif ($token->{tag_name} eq 'noframes') {
6683              !!!cp ('t320');
6684              ## NOTE: As if in head.
6685              $parse_rcdata->(CDATA_CONTENT_MODEL);
6686              next B;
6687    
6688              ## NOTE: |<!DOCTYPE HTML><frameset></frameset></html><noframes></noframes>|
6689              ## has no parse error.
6690            } else {
6691              if ($self->{insertion_mode} == IN_FRAMESET_IM) {
6692                !!!cp ('t321');
6693                !!!parse-error (type => 'in frameset',
6694                                text => $token->{tag_name}, token => $token);
6695              } elsif ($self->{insertion_mode} == AFTER_FRAMESET_IM) {
6696                !!!cp ('t322');
6697                !!!parse-error (type => 'after frameset',
6698                                text => $token->{tag_name}, token => $token);
6699              } else { # "after after frameset"
6700                !!!cp ('t322.2');
6701                !!!parse-error (type => 'after after frameset',
6702                                text => $token->{tag_name}, token => $token);
6703            }            }
6704            ## Ignore the token            ## Ignore the token
6705              !!!nack ('t322.1');
6706            !!!next-token;            !!!next-token;
6707            redo B;            next B;
6708          } elsif ($self->{insertion_mode} eq 'after frameset') {          }
6709            if ($token->{type} eq 'character') {        } elsif ($token->{type} == END_TAG_TOKEN) {
6710              if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {          if ($token->{tag_name} eq 'frameset' and
6711                $self->{open_elements}->[-1]->[0]->manakai_append_text ($token->{data});              $self->{insertion_mode} == IN_FRAMESET_IM) {
6712              if ($self->{open_elements}->[-1]->[1] & HTML_EL and
6713                  @{$self->{open_elements}} == 1) {
6714                !!!cp ('t325');
6715                !!!parse-error (type => 'unmatched end tag',
6716                                text => $token->{tag_name}, token => $token);
6717                ## Ignore the token
6718                !!!next-token;
6719              } else {
6720                !!!cp ('t326');
6721                pop @{$self->{open_elements}};
6722                !!!next-token;
6723              }
6724    
6725                unless (length $token->{data}) {            if (not defined $self->{inner_html_node} and
6726                  !!!next-token;                not ($self->{open_elements}->[-1]->[1] & FRAMESET_EL)) {
6727                  redo B;              !!!cp ('t327');
6728                }              $self->{insertion_mode} = AFTER_FRAMESET_IM;
6729              } else {
6730                !!!cp ('t328');
6731              }
6732              next B;
6733            } elsif ($token->{tag_name} eq 'html' and
6734                     $self->{insertion_mode} == AFTER_FRAMESET_IM) {
6735              !!!cp ('t329');
6736              $self->{insertion_mode} = AFTER_HTML_FRAMESET_IM;
6737              !!!next-token;
6738              next B;
6739            } else {
6740              if ($self->{insertion_mode} == IN_FRAMESET_IM) {
6741                !!!cp ('t330');
6742                !!!parse-error (type => 'in frameset:/',
6743                                text => $token->{tag_name}, token => $token);
6744              } elsif ($self->{insertion_mode} == AFTER_FRAMESET_IM) {
6745                !!!cp ('t330.1');
6746                !!!parse-error (type => 'after frameset:/',
6747                                text => $token->{tag_name}, token => $token);
6748              } else { # "after after html"
6749                !!!cp ('t331');
6750                !!!parse-error (type => 'after after frameset:/',
6751                                text => $token->{tag_name}, token => $token);
6752              }
6753              ## Ignore the token
6754              !!!next-token;
6755              next B;
6756            }
6757          } elsif ($token->{type} == END_OF_FILE_TOKEN) {
6758            unless ($self->{open_elements}->[-1]->[1] & HTML_EL and
6759                    @{$self->{open_elements}} == 1) { # redundant, maybe
6760              !!!cp ('t331.1');
6761              !!!parse-error (type => 'in body:#eof', token => $token);
6762            } else {
6763              !!!cp ('t331.2');
6764            }
6765            
6766            ## Stop parsing
6767            last B;
6768          } else {
6769            die "$0: $token->{type}: Unknown token type";
6770          }
6771    
6772          ## ISSUE: An issue in spec here
6773        } else {
6774          die "$0: $self->{insertion_mode}: Unknown insertion mode";
6775        }
6776    
6777        ## "in body" insertion mode
6778        if ($token->{type} == START_TAG_TOKEN) {
6779          if ($token->{tag_name} eq 'script') {
6780            !!!cp ('t332');
6781            ## NOTE: This is an "as if in head" code clone
6782            $script_start_tag->();
6783            next B;
6784          } elsif ($token->{tag_name} eq 'style') {
6785            !!!cp ('t333');
6786            ## NOTE: This is an "as if in head" code clone
6787            $parse_rcdata->(CDATA_CONTENT_MODEL);
6788            next B;
6789          } elsif ({
6790                    base => 1, link => 1,
6791                   }->{$token->{tag_name}}) {
6792            !!!cp ('t334');
6793            ## NOTE: This is an "as if in head" code clone, only "-t" differs
6794            !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
6795            pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.
6796            !!!ack ('t334.1');
6797            !!!next-token;
6798            next B;
6799          } elsif ($token->{tag_name} eq 'meta') {
6800            ## NOTE: This is an "as if in head" code clone, only "-t" differs
6801            !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
6802            my $meta_el = pop @{$self->{open_elements}}; ## ISSUE: This step is missing in the spec.
6803    
6804            unless ($self->{confident}) {
6805              if ($token->{attributes}->{charset}) {
6806                !!!cp ('t335');
6807                ## NOTE: Whether the encoding is supported or not is handled
6808                ## in the {change_encoding} callback.
6809                $self->{change_encoding}
6810                    ->($self, $token->{attributes}->{charset}->{value}, $token);
6811                
6812                $meta_el->[0]->get_attribute_node_ns (undef, 'charset')
6813                    ->set_user_data (manakai_has_reference =>
6814                                         $token->{attributes}->{charset}
6815                                             ->{has_reference});
6816              } elsif ($token->{attributes}->{content}) {
6817                if ($token->{attributes}->{content}->{value}
6818                    =~ /[Cc][Hh][Aa][Rr][Ss][Ee][Tt]
6819                        [\x09-\x0D\x20]*=
6820                        [\x09-\x0D\x20]*(?>"([^"]*)"|'([^']*)'|
6821                        ([^"'\x09-\x0D\x20][^\x09-\x0D\x20\x3B]*))/x) {
6822                  !!!cp ('t336');
6823                  ## NOTE: Whether the encoding is supported or not is handled
6824                  ## in the {change_encoding} callback.
6825                  $self->{change_encoding}
6826                      ->($self, defined $1 ? $1 : defined $2 ? $2 : $3, $token);
6827                  $meta_el->[0]->get_attribute_node_ns (undef, 'content')
6828                      ->set_user_data (manakai_has_reference =>
6829                                           $token->{attributes}->{content}
6830                                                 ->{has_reference});
6831              }              }
6832              }
6833            } else {
6834              if ($token->{attributes}->{charset}) {
6835                !!!cp ('t337');
6836                $meta_el->[0]->get_attribute_node_ns (undef, 'charset')
6837                    ->set_user_data (manakai_has_reference =>
6838                                         $token->{attributes}->{charset}
6839                                             ->{has_reference});
6840              }
6841              if ($token->{attributes}->{content}) {
6842                !!!cp ('t338');
6843                $meta_el->[0]->get_attribute_node_ns (undef, 'content')
6844                    ->set_user_data (manakai_has_reference =>
6845                                         $token->{attributes}->{content}
6846                                             ->{has_reference});
6847              }
6848            }
6849    
6850              #          !!!ack ('t338.1');
6851            } elsif ($token->{type} eq 'comment') {          !!!next-token;
6852              my $comment = $self->{document}->create_comment ($token->{data});          next B;
6853              $self->{open_elements}->[-1]->[0]->append_child ($comment);        } elsif ($token->{tag_name} eq 'title') {
6854              !!!next-token;          !!!cp ('t341');
6855              redo B;          ## NOTE: This is an "as if in head" code clone
6856            } elsif ($token->{type} eq 'start tag') {          $parse_rcdata->(RCDATA_CONTENT_MODEL);
6857              if ($token->{tag_name} eq 'noframes') {          next B;
6858                $in_body->($insert_to_current);        } elsif ($token->{tag_name} eq 'body') {
6859                redo B;          !!!parse-error (type => 'in body', text => 'body', token => $token);
6860              } else {                
6861                #          if (@{$self->{open_elements}} == 1 or
6862                not ($self->{open_elements}->[1]->[1] & BODY_EL)) {
6863              !!!cp ('t342');
6864              ## Ignore the token
6865            } else {
6866              my $body_el = $self->{open_elements}->[1]->[0];
6867              for my $attr_name (keys %{$token->{attributes}}) {
6868                unless ($body_el->has_attribute_ns (undef, $attr_name)) {
6869                  !!!cp ('t343');
6870                  $body_el->set_attribute_ns
6871                    (undef, [undef, $attr_name],
6872                     $token->{attributes}->{$attr_name}->{value});
6873              }              }
6874            } elsif ($token->{type} eq 'end tag') {            }
6875              if ($token->{tag_name} eq 'html') {          }
6876                $phase = 'trailing end';          !!!nack ('t343.1');
6877            !!!next-token;
6878            next B;
6879          } elsif ({
6880                    address => 1, blockquote => 1, center => 1, dir => 1,
6881                    div => 1, dl => 1, fieldset => 1,
6882                    h1 => 1, h2 => 1, h3 => 1, h4 => 1, h5 => 1, h6 => 1,
6883                    menu => 1, ol => 1, p => 1, ul => 1,
6884                    pre => 1, listing => 1,
6885                    form => 1,
6886                    table => 1,
6887                    hr => 1,
6888                   }->{$token->{tag_name}}) {
6889            if ($token->{tag_name} eq 'form' and defined $self->{form_element}) {
6890              !!!cp ('t350');
6891              !!!parse-error (type => 'in form:form', token => $token);
6892              ## Ignore the token
6893              !!!nack ('t350.1');
6894              !!!next-token;
6895              next B;
6896            }
6897    
6898            ## has a p element in scope
6899            INSCOPE: for (reverse @{$self->{open_elements}}) {
6900              if ($_->[1] & P_EL) {
6901                !!!cp ('t344');
6902                !!!back-token; # <form>
6903                $token = {type => END_TAG_TOKEN, tag_name => 'p',
6904                          line => $token->{line}, column => $token->{column}};
6905                next B;
6906              } elsif ($_->[1] & SCOPING_EL) {
6907                !!!cp ('t345');
6908                last INSCOPE;
6909              }
6910            } # INSCOPE
6911              
6912            !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
6913            if ($token->{tag_name} eq 'pre' or $token->{tag_name} eq 'listing') {
6914              !!!nack ('t346.1');
6915              !!!next-token;
6916              if ($token->{type} == CHARACTER_TOKEN) {
6917                $token->{data} =~ s/^\x0A//;
6918                unless (length $token->{data}) {
6919                  !!!cp ('t346');
6920                !!!next-token;                !!!next-token;
               redo B;  
6921              } else {              } else {
6922                #                !!!cp ('t349');
6923              }              }
6924            } else {            } else {
6925              #              !!!cp ('t348');
6926            }            }
6927            } elsif ($token->{tag_name} eq 'form') {
6928              !!!cp ('t347.1');
6929              $self->{form_element} = $self->{open_elements}->[-1]->[0];
6930    
6931              !!!nack ('t347.2');
6932              !!!next-token;
6933            } elsif ($token->{tag_name} eq 'table') {
6934              !!!cp ('t382');
6935              push @{$open_tables}, [$self->{open_elements}->[-1]->[0]];
6936                        
6937            if (defined $token->{tag_name}) {            $self->{insertion_mode} = IN_TABLE_IM;
6938              !!!parse-error (type => 'after frameset:'.$token->{tag_name});  
6939              !!!nack ('t382.1');
6940              !!!next-token;
6941            } elsif ($token->{tag_name} eq 'hr') {
6942              !!!cp ('t386');
6943              pop @{$self->{open_elements}};
6944            
6945              !!!nack ('t386.1');
6946              !!!next-token;
6947            } else {
6948              !!!nack ('t347.1');
6949              !!!next-token;
6950            }
6951            next B;
6952          } elsif ({li => 1, dt => 1, dd => 1}->{$token->{tag_name}}) {
6953            ## has a p element in scope
6954            INSCOPE: for (reverse @{$self->{open_elements}}) {
6955              if ($_->[1] & P_EL) {
6956                !!!cp ('t353');
6957                !!!back-token; # <x>
6958                $token = {type => END_TAG_TOKEN, tag_name => 'p',
6959                          line => $token->{line}, column => $token->{column}};
6960                next B;
6961              } elsif ($_->[1] & SCOPING_EL) {
6962                !!!cp ('t354');
6963                last INSCOPE;
6964              }
6965            } # INSCOPE
6966              
6967            ## Step 1
6968            my $i = -1;
6969            my $node = $self->{open_elements}->[$i];
6970            my $li_or_dtdd = {li => {li => 1},
6971                              dt => {dt => 1, dd => 1},
6972                              dd => {dt => 1, dd => 1}}->{$token->{tag_name}};
6973            LI: {
6974              ## Step 2
6975              if ($li_or_dtdd->{$node->[0]->manakai_local_name}) {
6976                if ($i != -1) {
6977                  !!!cp ('t355');
6978                  !!!parse-error (type => 'not closed',
6979                                  text => $self->{open_elements}->[-1]->[0]
6980                                      ->manakai_local_name,
6981                                  token => $token);
6982                } else {
6983                  !!!cp ('t356');
6984                }
6985                splice @{$self->{open_elements}}, $i;
6986                last LI;
6987            } else {            } else {
6988              !!!parse-error (type => 'after frameset:#'.$token->{type});              !!!cp ('t357');
6989              }
6990              
6991              ## Step 3
6992              if (not ($node->[1] & FORMATTING_EL) and
6993                  #not $phrasing_category->{$node->[1]} and
6994                  ($node->[1] & SPECIAL_EL or
6995                   $node->[1] & SCOPING_EL) and
6996                  not ($node->[1] & ADDRESS_EL) and
6997                  not ($node->[1] & DIV_EL)) {
6998                !!!cp ('t358');
6999                last LI;
7000              }
7001              
7002              !!!cp ('t359');
7003              ## Step 4
7004              $i--;
7005              $node = $self->{open_elements}->[$i];
7006              redo LI;
7007            } # LI
7008              
7009            !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
7010            !!!nack ('t359.1');
7011            !!!next-token;
7012            next B;
7013          } elsif ($token->{tag_name} eq 'plaintext') {
7014            ## has a p element in scope
7015            INSCOPE: for (reverse @{$self->{open_elements}}) {
7016              if ($_->[1] & P_EL) {
7017                !!!cp ('t367');
7018                !!!back-token; # <plaintext>
7019                $token = {type => END_TAG_TOKEN, tag_name => 'p',
7020                          line => $token->{line}, column => $token->{column}};
7021                next B;
7022              } elsif ($_->[1] & SCOPING_EL) {
7023                !!!cp ('t368');
7024                last INSCOPE;
7025              }
7026            } # INSCOPE
7027              
7028            !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
7029              
7030            $self->{content_model} = PLAINTEXT_CONTENT_MODEL;
7031              
7032            !!!nack ('t368.1');
7033            !!!next-token;
7034            next B;
7035          } elsif ($token->{tag_name} eq 'a') {
7036            AFE: for my $i (reverse 0..$#$active_formatting_elements) {
7037              my $node = $active_formatting_elements->[$i];
7038              if ($node->[1] & A_EL) {
7039                !!!cp ('t371');
7040                !!!parse-error (type => 'in a:a', token => $token);
7041                
7042                !!!back-token; # <a>
7043                $token = {type => END_TAG_TOKEN, tag_name => 'a',
7044                          line => $token->{line}, column => $token->{column}};
7045                $formatting_end_tag->($token);
7046                
7047                AFE2: for (reverse 0..$#$active_formatting_elements) {
7048                  if ($active_formatting_elements->[$_]->[0] eq $node->[0]) {
7049                    !!!cp ('t372');
7050                    splice @$active_formatting_elements, $_, 1;
7051                    last AFE2;
7052                  }
7053                } # AFE2
7054                OE: for (reverse 0..$#{$self->{open_elements}}) {
7055                  if ($self->{open_elements}->[$_]->[0] eq $node->[0]) {
7056                    !!!cp ('t373');
7057                    splice @{$self->{open_elements}}, $_, 1;
7058                    last OE;
7059                  }
7060                } # OE
7061                last AFE;
7062              } elsif ($node->[0] eq '#marker') {
7063                !!!cp ('t374');
7064                last AFE;
7065              }
7066            } # AFE
7067              
7068            $reconstruct_active_formatting_elements->($insert_to_current);
7069    
7070            !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
7071            push @$active_formatting_elements, $self->{open_elements}->[-1];
7072    
7073            !!!nack ('t374.1');
7074            !!!next-token;
7075            next B;
7076          } elsif ($token->{tag_name} eq 'nobr') {
7077            $reconstruct_active_formatting_elements->($insert_to_current);
7078    
7079            ## has a |nobr| element in scope
7080            INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
7081              my $node = $self->{open_elements}->[$_];
7082              if ($node->[1] & NOBR_EL) {
7083                !!!cp ('t376');
7084                !!!parse-error (type => 'in nobr:nobr', token => $token);
7085                !!!back-token; # <nobr>
7086                $token = {type => END_TAG_TOKEN, tag_name => 'nobr',
7087                          line => $token->{line}, column => $token->{column}};
7088                next B;
7089              } elsif ($node->[1] & SCOPING_EL) {
7090                !!!cp ('t377');
7091                last INSCOPE;
7092              }
7093            } # INSCOPE
7094            
7095            !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
7096            push @$active_formatting_elements, $self->{open_elements}->[-1];
7097            
7098            !!!nack ('t377.1');
7099            !!!next-token;
7100            next B;
7101          } elsif ($token->{tag_name} eq 'button') {
7102            ## has a button element in scope
7103            INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
7104              my $node = $self->{open_elements}->[$_];
7105              if ($node->[1] & BUTTON_EL) {
7106                !!!cp ('t378');
7107                !!!parse-error (type => 'in button:button', token => $token);
7108                !!!back-token; # <button>
7109                $token = {type => END_TAG_TOKEN, tag_name => 'button',
7110                          line => $token->{line}, column => $token->{column}};
7111                next B;
7112              } elsif ($node->[1] & SCOPING_EL) {
7113                !!!cp ('t379');
7114                last INSCOPE;
7115            }            }
7116            } # INSCOPE
7117              
7118            $reconstruct_active_formatting_elements->($insert_to_current);
7119              
7120            !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
7121    
7122            ## TODO: associate with $self->{form_element} if defined
7123    
7124            push @$active_formatting_elements, ['#marker', ''];
7125    
7126            !!!nack ('t379.1');
7127            !!!next-token;
7128            next B;
7129          } elsif ({
7130                    xmp => 1,
7131                    iframe => 1,
7132                    noembed => 1,
7133                    noframes => 1, ## NOTE: This is an "as if in head" code clone.
7134                    noscript => 0, ## TODO: 1 if scripting is enabled
7135                   }->{$token->{tag_name}}) {
7136            if ($token->{tag_name} eq 'xmp') {
7137              !!!cp ('t381');
7138              $reconstruct_active_formatting_elements->($insert_to_current);
7139            } else {
7140              !!!cp ('t399');
7141            }
7142            ## NOTE: There is an "as if in body" code clone.
7143            $parse_rcdata->(CDATA_CONTENT_MODEL);
7144            next B;
7145          } elsif ($token->{tag_name} eq 'isindex') {
7146            !!!parse-error (type => 'isindex', token => $token);
7147            
7148            if (defined $self->{form_element}) {
7149              !!!cp ('t389');
7150            ## Ignore the token            ## Ignore the token
7151              !!!nack ('t389'); ## NOTE: Not acknowledged.
7152            !!!next-token;            !!!next-token;
7153            redo B;            next B;
7154            } else {
7155              !!!ack ('t391.1');
7156    
7157            ## ISSUE: An issue in spec there            my $at = $token->{attributes};
7158              my $form_attrs;
7159              $form_attrs->{action} = $at->{action} if $at->{action};
7160              my $prompt_attr = $at->{prompt};
7161              $at->{name} = {name => 'name', value => 'isindex'};
7162              delete $at->{action};
7163              delete $at->{prompt};
7164              my @tokens = (
7165                            {type => START_TAG_TOKEN, tag_name => 'form',
7166                             attributes => $form_attrs,
7167                             line => $token->{line}, column => $token->{column}},
7168                            {type => START_TAG_TOKEN, tag_name => 'hr',
7169                             line => $token->{line}, column => $token->{column}},
7170                            {type => START_TAG_TOKEN, tag_name => 'p',
7171                             line => $token->{line}, column => $token->{column}},
7172                            {type => START_TAG_TOKEN, tag_name => 'label',
7173                             line => $token->{line}, column => $token->{column}},
7174                           );
7175              if ($prompt_attr) {
7176                !!!cp ('t390');
7177                push @tokens, {type => CHARACTER_TOKEN, data => $prompt_attr->{value},
7178                               #line => $token->{line}, column => $token->{column},
7179                              };
7180              } else {
7181                !!!cp ('t391');
7182                push @tokens, {type => CHARACTER_TOKEN,
7183                               data => 'This is a searchable index. Insert your search keywords here: ',
7184                               #line => $token->{line}, column => $token->{column},
7185                              }; # SHOULD
7186                ## TODO: make this configurable
7187              }
7188              push @tokens,
7189                            {type => START_TAG_TOKEN, tag_name => 'input', attributes => $at,
7190                             line => $token->{line}, column => $token->{column}},
7191                            #{type => CHARACTER_TOKEN, data => ''}, # SHOULD
7192                            {type => END_TAG_TOKEN, tag_name => 'label',
7193                             line => $token->{line}, column => $token->{column}},
7194                            {type => END_TAG_TOKEN, tag_name => 'p',
7195                             line => $token->{line}, column => $token->{column}},
7196                            {type => START_TAG_TOKEN, tag_name => 'hr',
7197                             line => $token->{line}, column => $token->{column}},
7198                            {type => END_TAG_TOKEN, tag_name => 'form',
7199                             line => $token->{line}, column => $token->{column}};
7200              !!!back-token (@tokens);
7201              !!!next-token;
7202              next B;
7203            }
7204          } elsif ($token->{tag_name} eq 'textarea') {
7205            my $tag_name = $token->{tag_name};
7206            my $el;
7207            !!!create-element ($el, $HTML_NS, $token->{tag_name}, $token->{attributes}, $token);
7208            
7209            ## TODO: $self->{form_element} if defined
7210            $self->{content_model} = RCDATA_CONTENT_MODEL;
7211            delete $self->{escape}; # MUST
7212            
7213            $insert->($el);
7214            
7215            my $text = '';
7216            !!!nack ('t392.1');
7217            !!!next-token;
7218            if ($token->{type} == CHARACTER_TOKEN) {
7219              $token->{data} =~ s/^\x0A//;
7220              unless (length $token->{data}) {
7221                !!!cp ('t392');
7222                !!!next-token;
7223              } else {
7224                !!!cp ('t393');
7225              }
7226          } else {          } else {
7227            die "$0: $self->{insertion_mode}: Unknown insertion mode";            !!!cp ('t394');
7228            }
7229            while ($token->{type} == CHARACTER_TOKEN) {
7230              !!!cp ('t395');
7231              $text .= $token->{data};
7232              !!!next-token;
7233            }
7234            if (length $text) {
7235              !!!cp ('t396');
7236              $el->manakai_append_text ($text);
7237            }
7238            
7239            $self->{content_model} = PCDATA_CONTENT_MODEL;
7240            
7241            if ($token->{type} == END_TAG_TOKEN and
7242                $token->{tag_name} eq $tag_name) {
7243              !!!cp ('t397');
7244              ## Ignore the token
7245            } else {
7246              !!!cp ('t398');
7247              !!!parse-error (type => 'in RCDATA:#eof', token => $token);
7248          }          }
       }  
     } elsif ($phase eq 'trailing end') {  
       ## states in the main stage is preserved yet # MUST  
         
       if ($token->{type} eq 'DOCTYPE') {  
         !!!parse-error (type => 'after html:#DOCTYPE');  
         ## Ignore the token  
7249          !!!next-token;          !!!next-token;
7250          redo B;          next B;
7251        } elsif ($token->{type} eq 'comment') {        } elsif ($token->{tag_name} eq 'rt' or
7252          my $comment = $self->{document}->create_comment ($token->{data});                 $token->{tag_name} eq 'rp') {
7253          $self->{document}->append_child ($comment);          ## has a |ruby| element in scope
7254            INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
7255              my $node = $self->{open_elements}->[$_];
7256              if ($node->[1] & RUBY_EL) {
7257                !!!cp ('t398.1');
7258                ## generate implied end tags
7259                while ($self->{open_elements}->[-1]->[1] & END_TAG_OPTIONAL_EL) {
7260                  !!!cp ('t398.2');
7261                  pop @{$self->{open_elements}};
7262                }
7263                unless ($self->{open_elements}->[-1]->[1] & RUBY_EL) {
7264                  !!!cp ('t398.3');
7265                  !!!parse-error (type => 'not closed',
7266                                  text => $self->{open_elements}->[-1]->[0]
7267                                      ->manakai_local_name,
7268                                  token => $token);
7269                  pop @{$self->{open_elements}}
7270                      while not $self->{open_elements}->[-1]->[1] & RUBY_EL;
7271                }
7272                last INSCOPE;
7273              } elsif ($node->[1] & SCOPING_EL) {
7274                !!!cp ('t398.4');
7275                last INSCOPE;
7276              }
7277            } # INSCOPE
7278    
7279            !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
7280    
7281            !!!nack ('t398.5');
7282          !!!next-token;          !!!next-token;
7283          redo B;          redo B;
7284        } elsif ($token->{type} eq 'character') {        } elsif ($token->{tag_name} eq 'math' or
7285          if ($token->{data} =~ s/^([\x09\x0A\x0B\x0C\x20]+)//) {                 $token->{tag_name} eq 'svg') {
7286            my $data = $1;          $reconstruct_active_formatting_elements->($insert_to_current);
7287            ## As if in the main phase.  
7288            ## NOTE: The insertion mode in the main phase          ## "Adjust MathML attributes" ('math' only) - done in insert-element-f
7289            ## just before the phase has been changed to the trailing  
7290            ## end phase is either "after body" or "after frameset".          ## "adjust SVG attributes" ('svg' only) - done in insert-element-f
7291            $reconstruct_active_formatting_elements->($insert_to_current)  
7292              if $phase eq 'main';          ## "adjust foreign attributes" - done in insert-element-f
7293            
7294            !!!insert-element-f ($token->{tag_name} eq 'math' ? $MML_NS : $SVG_NS, $token->{tag_name}, $token->{attributes}, $token);
7295            
7296            if ($self->{self_closing}) {
7297              pop @{$self->{open_elements}};
7298              !!!ack ('t398.1');
7299            } else {
7300              !!!cp ('t398.2');
7301              $self->{insertion_mode} |= IN_FOREIGN_CONTENT_IM;
7302              ## NOTE: |<body><math><mi><svg>| -> "in foreign content" insertion
7303              ## mode, "in body" (not "in foreign content") secondary insertion
7304              ## mode, maybe.
7305            }
7306    
7307            !!!next-token;
7308            next B;
7309          } elsif ({
7310                    caption => 1, col => 1, colgroup => 1, frame => 1,
7311                    frameset => 1, head => 1, option => 1, optgroup => 1,
7312                    tbody => 1, td => 1, tfoot => 1, th => 1,
7313                    thead => 1, tr => 1,
7314                   }->{$token->{tag_name}}) {
7315            !!!cp ('t401');
7316            !!!parse-error (type => 'in body',
7317                            text => $token->{tag_name}, token => $token);
7318            ## Ignore the token
7319            !!!nack ('t401.1'); ## NOTE: |<col/>| or |<frame/>| here is an error.
7320            !!!next-token;
7321            next B;
7322            
7323            ## ISSUE: An issue on HTML5 new elements in the spec.
7324          } else {
7325            if ($token->{tag_name} eq 'image') {
7326              !!!cp ('t384');
7327              !!!parse-error (type => 'image', token => $token);
7328              $token->{tag_name} = 'img';
7329            } else {
7330              !!!cp ('t385');
7331            }
7332    
7333            ## NOTE: There is an "as if <br>" code clone.
7334            $reconstruct_active_formatting_elements->($insert_to_current);
7335            
7336            !!!insert-element-t ($token->{tag_name}, $token->{attributes}, $token);
7337    
7338            if ({
7339                 applet => 1, marquee => 1, object => 1,
7340                }->{$token->{tag_name}}) {
7341              !!!cp ('t380');
7342              push @$active_formatting_elements, ['#marker', ''];
7343              !!!nack ('t380.1');
7344            } elsif ({
7345                      b => 1, big => 1, em => 1, font => 1, i => 1,
7346                      s => 1, small => 1, strile => 1,
7347                      strong => 1, tt => 1, u => 1,
7348                     }->{$token->{tag_name}}) {
7349              !!!cp ('t375');
7350              push @$active_formatting_elements, $self->{open_elements}->[-1];
7351              !!!nack ('t375.1');
7352            } elsif ($token->{tag_name} eq 'input') {
7353              !!!cp ('t388');
7354              ## TODO: associate with $self->{form_element} if defined
7355              pop @{$self->{open_elements}};
7356              !!!ack ('t388.2');
7357            } elsif ({
7358                      area => 1, basefont => 1, bgsound => 1, br => 1,
7359                      embed => 1, img => 1, param => 1, spacer => 1, wbr => 1,
7360                      #image => 1,
7361                     }->{$token->{tag_name}}) {
7362              !!!cp ('t388.1');
7363              pop @{$self->{open_elements}};
7364              !!!ack ('t388.3');
7365            } elsif ($token->{tag_name} eq 'select') {
7366              ## TODO: associate with $self->{form_element} if defined
7367            
7368              if ($self->{insertion_mode} & TABLE_IMS or
7369                  $self->{insertion_mode} & BODY_TABLE_IMS or
7370                  $self->{insertion_mode} == IN_COLUMN_GROUP_IM) {
7371                !!!cp ('t400.1');
7372                $self->{insertion_mode} = IN_SELECT_IN_TABLE_IM;
7373              } else {
7374                !!!cp ('t400.2');
7375                $self->{insertion_mode} = IN_SELECT_IM;
7376              }
7377              !!!nack ('t400.3');
7378            } else {
7379              !!!nack ('t402');
7380            }
7381            
7382            !!!next-token;
7383            next B;
7384          }
7385        } elsif ($token->{type} == END_TAG_TOKEN) {
7386          if ($token->{tag_name} eq 'body') {
7387            ## has a |body| element in scope
7388            my $i;
7389            INSCOPE: {
7390              for (reverse @{$self->{open_elements}}) {
7391                if ($_->[1] & BODY_EL) {
7392                  !!!cp ('t405');
7393                  $i = $_;
7394                  last INSCOPE;
7395                } elsif ($_->[1] & SCOPING_EL) {
7396                  !!!cp ('t405.1');
7397                  last;
7398                }
7399              }
7400    
7401              !!!parse-error (type => 'start tag not allowed',
7402                              text => $token->{tag_name}, token => $token);
7403              ## NOTE: Ignore the token.
7404              !!!next-token;
7405              next B;
7406            } # INSCOPE
7407    
7408            for (@{$self->{open_elements}}) {
7409              unless ($_->[1] & ALL_END_TAG_OPTIONAL_EL) {
7410                !!!cp ('t403');
7411                !!!parse-error (type => 'not closed',
7412                                text => $_->[0]->manakai_local_name,
7413                                token => $token);
7414                last;
7415              } else {
7416                !!!cp ('t404');
7417              }
7418            }
7419    
7420            $self->{insertion_mode} = AFTER_BODY_IM;
7421            !!!next-token;
7422            next B;
7423          } elsif ($token->{tag_name} eq 'html') {
7424            ## TODO: Update this code.  It seems that the code below is not
7425            ## up-to-date, though it has same effect as speced.
7426            if (@{$self->{open_elements}} > 1 and
7427                $self->{open_elements}->[1]->[1] & BODY_EL) {
7428              ## ISSUE: There is an issue in the spec.
7429              unless ($self->{open_elements}->[-1]->[1] & BODY_EL) {
7430                !!!cp ('t406');
7431                !!!parse-error (type => 'not closed',
7432                                text => $self->{open_elements}->[1]->[0]
7433                                    ->manakai_local_name,
7434                                token => $token);
7435              } else {
7436                !!!cp ('t407');
7437              }
7438              $self->{insertion_mode} = AFTER_BODY_IM;
7439              ## reprocess
7440              next B;
7441            } else {
7442              !!!cp ('t408');
7443              !!!parse-error (type => 'unmatched end tag',
7444                              text => $token->{tag_name}, token => $token);
7445              ## Ignore the token
7446              !!!next-token;
7447              next B;
7448            }
7449          } elsif ({
7450                    address => 1, blockquote => 1, center => 1, dir => 1,
7451                    div => 1, dl => 1, fieldset => 1, listing => 1,
7452                    menu => 1, ol => 1, pre => 1, ul => 1,
7453                    dd => 1, dt => 1, li => 1,
7454                    applet => 1, button => 1, marquee => 1, object => 1,
7455                   }->{$token->{tag_name}}) {
7456            ## has an element in scope
7457            my $i;
7458            INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
7459              my $node = $self->{open_elements}->[$_];
7460              if ($node->[0]->manakai_local_name eq $token->{tag_name}) {
7461                !!!cp ('t410');
7462                $i = $_;
7463                last INSCOPE;
7464              } elsif ($node->[1] & SCOPING_EL) {
7465                !!!cp ('t411');
7466                last INSCOPE;
7467              }
7468            } # INSCOPE
7469    
7470            unless (defined $i) { # has an element in scope
7471              !!!cp ('t413');
7472              !!!parse-error (type => 'unmatched end tag',
7473                              text => $token->{tag_name}, token => $token);
7474              ## NOTE: Ignore the token.
7475            } else {
7476              ## Step 1. generate implied end tags
7477              while ({
7478                      ## END_TAG_OPTIONAL_EL
7479                      dd => ($token->{tag_name} ne 'dd'),
7480                      dt => ($token->{tag_name} ne 'dt'),
7481                      li => ($token->{tag_name} ne 'li'),
7482                      p => 1,
7483                      rt => 1,
7484                      rp => 1,
7485                     }->{$self->{open_elements}->[-1]->[0]->manakai_local_name}) {
7486                !!!cp ('t409');
7487                pop @{$self->{open_elements}};
7488              }
7489    
7490              ## Step 2.
7491              if ($self->{open_elements}->[-1]->[0]->manakai_local_name
7492                      ne $token->{tag_name}) {
7493                !!!cp ('t412');
7494                !!!parse-error (type => 'not closed',
7495                                text => $self->{open_elements}->[-1]->[0]
7496                                    ->manakai_local_name,
7497                                token => $token);
7498              } else {
7499                !!!cp ('t414');
7500              }
7501    
7502              ## Step 3.
7503              splice @{$self->{open_elements}}, $i;
7504    
7505              ## Step 4.
7506              $clear_up_to_marker->()
7507                  if {
7508                    applet => 1, button => 1, marquee => 1, object => 1,
7509                  }->{$token->{tag_name}};
7510            }
7511            !!!next-token;
7512            next B;
7513          } elsif ($token->{tag_name} eq 'form') {
7514            undef $self->{form_element};
7515    
7516            ## has an element in scope
7517            my $i;
7518            INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
7519              my $node = $self->{open_elements}->[$_];
7520              if ($node->[1] & FORM_EL) {
7521                !!!cp ('t418');
7522                $i = $_;
7523                last INSCOPE;
7524              } elsif ($node->[1] & SCOPING_EL) {
7525                !!!cp ('t419');
7526                last INSCOPE;
7527              }
7528            } # INSCOPE
7529    
7530            unless (defined $i) { # has an element in scope
7531              !!!cp ('t421');
7532              !!!parse-error (type => 'unmatched end tag',
7533                              text => $token->{tag_name}, token => $token);
7534              ## NOTE: Ignore the token.
7535            } else {
7536              ## Step 1. generate implied end tags
7537              while ($self->{open_elements}->[-1]->[1] & END_TAG_OPTIONAL_EL) {
7538                !!!cp ('t417');
7539                pop @{$self->{open_elements}};
7540              }
7541                        
7542            $self->{open_elements}->[-1]->[0]->manakai_append_text ($data);            ## Step 2.
7543              if ($self->{open_elements}->[-1]->[0]->manakai_local_name
7544                      ne $token->{tag_name}) {
7545                !!!cp ('t417.1');
7546                !!!parse-error (type => 'not closed',
7547                                text => $self->{open_elements}->[-1]->[0]
7548                                    ->manakai_local_name,
7549                                token => $token);
7550              } else {
7551                !!!cp ('t420');
7552              }  
7553                        
7554            unless (length $token->{data}) {            ## Step 3.
7555              !!!next-token;            splice @{$self->{open_elements}}, $i;
7556              redo B;          }
7557    
7558            !!!next-token;
7559            next B;
7560          } elsif ({
7561                    h1 => 1, h2 => 1, h3 => 1, h4 => 1, h5 => 1, h6 => 1,
7562                   }->{$token->{tag_name}}) {
7563            ## has an element in scope
7564            my $i;
7565            INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
7566              my $node = $self->{open_elements}->[$_];
7567              if ($node->[1] & HEADING_EL) {
7568                !!!cp ('t423');
7569                $i = $_;
7570                last INSCOPE;
7571              } elsif ($node->[1] & SCOPING_EL) {
7572                !!!cp ('t424');
7573                last INSCOPE;
7574              }
7575            } # INSCOPE
7576    
7577            unless (defined $i) { # has an element in scope
7578              !!!cp ('t425.1');
7579              !!!parse-error (type => 'unmatched end tag',
7580                              text => $token->{tag_name}, token => $token);
7581              ## NOTE: Ignore the token.
7582            } else {
7583              ## Step 1. generate implied end tags
7584              while ($self->{open_elements}->[-1]->[1] & END_TAG_OPTIONAL_EL) {
7585                !!!cp ('t422');
7586                pop @{$self->{open_elements}};
7587            }            }
7588              
7589              ## Step 2.
7590              if ($self->{open_elements}->[-1]->[0]->manakai_local_name
7591                      ne $token->{tag_name}) {
7592                !!!cp ('t425');
7593                !!!parse-error (type => 'unmatched end tag',
7594                                text => $token->{tag_name}, token => $token);
7595              } else {
7596                !!!cp ('t426');
7597              }
7598    
7599              ## Step 3.
7600              splice @{$self->{open_elements}}, $i;
7601          }          }
7602            
7603            !!!next-token;
7604            next B;
7605          } elsif ($token->{tag_name} eq 'p') {
7606            ## has an element in scope
7607            my $i;
7608            INSCOPE: for (reverse 0..$#{$self->{open_elements}}) {
7609              my $node = $self->{open_elements}->[$_];
7610              if ($node->[1] & P_EL) {
7611                !!!cp ('t410.1');
7612                $i = $_;
7613                last INSCOPE;
7614              } elsif ($node->[1] & SCOPING_EL) {
7615                !!!cp ('t411.1');
7616                last INSCOPE;
7617              }
7618            } # INSCOPE
7619    
7620          !!!parse-error (type => 'after html:#character');          if (defined $i) {
7621          $phase = 'main';            if ($self->{open_elements}->[-1]->[0]->manakai_local_name
7622          ## reprocess                    ne $token->{tag_name}) {
7623          redo B;              !!!cp ('t412.1');
7624        } elsif ($token->{type} eq 'start tag' or              !!!parse-error (type => 'not closed',
7625                 $token->{type} eq 'end tag') {                              text => $self->{open_elements}->[-1]->[0]
7626          !!!parse-error (type => 'after html:'.$token->{tag_name});                                  ->manakai_local_name,
7627          $phase = 'main';                              token => $token);
7628          ## reprocess            } else {
7629          redo B;              !!!cp ('t414.1');
7630        } elsif ($token->{type} eq 'end-of-file') {            }
7631          ## Stop parsing  
7632          last B;            splice @{$self->{open_elements}}, $i;
7633            } else {
7634              !!!cp ('t413.1');
7635              !!!parse-error (type => 'unmatched end tag',
7636                              text => $token->{tag_name}, token => $token);
7637    
7638              !!!cp ('t415.1');
7639              ## As if <p>, then reprocess the current token
7640              my $el;
7641              !!!create-element ($el, $HTML_NS, 'p',, $token);
7642              $insert->($el);
7643              ## NOTE: Not inserted into |$self->{open_elements}|.
7644            }
7645    
7646            !!!next-token;
7647            next B;
7648          } elsif ({
7649                    a => 1,
7650                    b => 1, big => 1, em => 1, font => 1, i => 1,
7651                    nobr => 1, s => 1, small => 1, strile => 1,
7652                    strong => 1, tt => 1, u => 1,
7653                   }->{$token->{tag_name}}) {
7654            !!!cp ('t427');
7655            $formatting_end_tag->($token);
7656            next B;
7657          } elsif ($token->{tag_name} eq 'br') {
7658            !!!cp ('t428');
7659            !!!parse-error (type => 'unmatched end tag',
7660                            text => 'br', token => $token);
7661    
7662            ## As if <br>
7663            $reconstruct_active_formatting_elements->($insert_to_current);
7664            
7665            my $el;
7666            !!!create-element ($el, $HTML_NS, 'br',, $token);
7667            $insert->($el);
7668            
7669            ## Ignore the token.
7670            !!!next-token;
7671            next B;
7672          } elsif ({
7673                    caption => 1, col => 1, colgroup => 1, frame => 1,
7674                    frameset => 1, head => 1, option => 1, optgroup => 1,
7675                    tbody => 1, td => 1, tfoot => 1, th => 1,
7676                    thead => 1, tr => 1,
7677                    area => 1, basefont => 1, bgsound => 1,
7678                    embed => 1, hr => 1, iframe => 1, image => 1,
7679                    img => 1, input => 1, isindex => 1, noembed => 1,
7680                    noframes => 1, param => 1, select => 1, spacer => 1,
7681                    table => 1, textarea => 1, wbr => 1,
7682                    noscript => 0, ## TODO: if scripting is enabled
7683                   }->{$token->{tag_name}}) {
7684            !!!cp ('t429');
7685            !!!parse-error (type => 'unmatched end tag',
7686                            text => $token->{tag_name}, token => $token);
7687            ## Ignore the token
7688            !!!next-token;
7689            next B;
7690            
7691            ## ISSUE: Issue on HTML5 new elements in spec
7692            
7693        } else {        } else {
7694          die "$0: $token->{type}: Unknown token";          ## Step 1
7695            my $node_i = -1;
7696            my $node = $self->{open_elements}->[$node_i];
7697    
7698            ## Step 2
7699            S2: {
7700              if ($node->[0]->manakai_local_name eq $token->{tag_name}) {
7701                ## Step 1
7702                ## generate implied end tags
7703                while ($self->{open_elements}->[-1]->[1] & END_TAG_OPTIONAL_EL) {
7704                  !!!cp ('t430');
7705                  ## NOTE: |<ruby><rt></ruby>|.
7706                  ## ISSUE: <ruby><rt></rt> will also take this code path,
7707                  ## which seems wrong.
7708                  pop @{$self->{open_elements}};
7709                  $node_i++;
7710                }
7711            
7712                ## Step 2
7713                if ($self->{open_elements}->[-1]->[0]->manakai_local_name
7714                        ne $token->{tag_name}) {
7715                  !!!cp ('t431');
7716                  ## NOTE: <x><y></x>
7717                  !!!parse-error (type => 'not closed',
7718                                  text => $self->{open_elements}->[-1]->[0]
7719                                      ->manakai_local_name,
7720                                  token => $token);
7721                } else {
7722                  !!!cp ('t432');
7723                }
7724                
7725                ## Step 3
7726                splice @{$self->{open_elements}}, $node_i if $node_i < 0;
7727    
7728                !!!next-token;
7729                last S2;
7730              } else {
7731                ## Step 3
7732                if (not ($node->[1] & FORMATTING_EL) and
7733                    #not $phrasing_category->{$node->[1]} and
7734                    ($node->[1] & SPECIAL_EL or
7735                     $node->[1] & SCOPING_EL)) {
7736                  !!!cp ('t433');
7737                  !!!parse-error (type => 'unmatched end tag',
7738                                  text => $token->{tag_name}, token => $token);
7739                  ## Ignore the token
7740                  !!!next-token;
7741                  last S2;
7742                }
7743    
7744                !!!cp ('t434');
7745              }
7746              
7747              ## Step 4
7748              $node_i--;
7749              $node = $self->{open_elements}->[$node_i];
7750              
7751              ## Step 5;
7752              redo S2;
7753            } # S2
7754            next B;
7755        }        }
7756      }      }
7757        next B;
7758      } continue { # B
7759        if ($self->{insertion_mode} & IN_FOREIGN_CONTENT_IM) {
7760          ## NOTE: The code below is executed in cases where it does not have
7761          ## to be, but it it is harmless even in those cases.
7762          ## has an element in scope
7763          INSCOPE: {
7764            for (reverse 0..$#{$self->{open_elements}}) {
7765              my $node = $self->{open_elements}->[$_];
7766              if ($node->[1] & FOREIGN_EL) {
7767                last INSCOPE;
7768              } elsif ($node->[1] & SCOPING_EL) {
7769                last;
7770              }
7771            }
7772            
7773            ## NOTE: No foreign element in scope.
7774            $self->{insertion_mode} &= ~ IN_FOREIGN_CONTENT_IM;
7775          } # INSCOPE
7776        }
7777    } # B    } # B
7778    
7779    ## Stop parsing # MUST    ## Stop parsing # MUST
# Line 4816  sub _tree_construction_main ($) { Line 7781  sub _tree_construction_main ($) {
7781    ## TODO: script stuffs    ## TODO: script stuffs
7782  } # _tree_construct_main  } # _tree_construct_main
7783    
7784  sub set_inner_html ($$$) {  sub set_inner_html ($$$$;$) {
7785    my $class = shift;    my $class = shift;
7786    my $node = shift;    my $node = shift;
7787    my $s = \$_[0];    #my $s = \$_[0];
7788    my $onerror = $_[1];    my $onerror = $_[1];
7789      my $get_wrapper = $_[2] || sub ($) { return $_[0] };
7790    
7791      ## ISSUE: Should {confident} be true?
7792    
7793    my $nt = $node->node_type;    my $nt = $node->node_type;
7794    if ($nt == 9) {    if ($nt == 9) {
# Line 4837  sub set_inner_html ($$$) { Line 7805  sub set_inner_html ($$$) {
7805      }      }
7806    
7807      ## Step 3, 4, 5 # MUST      ## Step 3, 4, 5 # MUST
7808      $class->parse_string ($$s => $node, $onerror);      $class->parse_char_string ($_[0] => $node, $onerror, $get_wrapper);
7809    } elsif ($nt == 1) {    } elsif ($nt == 1) {
7810      ## TODO: If non-html element      ## TODO: If non-html element
7811    
7812      ## NOTE: Most of this code is copied from |parse_string|      ## NOTE: Most of this code is copied from |parse_string|
7813    
7814    ## TODO: Support for $get_wrapper
7815    
7816      ## Step 1 # MUST      ## Step 1 # MUST
7817      my $doc = $node->owner_document->implementation->create_document;      my $this_doc = $node->owner_document;
7818      ## TODO: Mark as HTML document      my $doc = $this_doc->implementation->create_document;
7819        $doc->manakai_is_html (1);
7820      my $p = $class->new;      my $p = $class->new;
7821      $p->{document} = $doc;      $p->{document} = $doc;
7822    
7823      ## Step 9 # MUST      ## Step 8 # MUST
7824      my $i = 0;      my $i = 0;
7825      my $line = 1;      $p->{line_prev} = $p->{line} = 1;
7826      my $column = 0;      $p->{column_prev} = $p->{column} = 0;
7827      $p->{set_next_input_character} = sub {      require Whatpm::Charset::DecodeHandle;
7828        my $input = Whatpm::Charset::DecodeHandle::CharString->new (\($_[0]));
7829        $input = $get_wrapper->($input);
7830        $p->{set_nc} = sub {
7831        my $self = shift;        my $self = shift;
7832        $self->{next_input_character} = -1 and return if $i >= length $$s;  
7833        $self->{next_input_character} = ord substr $$s, $i++, 1;        my $char = '';
7834        $column++;        if (defined $self->{next_nc}) {
7835            $char = $self->{next_nc};
7836        if ($self->{next_input_character} == 0x000A) { # LF          delete $self->{next_nc};
7837          $line++;          $self->{nc} = ord $char;
7838          $column = 0;        } else {
7839        } elsif ($self->{next_input_character} == 0x000D) { # CR          $self->{char_buffer} = '';
7840          if ($i >= length $$s) {          $self->{char_buffer_pos} = 0;
7841            #          
7842            my $count = $input->manakai_read_until
7843                ($self->{char_buffer}, qr/[^\x00\x0A\x0D]/,
7844                 $self->{char_buffer_pos});
7845            if ($count) {
7846              $self->{line_prev} = $self->{line};
7847              $self->{column_prev} = $self->{column};
7848              $self->{column}++;
7849              $self->{nc}
7850                  = ord substr ($self->{char_buffer},
7851                                $self->{char_buffer_pos}++, 1);
7852              return;
7853            }
7854            
7855            if ($input->read ($char, 1)) {
7856              $self->{nc} = ord $char;
7857          } else {          } else {
7858            my $next_char = ord substr $$s, $i++, 1;            $self->{nc} = -1;
7859            if ($next_char == 0x000A) { # LF            return;
             #  
           } else {  
             push @{$self->{char}}, $next_char;  
           }  
7860          }          }
7861          $self->{next_input_character} = 0x000A; # LF # MUST        }
7862          $line++;  
7863          $column = 0;        ($p->{line_prev}, $p->{column_prev}) = ($p->{line}, $p->{column});
7864        } elsif ($self->{next_input_character} > 0x10FFFF) {        $p->{column}++;
7865          $self->{next_input_character} = 0xFFFD; # REPLACEMENT CHARACTER # MUST  
7866        } elsif ($self->{next_input_character} == 0x0000) { # NULL        if ($self->{nc} == 0x000A) { # LF
7867          $self->{next_input_character} = 0xFFFD; # REPLACEMENT CHARACTER # MUST          $p->{line}++;
7868            $p->{column} = 0;
7869            !!!cp ('i1');
7870          } elsif ($self->{nc} == 0x000D) { # CR
7871    ## TODO: support for abort/streaming
7872            my $next = '';
7873            if ($input->read ($next, 1) and $next ne "\x0A") {
7874              $self->{next_nc} = $next;
7875            }
7876            $self->{nc} = 0x000A; # LF # MUST
7877            $p->{line}++;
7878            $p->{column} = 0;
7879            !!!cp ('i2');
7880          } elsif ($self->{nc} == 0x0000) { # NULL
7881            !!!cp ('i4');
7882            !!!parse-error (type => 'NULL');
7883            $self->{nc} = 0xFFFD; # REPLACEMENT CHARACTER # MUST
7884        }        }
7885      };      };
7886        
7887        $p->{read_until} = sub {
7888          #my ($scalar, $specials_range, $offset) = @_;
7889          return 0 if defined $p->{next_nc};
7890    
7891          my $pattern = qr/[^$_[1]\x00\x0A\x0D]/;
7892          my $offset = $_[2] || 0;
7893          
7894          if ($p->{char_buffer_pos} < length $p->{char_buffer}) {
7895            pos ($p->{char_buffer}) = $p->{char_buffer_pos};
7896            if ($p->{char_buffer} =~ /\G(?>$pattern)+/) {
7897              substr ($_[0], $offset)
7898                  = substr ($p->{char_buffer}, $-[0], $+[0] - $-[0]);
7899              my $count = $+[0] - $-[0];
7900              if ($count) {
7901                $p->{column} += $count;
7902                $p->{char_buffer_pos} += $count;
7903                $p->{line_prev} = $p->{line};
7904                $p->{column_prev} = $p->{column} - 1;
7905                $p->{nc} = -1;
7906              }
7907              return $count;
7908            } else {
7909              return 0;
7910            }
7911          } else {
7912            my $count = $input->manakai_read_until ($_[0], $pattern, $_[2]);
7913            if ($count) {
7914              $p->{column} += $count;
7915              $p->{column_prev} += $count;
7916              $p->{nc} = -1;
7917            }
7918            return $count;
7919          }
7920        }; # $p->{read_until}
7921    
7922      my $ponerror = $onerror || sub {      my $ponerror = $onerror || sub {
7923        my (%opt) = @_;        my (%opt) = @_;
7924        warn "Parse error ($opt{type}) at line $opt{line} column $opt{column}\n";        my $line = $opt{line};
7925          my $column = $opt{column};
7926          if (defined $opt{token} and defined $opt{token}->{line}) {
7927            $line = $opt{token}->{line};
7928            $column = $opt{token}->{column};
7929          }
7930          warn "Parse error ($opt{type}) at line $line column $column\n";
7931      };      };
7932      $p->{parse_error} = sub {      $p->{parse_error} = sub {
7933        $ponerror->(@_, line => $line, column => $column);        $ponerror->(line => $p->{line}, column => $p->{column}, @_);
7934      };      };
7935            
7936        my $char_onerror = sub {
7937          my (undef, $type, %opt) = @_;
7938          $ponerror->(layer => 'encode',
7939                      line => $p->{line}, column => $p->{column} + 1,
7940                      %opt, type => $type);
7941        }; # $char_onerror
7942        $input->onerror ($char_onerror);
7943    
7944      $p->_initialize_tokenizer;      $p->_initialize_tokenizer;
7945      $p->_initialize_tree_constructor;      $p->_initialize_tree_constructor;
7946    
7947      ## Step 2      ## Step 2
7948      my $node_ln = $node->local_name;      my $node_ln = $node->manakai_local_name;
7949      $p->{content_model_flag} = {      $p->{content_model} = {
7950        title => 'RCDATA',        title => RCDATA_CONTENT_MODEL,
7951        textarea => 'RCDATA',        textarea => RCDATA_CONTENT_MODEL,
7952        style => 'CDATA',        style => CDATA_CONTENT_MODEL,
7953        script => 'CDATA',        script => CDATA_CONTENT_MODEL,
7954        xmp => 'CDATA',        xmp => CDATA_CONTENT_MODEL,
7955        iframe => 'CDATA',        iframe => CDATA_CONTENT_MODEL,
7956        noembed => 'CDATA',        noembed => CDATA_CONTENT_MODEL,
7957        noframes => 'CDATA',        noframes => CDATA_CONTENT_MODEL,
7958        noscript => 'CDATA',        noscript => CDATA_CONTENT_MODEL,
7959        plaintext => 'PLAINTEXT',        plaintext => PLAINTEXT_CONTENT_MODEL,
7960      }->{$node_ln} || 'PCDATA';      }->{$node_ln};
7961         ## ISSUE: What is "the name of the element"? local name?      $p->{content_model} = PCDATA_CONTENT_MODEL
7962            unless defined $p->{content_model};
7963            ## ISSUE: What is "the name of the element"? local name?
7964    
7965      $p->{inner_html_node} = [$node, $node_ln];      $p->{inner_html_node} = [$node, $el_category->{$node_ln}];
7966          ## TODO: Foreign element OK?
7967    
7968      ## Step 4      ## Step 3
7969      my $root = $doc->create_element_ns      my $root = $doc->create_element_ns
7970        ('http://www.w3.org/1999/xhtml', [undef, 'html']);        ('http://www.w3.org/1999/xhtml', [undef, 'html']);
7971    
7972      ## Step 5 # MUST      ## Step 4 # MUST
7973      $doc->append_child ($root);      $doc->append_child ($root);
7974    
7975      ## Step 6 # MUST      ## Step 5 # MUST
7976      push @{$p->{open_elements}}, [$root, 'html'];      push @{$p->{open_elements}}, [$root, $el_category->{html}];
7977    
7978      undef $p->{head_element};      undef $p->{head_element};
7979    
7980      ## Step 7 # MUST      ## Step 6 # MUST
7981      $p->_reset_insertion_mode;      $p->_reset_insertion_mode;
7982    
7983      ## Step 8 # MUST      ## Step 7 # MUST
7984      my $anode = $node;      my $anode = $node;
7985      AN: while (defined $anode) {      AN: while (defined $anode) {
7986        if ($anode->node_type == 1) {        if ($anode->node_type == 1) {
7987          my $nsuri = $anode->namespace_uri;          my $nsuri = $anode->namespace_uri;
7988          if (defined $nsuri and $nsuri eq 'http://www.w3.org/1999/xhtml') {          if (defined $nsuri and $nsuri eq 'http://www.w3.org/1999/xhtml') {
7989            if ($anode->local_name eq 'form') { ## TODO: case?            if ($anode->manakai_local_name eq 'form') {
7990                !!!cp ('i5');
7991              $p->{form_element} = $anode;              $p->{form_element} = $anode;
7992              last AN;              last AN;
7993            }            }
# Line 4942  sub set_inner_html ($$$) { Line 7996  sub set_inner_html ($$$) {
7996        $anode = $anode->parent_node;        $anode = $anode->parent_node;
7997      } # AN      } # AN
7998            
7999      ## Step 3 # MUST      ## Step 9 # MUST
     ## Step 10 # MUST  
8000      {      {
8001        my $self = $p;        my $self = $p;
8002        !!!next-token;        !!!next-token;
8003      }      }
8004      $p->_tree_construction_main;      $p->_tree_construction_main;
8005    
8006      ## Step 11 # MUST      ## Step 10 # MUST
8007      my @cn = @{$node->child_nodes};      my @cn = @{$node->child_nodes};
8008      for (@cn) {      for (@cn) {
8009        $node->remove_child ($_);        $node->remove_child ($_);
8010      }      }
8011      ## ISSUE: mutation events? read-only?      ## ISSUE: mutation events? read-only?
8012    
8013      ## Step 12 # MUST      ## Step 11 # MUST
8014      @cn = @{$root->child_nodes};      @cn = @{$root->child_nodes};
8015      for (@cn) {      for (@cn) {
8016          $this_doc->adopt_node ($_);
8017        $node->append_child ($_);        $node->append_child ($_);
8018      }      }
8019      ## ISSUE: adopt_node? mutation events?      ## ISSUE: mutation events?
8020    
8021      $p->_terminate_tree_constructor;      $p->_terminate_tree_constructor;
8022    
8023        delete $p->{parse_error}; # delete loop
8024    } else {    } else {
8025      die "$0: |set_inner_html| is not defined for node of type $nt";      die "$0: |set_inner_html| is not defined for node of type $nt";
8026    }    }
# Line 4972  sub set_inner_html ($$$) { Line 8028  sub set_inner_html ($$$) {
8028    
8029  } # tree construction stage  } # tree construction stage
8030    
8031  sub get_inner_html ($$$) {  package Whatpm::HTML::RestartParser;
8032    my (undef, $node, $on_error) = @_;  push our @ISA, 'Error';
   
   ## Step 1  
   my $s = '';  
   
   my $in_cdata;  
   my $parent = $node;  
   while (defined $parent) {  
     if ($parent->node_type == 1 and  
         $parent->namespace_uri eq 'http://www.w3.org/1999/xhtml' and  
         {  
           style => 1, script => 1, xmp => 1, iframe => 1,  
           noembed => 1, noframes => 1, noscript => 1,  
         }->{$parent->local_name}) { ## TODO: case thingy  
       $in_cdata = 1;  
     }  
     $parent = $parent->parent_node;  
   }  
   
   ## Step 2  
   my @node = @{$node->child_nodes};  
   C: while (@node) {  
     my $child = shift @node;  
     unless (ref $child) {  
       if ($child eq 'cdata-out') {  
         $in_cdata = 0;  
       } else {  
         $s .= $child; # end tag  
       }  
       next C;  
     }  
       
     my $nt = $child->node_type;  
     if ($nt == 1) { # Element  
       my $tag_name = lc $child->tag_name; ## ISSUE: Definition of "lowercase"  
       $s .= '<' . $tag_name;  
   
       ## ISSUE: Non-html elements  
   
       my @attrs = @{$child->attributes}; # sort order MUST be stable  
       for my $attr (@attrs) { # order is implementation dependent  
         my $attr_name = lc $attr->name; ## ISSUE: Definition of "lowercase"  
         $s .= ' ' . $attr_name . '="';  
         my $attr_value = $attr->value;  
         ## escape  
         $attr_value =~ s/&/&amp;/g;  
         $attr_value =~ s/</&lt;/g;  
         $attr_value =~ s/>/&gt;/g;  
         $attr_value =~ s/"/&quot;/g;  
         $s .= $attr_value . '"';  
       }  
       $s .= '>';  
         
       next C if {  
         area => 1, base => 1, basefont => 1, bgsound => 1,  
         br => 1, col => 1, embed => 1, frame => 1, hr => 1,  
         img => 1, input => 1, link => 1, meta => 1, param => 1,  
         spacer => 1, wbr => 1,  
       }->{$tag_name};  
   
       if (not $in_cdata and {  
         style => 1, script => 1, xmp => 1, iframe => 1,  
         noembed => 1, noframes => 1, noscript => 1,  
       }->{$tag_name}) {  
         unshift @node, 'cdata-out';  
         $in_cdata = 1;  
       }  
   
       unshift @node, @{$child->child_nodes}, '</' . $tag_name . '>';  
     } elsif ($nt == 3 or $nt == 4) {  
       if ($in_cdata) {  
         $s .= $child->data;  
       } else {  
         my $value = $child->data;  
         $value =~ s/&/&amp;/g;  
         $value =~ s/</&lt;/g;  
         $value =~ s/>/&gt;/g;  
         $value =~ s/"/&quot;/g;  
         $s .= $value;  
       }  
     } elsif ($nt == 8) {  
       $s .= '<!--' . $child->data . '-->';  
     } elsif ($nt == 10) {  
       $s .= '<!DOCTYPE ' . $child->name . '>';  
     } elsif ($nt == 5) { # entrefs  
       push @node, @{$child->child_nodes};  
     } else {  
       $on_error->($child) if defined $on_error;  
     }  
     ## ISSUE: This code does not support PIs.  
   } # C  
     
   ## Step 3  
   return \$s;  
 } # get_inner_html  
8033    
8034  1;  1;
8035  # $Date$  # $Date$

Legend:
Removed from v.1.6  
changed lines
  Added in v.1.188

admin@suikawiki.org
ViewVC Help
Powered by ViewVC 1.1.24