/[suikacvs]/markup/html/whatpm/Whatpm/HTML/Tokenizer.pm

Diff of /markup/html/whatpm/Whatpm/HTML/Tokenizer.pm

Parent Directory | Revision Log | View Patch Patch

-revision 1.20 by wakaba,
Sun Oct 19 08:20:29 2008 UTC
+revision 1.33 by wakaba,
Sat Sep  5 10:41:07 2009 UTC
 Line 105 
 sub COMMENT_START_STATE () { 14 }
  sub COMMENT_START_DASH_STATE () { 15 }
  sub COMMENT_STATE () { 16 }
  sub COMMENT_END_STATE () { 17 }
+ sub COMMENT_END_BANG_STATE () { 102 }
+ sub COMMENT_END_SPACE_STATE () { 103 } ## LAST
  sub COMMENT_END_DASH_STATE () { 18 }
  sub BOGUS_COMMENT_STATE () { 19 }
  sub DOCTYPE_STATE () { 20 }
-Line 1100 
 sub _get_next_token ($) {
+Line 1102 
 sub _get_next_token ($) {
          $self->{s_kwd} = '';
          # reconsume
-         return  ($self->{ct}); # start tag or end tag
+         ## Discard the token.
+         #return  ($self->{ct}); # start tag or end tag
          redo A;
        } elsif ($self->{nc} == 0x002F) { # /
-Line 1241 
 sub _get_next_token ($) {
+Line 1244 
 sub _get_next_token ($) {
          $self->{s_kwd} = '';
          # reconsume
-         return  ($self->{ct}); # start tag or end tag
+         ## Discard the token.
+         #return  ($self->{ct}); # start tag or end tag
          redo A;
        } else {
          if ({
 x0022 => 1, # "
 x0027 => 1, # '
+x003C => 1, # <
 x003D => 1, # =
              }->{$self->{nc}}) {
-Line 1426 
 sub _get_next_token ($) {
+Line 1431 
 sub _get_next_token ($) {
          $self->{s_kwd} = '';
          # reconsume
-         return  ($self->{ct}); # start tag or end tag
+         ## Discard the token.
+         #return  ($self->{ct}); # start tag or end tag
          redo A;
        } else {
-         if ($self->{nc} == 0x0022 or # "
+         if ({
-             $self->{nc} == 0x0027) { # '
+x0022 => 1, # "
+x0027 => 1, # '
+x003C => 1, # <
+             }->{$self->{nc}}) {
            ## XML5: Not a parse error.
            $self->{parse_error}->(level => $self->{level}->{must}, type => 'bad attribute name');
-Line 1590 
 sub _get_next_token ($) {
+Line 1599 
 sub _get_next_token ($) {
          $self->{state} = DATA_STATE;
          # reconsume
-         return  ($self->{ct}); # start tag or end tag
+         ## Discard the token.
+         #return  ($self->{ct}); # start tag or end tag
          redo A;
        } else {
-Line 1602 
 sub _get_next_token ($) {
+Line 1612 
 sub _get_next_token ($) {
          }
-         if ($self->{nc} == 0x0022 or # "
+         if ({
-             $self->{nc} == 0x0027) { # '
+x0022 => 1, # "
+x0027 => 1, # '
+x003C => 1, # <
+             }->{$self->{nc}}) {
            ## XML5: Not a parse error.
            $self->{parse_error}->(level => $self->{level}->{must}, type => 'bad attribute name');
-Line 1736 
 sub _get_next_token ($) {
+Line 1749 
 sub _get_next_token ($) {
          $self->{s_kwd} = '';
          ## reconsume
-         return  ($self->{ct}); # start tag or end tag
+         ## Discard the token.
+         #return  ($self->{ct}); # start tag or end tag
          redo A;
        } else {
-         if ($self->{nc} == 0x003D) { # =
+         if ($self->{nc} == 0x003D or $self->{nc} == 0x003C) { # =, <
            ## XML5: Not a parse error.
            $self->{parse_error}->(level => $self->{level}->{must}, type => 'bad attribute value');
-Line 1816 
 sub _get_next_token ($) {
+Line 1830 
 sub _get_next_token ($) {
      }
          redo A;
+       } elsif ($self->{is_xml} and
+                $is_space->{$self->{nc}}) {
+         $self->{ca}->{value} .= ' ';
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
        } elsif ($self->{nc} == -1) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed attribute value');
          if ($self->{ct}->{type} == START_TAG_TOKEN) {
-Line 1840 
 sub _get_next_token ($) {
+Line 1871 
 sub _get_next_token ($) {
            $self->{state} = DATA_STATE;
            $self->{s_kwd} = '';
            ## reconsume
-           return  ($self->{ct}); # end tag
+           ## Discard the token.
+           #return  ($self->{ct}); # end tag
            redo A;
          } elsif ($self->{ct}->{type} == ATTLIST_TOKEN) {
            ## XML5: No parse error above; not defined yet.
            push @{$self->{ct}->{attrdefs}}, $self->{ca};
            $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
            ## Reconsume.
-           return  ($self->{ct}); # ATTLIST
+           ## Discard the token.
+           #return  ($self->{ct}); # ATTLIST
            redo A;
          } else {
            die "$0: $self->{ct}->{type}: Unknown token type";
-Line 1863 
 sub _get_next_token ($) {
+Line 1900 
 sub _get_next_token ($) {
          }
          $self->{ca}->{value} .= chr ($self->{nc});
          $self->{read_until}->($self->{ca}->{value},
-                               q["&<],
+                               qq["&<\x09\x0C\x20],
                                length $self->{ca}->{value});
          ## Stay in the state
-Line 1930 
 sub _get_next_token ($) {
+Line 1967 
 sub _get_next_token ($) {
      }
          redo A;
+       } elsif ($self->{is_xml} and
+                $is_space->{$self->{nc}}) {
+         $self->{ca}->{value} .= ' ';
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
        } elsif ($self->{nc} == -1) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed attribute value');
          if ($self->{ct}->{type} == START_TAG_TOKEN) {
-Line 1939 
 sub _get_next_token ($) {
+Line 1993 
 sub _get_next_token ($) {
            $self->{state} = DATA_STATE;
            $self->{s_kwd} = '';
            ## reconsume
-           return  ($self->{ct}); # start tag
+           ## Discard the token.
+           #return  ($self->{ct}); # start tag
            redo A;
          } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
            $self->{content_model} = PCDATA_CONTENT_MODEL; # MUST
-Line 1954 
 sub _get_next_token ($) {
+Line 2011 
 sub _get_next_token ($) {
            $self->{state} = DATA_STATE;
            $self->{s_kwd} = '';
            ## reconsume
-           return  ($self->{ct}); # end tag
+           ## Discard the token.
+           #return  ($self->{ct}); # end tag
            redo A;
          } elsif ($self->{ct}->{type} == ATTLIST_TOKEN) {
            ## XML5: No parse error above; not defined yet.
            push @{$self->{ct}->{attrdefs}}, $self->{ca};
            $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
            ## Reconsume.
-           return  ($self->{ct}); # ATTLIST
+           ## Discard the token.
+           #return  ($self->{ct}); # ATTLIST
            redo A;
          } else {
            die "$0: $self->{ct}->{type}: Unknown token type";
-Line 1977 
 sub _get_next_token ($) {
+Line 2040 
 sub _get_next_token ($) {
          }
          $self->{ca}->{value} .= chr ($self->{nc});
          $self->{read_until}->($self->{ca}->{value},
-                               q['&<],
+                               qq['&<\x09\x0C\x20],
                                length $self->{ca}->{value});
          ## Stay in the state
-Line 2116 
 sub _get_next_token ($) {
+Line 2179 
 sub _get_next_token ($) {
            $self->{state} = DATA_STATE;
            $self->{s_kwd} = '';
            ## reconsume
-           return  ($self->{ct}); # start tag
+           ## Discard the token.
+           #return  ($self->{ct}); # start tag
            redo A;
          } elsif ($self->{ct}->{type} == END_TAG_TOKEN) {
            $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed tag');
-Line 2132 
 sub _get_next_token ($) {
+Line 2198 
 sub _get_next_token ($) {
            $self->{state} = DATA_STATE;
            $self->{s_kwd} = '';
            ## reconsume
-           return  ($self->{ct}); # end tag
+           ## Discard the token.
+           #return  ($self->{ct}); # end tag
            redo A;
          } elsif ($self->{ct}->{type} == ATTLIST_TOKEN) {
            $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed md'); ## TODO: type
            push @{$self->{ct}->{attrdefs}}, $self->{ca};
            $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
            ## Reconsume.
-           return  ($self->{ct}); # ATTLIST
+           ## Discard the token.
+           #return  ($self->{ct}); # ATTLIST
            redo A;
          } else {
            die "$0: $self->{ct}->{type}: Unknown token type";
-Line 2149 
 sub _get_next_token ($) {
+Line 2221 
 sub _get_next_token ($) {
 x0022 => 1, # "
 x0027 => 1, # '
 x003D => 1, # =
+x003C => 1, # <
              }->{$self->{nc}}) {
            ## XML5: Not a parse error.
-Line 2158 
 sub _get_next_token ($) {
+Line 2231 
 sub _get_next_token ($) {
          }
          $self->{ca}->{value} .= chr ($self->{nc});
          $self->{read_until}->($self->{ca}->{value},
-                               q["'=& >],
+                               qq["'=& \x09\x0C>],
                                length $self->{ca}->{value});
          ## Stay in the state
-Line 2258 
 sub _get_next_token ($) {
+Line 2331 
 sub _get_next_token ($) {
          $self->{state} = DATA_STATE;
          $self->{s_kwd} = '';
          ## Reconsume.
-         return  ($self->{ct}); # start tag or end tag
+         ## Discard the token.
+         #return  ($self->{ct}); # start tag or end tag
          redo A;
        } else {
-Line 2325 
 sub _get_next_token ($) {
+Line 2401 
 sub _get_next_token ($) {
          $self->{state} = DATA_STATE;
          $self->{s_kwd} = '';
          ## Reconsume.
-         return  ($self->{ct}); # start tag or end tag
+         ## Discard the token.
+         #return  ($self->{ct}); # start tag or end tag
          redo A;
        } else {
-Line 2900 
 sub _get_next_token ($) {
+Line 2979 
 sub _get_next_token ($) {
          redo A;
        }
-     } elsif ($self->{state} == COMMENT_END_STATE) {
+     } elsif ($self->{state} == COMMENT_END_STATE or
+              $self->{state} == COMMENT_END_BANG_STATE) {
        ## XML5: "Comment end state" and "DOCTYPE comment end state".
+       ## (No comment end bang state.)
        if ($self->{nc} == 0x003E) { # >
          if ($self->{in_subset}) {
-Line 2928 
 sub _get_next_token ($) {
+Line 3009 
 sub _get_next_token ($) {
          redo A;
        } elsif ($self->{nc} == 0x002D) { # -
+         if ($self->{state} == COMMENT_END_BANG_STATE) {
+           $self->{ct}->{data} .= '--!'; # comment
+           $self->{state} = COMMENT_END_DASH_STATE;
+         } else {
+           ## XML5: Not a parse error.
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'dash in comment',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev});
+           $self->{ct}->{data} .= '-'; # comment
+           ## Stay in the state
+         }
-         ## XML5: Not a parse error.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-         $self->{parse_error}->(level => $self->{level}->{must}, type => 'dash in comment',
+       $self->{line_prev} = $self->{line};
-                         line => $self->{line_prev},
+       $self->{column_prev} = $self->{column};
-                         column => $self->{column_prev});
+       $self->{column}++;
-         $self->{ct}->{data} .= '-'; # comment
+       $self->{nc}
-         ## Stay in the state
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{state} != COMMENT_END_BANG_STATE and
+                $is_space->{$self->{nc}}) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'comment end space'); # XXX error type
+         $self->{ct}->{data} .= '--' . chr ($self->{nc}); # comment
+         $self->{state} = COMMENT_END_SPACE_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{state} != COMMENT_END_BANG_STATE and
+                $self->{nc} == 0x0021) { # !
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'comment end bang'); # XXX error type
+         $self->{state} = COMMENT_END_BANG_STATE;
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 2957 
 sub _get_next_token ($) {
+Line 3079 
 sub _get_next_token ($) {
            $self->{state} = DATA_STATE;
            $self->{s_kwd} = '';
          }
-         ## reconsume
+         ## Reconsume.
          return  ($self->{ct}); # comment
          redo A;
        } else {
-         ## XML5: Not a parse error.
+         if ($self->{state} == COMMENT_END_BANG_STATE) {
-         $self->{parse_error}->(level => $self->{level}->{must}, type => 'dash in comment',
+           $self->{ct}->{data} .= '--!' . chr ($self->{nc}); # comment
-                         line => $self->{line_prev},
+         } else {
-                         column => $self->{column_prev});
+           $self->{ct}->{data} .= '--' . chr ($self->{nc}); # comment
-         $self->{ct}->{data} .= '--' . chr ($self->{nc}); # comment
+         }
          $self->{state} = COMMENT_STATE;
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 2983 
 sub _get_next_token ($) {
+Line 3105 
 sub _get_next_token ($) {
          redo A;
        }
+     } elsif ($self->{state} == COMMENT_END_SPACE_STATE) {
+       ## XML5: Not exist.
+       if ($self->{nc} == 0x003E) { # >
+         if ($self->{in_subset}) {
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         return  ($self->{ct}); # comment
+         redo A;
+       } elsif ($is_space->{$self->{nc}}) {
+         $self->{ct}->{data} .= chr ($self->{nc}); # comment
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed comment');
+         if ($self->{in_subset}) {
+           $self->{state} = DOCTYPE_INTERNAL_SUBSET_STATE;
+         } else {
+           $self->{state} = DATA_STATE;
+           $self->{s_kwd} = '';
+         }
+         ## Reconsume.
+         return  ($self->{ct}); # comment
+         redo A;
+       } else {
+         $self->{ct}->{data} .= chr ($self->{nc}); # comment
+         $self->{state} = COMMENT_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
+       }
      } elsif ($self->{state} == DOCTYPE_STATE) {
        if ($is_space->{$self->{nc}}) {
-Line 2999 
 sub _get_next_token ($) {
+Line 3196 
 sub _get_next_token ($) {
      }
          redo A;
+       } elsif ($self->{nc} == -1) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed DOCTYPE');
+         $self->{ct}->{quirks} = 1;
+         $self->{state} = DATA_STATE;
+         ## Reconsume.
+         return  ($self->{ct}); # DOCTYPE (quirks)
+         redo A;
        } else {
-         ## XML5: Unless EOF, swith to the bogus comment state.
+         ## XML5: Swith to the bogus comment state.
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'no space before DOCTYPE name');
          $self->{state} = BEFORE_DOCTYPE_NAME_STATE;
          ## reconsume
-Line 3046 
 sub _get_next_token ($) {
+Line 3253 
 sub _get_next_token ($) {
          return  ($self->{ct}); # DOCTYPE (quirks)
          redo A;
+       } elsif (0x0041 <= $self->{nc} and $self->{nc} <= 0x005A) { # A..Z
+         $self->{ct}->{name} # DOCTYPE
+             = chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020));
+         delete $self->{ct}->{quirks};
+         $self->{state} = DOCTYPE_NAME_STATE;
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
        } elsif ($self->{nc} == -1) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'no DOCTYPE name');
-Line 3132 
 sub _get_next_token ($) {
+Line 3357 
 sub _get_next_token ($) {
          return  ($self->{ct}); # DOCTYPE
          redo A;
+       } elsif (0x0041 <= $self->{nc} and $self->{nc} <= 0x005A) { # A..Z
+         $self->{ct}->{name} # DOCTYPE
+             .= chr ($self->{nc} + ($self->{is_xml} ? 0 : 0x0020));
+         delete $self->{ct}->{quirks};
+         ## Stay in the state.
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
        } elsif ($self->{nc} == -1) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'unclosed DOCTYPE');
-Line 3163 
 sub _get_next_token ($) {
+Line 3406 
 sub _get_next_token ($) {
          redo A;
        } else {
-         $self->{ct}->{name}
+         $self->{ct}->{name} .= chr ($self->{nc}); # DOCTYPE
-           .= chr ($self->{nc}); # DOCTYPE
+         ## Stay in the state.
-         ## Stay in the state
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 4628 
 sub _get_next_token ($) {
+Line 4870 
 sub _get_next_token ($) {
 x003C => 1, 0x0026 => 1, -1 => 1, # <, &
              $self->{entity_add} => 1,
            }->{$self->{nc}}) {
+         if ($self->{is_xml}) {
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'bare ero',
+                           line => $self->{line_prev},
+                           column => $self->{column_prev}
+                               + ($self->{nc} == -1 ? 1 : 0));
+         } else {
+           ## No error
+         }
          ## Don't consume
-         ## No error
          ## Return nothing.
          #
        } elsif ($self->{nc} == 0x0023) { # #
-Line 4649 
 sub _get_next_token ($) {
+Line 4899 
 sub _get_next_token ($) {
      }
          redo A;
-       } elsif ((0x0041 <= $self->{nc} and
+       } elsif ($self->{is_xml} or
+                (0x0041 <= $self->{nc} and
                  $self->{nc} <= 0x005A) or # A..Z
                 (0x0061 <= $self->{nc} and
                  $self->{nc} <= 0x007A)) { # a..z
-Line 4703 
 sub _get_next_token ($) {
+Line 4954 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ENTITY_HASH_STATE) {
-       if ($self->{nc} == 0x0078 or # x
+       if ($self->{nc} == 0x0078) { # x
-           $self->{nc} == 0x0058) { # X
          $self->{state} = HEXREF_X_STATE;
          $self->{kwd} .= chr $self->{nc};
-Line 4720 
 sub _get_next_token ($) {
+Line 4970 
 sub _get_next_token ($) {
      }
          redo A;
+       } elsif ($self->{nc} == 0x0058) { # X
+         if ($self->{is_xml}) {
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'uppercase hcro'); ## TODO: type
+         }
+         $self->{state} = HEXREF_X_STATE;
+         $self->{kwd} .= chr $self->{nc};
+     if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
+       $self->{line_prev} = $self->{line};
+       $self->{column_prev} = $self->{column};
+       $self->{column}++;
+       $self->{nc}
+           = ord substr ($self->{char_buffer}, $self->{char_buffer_pos}++, 1);
+     } else {
+       $self->{set_nc}->($self);
+     }
+         redo A;
        } elsif (0x0030 <= $self->{nc} and
                 $self->{nc} <= 0x0039) { # 0..9
-Line 4810 
 sub _get_next_token ($) {
+Line 5079 
 sub _get_next_token ($) {
        my $code = $self->{kwd};
        my $l = $self->{line_prev};
        my $c = $self->{column_prev};
-       if ($charref_map->{$code}) {
+       if ((not $self->{is_xml} and $charref_map->{$code}) or
+           ($self->{is_xml} and 0xD800 <= $code and $code <= 0xDFFF) or
+           ($self->{is_xml} and $code == 0x0000)) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'invalid character reference',
                          text => (sprintf 'U+%04X', $code),
-Line 4963 
 sub _get_next_token ($) {
+Line 5234 
 sub _get_next_token ($) {
        my $code = $self->{kwd};
        my $l = $self->{line_prev};
        my $c = $self->{column_prev};
-       if ($charref_map->{$code}) {
+       if ((not $self->{is_xml} and $charref_map->{$code}) or
+           ($self->{is_xml} and 0xD800 <= $code and $code <= 0xDFFF) or
+           ($self->{is_xml} and $code == 0x0000)) {
          $self->{parse_error}->(level => $self->{level}->{must}, type => 'invalid character reference',
                          text => (sprintf 'U+%04X', $code),
-Line 4997 
 sub _get_next_token ($) {
+Line 5270 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ENTITY_NAME_STATE) {
-       if (length $self->{kwd} < 30 and
+       if ((0x0041 <= $self->{nc} and # a
-           ## NOTE: Some number greater than the maximum length of entity name
+            $self->{nc} <= 0x005A) or # x
-           ((0x0041 <= $self->{nc} and # a
+           (0x0061 <= $self->{nc} and # a
-             $self->{nc} <= 0x005A) or # x
+            $self->{nc} <= 0x007A) or # z
-            (0x0061 <= $self->{nc} and # a
+           (0x0030 <= $self->{nc} and # 0
-             $self->{nc} <= 0x007A) or # z
+            $self->{nc} <= 0x0039) or # 9
-            (0x0030 <= $self->{nc} and # 0
+           $self->{nc} == 0x003B or # ;
-             $self->{nc} <= 0x0039) or # 9
+           ($self->{is_xml} and
-            $self->{nc} == 0x003B)) { # ;
+            not ($is_space->{$self->{nc}} or
+                 {
+x003C => 1, 0x0026 => 1, -1 => 1, # <, &
+                   $self->{entity_add} => 1,
+                 }->{$self->{nc}}))) {
          our $EntityChar;
          $self->{kwd} .= chr $self->{nc};
-         if (defined $EntityChar->{$self->{kwd}}) {
+         if (defined $EntityChar->{$self->{kwd}} or
+             $self->{ge}->{$self->{kwd}}) {
            if ($self->{nc} == 0x003B) { # ;
+             if (defined $self->{ge}->{$self->{kwd}}) {
-             $self->{entity__value} = $EntityChar->{$self->{kwd}};
+               if ($self->{ge}->{$self->{kwd}}->{only_text}) {
+                 $self->{entity__value} = $self->{ge}->{$self->{kwd}}->{value};
+               } else {
+                 if (defined $self->{ge}->{$self->{kwd}}->{notation}) {
+                   $self->{parse_error}->(level => $self->{level}->{must}, type => 'unparsed entity', ## TODO: type
+                                   value => $self->{kwd});
+                 } else {
+                 }
+                 $self->{entity__value} = '&' . $self->{kwd}; ## TODO: expand
+               }
+             } else {
+               if ($self->{is_xml}) {
+                 $self->{parse_error}->(level => $self->{level}->{must}, type => 'entity not declared', ## TODO: type
+                                 value => $self->{kwd},
+                                 level => {
+                                           'amp;' => $self->{level}->{warn},
+                                           'quot;' => $self->{level}->{warn},
+                                           'lt;' => $self->{level}->{warn},
+                                           'gt;' => $self->{level}->{warn},
+                                           'apos;' => $self->{level}->{warn},
+                                          }->{$self->{kwd}} ||
+                                          $self->{level}->{must});
+               } else {
+               }
+               $self->{entity__value} = $EntityChar->{$self->{kwd}};
+             }
              $self->{entity__match} = 1;
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 5407 
 sub _get_next_token ($) {
+Line 5715 
 sub _get_next_token ($) {
          ## XML5: Not defined yet.
          ## TODO:
+         if (not $self->{stop_processing} and
+             not $self->{document}->xml_standalone) {
+           $self->{parse_error}->(level => $self->{level}->{must}, type => 'stop processing', ## TODO: type
+                           level => $self->{level}->{info});
+           $self->{stop_processing} = 1;
+         }
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
        $self->{line_prev} = $self->{line};
-Line 5841 
 sub _get_next_token ($) {
+Line 6157 
 sub _get_next_token ($) {
          }
          $self->{ct} = {type => ELEMENT_TOKEN, name => '',
                         line => $self->{line_prev},
-                        column => $self->{column_prev} - 6};
+                        column => $self->{column_prev} - 7};
          $self->{state} = DOCTYPE_MD_STATE;
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 5909 
 sub _get_next_token ($) {
+Line 6225 
 sub _get_next_token ($) {
          $self->{ct} = {type => ATTLIST_TOKEN, name => '',
                         attrdefs => [],
                         line => $self->{line_prev},
-                        column => $self->{column_prev} - 6};
+                        column => $self->{column_prev} - 7};
          $self->{state} = DOCTYPE_MD_STATE;
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 5978 
 sub _get_next_token ($) {
+Line 6294 
 sub _get_next_token ($) {
          }
          $self->{ct} = {type => NOTATION_TOKEN, name => '',
                         line => $self->{line_prev},
-                        column => $self->{column_prev} - 6};
+                        column => $self->{column_prev} - 8};
          $self->{state} = DOCTYPE_MD_STATE;
      if ($self->{char_buffer_pos} < length $self->{char_buffer}) {
-Line 7840 
 sub _get_next_token ($) {
+Line 8156 
 sub _get_next_token ($) {
          redo A;
        }
      } elsif ($self->{state} == ENTITY_VALUE_ENTITY_STATE) {
-       ## TODO: XMLize
        if ($is_space->{$self->{nc}} or
            {
 x003C => 1, 0x0026 => 1, -1 => 1, # <, &
              $self->{entity_add} => 1,
            }->{$self->{nc}}) {
+         $self->{parse_error}->(level => $self->{level}->{must}, type => 'bare ero',
+                         line => $self->{line_prev},
+                         column => $self->{column_prev}
+                             + ($self->{nc} == -1 ? 1 : 0));
          ## Don't consume
-         ## No error
          ## Return nothing.
          #
        } elsif ($self->{nc} == 0x0023) { # #
-Line 7867 
 sub _get_next_token ($) {
+Line 8184 
 sub _get_next_token ($) {
      }
          redo A;
-       } elsif ((0x0041 <= $self->{nc} and
-                 $self->{nc} <= 0x005A) or # A..Z
-                (0x0061 <= $self->{nc} and
-                 $self->{nc} <= 0x007A)) { # a..z
-         #
        } else {
-         $self->{parse_error}->(level => $self->{level}->{must}, type => 'bare ero');
-         ## Return nothing.
          #
        }

 Legend:



Removed from v.1.20
 


changed lines


 
Added in v.1.33
 Legend:



Removed from v.1.20
 


changed lines


 
Added in v.1.33
-Removed from v.1.20
+Added in v.1.33

admin@suikawiki.org	ViewVC Help
Powered by ViewVC 1.1.24