/[suikacvs]/markup/html/html5/spec-ja/make.pl

Diff of /markup/html/html5/spec-ja/make.pl

Parent Directory | Revision Log | View Patch Patch

-revision 1.5 by wakaba,
Thu Jul  3 06:13:03 2008 UTC
+revision 1.15 by wakaba,
Sun Aug 10 09:16:36 2008 UTC
 Line 1
  #!/usr/bin/perl
  use strict;
- my $source_file_name = q[.spec.en.html];
+ BEGIN { require 'common.pl' }
- my $data_dir_name = q[data/];
- my $data_suffix = q[.dat];
+ my $source_file_name = shift;
- my $result_file_name = q[non-normative.ja.html.u8];
+ my $result_file_name = shift;
+ my $status_file_name = shift;
- sub normalize ($) {
+ my $tbt_file_name_stem = shift;
-   my $s = shift;
-   $s =~ s/\s+/ /g;
-   $s =~ s/^ //;
-   $s =~ s/ $//g;
-   return $s;
- } # normalize
- sub create_pattern1 ($) {
-   my $s = quotemeta shift;
-   $s =~ s/\\\*/(.+)/g;
-   return $s;
- } # create_pattern1
- sub replace_pattern2 ($@) {
-   my $s = shift;
-   my @arg = @_;
-   $s =~ s/\$(\d+)/$arg[$1 - 1]/g;
-   return $s;
- } # replace_pattern2
  my %data;
  my %pattern;
- {
+ for_each_data_file (sub ($) {
-   opendir my $data_dir, $data_dir_name or die "$0: $data_dir_name: $!";
+   my $data_file_name = shift;
-   local $/ = undef;
+   warn "$data_file_name...\n";
-   for (readdir $data_dir) {
+   load_data_file ($data_file_name, \%data, \%pattern);
-     next if /^\./; # hidden files
+ });
-     my $data_file_name = qq[$data_dir_name$_];
-     next unless $data_file_name =~ /\Q$data_suffix\E$/;
-     warn "$data_file_name...\n";
-     open my $data_file, '<:utf8', $data_file_name
-         or die "$0: $data_file_name: $!";
-     for (split /\n\n+(?=#)/, scalar <$data_file>) {
-       my ($en, $ja) = split /\n#ja\n/, $_;
-       if ($en =~ s/^#en\n//) {
-         $data{normalize ($en)} = $ja;
-       } elsif ($en =~ s/^#regexp\n//) {
-         $pattern{create_pattern1 (normalize ($en))} = $ja;
-       }
-     }
-   }
- }
  my @pattern = sort {length $b <=> length $a} keys %pattern;
  my $source_text;
-Line 60 
 my $source_text;
+Line 26 
 my $source_text;
    $source_text = <$source_file>;
  }
+ my $part = 'cover';
+ my $status = {};
+ my $all_status = {};
+ my $tbt_added = {};
+ open my $tbt_file, '>:utf8', $tbt_file_name_stem . '.dat' or
+     die "$0: $tbt_file_name_stem.dat: $!";
+ open my $part_tbt_file, '>:utf8', $tbt_file_name_stem . '-' . $part . '.dat' or
+     die "$0: $tbt_file_name_stem-$part.dat: $!";
  warn "Generating...\n";
- $source_text =~ s{(<(?>p(?>re)?|li|d[td]|t[dh]|h[1-6])(?>\s[^>]*)?>)((?>(?!</?(?>p(?>re)?|li|d(?>[tdl]|iv)|t[dh]|h[1-6]|ul|ol)(?>\s[^>]*)?>).)+)}
+ $source_text =~ s{(<(?>p(?>re)?|li|d[td]|t[dh]|h[1-6])(?>\s[^>]*)?>)((?>(?!</?(?>p(?>re)?|li|d(?>[tdl]|iv)|t(?>[dr]|h(?>ead)?|able|body|foot)|h[1-6r]|ul|ol)(?>\s[^>]*)?>).)+)}
  {
    my ($tag, $text) = ($1, $2);
    my $n_text = normalize ($text);
-   my $ja_text = $data{$n_text};
-   if (defined $ja_text) {
+   if ($tag =~ /^<h2 id=(\w+)/) {
-     $tag . q[<span class=ja-translation lang=ja>] . $ja_text . q[</span>];
+     $part = $1;
-   } else {
+     open $part_tbt_file, '>:utf8', $tbt_file_name_stem . '-' . $part . '.dat' or
-     my $v = $tag . $text;
+         die "$0: $tbt_file_name_stem-$part.dat: $!";
-     for my $pattern (@pattern) {
+   }
-       if ($n_text =~ /^$pattern$/) {
-         $v = $tag . q[<span class=ja-translation lang=ja>] .
+   if (length $n_text) {
-             replace_pattern2 ($pattern{$pattern}, $1, $2, $3, $4, $5) .
+     my $ja_text = $data{$n_text};
-             q[</span>];
-         last;
+     $status->{all}++;
+     $all_status->{$part}->{all}++;
+     if (defined $ja_text) {
+       $status->{ja}++;
+       $all_status->{$part}->{ja}++;
+       $tag . q[<span class=ja-translation lang=ja>] . $ja_text . q[</span>];
+     } else {
+       my $v = $tag . $text;
+       my $has_ja;
+       for my $pattern (@pattern) {
+         if ($n_text =~ /^$pattern$/) {
+           $status->{ja}++;
+           $v = $tag . q[<span class=ja-translation lang=ja>] .
+               replace_pattern2 ($pattern{$pattern}, $1, $2, $3, $4, $5) .
+               q[</span>];
+           $has_ja = 1;
+           last;
+         }
+       }
+       unless ($has_ja) {
+         $text =~ s/^\s+//;
+         $text =~ s/\s+\z//;
+         $text =~ s/\x0D?\x0A(?:\x0D?\x0A)+/\n/g;
+         unless ($tbt_added->{$text}) {
+           print $tbt_file ($text);
+           print $tbt_file ("\n\n");
+           print $part_tbt_file ($text);
+           print $part_tbt_file ("\n\n");
+           $tbt_added->{$text} = 1;
+         }
        }
+       $v;
      }
-     $v;
+   } else {
+     $1 . $2;
    }
  }ges;
  $source_text =~ s{(<(?>link|img|script)\s[^>]+>)}{
-Line 103 
 $source_text =~ s{\[\[([A-Z ]+):([^]]+)\
+Line 113 
 $source_text =~ s{\[\[([A-Z ]+):([^]]+)\
        or die "$0: $result_file_name: $!";
    print $result_file $source_text;
  }
+ {
+   my $time = time;
+   my @item = ($time, $status->{ja}, $status->{all});
+   for my $part (qw(cover introduction infrastructure dom semantics browsers
+                    editing comms syntax rendering no)) {
+     push @item, $all_status->{$part}->{ja};
+     push @item, $all_status->{$part}->{all};
+   }
+   open my $status_file, '>>', $status_file_name
+       or die "$0: $status_file_name: $!";
+   print $status_file join "\t", @item;
+   print $status_file "\n";
+   close $status_file;
+ }

 Legend:



Removed from v.1.5
 


changed lines


 
Added in v.1.15
 Legend:



Removed from v.1.5
 


changed lines


 
Added in v.1.15
-Removed from v.1.5
+Added in v.1.15

admin@suikawiki.org	ViewVC Help
Powered by ViewVC 1.1.24