ids/2/650.txt

UCS Transformation Format One

[[ISO/IEC10646]] の[[符号化方式]]の一つ。
[[ISO/IEC2022]] の CL, SP, DEL, CR の符号位置の意味を変えない
ってのが売りだったらしい。

ISO/IEC 10646-1:1993 の附属書 G に載ってた。
だけどすぐに、 ISO/IEC 10646 からは削除されちまった。

もう誰にも相手してもらえない。かわいそうに。

[[UCS-4]] の文字を1〜5オクテットの可変長で表現。
[[UTF-8]] が1〜6オクテットなのに比べると、少し短くなるんだ。

割算を使うのが嫌われたらしい。
それから、 ASCII 非互換 (下記参照) なのとか、
[[UTF-8]] とは違って途中から文字区切りを探せないとか。

[[IANA]] 登録簿の名前: ISO-10646-UTF-1, csISO10646UTF1

[[ISO-IR]] の登録番号は 178。登録簿には UTF-1 の仕様が載ってます。
<http://www.itscj.ipsj.or.jp/ISO-IR/178.pdf>
ESC 2/5 4/2 (%B)


* ASCII の上位互換なの?

[[ASCII]] の文書はそのまま UTF-1 に持ってこれるけど、
[[シフトJIS]] みたいに2オクテット目以降に
0x00-7F のどれかが来るって意味では、 ASCII 互換じゃない。
(これはイタいね。)


* UCS-4 → UTF-1

[PRE[
 sub u4code2u1code ($) {
   my $U = shift;
   return ($U) if $U <= 0x9F;
   return (0xA0, $U) if $U <= 0xFF;
   return (0xA1 + ( $U - 0x100 ) / 0xBE,
           T(     ( $U - 0x100 ) % 0xBE)) if $U <= 0x4015;
   return (0xF6 + ( $U - 0x4016 ) / ( 0xBE**2 ),
           T(     ( $U - 0x4016 ) / 0xBE % 0xBE),
           T(     ( $U - 0x4016 ) % 0xBE      )) if $U <= 0x38E2D;
   return (0xFC + ( $U - 0x38E2E ) / ( 0xBE**4 ),
           T(     ( $U - 0x38E2E ) / ( 0xBE**3 ) % 0xBE),
           T(     ( $U - 0x38E2E ) / ( 0xBE**2 ) % 0xBE),
           T(     ( $U - 0x38E2E ) /   0xBE      % 0xBE),
           T(     ( $U - 0x38E2E ) %   0xBE      ));
 }
]PRE]

[PRE[
 sub utf1code2ucs4code (@) {
   my ($x, $y, $z, $v, $w) = @_;
   return $x if @_ == 1 && $x <= 0x9F;
   return $y if $x == 0xA0;
   return ($x - 0xA1) * 0xBE + U($y) + 0x100
     if 0xA1 <= $x && $x <= 0xF5;
   return ($x - 0xF6) * ( 0xBE**2 ) + U($y) * 0xBE + U($z) + 0x4016
     if 0xF6 <= $x && $x <= 0xFB;
   return ($x - 0xFC) * ( 0xBE**4 ) + U($y) * ( 0xBE**3 )
              + U($z) * ( 0xBE**2 ) + U($v) * 0xBE
              + U($w) + 0x38E2E;
 }
]PRE]

[PRE[
 sub T ($) {
   my $z = shift;
   return $z + 0x21 if $z <= 0x5D;
   return $z + 0x42 if $z <= 0xBD;
   return $z - 0xBE if $z <= 0xDE;
   return $z - 0x60;
 }
]PRE]

[PRE[
 ## T(z) の逆関数
 sub U ($) {
   my $z = shift;
   return $z + 0xBE if $z <= 0x20;
   return $z - 0x21 if $z <= 0x7E;
   return $z + 0x60 if $z <= 0x9F;
   return $z - 0x42;
 }
]PRE]


* UTF-1 の正規表現 (手抜き)

[PRE[
 qr/[\x00-\x9F]|[\xA0-\xF5].|[\xF6-\xFB]..|[\xFC-\xFF]..../
]PRE]


* Perl 実装

そもそも UTF-1 の実装なんて見たことないんですが(笑)、
面白そうだし RFC 1808 の追悼(謎)の意をこめて、
作ってみました。

Encode::Unicode::UTF1
<http://suika.fam.cx/gate/cvs/perl/lib/Encode/Unicode/UTF1.pm>

perl 5.8 とかの、 Encode module が動く perl でないと駄目です。
- [1] [[ビット組合せ]]についての ISO/IEC 2022 との親和性もあって、 [[IETF]] はメイル規格とかに採用する案もあったらしいが・・・。丸ごとぽしゃった。
- [2] 昔の資料だと単に ''UTF'' と書かれていることもある。まさか今のように数多の [[UTF]] が登場するとは思ってもいなかったでしょうな。 ([[Unicode]] は既に UTF しか存在しないし。藁)

1	wakaba	1.1	UCS Transformation Format One
2
3			[[ISO/IEC10646]] の[[符号化方式]]の一つ。
4			[[ISO/IEC2022]] の CL, SP, DEL, CR の符号位置の意味を変えない
5			ってのが売りだったらしい。
6
7			ISO/IEC 10646-1:1993 の附属書 G に載ってた。
8			だけどすぐに、 ISO/IEC 10646 からは削除されちまった。
9
10			もう誰にも相手してもらえない。かわいそうに。
11
12			[[UCS-4]] の文字を1〜5オクテットの可変長で表現。
13			[[UTF-8]] が1〜6オクテットなのに比べると、少し短くなるんだ。
14
15			割算を使うのが嫌われたらしい。
16			それから、 ASCII 非互換 (下記参照) なのとか、
17			[[UTF-8]] とは違って途中から文字区切りを探せないとか。
18
19			[[IANA]] 登録簿の名前: ISO-10646-UTF-1, csISO10646UTF1
20
21			[[ISO-IR]] の登録番号は 178。登録簿には UTF-1 の仕様が載ってます。
22			<http://www.itscj.ipsj.or.jp/ISO-IR/178.pdf>
23			ESC 2/5 4/2 (%B)
24
25
26			* ASCII の上位互換なの?
27
28			[[ASCII]] の文書はそのまま UTF-1 に持ってこれるけど、
29			[[シフトJIS]] みたいに2オクテット目以降に
30			0x00-7F のどれかが来るって意味では、 ASCII 互換じゃない。
31			(これはイタいね。)
32
33
34			* UCS-4 → UTF-1
35
36			[PRE[
37			sub u4code2u1code ($) {
38			my $U = shift;
39			return ($U) if $U <= 0x9F;
40			return (0xA0, $U) if $U <= 0xFF;
41			return (0xA1 + ( $U - 0x100 ) / 0xBE,
42			T( ( $U - 0x100 ) % 0xBE)) if $U <= 0x4015;
43			return (0xF6 + ( $U - 0x4016 ) / ( 0xBE**2 ),
44			T( ( $U - 0x4016 ) / 0xBE % 0xBE),
45			T( ( $U - 0x4016 ) % 0xBE )) if $U <= 0x38E2D;
46			return (0xFC + ( $U - 0x38E2E ) / ( 0xBE**4 ),
47			T( ( $U - 0x38E2E ) / ( 0xBE**3 ) % 0xBE),
48			T( ( $U - 0x38E2E ) / ( 0xBE**2 ) % 0xBE),
49			T( ( $U - 0x38E2E ) / 0xBE % 0xBE),
50			T( ( $U - 0x38E2E ) % 0xBE ));
51			}
52			]PRE]
53
54			[PRE[
55			sub utf1code2ucs4code (@) {
56			my ($x, $y, $z, $v, $w) = @_;
57			return $x if @_ == 1 && $x <= 0x9F;
58			return $y if $x == 0xA0;
59			return ($x - 0xA1) * 0xBE + U($y) + 0x100
60			if 0xA1 <= $x && $x <= 0xF5;
61			return ($x - 0xF6) * ( 0xBE*2 ) + U($y) 0xBE + U($z) + 0x4016
62			if 0xF6 <= $x && $x <= 0xFB;
63			return ($x - 0xFC) * ( 0xBE*4 ) + U($y) ( 0xBE**3 )
64			+ U($z) * ( 0xBE*2 ) + U($v) 0xBE
65			+ U($w) + 0x38E2E;
66			}
67			]PRE]
68
69			[PRE[
70			sub T ($) {
71			my $z = shift;
72			return $z + 0x21 if $z <= 0x5D;
73			return $z + 0x42 if $z <= 0xBD;
74			return $z - 0xBE if $z <= 0xDE;
75			return $z - 0x60;
76			}
77			]PRE]
78
79			[PRE[
80			## T(z) の逆関数
81			sub U ($) {
82			my $z = shift;
83			return $z + 0xBE if $z <= 0x20;
84			return $z - 0x21 if $z <= 0x7E;
85			return $z + 0x60 if $z <= 0x9F;
86			return $z - 0x42;
87			}
88			]PRE]
89
90
91			* UTF-1 の正規表現 (手抜き)
92
93			[PRE[
94			qr/[\x00-\x9F]\|[\xA0-\xF5].\|[\xF6-\xFB]..\|[\xFC-\xFF]..../
95			]PRE]
96
97
98			* Perl 実装
99
100			そもそも UTF-1 の実装なんて見たことないんですが(笑)、
101			面白そうだし RFC 1808 の追悼(謎)の意をこめて、
102			作ってみました。
103
104			Encode::Unicode::UTF1
105			<http://suika.fam.cx/gate/cvs/perl/lib/Encode/Unicode/UTF1.pm>
106
107			perl 5.8 とかの、 Encode module が動く perl でないと駄目です。
108			- [1] [[ビット組合せ]]についての ISO/IEC 2022 との親和性もあって、 [[IETF]] はメイル規格とかに採用する案もあったらしいが・・・。丸ごとぽしゃった。
109			- [2] 昔の資料だと単に ''UTF'' と書かれていることもある。まさか今のように数多の [[UTF]] が登場するとは思ってもいなかったでしょうな。 ([[Unicode]] は既に UTF しか存在しないし。藁)
110