/[pub]/suikawiki/wikidata/page/48544D4C.ns/CAB8BDF1CAB8BBFABDB8B9E7.txt
Suika

Contents of /suikawiki/wikidata/page/48544D4C.ns/CAB8BDF1CAB8BBFABDB8B9E7.txt

Parent Directory Parent Directory | Revision Log Revision Log


Revision 1.2 - (show annotations) (download)
Thu Nov 18 02:10:12 2004 UTC (19 years, 10 months ago) by wakaba
Branch: MAIN
CVS Tags: suikawiki3-final, HEAD
Changes since 1.1: +6 -0 lines
File MIME type: text/plain
Error occurred while calculating annotation data.
auto-committed

1 * HTML 4 の文書文字集合
2 [1] 仕様書:
3 - [[HTML 4]]
4 --[CITE[20 SGML Declaration of HTML 4]]
5 <IW:HTML4:"sgml/sgmldecl.html">
6 -- [CITE[HTML 4 Changes]]
7 <IW:HTML4:"appendix/changes.html#h-A.1.1.13">
8
9 [2] HTML 4 の文書文字集合は、次のように定義されています。
10 [PRE(SGML)[
11 CHARSET
12 BASESET "ISO Registration Number 177//CHARSET
13 ISO/IEC 10646-1:1993 UCS-4 with
14 implementation level 3//ESC 2/5 2/15 4/6"
15 DESCSET 0 9 UNUSED
16 9 2 9
17 11 2 UNUSED
18 13 1 13
19 14 18 UNUSED
20 32 95 32
21 127 1 UNUSED
22 128 32 UNUSED
23 160 55136 160
24 55296 2048 UNUSED -- SURROGATES --
25 57344 1056768 57344
26 ]PRE]
27
28 (ちなみに、[[構文参照文字集合]]は新 [[IRV]] です。)
29
30 [3] 仕様書には、2つ Note があります。1つ目は文字集合の大きさについてで、
31 HTML 4 の文字集合は [[ISO/IEC 10646]] の最初の17面に限られています。
32 (ISO/IEC 10646 には全部で128x256 面あります。)
33 それというのも、[[SGML宣言]]では[[規格参照具象構文]]を使うことになっているのですが、
34 そうすると名前 ([CODE(ABNF)[数]]も含まれます。) の長さが8文字以下になり、
35 ISO/IEC 10646 のすべてを覆うことができないのです。
36
37 Note は、こういう技術的理由なので、将来にわたって最初の17面に制限する意図はなく、
38 18面以降に文字が割り当てられる時には SGML 規格が改訂され、 HTML
39 も改訂されるだろうと言っています。
40
41 (実は SGML の改訂を待たずとも、文書文字集合を[[公開識別子]]だけで指定してしまうという裏技があります。
42 公開識別子で参照する対象の書式は SGML で規定されていませんから、
43 好きなように指定できます。ただし、 SGML で規定されていないのですから、
44 すべての SGML 処理系が理解してくれることは到底期待できません。)
45
46 [4] 2つ目の Note は [CODE(SGML)[BASESET]] についてで、
47 [[ISO-IR]] 177 は本来 ISO/IEC 10646-1:1993 を指すもので、
48 その後の改訂は含まれないはずだと述べています。
49
50 確かに HTML 4 仕様書の主張は正しく、 ISO-IR 177 として登録されているのは
51 ISO/IEC 10646-1:1993 です。しかし、どうやらその後の改訂でも登録し直さずにこれを使い続けるのが
52 [[SC2]] の方針らしく、新しい版の ISO/IEC 10646 にも依然として ISO-IR 177
53 (など) に基づく[[エスケープ・シーケンス]]が載っています。
54
55 (幾度の非互換変更が行われたにも関わらずです。
56 文字集合の登録ではなく [CODE(char)[[[DOCS]]]]
57 用の登録だから[[符号化機構]]さえ不変なら文字集合はいくら非互換変更を加えても再登録不要という理屈でしょうか。)
58
59 [5] なお、2つ目の Note は、 HTML 4.0 では [Q[HTML 4 仕様書は常に最新の ISO 10646 を参照する]]
60 と書かれていましたが、 HTML 4.01 で削除されました [SRC[HTML 4.01 A.1.1.13]]。
61 おかげで一体何を参照しているのだかわからなくなりました(w
62
63 [[#comment]]
64
65 * メモ

admin@suikawiki.org
ViewVC Help
Powered by ViewVC 1.1.24