[1] [DFN[CNS 11643]] は、[[台湾]] ([[中華民国]]) の[[符号化文字集合]]についての国家規格
([[CNS]]) です。
[2] 最初の正式版は [DFN[CNS 11643‐1986]] (CNS C 5209‐1986)
[CITE[[RUBY[通用漢字標準交換碼] [tōngyòng hànzì biāozhǔn jiāohuànmǎ]]]]
([CITE[Standard Interchange Code for Generally Used Chinese Characters]])
で、1986年8月4日に制定されました。
第2版は [DFN[CNS 11643‐1992]] (CNS X 5012‐1992)
[CITE[[RUBY[中文標準交換碼] [zhōngwén biāozhǔn jiāohuànmǎ]]]]
([CITE[Chinese Standard Interchange Code]]) で、
1992年5月21日に制定されました。
第3版は 2004年中に制定予定です。
[18] 一般には、 [Q[國標碼]], [Q[CNS]], [Q[CNS コード]]などと呼ばれています。
* 内部コード
[23] 1986年版の付録で2バイト内部処理用コードが規定されています。
> 6.2 本交換碼若有需要時得依下列方式転換為内碼。
-(1) 第一字面的内碼=標準交換碼+8080(十六進位)
-(2) 第二字面的内碼=標準交換碼+8000(十六進位)
* 旧・第14字面
[25] [CITE@zh[通用漢字標準交換碼-使用者加字區交換碼]], 行政院主計處電子處理資料中心編, 1988年6月公布。6148字。
[26] [CITE@zh[使用者加字區交換碼(増編)]], 1989年6月公布。171字。
[27] 「金融加字字集」「DIGITAL Taiwan Supplemental Character Set (DTSCS)」「EDPC Recommended Character Set」などとも。
[FIG[
- [28] 0x2121~0x6246 漢字 (第一部分) 6148 文字。後にそのまま CNS 11643-1992 の第三字面に。
- [29] 0x6247~0x6435 漢字 (第二部分) 171 文字。後に CNS 11643-1992 の第四字面に全て収録される。
- [30] 0x6436~ [[ISO/IEC 10646-1993]] の出典 [[TE]] で「some additional character」が割り当てられた部分。
]FIG]
* 第15字面
[31] 第15字面は戸政系統用字6831文字とされています。行政院主計處電子處理資料中心が戸籍より7169文字を
0x2121-0x6D39 に追加して暫定的に使用することとしましたが、後に内部重複1組2文字、
[[CNS 11643-1992]] との重複336文字が見つかり、削除されました。 (削除された[[符号位置]]は保留。)
[32] この他第14字面(新)、第16字面も戸政系統用字(整理中)とされています。
* 歴史
[17] 1983(民国72)年10月に、[CITE[通用漢字標準交換碼]] 試用版が行政院國家科學委員會, 教育部,
經濟部中央標準局, 行政院主計處電子處理資料中心合編として発行されました。
第1字面と第2字面に文字が定義され、[[漢字]]・[[非漢字]]をあわせて 13053 文字含んでいました。
この版は [[Big5]] の元になったとされています。
[18] 1986(民国75)年8月4日には正式な CNS 11643‐1986
[CITE[通用漢字標準交換碼]]が行政院國家科學委員會,
教育部, 經濟部中央標準局, 行政院主計處電子處理資料中心合編で公布されました。
試用版に更に数百文字追加し、順序や重複の修正などを行って総計 13735 文字となっています。
[19] 1992(民国81)年5月21日には CNS 11643‐1992
[CITE[中文標準交換碼]]が經濟部中央標準局より修訂公布されました。
[Q[第14字面]]の全部や [[ISO/IEC 10646]] 原案の一部の文字集合を取り込むと共に、
戸籍用などの大量の漢字を追加しています。第1字面と第2字面は変更されていませんが、
更に第7字面まで割当てが増えています。
[20] 2003年には中文全字庫のサイト (>>10) で2004年に新版を予定していることが発表されています。
また、 [[Big5]] や [[ISO/IEC 10646]] との対応も明らかにされています。
[[#comment]]
* メモ
- [10] ''CNS 11643 中文全字庫''
- [3] 第一[[字面]]から第十六字面まで、16個の「字面」を定義しています。字面一つ一つが ISO/IEC 2022 の 94[SUP[2]] [[図形文字]]集合に当たります。
- [4] ISO/IEC 2022 環境で使うには、「公式」には [[ISO-IR]] に登録する必要がありますが、台湾の規格であるがために (政治的に) それが出来ませんでした。そのため[[私用]][[終端バイト]] 3/0-3/15 を使うことが当初から想定されており、私用終端バイトの数が字面の数 16 になりました。
- [5] 第一字面と第二字面は、台湾の [[PC]] 界の[[デ・ファクト標準]]である [[Big5]] を 94[SUP[2]] に合わせて変形したもので、1986年に規定されました。
- [6] 第三字面〜第七字面はそれに加えて1992年に規定されました。第八字面〜第十二字面はまだ規定されていません。第十三字面〜第十六字面は私用となっています。
- [7] 第一字面〜第七字面は、後に [[ECMA]] (当時の [[ISO-IR]] 事務局) が sponser になる形で ISO-IR に登録され、公式終端バイトを得ました。
- [8] 私用字面は、利用者が自由に利用出来る、所謂 [[PUA]] ですが、政府機関での使用 (戸籍業務など) を想定した補遺字集が幾つか発表されており、現在ほぼすべて埋まっています。 (もしかするといずれ正式に標準化されるかもしれません。)
- [9] >>8 1988年ごろに作られた「第十四字面」は後に正式に第三字面になりました。
- [11] 4.0版全字庫には「日文平/片假名字母、台語發音、歐元(歸類於[單位符號])、國字O(歸類於[數字符號])等210個符號」が追加されているようです。字碼査詢にも追加されています。
- [12] >>11 ''問題集 有日文/台語發音/歐元/國字O等符號嗎?''
- [13] >>11 ''紅眠の愛の秘密日記・2003年8月''
- [14] >>11-13 しかしながら、 CNS 11643 が改正されたわけではなさそうです。 [[CNS]] 検索しても最新版は 1992 ですし、 cns11643.gov にもそんなことは書かれてません。謎です。改訂予定の先取りでしょうか?
- [15] ちなみに cns11643.gov.tw の符号(記号)検索ではなぜかローマ数字小文字が載ってません。 [[UCS]] との対応は Unicode の Big5 との対応表(糞)によったものらしく、滅茶苦茶です。丸つき数字や部首などは対応無しになってます。
- [16] >>15 腐った廃れ規格の間違った対応表なんかに屈せずに、ちゃんと自前の対応表を用意して欲しい。こういうところだけは [[JIS]] を見習ってほしい。
[21]
11643-2004 で第8字面と第9字面に 10646 が入ったのですが、既に (Big5 同様の変換表で) 11643 に対応するものがない字のうち、
10646:2003 + α? 程度の時点での10646 0面にあるものを順番に詰めていってる模様です。 (つまり相互変換には対応表が必要で、 10646 の新規追加には対処不能。) 組合型ハングル、漢字、1面以降は入ってません。漢字はおそらく他の字面で CJK B まで全部詰め込まれている上にまだ 10646 にない (CJK C1 に入るかも?) ものが沢山。
あと、新規の漢字の追加は国家機関各種の手続きを経て (規格の改訂を待たず) どんどん行われていくみたいです。追加が確定したら新字庫に登録されていくようで。
今のところ、追加順に字面の最後に足していっているようです。
[22] [CITE@en[中 Traditional Chinese — coq.no]]
( ([TIME[2012-04-15 09:39:38 +09:00]] 版))
[24]
第十二字面 電信局SOPS碼造字區 6673字
第十三字面 電信局SOPS碼造字區 (整理中)
SOPS とは Service Order Processing System の略のようです。
[33] 2001年12月現在 CNS 11643 全字庫の検索頁に次のような注記がされています。
>
第12-14字面 為新・字 (即戸役政作業使用之12-14字面18,000個姓名用字), 目前僅供査詢, 不能下載使用。因内政部提供之24*24字形・中, 尚有許多重複及疑義字待確認, 因此擬予公告六個月, 若知道該字讀音, 請提供給我們。