* IANA charset [CODE(MIME)@en[EUC-JP]]
[5] [[IANA]]の[[charset]]登録簿には、2006年3月現在
[PRE[
Name: Extended_UNIX_Code_Packed_Format_for_Japanese
MIBenum: 18
Source: Standardized by OSF, UNIX International, and UNIX Systems
Laboratories Pacific. Uses ISO 2022 rules to select
code set 0: US-ASCII (a single 7-bit byte set)
code set 1: JIS X0208-1990 (a double 8-bit byte set)
restricted to A0-FF in both bytes
code set 2: Half Width Katakana (a single 7-bit byte set)
requiring SS2 as the character prefix
code set 3: JIS X0212-1990 (a double 7-bit byte set)
restricted to A0-FF in both bytes
requiring SS3 as the character prefix
Alias: csEUCPkdFmtJapanese
Alias: EUC-JP (preferred MIME name)
]PRE]
とあります。
[6] >>5 [CODE(MIME)@en[[[EUC-JP]]]]という名前は後から付け加えられたようです。最初の登録者は一体何を考えていたのでしょうか。
[10]
DHnrNv oymjxctnwvkw, [url=http://camqfkjabvvx.com/]camqfkjabvvx[/url], [link=http://djvloejgtiny.com/]djvloejgtiny[/link], http://qpoaabymotgj.com/
([[zstrdpk]] [iywlua@flzibp.com] [WEAK[2007-12-31 11:58:55 +00:00]])
[11]
DHnrNv oymjxctnwvkw, [url=http://camqfkjabvvx.com/]camqfkjabvvx[/url], [link=http://djvloejgtiny.com/]djvloejgtiny[/link], http://qpoaabymotgj.com/
([[zstrdpk]] [iywlua@flzibp.com] [WEAK[2007-12-31 11:59:09 +00:00]])
[[#comment]]
* 文字符号化[CODE(XML)@en[EUC-JP]] (XML)
[4]
[[XML 1.0]]および[[XML 1.1]]の仕様書
では、
[[符号化宣言]] ([CODE(XMLa)@en[[[encoding]]]][[擬似属性]])
の値[CODE(XML)@en[[[EUC-JP]]]]は
[Q@en['''[[SHOULD]]''' be used for the various encoded forms of JIS X-0208-1997]]とされています。
これをどう解釈するべきかははっきりしません。
[[JIS X 0208]]:1997には[Q[EUC-JP]]とよばれる[[符号化文字集合]]は規定されてい''ない''ようです。
だとすると、一般に[Q[EUC-JP]]と呼ばれている[[符号化文字集合]]の亜種で
[[JIS X 0208]]:1997を採用したものと考えるべきでしょうか。
[7] [[JIS X 0208]]:1997 の[[解説]]には、[Q@en[EUC]]
と呼ばれる[[ISO/IEC 2022]]と[[JIS X 0208]]を用いた[[文字コード]]が実装されていることが指摘されています。
従って、[[JIS X 0208]]:1997の制定当時一般に[Q@en[EUC]]と呼ばれていたものを、
[[JIS]]では本来新旧版が並存することはなく、最新版だけが有効だという原則
(同解説の別の箇所にそうあります。)
に従い、[[JIS]]を最新の規格に改めたものが[[JIS X 0208]]:1997の[Q@en[EUC-JP]]ではないかと考えられます。
[8] [[ISO/IEC 2022]]に従った[[文字コード]]だとすると、
[[図形文字の一意な符号化]]に関する制限
([[JIS X 0202]]:1998 7.5) が[[適用]]される可能性がありますが、
[[JIS X 0208]]:1997 9.2 によれば[[これまでの慣用的な利用との互換]]のために[[代替名称]]を用いても構いません。
その場合、[CODE(charname)@en[[[REVERSE SOLIDUS]]]]と[CODE(charname)@en[[[YEN SIGN]]]]の問題があります。
([[図形文字の一意な符号化]]の項を参照。)
また、[[ASCII]]と[[JIS X 0212]]‐1990 が含まれるので、
[CODE(charname)@en[[[TILDE]]]]も問題があります。
([[図形文字の一意な符号化]]の項を参照。)
[9] 更に厳密には、その[Q@en[EUC]]の1バイト左半分が[[ASCII]]なのか[[ISO/IEC 646]]なのか、
という問題があります。[[JIS X 0208]]:1997は[[ISO/IEC 646]]と併用する際に[[代替名称]]を認めていますが、
[[ASCII]]とは認めていません。 ([[ASCII]]と[[ISO/IEC 646]]
[[IRV]]はたまたま1997年の時点では (少なくても[[文字名称]]によって比較すれば)
同じ[[符号化文字集合]]を規定しています。)
注意して読むと[[JIS X 0208]]:1997の規定は[[ISO/IEC 646]]に関するもので、
[[ISO/IEC 646]] [[IRV]]とは書いていませんから、
[[IRV]]に対するものとも、[[ISO/IEC 646の版]]いずれに対するものとも読めますが、
[[ISO/IEC 646]]と[[JIS X 0201]]が併記されていることから、
[[IRV]]と解釈する方が適当だと思われます。
[WEAK[(ただし、7.2には[[IRV]]と明記されていますが、こちらでは明記されていないのが気に掛かります。)]]
[[#comment]]
* メモ
- [1] [[Mozilla]] で「©」が含まれた文章を copy & paste
で貼り付けてこの [[SuikaWiki]] に送ると、なぜかちゃんと保存・表示されました。
[[WinIE]] で見ても''ちゃんと''文字化けしてるのに。変だなあと思って考えてみると、
SuikaWiki の出力・保存形式は [CODE[EUC-JP]] で、 [CODE[EUC-JP]] の [[G3]]
は [[JISX0212]]-1990 で、その JIS X 0212-1990 には [CODE(CHARNAME)[COPYRIGHT SIGN]]
が規定されているので、きちんと保存・表示出来て当たり前なのでした。
- [2] >>1 つまり Mozilla はちゃんと EUC-JP に対応しているということです。
WinIE は EUC-JP 対応と見せかけて、実は [[CP20932]] にしか対応していませんね。
- [3] ちなみに [[ClassicMozilla]] も未対応っぽいです。