* IANA charset [CODE(MIME)@en[EUC-JP]] [5] [[IANA]]の[[charset]]登録簿には、2006年3月現在 [PRE[ Name: Extended_UNIX_Code_Packed_Format_for_Japanese MIBenum: 18 Source: Standardized by OSF, UNIX International, and UNIX Systems Laboratories Pacific. Uses ISO 2022 rules to select code set 0: US-ASCII (a single 7-bit byte set) code set 1: JIS X0208-1990 (a double 8-bit byte set) restricted to A0-FF in both bytes code set 2: Half Width Katakana (a single 7-bit byte set) requiring SS2 as the character prefix code set 3: JIS X0212-1990 (a double 7-bit byte set) restricted to A0-FF in both bytes requiring SS3 as the character prefix Alias: csEUCPkdFmtJapanese Alias: EUC-JP (preferred MIME name) ]PRE] とあります。 [6] >>5 [CODE(MIME)@en[[[EUC-JP]]]]という名前は後から付け加えられたようです。最初の登録者は一体何を考えていたのでしょうか。 [[#comment]] * 文字符号化[CODE(XML)@en[EUC-JP]] (XML) [4] [[XML 1.0]]および[[XML 1.1]]の仕様書 では、 [[符号化宣言]] ([CODE(XMLa)@en[[[encoding]]]][[擬似属性]]) の値[CODE(XML)@en[[[EUC-JP]]]]は [Q@en['''[[SHOULD]]''' be used for the various encoded forms of JIS X-0208-1997]]とされています。 これをどう解釈するべきかははっきりしません。 [[JIS X 0208]]:1997には[Q[EUC-JP]]とよばれる[[符号化文字集合]]は規定されてい''ない''ようです。 だとすると、一般に[Q[EUC-JP]]と呼ばれている[[符号化文字集合]]の亜種で [[JIS X 0208]]:1997を採用したものと考えるべきでしょうか。 [7] [[JIS X 0208]]:1997 の[[解説]]には、[Q@en[EUC]] と呼ばれる[[ISO/IEC 2022]]と[[JIS X 0208]]を用いた[[文字コード]]が実装されていることが指摘されています。 従って、[[JIS X 0208]]:1997の制定当時一般に[Q@en[EUC]]と呼ばれていたものを、 [[JIS]]では本来新旧版が並存することはなく、最新版だけが有効だという原則 (同解説の別の箇所にそうあります。) に従い、[[JIS]]を最新の規格に改めたものが[[JIS X 0208]]:1997の[Q@en[EUC-JP]]ではないかと考えられます。 [8] [[ISO/IEC 2022]]に従った[[文字コード]]だとすると、 [[図形文字の一意な符号化]]に関する制限 ([[JIS X 0202]]:1998 7.5) が[[適用]]される可能性がありますが、 [[JIS X 0208]]:1997 9.2 によれば[[これまでの慣用的な利用との互換]]のために[[代替名称]]を用いても構いません。 その場合、[CODE(charname)@en[[[REVERSE SOLIDUS]]]]と[CODE(charname)@en[[[YEN SIGN]]]]の問題があります。 ([[図形文字の一意な符号化]]の項を参照。) また、[[ASCII]]と[[JIS X 0212]]‐1990 が含まれるので、 [CODE(charname)@en[[[TILDE]]]]も問題があります。 ([[図形文字の一意な符号化]]の項を参照。) [9] 更に厳密には、その[Q@en[EUC]]の1バイト左半分が[[ASCII]]なのか[[ISO/IEC 646]]なのか、 という問題があります。[[JIS X 0208]]:1997は[[ISO/IEC 646]]と併用する際に[[代替名称]]を認めていますが、 [[ASCII]]とは認めていません。 ([[ASCII]]と[[ISO/IEC 646]] [[IRV]]はたまたま1997年の時点では (少なくても[[文字名称]]によって比較すれば) 同じ[[符号化文字集合]]を規定しています。) 注意して読むと[[JIS X 0208]]:1997の規定は[[ISO/IEC 646]]に関するもので、 [[ISO/IEC 646]] [[IRV]]とは書いていませんから、 [[IRV]]に対するものとも、[[ISO/IEC 646の版]]いずれに対するものとも読めますが、 [[ISO/IEC 646]]と[[JIS X 0201]]が併記されていることから、 [[IRV]]と解釈する方が適当だと思われます。 [WEAK[(ただし、7.2には[[IRV]]と明記されていますが、こちらでは明記されていないのが気に掛かります。)]] [[#comment]] * メモ - [1] [[Mozilla]] で「©」が含まれた文章を copy & paste で貼り付けてこの [[SuikaWiki]] に送ると、なぜかちゃんと保存・表示されました。 [[WinIE]] で見ても''ちゃんと''文字化けしてるのに。変だなあと思って考えてみると、 SuikaWiki の出力・保存形式は [CODE[EUC-JP]] で、 [CODE[EUC-JP]] の [[G3]] は [[JISX0212]]-1990 で、その JIS X 0212-1990 には [CODE(CHARNAME)[COPYRIGHT SIGN]] が規定されているので、きちんと保存・表示出来て当たり前なのでした。 - [2] >>1 つまり Mozilla はちゃんと EUC-JP に対応しているということです。 WinIE は EUC-JP 対応と見せかけて、実は [[CP20932]] にしか対応していませんね。 - [3] ちなみに [[ClassicMozilla]] も未対応っぽいです。 - [4] >>2 ちがうよ、WinIE が対応しているのは [[CP51932]] だよ - [5] なお、JIS X 0212 エンコーダの削除が Mozilla では提案されている http://bugzilla.mozilla.gr.jp/show_bug.cgi?id=5184 [10] [CITE[Bug 600715 – Remove JIS X 0212 support from EUC-JP encoder]] ( ([TIME[2011-12-20 23:53:05 +09:00]] 版))