#?SuikaWiki/0.9
[[#comment]]

*言語情報の記憶と伝達

[1] 言語情報は使用されている[[文字]]そのものやその並びからある程度の推定は出来ますが、
完全には不可能です。
ですから、何らかの形で[[メタ情報]]を保持できる環境では言語情報を内容とセットで扱うようにするのが普通になっています。

データの記憶や伝達は階層構造になっているのが現在では一般的です。
その様々な階層で言語情報を保持していることがあります。

[[#comment]]

** ファイル・システム

[2] 言語情報を直接保存できる[[ファイル・システム]]は聞きませんが、
[[ファイル名]]の一部として運用上情報を保持していることがあります。
例:
-[SAMP(file)[foo.ja.txt]]
-[SAMP(file)[bar.html.en]]

例えば [[Apache]]
は、この[[接尾辞]]形式の言語情報を扱うことができます。

- [11] [[SGML]] の[[公的公開識別子]]の[[公開文言語]]の指定もこの分類に近いでしょう。 例: [SAMP(SGML)[-//W3C//DTD HTML 4.01//EN]]
[[#comment]]

** 転送プロトコル

[3] [[MIME]] や [[HTTP]]
では、 [CODE[[[Content-Language:]]]]
欄で言語情報を伝達できます。

- [7] 例: [SAMP[Content-Language: ja,en]]
- [8] 例: [SAMP(MIME)[=?us-ascii*en?q?Hello!?=]]
- [9] >>8 は MIME の [[encoded-word]] の例。
- [10] MIME の[[引数]]の例: [SAMP(MIME)[filename*=us-ascii'en'foo.txt]]
- [12] [CODE(MIME)[[[Content-Features]]]] + [[特徴札]] てな方法もあるわな。
[[#comment]]

**マーク付け言語

[4] [[HTML]] では、ほとんどの[[要素型]]に存在する
[CODE(HTML)[[[lang]]]] 属性で言語情報を指定できます。

[[XML]] では、 [CODE(XML)[[[xml]]:[[lang]]]]
属性を同様に利用できます。

木構造でこれらの属性を使うと、
言語が入り組んだ文にも適当に言語情報を与えることが出来ます。
例:
-[SAMP(HTML)[<p xml:lang="ja">彼は、<q xml:lang="en">Hello!</q>といいました。</p>]]
-[SAMP(XML)[<Alt><p xml:lang="ja">こんにちは</p><p xml:lang="en">Hello</p></Alt>]]

- [14] ''HTMLの言語情報に関する覚え書き'' <http://www.asahi-net.or.jp/~wq6k-yn/lang.html> : 文字と言語の関係と、それを明示することについての優れた解説です。1998年という今となっては大昔に書かれた文章ですが、古さを感じさせません。この文章が取り上げている問題が未だにまったく解決されていないのがとても残念です。
[[#comment]]

** 符号化文字集合

[5] [[UCS]] の [[SPP]]
にある[[言語タグ]]を使って、
任意の文字列に言語情報を与えられます。

しかし[[文字コード]]の層で言語情報を与えることには批判も多く
([[plain-text]] が plain でなくなる)、
現在では非推奨とされています。
実装もほとんどありません。

- [6] 例: [SAMP[[CODE(char)[LANGUAGE TAG]][CODE(char)[TAG j]][CODE(char)[TAG a]]こんにちは[CODE(char)[LANGUAGE TAG]][CODE(char)[CANCEL TAG]]]]
- [13] 何の情報もないときに、文字の種類によっては言語を推定することができる場合もあります。確率的なものになってしまいますし、基本[[ラテン文字]]なんてほとんど無情報だったりはしますが、利用者の少ない用字系なら役に立つ情報かもしれません。
[[#comment]]

*メモ