ids/8/748.txt

[17] [[XML]] の[[生成規則]] [DFN[[CODE(ABNF)@en[[[Char]]]]]] は、[[XML]] で用いられる[[文字]]を表しています。
本項では [CODE(ABNF)@en[[[Char]]]] やより一般に [[XML]] における[[文字]]の扱いについて扱います。

* 仕様書

[REFS[
- [18] [CITE@EN[Extensible Markup Language (XML) 1.0 (Fifth Edition)]] ([TIME[2013-05-28 20:49:56 +09:00]] 版) <http://www.w3.org/TR/xml/#charsets>
]REFS]

* 適合性

- ○: 適合
- ×: 不適合

, ,[[XML 1.0]] (文字),[[XML 1.0]] (文字参照),[[XML 1.1]] (文字),[[XML 1.1]] (文字参照),[[HTML]] (文字),[[HTML]] (文字参照)
,[CODE(char)[[[U+0000]]]] ([CODE(charname)@en[[[NULL]]]])              ,×         ,==,==,==  ,× (置換),==
,[CODE(char)[[[U+0001]]]]-[CODE(char)[[[U+0008]]]]                     ,×         ,==,==,○ (非推奨),×,==
,[CODE(char)[[[U+0009]]]] (タブ)                                       ,○         ,==,==,==         ,==,==
,[CODE(char)[[[U+000A]]]] ([CODE(charname)@en[[[LF]]]])                ,○         ,==,==,==         ,==,==
,[CODE(char)[[[U+000B]]]]                                              ,×         ,==,==,○ (非推奨),×,==
,[CODE(char)[[[U+000C]]]] ([CODE(charname)@en[[[FF]]]])                ,×         ,==,==,○ (非推奨),○,==
,[CODE(char)[[[U+000D]]]] ([CODE(charname)@en[[[CR]]]])       ,○ (正規化),○,○ (正規化),○,○ (正規化),×
,[CODE(char)[[[U+000E]]]]-[CODE(char)[[[U+001F]]]]                     ,×         ,==,==,○ (非推奨),×,==
,[CODE(char)[[[U+007F]]]] ([CODE(charname)@en[[[DEL]]]])               ,○ (非推奨),==,×,○ (非推奨),×,==
,[CODE(char)[[[U+0080]]]]-[CODE(char)[[[U+0084]]]]                     ,○ (非推奨),==,×,○ (非推奨),×,× (置換)
,[CODE(char)[[[U+0085]]]] ([CODE(charname)@en[[[NEL]]]])               ,○ (非推奨),==,○ (正規化),○,×,× (置換)
,[CODE(char)[[[U+0086]]]]-[CODE(char)[[[U+009F]]]]                     ,○ (非推奨),==,×,○ (非推奨),×,× (置換)
,[CODE(char)[[[U+2028]]]] ([CODE(charname)@en[[[LS]]]])                ,○      ,==,○ (正規化),○   ,==,==
,[CODE(char)[[[U+D800]]]]-[CODE(char)[[[U+DFFF]]]] ([[surrogate]])     ,×         ,==,==,==         ,○,× (置換)
,[CODE(char)[[[U+FDD0]]]]-[CODE(char)[[[U+FDEF]]]] ([[非文字]])        ,○ (非推奨),==,==,==         ,×,==
,[CODE(char)[[[U+FFFE]]]]-[CODE(char)[[[U+FFFF]]]] ([[非文字]])        ,×,==,==,==                  ,==,==
,[CODE(char)[U+[VAR[???]]FE]]-[CODE(char)[U+[VAR[???]]FF]] ([[非文字]]),○ (非推奨),==,==,==         ,×,==
,[CODE(char)[[[U+10FFFE]]]]-[CODE(char)[[[U+10FFFF]]]] ([[非文字]])    ,○ (非推奨),==,==,==         ,×,==
,[CODE[[[U-00110000]]]]-                                               ,×         ,==,==,==         ,==,× (置換)

* Unicoder によるところの XML における文字の好ましい扱い

[1] 『Unicode in XML and other Markup Languages』
という [[W3C]] [[Note]] 
<http://www.w3.org/TR/unicode-xml/>
/ [[UTR]] #20
<http://www.unicode.org/reports/tr20/>
は、[[マーク付け言語]]で使うべきではない[[文字]]などを解説しています。
マーク付け言語としては主として [[XML]]、
ある程度は [[HTML]] を対象としています。

** マーク付け言語で不適切な文字

[2] 次の文字はマーク付け言語と一緒に使用するのは不適当です。
行分離子 [CODE(char)[[[LS]]]], 段落分離子 [CODE(char)[[[PS]]]], バイト順印 [CODE(char)[[[BOM]]]]
を除いては、 [[UA]] は無視するのもよし。
適当なマークに変換するのは[[著述工具]]の責任だそうです。

,[[符号位置]]       ,[[名前]]     ,HTML での代替      ,メモ
,[CODE(char)[[[U+2028]]]]       ,[CODE(char)[[[LINE SEPARATOR]]]]       ,[CODE(HTMLe)[[[br]]]]  ,>>4
,[CODE(char)[[[U+2029]]]]       ,[CODE(char)[[[PARAGRAPH SEPARATOR]]]]  ,[CODE(HTMLe)[[[p]]]]   ,>.4
,[CODE(char)[[[U+202A]]]]       ,[CODE(char)[[[LEFT-TO-RIGHT EMBEDDING]]]]      ,[CODE(HTML)[[CODE(HTMLa)[[[dir]]]]=[[ltr]]]]   ,>>3
,[CODE(char)[[[U+202B]]]]       ,[CODE(char)[[[RIGHT-TO-LEFT EMBEDDING]]]]      ,[CODE(HTML)[[CODE(HTMLa)[dir]]=[[rtl]]]]       ,>>3
,[CODE(char)[[[U+202C]]]]       ,[CODE(char)[[[POP DIRECTIONAL FORMATTING]]]]   ,[CODE(HTML)[</[CODE(HTMLe)[[[bdo]]]]>]]        ,>>3
,[CODE(char)[[[U+202D]]]]       ,[CODE(char)[[[LEFT-TO-RIGHT OVERRIDE]]]]       ,[CODE(HTML)[<[CODE(HTMLe)[bdo]] [CODE(HTMLa)[dir]]=ltr>]]      ,>>3
,[CODE(char)[[[U+202E]]]]       ,[CODE(char)[[[RIGHT-TO-LEFT-OVERRIDE]]]]       ,[CODE(HTML)[<[CODE(HTMLe)[[[bdo]]]] [CODE(HTMLa)[dir]]=rtl>]]  ,>>3
,[CODE(char)[[[U+206A]]]]       ,[CODE(char)[[[INHIBIT SYMMETRIC SWAPPING]]]]   ,       ,Unicode で非推奨 >>5
,[CODE(char)[[[U+206B]]]]       ,[CODE(char)[[[ACTIVATE SYMMETRIC SWAPPING]]]]  ,       ,Unicode で非推奨 >>5
,[CODE(char)[[[U+206C]]]]       ,[CODE(char)[[[INHIBIT ARABIC FORM SHAPING]]]]  ,       ,Unicode で非推奨 >>5
,[CODE(char)[[[U+206D]]]]       ,[CODE(char)[[[ACTIVATE ARABIC FORM SHAPING]]]] ,       ,Unicode で非推奨 >>5
,[CODE(char)[[[U+206E]]]]       ,[CODE(char)[[[NATIONAL DIGIT SHAPES]]]]        ,[CODE(char)[[[U+0660]]]]〜[CODE(char)[[[U+0669]]]]    ,Unicode で非推奨 >>5
,[CODE(char)[[[U+206F]]]]       ,[CODE(char)[[[NOMINAL DIGIT SHAPES]]]] ,[CODE(char)[[[U+0030]]]]〜[CODE(char)[[[U+0039]]]]    ,Unicode で非推奨 >>5
,[CODE(char)[[[U+FEFF]]]]       ,[CODE(char)[[[ZERO WIDTH NO-BREAK SPACE]]]]    ,[CODE(char)[[[U+2060]]]]       ,Unicode で非推奨 >>6
,[CODE(char)[[[U+FFF9]]]]       ,[CODE(char)[[[INTERLINEAR ANNOTATION ANCHOR]]]]        ,[CODE(HTML)[<[CODE(HTMLe)[[[ruby]]]]><[CODE(HTMLe)[[[rb]]]]>]] ,>>7
,[CODE(char)[[[U+FFFA]]]]       ,[CODE(char)[[[INTERLINEAR ANNOTATION SEPARATOR]]]]     ,[CODE(HTML)[</[CODE(HTMLe)[rb]]><[CODE(HTMLe)[[[rt]]]]>]]      ,>>7
,[CODE(char)[[[U+FFFB]]]]       ,[CODE(char)[[[INTERLINEAR ANNOTATION TERMINATOR]]]]    ,[CODE(HTML)[</[CODE(HTMLe)[rt]]></[CODE(HTMLe)[ruby]]>]]       ,>7
,[CODE(char)[[[U+FFFC]]]]       ,[CODE(char)[[[OBJECT REPLACEMENT CHARACTER]]]] ,[CODE(HTMLe)[[[object]]]] など       ,>>8
,[CODE(char)[[[U+1D173]]]]〜[CODE(char)[[[U+1D17A]]]]  ,"[[タイ]], [[スラー]]など"      ,       ,>>9
,[CODE(char)[[[U+E0000]]]]〜[CODE(char)[[[U+E007F]]]]  ,[CODE(char)[Tags]]     ,"[CODE(XML)[[[xml]]:[[lang]]]], [CODE(HTMLa)[lang]]"   ,>>9

参考: <http://www.w3.org/TR/unicode-xml/#Suitable>

[4] [CODE(char)[[[LS]]]] と [CODE(char)[[[PS]]]] は、
ブラウザは[[空白]]とし、編集時は適当なマークに置き換えるのが適切です。

[3] [[BIDI]] 系は [Q[Strongly discouraged in [HTML 4.0] ]]
などと書かれていますが、 HTML 4 が激しく非推奨しているように読めて紛らわしい。
(<IW:HTML4:"struct/dirlang.html#h-8.2.4"> にはそんなことは書かれていません。)

<http://www.w3.org/TR/unicode-xml/#Bidi> で、
HTML 4 は文字コードによる[[書字方向]]指定と
HTML のマークによる指定のいずれかだけを使うように求めているが、
文字コードによる指定は処理が複雑になってよくないのでマークを使えと言っています。

ブラウザは無視し、編集時はマークに変換するのがいいそうです。

[5] [[DIS10646]] の遺産。ブラウザは無視したらよく、
編集時は警告でもして削除するのがよいですが、
適当に変換してもいいでしょう。ということです。

[6] [CODE(char)[U+FEFF]] は、 [CODE(char)[ZERO WIDTH NO-BREAK SPACE]] と [CODE(char)[[[BYTE ORDER MARK]]]]
の二つの機能を一つの符号位置に押し込んで、
あとから都合が悪くなったので [CODE(char)[[[ZWNBSP]]]]
の機能を [CODE(char)[U+2026]] [CODE(char)[WORD JOINER]]
として分離したという恥ずかしい前歴があります。

従って今では [CODE(char)[U+FEFF]] を
[CODE(char)[ZWNBSP]] として使用することは Unicode
が非推奨としています。

ブラウザは文中の [CODE(char)[U+FEFF]] は
[CODE(char)[ZWNBSP]] として扱い、編集時は
[CODE(char)[[[ZWJ]]]] に置き換えてしまう[[及び/又は]]警告を発してよいとされています。

[7] Unicode に通称 ruby tag が入った経緯は
<http://www.kobysh.com/tlk/digitalculture/1998-ruby.html>
でも見てください。阿呆らしい。

ブラウザは無視してかまいません。
編集時は次のひとつ以上の動作を取ってかまいません。
- [CODE(char)[U+FFF9]] および [CODE(char)[U+FFFA]]〜[CODE(char)[U+FFFB]] の部分を削除
- [CODE(char)[U+FFF9]] を削除、
[CODE(char)[U+FFFA]] と [CODE(char)[U+FFFB]] をそれぞれ
[CODE(char)[ [ ]] と [CODE(char)[ ] ]] に置換
- 適当なマークに置換

(ブラウザも完全に無視したら駄目だと思うのだけどなあ。
[CODE(HTMLe)[rt]] 部分を削除しないと。)

[8] ブラウザは無視してかまいません。
編集時は適当なマークに置換可能ならそうしてもいいし、
警告を出せるなら出して、削除してしまってかまいません。

[9] ブラウザは無視してかまいません。
編集時には削除しても適当なマークに置換してもかまいません。

** マーク付け言語で適当な書式文字

[10] <http://www.w3.org/TR/unicode-xml/#Format>
がマーク付け言語で使うのは適切だと言っている文字と、
その説明をどうぞ:

,符号位置   ,名前 ,メモ
,[CODE(char)[[[U+00A0]]]]       ,[CODE(char)[[[NO-BREAK SPACE]]]]
,[CODE(char)[[[U+00AD]]]]       ,[CODE(char)[[[SOFT HYPHEN]]]]
,[CODE(char)[[[U+034F]]]]       ,[CODE(char)[[[COMBINING GRAPHEME JOINER]]]]    ,>>11
,[CODE(char)[[[U+0600]]]]       ,[CODE(char)[[[ARABIC NUMBER SIGN]]]]
,[CODE(char)[[[U+0601]]]]       ,[CODE(char)[[[ARABIC SIGN SANAH]]]]
,[CODE(char)[[[U+0602]]]]       ,[CODE(char)[[[ARABIC FOOTNOTE MARKER]]]]
,[CODE(char)[[[U+0603]]]]       ,[CODE(char)[[[ARABIC SIGN SAFHA]]]]
,[CODE(char)[[[U+06DD]]]]       ,[CODE(char)[[[ARABIC END OF AYAH]]]]
,[CODE(char)[[[U+070C]]]]       ,[CODE(char)[[[SYRIAC HARKLEAN METOBELUS]]]]
,[CODE(char)[[[U+0F0C]]]]       ,[CODE(char)[[[TIBETAN MARK DELIMITER TSHEG BSTAR]]]]
,[CODE(char)[[[U+180B]]]]       ,[CODE(char)[[[MONGOLIAN FREE VARIATION SELECTOR ONE]]]]
,[CODE(char)[[[U+180C]]]]       ,[CODE(char)[[[MONGOLIAN FREE VARIATION SELECTOR TWO]]]]
,[CODE(char)[[[U+180D]]]]       ,[CODE(char)[[[MONGOLIAN FREE VARIATION SELECTOR THREE]]]]
,[CODE(char)[[[U+180E]]]]       ,[CODE(char)[[[MONGOLIAN VOWEL SEPARATOR]]]]
,[CODE(char)[[[U+200C]]]]       ,[CODE(char)[[[ZERO WIDTH NON-JOINER]]]]
,[CODE(char)[[[U+200D]]]]       ,[CODE(char)[[[ZERO WIDTH JOINER]]]]
,[CODE(char)[[[U+200E]]]]       ,[CODE(char)[[[LEFT-TO-RIGHT MARK]]]]
,[CODE(char)[[[U+200F]]]]       ,[CODE(char)[[[RIGHT-TO-LEFT MARK]]]]
,[CODE(char)[[[U+2011]]]]       ,[CODE(char)[[[NON-BREAKING HYPHEN]]]]
,[CODE(char)[[[U+202F]]]]       ,[CODE(char)[[[NARROW NO-BREAK SPACE]]]]
,[CODE(char)[[[U+2044]]]]       ,[CODE(char)[[[FRACTION SLASH]]]]
,[CODE(char)[[[U+2060]]]]       ,[CODE(char)[[[WORD JOINER]]]]
,[CODE(char)[[[U+2061]]]]       ,[CODE(char)[[[FUNCTION APPLICATION]]]]
,[CODE(char)[[[U+2062]]]]       ,[CODE(char)[[[INVISIBLE TIMES]]]]
,[CODE(char)[[[U+2063]]]]       ,[CODE(char)[[[INVISIBLE SEPARATOR]]]]
,[CODE(char)[[[U+2FF0]]]]〜[CODE(char)[[[U+2FFB]]]]    ,Ideographic Description Characters
,[CODE(char)[[[U+303E]]]]       ,[CODE(char)[[[IDEOGRAPHIC VARIATION INDICATOR]]]]
,"[CODE(char)[[[U+FE00]]]]〜[CODE(char)[[[U+FE0F]]]], [CODE(char)[[[U+E0100]]]]〜[CODE(char)[[[U+E01DF]]]]"   ,Variation Selectors

[11] <http://www.w3.org/TR/2003/NOTE-unicode-xml-20030613/#Format>
では [Q[Combining Grapheme Joiner]]
が [CODE(char)[[[U+0363]]]] になっていますが、
[CODE(char)[U+0363]] は [CODE(char)[[[COMBINING LATIN SMALL LETTER A]]]] だったりします。

[12] ここに挙がっている文字は、大体は、純粋(謎)な文字としての表現と書式 (極端に言えば飾り) との区別が難しい表現を実現するためのものです。
[[ハイフン付け]]関係などは本来マーク + スタイル言語で実現するべきだとは思いますが、
スタイル言語の規格および実装が完成していない現状ではマーク付け言語で使っても仕方がないでしょう。
(といっても文字としても実装されている例はさほどないのだけど。)

ただし、 [CODE(char)[FRACTION SLASH]] などは、
[[MathML]] で実現できると書いているくらいですから、
不適当に分類するべきではないですか。

** 互換写像を持つ文字

[13] [[互換写像]]を持つ文字を含む文章をマークするときの処遇が
<http://www.w3.org/TR/unicode-xml/#Compatibility>
に書かれています。

互換写像を持つ文字には、丸付き文字、片仮名の組み文字、
全角文字、半角文字などが含まれます。
いずれも、本来は組版の機能により実現されるべきものですが、
文字コードの闇歴史で次々と実用化(wされてきました
(そして Unicode はそれを貪欲に取込んでいます)。

互換写像を持つ文字は、一般には機械的にマークに置き換えることはできません。
([[不思議マーク付け]]を機械的に [[Strict]] 化できないのと同じ理由。)
<http://www.w3.org/TR/unicode-xml/#Compatibility>
はどれは機械的に変換できて、どれはとりあえず残すべきかをまとめています。

互換写像を持つ文字は、マーク付けとスタイル指定で置き換えることができます。
ただし、 [[CSS]] ですべてを表現できるわけではありません。
たとえば丸付きは CSS では実現できません。
組み文字のように CSS 3 で実現しそうなものもあります。

*** 表現情報付きの文字

[14] <http://www.w3.org/TR/unicode-xml/#Generating>
によれば、「斜体の [Q[hello]]」はマークで実現するべきだが、
プランク定数 (斜体の [Q[h]]) は [CODE(char)[[[U+210E]]]]
を使うべきだと言っています。

[15] しかし >>14 のようなやり方には批判的な意見もあります。
文字コードが深い意味まで介入した結果が
[CODE(char)[U+1D400]]〜[CODE(char)[U+1D7FF]]
([Q[Mathematical Alphanumeric Symbols]]) です。
(数式では普通の [Q[a]] と太字の [Q[a]] と 斜体の
[Q[a]] と・・・は意味が違うかもしれないから云々の結果、
数学用と称して太字だの斜体だの sans serif だの、
沢山の [Q[a]] が符号化されています。)

** 非文字

[16] [[非文字]]符号位置は、応用が内部で使ってもかまいませんが、情報交換に用いるべきではありません。
<http://www.w3.org/TR/unicode-xml/#Noncharacters>

[DEL[
[[XML1.1]] では非文字は除外されていますが、
[[XML1.0]] は制定時期の関係から多くの非文字は除外されていません。
]DEL]

* 応用

[FIG[
[3] 
> The use of the word "character" in this document is in the sense of production [2] of [Extensible Markup Language (XML) 1.0 Recommendation (Third Edition)].

[FIGCAPTION[
[15] [CITE@EN[XQuery 1.0 and XPath 2.0 Functions and Operators (Second Edition)]]
<http://www.w3.org/TR/2010/REC-xpath-functions-20101214/#string-types>
]FIGCAPTION]
]FIG]
1	wakaba	1.23	[17] [[XML]] の[[生成規則]] [DFN[[CODE(ABNF)@en[[[Char]]]]]] は、[[XML]] で用いられる[[文字]]を表しています。
2			本項では [CODE(ABNF)@en[[[Char]]]] やより一般に [[XML]] における[[文字]]の扱いについて扱います。
3
4			* 仕様書
5
6			[REFS[
7			- [18] [CITE@EN[Extensible Markup Language (XML) 1.0 (Fifth Edition)]] ([TIME[2013-05-28 20:49:56 +09:00]] 版) <http://www.w3.org/TR/xml/#charsets>
8			]REFS]
9	wakaba	1.2
10	wakaba	1.4	* 適合性
11
12			- ○: 適合
13			- ×: 不適合
14
15	wakaba	1.13	, ,[[XML 1.0]] (文字),[[XML 1.0]] (文字参照),[[XML 1.1]] (文字),[[XML 1.1]] (文字参照),[[HTML]] (文字),[[HTML]] (文字参照)
16	wakaba	1.21	,[CODE(char)[[[U+0000]]]] ([CODE(charname)@en[[[NULL]]]]) ,× ,==,==,== ,× (置換),==
17	wakaba	1.13	,[CODE(char)[[[U+0001]]]]-[CODE(char)[[[U+0008]]]] ,× ,==,==,○ (非推奨),×,==
18			,[CODE(char)[[[U+0009]]]] (タブ) ,○ ,==,==,== ,==,==
19			,[CODE(char)[[[U+000A]]]] ([CODE(charname)@en[[[LF]]]]) ,○ ,==,==,== ,==,==
20			,[CODE(char)[[[U+000B]]]] ,× ,==,==,○ (非推奨),×,==
21			,[CODE(char)[[[U+000C]]]] ([CODE(charname)@en[[[FF]]]]) ,× ,==,==,○ (非推奨),○,==
22	wakaba	1.22	,[CODE(char)[[[U+000D]]]] ([CODE(charname)@en[[[CR]]]]) ,○ (正規化),○,○ (正規化),○,○ (正規化),×
23	wakaba	1.13	,[CODE(char)[[[U+000E]]]]-[CODE(char)[[[U+001F]]]] ,× ,==,==,○ (非推奨),×,==
24			,[CODE(char)[[[U+007F]]]] ([CODE(charname)@en[[[DEL]]]]) ,○ (非推奨),==,×,○ (非推奨),×,==
25	wakaba	1.20	,[CODE(char)[[[U+0080]]]]-[CODE(char)[[[U+0084]]]] ,○ (非推奨),==,×,○ (非推奨),×,× (置換)
26			,[CODE(char)[[[U+0085]]]] ([CODE(charname)@en[[[NEL]]]]) ,○ (非推奨),==,○ (正規化),○,×,× (置換)
27			,[CODE(char)[[[U+0086]]]]-[CODE(char)[[[U+009F]]]] ,○ (非推奨),==,×,○ (非推奨),×,× (置換)
28			,[CODE(char)[[[U+2028]]]] ([CODE(charname)@en[[[LS]]]]) ,○ ,==,○ (正規化),○ ,==,==
29			,[CODE(char)[[[U+D800]]]]-[CODE(char)[[[U+DFFF]]]] ([[surrogate]]) ,× ,==,==,== ,○,× (置換)
30	wakaba	1.13	,[CODE(char)[[[U+FDD0]]]]-[CODE(char)[[[U+FDEF]]]] ([[非文字]]) ,○ (非推奨),==,==,== ,×,==
31			,[CODE(char)[[[U+FFFE]]]]-[CODE(char)[[[U+FFFF]]]] ([[非文字]]) ,×,==,==,== ,==,==
32			,[CODE(char)[U+[VAR[???]]FE]]-[CODE(char)[U+[VAR[???]]FF]] ([[非文字]]),○ (非推奨),==,==,== ,×,==
33			,[CODE(char)[[[U+10FFFE]]]]-[CODE(char)[[[U+10FFFF]]]] ([[非文字]]) ,○ (非推奨),==,==,== ,×,==
34	wakaba	1.20	,[CODE[[[U-00110000]]]]- ,× ,==,==,== ,==,× (置換)
35	wakaba	1.4
36	wakaba	1.3	* Unicoder によるところの XML における文字の好ましい扱い
37
38	wakaba	1.2	[1] 『Unicode in XML and other Markup Languages』
39			という [[W3C]] [[Note]]
40			<http://www.w3.org/TR/unicode-xml/>
41			/ [[UTR]] #20
42			<http://www.unicode.org/reports/tr20/>
43			は、[[マーク付け言語]]で使うべきではない[[文字]]などを解説しています。
44			マーク付け言語としては主として [[XML]]、
45			ある程度は [[HTML]] を対象としています。
46
47	wakaba	1.3	** マーク付け言語で不適切な文字
48	wakaba	1.2
49			[2] 次の文字はマーク付け言語と一緒に使用するのは不適当です。
50			行分離子 [CODE(char)[[[LS]]]], 段落分離子 [CODE(char)[[[PS]]]], バイト順印 [CODE(char)[[[BOM]]]]
51			を除いては、 [[UA]] は無視するのもよし。
52			適当なマークに変換するのは[[著述工具]]の責任だそうです。
53
54			,[[符号位置]] ,[[名前]] ,HTML での代替 ,メモ
55			,[CODE(char)[[[U+2028]]]] ,[CODE(char)[[[LINE SEPARATOR]]]] ,[CODE(HTMLe)[[[br]]]] ,>>4
56			,[CODE(char)[[[U+2029]]]] ,[CODE(char)[[[PARAGRAPH SEPARATOR]]]] ,[CODE(HTMLe)[[[p]]]] ,>.4
57			,[CODE(char)[[[U+202A]]]] ,[CODE(char)[[[LEFT-TO-RIGHT EMBEDDING]]]] ,[CODE(HTML)[[CODE(HTMLa)[[[dir]]]]=[[ltr]]]] ,>>3
58			,[CODE(char)[[[U+202B]]]] ,[CODE(char)[[[RIGHT-TO-LEFT EMBEDDING]]]] ,[CODE(HTML)[[CODE(HTMLa)[dir]]=[[rtl]]]] ,>>3
59			,[CODE(char)[[[U+202C]]]] ,[CODE(char)[[[POP DIRECTIONAL FORMATTING]]]] ,[CODE(HTML)[</[CODE(HTMLe)[[[bdo]]]]>]] ,>>3
60			,[CODE(char)[[[U+202D]]]] ,[CODE(char)[[[LEFT-TO-RIGHT OVERRIDE]]]] ,[CODE(HTML)[<[CODE(HTMLe)[bdo]] [CODE(HTMLa)[dir]]=ltr>]] ,>>3
61			,[CODE(char)[[[U+202E]]]] ,[CODE(char)[[[RIGHT-TO-LEFT-OVERRIDE]]]] ,[CODE(HTML)[<[CODE(HTMLe)[[[bdo]]]] [CODE(HTMLa)[dir]]=rtl>]] ,>>3
62			,[CODE(char)[[[U+206A]]]] ,[CODE(char)[[[INHIBIT SYMMETRIC SWAPPING]]]] , ,Unicode で非推奨 >>5
63			,[CODE(char)[[[U+206B]]]] ,[CODE(char)[[[ACTIVATE SYMMETRIC SWAPPING]]]] , ,Unicode で非推奨 >>5
64			,[CODE(char)[[[U+206C]]]] ,[CODE(char)[[[INHIBIT ARABIC FORM SHAPING]]]] , ,Unicode で非推奨 >>5
65			,[CODE(char)[[[U+206D]]]] ,[CODE(char)[[[ACTIVATE ARABIC FORM SHAPING]]]] , ,Unicode で非推奨 >>5
66			,[CODE(char)[[[U+206E]]]] ,[CODE(char)[[[NATIONAL DIGIT SHAPES]]]] ,[CODE(char)[[[U+0660]]]]〜[CODE(char)[[[U+0669]]]] ,Unicode で非推奨 >>5
67			,[CODE(char)[[[U+206F]]]] ,[CODE(char)[[[NOMINAL DIGIT SHAPES]]]] ,[CODE(char)[[[U+0030]]]]〜[CODE(char)[[[U+0039]]]] ,Unicode で非推奨 >>5
68			,[CODE(char)[[[U+FEFF]]]] ,[CODE(char)[[[ZERO WIDTH NO-BREAK SPACE]]]] ,[CODE(char)[[[U+2060]]]] ,Unicode で非推奨 >>6
69			,[CODE(char)[[[U+FFF9]]]] ,[CODE(char)[[[INTERLINEAR ANNOTATION ANCHOR]]]] ,[CODE(HTML)[<[CODE(HTMLe)[[[ruby]]]]><[CODE(HTMLe)[[[rb]]]]>]] ,>>7
70			,[CODE(char)[[[U+FFFA]]]] ,[CODE(char)[[[INTERLINEAR ANNOTATION SEPARATOR]]]] ,[CODE(HTML)[</[CODE(HTMLe)[rb]]><[CODE(HTMLe)[[[rt]]]]>]] ,>>7
71			,[CODE(char)[[[U+FFFB]]]] ,[CODE(char)[[[INTERLINEAR ANNOTATION TERMINATOR]]]] ,[CODE(HTML)[</[CODE(HTMLe)[rt]]></[CODE(HTMLe)[ruby]]>]] ,>7
72			,[CODE(char)[[[U+FFFC]]]] ,[CODE(char)[[[OBJECT REPLACEMENT CHARACTER]]]] ,[CODE(HTMLe)[[[object]]]] など ,>>8
73			,[CODE(char)[[[U+1D173]]]]〜[CODE(char)[[[U+1D17A]]]] ,"[[タイ]], [[スラー]]など" , ,>>9
74			,[CODE(char)[[[U+E0000]]]]〜[CODE(char)[[[U+E007F]]]] ,[CODE(char)[Tags]] ,"[CODE(XML)[[[xml]]:[[lang]]]], [CODE(HTMLa)[lang]]" ,>>9
75
76			参考: <http://www.w3.org/TR/unicode-xml/#Suitable>
77
78			[4] [CODE(char)[[[LS]]]] と [CODE(char)[[[PS]]]] は、
79			ブラウザは[[空白]]とし、編集時は適当なマークに置き換えるのが適切です。
80
81			[3] [[BIDI]] 系は [Q[Strongly discouraged in [HTML 4.0] ]]
82			などと書かれていますが、 HTML 4 が激しく非推奨しているように読めて紛らわしい。
83			(<IW:HTML4:"struct/dirlang.html#h-8.2.4"> にはそんなことは書かれていません。)
84
85			<http://www.w3.org/TR/unicode-xml/#Bidi> で、
86			HTML 4 は文字コードによる[[書字方向]]指定と
87			HTML のマークによる指定のいずれかだけを使うように求めているが、
88			文字コードによる指定は処理が複雑になってよくないのでマークを使えと言っています。
89
90			ブラウザは無視し、編集時はマークに変換するのがいいそうです。
91
92			[5] [[DIS10646]] の遺産。ブラウザは無視したらよく、
93			編集時は警告でもして削除するのがよいですが、
94			適当に変換してもいいでしょう。ということです。
95
96			[6] [CODE(char)[U+FEFF]] は、 [CODE(char)[ZERO WIDTH NO-BREAK SPACE]] と [CODE(char)[[[BYTE ORDER MARK]]]]
97			の二つの機能を一つの符号位置に押し込んで、
98			あとから都合が悪くなったので [CODE(char)[[[ZWNBSP]]]]
99			の機能を [CODE(char)[U+2026]] [CODE(char)[WORD JOINER]]
100			として分離したという恥ずかしい前歴があります。
101
102			従って今では [CODE(char)[U+FEFF]] を
103			[CODE(char)[ZWNBSP]] として使用することは Unicode
104			が非推奨としています。
105
106			ブラウザは文中の [CODE(char)[U+FEFF]] は
107			[CODE(char)[ZWNBSP]] として扱い、編集時は
108			[CODE(char)[[[ZWJ]]]] に置き換えてしまう[[及び/又は]]警告を発してよいとされています。
109
110			[7] Unicode に通称 ruby tag が入った経緯は
111			<http://www.kobysh.com/tlk/digitalculture/1998-ruby.html>
112			でも見てください。阿呆らしい。
113
114			ブラウザは無視してかまいません。
115			編集時は次のひとつ以上の動作を取ってかまいません。
116			- [CODE(char)[U+FFF9]] および [CODE(char)[U+FFFA]]〜[CODE(char)[U+FFFB]] の部分を削除
117			- [CODE(char)[U+FFF9]] を削除、
118			[CODE(char)[U+FFFA]] と [CODE(char)[U+FFFB]] をそれぞれ
119			[CODE(char)[ [ ]] と [CODE(char)[ ] ]] に置換
120			- 適当なマークに置換
121
122			(ブラウザも完全に無視したら駄目だと思うのだけどなあ。
123			[CODE(HTMLe)[rt]] 部分を削除しないと。)
124
125			[8] ブラウザは無視してかまいません。
126			編集時は適当なマークに置換可能ならそうしてもいいし、
127			警告を出せるなら出して、削除してしまってかまいません。
128
129			[9] ブラウザは無視してかまいません。
130			編集時には削除しても適当なマークに置換してもかまいません。
131
132	wakaba	1.3	** マーク付け言語で適当な書式文字
133	wakaba	1.2
134			[10] <http://www.w3.org/TR/unicode-xml/#Format>
135			がマーク付け言語で使うのは適切だと言っている文字と、
136			その説明をどうぞ:
137
138			,符号位置 ,名前 ,メモ
139			,[CODE(char)[[[U+00A0]]]] ,[CODE(char)[[[NO-BREAK SPACE]]]]
140			,[CODE(char)[[[U+00AD]]]] ,[CODE(char)[[[SOFT HYPHEN]]]]
141			,[CODE(char)[[[U+034F]]]] ,[CODE(char)[[[COMBINING GRAPHEME JOINER]]]] ,>>11
142			,[CODE(char)[[[U+0600]]]] ,[CODE(char)[[[ARABIC NUMBER SIGN]]]]
143			,[CODE(char)[[[U+0601]]]] ,[CODE(char)[[[ARABIC SIGN SANAH]]]]
144			,[CODE(char)[[[U+0602]]]] ,[CODE(char)[[[ARABIC FOOTNOTE MARKER]]]]
145			,[CODE(char)[[[U+0603]]]] ,[CODE(char)[[[ARABIC SIGN SAFHA]]]]
146			,[CODE(char)[[[U+06DD]]]] ,[CODE(char)[[[ARABIC END OF AYAH]]]]
147			,[CODE(char)[[[U+070C]]]] ,[CODE(char)[[[SYRIAC HARKLEAN METOBELUS]]]]
148			,[CODE(char)[[[U+0F0C]]]] ,[CODE(char)[[[TIBETAN MARK DELIMITER TSHEG BSTAR]]]]
149			,[CODE(char)[[[U+180B]]]] ,[CODE(char)[[[MONGOLIAN FREE VARIATION SELECTOR ONE]]]]
150			,[CODE(char)[[[U+180C]]]] ,[CODE(char)[[[MONGOLIAN FREE VARIATION SELECTOR TWO]]]]
151			,[CODE(char)[[[U+180D]]]] ,[CODE(char)[[[MONGOLIAN FREE VARIATION SELECTOR THREE]]]]
152			,[CODE(char)[[[U+180E]]]] ,[CODE(char)[[[MONGOLIAN VOWEL SEPARATOR]]]]
153			,[CODE(char)[[[U+200C]]]] ,[CODE(char)[[[ZERO WIDTH NON-JOINER]]]]
154			,[CODE(char)[[[U+200D]]]] ,[CODE(char)[[[ZERO WIDTH JOINER]]]]
155			,[CODE(char)[[[U+200E]]]] ,[CODE(char)[[[LEFT-TO-RIGHT MARK]]]]
156			,[CODE(char)[[[U+200F]]]] ,[CODE(char)[[[RIGHT-TO-LEFT MARK]]]]
157			,[CODE(char)[[[U+2011]]]] ,[CODE(char)[[[NON-BREAKING HYPHEN]]]]
158			,[CODE(char)[[[U+202F]]]] ,[CODE(char)[[[NARROW NO-BREAK SPACE]]]]
159			,[CODE(char)[[[U+2044]]]] ,[CODE(char)[[[FRACTION SLASH]]]]
160			,[CODE(char)[[[U+2060]]]] ,[CODE(char)[[[WORD JOINER]]]]
161			,[CODE(char)[[[U+2061]]]] ,[CODE(char)[[[FUNCTION APPLICATION]]]]
162			,[CODE(char)[[[U+2062]]]] ,[CODE(char)[[[INVISIBLE TIMES]]]]
163			,[CODE(char)[[[U+2063]]]] ,[CODE(char)[[[INVISIBLE SEPARATOR]]]]
164			,[CODE(char)[[[U+2FF0]]]]〜[CODE(char)[[[U+2FFB]]]] ,Ideographic Description Characters
165			,[CODE(char)[[[U+303E]]]] ,[CODE(char)[[[IDEOGRAPHIC VARIATION INDICATOR]]]]
166			,"[CODE(char)[[[U+FE00]]]]〜[CODE(char)[[[U+FE0F]]]], [CODE(char)[[[U+E0100]]]]〜[CODE(char)[[[U+E01DF]]]]" ,Variation Selectors
167
168			[11] <http://www.w3.org/TR/2003/NOTE-unicode-xml-20030613/#Format>
169			では [Q[Combining Grapheme Joiner]]
170			が [CODE(char)[[[U+0363]]]] になっていますが、
171			[CODE(char)[U+0363]] は [CODE(char)[[[COMBINING LATIN SMALL LETTER A]]]] だったりします。
172
173			[12] ここに挙がっている文字は、大体は、純粋(謎)な文字としての表現と書式 (極端に言えば飾り) との区別が難しい表現を実現するためのものです。
174			[[ハイフン付け]]関係などは本来マーク + スタイル言語で実現するべきだとは思いますが、
175			スタイル言語の規格および実装が完成していない現状ではマーク付け言語で使っても仕方がないでしょう。
176			(といっても文字としても実装されている例はさほどないのだけど。)
177
178			ただし、 [CODE(char)[FRACTION SLASH]] などは、
179			[[MathML]] で実現できると書いているくらいですから、
180			不適当に分類するべきではないですか。
181
182	wakaba	1.3	** 互換写像を持つ文字
183	wakaba	1.2
184			[13] [[互換写像]]を持つ文字を含む文章をマークするときの処遇が
185			<http://www.w3.org/TR/unicode-xml/#Compatibility>
186			に書かれています。
187
188			互換写像を持つ文字には、丸付き文字、片仮名の組み文字、
189			全角文字、半角文字などが含まれます。
190			いずれも、本来は組版の機能により実現されるべきものですが、
191			文字コードの闇歴史で次々と実用化(wされてきました
192			(そして Unicode はそれを貪欲に取込んでいます)。
193
194			互換写像を持つ文字は、一般には機械的にマークに置き換えることはできません。
195			([[不思議マーク付け]]を機械的に [[Strict]] 化できないのと同じ理由。)
196			<http://www.w3.org/TR/unicode-xml/#Compatibility>
197			はどれは機械的に変換できて、どれはとりあえず残すべきかをまとめています。
198
199			互換写像を持つ文字は、マーク付けとスタイル指定で置き換えることができます。
200			ただし、 [[CSS]] ですべてを表現できるわけではありません。
201			たとえば丸付きは CSS では実現できません。
202			組み文字のように CSS 3 で実現しそうなものもあります。
203
204	wakaba	1.3	*** 表現情報付きの文字
205	wakaba	1.2
206			[14] <http://www.w3.org/TR/unicode-xml/#Generating>
207			によれば、「斜体の [Q[hello]]」はマークで実現するべきだが、
208			プランク定数 (斜体の [Q[h]]) は [CODE(char)[[[U+210E]]]]
209			を使うべきだと言っています。
210
211			[15] しかし >>14 のようなやり方には批判的な意見もあります。
212			文字コードが深い意味まで介入した結果が
213			[CODE(char)[U+1D400]]〜[CODE(char)[U+1D7FF]]
214			([Q[Mathematical Alphanumeric Symbols]]) です。
215			(数式では普通の [Q[a]] と太字の [Q[a]] と斜体の
216			[Q[a]] と・・・は意味が違うかもしれないから云々の結果、
217			数学用と称して太字だの斜体だの sans serif だの、
218			沢山の [Q[a]] が符号化されています。)
219
220	wakaba	1.3	** 非文字
221	wakaba	1.2
222			[16] [[非文字]]符号位置は、応用が内部で使ってもかまいませんが、情報交換に用いるべきではありません。
223			<http://www.w3.org/TR/unicode-xml/#Noncharacters>
224
225	wakaba	1.16	[DEL[
226	wakaba	1.2	[[XML1.1]] では非文字は除外されていますが、
227	wakaba	1.16	[[XML1.0]] は制定時期の関係から多くの非文字は除外されていません。
228			]DEL]
229	wakaba	1.23
230			* 応用
231
232			[FIG[
233			[3]
234			> The use of the word "character" in this document is in the sense of production [2] of [Extensible Markup Language (XML) 1.0 Recommendation (Third Edition)].
235
236			[FIGCAPTION[
237			[15] [CITE@EN[XQuery 1.0 and XPath 2.0 Functions and Operators (Second Edition)]]
238			<http://www.w3.org/TR/2010/REC-xpath-functions-20101214/#string-types>
239			]FIGCAPTION]
240			]FIG]