[10] > :文字 (character): [[データ]]の[[構成]]、[[制御]]又は[[表現]]に用いる[[構成単位]]の[[集合]]の[[要素]]。 [SRC[[[JIS X 0202]]:1998 4.3, [[JIS X 0201]]:1997 3.15]] [7] > :文字 (character): データの構成、制御又は表現に用いる要素の集合の構成単位。 ([[JIS X 0221]]‐1:2001 4.6) [8] > JIS X 0221 で規定される[[制御機能]]の多くのものの定義では、その制御機能が動作する要素を識別するために、 「文字」という語が現れる。そのような制御機能が、 この規格群に従った[[符号化文字]]に適用される場合、 それらの制御機能の動作は、その制御機能が動作する対象の要素 (又は文字) であるとして応用が選択したこの規格群の要素の種類に依ることになろう。 これらの要素は、文字 ([[基底文字]], [[結合文字]]又は両方) として選ばれてよく、適切であれば他の方法によって (例えば、[[合成列]]として) 選ばれてもよい。 (JIS X 0221‐1:2001 15. UCS での制御機能の使用 備考) [9] >文字のもつ意味は、この規格群では規定しない。 これは、[[国]]によって異なったり、 [[適用業務]]によって異なったりする。 (JIS X 0221‐1:2001 17. より) - [1] この定義も SGML の定義も、わかりやすくいってしまえば[[テクストは文字の集合]]ということですわな。別に[[坂村健]]が新しいことを言ったわけじゃないってことですかな。 *文字及び文字集合の種類 -[[固定符号化文字]] -符号化[[図形文字集合]] -符号化[[制御機能]]集合 -符号化単独追加制御機能 ([[JISX0202]]:1998 6.1より) *SGML での定義 [3] >[[文字レパートリ]]で定義されて個々に意味をもつ情報の[RUBYB[原子] [atom]]。 備考1. [[図形文字]]及び[[制御文字]]の2種類がある。 2. 文字は、文脈上に出現し、[[マーク]]又は[[データ内容記法]]によって定義され、文字レパートリの中でその意味を変更又は補足する。 ([[JISX4151]]‐1992 (274)) - [5] [CODE(ABNF)[[DFN[文字]] := [[SGML文字]] / [[NONSGML]] ;; (49)]] [[#comment]] * HTML での定義 [6] [[情報]]の最小要素、例えば[[字]] ([[letter]]) や[[数字]]。[[図形文字]]は関連付けられた[[グリフ]]を持ち、 [[制御文字]]は関連付けられた処理意味を持つ。 ([[RFC1866]], [[ISO‐HTML]] 4.2 参照。) * 関連 [11] 本項に挙げた「[[文字]]」は[[情報]]の単位要素を表しますが、これと異なる「[[文字]]」 の定義もあります。 [[C]] の「[[文字]]」は「[[バイト値]]」に近いものです。 [[POSIX]] の「[[文字]]」は「[[図形文字]]を表す[[バイト列]]」です。 * Unicode 文字 (ECMAScript) [12] >The phrase “[[Unicode character]]” will be used to refer to the abstract linguistic or typographical unit represented by a single [[Unicode scalar value]] (which may be longer than 16 bits and thus may be represented by more than one [[code point]]). This only refers to entities represented by single [[Unicode scalar values]]: the components of a [[combining character sequence]] are still individual “[[Unicode characters]],” even though a [[user]] might think of the whole sequence as a single [[character]]. ;; [CITE[ECMAScript Language Specification (HTML version)]] ([TIME[2009-04-03 04:43:48 +09:00]] 版) ** 関連 [13] [[ES3]] 仕様書では[[16ビット符号単位]]に「[[文字]]」という語を当てているため、 [[Unicode]] における本来の「[[文字]]」の意味で「[[Unicode文字]]」という語を用いています。 [14] [CITE@en[(X)HTML5 Tracking]] ([TIME[2009-09-16 23:13:02 +09:00]] 版)