#?SuikaWiki/0.9 - [1] [[UCS]] の群・面・区・点各[[オクテット]]をそのまま並べた[[符号化方式]]。 - [2] 正式には[[4オクテット正規形]] (4 octet canonnical form) という。 - [3] [[Unicode]] の規定する [[UTF-32]] の[[超集合]]。 - [4] [[10646]] が Unicode に乗っ取られた時に、ただ2つだけ残ったのが文字を4オクテットで表すという考え方 (すなわち UCS-4) と、「[[BMP]]」という名前であると言われています。 [6] >>5 UCS-4 は学習用の形式かよ。ひどい扱いだな。 [[#comment]] * 仕様書から [5] [[JIS X 0221]]‐1:2001 5. より UCS-4 関係を抜粋: > この[[符号化文字集合]]の[[正規形式]] (規格を理解するための形式) は、128個の3次元の[[群]]からなる一つの4次元[[符号化空間]]とみなすことができる。 :備考: したがって、正規形式の[[最上位オクテット]]の[[ビット」」 8 は、適合する [[CCデータ要素]]中でそれが 0 に設定されている限り、[[装置]]内で内部処理に使うことができる。 > それぞれの群は、256個の2次元の[[面]]からなる。 各面は、256個の1次元の[[区]]からなり、 各区は256個の[[点]]からなる。この符号化空間の一つの点に一つの[[文字]]を割り当て、 符号化するか、又は点を未使用と宣言している。 > 正規形式では、4オクテットで各文字を表現し、 これらのオクテットは、それぞれ群、面、区及び点を指定する。 2オクテットでは世界中のすべての文字を収容できないこと及び32ビット表現が現在の処理系の体系になじむことから、 正規形式の4オクテット構成を採用した。 > 4オクテット正規形式は、4オクテットの符号化文字集合として使用でき、 この場合に、 UCS-4 と呼ぶ。 [7] [Q[6.2 文字の符号化]]より抜粋: > この符号化文字集合の正規形式では、符号化文字集合全体の中の各文字は、 4オクテットの列で表現する。この列の最上位オクテットは、 群オクテットとする。この列の最下位オクテットは、 点オクテットとする。したがって、この列は、 次のとおり表現できる。 [PRE[ 最上位オクテット 最下位オクテット 群オクテット | 面オクテット | 区オクテット | 点オクテット ]PRE] [8] [Q[6.3 オクテットの順序]] より: > 文字を表現するオクテットの列及びその列の最上位端・最下位端は、 6.2 に示すとおりでなければならない。 オクテット列として[[直列化]]するときは、 上位のオクテットが下位のオクテットより先になければならない。 直列化しないときは、オクテットの順序は、 送受間の合意によって定めてよい [16.1 及び附属書 H (参考) 参照]。 [9] > :4オクテット正規形式: この[[正規形式]]は、この規格群のすべての[[文字]]をそれぞれ 4 オクテットで表現して使用できるようにする。 > 4 オクテット正規形式に適合した [[CCデータ要素]]中では、 すべての文字は、 6.2 の規定に従って、 [[群]]オクテット、[[面]]オクテット、[[区]]オクテット及び[[点]]オクテットからなる 4オクテットで表現しなければならない。 > 備考 4オクテット正規形式を使った[[符号化図形文字]]は、処理用として32ビットの[[整数型]]で実装してもよい。 (JIS X 0221‐1:2001 13.1) * メモ