#?SuikaWiki/0.9

- [1] [[UCS]] の群・面・区・点各[[オクテット]]をそのまま並べた[[符号化方式]]。
- [2] 正式には[[4オクテット正規形]] (4 octet canonnical form) という。
- [3] [[Unicode]] の規定する [[UTF-32]] の[[超集合]]。
- [4] [[10646]] が Unicode に乗っ取られた時に、ただ2つだけ残ったのが文字を4オクテットで表すという考え方 (すなわち UCS-4) と、「[[BMP]]」という名前であると言われています。

[6]
>>5 UCS-4 は学習用の形式かよ。ひどい扱いだな。

[[#comment]]

* 仕様書から

[5] [[JIS X 0221]]‐1:2001 5. より UCS-4 関係を抜粋:

> この[[符号化文字集合]]の[[正規形式]]
(規格を理解するための形式) は、128個の3次元の[[群]]からなる一つの4次元[[符号化空間]]とみなすことができる。
:備考:
したがって、正規形式の[[最上位オクテット]]の[[ビット」」 8
は、適合する [[CCデータ要素]]中でそれが 0
に設定されている限り、[[装置]]内で内部処理に使うことができる。
> それぞれの群は、256個の2次元の[[面]]からなる。
各面は、256個の1次元の[[区]]からなり、
各区は256個の[[点]]からなる。この符号化空間の一つの点に一つの[[文字]]を割り当て、
符号化するか、又は点を未使用と宣言している。
>
正規形式では、4オクテットで各文字を表現し、
これらのオクテットは、それぞれ群、面、区及び点を指定する。
2オクテットでは世界中のすべての文字を収容できないこと及び32ビット表現が現在の処理系の体系になじむことから、
正規形式の4オクテット構成を採用した。
>
4オクテット正規形式は、4オクテットの符号化文字集合として使用でき、
この場合に、 UCS-4 と呼ぶ。

[7] [Q[6.2 文字の符号化]]より抜粋:
>
この符号化文字集合の正規形式では、符号化文字集合全体の中の各文字は、
4オクテットの列で表現する。この列の最上位オクテットは、
群オクテットとする。この列の最下位オクテットは、
点オクテットとする。したがって、この列は、
次のとおり表現できる。

[PRE[
最上位オクテット                           最下位オクテット
 群オクテット | 面オクテット | 区オクテット | 点オクテット
]PRE]

[8] [Q[6.3 オクテットの順序]] より:
> 文字を表現するオクテットの列及びその列の最上位端・最下位端は、 6.2 に示すとおりでなければならない。
オクテット列として[[直列化]]するときは、
上位のオクテットが下位のオクテットより先になければならない。
直列化しないときは、オクテットの順序は、
送受間の合意によって定めてよい [16.1 及び附属書 H (参考) 参照]。

[9]
>
:4オクテット正規形式:
この[[正規形式]]は、この規格群のすべての[[文字]]をそれぞれ 
4 オクテットで表現して使用できるようにする。
> 4 オクテット正規形式に適合した [[CCデータ要素]]中では、
すべての文字は、 6.2 の規定に従って、
[[群]]オクテット、[[面]]オクテット、[[区]]オクテット及び[[点]]オクテットからなる
4オクテットで表現しなければならない。
> 備考 4オクテット正規形式を使った[[符号化図形文字]]は、処理用として32ビットの[[整数型]]で実装してもよい。 (JIS X 0221‐1:2001 13.1)

* メモ