共通文字表現形式:32ビット2ワードセット

Universal Characters Representation Format with 32 bits 2 words set

Sicodeの代表的な符号化方式の一つ。

32ビットをベースとして各コードポイントを32ビット又は64ビットにエンコードする(どちらを用いるかは領域ごとに定義)。1デュアル(dual)が2ビット、1ニブル(nibble)が4ビット(bit)、1バイト(byte)が8ビット、1ハーフ(half)が16ビット即ち2バイト、1ワード(word)が32ビット即ち4バイト、1ダブル(double)が64ビット即ち8バイト即ち2ワード、1クアッド(quad)が128ビット即ち16バイト即ち4ワード、1ロング(long)が256ビット即ち32バイト即ち8ワード、1セデック(sedec)が512ビット即ち64バイト即ち16ワード、1トリジンド(trigind)が1024ビット即ち128バイト即ち32ワードと定義する。

ビッグエンディアン(BE)及びリトルエンディアン(LE)の双方に対応するが、原則としてビッグエンディアンを用い、これを既定とする。リトルエンディアンを用いることは推奨しない。

マジックナンバーとして1ワード(4バイト, 32ビット)×2=2ワード(8バイト, 64ビット)を冒頭に確保する。Hex表記で以下通りである。

BE:FE 00 C0 A1 93 FD 8C FE

LE:FE 00 C0 A1 93 FE 8C FD

※コメント:このマジックナンバーにより、少なくともASCII, UTF8, UTF16, UTF32, ShiftJIS, EUC-JPと混同することを避けられる。冒頭1ワードがUnicode対策、続く2ワードがShiftJIS & EUC-JP対策である。後者はBOMを兼ねる。詳細は付属の技術資料を参照のこと