シフトJIS では、第3水準・第4水準の漢字を扱えないのか? (3)-文字集合と符号化-

文字コードを語る上で必須なのが、文字集合と符号化の理解である。
文字集合は、その名の通り、当該文字コードで規定されている文字の集合である。
符号化は、各々の文字に番号を割り当てることと言っても良いのだが、注意が必要だ。ASCII のような古典的な文字コードの場合、各々の文字に割り当てられたコードポイントが、そのままコンピュータ上の符号になっていることもあるが、シフトJISEUC-JP などの場合、ASCII や JIS X 0201 のコードポイント、JIS X 0208JIS X 0212 の区点、JIS X 0213 の面区点という、各々の文字に割り当てられた番号をコンピュータ上のバイト列に変換する符号化が存在する。
Unicode の場合、(JIS X 0208JIS X 0212JIS X 0213などを含む)各国の文字コードに存在する文字が集計された上で、各文字に一つの code point が割り当てられる。例えば、U+56AC は、「嚬」に割り当てられた Unicode code point である。これを、code units として表現する方式が encoding forms であり、UTF-8UTF-16UTF-32 が存在する。さらに、これらが実際どのバイトオーダーでコンピュータに格納されるのかが、encoding schemes であり、UTF-8UTF-16、UTF-16BE、UTF-16LE、UTF-32、UTF-32BE、UTF-32LE が存在する。UTF-8 の場合、ビッグエンディアンとリトルエンディアンは存在しない。E5 9A AC というバイト列は、「嚬」という文字を UTF-8 で実際に符号化した結果である。