文字コード

シフトJIS では、第3水準・第4水準の漢字を扱えないのか? 番外編(1)-JIS X 0213 が第1面に追加した非漢字を何と呼ぶか?-

2000年版の JIS X 0213 は、JIS X 0208 で規定されていた6879文字に4344文字加えて、計11223文字を規定している。JIS X 0208 に比べて増えた文字は、第1面に1908文字、第2面に2436文字である。第2面の2436文字は全て第4水準漢字である。第1面に追加した1908…

シフトJIS では、第3水準・第4水準の漢字を扱えないのか? (5)-JIS X 0213 を使うシフトJIS もある-

前回、シフトJIS は文字集合として JIS X 0201 と JIS X 0208 を使っていると書いたが、JIS X 0208 の代わりに JIS X 0213 を使うシフトJIS が存在する。その名も、Shift_JISX0213 で、JIS X 0213 の附属書に規定されている。先ず、JIS X 0213 について説明…

シフトJIS では、第3水準・第4水準の漢字を扱えないのか? (4)-シフトJIS の成り立ち-

シフトJIS の成り立ちには、歴史的な経緯がある。この辺の話は、『インターネット時代の文字コード』(共立出版、2002年;現在は絶版)に詳しく書かれている。本稿も、かなりの部分、この本を参考にさせていただいた。1969年に JIS X 0201 が制定された。こ…

秀丸エディタの「ファイルを読み込みし直す」と「内容を維持したまま適用」

秀丸エディタでエンコードの種類を切り替える時、メッセージボックスが出て来て、「ファイルを読み込みし直す」か「内容を維持したまま適用」するか、キャンセルするかの選択を求められる。「ファイルを読み込みし直す」を選択すると、選択されたエンコード…

シフトJIS では、第3水準・第4水準の漢字を扱えないのか? (3)-文字集合と符号化-

文字コードを語る上で必須なのが、文字集合と符号化の理解である。文字集合は、その名の通り、当該文字コードで規定されている文字の集合である。符号化は、各々の文字に番号を割り当てることと言っても良いのだが、注意が必要だ。ASCII のような古典的な文…

シフトJIS では、第3水準・第4水準の漢字を扱えないのか? (2)-第1~第4水準とは何か-

第1水準、第2水準、第3水準、第4水準は、JIS 漢字における区分である。更に言えば、JIS X 0208 と JIS X 0213 における区分である。JIS X 0208 は、1978年に制定され、その後何度か改正され、2000年には、JIS X 0213 が制定された。JIS X 0213 で規定される…

シフトJIS では、第3水準・第4水準の漢字を扱えないのか?

例えば、「嚬」という字である。これを秀丸エディタでエンコードの種類を「日本語(Shift-JIS)」で保存しようとしても出来ない。Microsoft IME で調べてみると、Unicode: U+56AC だが、Shift JIS の欄には該当するコード無しである。秀丸エディタの[表示]->…