文字コード超研究１１章〜１２章

作者: 深沢千尋
出版社/メーカー: ラトルズ
発売日: 2011/07/19
メディア: 単行本（ソフトカバー）
購入: 2人クリック: 8回
この商品を含むブログ (4件) を見る

前回の続き

１１章 ISO 8859-1

西ヨーロッパの言語用文字コード系。ISO 8859のシリーズの一つで、破棄された12を除く1から16までの15種類が定義されている。8ビット構造の JIS X 0201に似た構造の、左側にASCII、右側に西ヨーロッパ文字が割り当てられる。分音符号付の文字と、分音符号のみの両方が定義されている。

西ヨーロッパは、同じ国でも地方によってどの文字が必要とされるかが複雑に入り混じっているせいで、文字化けの問題が日本よりも深刻らしく、Unicodeへの期待が大きいのもそのためだそうだ。

ISO-8859-1

IANAがISO 8859-1を下敷きにしてC0,C1制御文字を追加したものをIOS_8859-1:1997として登録し、MIME名として定義したもの。広く利用されている。

１２章 JIS X 0208

1978年に日本で制定(当時はJIS C 6226)された。ひらがな、カタカナ、JIS第１水準、JIS第２水準、ローマ字、アラビア数字、ギリシャ文字(αβγ…)、各種記号を含んでいる。当初はJIS X 0201(JIS C 6220)を置き換える目的だったが、0201にあって0208にない文字等があるため両方が使われている。

１文字を２バイトの組で表し、第１バイトを区、第２バイトを点としてコード化する。(例:01-01は全角空白) 9-15区、85区以上は未定義領域(文字が定義されている環境も存在するが、あくまで機種依存)

JIS X 0208-1978 : 1978年に制定
JIS X 0208-1983 : 1983年に大改訂
JIS X 0208-1990 : 1990年に小規模な改訂
JIS X 0208-1997 : 1997年に字形の範囲内の揺れを示す包摂基準を明確化

ISO 2022では、一文字でも字が異なると違う文字集合として登録しないといけないため、78JIS,83JIS,90JISは別のエスケープシーケンスが割り当てられている。(97JISでは字体や字形の変更がないので90JISと同じ)

独立した文字コード系だが、Shift_JISやEUC-JP、ISO-2022-JPに文字レパートリーを提供する符号化文字集合でもある。これらのコード系での相互変換が比較的容易なのはこのためである。

文字種

１〜２区 - 各種記号
３区 - アラビア数字とラテンアルファベット(全角ローマ字)
４区 - ひらがな
５区 - カタカナ
６区 - ギリシャ文字
７区 - キリル文字(ロシア文字)
８区 - 罫線素片
９〜15区 - JIS X 0208では未定義領域だが、機種依存文字や外字の領域として使われている
16〜47区 - JIS第１水準漢字
48〜83区 - JIS第２水準漢字
84区 - 追加漢字
85〜94区 - 未定義領域こちらも機種依存文字等で勝手に使われている

さすがにこの辺りになると、日本語の文字の成り立ちまで絡んで、読んでいて非常に楽しいです。

次回へ続く

sos の作業メモ

プログラミングや英会話学習、マイルや旅行、日常生活など。最近はWebFormなASP.NETのお守りがお仕事です。

文字コード超研究１１章〜１２章

１１章 ISO 8859-1

ISO-8859-1

１２章 JIS X 0208

文字種