sos の 作業メモ

プログラミングや英会話学習、マイルや旅行、日常生活など。最近はWebFormなASP.NETのお守りがお仕事です。

日々の生活にhappyをプラスする|ハピタス Gポイント

文字コード超研究 11章〜12章

文字コード「超」研究 改訂第2版

文字コード「超」研究 改訂第2版

前回の続き

11章 ISO 8859-1

西ヨーロッパの言語用文字コード系。ISO 8859のシリーズの一つで、破棄された12を除く1から16までの15種類が定義されている。8ビット構造の JIS X 0201に似た構造の、左側にASCII、右側に西ヨーロッパ文字が割り当てられる。分音符号付の文字と、分音符号のみの両方が定義されている。

西ヨーロッパは、同じ国でも地方によってどの文字が必要とされるかが複雑に入り混じっているせいで、文字化けの問題が日本よりも深刻らしく、Unicodeへの期待が大きいのもそのためだそうだ。

ISO-8859-1

IANAがISO 8859-1を下敷きにしてC0,C1制御文字を追加したものをIOS_8859-1:1997として登録し、MIME名として定義したもの。広く利用されている。

12章 JIS X 0208

1978年に日本で制定(当時はJIS C 6226)された。ひらがな、カタカナ、JIS第1水準、JIS第2水準、ローマ字、アラビア数字、ギリシャ文字(αβγ…)、各種記号を含んでいる。当初はJIS X 0201(JIS C 6220)を置き換える目的だったが、0201にあって0208にない文字等があるため両方が使われている。

1文字を2バイトの組で表し、第1バイトを区、第2バイトを点としてコード化する。(例:01-01は全角空白) 9-15区、85区以上は未定義領域(文字が定義されている環境も存在するが、あくまで機種依存)

  • JIS X 0208-1978 : 1978年に制定
  • JIS X 0208-1983 : 1983年に大改訂
  • JIS X 0208-1990 : 1990年に小規模な改訂
  • JIS X 0208-1997 : 1997年に字形の範囲内の揺れを示す包摂基準を明確化

ISO 2022では、一文字でも字が異なると違う文字集合として登録しないといけないため、78JIS,83JIS,90JISは別のエスケープシーケンスが割り当てられている。(97JISでは字体や字形の変更がないので90JISと同じ)

独立した文字コード系だが、Shift_JISEUC-JP、ISO-2022-JPに文字レパートリーを提供する符号化文字集合でもある。これらのコード系での相互変換が比較的容易なのはこのためである。

文字種

  • 1〜2区 - 各種記号
  • 3区 - アラビア数字とラテンアルファベット(全角ローマ字)
  • 4区 - ひらがな
  • 5区 - カタカナ
  • 6区 - ギリシャ文字
  • 7区 - キリル文字(ロシア文字)
  • 8区 - 罫線素片
  • 9〜15区 - JIS X 0208では未定義領域だが、機種依存文字や外字の領域として使われている
  • 16〜47区 - JIS第1水準漢字
  • 48〜83区 - JIS第2水準漢字
  • 84区 - 追加漢字
  • 85〜94区 - 未定義領域 こちらも機種依存文字等で勝手に使われている

さすがにこの辺りになると、日本語の文字の成り立ちまで絡んで、読んでいて非常に楽しいです。

次回へ続く