sos の 作業メモ

プログラミングや英会話学習、マイルや旅行、日常生活など。最近はWebFormなASP.NETのお守りがお仕事です。

日々の生活にhappyをプラスする|ハピタス Gポイント

文字コード超研究 19章 その2

文字コード「超」研究 改訂第2版

文字コード「超」研究 改訂第2版

前回の続き

19章 Unicode

ネット上のデータ

Unicodeの情報ならUnicorde Consortium、その中でも

UnicodeDataUnihan Databaseは外せない。

前者は全てのUnicodeの定義、後者はグリフも含めた漢字データを参照できる。

Han unification

Unicodeでは、中国/日本/韓国の漢字は一つにまとめられ、原規格のコード位置、順番は保存されていない。(字形が似たものに同じコードポイントが振られている)これをハンユニフィケーション(日本語訳は包摂)、またはCJK統合という。

ソース分離規則

Han unificationでどの字を包摂とするのかは、元の文字集合の規則に従う。元の規則で包摂されていないものは別の字体とすることになっている。

BLOCKS

ブロック毎のグリフや説明を参照するなら、ここのPDFが便利

絵文字

この本を読み始めた主目的です。

Unicodeのスカラー値と、3キャリアの絵文字の対応表

これでなんとかなりそう。


長かったこの章もあと20ページ(その後にperlでの実験が70ページありますが) 。

なんとなく全てのグリフを眺めてみましたが、やはり漢字は多いです。U+4E00〜U+9FFFが一つのブロックというのにも驚きですが、その包摂ぶりといったら…日本台湾中国韓国ベトナム、字形の似た字のなんと多いことか。そりゃー欧米人はまとめたがりますよね…そしてハングル完成形の字体も思っていたよりも遥かに多く、CJKだけでもうんざりという感想しかでてきませんでした…

次回へ続く