文字コード超研究 19章 その2
- 作者: 深沢千尋
- 出版社/メーカー: ラトルズ
- 発売日: 2011/07/19
- メディア: 単行本(ソフトカバー)
- 購入: 2人 クリック: 8回
- この商品を含むブログ (4件) を見る
前回の続き
19章 Unicode
ネット上のデータ
Unicodeの情報ならUnicorde Consortium、その中でも
UnicodeDataと Unihan Databaseは外せない。
前者は全てのUnicodeの定義、後者はグリフも含めた漢字データを参照できる。
Han unification
Unicodeでは、中国/日本/韓国の漢字は一つにまとめられ、原規格のコード位置、順番は保存されていない。(字形が似たものに同じコードポイントが振られている)これをハンユニフィケーション(日本語訳は包摂)、またはCJK統合という。
ソース分離規則
Han unificationでどの字を包摂とするのかは、元の文字集合の規則に従う。元の規則で包摂されていないものは別の字体とすることになっている。
BLOCKS
ブロック毎のグリフや説明を参照するなら、ここのPDFが便利
絵文字
この本を読み始めた主目的です。
これでなんとかなりそう。
長かったこの章もあと20ページ(その後にperlでの実験が70ページありますが) 。
なんとなく全てのグリフを眺めてみましたが、やはり漢字は多いです。U+4E00〜U+9FFFが一つのブロックというのにも驚きですが、その包摂ぶりといったら…日本台湾中国韓国ベトナム、字形の似た字のなんと多いことか。そりゃー欧米人はまとめたがりますよね…そしてハングル完成形の字体も思っていたよりも遥かに多く、CJKだけでもうんざりという感想しかでてきませんでした…
次回へ続く