文字コード超研究１９章その２

文字コード「超」研究　改訂第2版

作者: 深沢千尋
出版社/メーカー: ラトルズ
発売日: 2011/07/19
メディア: 単行本（ソフトカバー）
購入: 2人クリック: 8回
この商品を含むブログ (4件) を見る

前回の続き

１９章 Unicode

ネット上のデータ

Unicodeの情報ならUnicorde Consortium、その中でも

UnicodeDataと Unihan Databaseは外せない。

前者は全てのUnicodeの定義、後者はグリフも含めた漢字データを参照できる。

Han unification

Unicodeでは、中国/日本/韓国の漢字は一つにまとめられ、原規格のコード位置、順番は保存されていない。(字形が似たものに同じコードポイントが振られている)これをハンユニフィケーション(日本語訳は包摂)、またはCJK統合という。

ソース分離規則

Han unificationでどの字を包摂とするのかは、元の文字集合の規則に従う。元の規則で包摂されていないものは別の字体とすることになっている。

BLOCKS

ブロック毎のグリフや説明を参照するなら、ここのPDFが便利

絵文字

この本を読み始めた主目的です。

Unicodeのスカラー値と、３キャリアの絵文字の対応表

これでなんとかなりそう。

長かったこの章もあと20ページ(その後にperlでの実験が70ページありますが) 。

なんとなく全てのグリフを眺めてみましたが、やはり漢字は多いです。U+4E00〜U+9FFFが一つのブロックというのにも驚きですが、その包摂ぶりといったら…日本台湾中国韓国ベトナム、字形の似た字のなんと多いことか。そりゃー欧米人はまとめたがりますよね…そしてハングル完成形の字体も思っていたよりも遥かに多く、CJKだけでもうんざりという感想しかでてきませんでした…

次回へ続く

sos の作業メモ

プログラミングや英会話学習、マイルや旅行、日常生活など。最近はWebFormなASP.NETのお守りがお仕事です。