よろしくお願いします。
UTF-8 (Unicode) と考えますと、以下で宜しいでしょうか。
Chinese Character Codes
Unicode Character Map, 0x4E00 - 0x4FFF
Unicode Character Map, 0x5000 - 0x5FFF
Unicode Character Map, 0x6000 - 0x6FFF
Unicode Character Map, 0x7000 - 0x7FFF
Unicode Character Map, 0x8000 - 0x8FFF
Unicode Character Map, 0x9000 - 0x9FFF
上記はリンク先が分かれているのが難点です。これでも実用面では問題無さそうだとは思うのですが、より完全なものが以下にあります。
CJK Unified Ideographs Range: 4E00-9FCF The Unicode Standard, Version 5.2.
http://unicode.org/charts/PDF/U4E00.pdf
但し、アクセスする際には注意して下さい。全 609 ページ、33 MB もある PDF ファイルです。
非常に重たいどころの騒ぎではない様な PDF ですので、それを覚悟した上の閲覧をお願いします。
(直接アクセスではなく、一度対象をローカルに保存してから閲覧した方が宜しいかと)
Unicodeとの変換表であれば、unicode.orgから入手できます。
big5 ←→ UTF-16(BIG5=台湾・香港等の繁体系中国語文字コード)
CN11643 ←→ UTF-16(CN11643=大陸の簡体系中国語文字コード)
テキストファイルなのでプログラムからの利用が容易です。
UTF-16からUTF-8は機械的な簡単な計算で求められます。(Wikipediaに簡単な解説あり)
UTF-16 (16進表記) | UTF-16 (2進表記) | UTF-8 (2進表記) |
0x00~0x7F | 000000000xxxxxxx | 0xxxxxxx |
0x80~0x7FF | 00000xxxxxyyyyyy | 110xxxxx 10yyyyyy |
0x800~0xFFFF | xxxxyyyyyyzzzzzz | 1110xxxx 10yyyyyy 10zzzzzz |
なければ作る、がモットーなので(えー)作ってみました。
どうでしょう?
大変参考になりました。どうもありがとうございます。