だいたいASCIIは1byte、全角文字は2byte、半角カタカナは3byteのようですが、全角文字でも3byte消費するものがあるようです。うむう。
こういうことです。
0x0000~0x007F が1
0x0080~0x07FF が2
0x0800~0xFFFF が3バイトです。
大体の分布はページのいちばん下に。
http://www.kishugiken.co.jp/cn/code06c.html
紀州技研工業・文字コードの話/ユニコード表
具体的にはこの表でその文字のユニコードのコード番号がわかります。
http://www-1.ibm.com/support/docview.wss?uid=std3156b13ecba020ba...
IBM - DB2: UTF-8の日本語DBCSのバイト長
いえ、全角もたいてい3バイトみたいですよ。
半角カタカナについては3バイトですね。
回答ありがとうございます。
どうやら我々は大変な思い違いを(以下略)
な、なんだっ(以下略)
回答ありがとうございます。
よくわかりました。