「ゥ Copyright 2002.」
の様な表記がありました。
1文字目の「ゥ」は文字化けの様な気がしますが実際のところどうなんでしょう?
なるべく詳しく知りたいです。
※TeraPad Ver0.88で開きました
※TeraPadにて開くと、Shift-Jis 改行コードはLFとなります
※「ゥ」以外に日本語は含んでいないテキストです
※「ゥ」は半角文字のようです
おそらくUNICODE表記のホームページです
Copyright © 2002
のように(c)の特殊記号が日本語環境だと「ゥ」のように化けます
そのページをSHIFT-JISで開いた時とUNICODE(UTF-8)で開いた時を比較してみてください
上のページのようにUNICODEで文字コードの 0xa9は(c)ですが
SHIFTJISではカナ半角のゥになるわけです
http://software.nikkeibp.co.jp/software/special/jiscode/nc.html
$BF|7P%=%U%H%&%(%"!!(JJIS$B4A;z%3!<%I(J
よく(C)Copyrightと書いてある(C)の部分©(著作権を表す)特殊文字です。
以下引用(詳細は上記ページで確認してください)。
例えば7ビット・コードのISO/IEC646をベースにした8ビット・コードISO/IEC8859-1(通称Latin-1)では著作権を表すマーク(Cを○で囲んだもの)がある。この文字はシフトJISのコード体系では小さい(半角の)「ゥ」になる。WWWページなどで「Copyrightゥ…」となっている表示は,この理由による文字化けが起こっているのである。
ご回答ありがとうございます
「(C)」(ここではカッコつきの3文字で書いてありますが実際は一文字)を示しています。InternetExplorerではエンコードから「西ヨーロッパ言語」を選択すると「(C)」という表示になります。また「日本語」を選択すると「ゥ」(半角)になります。
実際の文字コードとしては16進数でのA9を示しています。LFは16進数で0Aであり同じではありませんが、TeraPadではおそらく認識できない文字をこのように表示しているのだと思います。バイナリエディタで開くとA9となると思います。
このように一文字のASCII文字は文字コードとして00~7Fまでは国際的に共通な文字(a~zや0~9などの文字やLFなど)が定義されています。
しかしそれ以降の80~FFまでは拡張領域として国ごとに独自の文字が定義されています。日本では半角カナなどが定義されています。しかし西欧のASCIIでは半角カナは定義されずほかの文字が割り当てられています。そのため「ウ」などの表示になっています。
ご回答ありがとうございます
http://www.utoronto.ca/webdocs/HTMLdocs/NewHTML/iso_table.html
ISO 8859-1 (Latin-1) Characters List
このページを開いて、ブラウザのエンコードを「日本語 シフトJIS」と「西ヨーロッパ ISO」と
切替えてみてください。
そのとき、「★ 169 a9 ©」のようになっている部分の★が「ウ」と「©」に
入れ替わるのがわかると思います。
英語圏の文字と日本語(Shift_JIS) では、ひとつの「文字を表す番号」を別の形の文字が
使うことになってしまったのでこのようなことが起こります。
ご回答ありがとうございます
http://www.law.co.jp/jpnic/nicdoc041.htm
Web�R���e���c�ƒm�I���Y �S�|�P
該当フォントが無いことによる著作権マーク(○の中にc)の文字化けだと思います。
ご回答ありがとうございます。
TeraPadにて文字コード指定読込をしたところ、UTF-8Nで「ゥ」が「c」となりました。
TeraPadには「©」を表示出来ないようなので「©」でなく「c」でしたが。