日本語文字列をHTMLエンティティに変換したいのですが、
どうやってもうまくいきません。
どうやればいいのか教えてください。
# ちなみにJavascriptでやれっていうのはなしです。
数値参照文字や文字参照文字(実体参照文字)のことでしょうか。
何の用途に使用したのかが分かりませんが、これらのコード番号は
Unicodeです。
文字列を一度Unicodeに変換しないとできないのではないでしょうか。
因みに、UTF-8やUTF-16ではないのでご注意下さい。
数値参照文字や文字参照文字(実体参照文字)のことでしょうか。
何の用途に使用したのかが分かりませんが、これらのコード番号は
Unicodeです。
文字列を一度Unicodeに変換しないとできないのではないでしょうか。
因みに、UTF-8やUTF-16ではないのでご注意下さい。
用途に関しては、RSSなんかで機種依存文字が含まれたりしたとき、パースエラーを起こさないようにするとかそういう系です。
Unicode系のモジュールを調べてみます。
http://ab.jpn.ph/soft/html_hen.html
こんなソフトを利用されるのは、いかがでしょう?
メールアドレスだけ、全て、ランダムなどの設定があるようなので、対応できますか? もし、日本語文字列だけなら、その部分だけのHTMLファイルを作れば、変換されるでしょう。上手く使ってみてください。
いや、サーバサイドでやりたいんです。
Javascriptやその他Softwareでできるのはわかっているのですが。
$str = '日本語文字列';
$str =~ s/(.)/''.ord($1).';'/eg;
print $str;
こんなもんで。
日本語だけでなく英数記号も全てエンティティ化されます。
ASCII文字は問題なかったのですが、日本語が文字化けしました。文字コードはUTF-8なのですが。フラグとかが怪しいのかな?
もう少し質問を続けます。
追記:
Unicode::Escapeというモジュールを利用してできました。
用途に関しては、RSSなんかで機種依存文字が含まれたりしたとき、パースエラーを起こさないようにするとかそういう系です。
Unicode系のモジュールを調べてみます。