HTML::Scrubberについて教えて頂けますでしょうか。


httpでxmlを取得してタグ処理を行っているのですが、
altに日本語が入っていると文字化けを起こしてしまいます。

仕様ならば仕方が無いと思っていますが、
解決策、又は原因をご存知の方いらっしゃいましたらよろしくお願いします。

xml内に書かれているタグを処理するために、下記のようなコードを使っています。

perl v5.8.8
入力側:utf-8
受け取り側:euc-jp


$scrubber = HTML::Scrubber->new;
$scrubber->rules(
img=>{
"src" => qr{^https?://}i,
"width"=>1,
"height"=>1,
"border"=>1,
"alt" =>1,
},
)

$inputfile = Unicode::Japanese->new($inputfile,'utf8')->euc();
$inputfile = $scrubber->scrub($inputfile);
(文法ミスなどはご容赦下さい。動いてはいます)

回答の条件
  • 1人2回まで
  • 登録:
  • 終了:2008/05/26 10:40:30
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

ベストアンサー

id:redwing1 No.1

回答回数541ベストアンサー獲得回数3

ポイント60pt

文字コード処理をかましてみたらどうですか?

http://ash.jp/ash/src/code/

http://perltips.twinkle.cc/perl/character_code.php

id:sssc

ありがとうございます。

検討してみます。

2008/05/26 10:39:37

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません