httpでxmlを取得してタグ処理を行っているのですが、
altに日本語が入っていると文字化けを起こしてしまいます。
仕様ならば仕方が無いと思っていますが、
解決策、又は原因をご存知の方いらっしゃいましたらよろしくお願いします。
xml内に書かれているタグを処理するために、下記のようなコードを使っています。
perl v5.8.8
入力側:utf-8
受け取り側:euc-jp
$scrubber = HTML::Scrubber->new;
$scrubber->rules(
img=>{
"src" => qr{^https?://}i,
"width"=>1,
"height"=>1,
"border"=>1,
"alt" =>1,
},
)
$inputfile = Unicode::Japanese->new($inputfile,'utf8')->euc();
$inputfile = $scrubber->scrub($inputfile);
(文法ミスなどはご容赦下さい。動いてはいます)
ありがとうございます。
検討してみます。