人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

HTML::Scrubberについて教えて頂けますでしょうか。

httpでxmlを取得してタグ処理を行っているのですが、
altに日本語が入っていると文字化けを起こしてしまいます。

仕様ならば仕方が無いと思っていますが、
解決策、又は原因をご存知の方いらっしゃいましたらよろしくお願いします。

xml内に書かれているタグを処理するために、下記のようなコードを使っています。

perl v5.8.8
入力側:utf-8
受け取り側:euc-jp


$scrubber = HTML::Scrubber->new;
$scrubber->rules(
img=>{
"src" => qr{^https?://}i,
"width"=>1,
"height"=>1,
"border"=>1,
"alt" =>1,
},
)

$inputfile = Unicode::Japanese->new($inputfile,'utf8')->euc();
$inputfile = $scrubber->scrub($inputfile);
(文法ミスなどはご容赦下さい。動いてはいます)

●質問者: 波乗りおっさん
●カテゴリ:コンピュータ ウェブ制作
✍キーワード:border EUC EUC-JP HTML HTTP
○ 状態 :終了
└ 回答数 : 1/1件

▽最新の回答へ

1 ● redwing1
●60ポイント ベストアンサー

文字コード処理をかましてみたらどうですか?

http://ash.jp/ash/src/code/

http://perltips.twinkle.cc/perl/character_code.php

◎質問者からの返答

ありがとうございます。

検討してみます。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ