人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

PerlのHTML::TokeParser::Simpleモジュールでhtmlをパースし、日本語の本文を取り出しているのですが、javascriptのソースコードが残ってしまうことが多々あります。

例)
var gaJsHost = (("https:" == document.location.protocol) ? "https://ssl." : "http://www.");
document.write(unescape("%3Cscript src=" + gaJsHost + "google-analytics.com/ga.js type=text/javascript%3E%3C/script%3E"));
try {
var pageTracker = _gat._getTracker("UA-10978505-1");
pageTracker._setDomainName(".decoo.jp");
pageTracker._trackPageview();
} catch(err) {}

たとえば、5文字以上日本語以外の文字列を除去するといった場合、どのようなソースを書けば取り除けるでしょうか。
その置換のソースをご教示願えれば幸いです。
置換でなくても、解決できる方法があればご教示下さい。
ちなみに、HTML::TokeParser::Simpleにはsjisで読み込ませています。
よろしくお願い申し上げます。

●質問者: kazumichi
●カテゴリ:コンピュータ ウェブ制作
✍キーワード:.jp Catch GA Google HTML
○ 状態 :キャンセル
└ 回答数 : 0/0件

回答がありません
関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ