PerlのHTML::TokeParser::Simpleモジュールでhtmlをパースし、日本語の本文を取り出しているのですが、javascriptのソースコードが残ってしまうことが多々あります。


例)
var gaJsHost = (("https:" == document.location.protocol) ? "https://ssl." : "http://www.");
document.write(unescape("%3Cscript src=" + gaJsHost + "google-analytics.com/ga.js type=text/javascript%3E%3C/script%3E"));
try {
var pageTracker = _gat._getTracker("UA-10978505-1");
pageTracker._setDomainName(".decoo.jp");
pageTracker._trackPageview();
} catch(err) {}

たとえば、5文字以上日本語以外の文字列を除去するといった場合、どのようなソースを書けば取り除けるでしょうか。
その置換のソースをご教示願えれば幸いです。
置換でなくても、解決できる方法があればご教示下さい。
ちなみに、HTML::TokeParser::Simpleにはsjisで読み込ませています。
よろしくお願い申し上げます。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:
  • 終了:2010/03/03 11:25:02
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答0件)

回答はまだありません

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません