kazumichi回答ポイント 50ptウォッチ 1

PerlのHTML::TokeParser::Simpleモジュールでhtmlをパースし、日本語の本文を取り出しているのですが、javascriptのソースコードが残ってしまうことが多々あります。


例)
var gaJsHost = (("https:" == document.location.protocol) ? "https://ssl." : "http://www.");
document.write(unescape("%3Cscript src=" + gaJsHost + "google-analytics.com/ga.js type=text/javascript%3E%3C/script%3E"));
try {
var pageTracker = _gat._getTracker("UA-10978505-1");
pageTracker._setDomainName(".decoo.jp");
pageTracker._trackPageview();
} catch(err) {}

たとえば、5文字以上日本語以外の文字列を除去するといった場合、どのようなソースを書けば取り除けるでしょうか。
その置換のソースをご教示願えれば幸いです。
置換でなくても、解決できる方法があればご教示下さい。
ちなみに、HTML::TokeParser::Simpleにはsjisで読み込ませています。
よろしくお願い申し上げます。

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。
ログインして回答する
回答がありません

この質問へのコメント

コメントはありません

この質問への反応(ブックマークコメント)

質問の情報

登録日時
2010-02-24 11:22:40
終了日時
2010-03-03 11:25:02
回答条件
回答にURL必須 1人2回まで

この質問のカテゴリ

この質問に含まれるキーワード

JavaScript2781Perl1679ソースコード559SJIS223HTTPS331Google3482UA98モジュール927GA110SCRIPT437HTML5036SRC250js788パース109

人気の質問

メニュー

PC版