PerlのHTML::TokeParser::Simpleモジュールでhtmlをパースし、日本語の本文を取り出しているのですが、javascriptのソースコードが残ってしまうことが多々あります。

Question

kazumichi

60

58もっと見る

50pt

コンピュータウェブ制作

PerlのHTML::TokeParser::Simpleモジュールでhtmlをパースし、日本語の本文を取り出しているのですが、javascriptのソースコードが残ってしまうことが多々あります。

例）
var gaJsHost = (("https:" == document.location.protocol) ? "https://ssl." : "http://www.");
document.write(unescape("%3Cscript src=" + gaJsHost + "google-analytics.com/ga.js type=text/javascript%3E%3C/script%3E"));
try {
var pageTracker = _gat._getTracker("UA-10978505-1");
pageTracker._setDomainName(".decoo.jp");
pageTracker._trackPageview();
} catch(err) {}

たとえば、5文字以上日本語以外の文字列を除去するといった場合、どのようなソースを書けば取り除けるでしょうか。
その置換のソースをご教示願えれば幸いです。
置換でなくても、解決できる方法があればご教示下さい。
ちなみに、HTML::TokeParser::Simpleにはsjisで読み込ませています。
よろしくお願い申し上げます。

回答の条件

URL必須
1人2回まで

登録：2010/02/24 11:22:40
終了：2010/03/03 11:25:02

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

コメントはまだありません

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

Answer 1

回答はまだありません

PerlのHTML::TokeParser::Simpleモジュールでhtmlをパースし、日本語の本文を取り出しているのですが、javascriptのソースコードが残ってしまうことが多々あります。

回答（0件）

コメント（0件)

この質問への反応（ブックマークコメント）