Python,Ruby,PHPで、HTMLから本文を抽出するライブラリを教えてください。

プライオリティ的には、Python > PHP > Rubyです

Perlでは下記あがあるようですが、、、
HTML::Feature
HTML::ExtractContent

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:2009/07/22 15:43:40
  • 終了:2009/07/29 15:45:02

回答(3件)

id:garyo No.1

garyo回答回数1782ベストアンサー獲得回数962009/07/22 16:45:58

ポイント27pt

http://labs.cybozu.co.jp/blog/nakatani/2007/09/web_1.html

Ruby版ExtractContent です

前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。


本文抽出モジュール ExtractContent ダウンロード

(右クリックして「名前をつけて保存」してください)

本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。

id:esecua No.2

esecua回答回数510ベストアンサー獲得回数102009/07/23 10:44:17

ポイント27pt

Perlで 

HTML::TreeBuilder - HTMLを親子関係として解析

HTML::TokenParser - 指定したタグのコンテンツ取得

Spidering hacks―ウェブ情報ラクラク取得テクニック101選

Spidering hacks―ウェブ情報ラクラク取得テクニック101選

  • 作者: Kevin Hemenway Tara Calishain
  • 出版社/メーカー: オライリー・ジャパン
  • メディア: 単行本

私も持っていますが、以上の本はデータ収集方法に関して非常に詳しく解説してあります。よろしければ。

id:aside No.3

aside回答回数339ベストアンサー獲得回数312009/07/23 17:00:49

ポイント26pt

Rubyモジュール ExtractContent をPythonに移植してみた

http://www.nal.ie.u-ryukyu.ac.jp/graduate/gnote/note_show/1349

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません