人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

Python,Ruby,PHPで、HTMLから本文を抽出するライブラリを教えてください。
プライオリティ的には、Python > PHP > Rubyです

Perlでは下記あがあるようですが、、、
HTML::Feature
HTML::ExtractContent

●質問者: kunitz
●カテゴリ:コンピュータ インターネット
✍キーワード:HTML Perl PHP Python Ruby
○ 状態 :終了
└ 回答数 : 3/3件

▽最新の回答へ

1 ● garyo
●27ポイント

http://labs.cybozu.co.jp/blog/nakatani/2007/09/web_1.html

Ruby版ExtractContent です

前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。


本文抽出モジュール ExtractContent ダウンロード

(右クリックして「名前をつけて保存」してください)

本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。


2 ● esecua
●27ポイント

Perlで

HTML::TreeBuilder - HTMLを親子関係として解析

HTML::TokenParser - 指定したタグのコンテンツ取得

Spidering hacks―ウェブ情報ラクラク取得テクニック101選

Spidering hacks―ウェブ情報ラクラク取得テクニック101選

  • 作者: Kevin Hemenway Tara Calishain
  • 出版社/メーカー: オライリー・ジャパン
  • メディア: 単行本

私も持っていますが、以上の本はデータ収集方法に関して非常に詳しく解説してあります。よろしければ。


3 ● aside
●26ポイント

Rubyモジュール ExtractContent をPythonに移植してみた

http://www.nal.ie.u-ryukyu.ac.jp/graduate/gnote/note_show/1349

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ