人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

HTMLファイルをパースしてその中からデータを抜き出すことのできるソフトを探しています。最も良いものを教えてください。特に、<table>の中で、行、列で取り出したり、特定の列をキーにして取り出したりすることができるものを探しています。単独アプリケーションでも、ライブラリでもかまいません。

●質問者: dayofgreen
●カテゴリ:ウェブ制作
✍キーワード:HTML いもの アプリケーション ソフト データ
○ 状態 :終了
└ 回答数 : 4/4件

▽最新の回答へ

1 ● muryoo
●20ポイント

http://www.mac68k.com/viewtopic.php?topic=24&forum=9&1

シンプルなphpです。

◎質問者からの返答

ありがとうございます。どのページにも対応できるようなツールを探しています。


2 ● cx20
●20ポイント

■ HTMLの表を取得するには?

http://homepage1.nifty.com/MADIA/vb/vb_bbs2/200311_03110004.html

というのがありました。

IEのブラウザコントロール(WebBrowser)を使う方法です。

また、Excelの「Webクエリ」を使うというのはいかがでしょう?

http://www.atmarkit.co.jp/fwin2k/win2ktips/320webquery/webquery....

@IT:Windows TIPS -- Tips:Webクエリで外部データとダイナミックにリンクする

COM呼び出し(オートメーション)を利用すれば、

VB や VC++ から結果のみを取得することも可能だと思います。

◎質問者からの返答

ありがとうございます。プラットフォームに依存しないJavaアプリか、Javaモジュールなどはありませんでしょうか?


3 ● cx20
●20ポイント

Java2 に標準で HTML パーサー( javax.swing.text.html.parser )

http://java.sun.com/j2se/1.4/ja/docs/ja/api/javax/swing/text/htm...

クラス: javax.swing.text.html.HTML.Tag の使用 (Java 2 プラットフォーム SE v1.4.0)

が付いてくるようです。

Java やったことが無いので外してたらすみません(^^A

また、そのほかの HTML パーサーとして、

■ Jericho HTML Parser

http://jerichohtml.sourceforge.net/

Jericho HTML Parser

■ JavaCC HTML Parser

http://www.quiotix.com/downloads/html-parser/

■ JTidy

http://jtidy.sourceforge.net/

JTidy - JTidy

■ Kizna HTML Parser

http://htmlparser.sourceforge.net/

HTML Parser - HTML Parser

■ CyberNeko HTML Parser

http://www.apache.org/~andyc/neko/doc/html/index.html

NekoHTML

などがあるようです。

◎質問者からの返答

ありがとうございます。


4 ● ponta3rd
●20ポイント

http://objectclub.esm.co.jp:8080/xp/29

javaのモジュールを探しているとのことですので、

HttpUnitを紹介します。

(日本語訳ページと本家のページ)

httpunitはテストユニットとして紹介されている事が

多いのですが、httpunit自体には、テスト機能はありません。有るのは、静的・動的と問わず、httpにリクエストをかけて、その戻りのhtmlのタグを解析してオブジェクト化する機能です。

問い合わせのテーブル解析(WebTableクラス)も有ります。

(実際に使用したこともあり、非常に使いやすいモジュールです。)

http://httpunit.sourceforge.net/

HttpUnit Home

◎質問者からの返答

ありがとうございます。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ