HTMLで、ある特定のタグに囲まれたテキストを抽出して、csvファイルか何かに落とし込む方法があれば教えてください。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:2005/06/19 03:27:00
  • 終了:--

回答(4件)

id:angelsong No.1

angelsong回答回数94ベストアンサー獲得回数02005/06/19 04:17:33

ポイント10pt

汎用のツール等はありませんが、もしperlを使える環境であれば、簡単なプログラムを作ることで実現可能です。

Windowsであれば、ActivePerlが有名ですので、そちらをインストールして、プログラミングにチャレンジしてみてください。

id:yutaka826

ありがとうございます。プログラムを作ればよいことはわかっているので、その具体的な方法を教えていただければ幸いです。

2005/06/20 09:46:57
id:tailliar No.2

tailliar回答回数109ベストアンサー獲得回数02005/06/19 05:29:21

ポイント20pt

やはりプログラムに頼るのがよいのではないでしょうか?

・”<”を検索する

・検索したいタグだったら、”>”を検索する

・”</”を検索して、間に挟まった文字列を抽出する

・CSV形式に加工して、ファイルを出力

結構簡単ですので、もし実際に作られるならご連絡ください。

ご相談に乗れるかと思います。

siroutopg@momo-mail.com

id:yutaka826

ありがとうございます。やはりプログラムを作るとしたらそのやり方なのですね。

2005/06/20 09:47:59
id:jiangmin-alt No.3

jiangmin回答回数125ベストアンサー獲得回数82005/06/19 12:03:21

ポイント25pt

http://search.cpan.org/~sburke/HTML-Tree-3.18/

Sean M. Burke / HTML-Tree-3.18 - search.cpan.org

perlでHTML::TreeBuilderとかを使えばいいんじゃないですか。

id:yutaka826

ありがとうございます。研究してみます。

2005/06/20 09:48:37
id:hubris No.4

hubris回答回数1ベストアンサー獲得回数02005/06/19 15:22:50

ポイント50pt

http://d.hatena.ne.jp/hubris/20050619#p1

かっことじとじ日記 - 洗いものが多すぎてうんざり。

csv じゃなくて行単位ですが‥ Perl で書いてみました(第一引数に渡したタグの中身を順番に出力します)。pprint という関数の中をいじれば求める出力が手に入るでしょう(CSV 対応は必要なら書きますけど)

id:yutaka826

具体的なスクリプトありがとうございます。研究してみます。

2005/06/20 09:50:58
  • id:hubris
    yutaka826さん

    この質問の回答ですが、改行の扱いが変だったりいろいろ細かなバグがありました。直したのが必要なら id:hubris の「かっことじとじ日記」にコメントください。

この質問への反応(ブックマークコメント)

トラックバック

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません