人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

HTMLで、ある特定のタグに囲まれたテキストを抽出して、csvファイルか何かに落とし込む方法があれば教えてください。

●質問者: yutaka826
●カテゴリ:ウェブ制作
✍キーワード:CSV タグ テキスト ファイル 抽出
○ 状態 :終了
└ 回答数 : 4/4件

▽最新の回答へ

1 ● angelsong
●10ポイント

汎用のツール等はありませんが、もしperlを使える環境であれば、簡単なプログラムを作ることで実現可能です。

Windowsであれば、ActivePerlが有名ですので、そちらをインストールして、プログラミングにチャレンジしてみてください。

◎質問者からの返答

ありがとうございます。プログラムを作ればよいことはわかっているので、その具体的な方法を教えていただければ幸いです。


2 ● tailliar
●20ポイント

やはりプログラムに頼るのがよいのではないでしょうか?

・”<”を検索する

・検索したいタグだったら、”>”を検索する

・”</”を検索して、間に挟まった文字列を抽出する

・CSV形式に加工して、ファイルを出力

結構簡単ですので、もし実際に作られるならご連絡ください。

ご相談に乗れるかと思います。

siroutopg@momo-mail.com

◎質問者からの返答

ありがとうございます。やはりプログラムを作るとしたらそのやり方なのですね。


3 ● jiangmin
●25ポイント

http://search.cpan.org/~sburke/HTML-Tree-3.18/

Sean M. Burke / HTML-Tree-3.18 - search.cpan.org

perlでHTML::TreeBuilderとかを使えばいいんじゃないですか。

◎質問者からの返答

ありがとうございます。研究してみます。


4 ● hubris
●50ポイント

http://d.hatena.ne.jp/hubris/20050619#p1

かっことじとじ日記 - 洗いものが多すぎてうんざり。

csv じゃなくて行単位ですが‥ Perl で書いてみました(第一引数に渡したタグの中身を順番に出力します)。pprint という関数の中をいじれば求める出力が手に入るでしょう(CSV 対応は必要なら書きますけど)

◎質問者からの返答

具体的なスクリプトありがとうございます。研究してみます。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ