人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

http://q.hatena.ne.jp/1227156780
↑の続きのような質問になるのですが、ある特定のブログを記事ごとにhtmlを取得して、タイトル・本文などを取得したいのですが、記事ごとにhtmlを取得するためには、どのようなプログラムを組めば実現できるのでしょうか?

あらかじめ、あるページを指定して、そのページを文字列として持ってくる、ということは出来たのですが、記事ごとに繰り返し処理を行うというのはやり方がよく分かりません。
言語はjavaを使っています。

●質問者: rapuntuleru
●カテゴリ:コンピュータ ウェブ制作
✍キーワード:HTML Java タイトル プログラム 文字列
○ 状態 :終了
└ 回答数 : 3/3件

▽最新の回答へ

1 ● pahoo
●27ポイント

どのような処理にしたいのかよく分からないので、HTML中からリンク先のURLを拾い出すロジックと、繰り返し処理についてアドバイスします。


まず、HTML中からリンク先のURLを拾い出すロジックですが、すでにHTMLの取り込み方は理解されているという前提で話を進めます。

この部分は、正規表現という検索手法を使います。UrlCollectorクラスのソースが参考になるでしょう。

原理については、「正規表現によるマッチング」が参考になります。


この方法でURLを取得し、繰り返しHTMLを読み込む処理をさせるには、whileループを利用します。

ここで、終了条件に注意してください。どんな条件になったら while ループを終了するかプログラムに明示します。

この条件が間違っていると、永久ループに陥り、繰り返しHTMLを読み込むこととなり、結果としてインターネット世界に負担をかけてしまいます。ご注意ください。

◎質問者からの返答

回答ありがとうございます。

なるほど…。

となると、マッチングさせる文字列はブログサービスごとに調べる必要があるということですね。


2 ● mulloo
●27ポイント

個別記事のURLがどうなっているかによると思います。数字なら自動でできますが、それ以外だと、rssなどから取得するしかないでしょう。

◎質問者からの返答

回答ありがとうございます。


3 ● newta
●26ポイント

HTMLパーサーのようなものでXML形式で読めるようにして、

あとは地道にそれぞれのホームページにあわせて

どこら辺のタグのリンクのURLやタイトルとなる文字列を取得するか

チューニングしていく感じになるかと思います。

◎質問者からの返答

回答ありがとうございます。

なるほど、やはりその辺りはとても地道な作業になりそうですね…。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ