http://q.hatena.ne.jp/1227156780

↑の続きのような質問になるのですが、ある特定のブログを記事ごとにhtmlを取得して、タイトル・本文などを取得したいのですが、記事ごとにhtmlを取得するためには、どのようなプログラムを組めば実現できるのでしょうか?

あらかじめ、あるページを指定して、そのページを文字列として持ってくる、ということは出来たのですが、記事ごとに繰り返し処理を行うというのはやり方がよく分かりません。
言語はjavaを使っています。

回答の条件
  • 1人2回まで
  • 登録:2008/11/24 17:00:43
  • 終了:2008/12/01 17:05:02

回答(3件)

id:pahoo No.1

pahoo回答回数5960ベストアンサー獲得回数6332008/11/24 17:24:13

ポイント27pt

どのような処理にしたいのかよく分からないので、HTML中からリンク先のURLを拾い出すロジックと、繰り返し処理についてアドバイスします。


まず、HTML中からリンク先のURLを拾い出すロジックですが、すでにHTMLの取り込み方は理解されているという前提で話を進めます。

この部分は、正規表現という検索手法を使います。UrlCollectorクラスのソースが参考になるでしょう。

原理については、「正規表現によるマッチング」が参考になります。


この方法でURLを取得し、繰り返しHTMLを読み込む処理をさせるには、whileループを利用します。

ここで、終了条件に注意してください。どんな条件になったら while ループを終了するかプログラムに明示します。

この条件が間違っていると、永久ループに陥り、繰り返しHTMLを読み込むこととなり、結果としてインターネット世界に負担をかけてしまいます。ご注意ください。

id:rapuntuleru

回答ありがとうございます。

なるほど…。

となると、マッチングさせる文字列はブログサービスごとに調べる必要があるということですね。

2008/11/24 18:50:57
id:mulloo No.2

mulloo回答回数151ベストアンサー獲得回数22008/11/24 18:19:48

ポイント27pt

個別記事のURLがどうなっているかによると思います。数字なら自動でできますが、それ以外だと、rssなどから取得するしかないでしょう。

id:rapuntuleru

回答ありがとうございます。

2008/11/26 02:00:36
id:newta No.3

newta回答回数68ベストアンサー獲得回数72008/11/25 23:28:19

ポイント26pt

HTMLパーサーのようなものでXML形式で読めるようにして、

あとは地道にそれぞれのホームページにあわせて

どこら辺のタグのリンクのURLやタイトルとなる文字列を取得するか

チューニングしていく感じになるかと思います。

id:rapuntuleru

回答ありがとうございます。

なるほど、やはりその辺りはとても地道な作業になりそうですね…。

2008/11/26 02:01:49

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません