↑の続きのような質問になるのですが、ある特定のブログを記事ごとにhtmlを取得して、タイトル・本文などを取得したいのですが、記事ごとにhtmlを取得するためには、どのようなプログラムを組めば実現できるのでしょうか?
あらかじめ、あるページを指定して、そのページを文字列として持ってくる、ということは出来たのですが、記事ごとに繰り返し処理を行うというのはやり方がよく分かりません。
言語はjavaを使っています。
どのような処理にしたいのかよく分からないので、HTML中からリンク先のURLを拾い出すロジックと、繰り返し処理についてアドバイスします。
まず、HTML中からリンク先のURLを拾い出すロジックですが、すでにHTMLの取り込み方は理解されているという前提で話を進めます。
この部分は、正規表現という検索手法を使います。UrlCollectorクラスのソースが参考になるでしょう。
原理については、「正規表現によるマッチング」が参考になります。
この方法でURLを取得し、繰り返しHTMLを読み込む処理をさせるには、whileループを利用します。
ここで、終了条件に注意してください。どんな条件になったら while ループを終了するかプログラムに明示します。
この条件が間違っていると、永久ループに陥り、繰り返しHTMLを読み込むこととなり、結果としてインターネット世界に負担をかけてしまいます。ご注意ください。
個別記事のURLがどうなっているかによると思います。数字なら自動でできますが、それ以外だと、rssなどから取得するしかないでしょう。
回答ありがとうございます。
HTMLパーサーのようなものでXML形式で読めるようにして、
あとは地道にそれぞれのホームページにあわせて
どこら辺のタグのリンクのURLやタイトルとなる文字列を取得するか
チューニングしていく感じになるかと思います。
回答ありがとうございます。
なるほど、やはりその辺りはとても地道な作業になりそうですね…。
回答ありがとうございます。
なるほど…。
となると、マッチングさせる文字列はブログサービスごとに調べる必要があるということですね。