[PHP HTML スクレイピング]

あるWEBページの複数データ(例http://www.◯◯◯.com/pages/■■■ ※■■■部分が数字が可変していきます。100ページ位あります。)を取得(そのページに記述してある情報をセルごとに全て保存できると嬉しいです。)し、CSV等で定期保存したいのですが、PHP等利用する場合、どうしたら実現できるでしょうか?
お手数掛けますが勉強したいので、マクロに挙動のコメントを付与をお願い致します。
ベストアンサーに500pt差し上げます。
 また、■■■部分がひとつづきではない、文字の羅列の場合、 〜/pages/の下位ページをすべて取得できる方法がありましたら、そちらもお教えいただけたら幸いです。

回答の条件
  • 1人10回まで
  • 登録:
  • 終了:2012/06/08 10:11:27
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

ベストアンサー

id:Cherenkov No.1

回答回数1504ベストアンサー獲得回数493

ポイント500pt

スクレイピングのライブラリは PHP Simple HTML DOM Parser を使いました。

wikipediaの1~4のタイトルと本文一部取得してcsvに保存します。
https://gist.github.com/2859070


一応動作するまでの説明。

  1. PHP Simple HTML DOM Parser をダウンロード。
  2. zipを解凍してフォルダ名をsimplehtmldomに変更。
  3. サンプルコードを書いたphpを同じ場所に置いて開く。


具体的な仕様がわからないのでメモ。

id:Cherenkov

/pages/の下位ページをすべて取得

の「すべて」が何を指すのかわからない。同じようにセル?
リンク一覧があればそこから辿ればいいし、特定の文字列なら配列に入れておいてforeachでスクレイピングしていけばいいのでは。

2012/06/03 01:55:04
id:hal-star

遅くなりまして、すみません。ご回答いただきありがとうございます。ちょっとやってみます。

2012/06/08 10:11:11

その他の回答1件)

id:Cherenkov No.1

回答回数1504ベストアンサー獲得回数493ここでベストアンサー

ポイント500pt

スクレイピングのライブラリは PHP Simple HTML DOM Parser を使いました。

wikipediaの1~4のタイトルと本文一部取得してcsvに保存します。
https://gist.github.com/2859070


一応動作するまでの説明。

  1. PHP Simple HTML DOM Parser をダウンロード。
  2. zipを解凍してフォルダ名をsimplehtmldomに変更。
  3. サンプルコードを書いたphpを同じ場所に置いて開く。


具体的な仕様がわからないのでメモ。

id:Cherenkov

/pages/の下位ページをすべて取得

の「すべて」が何を指すのかわからない。同じようにセル?
リンク一覧があればそこから辿ればいいし、特定の文字列なら配列に入れておいてforeachでスクレイピングしていけばいいのでは。

2012/06/03 01:55:04
id:hal-star

遅くなりまして、すみません。ご回答いただきありがとうございます。ちょっとやってみます。

2012/06/08 10:11:11
id:tomoya61 No.2

回答回数21ベストアンサー獲得回数0

メモ帳にも「改行」等の書式情報が入っていて、デザインの妨げになることがあることと、メモ帳複数枚を一つのブックに保存できるから。散逸を防げる。 原稿を書く≫> 1 ページ 毎、もしくは、1 セル毎に用意するのが普通≫> ふつうは、すごい枚数になる。 保存する ≫> ... ことがお勧めです。違っていたらすいません。

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません