hal-star回答ポイント 500pt

[PHP　HTML　スクレイピング]

あるWEBページの複数データ（例http://www.◯◯◯.com/pages/■■■　※■■■部分が数字が可変していきます。100ページ位あります。）を取得（そのページに記述してある情報をセルごとに全て保存できると嬉しいです。）し、CSV等で定期保存したいのですが、PHP等利用する場合、どうしたら実現できるでしょうか？
お手数掛けますが勉強したいので、マクロに挙動のコメントを付与をお願い致します。
ベストアンサーに500pt差し上げます。
　また、■■■部分がひとつづきではない、文字の羅列の場合、　〜/pages/の下位ページをすべて取得できる方法がありましたら、そちらもお教えいただけたら幸いです。

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

ログインして回答する

ベストアンサー

Cherenkov2012/06/03 01:35:24
満足500pt
スクレイピングのライブラリは PHP Simple HTML DOM Parser を使いました。

wikipediaの1～4のタイトルと本文一部取得してcsvに保存します。
https://gist.github.com/2859070

一応動作するまでの説明。
1. PHP Simple HTML DOM Parser をダウンロード。
2. zipを解凍してフォルダ名をsimplehtmldomに変更。
3. サンプルコードを書いたphpを同じ場所に置いて開く。
具体的な仕様がわからないのでメモ。
- simplehtmldomの使い方は全部ここに書いてある。PHP Simple HTML DOM Parser
スター
- 2件のコメントを見る
- Cherenkov 2012/06/03 01:55:04
  
  /pages/の下位ページをすべて取得
  の「すべて」が何を指すのかわからない。同じようにセル？
  リンク一覧があればそこから辿ればいいし、特定の文字列なら配列に入れておいてforeachでスクレイピングしていけばいいのでは。
  
  スター
- hal-star 2012/06/08 10:11:11
  
  遅くなりまして、すみません。ご回答いただきありがとうございます。ちょっとやってみます。
  
  スター

その他の回答

tomoya612012/06/03 08:25:03
0pt

メモ帳にも「改行」等の書式情報が入っていて、デザインの妨げになることがあることと、メモ帳複数枚を一つのブックに保存できるから。散逸を防げる。原稿を書く≫> 1 ページ毎、もしくは、1 セル毎に用意するのが普通≫> ふつうは、すごい枚数になる。保存する ≫> ... ことがお勧めです。違っていたらすいません。

スター

[PHP　HTML　スクレイピング]

ベストアンサー

Cherenkov2012/06/03 01:35:24
満足500pt

Cherenkov 2012/06/03 01:55:04

hal-star 2012/06/08 10:11:11

その他の回答

tomoya612012/06/03 08:25:03
0pt

この質問へのコメント

この質問への反応（ブックマークコメント）

質問の情報

この質問のカテゴリ

この質問に含まれるキーワード

人気の質問

メニュー

PC版

[PHP HTML スクレイピング]

ベストアンサー

Cherenkov2012/06/03 01:35:24 満足500pt

Cherenkov 2012/06/03 01:55:04

hal-star 2012/06/08 10:11:11

その他の回答

tomoya612012/06/03 08:25:03 0pt

この質問へのコメント

この質問への反応（ブックマークコメント）

質問の情報

この質問のカテゴリ

この質問に含まれるキーワード

人気の質問

メニュー

PC版

[PHP　HTML　スクレイピング]

Cherenkov2012/06/03 01:35:24
満足500pt

tomoya612012/06/03 08:25:03
0pt