人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

[PHP HTML スクレイピング]
あるWEBページの複数データ(例http://www.◯◯◯.com/pages/■■■ ※■■■部分が数字が可変していきます。100ページ位あります。)を取得(そのページに記述してある情報をセルごとに全て保存できると嬉しいです。)し、CSV等で定期保存したいのですが、PHP等利用する場合、どうしたら実現できるでしょうか?
お手数掛けますが勉強したいので、マクロに挙動のコメントを付与をお願い致します。
ベストアンサーに500pt差し上げます。
また、■■■部分がひとつづきではない、文字の羅列の場合、 〜/pages/の下位ページをすべて取得できる方法がありましたら、そちらもお教えいただけたら幸いです。


●質問者: hal-star
●カテゴリ:インターネット ウェブ制作
○ 状態 :終了
└ 回答数 : 2/2件

▽最新の回答へ

1 ● Cherenkov
●500ポイント ベストアンサー

スクレイピングのライブラリは PHP Simple HTML DOM Parser を使いました。

wikipediaの1?4のタイトルと本文一部取得してcsvに保存します。
https://gist.github.com/2859070


一応動作するまでの説明。

  1. PHP Simple HTML DOM Parser をダウンロード。
  2. zipを解凍してフォルダ名をsimplehtmldomに変更。
  3. サンプルコードを書いたphpを同じ場所に置いて開く。


具体的な仕様がわからないのでメモ。


Cherenkovさんのコメント
>> /pages/の下位ページをすべて取得 << の「すべて」が何を指すのかわからない。同じようにセル? リンク一覧があればそこから辿ればいいし、特定の文字列なら配列に入れておいてforeachでスクレイピングしていけばいいのでは。

hal-starさんのコメント
遅くなりまして、すみません。ご回答いただきありがとうございます。ちょっとやってみます。

2 ● tomoya61
●0ポイント

メモ帳にも「改行」等の書式情報が入っていて、デザインの妨げになることがあることと、メモ帳複数枚を一つのブックに保存できるから。散逸を防げる。 原稿を書く≫> 1 ページ 毎、もしくは、1 セル毎に用意するのが普通≫> ふつうは、すごい枚数になる。 保存する ≫> ... ことがお勧めです。違っていたらすいません。

関連質問

●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ