あるWEBページの複数データ(例http://www.◯◯◯.com/pages/■■■ ※■■■部分が数字が可変していきます。100ページ位あります。)を取得(そのページに記述してある情報をセルごとに全て保存できると嬉しいです。)し、CSV等で定期保存したいのですが、PHP等利用する場合、どうしたら実現できるでしょうか?
お手数掛けますが勉強したいので、マクロに挙動のコメントを付与をお願い致します。
ベストアンサーに500pt差し上げます。
また、■■■部分がひとつづきではない、文字の羅列の場合、 〜/pages/の下位ページをすべて取得できる方法がありましたら、そちらもお教えいただけたら幸いです。
スクレイピングのライブラリは PHP Simple HTML DOM Parser を使いました。
wikipediaの1~4のタイトルと本文一部取得してcsvに保存します。
https://gist.github.com/2859070
一応動作するまでの説明。
具体的な仕様がわからないのでメモ。
スクレイピングのライブラリは PHP Simple HTML DOM Parser を使いました。
wikipediaの1~4のタイトルと本文一部取得してcsvに保存します。
https://gist.github.com/2859070
一応動作するまでの説明。
具体的な仕様がわからないのでメモ。
/pages/の下位ページをすべて取得
の「すべて」が何を指すのかわからない。同じようにセル?
リンク一覧があればそこから辿ればいいし、特定の文字列なら配列に入れておいてforeachでスクレイピングしていけばいいのでは。
遅くなりまして、すみません。ご回答いただきありがとうございます。ちょっとやってみます。
メモ帳にも「改行」等の書式情報が入っていて、デザインの妨げになることがあることと、メモ帳複数枚を一つのブックに保存できるから。散逸を防げる。 原稿を書く≫> 1 ページ 毎、もしくは、1 セル毎に用意するのが普通≫> ふつうは、すごい枚数になる。 保存する ≫> ... ことがお勧めです。違っていたらすいません。
の「すべて」が何を指すのかわからない。同じようにセル?
2012/06/03 01:55:04リンク一覧があればそこから辿ればいいし、特定の文字列なら配列に入れておいてforeachでスクレイピングしていけばいいのでは。
遅くなりまして、すみません。ご回答いただきありがとうございます。ちょっとやってみます。
2012/06/08 10:11:11