あるWEBページの複数データ(例http://www.◯◯◯.com/pages/■■■ ※■■■部分が数字が可変していきます。100ページ位あります。)を取得(そのページに記述してある情報をセルごとに全て保存できると嬉しいです。)し、CSV等で定期保存したいのですが、PHP等利用する場合、どうしたら実現できるでしょうか?
お手数掛けますが勉強したいので、マクロに挙動のコメントを付与をお願い致します。
ベストアンサーに500pt差し上げます。
また、■■■部分がひとつづきではない、文字の羅列の場合、 〜/pages/の下位ページをすべて取得できる方法がありましたら、そちらもお教えいただけたら幸いです。
スクレイピングのライブラリは PHP Simple HTML DOM Parser を使いました。
wikipediaの1~4のタイトルと本文一部取得してcsvに保存します。
https://gist.github.com/2859070
一応動作するまでの説明。
具体的な仕様がわからないのでメモ。
メモ帳にも「改行」等の書式情報が入っていて、デザインの妨げになることがあることと、メモ帳複数枚を一つのブックに保存できるから。散逸を防げる。 原稿を書く≫> 1 ページ 毎、もしくは、1 セル毎に用意するのが普通≫> ふつうは、すごい枚数になる。 保存する ≫> ... ことがお勧めです。違っていたらすいません。