現在、以下の方法で、サイトのデータをピックアップしています。
1)PHPのfile_get_contentsを使って、所定のURLからHTMLデータをダウンロードし、
2)所定の解析を行って欲しい情報を抽出
<問題点>
URLにpage=1などの引数がある場合は問題無いのですが、
ページネーションをjavascriptで実行している場合などは、URLが変わらないので、
file_get_contentsに次のページのURLが渡せません。
こうした場合の対処方法をご教授頂ければと思います。
PHPもjavascriptも余り高技術レベルではありませんので、なるべく具体的にお教え頂けると助かります。
よろしくお願いします。
1. javascriptの動作をphpで行う。
設計次第ですが、javascriptで生成するURLはさほど難しいものではない事が多いと思うので、それを解析してエミュレートするのは難しくないと思います。
ソースも参考になりますが、その参照に際しても、アクセスしているURLを知るにも、ブラウザにあるデベロッパーツールとか開発者ツールなどという機能が非常に役に立ちます。
http://www.buildinsider.net/web/chromedevtools/01#page-4
2. headless browserを使う
上記が出来ない、そこまでしたくない場合は、実際の画面を持たず、スクリプトなどから使えるheadless browserを使ってアクセスすればjavascriptも実行されます。
ただ、ブラウザですからちょっと重たいかも知れません。
http://jonnnnyw.github.io/php-phantomjs/