■サイト
金融庁 EDINET (http://info.edinet-fsa.go.jp/E01NW/)
■ブラウザでの手順
1.http://info.edinet-fsa.go.jp/E01NW/ のページ右下にある「EDINETコードリスト」をクリック。
2.1で開かれるページの中央にある「EDINETコードリスト」というZIPファイルのリンクをクリックしてダウンロード。
単純にZIPのファイルパスが書かれているのではなくJavascriptを介してファイルをダウンロードさせているらしく、最初のページから遷移しないとダウンロード出来ないようなのです。
どうしたらコマンドラインからこのファイルをダウンロード出来るのでしょうか?
curlを使う形になると思いますが、似た事例でご経験のある方がいましたらどうか教えて下さい。
JavaScriptで行っている処理は、実際にはフォームのPOSTを行っているだけです。
単純なので、ソースを見ればその内容は分かります。
なので、curlを使う必要はないかと思います。
PEAR::HTTP_Requestでも使えば十分かと思います。
1.http://info.edinet-fsa.go.jp/E01NW/ にアクセスしたデータを解析して、「EDINETコードリスト」をクリックした際の処理を実行
2.1の結果として得られるデータを解析して、中央にある「EDINETコードリスト」というZIPファイルのリンクをクリックした際の処理を実行
で取得できるはずです。
解析と書きましたが、現状のサイトに手が加えられない限りちょっとした正規表現のマッチングで十分だと思うので、それほど大変ではないかと思います。
何かの参考になれば。
なるほど、必ずしもcurlを使う必要はないわけですか。
「アクセスしたデータを解析して…」というのがなかなか
スムーズに行かない未熟者なので時間がかかりそうですが、
PEAR::HTTP_Requestを使ってもう少し試してみたいと思います。