大量にあるBookデータを取得 → データベース化をしたいと考えています。
例えば、
本 > 新潮文庫(10,084件)
本 > 漫画・アニメ・BL > 少年コミック(31,276件)
本 > 文学・評論 > ミステリー・サスペンス・ハードボイルド(29,828件)
と表示されます。
これらの万単位の件数に対して下記情報を効率的にデータベース化する方法はないでしょうか?
また、日々変わる在庫数や商品ランキング情報の定点観測もしたく思っております。
DBはMySQLかLibreOfficeBaseを考えています。
・タイトル
・価格
・出版社
・著者
・ISBN-10
・発売日
・画像
・在庫数
・商品ランキング
ちなみに、PHPを使って、APIを使って取得をしてみたのですが、1回に10件(MAX20件ですか?)とページ枚数に制限があり思うな量の取得ができませんでした。
また、サイトへの自動巡回ソフトなるもの作成スキルはありません。
以上、お知恵を貸して頂ければと思います。
よろしくお願い致します。
>これらの万単位の件数に対して下記情報を効率的にデータベース化する方法はないでしょうか?
簡単にする方法は無いと思います。
以前の仕事である程度カテゴリー中から、TSV形式で取得する物を作ったことがあります。#3のような感じで、まさに地道に24時間パソコンを動かしているという感じでした。
APIで取得するとき、そのURLに「&ItemPage=2」を負荷すると次のページ(2ページ目、3ページ目が欲しい場合は、3にして下さい。)が取得できると思います。
また、トータルページ数が表示されていると思いますので、それを参考にして取得すると良いと思いますが、経験間違いが多いですので、ページが取得できなくなるまで行う必要があります。
ちなみに、#4さんにあります、MySQLでは行っていません。MySQLを覚えるよりも、使い慣れたExcel2007でも100万行ほど扱えますのでExcelでも十分という判断からでした。
何か、参考になれば幸いです。
参考までですが・・・。ユーザー視点より・・・。
よく使用させていただいているサイトの開発記録や覚書などのブックマークなど。
http://www.forest.impress.co.jp/article/2004/07/08/amazonapp.htm...
http://www.woodensoldier.info/
http://www.woodensoldier.info/soft/BookshelfApplication.htm
http://japan.cnet.com/news/media/20412860/
---
http://lab.loopshoot.com/2009/11/_mekutter.html
http://www.venturenow.jp/column/ogawa/20100629008486.html
http://kachibito.net/web-service/twitter/3-tamutamus-service.htm...
---
そのほか、グラフ化
http://www.google.co.jp/trends
http://books.google.co.jp/intl/ja/googlebooks/about.html
---
おじゃましました。