大量にあるBookデータを取得 → データベース化をしたいと考えています。
例えば、
本 > 新潮文庫(10,084件)
本 > 漫画・アニメ・BL > 少年コミック(31,276件)
本 > 文学・評論 > ミステリー・サスペンス・ハードボイルド(29,828件)
と表示されます。
これらの万単位の件数に対して下記情報を効率的にデータベース化する方法はないでしょうか?
また、日々変わる在庫数や商品ランキング情報の定点観測もしたく思っております。
DBはMySQLかLibreOfficeBaseを考えています。
・タイトル
・価格
・出版社
・著者
・ISBN-10
・発売日
・画像
・在庫数
・商品ランキング
ちなみに、PHPを使って、APIを使って取得をしてみたのですが、1回に10件(MAX20件ですか?)とページ枚数に制限があり思うな量の取得ができませんでした。
また、サイトへの自動巡回ソフトなるもの作成スキルはありません。
以上、お知恵を貸して頂ければと思います。
よろしくお願い致します。
>これらの万単位の件数に対して下記情報を効率的にデータベース化する方法はないでしょうか?
簡単にする方法は無いと思います。
以前の仕事である程度カテゴリー中から、TSV形式で取得する物を作ったことがあります。#3のような感じで、まさに地道に24時間パソコンを動かしているという感じでした。
APIで取得するとき、そのURLに「&ItemPage=2」を負荷すると次のページ(2ページ目、3ページ目が欲しい場合は、3にして下さい。)が取得できると思います。
また、トータルページ数が表示されていると思いますので、それを参考にして取得すると良いと思いますが、経験間違いが多いですので、ページが取得できなくなるまで行う必要があります。
ちなみに、#4さんにあります、MySQLでは行っていません。MySQLを覚えるよりも、使い慣れたExcel2007でも100万行ほど扱えますのでExcelでも十分という判断からでした。
何か、参考になれば幸いです。
参考までですが・・・。ユーザー視点より・・・。
よく使用させていただいているサイトの開発記録や覚書などのブックマークなど。
http://www.forest.impress.co.jp/article/2004/07/08/amazonapp.htm...
http://www.woodensoldier.info/
http://www.woodensoldier.info/soft/BookshelfApplication.htm
http://japan.cnet.com/news/media/20412860/
---
http://lab.loopshoot.com/2009/11/_mekutter.html
http://www.venturenow.jp/column/ogawa/20100629008486.html
http://kachibito.net/web-service/twitter/3-tamutamus-service.htm...
---
そのほか、グラフ化
http://www.google.co.jp/trends
http://books.google.co.jp/intl/ja/googlebooks/about.html
---
おじゃましました。
その2・
そのほか 大量のデータベース=有料サービス という感覚があったものですが、参考まで。
---
http://oshiete.goo.ne.jp/qa/584790.html
---
http://www.braintech.co.jp/products/products.html
http://ready.to/search/list/cs_book.htm#book_online
http://aws.amazon.com/jp/solutions/case-studies/amazon-cxa/
http://www.atmarkit.co.jp/fdotnet/special/awstokyo01/awstokyo01_...
http://aws.amazon.com/jp/elasticmapreduce/
http://aws.amazon.com/jp/products/
---
めざすは、さっさと個人仕様で情報検索ができたら・・・。ですね。
http://www.isis.ne.jp/mnn/senya/toc.html
http://blog.livedoor.jp/dankogai/
あくまで、ユーザー視点の回答とまりですみませんが。
大きな進化の途中のような気がしたものですから。
FREEものがどんどん進んでいくといいな!!とわたくしも期待をこめて
おじゃましました。
早速の追加情報ありがとうございます。
色々と参考になるサイトがありました。
こういうの、どうやって探してくるんでしょうか??
ありがとうございます。
>APIを使って取得をしてみたのですが、1回に10件(MAX20件ですか?)とページ枚数
1回のAPIで総件数と1ページ分の情報が取得できます。
2回目以降はページ数を指定して地道に取得していくんです。
そうやってデータをためる以外にありません。
1秒間に1回、1時間に2,000回の制限があります。
http://d.hatena.ne.jp/baffbaff/20100828/1283026331
1時間に2000回x10=2万件のデータが取得可能です。
10時間で20万件です。
ご回答ありがとうございます。
そうですか。
自動でページーングして、PHPとかでXMLデータを自動取得→DBに組み込む方法とかないのですかね。
私がスキルなさ過ぎなので、思いつかいないだけですか…。
わざわざデータベース化するのに意味があるのでしょうか?
用途を書いてください。
PHPに検索APIを入れたり、アフィリエイトコードが組み込まれた検索窓を使用すれば、良いのでは?
amazonにある本は数万冊で、普通のサーバーで処理できるような数じゃありません。
だからamazonは「クラウド」といった普通のPHPよりも高速処理ができるシステムを導入したのです。
はい、意味はあるのです。
私はアフィリエイトをやるつもりではありません。
またamazonにある数十万(数百?)の書籍全てをDB化しようと考えているわけでもありません。
特定ジャンル 複数(と言っても数万点にのぼりますが…)の書籍データの取得とその変化のデータがほしいと考えています。
>これらの万単位の件数に対して下記情報を効率的にデータベース化する方法はないでしょうか?
簡単にする方法は無いと思います。
以前の仕事である程度カテゴリー中から、TSV形式で取得する物を作ったことがあります。#3のような感じで、まさに地道に24時間パソコンを動かしているという感じでした。
APIで取得するとき、そのURLに「&ItemPage=2」を負荷すると次のページ(2ページ目、3ページ目が欲しい場合は、3にして下さい。)が取得できると思います。
また、トータルページ数が表示されていると思いますので、それを参考にして取得すると良いと思いますが、経験間違いが多いですので、ページが取得できなくなるまで行う必要があります。
ちなみに、#4さんにあります、MySQLでは行っていません。MySQLを覚えるよりも、使い慣れたExcel2007でも100万行ほど扱えますのでExcelでも十分という判断からでした。
何か、参考になれば幸いです。
ご回答ありがとうございます。
アプリケーションですが、数冊管理においてはよいですが、質問をさせていただいた、大量の冊数に足しては対応が難しいです。正直ご紹介アプリだと目検で出来る範囲かと思っております。
ご紹介いただいたリファサイトも、数冊~数百冊を趣味程度に管理という感じにお見受けしました。
もし質問趣旨に役たつ情報がありましたらまた教えてください。
ちなみにこのようなものもあまり今回の要望を叶えてはくれません…。
http://softcollection.dyndns.org/top/?page=0607001
このあたりにそれらしいものあればとは思っているのですが
http://www.vector.co.jp/vpack/filearea/win/net/www/auto/by_name....