amazon.co.jpにある本のデータ取得について質問です。


大量にあるBookデータを取得 → データベース化をしたいと考えています。

例えば、

本 > 新潮文庫(10,084件)
本 > 漫画・アニメ・BL > 少年コミック(31,276件)
本 > 文学・評論 > ミステリー・サスペンス・ハードボイルド(29,828件)


と表示されます。

これらの万単位の件数に対して下記情報を効率的にデータベース化する方法はないでしょうか?
また、日々変わる在庫数や商品ランキング情報の定点観測もしたく思っております。

DBはMySQLかLibreOfficeBaseを考えています。

・タイトル
・価格
・出版社
・著者
・ISBN-10
・発売日
・画像
・在庫数
・商品ランキング

ちなみに、PHPを使って、APIを使って取得をしてみたのですが、1回に10件(MAX20件ですか?)とページ枚数に制限があり思うな量の取得ができませんでした。
また、サイトへの自動巡回ソフトなるもの作成スキルはありません。

以上、お知恵を貸して頂ければと思います。
よろしくお願い致します。

回答の条件
  • 1人2回まで
  • 登録:
  • 終了:2011/03/30 22:45:02
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

ベストアンサー

id:j4mika No.5

回答回数186ベストアンサー獲得回数27

ポイント33pt

>これらの万単位の件数に対して下記情報を効率的にデータベース化する方法はないでしょうか?

簡単にする方法は無いと思います。

以前の仕事である程度カテゴリー中から、TSV形式で取得する物を作ったことがあります。#3のような感じで、まさに地道に24時間パソコンを動かしているという感じでした。

APIで取得するとき、そのURLに「&ItemPage=2」を負荷すると次のページ(2ページ目、3ページ目が欲しい場合は、3にして下さい。)が取得できると思います。

また、トータルページ数が表示されていると思いますので、それを参考にして取得すると良いと思いますが、経験間違いが多いですので、ページが取得できなくなるまで行う必要があります。

ちなみに、#4さんにあります、MySQLでは行っていません。MySQLを覚えるよりも、使い慣れたExcel2007でも100万行ほど扱えますのでExcelでも十分という判断からでした。

何か、参考になれば幸いです。

その他の回答4件)

id:es-labo No.1

回答回数288ベストアンサー獲得回数39

id:shiki0479

ご回答ありがとうございます。

アプリケーションですが、数冊管理においてはよいですが、質問をさせていただいた、大量の冊数に足しては対応が難しいです。正直ご紹介アプリだと目検で出来る範囲かと思っております。

ご紹介いただいたリファサイトも、数冊~数百冊を趣味程度に管理という感じにお見受けしました。

もし質問趣旨に役たつ情報がありましたらまた教えてください。

ちなみにこのようなものもあまり今回の要望を叶えてはくれません…。

http://softcollection.dyndns.org/top/?page=0607001

このあたりにそれらしいものあればとは思っているのですが

http://www.vector.co.jp/vpack/filearea/win/net/www/auto/by_name....

2011/03/24 00:04:22
id:es-labo No.2

回答回数288ベストアンサー獲得回数39

ポイント34pt

その2・

そのほか 大量のデータベース=有料サービス という感覚があったものですが、参考まで。

---

http://oshiete.goo.ne.jp/qa/584790.html

---

http://www.braintech.co.jp/products/products.html

http://ready.to/search/list/cs_book.htm#book_online

http://weblib.jpn.org/

  • (「Amazon Web Services」により、今後どんどん変更するのかなと感じてもいますが。あくまで個人的想像レベル)

http://aws.amazon.com/jp/solutions/case-studies/amazon-cxa/

http://www.atmarkit.co.jp/fdotnet/special/awstokyo01/awstokyo01_...

http://aws.amazon.com/jp/elasticmapreduce/

http://aws.amazon.com/jp/products/

---

めざすは、さっさと個人仕様で情報検索ができたら・・・。ですね。

http://www.isis.ne.jp/mnn/senya/toc.html

http://blog.livedoor.jp/dankogai/

あくまで、ユーザー視点の回答とまりですみませんが。

大きな進化の途中のような気がしたものですから。

FREEものがどんどん進んでいくといいな!!とわたくしも期待をこめて

おじゃましました。

id:shiki0479

早速の追加情報ありがとうございます。

色々と参考になるサイトがありました。

こういうの、どうやって探してくるんでしょうか??

ありがとうございます。

2011/03/25 22:15:28
id:taroe No.3

回答回数1099ベストアンサー獲得回数132

ポイント16pt

>APIを使って取得をしてみたのですが、1回に10件(MAX20件ですか?)とページ枚数

1回のAPIで総件数と1ページ分の情報が取得できます。

2回目以降はページ数を指定して地道に取得していくんです。

そうやってデータをためる以外にありません。


1秒間に1回、1時間に2,000回の制限があります。

http://d.hatena.ne.jp/baffbaff/20100828/1283026331

1時間に2000回x10=2万件のデータが取得可能です。

10時間で20万件です。

id:shiki0479

ご回答ありがとうございます。

そうですか。

自動でページーングして、PHPとかでXMLデータを自動取得→DBに組み込む方法とかないのですかね。

私がスキルなさ過ぎなので、思いつかいないだけですか…。

2011/03/25 22:17:58
id:otasuketyan No.4

回答回数41ベストアンサー獲得回数0

わざわざデータベース化するのに意味があるのでしょうか?

用途を書いてください。

PHPに検索APIを入れたり、アフィリエイトコードが組み込まれた検索窓を使用すれば、良いのでは?

amazonにある本は数万冊で、普通のサーバーで処理できるような数じゃありません。

だからamazonは「クラウド」といった普通のPHPよりも高速処理ができるシステムを導入したのです。

id:shiki0479

はい、意味はあるのです。

私はアフィリエイトをやるつもりではありません。

またamazonにある数十万(数百?)の書籍全てをDB化しようと考えているわけでもありません。

特定ジャンル 複数(と言っても数万点にのぼりますが…)の書籍データの取得とその変化のデータがほしいと考えています。

2011/03/30 00:12:54
id:j4mika No.5

回答回数186ベストアンサー獲得回数27ここでベストアンサー

ポイント33pt

>これらの万単位の件数に対して下記情報を効率的にデータベース化する方法はないでしょうか?

簡単にする方法は無いと思います。

以前の仕事である程度カテゴリー中から、TSV形式で取得する物を作ったことがあります。#3のような感じで、まさに地道に24時間パソコンを動かしているという感じでした。

APIで取得するとき、そのURLに「&ItemPage=2」を負荷すると次のページ(2ページ目、3ページ目が欲しい場合は、3にして下さい。)が取得できると思います。

また、トータルページ数が表示されていると思いますので、それを参考にして取得すると良いと思いますが、経験間違いが多いですので、ページが取得できなくなるまで行う必要があります。

ちなみに、#4さんにあります、MySQLでは行っていません。MySQLを覚えるよりも、使い慣れたExcel2007でも100万行ほど扱えますのでExcelでも十分という判断からでした。

何か、参考になれば幸いです。

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません