現在スクレイピング技術を利用したサイトを企画しています。
1) 情報を取得する対象サイトに許可を取っていますか?
2) 問い合わせを行い、実際に掲載の許可を得られた経験はありますか?
3) 許可を得ずに公開していた場合、公開を停止するように警告された経験はありますか?
(イメージや一般論ではなく、経験談をお聞かせください。)
相手先は企業、こちらは個人になります。
世の中には無許可で情報を取得しているサイトも多いと思いますし、
問い合わせを行ったとしても、実際に掲載の許可が得るのは難しいのではないかとも考えています。
できれば情報取得先のサイトに許可を取りたいと考えているのですが…よろしくお願いします。
最近はそもそもAPIとかが提供されてるものが多くスクレイピングの必要性も減りましたが、それでもAPIが無い情報も多く結構やりますね。
1) 情報を取得する対象サイトに許可を取っていますか?
相手サイトの規模と、こちらのクローラーの巡回ページ数によります。例えば、
・楽天市場のキャンペーン情報をスクレイピングで集めるようなスクリプトの場合、楽天なら多分数億PVとかいう単位を軽く捌いてる筈で、それに対してキャンペーン情報の取得なら1日数ページのクロールで十分なので、相手の負荷にはならないと考えて許可は取ろうとも思いません。
・DMMの商品情報をスクレイピングでぶっこぬいてその上方を使ったサイトを作りたいと思った場合、DMMもかなりのPVを捌いている筈なので多少の連続アクセスは問題無いと考えます。ですが目的がほぼ全ての商品情報のスクレイピングなのでクローラーの巡回ページ数はかなりな物になる筈です、それに個人利用ではなくサイト構築に情報を使うとなると負荷以外に2次利用の許可も気になるので、色々問題がありそうなのでこの場合は素直に問い合せてみますね。
2) 問い合わせを行い、実際に掲載の許可を得られた経験はありますか?
1のDMMの例では、負荷については許容範囲、更にスクレイピングした情報の二次利用はDMMへ誘導する形だったでDMMの利益にかなうとの判断か、まぁ理由は不明ですがこれも許可も得ることが出来ました。
あとスクレイピングは構わないけど、サイト上に「Suported by 〇〇」って書いてリンク貼っておいて欲しいとか但し書きを書いて欲しいとか言われることもありますね。
3) 許可を得ずに公開していた場合、公開を停止するように警告された経験はありますか?
無許可の場合は相手もこちらの素性調査が大変だろうしメールや電話などで個人を特定しての警告はされたこと無いですね。
ですがIPやUserAgentでアクセス拒否されることはあります。その場合は大抵は素直に諦めてクロールを止めます。
問い合わせを行ったとしても、実際に掲載の許可が得るのは難しいのではないかとも考えています。
外道な目的での取得や、過剰すぎるアクセスを考えていなければ、実際に問い合わせをしてみても大抵は紳士的に対応してもらえることが多い気がします。
あと、そもそもスクレイピングをしようと思う理由を素直に説明してみるとユーザの意見として受け止めてもらって暫く後に対応してもらえた、ということも多いです。ただしお役所や大企業系だと改善は期待薄ですが。
まぁ相談して駄目なら諦めます。
最近はそもそもAPIとかが提供されてるものが多くスクレイピングの必要性も減りましたが、それでもAPIが無い情報も多く結構やりますね。
1) 情報を取得する対象サイトに許可を取っていますか?
相手サイトの規模と、こちらのクローラーの巡回ページ数によります。例えば、
・楽天市場のキャンペーン情報をスクレイピングで集めるようなスクリプトの場合、楽天なら多分数億PVとかいう単位を軽く捌いてる筈で、それに対してキャンペーン情報の取得なら1日数ページのクロールで十分なので、相手の負荷にはならないと考えて許可は取ろうとも思いません。
・DMMの商品情報をスクレイピングでぶっこぬいてその上方を使ったサイトを作りたいと思った場合、DMMもかなりのPVを捌いている筈なので多少の連続アクセスは問題無いと考えます。ですが目的がほぼ全ての商品情報のスクレイピングなのでクローラーの巡回ページ数はかなりな物になる筈です、それに個人利用ではなくサイト構築に情報を使うとなると負荷以外に2次利用の許可も気になるので、色々問題がありそうなのでこの場合は素直に問い合せてみますね。
2) 問い合わせを行い、実際に掲載の許可を得られた経験はありますか?
1のDMMの例では、負荷については許容範囲、更にスクレイピングした情報の二次利用はDMMへ誘導する形だったでDMMの利益にかなうとの判断か、まぁ理由は不明ですがこれも許可も得ることが出来ました。
あとスクレイピングは構わないけど、サイト上に「Suported by 〇〇」って書いてリンク貼っておいて欲しいとか但し書きを書いて欲しいとか言われることもありますね。
3) 許可を得ずに公開していた場合、公開を停止するように警告された経験はありますか?
無許可の場合は相手もこちらの素性調査が大変だろうしメールや電話などで個人を特定しての警告はされたこと無いですね。
ですがIPやUserAgentでアクセス拒否されることはあります。その場合は大抵は素直に諦めてクロールを止めます。
問い合わせを行ったとしても、実際に掲載の許可が得るのは難しいのではないかとも考えています。
外道な目的での取得や、過剰すぎるアクセスを考えていなければ、実際に問い合わせをしてみても大抵は紳士的に対応してもらえることが多い気がします。
あと、そもそもスクレイピングをしようと思う理由を素直に説明してみるとユーザの意見として受け止めてもらって暫く後に対応してもらえた、ということも多いです。ただしお役所や大企業系だと改善は期待薄ですが。
まぁ相談して駄目なら諦めます。
非常に具体的な回答をありがとうございます。
実際に許可をもらえた例もあり、大変参考になりました。
やはり気持ちよく構築したいので、結果はどうあれ事前に問い合わせてみようと思います。
こんにちは。
1) 情報を取得する対象サイトに許可を取っていますか?
今までの経験では取りませんでした。開発するサービスにもよりますが。内容としては株価等の情報を1分程度のスパンで取得していたことがあります。1分に1アクセスとして、1440アクセス/日程度であれば問題なしと考えていました。アクセスする先はページビューの多いポータルサイトです。
2) 問い合わせを行い、実際に掲載の許可を得られた経験はありますか?
問い合わせをしていません。
3) 許可を得ずに公開していた場合、公開を停止するように警告された経験
スクレイピングサービスではありませんでしたが、警告されたことはあります。リスクをとっても継続する意味があると判断したときは、継続しつつ警告を送ってきたところと話し合いをもちました。リスクをとってもあまりメリットがなさそうと判断したものは特に連絡もせずサービスを停止しました。
岡崎の図書館の件もあるので、個人的にもちょっと気になります。
回答ありがとうございます。
リクエストの頻度と量などは意識しておく必要がありそうですね。
また警告があったとの経験も参考になりました。
岡崎市の図書館のような例があると非常に気になるところですね。やはりあまりにも不思議な対応だと感じましたので。
非常に具体的な回答をありがとうございます。
実際に許可をもらえた例もあり、大変参考になりました。
やはり気持ちよく構築したいので、結果はどうあれ事前に問い合わせてみようと思います。