人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

さくらのクラウドで、一台のサーバに複数IPを割り当てたのですが、ここから複数IPでクローリングするにはどうしたら良いでしょうか?

#ちなみに、複数IPでクローリングしたいのは、TwitterのAPI制限(1分に1回とか)を少し緩和してデータを取得したいからです。5つくらいのIPなので、Twitterへの負荷は大きくないと思います。

今思いつく方法としては、仮想ホスト化?して、1台のマシンを複数のマシンとして扱って、それぞれでクロールのプログラムを走らせることです。
ただ、やりたいのはTwitterのフォローネットワークを辿っていくことで、複数のマシンでプログラムを走らせると、取得するユーザがかなり被ってくると思われるので、別の方法があればそうしたいです(適切に分散処理してやれば良いのでしょうが)。
例えば、走らせるのは一つのプログラムなんだけど、クローリングするときに、プールしてあるIPを毎回変えながらデータを取得するとかできないのでしょうか。

宜しくお願い致します。

●質問者: 匿名質問者
●カテゴリ:コンピュータ ウェブ制作
○ 状態 :終了
└ 回答数 : 1/1件

▽最新の回答へ

1 ● 匿名回答2号

簡単ですよ
ソケットに毎回違うアドレスをbindするだけです
"socket bind 接続元アドレス"で検索してみてください


匿名質問者さんのコメント
ありがとうございます。 調べてみてPythonでソケットを使うやり方も少し分かったのですが、今回はTwitterのAPIを使っていて、しかもOAuth認証部分を別のライブラリ(Requests-OAuthlib )を使っておりまして、ここからソケット通信と組み合わせるやり方が分からずでした.... orz 低レイヤーのプログラミングをするときTwitterのAPIは使えるのかもよく分からず... しかもOAuth認証部分だけでも難しいようなので、今はライブラリを使ってるんですが、ソケットの話が出てくるとこの部分も自分でやる必要が出て来るのかもしれないですね。 私はレベルが低いので、別の方法を模索してみようかと思います.... #他のQAサイトにも質問したのですが流石はてなで、はてなと2ちゃんねる以外では回答が得られませんでした...
関連質問

●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ