人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

Pythonの質問です。
Twitterに存在する全ツイートから、ある一定の単語(日本語の単語)を使っているツイートだけを抜き出したいのですが、
上記のことが出来るスクリプトがありましたら教えていただけるとありがたいです。
なお、現在python-twitterを使用しています。

●質問者: エヌ氏
●カテゴリ:コンピュータ ウェブ制作
✍キーワード:Python スクリプト 単語 存在 日本語
○ 状態 :終了
└ 回答数 : 2/2件

▽最新の回答へ

1 ● showyou
●35ポイント

直接の答えは出せないですがいくつかヒントだけ置いておきます。

これを実現するには

  1. TwitterからTweetを抜き出す
  2. Tweet文から文字列を抽出する

と言った手順に分割出来るかと思います。

1については「python-twitter」でググるといくつか出てくるかと思います。

http://techno-st.net/2009/07/04/python-twitter.htmlとか。

2に関しては、文字列の操作関数、または正規表現を使うといいと思います。

一例としてtextという文字列から"おはよう"が含まれる内容を抜き出したければ、

import re

def pick_up_ohayou(text):

if( (matches = re.search(u"おはよう",text))!=None ):

return True

return False

などとやればいいかと思います。(コード先頭にタブかスペースを適宜入れてください)

http://www.python.jp/Zope/articles/tips/regex_howto/regex_howto_...

◎質問者からの返答

1.すいません、質問で書いたようにPython-Twitterを使っているのですが、20件しか取れないことはないですか?他の方法があるのかな・・・

2.はありがとうございます!正規表現なんとなくしか分かっていないので、復習しておきます。


2 ● showyou
●35ポイント

(Public Timelineが)1回の呼出しで20件しか取れないのはpython-twitterじゃなくてTwitter API側の仕様です。一定時刻ごとに収集するかStreaming API使わないと多くの発言は取れないです。それでもせいぜい全発言の5%くらいしか取れません(Firehoseならもっと取れるだろうけど)。

User TimeLineならpageなりcountなりの引数変えてあげればいいのではないでしょうか?


http://watcher.moe-nifty.com/memo/docs/twitterAPI.txt

http://python-twitter.googlecode.com/hg/doc/twitter.html#Api-Get...

◎質問者からの返答

うーん、なるほど・・・

引き続き解答募集します。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ