http://pali.hum.ku.dk/cpd/search.html

このオンライン辞書のすべての見出し語と定義をテキストで入手したいのです。
地道に単語を入れては、結果をコピーというやり方以外に、一気に抽出する方法を教えてください。
中にどれだけの見出し語があるのかもわからないですが、別に96万語におよぶ単語リストを持っていますので、これを使えば抜け落ちはないと考えます。
こういった情報処理にはまったく疎い人間です。
よろしくお願いします。

回答の条件
  • 1人5回まで
  • 13歳以上
  • 登録:2011/03/26 13:13:21
  • 終了:2011/04/01 01:50:58

回答(1件)

id:a-kuma3 No.1

a-kuma3回答回数4585ベストアンサー獲得回数19252011/03/26 17:18:39

ポイント60pt

http://pali.sourceforge.net/

↑から、ダウンロードできるんじゃないですかね。

id:crocodile00

残念ですが、これはPali English Dictionary という別の辞書です。

2011/03/26 22:09:37
  • id:crocodile00
    自己コメントですが、あとから来られる人のために。

    独力で解決しました。

    これは「スクレイピング」と呼ばれるネットからの情報収集作業です。
    情報収集したいサイトの構造を解析して、ダウンロード、必要な部分の切り取りを行います。

    解析にはFirefoxのFirebugが有用でした。
    具体的なスクレイピング、パーシングはPythonで行いました。

    勘所となるコードを書いておきます。

    import urllib2
    import pickle
    id=39000
    ddic = {id:(urllib2.urlopen('http://pali.hum.ku.dk/cgi-bin/cpd/pali?acti=xart&arid=%d&sphra=undefined' % id)).read() for id in range(id,id+1000)}
    #print id
    pickle.dump(ddic, open('./cpd%d.txt' %id,'w'))

    すべての単語にidがわりあてられ14000から41000まであります。
    それを1000個毎にダウンロードしました。
    しょぼい私のPCでは12分前後かかり、2回に一回は遮断されました。
    それで、そのファイルを一個につなげて必要な部分を抜き出しました。
    beautifilsoupというパイソンアプリが人気ですが、うまくいきませんでしたが、正規表現で充分うまくいます。

    いまは他のパーリ辞書とならんでキンドルで串刺し検索可能となっています。

    必要な方はがんばってください。

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません