http://pali.hum.ku.dk/cpd/search.html

Question

crocodile00

5

4もっと見る

60pt

コンピュータ

http://pali.hum.ku.dk/cpd/search.html

このオンライン辞書のすべての見出し語と定義をテキストで入手したいのです。
地道に単語を入れては、結果をコピーというやり方以外に、一気に抽出する方法を教えてください。
中にどれだけの見出し語があるのかもわからないですが、別に96万語におよぶ単語リストを持っていますので、これを使えば抜け落ちはないと考えます。
こういった情報処理にはまったく疎い人間です。
よろしくお願いします。

回答の条件

1人5回まで

登録：2011/03/26 13:13:21
終了：2011/04/01 01:50:58

※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

crocodile00 2011/06/26 11:05:57

自己コメントですが、あとから来られる人のために。

独力で解決しました。

これは「スクレイピング」と呼ばれるネットからの情報収集作業です。
情報収集したいサイトの構造を解析して、ダウンロード、必要な部分の切り取りを行います。

解析にはＦｉｒｅｆｏｘのＦｉｒｅｂｕｇが有用でした。
具体的なスクレイピング、パーシングはＰｙｔｈｏｎで行いました。

勘所となるコードを書いておきます。

import urllib2
import pickle
id=39000
ddic = {id:(urllib2.urlopen('http://pali.hum.ku.dk/cgi-bin/cpd/pali?acti=xart&arid=%d&sphra=undefined' % id)).read() for id in range(id,id+1000)}
#print id
pickle.dump(ddic, open('./cpd%d.txt' %id,'w'))

すべての単語にｉｄがわりあてられ１４０００から４１０００まであります。
それを１０００個毎にダウンロードしました。
しょぼい私のＰＣでは１２分前後かかり、２回に一回は遮断されました。
それで、そのファイルを一個につなげて必要な部分を抜き出しました。
ｂｅａｕｔｉｆｉｌｓｏｕｐというパイソンアプリが人気ですが、うまくいきませんでしたが、正規表現で充分うまくいます。

いまは他のパーリ辞書とならんでキンドルで串刺し検索可能となっています。

必要な方はがんばってください。

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

リクエスト送信済

回答リクエストを送信したユーザーはいません

a-kuma3 · Answer 1 · 2011-03-26T17:18:39+09:00

http://pali.sourceforge.net/

↑から、ダウンロードできるんじゃないですかね。

http://pali.hum.ku.dk/cpd/search.html

回答（1件）

a-kuma3497321542011/03/26 17:18:39

コメント（1件)

この質問への反応（ブックマークコメント）