百科事典の見出し単語(もしくはそれくらいの語彙数のあるキーワード郡)のデータをエクセルに入れるにはどうしたら良いのでしょうか?

たとえばは百科事典のCD-ROMを購入して、そのデータだけ打ち込むとか、ネット上で拾ってくるなど、特に手段は問いません。
手間や時間をかけず、数万単位の単語をエクセルに収める方法を教えてください。
なお今回必要としているのはあくまで単語数です。
以上、よろしくお願いします。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:
  • 終了:2007/02/09 16:29:42
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答4件)

id:wm5775 No.1

回答回数351ベストアンサー獲得回数4

ポイント25pt

いくつか方法はあると思いますが、

  1. IMEの辞書をテキストに展開して名詞に相当するものだけをリストにする。
  2. WikiPediaの内容をXML出力して、タイトルに相当するタグだけを抽出する。
  3. 茶筌についている分かち書き辞書から名詞を抽出する。
  4. PDICの辞書の和英辞典から日本語かつ名詞である項目を抽出する。

といった感じでしょうか?

でも、エクセルでは65000行くらいしか処理できないですが、そんなもんでいいんでしょうか?あまり現実的ではないと思います。

そういうときは、CSVやXMLなどのテキストファイル、もしくはデータベースなどを利用したほうが良いと思います。

ダミーURL

http://heart-rhythm.jugem.jp/

id:taroemon

ご回答ありがとうございます。

これはかなり良い方法ですね。

大変参考になりました。


エクセルの件は忘れていました。アクセスを使います。

2007/02/05 14:55:34
id:taknt No.2

回答回数13539ベストアンサー獲得回数1198

ポイント20pt

http://www.forest.impress.co.jp/article/2005/11/29/smartocrlite....

百科事典の索引を スキャナで取込画像ファイルにします。

それから OCRソフトを使って テキスト化したのをコピーし

エクセルに貼り付けたらいいでしょう。

id:taroemon

ご回答ありがとうございます。

実はOCRソフトを使うと認識率が100%ではないので、後で打ち直すことを考えると、結局、手打ちしても手間は変わらなくなってしまうんですよね。

それを解決する良い方法があればよいのですが・・。

2007/02/05 15:23:20
id:microftxxx No.3

回答回数130ベストアンサー獲得回数4

ポイント25pt

1)の方の補足ですが、Wikipediaは丸ごとダウンロードできます。XMLファイルですので、切り出しも容易かと。

http://ja.wikipedia.org/wiki/Wikipedia:%E3%83%87%E3%83%BC%E3%82%...

また、ソースは別に求めるとした場合は、テキストマイニングソフトが単語の切り出しに向いています。

たとえば、KH Corderはフリーソフトですが、単語を切りだして品詞別にエクセルの表にまとめてくれたりします。

http://khc.sourceforge.net/

デフォルトで複合名詞もばらばらにしてしまうので、ちょっとカスタマイズは必要かもしれませんが。

id:taroemon

ご回答ありがとうございます。

大変参考になりました。

2007/02/05 21:41:41
id:microftxxx No.4

回答回数130ベストアンサー獲得回数4

ポイント20pt

追加で回答です。

”専門用語(キーワード)自動抽出システム”

(中身はPerlモジュール、茶筅or和布舞等の組み合わせ)

http://gensen.dl.itc.u-tokyo.ac.jp/

というものを使うと、複合名詞も分割されずに単語として抽出されました。おまけに語彙の重要度に対して点数が付きます。

私はWindows上のActivePerlで試しましたが、問題なく動きました。出力はテキストファイルでNotePadが自動で立ち上がります。所要時間は6Mbyteの文書で、1~2分程度でした。

id:taroemon

再度のご回答ありがとうございました。

さっそく試してみることにします。

2007/02/09 12:26:27

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません