人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

百科事典の見出し単語(もしくはそれくらいの語彙数のあるキーワード郡)のデータをエクセルに入れるにはどうしたら良いのでしょうか?
たとえばは百科事典のCD?ROMを購入して、そのデータだけ打ち込むとか、ネット上で拾ってくるなど、特に手段は問いません。
手間や時間をかけず、数万単位の単語をエクセルに収める方法を教えてください。
なお今回必要としているのはあくまで単語数です。
以上、よろしくお願いします。

●質問者: taroemon
●カテゴリ:コンピュータ 書籍・音楽・映画
✍キーワード:CD ROM エクセル キーワード データ
○ 状態 :終了
└ 回答数 : 4/4件

▽最新の回答へ

1 ● wm5775
●25ポイント

いくつか方法はあると思いますが、

  1. IMEの辞書をテキストに展開して名詞に相当するものだけをリストにする。
  2. WikiPediaの内容をXML出力して、タイトルに相当するタグだけを抽出する。
  3. 茶筌についている分かち書き辞書から名詞を抽出する。
  4. PDICの辞書の和英辞典から日本語かつ名詞である項目を抽出する。

といった感じでしょうか?

でも、エクセルでは65000行くらいしか処理できないですが、そんなもんでいいんでしょうか?あまり現実的ではないと思います。

そういうときは、CSVやXMLなどのテキストファイル、もしくはデータベースなどを利用したほうが良いと思います。

ダミーURL

http://heart-rhythm.jugem.jp/

◎質問者からの返答

ご回答ありがとうございます。

これはかなり良い方法ですね。

大変参考になりました。


エクセルの件は忘れていました。アクセスを使います。


2 ● きゃづみぃ
●20ポイント

http://www.forest.impress.co.jp/article/2005/11/29/smartocrlite....

百科事典の索引を スキャナで取込画像ファイルにします。

それから OCRソフトを使って テキスト化したのをコピーし

エクセルに貼り付けたらいいでしょう。

◎質問者からの返答

ご回答ありがとうございます。

実はOCRソフトを使うと認識率が100%ではないので、後で打ち直すことを考えると、結局、手打ちしても手間は変わらなくなってしまうんですよね。

それを解決する良い方法があればよいのですが・・。


3 ● microftxxx
●25ポイント

1)の方の補足ですが、Wikipediaは丸ごとダウンロードできます。XMLファイルですので、切り出しも容易かと。

http://ja.wikipedia.org/wiki/Wikipedia:%E3%83%87%E3%83%BC%E3%82%...

また、ソースは別に求めるとした場合は、テキストマイニングソフトが単語の切り出しに向いています。

たとえば、KH Corderはフリーソフトですが、単語を切りだして品詞別にエクセルの表にまとめてくれたりします。

http://khc.sourceforge.net/

デフォルトで複合名詞もばらばらにしてしまうので、ちょっとカスタマイズは必要かもしれませんが。

◎質問者からの返答

ご回答ありがとうございます。

大変参考になりました。


4 ● microftxxx
●20ポイント

追加で回答です。

”専門用語(キーワード)自動抽出システム”

(中身はPerlモジュール、茶筅or和布舞等の組み合わせ)

http://gensen.dl.itc.u-tokyo.ac.jp/

というものを使うと、複合名詞も分割されずに単語として抽出されました。おまけに語彙の重要度に対して点数が付きます。

私はWindows上のActivePerlで試しましたが、問題なく動きました。出力はテキストファイルでNotePadが自動で立ち上がります。所要時間は6Mbyteの文書で、1?2分程度でした。

◎質問者からの返答

再度のご回答ありがとうございました。

さっそく試してみることにします。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ