たとえばは百科事典のCD-ROMを購入して、そのデータだけ打ち込むとか、ネット上で拾ってくるなど、特に手段は問いません。
手間や時間をかけず、数万単位の単語をエクセルに収める方法を教えてください。
なお今回必要としているのはあくまで単語数です。
以上、よろしくお願いします。
いくつか方法はあると思いますが、
といった感じでしょうか?
でも、エクセルでは65000行くらいしか処理できないですが、そんなもんでいいんでしょうか?あまり現実的ではないと思います。
そういうときは、CSVやXMLなどのテキストファイル、もしくはデータベースなどを利用したほうが良いと思います。
ダミーURL
http://www.forest.impress.co.jp/article/2005/11/29/smartocrlite....
百科事典の索引を スキャナで取込画像ファイルにします。
それから OCRソフトを使って テキスト化したのをコピーし
エクセルに貼り付けたらいいでしょう。
ご回答ありがとうございます。
実はOCRソフトを使うと認識率が100%ではないので、後で打ち直すことを考えると、結局、手打ちしても手間は変わらなくなってしまうんですよね。
それを解決する良い方法があればよいのですが・・。
1)の方の補足ですが、Wikipediaは丸ごとダウンロードできます。XMLファイルですので、切り出しも容易かと。
http://ja.wikipedia.org/wiki/Wikipedia:%E3%83%87%E3%83%BC%E3%82%...
また、ソースは別に求めるとした場合は、テキストマイニングソフトが単語の切り出しに向いています。
たとえば、KH Corderはフリーソフトですが、単語を切りだして品詞別にエクセルの表にまとめてくれたりします。
デフォルトで複合名詞もばらばらにしてしまうので、ちょっとカスタマイズは必要かもしれませんが。
ご回答ありがとうございます。
大変参考になりました。
追加で回答です。
”専門用語(キーワード)自動抽出システム”
(中身はPerlモジュール、茶筅or和布舞等の組み合わせ)
http://gensen.dl.itc.u-tokyo.ac.jp/
というものを使うと、複合名詞も分割されずに単語として抽出されました。おまけに語彙の重要度に対して点数が付きます。
私はWindows上のActivePerlで試しましたが、問題なく動きました。出力はテキストファイルでNotePadが自動で立ち上がります。所要時間は6Mbyteの文書で、1~2分程度でした。
再度のご回答ありがとうございました。
さっそく試してみることにします。
ご回答ありがとうございます。
これはかなり良い方法ですね。
大変参考になりました。
エクセルの件は忘れていました。アクセスを使います。