私の友人は専門的な業種の英文書を翻訳を仕事にしています。

この作業には、自分で作ったWord文書の10万語の辞書を用いるために、
翻訳作業で単語を検索するのにとても時間がかかってしまいます。(テキストの全文検索)
パソコンのスペックを上げるだけでは限界が来ているので、
別の方向を検討したいのですが、どういった方法が考えられますか?
※この辞書には一般的な単語は含まれてなく、全て一般人が耳にしないような医学用語の辞書のような物と考えて下さい。
※友人がこの分野の第一人者でデジタルの辞書データはこれしか日本に存在していません。
※彼が亡くなった後も日本のためにデータを後生に残しやすい形にできたらいいと思います。
注意:Googleデスクトップをインストールしても1ファイルが見つかるだけなのでダメです。

回答の条件
  • 1人1回まで
  • 登録:2009/04/20 19:36:59
  • 終了:2009/04/27 19:40:03

回答(6件)

id:Nigitama No.1

にぎたま回答回数311ベストアンサー獲得回数182009/04/20 19:53:32

ポイント23pt

DDWinかJammingという辞書ソフトを使って辞書にすると良いと思います。

DDWinはフリーウェア

http://homepage2.nifty.com/ddwin/

Jammingはシェアウェア

http://dicwizard.jp/jamming.html

Jammingユーザーガイド (左のメニューから「ユーザー辞書」をクリックしてください)

http://dicwizard.jp/jamming_ug.html

ユーザー辞書を作成すれば検索用に最適化してくれます。

実用に耐えうるスピードになるはずです。

Wordファイルで10万語は非現実的ですね。テキストエディタに貼っても時間がかかります。

具体的にどのような形式になっているのかわかりませんが、タブ区切りなりカンマ区切りなりになっていると思うので(?)、工夫して辞書化するとよいでしょう。

id:marinelake

データベースにすることを考えていないメモ書きから始めているので、 タブとかカンマはないんです。

だから困ってるんですよね。スペースと改行くらいしか使っていないのです。

2009/04/20 20:28:52
id:gkkj No.2

gkkj回答回数115ベストアンサー獲得回数102009/04/20 20:01:55

ポイント23pt

Wordのドキュメントを、単純なテキストに変換して(テキスト形式で保存するだけ)、テキストエディタで閲覧・編集・検索したらだめですか?

テキストエディタは、一般に、wordのように文章を編集するソフトウェアですが、太字などの機能がない代わりに、きわめて高速に動作します。

id:marinelake

これは想定している解答とは異なりまして。

力業での解決では、意味がないのです。

2009/04/20 20:15:25
id:airplant No.3

airplant回答回数220ベストアンサー獲得回数492009/04/20 22:49:55

ポイント22pt

元データがデータベースになり難い形で、その中の全フィールドを見たいということのようです。

フリーソフトで全文検索のインデックスを作って、それで見てはいかがでしょうか?

サンプルとして、「探三郎」というフリーソフトがあります。

http://www.vector.co.jp/soft/win95/util/se375929.html


原文のWordファイルを特定フォルダにいくつかのテキストファイルとして保存し、後でそのフォルダの全ファイルの全文検索インデックスを作っておけば、一瞬で表示されます。


もし、下記の形式の繰り返しになっているのであれば、データベース化する方法もありますね。

名詞
説明文
用例
id:marinelake

これはGoogleデスクトップと同じ

ファイルを検索するソフトのように見受けられます。

2009/04/22 00:58:38
id:yasu_sinjuku No.4

やす@新宿回答回数71ベストアンサー獲得回数102009/04/21 00:55:17

ポイント22pt
  1. 専門性の高い価値あるものである。
  2. その分野の第一人者である。
  3. デジタルの辞書データは唯一これだけである。

と言う事であれば、出版社に持ち込んでみてみると良いと思います。

厳しい言い方になると思いますが、国内の主だった出版社へ一斉に出版の話を持ちかけて、どこも取り合わないようでしたら、あまり価値の無いものだと思いますので、データを後世に残す必要は無いと思われます。

id:marinelake

実はすでに出版されていまして、専門家と官僚しか買わないのであんまり儲からないそうです。

整えられたデータは本人の手元にはないんですね。いろいろあって渡して貰えないみたいです。

出版に際してデータベース形式に変換したかどうかも不明です。力業でDTPしている可能性もあります。

本来、国がしないといけないような事業なんですが、

民間人がやってる仕事に国が税金を投入するのもおかしい事になるのでこのことに支援がうけられないみたいです。

2009/04/22 00:51:01
id:kato-cha No.5

清太回答回数3ベストアンサー獲得回数02009/04/22 22:45:32

ポイント10pt

HTML化はいかがでしょうか。個人のコンピュータだけに入れておいてもいいでしょうし、後世に残したいという意志がおありならば、どこかのサーバーにアップロードなさってもいいんではないでしょうか。

Google検索に引っかかるようになれば、個人のコンピュータのみにとどまらずGoogle社の数千台のコンピュータにも働いてもらえる、という寸法です。

高度に専門的で、一般ではあまり用いられない用語がメインであれば、おそらくピンポイントでヒットするようになるかと思います。

「想定している解答」というのがどの様なものであるのか、今ひとつ推し量りかねますのでもしかすると見当違いになってしまうかもしれませんが。

質問者が未読の回答一覧

 回答者回答受取ベストアンサー回答時間
1 longicorn 56 51 6 2009-04-23 21:45:40
  • id:marinelake
    marinelake 2009/04/20 19:41:05
    コメント欄をONにしてありますよ。
    困ったことにこの文書はただのテキスト文書なんです。
    データベースにするために手動で入力しなおすにも10万語ありますから、
    人力ではちょっと無理です。
  • id:chuken_kenkou
    Wordでは、どういう形式で単語登録しているのでしょうか?

    単語毎に改行している?
    タブ区切り?

    単語とその説明は、どういう区切りにしていますか?

    区切りがしっかりしているなら、Word文書をWordで開き、テキストで保存。

    RDBMS側(10万行程度なら、MS-ACCESSでも十分かと)で表定義し、テキストファイルから格納するといった方法があります。
  • id:marinelake
    marinelake 2009/04/20 20:22:42
    たぶん、タブとかコンマは使ってないというか、
    書き始めはデータベースとしての利用を全く想定していないですね。

    というかそもそも
    データベース化すると少し検索がはやくなるんでしょうか?
    単語の文字頭の検索は早くなるんでしょうけど、
    単語の用例の中に含まれる説明文の中の単語の検索もはやくなりますかね?
  • id:marinelake
    marinelake 2009/04/20 20:35:23
    疑問なのは、データベースは単語の頭から検索すると思うのですが
    専門用語では複数の単語を並べて一つの意味を成す場合があります。
    実際の文章中には先頭の単語を省いた略称が使われる場合も考えられるので、
    これだと先頭に単語意外は検索にかからないのでしょうか?
    例えば
    The ○○ ××~
    という用語で
    略されて○○とだけ文章中に使われている場合
    ○○とデータベースに検索をかけても検索できるんでしょうか?

    そして、もう一つの問題は、データベースにしたとして、
    それが人間にとって使いやすいインターフェースであるかどうか?
  • id:Nigitama
    >データベース化すると少し検索がはやくなるんでしょうか?
    ダントツに早くなると思います。
    少なくともWordで10万語とは比べものにならない速度で。

    あとは、実際の形式をコメント欄に書くのが手っ取り早いと思いますよ

    コメントを見ているとおそらく、形式が統一されていなかったり修正するのに膨大な時間がかかったりしそうですね。そうであれば、英語-日本語としてのペアではなく行ごとにデータベースに保存するという方法もあると思います。

    たとえば、書き始めは
    question (質問)
    という形式で書いていたのに
    後半から
    question
    質問 (I have a question)
    という形式に変わっていたりした場合
    行ごとにデータベースに入れて、検索にヒットした前後の行も表示させるというのが今ぱっと思いつく方法です。

    別の質問を立てて、具体的な形式を説明すればだれかがDB化のプログラムなりなんなりを教えてくれるかもしれません。

    >それが人間にとって使いやすいインターフェースであるかどうか?
    それは作り方次第です・・・
  • id:gkkj
    フォーマットが明確でない(区切りがはっきりしてない)テキストは、辞書ソフトに流し込むのも、データベースに流し込むのも、非常に困難です。

    そういう意味で、wordではなくテキストエディタを使うというのは、一歩前進だと思ったのですが。
  • id:marinelake
    marinelake 2009/04/20 20:49:51
    なるほど、改行だけでも

    名詞
    説明文
    用例

    周辺を表示すれば見つかりますね。
    アルファベット順にソートができないのが難点ですが。
  • id:gkkj
    ちなみに10万語とは、10万項目ということですか?それとも、テキスト全体でのワード・カウントが10万ということですか?

    コメントを見ていると、なんとなく、いわゆる辞書というより訳例集のように思えてきました。
  • id:marinelake
    marinelake 2009/04/20 21:05:19
    10万項目ですね。正確には訳例集であってますね。
  • id:marinelake
    marinelake 2009/04/20 21:10:42
    Googleのウェブ検索は膨大な文章を一瞬で検索できてしまうからすごいですよね。
    あのように検索できれば良いものです。
  • id:gkkj
    例えば、もし、テキストファイル化した状態で、
    * 空白行が項目の区切りになっている
    * 同一項目内に空白行があることはない
    の両方がいえるなら、プログラムによる、項目ごとファイルへの分割が可能です。こうして10万分割してファイル10万件にして、googleデスクトップを入れる。
  • id:garyo
    日本語全文検索システム Namazu
    http://www.namazu.org/index.html.ja
    というものがあります。
    元データーをワード→Textファイルに変換し
    ローカルでXAMPPなどを動かしてその中でCGIを動かしてみては?
  • id:airplant
    2つの質問があると思います。

    >翻訳作業で単語を検索するのにとても時間がかかってしまいます。(テキストの全文検索)
    >パソコンのスペックを上げるだけでは限界が来ているので、
    >別の方向を検討したいのですが、どういった方法が考えられますか?
     「翻訳作業で単語を見つけるときに高速化したい」
     → これは、今は1つのWordファイルに10万語を入れているので遅いということですね?
    他の方法で全文検索により周辺の文字がすぐに見つかる方法ではNGということでしょうか?(googleチックな表示)

    >※彼が亡くなった後も日本のためにデータを後生に残しやすい形にできたらいいと思います。
     → もし、ある程度の規則性を持った行が多いのであれば、外注して全部を次の行の順にしてもらう手があると思います。その後、Webで公開すれば後世でも利用できるかなと思います。
    名詞
    説明文
    用例
  • id:yasu_sinjuku
    既に出版されていると言う事であれば、後世にその資産は、残ります。
    おそらく、出版社には、改定された、誤字脱字などの無い電子データが存在してます。

    つまり、この辞書的なデータを

    1.電子辞書化したい
    2.出版社は協力的でない
    3.個人的な資産としたい

    と言う事ですか?

    それであれば、最低でも300万くらいの予算を持って制作依頼をされる他無いと思います。
    当然、ご自身で電子辞書を制作されても良いですが、勉強する時間と費用を考えれば、外注する方が得だと思います。
  • id:niwa-mikiho
    今後の回答してもらえる方のために、

    (1) 名詞、説明文、用例などがどのようにして区分けされているのか
    名詞 {\\t} 説明 {\t} 用例


    なのか、


    名詞
    説明
    用例


    なのかなど。


    (2) 業務としてなら、業務の一貫として整えることは可能か?
    重要なものであれば、会社の資産でもありますし、それを会社の費用でそのファイルを整形するように外注することは出来ないのでしょうか?


    以上をしっかりお答えいただければ幸いです。




    一応参考までに。


    ちなみに、DB に入れるだけでダントツに早くなります。
    DB は 「あいうえおかきくけこさしすせそ」 に含まれる 「おかきくけ」 を抽出することもできますし、一致する全ての候補を出すことも出来ます。
    数が多すぎるときに先頭100個だけ表示なども出来ます。
    プログラム自体はさほど多くはないので、一番初期に外注しておけば数万~十数万でシステムが構築できたでしょうが、データが莫大なため、プログラムよりそのデータの整形にお金が掛かると考えていただければと思います。
  • id:adlib
     
     発想転換のすすめ ~ Butch Cassidy and the Sundance Kid ~
     
     何を云っても却下されそうですが、Word 文書の10万語を、Excel に
    転記するより、ブログに分割保存すれば、かなりの文書量を瞬時にして
    一括検索できます。クラウド(空中保存)で無料、非公開も可能です。
     
     はてなダイアリーなら、理論上ほぼ無限(3652059*32000 字)です。
     00000000 ~ 99991231(3652059.76=9999*365.2425 days)
    (名詞、説明文、用例の区分は、専門家なら一目瞭然のはずです)
     
     データベースにおいて、スペースと改行は、タブやカンマと同じです。
    「スペース+キーワード」または「キーワード+スペース」のいずれか
    によって「任意のキーワード」に置換・変換することができます。
     
     ただし、加工・編集にあたっては、かならず原本にあたるテキストを、
    原状のまま別途に保管しておくべきです。
     また、追記・訂正のたびに、修訂日記として記録しましょう。
     
     下記の言語学者は、必ずしもデータベース化しなくても、テキスト状
    で十分活用できる、と述べています。ワープロ時代から蓄積した資産を、
    艱難辛苦・紆余曲折を経て育成した苦心談は、いまも参考になります。
     
    ── 重要なことはデータベースソフトを使うことより、「データベー
    ス的」な使い方を覚えることである。(P122)
    http://booklog.jp/users/awalibrary/archives/4121013042
    ── 中尾 浩《文科系のパソコン技術 ~ ライティングシステム序説 19960625 中公新書》
     
    ── Excel だと一回検索して、それっぽい文例があったらそこで検索
    をやめてしまいますよね。次々とファイルを開いて検索かけていくのが
    面倒だから。ところが「対訳君」のように一覧表示されると、どれがも
    っとも適切かがすぐわかるじゃないですか。
    http://www.mcl-corp.jp/software/user_business.html
     
     Excel 検索でも一覧表示は可能です。ファイル(最大30MB)ごとに、
    フォルダに収納すれば、Word より効率的に一括検索できます。
     PDFへの変換(所要時間30分)も、かなり実用的です。
     
     広辞苑 第六版の見出しは約24万語だそうです。わたしは、第二版を
    スキャナで自炊、総量 1GB(1893742 KB=738187+542659+612896)前後
    でしょうか。
     
    http://booklog.jp/users/awalibrary/archives/B000J98TJQ
    ── 新村 出《広辞苑 19660516 第二版 19550525-19690516-19711118 岩波書店》P1383
     
     サブタイトルは、本論とは無関係ですが、わたしの作業心得です。
    http://movie.goo.ne.jp/movies/p352/story.html
    ── 《明日に向って撃て! 19690923 America 19700207 Japan》
     

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません