人力検索はてな
モバイル版を表示しています。PC版はこちら
i-mobile

統計翻訳と、そうでない(ある意味、昔ながらの)機械翻訳の違いについて、かみくだいて説明してください。具体的な例文は、英語と日本語でお願いします。(ただし英→日でも日→英でもどちらでも構いません。)

説明する相手は、
-英語の読み・書きがあまりできない
-機械翻訳の原理は、基本的に、理解していないし知らない
-「構文木」などの用語を見てもわからない
という人だと想定していただければと思います。

なお、ウィキペディア日本語版の「機械翻訳」の項は参照済です。
http://ja.wikipedia.org/wiki/%E6%A9%9F%E6%A2%B0%E7%BF%BB%E8%A8%B3
これは「難しそう」と思うだけだが、機械翻訳への期待は高い(「使えれば便利だよねー」的に)、という人に説明するにはどうしたらよいか、というのが質問の主旨です。

※ご回答は私のダイアリの「機械翻訳」のエントリで引用・流用させていただくかもしれません。予めご了解ください。
http://d.hatena.ne.jp/nofrills/searchdiary?word=%2a%5b%b5%a1%b3%a3%cb%dd%cc%f5%5d

●質問者: nofrills
●カテゴリ:コンピュータ 学習・教育
✍キーワード:ウィキペディア日本語版 エントリ 原理 引用 日本語
○ 状態 :終了
└ 回答数 : 2/2件

▽最新の回答へ

1 ● sibazyun
●128ポイント

「xxxいうときは○○○と言う」と教わって外国語に慣れていく、

といった状況を想像してください。

最初はなんのことかわからずにいても、繰り返していると

「ああ、こういうものか」とわかって、後は組み合わせで

いくようになります。これが「統計的翻訳」の原理です。

統計というのは、2つ3つではだめでも、何百万と重なれば、

それなりの効果がでます。そして、子供と違って、

コンピュータは、教えられれば何百万例を記憶することは楽にできます。


「習うより慣れろ」もありますが、大学に入ってからをおもってください。

そうすると、どうしても「文法」というのが頭にきて、

例えば「猫が(主語)ねずみを(目的語)捕まえます(動詞)」→

「A cat(主語) catches(動詞で、主語が3人称単数なので、

3単現の形になる。この形は原則としてsだが、語尾がchだとesとなる)、

a rat(目的語)」などと文法の決まりを覚えて、使うようになります。

実はこういう文法中心の手法がコンピュータは得意なのです。

もちろん、その場合、「今晩は」はThis evening is. ではなくて

「Good evening!」だ、のように、文法の決まりだけでは

ダメな例文は記憶させます。


説明を省いたことがあります。いくら多数、両言語の組を

コンピュータに教えたところで、それだけでは応用がきかないことです。

その意味で人間の脳はすごいことをやっていますが、どうやって

いるかは解明されていません。そこで、コンピュータに対しては、

文法中心の手法ももちろん取り入れていて、例文の組から、

文法の仕組みを推論させる、といった高度な手法をとりいれています。

これが「統計的手法」がやっと最近実用になってきた技術的背景です。

◎質問者からの返答

sibazyunさん、「用語」を使わないという難しい条件のなかで、高校生なら十分に要点を把握できるような形で、かみ砕いて説明してくださってありがとうございます。(回答オープンまでかなり時間がかかってしまってすみませんでした。)

基本的に自動終了するまで質問は閉めずにおくつもりなので、また別な説明の仕方があればご投稿ください。

ところで余談ですが、改めて確認してみたのですが、統計的機械翻訳を採用しているGoogle翻訳は、「文法中心の手法」を完全に排除しているのでしょうか、「AはBである。」という文を投げると、"A, B." と返してきます。

http://d.hatena.ne.jp/nofrills/20080919/p2

いくら「統計的手法」とはいえ、ここまで徹底していると、日本語と英語の間の翻訳(言語の移しかえ)では実用にならなくて当然なような気が……。


2 ● ?h?m
●206ポイント ベストアンサー

機械翻訳には、大きく分けて、

*構文解析してから翻訳するタイプ と

*構文解析を(あまり真面目には)せずに翻訳するタイプがあります。

商品化されている機械翻訳ソフトのほとんどは、前者をベースにしていると思います。

統計的機械翻訳といわれるのは後者の急先鋒で、最近活発に研究されています。

(ということは発展途上ということでもあります)

まず、構文解析してから翻訳する、というのがどういうものかを簡単に説明します。

日本語の

青い目の女の子が来た

という文を英語に翻訳するとします。

まず、構文解析器に構文解析をしてもらいます。すると、

 <主語><形容詞><名詞>青い目</名詞>をした</形容詞><名詞>女の子</名詞></主語><述語><動詞>来た</動詞></述語>

理想的にはこんな感じに、単語やそのまとまりの品詞を調べて、区切ってくれます。

次に、適切なまとまりごとに翻訳をします。

 <主語><形容詞><名詞>blue-eye</名詞>をした</形容詞><名詞>girl</名詞></主語><述語><動詞>came</動詞></述語>

さらに、英語と日本語の語順を考慮して並べ替えしつつ、残っている部分を翻訳します。

 <主語>a <名詞>girl</名詞><形容詞>with <名詞>blue-eyes</名詞></形容詞></主語><述語><動詞>came</動詞></述語>

これでできあがりです。

これは概念的な説明ですが、難点は分かるんじゃないかと思います。

上の説明では、いろいろ「都合よく」すすめた部分があるからです。


まず構文解析では、実際にはもっと色々解析の仕方がありえて、選ぶのが難しいです。

(「青い目をした女」の子、かもしれないし、青い「目をした女」(?)の子かもしれない)

適切なまとまりごとに、というのも難しくて、

例えば「女の子」がa child of a womanに翻訳される、というも候補としてありえます。

日本語にない冠詞を、それらしく補っている、というところも、うまくできるものとしていました。


構文解析ベースの機械翻訳で難しいのは、こういった

正しそうな候補がたくさんできてしまって選べない

という問題をいかに解決するかということです。


一方、統計的機械翻訳は、この選べない、というところに目をつけて、

まずここから解決しようとしています。

構文解析して翻訳するときに選べないという状況は、

人間だとどうやって解決しているかを考えてみると分かるのですが、

実は全部「慣用」で決めています。

つまり、「典型的にはこういう意図(構文)のつもりであることが多い」

「そういう表現の方がよく使われている」から、です。

(実はもうひとつ、文脈で選んでいる、という強力な原因がありますが、省略します)


統計的機械翻訳では、

「よく使われているものを、よく使われているように翻訳する」

を機械で実現するために、大量の文例を利用します。


まず、翻訳前と翻訳後の関係になっている文例を、大量に集めておきます。

そして、構文解析ベースの翻訳がやっていることを、

全部この文例データベースを使ってやってしまいます。


まず、まとまりを切り出して、対応している部分同士をみつけることをします。

このとき「日本語側と英語側で同時に現れやすい単語の並び」が対応している、

とみなしてしまいます。

たとえば、「青い目」を含む文と、blue eye を含む文のペアがデータベースの文例に多ければ、

このふたつの部分は対応している、とみなされやすくなります。


翻訳する時も、上で作ったたくさんの対応部分を参照します。

青い目はblue eyeに対応付けられたり blue-eyed に対応付けられたりしそうですが、

統計的機械翻訳だと、その中から「文例データベースで一番多く起こるもの」を選びます。


結果を仕上げるときにも、翻訳後言語の文例をたくさん集めておき、

そこにないような単語の並びができるだけ出てこないように調整します。


こうした統計的機械翻訳の原理的な弱点は、

文例データベースの質と量が悪いと、とたんにうまく動かなくなる、ということです。

現実的な問題として、こうした大量の文例が翻訳済みで手に入る世界は限られていて、

ニュースであったり、国会議事録であったり、それぞれ特殊な世界です。

これが原因で、「中学校で最初に習うような文」が翻訳できなかったりします。

たとえば、国会議事録には、ぜったい I have a pen. は出てきません。

量も問題で、たとえば文例データベースで purple-eyed が一回しか出てこなかったとしたら、

どこまでをまとまりとみなしていいか判断がつかず、翻訳結果がめちゃくちゃになったりします。


統計的機械翻訳に翻訳をさせるときは、文例データベースの中身と、

自分が翻訳させたい文の種類が合わない場合は、まずうまくいかないと思った方がいいでしょう。

◎質問者からの返答

whymさん、たいへん丁寧なご説明をありがとうございます。

取り急ぎ、開封時の御礼のみ。

※以上、09-19 21:46:55投稿。以下書き足しです。


何かを足すとかいう必要のないご回答で、ここまでしていただけることに感謝です。

説明中にある blue eye(s) ひとつとっても、eyeは多義語で:

http://eow.alc.co.jp/eye/UTF-8/?ref=sa

単に機械的に「訳語」を提示すれば、「青い目」でもありうるし「青い針の穴」でもありうるが、'a girl with blue eyes' の場合、機械であれ人間であれ、返す答えは「青い目」であって「青い針の穴」ではない、というところでも広げられますね。


最後の「文例データベースの中身と、自分が翻訳させたい文の種類が合わない場合は、まずうまくいかない」の部分は、非常に重要だと思います。機械の取扱説明書の文例データベースを使って国会の議事録を扱おうとしてもうまくいかない。


量という点では、「翻訳」とは関係はないのですが、少し見てみました。(とはいえ、やってみた結果、ついついお遊びの方向に転びすぎましたが。)

http://nofrills.seesaa.net/article/106841520.html

この結果は、見方次第で、「グレートブリテンおよび北アイルランド連合王国」には、「マン島」が含まれると考えるのが妥当、ということになりかねない。しかし実際に参照されているのは「マン島はグレートブリテンおよび北アイルランド連合王国の一部ではない」という記述です。難しいですね。

関連質問


●質問をもっと探す●



0.人力検索はてなトップ
8.このページを友達に紹介
9.このページの先頭へ
対応機種一覧
お問い合わせ
ヘルプ/お知らせ
ログイン
無料ユーザー登録
はてなトップ