Google翻訳の精度が向上した、というニュースが昨年末頃に出ていましたが、私にはほとんど実感できておりません。
というか前よりダメになったような気がしているのですが・・・
私は生き物に関するニュース記事などを見ていることが多く、このニュースを手軽に日本語にしてもらいたいな、と思ってGoogle翻訳にかけてみることが時々あるのですが、あまり役に立ちません。とくに生き物の名前を指す名詞がダメです。
一般的な科学ニュースの記事ですし、それほど特殊な名詞が使われているわけではないと思うのですが。
特定分野でGoogle翻訳が最近になって劣化した、という話がありましたらご紹介下さい。
1例: shorebird
goo辞書
「海辺の鳥(limicoline bird):海岸・河口などによく来る鳥;シギ,チドリ類.」
http://dictionary.goo.ne.jp/ej/76822/meaning/m0u/
長文になりそうなので結論から。
では、始めます。
まず、「昨年末頃のニュース」という事から、2016年11月の Google翻訳がニューラルネットワーク応用で「さらに進化」 - Engadget 日本版 あたりで扱われた件と考えます。
Neural Machine Translation (NMT) は、翻訳に ニューラルネットワーク とビッグデータを絡ませた手法であり、翻訳品質の向上を期待して導入されたものです。
2010年6月のブログ記事、「Web翻訳サービスの実力: Fionの与太話」で書かれている英文翻訳を見てみます。
原文は Evernote の説明文。
Evernote allows you to easily capture information in any environment using whatever device or platform you find most convenient, and makes this information accessible and searchable at any time, from anywhere.
ブログ主 Fion さんの訳文。
Evernoteは環境を選びません。どんな端末でもどんなプラットフォームでも、お気に入りのものを使って簡単に情報を収集・保存できます。そして収集した情報は、いつでもどこからでも利用可能です。
2010年6月の Google 翻訳。
Evernoteは簡単にどんなデバイスやプラットフォームは、最も便利に使用してどのような環境の情報をキャプチャすることができ、いつでもアクセスでき、検索でこの情報を行うと、どこから。
「文章になっていない系」に分類されているのも無理のないところです。
現在の Google 翻訳。
Evernoteを使用すると、最も便利なデバイスやプラットフォームを使用してあらゆる環境の情報を簡単に取得でき、いつでもどこからでもこの情報にアクセスして検索することができます。
翻訳精度は明らかに向上しています。今なら優秀賞くらいは取れるのでは?
さて、Neural Machine Translation (NMT) の凄い所は、翻訳品質だけではありません。
カーネギーメロン大学の言語技術研究所 (CMU-LTI) 助教の Graham Neubig(グラム・ニュービッグ)先生によれば;
(http://www.cs.cmu.edu/~tbergkir/11711fa16/neubig16afnlp.pdf 英文:PDF 5ページ目)
だそうです。
とは言え、NMT も万能ではなく、弱点があります。Google の開発者が発表した Google’s Neural Machine Translation System (英文)によれば、NMT の根本的な弱点は3つ。
(PDF 2ページ目 )
このうち、3. については回答 No. 3 で a-kuma3 さんが触れている問題です。
NMT の翻訳方法が逐語訳ではなく、文章をまるっと一挙に翻訳する事からくるものでしょう。
今回のご質問の件、shorebird などの生物名は「レアな単語」問題に引っかかっていると考えられます。
私見ですが、上記の 1. と 2. は表裏一体の関係があると思われます。
2. に対して従来の翻訳エンジンであれば、専門用語辞書をぶち込むという解決策が取れるはずですが、NMT でそれをやるとパラメーターの数が膨大になってパフォーマンスの低下を招くようです。
Google も Google 翻訳への NMT の実装に際してこれらの問題を解決しようとあれこれしているようですが、弱点を完全に解消しているわけではないのは明白です。
さらにニューラルネットワークを使う利点として、「エンドツーエンドで学習し続ける」ことが挙げられます。これによってGoogle翻訳は今後、使えば使うほど精度が向上していくとのこと。
Google翻訳がニューラルネットワーク応用で「さらに進化」 - Engadget 日本版
ですので、気がついた時・暇な時に正しい生物名の訳語を教えてあげるのを続けていれば、数年後には Google 翻訳も今より賢くなっているかもしれません。
以上、ご参考になれば幸いです。
日本語をブルガリア語にしたりブルガリア語を日本語にしたりしたけど精度はよくありませんね。日本語もブルガリア語も文法めちゃくちゃでした。まだ機械翻訳は未発達なんです。
普段Google翻訳を使わないのでGoogle翻訳が劣化したとは思いませんがTwitterでは劣化したと感じる方もいらっしゃるようです。
https://twitter.com/search?f=tweets&vertical=default&q=Google%E7%BF%BB%E8%A8%B3%20%E5%8A%A3%E5%8C%96&src=typd
https://www.youtube.com/watch?v=Gf6uawK9TNI
ガンダムとエヴァンゲリオンかいw
かねてより痛感するのは、人名・地名などの「固有名詞問題」です。
数年前の実例で、奈良の観光ガイドが「大仏」を「Daibutsu」でなく
「Osaragi」と訳して、チンプンカンプンになった誤訳騒動があります。
大佛 次郎 作家 18971009 神奈川 19730430 75 /籍=野尻 清彦
http://d.hatena.ne.jp/adlib/20090726 つかのま天狗 ~ 時間がない人々 ~
── 《鞍馬天狗 1924-1965 全47篇》《赤穂浪士 1928-2007 改版》
一つの便法として、すべての固有名詞に(はてなキーワードのような)
アンダーラインで識別するとか、(ツィッターのハッシュタグのように)
“#記号”などを、世界共通の“グーグルール”にすべきでしょうね。
そして誰も言わなくなった ~ ノークラッチから無人操縦車へ ~
https://www.youtube.com/watch?v=zJuZ9O8esbs さとしゅーch.Second
…… Google翻訳って劣化してね? あくまで個人的意見です(20161212)
https://www.youtube.com/watch?v=cewJhek-C5Y(20150114)つづく
〔Think〕
この質問は、A語をB国人が使うための精度を問うています。
わたしは、C国人とE国人がG語で読み書きする未来を考えています。
以下、過去十数年の投稿を抄出しました(忙しいひと読むべからず)。
むかし電卓が発売されると、ソロバンの方が脳が発達すると言われた。
将棋や碁のソフトは、決して人間には勝てないと合従連衡された。
バッハの《平均律練習曲集》も、純正律でないからと敬遠された。
ルーズリーフ(綴じないノート)は「記憶がバラバラになる」そうだ。
橋本 徹は「コピー用紙(一枚一円以下)の裏面も使え」と命令した。
最後には燃してしまうのに、国をあげて「ゴミを分別せよ」と言った。
〔Hear〕
…… わたしは英語劣等生だが、優等生の親友が3人もいるので安心だ。
わたしの推算では、英語や楽譜は平均的日本人の十人に一人ができる。
http://q.hatena.ne.jp/1483200479#a1261219(No.2 20170107 11:25:16)
…… Question of the Google, by the Google, for the Google.
Googlish(Google English vs Google-Japanese)戻訳のすすめ。
http://twilog.org/awalibrary/search?word=Googlish&ao=a
…… OCRの判読と同じく、諸悪の根源は、未熟な原文に在る。
http://q.hatena.ne.jp/1463417884#a1256752(No.2 20160522 17:03:09)
戻訳のすすめ ~ 文節ごとに英和・和英を繰り返してみる ~
〔See〕
…… 将来、操縦席に座っているのはパイロット1人に犬が1匹になる。
(犬の仕事は)パイロットが計器に触る度に噛みつくことさ(!)。
http://d.hatena.ne.jp/adlib/20030319 Airlinese ~ One pilot,one dog ~
…… 語学の達人たちは(共通して)ラジオと映画の恩恵を受けていた。
http://q.hatena.ne.jp/1156474164#a594326(No.9 20060825 13:14:53)
耳よりの使者 ~ 耳はもっとも保守的な器官 ~
…… Signoret, Simone《年上の女 Room at the Top 19590721 England》
http://d.hatena.ne.jp/adlib/20060609
自動翻訳の女 ~ 悪女は淑女を駆逐する ~
わたしは、C国人とE国人がG語で読み書きする未来を考えています。
もういっそのことAIが発明したという「内部的言語」を人間が理解しようとしたほうが良いのでは。エスペラント語もポピュラーになる気配も全くなさそうですし。
GoogleのAI翻訳ツールは独自の内部的言語を発明したようだ、そうとしか言えない不思議な現象が | TechCrunch Japan
エスペラント語は今もけっこうな数のファンがいるらしい。知らなかった。
BBC - Future - The invented language that found a second life online
ディープラーニングがどうとかいうやつで、良くなった、という実感はぼくもできてません。
ぼくがよく使う方面では、普通の単語が特別な意味を持つ、というケースがままあるので、機械翻訳には厳しいだろうというのはあるので、あまり期待してなかったというのもあります。
https://linux.die.net/man/1/which
--skip-dot
Skip directories in PATH that start with a dot.
...
--show-dot
If a directory in PATH starts with a dot and a matching executable was found for that path, then print "./programname" rather than the full path.
...
--tty-only
Stop processing options on the right if not on tty.
--skip-dot
PATH内のドットで始まるディレクトリをスキップします。
...
- ショードット
PATHのディレクトリがドットで始まり、そのパスに対応する実行可能ファイルが見つかった場合は、フルパスではなく "./programname"を出力します。
...
- きれいな
tty上でなければ右側の処理オプションを停止します。
冒頭はきれいに翻訳できてるし、--skip-dot をそのまま残しつつ訳も見事。
--show-dot が ショードットになってる方が普通です。
--tty-only が「きれいな」ってのがディープラーニング効果っぽい。
https://linux.die.net/man/1/find
冒頭の書式でいきなり find が抜け落ちてますが、概ね find を「見つける」と誤訳しているところはなさそうに見えます。
ちょっと気が付いたのが Bold を拾ってるんじゃないかということ。
同じ文面ではないんですが、find が Bold になってない man find 。
http://ss64.com/bash/find.html
find
Search a folder hierarchy for filename(s) that meet a desired criteria: Name, Size, File Type - see examples.
...
GNU find searches the directory tree rooted at each given file name by evaluating the given expression from left to right, according to the rules of precedence (see Operators), until the outcome is known (the left hand side is false for AND operations, true for OR), at which point find moves on to the next file name.
見つける
名前、サイズ、ファイルタイプ - 例を参照してください。
...
GNU findは与えられた式を左から右に評価することにより、各ファイル名に根ざしたディレクトリツリーを検索します( 演算子を参照)。結果が分かるまで(左辺はAND演算ではfalse、真ORの場合 )、次のファイル名に移動します。
こちらは冒頭の find が見つけるになってるのは仕方ないとして、その後の一文がごっそり抜けてます。
その次のセンテンスの find が抜け落ちてるなと、最初は思ったんですが、主語を省略しても意味が通るから落としているのかも。
-L
Follow symbolic links. When find examines or prints information about files, the information used shall be taken from the properties of the file to which the link points, not from the link itself (unless it is a broken symbolic link or find is unable to examine the file to which the link points). Use of this option implies -noleaf. If you later use the -P option, -noleaf will still be in effect. If -L is in effect and finddiscovers a symbolic link to a subdirectory during its search, the subdirectory pointed to by the symbolic link will be searched.
-L
シンボリックリンクに従ってください。 findがファイルに関する情報を調べたり印刷したりする場合、使用される情報は、リンク自体からではなく、リンクが指すファイルのプロパティから取得されます(壊れているシンボリックリンクでないか、findがリンクポイント)。 このオプションの使用は、-noleafを意味します。 後で-Pオプションを使用すると、-noleafは引き続き有効になります。 -Lが有効で、検索中にサブディレクトリへのシンボリックリンクを検出すると、シンボリックリンクが指すサブディレクトリが検索されます。
赤く色を付けた find も意味が通るから訳から落としているように思えるし、find と discover の間の空白が抜け落ちてる(原文まま)のに影響されてません。
コマンドのマニュアルは、意地悪かなという気はします :-)
じゃあ、メジャーになった単語だと どうなんだろうと。
https://en.wikipedia.org/wiki/Deep_learning
いきなり「深い学習」で始まりますが、冒頭のセンテンスでは「ディープ・ラーニング」と訳しているところが多いのは、単純に辞書引きではなく、何かしら挟まっているのだろうなあと思わせます。
ちょろっと試してみた他の翻訳サイトでは、軒並み「深い学習」なので、かなりマシです。ただ、こんなところは悪い方に傾いている感じ。
For deep versus shallow learning in educational psychology, see Student approaches to learning.
教育心理学における浅い学習と浅い学習については、 学習への学生のアプローチを参照してください。
# ページ丸ごと翻訳できるところが無かった(長いとか https だからとか)ので、冒頭の文だけですが
昔からある定番はどうだろう。
https://en.wikipedia.org/wiki/World_Health_Organization
文章中は大丈夫ですが、参考文献のところとかには「誰」がちらほら。
34. "Safe Surgery Saves Lives". WHO. 17 June 2011. Retrieved 9 February 2012.
35. "Safe Surgery Saves Lives". WHO. Retrieved 27 March 2012.
34. 「安全な手術が命を救います」。 誰。 2011年6月17日。 2012 年2月9日に取得されました 。
35. 「安全な手術が命を救います」。 WHO 。 検索された3月27日を 2012年。
いったい、何が引鉄なんでしょう。
うーん、昔の翻訳結果と比べたいところ。
あっ。ここは、人力検索だった :-)
http://q.hatena.ne.jp/1389703543
Woman in sumo wrestler suit assaulted her ex-girlfriend in gay pub after she waved at man dressed as snickers bar.
(旧)
彼女がスニッカーズバーの格好の男に手を振った後に力士のスーツの女性は同性愛パブで彼女の元恋人を暴行。
(新)
彼女はスニーカーバーを身に着けている男に手を振った後、ゲイのパブで彼女の元ガールフレンドを襲った。
sumo wrestler suit は、どこに行った?
http://q.hatena.ne.jp/1401548386
“”I saw one, one time, that said, "The next week, the world is ending." And in the next week's paper, they said, "We were miraculously saved at the zero hour by a koala-fish mutant bird." Crazy shit.
― Tabloid-reading customer in Clerks
(旧)
"'私は、言った1回、1を見て「来週、世界は終わろうとしている。」"そして来週の論文で彼らは「私達は奇跡的にコアラ-魚の変異体の鳥にゼロ時間に保存されました」と言った。
狂しいたわごと。
― タブロイド読んで店員に顧客を
(新)
「「来週、世界は終わりだ」と言ったとき、私は一度、それを見た。 そして、来週の論文では、「コアラ魚突然変異鳥がゼロ時間に奇跡的に救われた」と彼らは言った。 クレイジーくそ。
書記官のタブロド読書の顧客
かなりマシな感じにはなってますが、paper を新聞とは訳せないか。
普段は、機械翻訳の結果を貼り付けるだけの回答がノイズなのに、いざ、それを探そうと思うと、きちんとした回答がノイズになるという迷宮
# 冗長で済みません
とりあえずごっそり抜け落ちるとか、逆の意味にするというのはやめてもらいたいなぁ。
スペースがなくてもきちんと解釈してくれるなんてのはGoogleっぽい感じではありますが。
とりあえず、まだ信用できるところまでは行ってないなあとは思いますが、改善されているところもあるんだということは分かりました(という気になった)。
インターネットのサービスということを考えると、
なんかの翻訳精度が上がる方が「Google 翻訳の改善」という評価になりそうな気がします(ので、そっち方面が向上していくんじゃないかなあ、と期待)。
# 人力検索の質問から引っ張ってきた分は、もうちょいという感じですけれど
長文になりそうなので結論から。
では、始めます。
まず、「昨年末頃のニュース」という事から、2016年11月の Google翻訳がニューラルネットワーク応用で「さらに進化」 - Engadget 日本版 あたりで扱われた件と考えます。
Neural Machine Translation (NMT) は、翻訳に ニューラルネットワーク とビッグデータを絡ませた手法であり、翻訳品質の向上を期待して導入されたものです。
2010年6月のブログ記事、「Web翻訳サービスの実力: Fionの与太話」で書かれている英文翻訳を見てみます。
原文は Evernote の説明文。
Evernote allows you to easily capture information in any environment using whatever device or platform you find most convenient, and makes this information accessible and searchable at any time, from anywhere.
ブログ主 Fion さんの訳文。
Evernoteは環境を選びません。どんな端末でもどんなプラットフォームでも、お気に入りのものを使って簡単に情報を収集・保存できます。そして収集した情報は、いつでもどこからでも利用可能です。
2010年6月の Google 翻訳。
Evernoteは簡単にどんなデバイスやプラットフォームは、最も便利に使用してどのような環境の情報をキャプチャすることができ、いつでもアクセスでき、検索でこの情報を行うと、どこから。
「文章になっていない系」に分類されているのも無理のないところです。
現在の Google 翻訳。
Evernoteを使用すると、最も便利なデバイスやプラットフォームを使用してあらゆる環境の情報を簡単に取得でき、いつでもどこからでもこの情報にアクセスして検索することができます。
翻訳精度は明らかに向上しています。今なら優秀賞くらいは取れるのでは?
さて、Neural Machine Translation (NMT) の凄い所は、翻訳品質だけではありません。
カーネギーメロン大学の言語技術研究所 (CMU-LTI) 助教の Graham Neubig(グラム・ニュービッグ)先生によれば;
(http://www.cs.cmu.edu/~tbergkir/11711fa16/neubig16afnlp.pdf 英文:PDF 5ページ目)
だそうです。
とは言え、NMT も万能ではなく、弱点があります。Google の開発者が発表した Google’s Neural Machine Translation System (英文)によれば、NMT の根本的な弱点は3つ。
(PDF 2ページ目 )
このうち、3. については回答 No. 3 で a-kuma3 さんが触れている問題です。
NMT の翻訳方法が逐語訳ではなく、文章をまるっと一挙に翻訳する事からくるものでしょう。
今回のご質問の件、shorebird などの生物名は「レアな単語」問題に引っかかっていると考えられます。
私見ですが、上記の 1. と 2. は表裏一体の関係があると思われます。
2. に対して従来の翻訳エンジンであれば、専門用語辞書をぶち込むという解決策が取れるはずですが、NMT でそれをやるとパラメーターの数が膨大になってパフォーマンスの低下を招くようです。
Google も Google 翻訳への NMT の実装に際してこれらの問題を解決しようとあれこれしているようですが、弱点を完全に解消しているわけではないのは明白です。
さらにニューラルネットワークを使う利点として、「エンドツーエンドで学習し続ける」ことが挙げられます。これによってGoogle翻訳は今後、使えば使うほど精度が向上していくとのこと。
Google翻訳がニューラルネットワーク応用で「さらに進化」 - Engadget 日本版
ですので、気がついた時・暇な時に正しい生物名の訳語を教えてあげるのを続けていれば、数年後には Google 翻訳も今より賢くなっているかもしれません。
以上、ご参考になれば幸いです。
たしかに文章の流れは良くなっていると思いますが、とにかく同じ単語に複数の誤訳を当ててくるのだけはいかんともし難いです。1:1 ならまだ脳内変換できるので問題ないですが、1:多となると思考停止してしまいます。
2. に対して従来の翻訳エンジンであれば、専門用語辞書をぶち込むという解決策が取れるはずですが、NMT でそれをやるとパラメーターの数が膨大になってパフォーマンスの低下を招くようです。
それは残念。それができれば現状では私にとってはベストな翻訳機になる気がするのですが。
気がついた時・暇な時に正しい生物名の訳語を教えてあげる
長い道のりだなぁー
とりあえずladybugあたりから初めてみますか・・・
(ていうかもう最初から自分で英語で読みますよね、さすがに)
たしかに文章の流れは良くなっていると思いますが、とにかく同じ単語に複数の誤訳を当ててくるのだけはいかんともし難いです。1:1 ならまだ脳内変換できるので問題ないですが、1:多となると思考停止してしまいます。
それは残念。それができれば現状では私にとってはベストな翻訳機になる気がするのですが。
長い道のりだなぁー
2017/01/18 21:33:38とりあえずladybugあたりから初めてみますか・・・
(ていうかもう最初から自分で英語で読みますよね、さすがに)
無理矢理な英→英翻訳を使ったクイズとかできないかなぁ
2017/01/22 19:40:23http://q.hatena.ne.jp/1485080308