Google翻訳の精度が上がった?という話についての質問です。


Google翻訳の精度が向上した、というニュースが昨年末頃に出ていましたが、私にはほとんど実感できておりません。
というか前よりダメになったような気がしているのですが・・・
私は生き物に関するニュース記事などを見ていることが多く、このニュースを手軽に日本語にしてもらいたいな、と思ってGoogle翻訳にかけてみることが時々あるのですが、あまり役に立ちません。とくに生き物の名前を指す名詞がダメです。
一般的な科学ニュースの記事ですし、それほど特殊な名詞が使われているわけではないと思うのですが。
特定分野でGoogle翻訳が最近になって劣化した、という話がありましたらご紹介下さい。

回答の条件
  • 1人3回まで
  • 13歳以上
  • 登録:2017/01/13 19:53:45
  • 終了:2017/01/22 00:43:54
id:fiwa

質問者から

fiwa2017/01/14 07:11:45

1例: shorebird

goo辞書
「海辺の鳥(limicoline bird):海岸・河口などによく来る鳥;シギ,チドリ類.」
http://dictionary.goo.ne.jp/ej/76822/meaning/m0u/

ショウジョウバエではありません。断じて。


f:id:fiwa:20170113194955p:image

猛禽というと、ワシ・タカのような捕食性鳥類のことです。


f:id:fiwa:20170113194953p:image

・・・


f:id:fiwa:20170113194954p:image

ベストアンサー

id:meefla No.4

meefla回答回数985ベストアンサー獲得回数4612017/01/18 20:03:57

ポイント200pt

長文になりそうなので結論から。

  1. 新しい Google 翻訳の翻訳精度は、(少なくとも5年ほど前に比べれば)向上している。
  2. ただし、翻訳精度の向上と引き換えに劣化した部分もある。
  3. この劣化は Google が悪いのではなく、システムの根本に根ざすものと思われる。

では、始めます。

まず、「昨年末頃のニュース」という事から、2016年11月の Google翻訳がニューラルネットワーク応用で「さらに進化」 - Engadget 日本版 あたりで扱われた件と考えます。
Neural Machine Translation (NMT) は、翻訳に ニューラルネットワーク とビッグデータを絡ませた手法であり、翻訳品質の向上を期待して導入されたものです。

2010年6月のブログ記事、「Web翻訳サービスの実力: Fionの与太話」で書かれている英文翻訳を見てみます。
原文は Evernote の説明文。

Evernote allows you to easily capture information in any environment using whatever device or platform you find most convenient, and makes this information accessible and searchable at any time, from anywhere.


ブログ主 Fion さんの訳文。

Evernoteは環境を選びません。どんな端末でもどんなプラットフォームでも、お気に入りのものを使って簡単に情報を収集・保存できます。そして収集した情報は、いつでもどこからでも利用可能です。


2010年6月の Google 翻訳。

Evernoteは簡単にどんなデバイスやプラットフォームは、最も便利に使用してどのような環境の情報をキャプチャすることができ、いつでもアクセスでき、検索でこの情報を行うと、どこから。

「文章になっていない系」に分類されているのも無理のないところです。

現在の Google 翻訳。

Evernoteを使用すると、最も便利なデバイスやプラットフォームを使用してあらゆる環境の情報を簡単に取得でき、いつでもどこからでもこの情報にアクセスして検索することができます。

翻訳精度は明らかに向上しています。今なら優秀賞くらいは取れるのでは?

さて、Neural Machine Translation (NMT) の凄い所は、翻訳品質だけではありません。
カーネギーメロン大学の言語技術研究所 (CMU-LTI) 助教の Graham Neubig(グラム・ニュービッグ)先生によれば;

  • NMT は開発を始めてから3年しかたっていないが、過去15年間にわたって開発されてきた従来の翻訳エンジンよりも良い結果を叩き出した。
  • 実装に際して、従来の機械翻訳は Python で6000行を必要としたが、NMT の場合は Python で280行あれば済む。

http://www.cs.cmu.edu/~tbergkir/11711fa16/neubig16afnlp.pdf 英文:PDF 5ページ目)
だそうです。

とは言え、NMT も万能ではなく、弱点があります。Google の開発者が発表した Google’s Neural Machine Translation System (英文)によれば、NMT の根本的な弱点は3つ。

  1. トレーニングと推論の速度が遅い
  2. レアな単語に弱い
  3. 文章の一部を飛ばして翻訳する事がある

(PDF 2ページ目 )

このうち、3. については回答 No. 3 で a-kuma3 さんが触れている問題です。
NMT の翻訳方法が逐語訳ではなく、文章をまるっと一挙に翻訳する事からくるものでしょう。
今回のご質問の件、shorebird などの生物名は「レアな単語」問題に引っかかっていると考えられます。
私見ですが、上記の 1. と 2. は表裏一体の関係があると思われます。
2. に対して従来の翻訳エンジンであれば、専門用語辞書をぶち込むという解決策が取れるはずですが、NMT でそれをやるとパラメーターの数が膨大になってパフォーマンスの低下を招くようです。

Google も Google 翻訳への NMT の実装に際してこれらの問題を解決しようとあれこれしているようですが、弱点を完全に解消しているわけではないのは明白です。

さらにニューラルネットワークを使う利点として、「エンドツーエンドで学習し続ける」ことが挙げられます。これによってGoogle翻訳は今後、使えば使うほど精度が向上していくとのこと。

Google翻訳がニューラルネットワーク応用で「さらに進化」 - Engadget 日本版

ですので、気がついた時・暇な時に正しい生物名の訳語を教えてあげるのを続けていれば、数年後には Google 翻訳も今より賢くなっているかもしれません。

以上、ご参考になれば幸いです。

他1件のコメントを見る
id:fiwa

たしかに文章の流れは良くなっていると思いますが、とにかく同じ単語に複数の誤訳を当ててくるのだけはいかんともし難いです。1:1 ならまだ脳内変換できるので問題ないですが、1:多となると思考停止してしまいます。

2. に対して従来の翻訳エンジンであれば、専門用語辞書をぶち込むという解決策が取れるはずですが、NMT でそれをやるとパラメーターの数が膨大になってパフォーマンスの低下を招くようです。

それは残念。それができれば現状では私にとってはベストな翻訳機になる気がするのですが。

気がついた時・暇な時に正しい生物名の訳語を教えてあげる

長い道のりだなぁー
とりあえずladybugあたりから初めてみますか・・・
(ていうかもう最初から自分で英語で読みますよね、さすがに)

2017/01/18 21:33:38
id:fiwa

クイズにならない

無理矢理な英→英翻訳を使ったクイズとかできないかなぁ
http://q.hatena.ne.jp/1485080308

2017/01/22 19:40:23

その他の回答(3件)

id:l-I No.1

ふぉくた回答回数3ベストアンサー獲得回数02017/01/13 21:57:09

ポイント50pt

日本語をブルガリア語にしたりブルガリア語を日本語にしたりしたけど精度はよくありませんね。日本語もブルガリア語も文法めちゃくちゃでした。まだ機械翻訳は未発達なんです。

普段Google翻訳を使わないのでGoogle翻訳が劣化したとは思いませんがTwitterでは劣化したと感じる方もいらっしゃるようです。
https://twitter.com/search?f=tweets&vertical=default&q=Google%E7%BF%BB%E8%A8%B3%20%E5%8A%A3%E5%8C%96&src=typd
https://www.youtube.com/watch?v=Gf6uawK9TNI

id:fiwa

ガンダムとエヴァンゲリオンかいw

2017/01/14 08:05:19
id:adlib

 
 かねてより痛感するのは、人名・地名などの「固有名詞問題」です。
 数年前の実例で、奈良の観光ガイドが「大仏」を「Daibutsu」でなく
「Osaragi」と訳して、チンプンカンプンになった誤訳騒動があります。
 
 大佛 次郎 作家 18971009 神奈川 19730430 75 /籍=野尻 清彦
http://d.hatena.ne.jp/adlib/20090726 つかのま天狗 ~ 時間がない人々 ~
── 《鞍馬天狗 1924-1965 全47篇》《赤穂浪士 1928-2007 改版》
 
 一つの便法として、すべての固有名詞に(はてなキーワードのような)
アンダーラインで識別するとか、(ツィッターのハッシュタグのように)
“#記号”などを、世界共通の“グーグルール”にすべきでしょうね。
 

2017/01/14 18:36:38
id:adlib No.2

adlib回答回数1962ベストアンサー獲得回数1222017/01/14 03:25:22

ポイント50pt

 
 そして誰も言わなくなった ~ ノークラッチから無人操縦車へ ~
 
https://www.youtube.com/watch?v=zJuZ9O8esbs さとしゅーch.Second
…… Google翻訳って劣化してね? あくまで個人的意見です(20161212)
https://www.youtube.com/watch?v=cewJhek-C5Y(20150114)つづく
 
〔Think〕
 
 この質問は、A語をB国人が使うための精度を問うています。
 わたしは、C国人とE国人がG語で読み書きする未来を考えています。
 以下、過去十数年の投稿を抄出しました(忙しいひと読むべからず)。
 
 むかし電卓が発売されると、ソロバンの方が脳が発達すると言われた。
 将棋や碁のソフトは、決して人間には勝てないと合従連衡された。
 バッハの《平均律練習曲集》も、純正律でないからと敬遠された。
 
 ルーズリーフ(綴じないノート)は「記憶がバラバラになる」そうだ。
 橋本 徹は「コピー用紙(一枚一円以下)の裏面も使え」と命令した。
 最後には燃してしまうのに、国をあげて「ゴミを分別せよ」と言った。
 
〔Hear〕
 
…… わたしは英語劣等生だが、優等生の親友が3人もいるので安心だ。
 わたしの推算では、英語や楽譜は平均的日本人の十人に一人ができる。
http://q.hatena.ne.jp/1483200479#a1261219(No.2 20170107 11:25:16)
 
…… Question of the Google, by the Google, for the Google.
 Googlish(Google English vs Google-Japanese)戻訳のすすめ。
http://twilog.org/awalibrary/search?word=Googlish&ao=a
 
…… OCRの判読と同じく、諸悪の根源は、未熟な原文に在る。
http://q.hatena.ne.jp/1463417884#a1256752(No.2 20160522 17:03:09)
 戻訳のすすめ ~ 文節ごとに英和・和英を繰り返してみる ~
 
〔See〕
 
…… 将来、操縦席に座っているのはパイロット1人に犬が1匹になる。
(犬の仕事は)パイロットが計器に触る度に噛みつくことさ(!)。
http://d.hatena.ne.jp/adlib/20030319 Airlinese ~ One pilot,one dog ~
 
…… 語学の達人たちは(共通して)ラジオと映画の恩恵を受けていた。
http://q.hatena.ne.jp/1156474164#a594326(No.9 20060825 13:14:53)
 耳よりの使者 ~ 耳はもっとも保守的な器官 ~
 
…… Signoret, Simone《年上の女 Room at the Top 19590721 England》
http://d.hatena.ne.jp/adlib/20060609
 自動翻訳の女 ~ 悪女は淑女を駆逐する ~
 

id:fiwa

わたしは、C国人とE国人がG語で読み書きする未来を考えています。

もういっそのことAIが発明したという「内部的言語」を人間が理解しようとしたほうが良いのでは。エスペラント語もポピュラーになる気配も全くなさそうですし。
GoogleのAI翻訳ツールは独自の内部的言語を発明したようだ、そうとしか言えない不思議な現象が | TechCrunch Japan

2017/01/14 08:10:37
id:a-kuma3 No.3

a-kuma3回答回数4595ベストアンサー獲得回数19342017/01/14 14:16:43

ポイント150pt

ディープラーニングがどうとかいうやつで、良くなった、という実感はぼくもできてません。
ぼくがよく使う方面では、普通の単語が特別な意味を持つ、というケースがままあるので、機械翻訳には厳しいだろうというのはあるので、あまり期待してなかったというのもあります。


https://linux.die.net/man/1/which

--skip-dot
Skip directories in PATH that start with a dot.
...
--show-dot
If a directory in PATH starts with a dot and a matching executable was found for that path, then print "./programname" rather than the full path.
...
--tty-only
Stop processing options on the right if not on tty.

--skip-dot
PATH内のドットで始まるディレクトリをスキップします。
...
- ショードット
PATHのディレクトリがドットで始まり、そのパスに対応する実行可能ファイルが見つかった場合は、フルパスではなく "./programname"を出力します。
...
- きれいな
tty上でなければ右側の処理オプションを停止します。

冒頭はきれいに翻訳できてるし、--skip-dot をそのまま残しつつ訳も見事。
--show-dot が ショードットになってる方が普通です。
--tty-only が「きれいな」ってのがディープラーニング効果っぽい。


https://linux.die.net/man/1/find
冒頭の書式でいきなり find が抜け落ちてますが、概ね find を「見つける」と誤訳しているところはなさそうに見えます。
ちょっと気が付いたのが Bold を拾ってるんじゃないかということ。
同じ文面ではないんですが、find が Bold になってない man find 。
http://ss64.com/bash/find.html

find
Search a folder hierarchy for filename(s) that meet a desired criteria: Name, Size, File Type - see examples.
...
GNU find searches the directory tree rooted at each given file name by evaluating the given expression from left to right, according to the rules of precedence (see Operators), until the outcome is known (the left hand side is false for AND operations, true for OR), at which point find moves on to the next file name.

見つける
名前、サイズ、ファイルタイプ - 例を参照してください。
...
GNU findは与えられた式を左から右に評価することにより、各ファイル名に根ざしたディレクトリツリーを検索します( 演算子を参照)。結果が分かるまで(左辺はAND演算ではfalse、真ORの場合 )、次のファイル名に移動します。

こちらは冒頭の find が見つけるになってるのは仕方ないとして、その後の一文がごっそり抜けてます。
その次のセンテンスの find が抜け落ちてるなと、最初は思ったんですが、主語を省略しても意味が通るから落としているのかも。

-L
Follow symbolic links. When find examines or prints information about files, the information used shall be taken from the properties of the file to which the link points, not from the link itself (unless it is a broken symbolic link or find is unable to examine the file to which the link points). Use of this option implies -noleaf. If you later use the -P option, -noleaf will still be in effect. If -L is in effect and finddiscovers a symbolic link to a subdirectory during its search, the subdirectory pointed to by the symbolic link will be searched.

-L
シンボリックリンクに従ってください。 findがファイルに関する情報を調べたり印刷したりする場合、使用される情報は、リンク自体からではなく、リンクが指すファイルのプロパティから取得されます(壊れているシンボリックリンクでないか、findがリンクポイント)。 このオプションの使用は、-noleafを意味します。 後で-Pオプションを使用すると、-noleafは引き続き有効になります。 -Lが有効で、検索中にサブディレクトリへのシンボリックリンクを検出すると、シンボリックリンクが指すサブディレクトリが検索されます。

赤く色を付けた find も意味が通るから訳から落としているように思えるし、find と discover の間の空白が抜け落ちてる(原文まま)のに影響されてません。

コマンドのマニュアルは、意地悪かなという気はします :-)
じゃあ、メジャーになった単語だと どうなんだろうと。

https://en.wikipedia.org/wiki/Deep_learning
いきなり「深い学習」で始まりますが、冒頭のセンテンスでは「ディープ・ラーニング」と訳しているところが多いのは、単純に辞書引きではなく、何かしら挟まっているのだろうなあと思わせます。
ちょろっと試してみた他の翻訳サイトでは、軒並み「深い学習」なので、かなりマシです。ただ、こんなところは悪い方に傾いている感じ。

For deep versus shallow learning in educational psychology, see Student approaches to learning.

教育心理学における浅い学習と浅い学習については、 学習への学生のアプローチを参照してください。

# ページ丸ごと翻訳できるところが無かった(長いとか https だからとか)ので、冒頭の文だけですが

昔からある定番はどうだろう。
https://en.wikipedia.org/wiki/World_Health_Organization

文章中は大丈夫ですが、参考文献のところとかには「誰」がちらほら。

34. "Safe Surgery Saves Lives". WHO. 17 June 2011. Retrieved 9 February 2012.
35. "Safe Surgery Saves Lives". WHO. Retrieved 27 March 2012.

34. 「安全な手術が命を救います」。 誰。 2011年6月17日。 2012 年2月9日に取得されました 。
35. 「安全な手術が命を救います」。 WHO 。 検索された3月27日を 2012年。

いったい、何が引鉄なんでしょう。



うーん、昔の翻訳結果と比べたいところ。
あっ。ここは、人力検索だった :-)

http://q.hatena.ne.jp/1389703543

Woman in sumo wrestler suit assaulted her ex-girlfriend in gay pub after she waved at man dressed as snickers bar.

(旧)
彼女がスニッカーズバーの格好の男に手を振った後に力士のスーツの女性は同性愛パブで彼女の元恋人を暴行。
(新)
彼女はスニーカーバーを身に着けている男に手を振った後、ゲイのパブで彼女の元ガールフレンドを襲った。

sumo wrestler suit は、どこに行った?

http://q.hatena.ne.jp/1401548386

“”I saw one, one time, that said, "The next week, the world is ending." And in the next week's paper, they said, "We were miraculously saved at the zero hour by a koala-fish mutant bird." Crazy shit.
― Tabloid-reading customer in Clerks

(旧)
"'私は、言った1回、1を見て「来週、世界は終わろうとしている。」"そして来週の論文で彼らは「私達は奇跡的にコアラ-魚の変異体の鳥にゼロ時間に保存されました」と言った。
狂しいたわごと。
― タブロイド読んで店員に顧客を
(新)
「「来週、世界は終わりだ」と言ったとき、私は一度、それを見た。 そして、来週の論文では、「コアラ魚突然変異鳥がゼロ時間に奇跡的に救われた」と彼らは言った。 クレイジーくそ。
書記官のタブロド読書の顧客

かなりマシな感じにはなってますが、paper を新聞とは訳せないか。



普段は、機械翻訳の結果を貼り付けるだけの回答がノイズなのに、いざ、それを探そうと思うと、きちんとした回答がノイズになるという迷宮

# 冗長で済みません

id:fiwa

とりあえずごっそり抜け落ちるとか、逆の意味にするというのはやめてもらいたいなぁ。
スペースがなくてもきちんと解釈してくれるなんてのはGoogleっぽい感じではありますが。

2017/01/14 19:08:16
id:a-kuma3

とりあえず、まだ信用できるところまでは行ってないなあとは思いますが、改善されているところもあるんだということは分かりました(という気になった)。
インターネットのサービスということを考えると、

  • 小説の断片や、新聞記事
  • SNS の投稿やコメント

なんかの翻訳精度が上がる方が「Google 翻訳の改善」という評価になりそうな気がします(ので、そっち方面が向上していくんじゃないかなあ、と期待)。
# 人力検索の質問から引っ張ってきた分は、もうちょいという感じですけれど

2017/01/14 21:28:51
id:fiwa

質問者から

fiwa2017/01/20 14:44:36

ふつうにGoogleの検索窓から検索するとまともな訳が表示されているのに

f:id:fiwa:20170117150704p:image

編集モードに入って何か入れた途端におかしくなって元に戻らなくなります。

f:id:fiwa:20170117150700p:image

Googleさん側で何かミスってるのではないかという気もしてきました。
id:meefla No.4

meefla回答回数985ベストアンサー獲得回数4612017/01/18 20:03:57ここでベストアンサー

ポイント200pt

長文になりそうなので結論から。

  1. 新しい Google 翻訳の翻訳精度は、(少なくとも5年ほど前に比べれば)向上している。
  2. ただし、翻訳精度の向上と引き換えに劣化した部分もある。
  3. この劣化は Google が悪いのではなく、システムの根本に根ざすものと思われる。

では、始めます。

まず、「昨年末頃のニュース」という事から、2016年11月の Google翻訳がニューラルネットワーク応用で「さらに進化」 - Engadget 日本版 あたりで扱われた件と考えます。
Neural Machine Translation (NMT) は、翻訳に ニューラルネットワーク とビッグデータを絡ませた手法であり、翻訳品質の向上を期待して導入されたものです。

2010年6月のブログ記事、「Web翻訳サービスの実力: Fionの与太話」で書かれている英文翻訳を見てみます。
原文は Evernote の説明文。

Evernote allows you to easily capture information in any environment using whatever device or platform you find most convenient, and makes this information accessible and searchable at any time, from anywhere.


ブログ主 Fion さんの訳文。

Evernoteは環境を選びません。どんな端末でもどんなプラットフォームでも、お気に入りのものを使って簡単に情報を収集・保存できます。そして収集した情報は、いつでもどこからでも利用可能です。


2010年6月の Google 翻訳。

Evernoteは簡単にどんなデバイスやプラットフォームは、最も便利に使用してどのような環境の情報をキャプチャすることができ、いつでもアクセスでき、検索でこの情報を行うと、どこから。

「文章になっていない系」に分類されているのも無理のないところです。

現在の Google 翻訳。

Evernoteを使用すると、最も便利なデバイスやプラットフォームを使用してあらゆる環境の情報を簡単に取得でき、いつでもどこからでもこの情報にアクセスして検索することができます。

翻訳精度は明らかに向上しています。今なら優秀賞くらいは取れるのでは?

さて、Neural Machine Translation (NMT) の凄い所は、翻訳品質だけではありません。
カーネギーメロン大学の言語技術研究所 (CMU-LTI) 助教の Graham Neubig(グラム・ニュービッグ)先生によれば;

  • NMT は開発を始めてから3年しかたっていないが、過去15年間にわたって開発されてきた従来の翻訳エンジンよりも良い結果を叩き出した。
  • 実装に際して、従来の機械翻訳は Python で6000行を必要としたが、NMT の場合は Python で280行あれば済む。

http://www.cs.cmu.edu/~tbergkir/11711fa16/neubig16afnlp.pdf 英文:PDF 5ページ目)
だそうです。

とは言え、NMT も万能ではなく、弱点があります。Google の開発者が発表した Google’s Neural Machine Translation System (英文)によれば、NMT の根本的な弱点は3つ。

  1. トレーニングと推論の速度が遅い
  2. レアな単語に弱い
  3. 文章の一部を飛ばして翻訳する事がある

(PDF 2ページ目 )

このうち、3. については回答 No. 3 で a-kuma3 さんが触れている問題です。
NMT の翻訳方法が逐語訳ではなく、文章をまるっと一挙に翻訳する事からくるものでしょう。
今回のご質問の件、shorebird などの生物名は「レアな単語」問題に引っかかっていると考えられます。
私見ですが、上記の 1. と 2. は表裏一体の関係があると思われます。
2. に対して従来の翻訳エンジンであれば、専門用語辞書をぶち込むという解決策が取れるはずですが、NMT でそれをやるとパラメーターの数が膨大になってパフォーマンスの低下を招くようです。

Google も Google 翻訳への NMT の実装に際してこれらの問題を解決しようとあれこれしているようですが、弱点を完全に解消しているわけではないのは明白です。

さらにニューラルネットワークを使う利点として、「エンドツーエンドで学習し続ける」ことが挙げられます。これによってGoogle翻訳は今後、使えば使うほど精度が向上していくとのこと。

Google翻訳がニューラルネットワーク応用で「さらに進化」 - Engadget 日本版

ですので、気がついた時・暇な時に正しい生物名の訳語を教えてあげるのを続けていれば、数年後には Google 翻訳も今より賢くなっているかもしれません。

以上、ご参考になれば幸いです。

他1件のコメントを見る
id:fiwa

たしかに文章の流れは良くなっていると思いますが、とにかく同じ単語に複数の誤訳を当ててくるのだけはいかんともし難いです。1:1 ならまだ脳内変換できるので問題ないですが、1:多となると思考停止してしまいます。

2. に対して従来の翻訳エンジンであれば、専門用語辞書をぶち込むという解決策が取れるはずですが、NMT でそれをやるとパラメーターの数が膨大になってパフォーマンスの低下を招くようです。

それは残念。それができれば現状では私にとってはベストな翻訳機になる気がするのですが。

気がついた時・暇な時に正しい生物名の訳語を教えてあげる

長い道のりだなぁー
とりあえずladybugあたりから初めてみますか・・・
(ていうかもう最初から自分で英語で読みますよね、さすがに)

2017/01/18 21:33:38
id:fiwa

クイズにならない

無理矢理な英→英翻訳を使ったクイズとかできないかなぁ
http://q.hatena.ne.jp/1485080308

2017/01/22 19:40:23
id:fiwa

質問者から

fiwa2017/01/30 00:40:52

Google翻訳のクセの一端がなんとなく分かった気がしました。
(もちろんよく分からない部分もまだいっぱいありますが)
そういえば、前に質問したMicrosoftの機械翻訳でも同じ用語に複数の訳語を当てている部分が少しだけあって「ん?」となったのを思い出しました。
あれも似た系統の翻訳エンジンだったのかなぁ、などと思ってみたり。

  • id:jwrekitan
    翻訳精度というよりも辞書(定義データベースのデータ)の問題のようですね。
    翻訳精度と言った場合には文脈から予想される訳語や、
    単語と単語を結ぶ助詞の選択の的確さの事である、
    と個人的には思っています(つまり翻訳以前の問題)。
    つまり以前の翻訳は一目見て機械翻訳とわかるような不自然な表現だったものが、
    こなれた表現を出力するようになったし訳語の精度も上がってきている、
    そうした事を指して翻訳精度が上がったと言われているフシがあります。

    「質問者から」の例は、スマホの画面だと思うのですが、
    PCの場合は翻訳結果の右下に「情報の修正を提案」というリンクがあり、
    そのように寄せられた提案を元にして辞書が現在進行形で改善されているのではないかと思います。
    https://translate.google.co.jp/?hl=ja#en/ja/shorebird

    Chromeの場合
    https://productforums.google.com/forum/#!topic/chrome-ja/ZMxXrQKJyLI;context-place=topicsearchin/chrome-ja/authorid$3AAPn2wQeT81AyVy8Ib6GTWeoJmIEKzttOrXe2zcwd4_LWu2lKipRb4gK7HVloGDq9-jvro448glwp%7Csort:date%7Cspell:false
    >>
    マウスポインターを翻訳された文書の上にしばらく乗せると、ポップアップが表示されます。
    「翻訳を改善する」というリンクがあるかと思いますが、それをクリックして頂ければ、翻訳の提案などが可能になり、翻訳機能の改善につながります。

    ぜひ、ご協力ください.
    <<
  • id:fiwa
    補足欄に書いたshorebirdの訳語はこちらの記事をGoogle翻訳にかけたときの訳文を参考にしたものです。
    そのままでは長いので簡略化した翻訳結果を貼りました。
    https://www.scientificamerican.com/article/what-rsquo-s-killing-the-world-rsquo-s-shorebirds/

    例えばタイトル部分だとこうです。
    >>
    What’s Killing the World’s Shorebirds?
    Shorebird populations have shrunk by 70% across North America since 1973, and the species that breed in the Arctic are among the hardest hit

    世界のショウジョウバエを殺すのは何ですか?
    シロアリの個体数は1973年以来北米で70%減少しており、北極で繁殖している種は最も強い被害を受けています
    <<

    この記事全体をGoogle翻訳にかけたときの訳文では、shorebirdの訳語として「ショウジョウバエ」「シロアリ」「鳥インフルエンザ」「鯨鳥類」「猛禽類」といった的外れな言葉ばかり次々と出してきます。文脈から判断しているのか何なのか分かりませんが、訳文を読む人間にしてみれば、誤訳のパターンは統一してもらったほうがありがたいです。
    「その他の翻訳」からの修正候補はずっとまともな訳文を出してきますが、生き物の名前ひとつひとつについて改善提案というのは現実的にやってられない感じはします。
  • id:jwrekitan
    もうだいぶ前の事なんですけれども、
    Googleの検索精度が格段に落ちたと感じた時期があります。
    サービス開始当初というのは、検索ワードを並べれば、
    ピンポイントで一致したものだけを拾ってきたので大変重宝していたのですが、

    「もしかして____?」

    という別候補の表示が実装された後あたりからでしょうか、
    検索ワードを内部置換してしまうのか、検索結果に大量のゴミが混ざるようになり、
    目的の情報をどうやって探そうかと四苦八苦したものです。

    そういうのってアルファベットのスペルミスなどの場合は確かに有用ではあるんですが、
    日本語の場合は見ればだいたい間違いに気づくし、IMEの変換性能も上がってきてるし、
    最悪、ひらがなで検索すれば済んでしまう問題でもあるので、
    そうした過剰なサービスは実装当初から無用の長物であったような気がしないでもないです。

    で、なぜこうした話題を振ったのかというと、
    検索時に別候補を表示させるシステムというのが、
    翻訳システムへと転用されたのではないかという疑いを持ったからなんですね。

    このページなんですが、
    https://matome.naver.jp/odai/2142556064155108801

    中原 龍太郎 → Ryu ☆
    西村宣隆 → DJ YOSHITAKA
    田口康裕 → SUPER STAR-MITSURU-

    (いや、それ全然翻訳ちゃうやん!、みたいな)
  • id:fiwa
    生き物の名前に対してGoogleのもしかして系翻訳はいったい何を基準に訳語を出しているのか?という疑問はたしかにあります。翻訳じゃない作業を間に突っ込んでいるような・・・
    shorebirdに対して「termiteとかbird fluの間違いじゃね?」っていったい何なのかという。
    綴りは全然似てないし、いったん発音させてそれを音声認識させてもそんなことにはならないだろうし。
  • id:a-kuma3
    shorebird を英語→仏語で変換すると、Oiseau de rivage。
    Oiseau de rivage を、仏語→日本語で変換すると「海岸に生息する鳥」。

    後、PC 版の翻訳ページで shorebird を翻訳すると「shorebird の定義」というのが下に表示されます。
    >>
    shorebird の定義
    名詞
    a wader of the order Charadriiformes , such as a sandpiper.
    "The river is a great place to spot shorebirds, including spotted shorebirds like the Spotted Sandpiper."
    <<

    何故に、日本語訳がショウジョウバエなんだか (´・ω・`)
  • id:meefla
    > shorebirdの訳語として「ショウジョウバエ」「シロアリ」「鳥インフルエンザ」「鯨鳥類」「猛禽類」といった的外れな言葉ばかり

    shorebird だけの現象じゃない事は承知の上で。

    はてなユーザーに id:shorebird さんがいらっしゃいます。
    http://d.hatena.ne.jp/shorebird/

    「shorebird ショウジョウバエ」で検索すると、トップページに shorebird さんのダイアリーがヒットします。
    「shorebird シロアリ」で検索すると、トップページに shorebird さんのダイアリーがヒットします。
    「shorebird 鳥インフルエンザ」で検索すると、トップページに shorebird さんのダイアリーが以下略。

    偶然の一致とは思えないので何らかの関係があるかと。
    サジェストと同じシステムが動いて、shorebird を動物名ではなく id と判断して、ダイアリーの内容から引っ張ってきた訳語をつけているとか。

    SEO の類とは思いたくありませんし、効果があるとも思えませんが、手動で無関係の訳語を割り付けるという行為も可能なシステムですよね。
  • id:a-kuma3
    http://f.hatena.ne.jp/a-kuma3/20170116135357
    文章が長くなっていくと、単語の訳がブレる。

    http://f.hatena.ne.jp/a-kuma3/20170116135701
    訳文をクリックすると、攻めた訳と今までの(?)訳が並んで出てきて、選んでねとか言ってる。
  • id:fiwa
    文章を翻訳するのに伝統的な辞書がおざなりにされてるシステムって何なんだろうという。
    複数形(sがつくだけ)になったりピリオドが付くだけでころっと訳語が変わっちゃったりとかも意味わからんですが。

    もはや何語かもわからん > ショウマダメ

    > 攻めた訳と今までの(?)訳
    そうそう。生き物の名前は二番手訳のほうが概ね良好なんですよね。
  • id:a-kuma3
    >複数形(sがつくだけ)になったりピリオドが付くだけでころっと訳語が変わっちゃったりとかも意味わからんですが。
    これは略語だ、という判定もニューロにお任せなんでしょうねえ。
    略語だと思えば、一文字足しただけで意味が変わるのはありそうな感じだし。

    まあ、二度目の過渡期なんでしょう。

    人工知能四天王(エキスパートシステム、ファジー、ニューロ、遺伝的アルゴリズム)のうち、ニューロとGAは、他のロジックと組み合わせるのがやりづらいし、良い成績を出す学習をしても、そのデータについて解釈をするのはあまり意味がなさそう、という、一度通った道のような気がしなくもなく。

    単語の間に空白や記号が入る言語で、分かち書きのような処理とか、やっているのかな?
  • id:jwrekitan
    日本語→英語は、ショウジョウバエ→Drosophila、と正確に翻訳できているみたいなので、
    a-kuma3さんのフランス語の例も考えると、英語→日本語、の辞書だけがおかしいのかも。
  • id:a-kuma3
    ぼくのところでは、translate.google.com では「オタク」と翻訳されますが、www.google.co.jp では「コウイカ」と表示されてます。

    むう (´・ω・`)
  • id:fiwa
    英語→日本語は、食料にされるような生物名とか幼児でも知ってるような生き物は大丈夫なようですが、ちょっとマイナーになるともう駄目みたいです。
    日本語→英語は、英日よりはだいぶマシな気がしますが、それでも時々腐ってるのがあります。

    コウイカ → Cucumber
    トビエイ → Flying fish
    コウカンチョウ → A butterfly
    ナキウサギ → Pikachu rabbit
    フナムシ → Fukushima
    オウムガイ → Parrots
  • id:fiwa
    すいぶん何度もladybirdとladybugを教えてあげたのですが、まったく変わる様子がないです。
    たぶん1人や2人が改善を主張しても効果ないんでしょうね。
    だめだこりゃw
  • id:adlib
    …… マイクロソフトは 20170407 から無料テレビ電話の「スカイプ」
    で日本語への自動翻訳サービスを始めました。英語や中国語など10の
    言語に対応し、言語の異なる相手と会話してもソフトが瞬時に相手の言
    語を認識し、日本語に通訳してくれます。このテレビ電話は世界で3億人
    が利用しています。
    http://news.tv-asahi.co.jp/news_economy/articles/000098158.html

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

絞り込み :
はてなココの「ともだち」を表示します。
回答リクエストを送信したユーザーはいません