進歩がすさまじい「機械翻訳」、その理由をトップ技術者に聞く
コメント
注目のコメント
2000年前後は欧州で統計機械翻訳プロジェクトに触れていましたが、やはり統計ベースなため質の良いデータが裏側にないとダメでブルースコアと呼ばれる評価が伸びなかったですね。
この研究を米国の大学がやっていてテレビなどのアラビア語の同時翻訳のデモも見ましたが、驚きのスピードと質でした。
最近は機械学習結果レベルも上がったので、翻訳業界もレビューがメインなどとなって厳しいでしょうね。DeepLすごいな!と思って、DeepLを使って翻訳したものを、そのまま外国人に渡したところ「あれ、YUYAが書いたの?誰が書いたの?ごめん、意図がいまいち伝わらない。。」と言われてしまいました…チェックはちゃんとすべきでした…
かつては特許文章を学習データに使っていたというのが興味深かったです。
なぜなら各企業が同じ商品を複数の国で売り出す時に、それぞれの言語で申請するため。
Googleのように自前のウェブサーチを持たない組織にとっては貴重な翻訳データ源だった訳です