Google翻訳より高性能? 「日本の自動翻訳がすごい理由」をNICT隅田氏が解説:これからのAIの話をしよう(自動翻訳編)(4/4 ページ)
国産翻訳エンジンを使った「みらい翻訳」が高精度だとネットで話題に。なぜGoogle翻訳より高精度といわれているのか。開発者のNICT隅田氏に聞いた。
AI翻訳(ニューラル機械翻訳)がまだ実現できない技術
ニューラル機械翻訳の登場で大きな進化を遂げている自動翻訳ですが、隅田氏は「解決すべき課題はまだまだある」といいます。
例えば、文脈の理解。先述したように、日本語と英語は文法が大きく異なるため、日英・英日翻訳は特に難しいそうです。主語がなかったり省略されたりする日本語の文章はうまく英訳できず、「いまの技術で対応するには『あなたは』『私は』など主語を補う必要があります」と隅田氏は話します。
「人間の翻訳者ならうまく補完できますが、いまの自動翻訳は一文単位で見るので文脈をうまく理解できないんです」(隅田氏)
日常会話の翻訳はまだ難しい部分もありますが、空港やホテルなどシチュエーションが限られている場面では、省略された主語を統計的に類推するといったことができるようになっています。
しかし、自動翻訳が普及した未来では、私たち人間は機械に翻訳されやすい言葉をしゃべったり、文章を書いたりする必要が出てきそうです。隅田氏も「そうなるかもしれませんね」と同意します。
いま、既に多くの自動翻訳ツールが登場しています。2020年には東京オリンピック・パラリンピック、2025年には大阪万博が開催されるので、多くの外国人観光客が日本に訪れるでしょう。今後ますます自動翻訳のニーズが広がる中で、「あっ、私いま機械が理解しやすいような話し方をしたな」と意識する場面は案外すぐやってくるかもしれません。
そして、いま隅田氏は「同時通訳」の基礎研究をしています。隅田氏によると、いまの自動翻訳は話者と通訳が交互に話す逐次通訳で、話者が話す言葉を同時に訳していく同時通訳とは形式が異なるそうです。
「現時点で、同時通訳はテレビ会議などの用途を想定しています」と隅田氏。取材中に、テレビ会議で外国人が話した内容の和訳を字幕で表示するデモを見せてくれました。話者が話した言葉をマイクで拾って、ある程度まとまった文章になると訳してくれるというものでした。
隅田氏は「日本語は文末に動詞が来るので、『〜します』『〜しません』のように最後で意味が真逆になることがあり、同時通訳が大変です。この研究はとても奥が深いのです」とやりがいを語りました。
取材後記:ますます進化する自動翻訳
堺筋線の誤訳のような問題は世界各地で起きていて、各国の現地企業が自国のニーズに合った翻訳エンジンの開発に取り組んでいるそうです。Google翻訳のように大きくなり過ぎたサービスは、網羅性を重視するあまり地域ごとの強いニーズに応えられず、やがて小さなほころびが大きくなっていく――グローバル社会において、こうした課題は無視できるものではありません。
NICTや各国の現地企業は、自動翻訳を用いて言葉の壁をどう乗り越えていくのでしょうか。ますます進化していく自動翻訳の世界から目が離せません。
著者プロフィール:松本健太郎
株式会社デコム R&D部門マネージャー。 セイバーメトリクスなどのスポーツ分析は評判が高く、NHKに出演した経験もある。他にも政治、経済、文化などさまざまなデータをデジタル化し、分析・予測することを得意とする。 本業はインサイトを発見するためのデータアナリティクス手法を開発すること。
著者連絡先はこちら→kentaro.matsumoto@decom.org
著者より単行本発売のお知らせ
今最も注目を集めるデータサイエンティストの1人が、データの読み方に注目して「うそを見抜く技術」を解説します。世論調査の結果はなぜ各社異なるのか? アベノミクスによって景気は良くなったのか? 人手不足なのにどうして給料は増えないのか? 「最近の若者は……」論の誤り、本当に地球は温暖化しているのか? などなど。
新時代の教養「データサイエンス」の入門書として、数学が苦手な人、統計学に挫折した人にも分かりやすい一冊に仕上がりました。詳細はこちらから。
関連記事
- 機械翻訳時代に英語を学ぶ必要はあるのか?
AI(人工知能)による機械翻訳の精度が日々進化を続けている。このまま自動翻訳が進化していけば、われわれはもう英語などの外国語を勉強する必要はなくなるのだろうか。 - 「堺筋線」を「Sakai Muscle line」と誤訳 大阪メトロ、外国語ページを非公開に
大阪メトロが、公式サイトの外国語ページを非公開に。「堺筋線」を「Sakai Muscle line」などと誤訳していた。自動翻訳ソフトの利用が原因という。 - 御堂筋も「御堂筋マッスル」と誤訳 堺筋→「堺マッスル」問題、太子橋は「プリンスブリッジ」
「堺筋線」が「サカイマッスルライン」と誤訳されていた、大阪メトロの英文サイト。誤訳はこれにとどまらず、「御堂筋線」は「ミドウスジマッスルライン」、「太子橋今市」は「プリンスブリッジ イマイチ」に。 - 「堺筋線」Google翻訳でも“筋肉線”、「堺筋」は“大腿筋” 機械翻訳の難しさ
大阪メトロの英語サイトで、「堺筋線」が「サカイマッスルライン」(堺筋肉線)などと誤訳されていた問題。Bing翻訳の精度の問題との指摘もあり、Google翻訳も試してみた。その結果は……
Copyright © ITmedia, Inc. All Rights Reserved.