ITmedia NEWS > 社会とIT >
ニュース
» 2019年06月17日 07時00分 公開

これからのAIの話をしよう(自動翻訳編):Google翻訳より高性能? 「日本の自動翻訳がすごい理由」をNICT隅田氏が解説 (2/4)

[松本健太郎,ITmedia]
翻訳 隅田氏

 「GoogleとNICTではそもそも考え方が全く異なります。彼らの目的はより多くの言語や国・地域をカバーすることにあるはず。多くの言語を扱うと全体を高精度にするのはとても難しいでしょう。堺筋線の問題も、いまだに誤訳をしているってことは、そもそも直さなくていいと思っているわけです」(隅田氏)

 NICTの場合は、製造、医療、金融など特定領域のニーズに特化した翻訳エンジンを日本企業向けに開発しているため、その分野において高い精度を実現できるそうです。隅田氏は「言語と分野を絞り、その領域で求められる精度を実現することを重視しています。高精度な自動翻訳エンジンを作ることが目的なら、特定の領域に絞るというアプローチしかないでしょう」と指摘しました。

 インタビューの最中にNICTが提供する多言語音声翻訳アプリ「VoiceTra」(ボイストラ)を使ってみると、確かに「堺筋」を「Sakaisuji Line」ときっちり訳してくれました。

 しかし、文法が大きく異なる日本語と英語をある程度の精度で翻訳できているので、Google翻訳も相当レベルが高いことは事実です。隅田氏によると、欧州系の言語は構造が似ているため、欧州はGoogle翻訳だけでも多様なニーズに応えられるのだとか。

 ここで隅田氏は、米国務省がまとめる「外国語習得難易度」のデータを引き合いに出します。英語ネイティブの外国人が「習得までに2200時間以上かかる、とても難しい言語」として挙げた中に日本語があるというのです。ちなみに私たちが中学高校で英語に費やしている時間はたった1000時間らしく、「そもそも英語をマスターできる時間設定になっていない」と隅田氏は指摘します。それくらい、英語と日本語は構造が異なる言語なのです。

 文章の語順が大きく異なるだけでなく、日本語に特有の敬語や、「マジ卍」「やばみ」などの若者言葉も厄介です。日本語の独自性をどうやって機械に学ばせればいいでしょうか。

 そこは日本語について深い知識を持ち、十分なデータを集めているNICTに軍配が上がると隅田氏は考えています。「一番重要なのは、日本にとって重要な文章を訳せるようにすること。日本で暮らしている人が使えるものを作るということです」(隅田氏)

AI翻訳(ニューラル機械翻訳)のすごさ

 自動翻訳は、ニューラル機械翻訳(NMT)の登場で大きく精度が向上したようです。機械翻訳されたテキストを自動的に評価する指標に「BLEUスコア」というものがあります。これは、事前に用意した正解データと翻訳したデータの類似度を測定するものです。隅田氏は、これまでずっと20程度だったスコアが、ディープラーニングの登場で突如35程度に向上したといいます。

Copyright © ITmedia, Inc. All Rights Reserved.