Facebookも自動翻訳にニューラルネットワーク採用 「Caffe2」で実用化

Facebookのニュースフィードの「翻訳を見る」の翻訳システムが、従来のフレーズベースの機械翻訳からディープラーニングフレームワーク「Caffe2」に実装したニューラルネットワークsequence-to-sequence LSTMベースに切り替わった。

» 2017年08月04日 08時07分 公開
[佐藤由紀子ITmedia]

 米Facebookは8月3日(現地時間)、投稿を自動翻訳するための翻訳システムを従来のフレーズベースの機械翻訳からニューラルネットワークに切り替えたと発表した。

 これにより、Facebook上で使われているすべての言語間の翻訳品質が、機械翻訳分野で一般的な自動評価基準「BLEU(BiLingual Evaluation Understudy)」による評価で、平均して11%高まったとしている。

 フレーズベースのシステムでは、文を文節や単語に分解して解析しようとするため、英語と日本語など、構文の語順が大きく異る言語間の翻訳が困難だ。この問題に対処するために、RNN(再帰型ニューラルネットワーク)の一種であるsequence-to-sequence LSTM(long short-term memory)を採用した。

 LSTMは文全体の文脈を解析しようとするため、フレーズベースのシステムより正確で自然な翻訳が可能という。Facebookが比較サンプルとして提示したトルコ語から英語への翻訳例では、LSTMでの翻訳は「イズミルがなぜノーと言ったのか、彼らが理解するとは思わない」と意味が通るものになっている。

 lstm 1 翻訳結果比較(下がLSTM採用)

 Facebook上では1日当たり2000以上の翻訳方向の、45億件以上の翻訳を行っている。LSTMでの翻訳は従来の方法よりスピードと性能が必要になるため、この翻訳システムを同社が開発したディープラーニングフレームワーク「Caffe2」に実装した。Caffe2の柔軟性により、高速な翻訳が可能になったため、翻訳システムの切り替えが実現できたとしている。

 このプロジェクトの過程で開発したLSTMなどの技術はCaffe2の一部としてオープンソース化した。

 実際に幾つかの投稿の英語から日本語への翻訳を見たところ、まだ問題はある。だが、20億人の投稿データを学習し続けることで、LSTMの精度は上がっていくだろう。

 lstm 2 英語から日本語への翻訳例

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ