PC USER Pro

20億人の投稿から学んだ「Facebook自動翻訳」を試してみるITはみ出しコラム

» 2017年08月06日 08時00分 公開
[佐藤由紀子ITmedia]

 Facebookのニュースフィードに外国語の投稿が流れてくると、文章の下に「翻訳を見る」と表示されます。

cnn 1

 Facebookアカウントの設定メニューにある「言語」の「ニュースフィードFacebook翻訳の設定」から、「どの言語を理解できますか?」の項目を日本語だけにして、「自動翻訳しない言語を選択してください。」で何も選択しなければ、この「翻訳を見る」が表示されます。

cnn 2

 Facebookのミッションは「世界のつながりをより密に」なので、これで言葉の壁をなくそうということです。

 Facebookは2008年から多言語化を推進してきました。最初は人力でしたが、徐々に機械学習に移行し、先日ニューラルネットワークでの翻訳に完全移行したと発表しました。

 ちなみにGoogleも2016年、Google翻訳を「フレーズベース機械翻訳(PBMT)」からニューラルネットワーク採用の「Google Neural Machine Translation(GNMT)」に切り替えています。

 ざっくり言うと、ニューラルネットワークは文の構造を翻訳の判断材料に使うようになるので、単語の意味を1つずつ置き換えるフレーズベースよりかなりまともな訳ができる(はず)ということです。

 Facebookが採用したのは、ニューラルネットワークの一種、リカレント(再帰)ニューラルネットワーク(RNN)のそのまた1種であるLSTM(長期短期記憶)です。何だかややこしいですが、LSTMは連続したイベントを予測できるので語順が大きく違う言語同士の翻訳に向いているんだそうです(比較的分かりやすい論文はこちら)。

 LSTMにはでも、膨大な量の学習データとそれを学習するための高性能システムが必要という弱点があります。それをFacebookは、20億人がこれまで投稿してきたテキストを学習データとし、自ら開発したディープラーニングフレームワーク「Caffe2」を使うことで乗り越えました。なんだかすごーい。

 でも、多分構造が似ている「英語→ドイツ語」などの翻訳なら問題ないのでしょうが、「英語→日本語」を訳してもらってみると、あれれな感じです。

 マーク・ザッカーバーグCEOの投稿を幾つか試してみたんですが、なぜかごっそり省略したり、重複したりしてしまいます。下の例では「メンロパーク」と「イーストパロアルト」という地名が省略され、逆に重複しちゃっている部分があります。

cnn 3

 試しに、同じ文をGoogle翻訳で日本語にしてみると「毎年夏に私たちはフェニックスアカデミーを運営し、メンロパークとイーストパロアルトの地元コミュニティーの高校ジュニアとメンターを結び付け、ハイテク業界での経験を得ることができます。来年の今年の卒業生と幸運にもおめでとう!」と、こちらの方がかなりいい感じでした。

 Facebook AcademyをフェニックスアカデミーとしたのはGoogleのおせっかいで、恐らくEast Palo Altoという地名から、Facebook AcademyをEast Palo Alto Phoenix Academyの間違えだと推測したんでしょう。それはそれですごいです。

 ここで「Facebookだめじゃん」と見捨てずに、「この翻訳の評価」をクリックして地道に評価していくことで、日本語訳もよくなっていくことでしょう。

 ところで、幾つか翻訳してもらっていた中で1番「なぜ?」と思ったのはこれです。

cnn 4 氷河を妊娠している?

 「私のお気に入りの写真のつで、アラスカでの巨大な健康な氷河を妊娠している」と訳されています。人間による翻訳は「お気に入りの写真の1枚。妊娠中のプリシラと数週間前にアラスカの広大な氷河の上で撮影した」といったところです。

 Facebookは将来的には、自動翻訳でCNN(畳み込みネットワーク)を採用するとも言っています。CNNは画像解析で知られていますが、これを翻訳に使うとLSTMより高速に処理できるのだそうです。英仏や英独のCNNモデルは既にかなりよくなっているとあるので、そのうち今度は自動翻訳をCNNに切り替えるという発表がありそうです。

 そして、「投稿に添えられた画像のようなコンテキストも翻訳のための要素として追加していく」としています。

 そうすると、先ほどのザッカーバーグさんの投稿では、写真に写っているのがザッカーバーグ夫妻であることや、プリシラさんのお腹が大きいことを判断し、もうちょっとましな翻訳になるかもしれませんね。

バックナンバー

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2024年03月29日 更新
  1. ミリ波レーダーで高度な検知を実現する「スマート人感センサーFP2」を試す 室内の転倒検出や睡眠モニターも実現 (2024年03月28日)
  2. ダイソーで330円の「手になじむワイヤレスマウス」を試す 名前通りの持ちやすさは“お値段以上”だが難点も (2024年03月27日)
  3. Synology「BeeStation」は、“NASに興味があるけど未導入”な人に勧めたい 買い切り型で自分だけの4TBクラウドストレージを簡単に構築できる (2024年03月27日)
  4. 「ThinkPad」2024年モデルは何が変わった? 見どころをチェック! (2024年03月26日)
  5. ダイソーで550円で売っている「充電式ワイヤレスマウス」が意外と優秀 平たいボディーは携帯性抜群! (2024年03月25日)
  6. 次期永続ライセンス版の「Microsoft Office 2024」が2024年後半提供開始/macOS Sonoma 14.4のアップグレードでJavaがクラッシュ (2024年03月24日)
  7. サンワ、Windows Helloに対応したUSB Type-C指紋認証センサー (2024年03月27日)
  8. 日本HP、個人/法人向けノート「Envy」「HP EliteBook」「HP ZBook」にCore Ultra搭載の新モデルを一挙投入 (2024年03月28日)
  9. あなたのPCのWindows 10/11の「ライセンス」はどうなっている? 調べる方法をチェック! (2023年10月20日)
  10. レノボ、Ryzen Threadripper PRO 7000 WXシリーズを搭載したタワー型ワークステーション (2024年03月27日)
最新トピックスPR

過去記事カレンダー