検索
ニュース

DeepMindのAI、読唇でも人間のプロに勝つ

Google傘下のDeepMindがオックスフォード大学と共同で、動画の口の動きをテキストに変換するディープラーニングによる読唇技術開発に関する論文を発表した。

Share
Tweet
LINE
Hatena

 米Google傘下のDeepMindと英オックスフォード大学エンジニアリング科学学部は11月16日、「Lip Reading Sentences in the Wild」と題す論文を公開(リンク先はPDF)した。

 人間が何を話しているかを、口の動きだけで読み取る「読唇(lip readinig)」ための、ディープラーニングベースの人工知能(AI)開発に関する論文だ。

 このプロジェクトでは、英国営放送BBCで2010年1月〜2015年12月に放映した5000時間以上の番組をAIに“見せ”ることで訓練した。これらの動画には11万8000以上のセンテンス(文章)が含まれている。

 lip

 こうして育てた結果、未見のBBC番組でテストしたところ、読唇のプロの人間が12.4%読み取ったところ、AIは46.8%読み取れたという。しかも、ミスのほとんどは、複数形を表す語尾の「s」を抜かすといった小さなミスだったとしている。

 プロジェクトチームのジョーン・ソン・チャン教授が公開した動画(記事末に転載)を見ると、動画に合わせてAIが字幕をほぼリアルタイムで表示している。

 lip 2

 プロジェクトチームは、トレーニングリソースとしてBBCのデータセットを公開する計画だ。


Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る