米Google傘下のDeepMindと英オックスフォード大学エンジニアリング科学学部は11月16日、「Lip Reading Sentences in the Wild」と題す論文を公開(リンク先はPDF)した。
人間が何を話しているかを、口の動きだけで読み取る「読唇(lip readinig)」ための、ディープラーニングベースの人工知能(AI)開発に関する論文だ。
このプロジェクトでは、英国営放送BBCで2010年1月〜2015年12月に放映した5000時間以上の番組をAIに“見せ”ることで訓練した。これらの動画には11万8000以上のセンテンス(文章)が含まれている。
こうして育てた結果、未見のBBC番組でテストしたところ、読唇のプロの人間が12.4%読み取ったところ、AIは46.8%読み取れたという。しかも、ミスのほとんどは、複数形を表す語尾の「s」を抜かすといった小さなミスだったとしている。
プロジェクトチームのジョーン・ソン・チャン教授が公開した動画(記事末に転載)を見ると、動画に合わせてAIが字幕をほぼリアルタイムで表示している。
プロジェクトチームは、トレーニングリソースとしてBBCのデータセットを公開する計画だ。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR