Google、1人の声を聞き分ける「カクテルパーティー効果」ディープラーニングモデル

» 2018年04月16日 09時18分公開

[佐藤由紀子，ITmedia]

　米Googleは4月11日（現地時間）、会話や騒音が多い中などの動画から、1人の人の声を分離するディープラーニングモデルについての論文「Looking to Listen at the Cocktail Party」を発表した。

　人間は、パーティー会場のような複数の会話が進行している中でも、自分が聴きたい声を自然に聞き取る選択的聴取能力があり、一般に「カクテルパーティー効果」と呼ばれる。これを、ディープラーニングで再現しようというものだ。

　サンプルの動画では、2人の男性がステージで同時に同じくらいの声量で話しているものを、一人ずつの声に切り分けて字幕をつけることに成功している。下の画像で、最初は2人同時の音声、右の男性の顔に枠が付いた段階では右の男性の声だけ、左の男性の顔に枠が付いた段階では左の男性の声だけが聞こえる。

　この動画の音源はステレオではなく、ディープラーニングモデルが音声を切り分けている。このモデルでは音声だけでなく映像が重要で、例えば人物の口が動き出したことを検出してどちらの声かを判断しているという。

　同社はこのディープラーニングモデル構築のためにYouTube上のスピーチや会話の約10万本の動画を集めて約2000時間分の雑音のない音声を抽出し、それに人工的な雑音を追加することで人工的なカクテルパーティー動画を作成。それらの動画で話している人の「face thumbnail」と動画の音声から話している人の音声を切り分けるよう学習を繰り返した。

　この技術は動画のキャプション追加に役立ちそうだ。Googleは、将来的には同社の様々なサービスで利用していく計画としている。

Googlerも学んだAI講座、「Learn with Google AI」で一般公開
Googleが、ML（機械学習）の基礎からディープラーニングまで、AI（人工知能）について学べるWebサイト「Learn with Google AI」を開設。15時間でMLのコンセプトを学べる短期集中講座も無料で受講できる。
GoogleとVerily、ディープラーニングと網膜眼底画像による心血管リスク予測法を発表
Googleと系列の生命科学企業Verilyが、網膜眼底画像から心血管リスクを予測するためのディープラーニングモデルを開発した。心筋梗塞や脳卒中などをCTスキャンなどの検査なしで早期発見できるとしている。
Google、Raspberry Pi（別売）で動くAIカメラ「Vision Kit」を45ドルで予約開始
Googleの人工知能自作プロジェクトAIYが、画像認識機能を持つAIカメラ「Vision Kit」を発表した。Intelのビジョンプロセッサを搭載し、別途Raspberry Piのカメラを購入して組み立てる。
Googleマップ、情報更新にディープラーニングとストビュー画像を活用
Googleマップの精度向上に取り組む「Ground Truth」チームが、ストリートビューカーの膨大な画像をディープラーニングで解析することで、地名や店舗名を更新する取り組みについて説明。将来的には自動更新を目指すとしている。