ITmedia NEWS >

「不要なシーン」を音で予測 動画編集を効率化する「Listen to Look」、Facebookなど開発Innovative Tech

» 2020年01月21日 07時30分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 米テキサス大学オースティン校とFacebook AI Researchの研究チームが2019年12月に発表した「Listen to Look」は、動画を編集するときに、オーディオから視覚的な冗長性(余分もしくは重複シーン)を排除できる効率的なフレームワークだ。

photo 動画を画像と音声のペアに置き換え、重要なシーンを推定する

 このシステムの特徴は、余分なシーンを音の質から推定するところにある。動画内のアクションと音との関連を学習し、余分もしくは重複しているシーンを推定する。

photo 上からダウンヒル、水球、バイクレース、ヘアカットの動画をListen to Lookで編集した画像、各下段が出力結果

 トリミングされていない動画を入力、音をビデオプレビューとして使用し、2ステップで実行する。1つ目のステップは、ImgAud2Vidネットワークを用い、動画を画像と音声のペアに小分けし動作を認識する。2つ目のステップは、Imgaud-Skimmingネットワークを用い、有益なペアだけを選択し、重複シーンや関連性のないシーンを除外する。

Copyright © ITmedia, Inc. All Rights Reserved.