このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
米テキサス大学オースティン校とFacebook AI Researchの研究チームが2019年12月に発表した「Listen to Look」は、動画を編集するときに、オーディオから視覚的な冗長性(余分もしくは重複シーン)を排除できる効率的なフレームワークだ。
このシステムの特徴は、余分なシーンを音の質から推定するところにある。動画内のアクションと音との関連を学習し、余分もしくは重複しているシーンを推定する。
トリミングされていない動画を入力、音をビデオプレビューとして使用し、2ステップで実行する。1つ目のステップは、ImgAud2Vidネットワークを用い、動画を画像と音声のペアに小分けし動作を認識する。2つ目のステップは、Imgaud-Skimmingネットワークを用い、有益なペアだけを選択し、重複シーンや関連性のないシーンを除外する。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR