「不要なシーン」を音で予測　動画編集を効率化する「Listen to Look」、Facebookなど開発：Innovative Tech

動画の編集に要する時間を著しく短縮させる可能性のある技術がFacebookなどによって開発された。

LINE

Hatena

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　米テキサス大学オースティン校とFacebook AI Researchの研究チームが2019年12月に発表した「Listen to Look」は、動画を編集するときに、オーディオから視覚的な冗長性（余分もしくは重複シーン）を排除できる効率的なフレームワークだ。

動画を画像と音声のペアに置き換え、重要なシーンを推定する

　このシステムの特徴は、余分なシーンを音の質から推定するところにある。動画内のアクションと音との関連を学習し、余分もしくは重複しているシーンを推定する。

上からダウンヒル、水球、バイクレース、ヘアカットの動画をListen to Lookで編集した画像、各下段が出力結果

　トリミングされていない動画を入力、音をビデオプレビューとして使用し、2ステップで実行する。1つ目のステップは、ImgAud2Vidネットワークを用い、動画を画像と音声のペアに小分けし動作を認識する。2つ目のステップは、Imgaud-Skimmingネットワークを用い、有益なペアだけを選択し、重複シーンや関連性のないシーンを除外する。

「不要なシーン」を音で予測　動画編集を効率化する「Listen to Look」、Facebookなど開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク

「不要なシーン」を音で予測 動画編集を効率化する「Listen to Look」、Facebookなど開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク

「不要なシーン」を音で予測　動画編集を効率化する「Listen to Look」、Facebookなど開発：Innovative Tech