ニュース
「不要なシーン」を音で予測 動画編集を効率化する「Listen to Look」、Facebookなど開発:Innovative Tech
動画の編集に要する時間を著しく短縮させる可能性のある技術がFacebookなどによって開発された。
Innovative Tech:
このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
米テキサス大学オースティン校とFacebook AI Researchの研究チームが2019年12月に発表した「Listen to Look」は、動画を編集するときに、オーディオから視覚的な冗長性(余分もしくは重複シーン)を排除できる効率的なフレームワークだ。
このシステムの特徴は、余分なシーンを音の質から推定するところにある。動画内のアクションと音との関連を学習し、余分もしくは重複しているシーンを推定する。
トリミングされていない動画を入力、音をビデオプレビューとして使用し、2ステップで実行する。1つ目のステップは、ImgAud2Vidネットワークを用い、動画を画像と音声のペアに小分けし動作を認識する。2つ目のステップは、Imgaud-Skimmingネットワークを用い、有益なペアだけを選択し、重複シーンや関連性のないシーンを除外する。
関連記事
- 深層学習でリップシンク動画生成 SiriやAlexaにも対応する「Neural Voice Puppetry」
深層学習を使ってフェイシャルアニメーションを自動生成する仕組み。 - 漫画キャラのせりふを、感情のこもった音声合成に変換 北京理工大学などが新技術
漫画に登場するキャラクターのせりふから感情の状態を抜き出し、それに合わせた音声を生成する技術が開発された。 - 文書画像のゆがみや明るさ、深層学習で補正 香港科技大学やMicrosoftなど開発
読み取りにくい書類を正しい姿に戻す技術が開発された。OfficeLensに採用されるとスキャンがはかどりそうだ。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.