このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
米Google Researchの研究チームが開発した「SpeedNet」は、動画内で動いている物体の速度を推定する深層学習フレームワークだ。動画が通常の速度で再生されているのか、それとも速さを変更しているのかを自動で検出する。これを応用することで、動画を早回ししたときの不自然さを軽減することが可能だ。
動画の速さが変わっているかは人間が目視すれば感覚的に分かるが、機械がそれを判別するのは実は難しい。なぜなら遠近法の効果により、動画内の手前と奥では速さが違って見えるからだ。
今回のフレームワークは、動画の速度変化の予測を可能にしている。速度を直接回帰するのではなく、フレーム内の物体が通常の速度(1秒)なのか、もしくは通常よりも速いのか(1秒以上)を2値分類する。
訓練データには、約30万件の動画に人の400種のアクションがアノテーションされた動画データセット「Kinetics」を採用し、手動でのラベル付けなしで、自己教師学習を実行する。
学習したモデルの性能を評価するため、ダンスやスポーツのような複雑な動きを含む、さまざまな難易度の動画でスピード予測を実施した。実験の結果、2つの一般的なベンチマークにおいて、最先端の自己教師学習に匹敵するものであり、Kineticsを用いた事前学習を行う他の全ての手法を上回るものだとしている。
何のためにこのような研究をするのか。動機は2つ。
一般的に、映像全体を2倍速にすると、速く動くシーンも全て高速になるため、物体が不自然な映像に仕上がる。それに対し、適応的に速度変換すると、シーンによって速い・遅いを決定し凸凹の速度変換を行うため、自然な映像に仕上がる。どちらも同じ再生時間で生成されるため、後者の方が視聴時間は変わらないまま不快感なく視聴できる。
100m走の映像をサンプルに行ったケースの場合、走り出す前は高速、走り出してからは通常の速度と適応的に変換されている。このように、シーンによって速度変換することで、視聴者にとって負担の少ない、効率的なビデオが作成できるという。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR