米Google Researchの研究チームが開発した「SpeedNet」は、動画内で動いている物体の速度を推定する深層学習フレームワークだ。動画が通常の速度で再生されているのか、それとも速さを変更しているのかを自動で検出する。これを応用することで、動画を早回ししたときの不自然さを軽減することが可能だ。

映像中の物体の「速さ」を自動的に推定する深層学習フレームワーク

　動画の速さが変わっているかは人間が目視すれば感覚的に分かるが、機械がそれを判別するのは実は難しい。なぜなら遠近法の効果により、動画内の手前と奥では速さが違って見えるからだ。

手前と奥の物体移動の速度は違う

　今回のフレームワークは、動画の速度変化の予測を可能にしている。速度を直接回帰するのではなく、フレーム内の物体が通常の速度（1秒）なのか、もしくは通常よりも速いのか（1秒以上）を2値分類する。

　訓練データには、約30万件の動画に人の400種のアクションがアノテーションされた動画データセット「Kinetics」を採用し、手動でのラベル付けなしで、自己教師学習を実行する。

　学習したモデルの性能を評価するため、ダンスやスポーツのような複雑な動きを含む、さまざまな難易度の動画でスピード予測を実施した。実験の結果、2つの一般的なベンチマークにおいて、最先端の自己教師学習に匹敵するものであり、Kineticsを用いた事前学習を行う他の全ての手法を上回るものだとしている。

　何のためにこのような研究をするのか。動機は2つ。

動画データセット上で信頼性の高い分類器を訓練するため。これにより、動画内検索やアクション認識等における事前学習として有効活用できる。
速度を予測するための十分に訓練されたモデルが、さまざまなアプリケーションに活用できるから。例えば、動画全体を均等に高速化するのではなく、動画内の物体の速さに応じて部分的に速度変換する適応的な高速化が行える。

　一般的に、映像全体を2倍速にすると、速く動くシーンも全て高速になるため、物体が不自然な映像に仕上がる。それに対し、適応的に速度変換すると、シーンによって速い・遅いを決定し凸凹の速度変換を行うため、自然な映像に仕上がる。どちらも同じ再生時間で生成されるため、後者の方が視聴時間は変わらないまま不快感なく視聴できる。

フレームのスピードカーブに基づいて、時間変化する適応的なスピードアップ動画を生成する。（赤線）入力映像の物体の速度。物体が速く動いているシーンは上がり、遅いシーンは下がる。（青線）適応的に高速変換した時の物体の速度変化。速くしたシーンは上がり、通常速度は下がる。子どもが飛び込むこの映像だと、飛び込む前は速く、飛び込んでいる最中は通常速度に変換しているのが読み取れる

　100m走の映像をサンプルに行ったケースの場合、走り出す前は高速、走り出してからは通常の速度と適応的に変換されている。このように、シーンによって速度変換することで、視聴者にとって負担の少ない、効率的なビデオが作成できるという。