ITmedia NEWS > AI+ >
ニュース
» 2021年03月17日 13時42分 公開

Google、自然な早回しができる動画技術「SpeedNet」開発Innovative Tech

効率的な動画視聴を可能にする技術。

[山下裕毅,ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 米Google Researchの研究チームが開発した「SpeedNet」は、動画内で動いている物体の速度を推定する深層学習フレームワークだ。動画が通常の速度で再生されているのか、それとも速さを変更しているのかを自動で検出する。これを応用することで、動画を早回ししたときの不自然さを軽減することが可能だ。

photo 映像中の物体の「速さ」を自動的に推定する深層学習フレームワーク

 動画の速さが変わっているかは人間が目視すれば感覚的に分かるが、機械がそれを判別するのは実は難しい。なぜなら遠近法の効果により、動画内の手前と奥では速さが違って見えるからだ。

photo 手前と奥の物体移動の速度は違う

 今回のフレームワークは、動画の速度変化の予測を可能にしている。速度を直接回帰するのではなく、フレーム内の物体が通常の速度(1秒)なのか、もしくは通常よりも速いのか(1秒以上)を2値分類する。

 訓練データには、約30万件の動画に人の400種のアクションがアノテーションされた動画データセット「Kinetics」を採用し、手動でのラベル付けなしで、自己教師学習を実行する。

 学習したモデルの性能を評価するため、ダンスやスポーツのような複雑な動きを含む、さまざまな難易度の動画でスピード予測を実施した。実験の結果、2つの一般的なベンチマークにおいて、最先端の自己教師学習に匹敵するものであり、Kineticsを用いた事前学習を行う他の全ての手法を上回るものだとしている。

 何のためにこのような研究をするのか。動機は2つ。

  1. 動画データセット上で信頼性の高い分類器を訓練するため。これにより、動画内検索やアクション認識等における事前学習として有効活用できる。
  2. 速度を予測するための十分に訓練されたモデルが、さまざまなアプリケーションに活用できるから。例えば、動画全体を均等に高速化するのではなく、動画内の物体の速さに応じて部分的に速度変換する適応的な高速化が行える。

 一般的に、映像全体を2倍速にすると、速く動くシーンも全て高速になるため、物体が不自然な映像に仕上がる。それに対し、適応的に速度変換すると、シーンによって速い・遅いを決定し凸凹の速度変換を行うため、自然な映像に仕上がる。どちらも同じ再生時間で生成されるため、後者の方が視聴時間は変わらないまま不快感なく視聴できる。

photo フレームのスピードカーブに基づいて、時間変化する適応的なスピードアップ動画を生成する。(赤線)入力映像の物体の速度。物体が速く動いているシーンは上がり、遅いシーンは下がる。(青線)適応的に高速変換した時の物体の速度変化。速くしたシーンは上がり、通常速度は下がる。子どもが飛び込むこの映像だと、飛び込む前は速く、飛び込んでいる最中は通常速度に変換しているのが読み取れる

 100m走の映像をサンプルに行ったケースの場合、走り出す前は高速、走り出してからは通常の速度と適応的に変換されている。このように、シーンによって速度変換することで、視聴者にとって負担の少ない、効率的なビデオが作成できるという。

photo (左)均等に2倍速にした映像(右)走る前は速く走り出してからは通常速度に適応的に変換した映像。走り出す前は5倍速程度に速くなっているのに対して、後半は1倍速程度で再生されているのがグラフで確認できる

Copyright © ITmedia, Inc. All Rights Reserved.