ここまでを踏まえた上で、Deep Renderの「AIベースの圧縮アルゴリズム」とはどのようなものなのかを、Deep Renderのジャン・スー氏(シニアリサーチエンジニア)と、クリ・ベセンバーチ氏(共同創業者)に聞いてみた。
スー氏は「特許絡みで公にできない、あるいは公開しない概念もある」と前置きをしつつも、自社の技術について、いくつかの重要な“ヒント”を説明してくれた。同氏とベセンバーチ氏の話を聞くと、Deep Renderの「AI圧縮技術」はMPEG系の動画圧縮技術と似ている部分と、似ていない(ユニークな)部分の両方が混在していることが分かった。
まず、似ている部分としては空間的な「フレーム内圧縮」と、時間方向の「フレーム相関圧縮」の概念を取り入れていることが挙げられる。一方で、ユニークなポイントとして各フレームをブロックに分解して処理していないのだという。
Deep Renderでは、フレーム内圧縮に「CNN(Convolutional Neural Network:畳み込みニューラルネットワーク)」ベースのAIを活用しているという。話を聞く限りでは、着目しているフレーム内の適当な箇所に配置した「CNNカーネル」に、そこを基点とした全周領域の相似性を求めさせて、高い相似性があれば分布情報を量子化していく――というアルゴリズムとしているらしい。
相似性の解析にブロックを用いないため、原理的に低ビットレートでもブロックノイズが発生しないのだという。CNNカーネルをフレーム内の「どこに」「どのくらい(いくつ)」「どういう基準で」配置するのかは説明してもらえなかったが、イメージとしてはMPEG系動画圧縮技術において離散コサイン変換を使う部分を、CNNベースのAIで置き換えているようである。ゆえに、これまた原理上低ビットレートでもモスキートノイズが発生しないそうだ。
Deep Renderでは、時間方向のフレーム間の相似性もCNNベースのAIで相似性を探索する。
MPEG系の動画圧縮技術ではフレーム内のブロック単位で「動きベクトル(Motion Vector)」を検出することで動き補償を行っている。しかし、先述の通りDeep Renderではそもそもブロック分解を行っていないため、同じ方法は使えない。そこで代替手段として、Deep Renderでは「Optical Flow」という概念を使ってフレーム間の相似性を検出し、動き補償を行っている。
Optical Flowは、直訳すると「光学的な流れ(動き)」という意味だが、意訳すると「映像における光の移り変わり」という意味。昨今のデジタル画像解析(特にコンピュータービジョン分野)では、よく使われる定番キーワードだ。
Deep Renderでは、Optical Flowを活用してフレーム内のオブジェクト(物体)の移動を追跡することで動き補償を行い、圧縮率を高めている。オブジェクトが複雑な形状でもしっかりと追跡できるそうだ。
Deep Renderによると、現在の試作版ではH.264/H.265と同等画質なら5倍程度の圧縮率を達成しているという。これからも各部分のチューニングと改良を進めるとのことで、圧縮率を50倍にまで高められる見通しが立っていると豪語する。
これが本当ならば、1層のBlu-ray Discでなければ録画できない25GBの動画を、単にCD-Rに収められるだけでなく、容量が約150MB余ることになる。なかなかにスゴい。
Copyright © ITmedia, Inc. All Rights Reserved.