プロナビ

Intel Ignite 2023で優勝! AV1やH.266を超える圧縮率を実現するDeep Renderの「AIベースの動画圧縮技術」って何?Intel Ignite 2023(1/4 ページ)

» 2023年12月12日 17時00分 公開
[西川善司ITmedia]

 有望なベンチャー企業を支援すべく、Intelは2019年から「Intel Ignite」という支援プログラムを展開している。支援対象になれば同社から数百万ドルの資金援助を受けられるということもあって、多くのスタートアップ企業がこのプログラムに参加/応募している。

 9月に行われたイベント「Intel Innovation 2023」では、本プログラムの年度決勝に相当する「2023 Intel Startup Innovator Award」の表彰式が開催された。このアワードは、2023年度にIgniteに応募したベンチャー企業の中から選出された“トップ3”の優勝者を決めるというものだ。

 Intelが昨今AI技術に注力していること、そして同社が「AI PC」を掲げてCPUへとNPU(推論アクセラレーター)の搭載を進める方針を示していることもあってか、トップ3はいずれもAIを活用した事業に挑む企業となった。

 3社の中からパット・ゲルシンガーCEOが発表した勝者は、イギリスのベンチャー企業「Deep Render(ディープレンダー)」だった。同社はEuropean Innovation Council(欧州イノベーション評議会)からも270万ドル(4億円弱)の助成金を獲得しており(参考リンク)、業界から高い注目を集めている。

 では同社が何を手掛けているのかというと、AI技術で映像(動画)データを圧縮する技術だ。Intel Innovation 2023の展示コーナーには同社のブースもあり、エンジニアから話を直接聞けたので、どのような技術なのか紹介することにしたい。

2023 Intel Startup Innovator Award 2023 Intel Startup Innovator Awardの表彰式
Deep Render 最終選考に残った3つのスタートアップ企業の中から選ばれた優勝者は、Deep Renderだった
2023 Intel Startup Innovator AwardにおけるDeep Renderのプレゼンテーション動画

動画圧縮の「アルゴリズム」ってどんなもの?

 Deep Renderの技術について解説する前に、まずは「H.264(MP4)」や「H.265(HEVC)」に代表されるMPEG系の動画圧縮技術の基本概念を確認していこう。

 MPEG系の動画圧縮技術は「フレーム相関型圧縮アルゴリズム」を採用している。簡単にいうと、動画の隣接するフレームの“相似性”を解析し、情報の冗長性を排除していくことでデータを“圧縮”していく仕組みを取る。ゆえに、映像はブロック単位に分割され、各種処理を適用していくことになる。

 もう少し具体的に説明すると、動画を「複数枚の連続する静止画像(フレーム)からなる映像」だと見なした上で、各フレームを1ピクセル単位ではなく、「16×16ピクセル」というようにある程度のピクセルをまとまめた「ブロック」単位で各種処理を行うようになっている。このブロックは「8×8ピクセル」とか「64×64ピクセル」とか、処理系によってさまざまあるものの、今回はこの点に関する深掘りはしない。

 各フレームをブロックに分割した後、まず「フレーム内圧縮(イントラフレーム圧縮)」を行う。フレーム内圧縮では、隣接するブロック同士の類似性を解析し、その冗長性を排除するように圧縮を行う。このこと自体は静止画における「JPEG(Joint Photographic Experts Group)」形式の画像圧縮と同じアプローチだ。

まずグリッド まず、動画内の各フレームをある程度のピクセルからなる「ブロック」に分けて、ブロック同士の類似性を分析。冗長性を排除することでデータの圧縮を行う

 しかし、これでは単なる「静止画のデータ圧縮」になってしまう。そこでフレーム相関型圧縮アルゴリズムの出番だ。これは時間方向でフレーム同士の相似性を解析して、「フレーム相関圧縮(インターフレーム圧縮)」を実施する。

 ここでいう「時間方向に隣接するフレーム」は、着目(処理)するフレームの1〜2コマ前を指す。圧縮に伴う遅延(レイテンシ)を許容する場合は、複数のフレームをバッファリングした上で、未来方向のコマに対しても相似性の解析を行い、フレーム相関圧縮を施すこともある(MPEG圧縮技術では、これを「Bフレーム」と呼ぶ)。

 時間方向の相似性解析では、各フレームにおいてブロック単位での動き具合の追跡/解析も行う。ここで得られた動き具合の情報を参考にして、時間方向に隣接するフレーム同士の相似性を求めて、冗長性を排除する。これが、いわゆる「動き補償」という概念だ。

 時間方向の相似性が定まったら、この情報をイントレーフレーム圧縮にもフィードバックし、さらに圧縮率を高める。一連の静止画のコア圧縮技術には、「離散コサイン変換(DCT:Discrete Cosine Transform)」が用いられる。

圧縮 MPEG系の動画圧縮技術における、フレームの動きの予測方法(出典:ソニー

 かなりざっくりとした解説だが、以上がMPEG系の動画圧縮技術の基本概念だ。実用化されて久しい「MPEG-2」やH.264、H.265はもちろん、次世代規格である「H.266(VVC:Versatile Video Coding)」でも、基本的な考え方は変わっていない。

 では、Deep Renderの提唱する「AI圧縮技術」とはどのようなものなのだろうか。

       1|2|3|4 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

最新トピックスPR

過去記事カレンダー