Intel Ignite 2023で優勝! AV1やH.266を超える圧縮率を実現するDeep Renderの「AIベースの動画圧縮技術」って何?:Intel Ignite 2023(1/4 ページ)
Intelのスタートアップ企業支援プログラム「Intel Ignite」の2023年度プログラムでは、イギリスのDeep Renderが優勝した。同社は「AI技術を使った高圧縮率/高画質な動画コーデック」を開発しており、世界中から注目を集めている。AIベースの動画圧縮コーデックとはどのようなものなのか、話を聞いた。
有望なベンチャー企業を支援すべく、Intelは2019年から「Intel Ignite」という支援プログラムを展開している。支援対象になれば同社から数百万ドルの資金援助を受けられるということもあって、多くのスタートアップ企業がこのプログラムに参加/応募している。
9月に行われたイベント「Intel Innovation 2023」では、本プログラムの年度決勝に相当する「2023 Intel Startup Innovator Award」の表彰式が開催された。このアワードは、2023年度にIgniteに応募したベンチャー企業の中から選出された“トップ3”の優勝者を決めるというものだ。
Intelが昨今AI技術に注力していること、そして同社が「AI PC」を掲げてCPUへとNPU(推論アクセラレーター)の搭載を進める方針を示していることもあってか、トップ3はいずれもAIを活用した事業に挑む企業となった。
3社の中からパット・ゲルシンガーCEOが発表した勝者は、イギリスのベンチャー企業「Deep Render(ディープレンダー)」だった。同社はEuropean Innovation Council(欧州イノベーション評議会)からも270万ドル(4億円弱)の助成金を獲得しており(参考リンク)、業界から高い注目を集めている。
では同社が何を手掛けているのかというと、AI技術で映像(動画)データを圧縮する技術だ。Intel Innovation 2023の展示コーナーには同社のブースもあり、エンジニアから話を直接聞けたので、どのような技術なのか紹介することにしたい。
動画圧縮の「アルゴリズム」ってどんなもの?
Deep Renderの技術について解説する前に、まずは「H.264(MP4)」や「H.265(HEVC)」に代表されるMPEG系の動画圧縮技術の基本概念を確認していこう。
MPEG系の動画圧縮技術は「フレーム相関型圧縮アルゴリズム」を採用している。簡単にいうと、動画の隣接するフレームの“相似性”を解析し、情報の冗長性を排除していくことでデータを“圧縮”していく仕組みを取る。ゆえに、映像はブロック単位に分割され、各種処理を適用していくことになる。
もう少し具体的に説明すると、動画を「複数枚の連続する静止画像(フレーム)からなる映像」だと見なした上で、各フレームを1ピクセル単位ではなく、「16×16ピクセル」というようにある程度のピクセルをまとまめた「ブロック」単位で各種処理を行うようになっている。このブロックは「8×8ピクセル」とか「64×64ピクセル」とか、処理系によってさまざまあるものの、今回はこの点に関する深掘りはしない。
各フレームをブロックに分割した後、まず「フレーム内圧縮(イントラフレーム圧縮)」を行う。フレーム内圧縮では、隣接するブロック同士の類似性を解析し、その冗長性を排除するように圧縮を行う。このこと自体は静止画における「JPEG(Joint Photographic Experts Group)」形式の画像圧縮と同じアプローチだ。
しかし、これでは単なる「静止画のデータ圧縮」になってしまう。そこでフレーム相関型圧縮アルゴリズムの出番だ。これは時間方向でフレーム同士の相似性を解析して、「フレーム相関圧縮(インターフレーム圧縮)」を実施する。
ここでいう「時間方向に隣接するフレーム」は、着目(処理)するフレームの1~2コマ前を指す。圧縮に伴う遅延(レイテンシ)を許容する場合は、複数のフレームをバッファリングした上で、未来方向のコマに対しても相似性の解析を行い、フレーム相関圧縮を施すこともある(MPEG圧縮技術では、これを「Bフレーム」と呼ぶ)。
時間方向の相似性解析では、各フレームにおいてブロック単位での動き具合の追跡/解析も行う。ここで得られた動き具合の情報を参考にして、時間方向に隣接するフレーム同士の相似性を求めて、冗長性を排除する。これが、いわゆる「動き補償」という概念だ。
時間方向の相似性が定まったら、この情報をイントレーフレーム圧縮にもフィードバックし、さらに圧縮率を高める。一連の静止画のコア圧縮技術には、「離散コサイン変換(DCT:Discrete Cosine Transform)」が用いられる。
かなりざっくりとした解説だが、以上がMPEG系の動画圧縮技術の基本概念だ。実用化されて久しい「MPEG-2」やH.264、H.265はもちろん、次世代規格である「H.266(VVC:Versatile Video Coding)」でも、基本的な考え方は変わっていない。
では、Deep Renderの提唱する「AI圧縮技術」とはどのようなものなのだろうか。
関連記事
地上波でも「4K/60fps」が当たり前に? 総務省の審議会が「次世代地デジ」の技術的条件を答申 実現に向けて大きな一歩
総務省において「次世代(高度化)地上波デジタルテレビ放送」の技術的条件が答申された。これにより、現行の「地デジ」の後継規格を策定する作業が加速するものと思われる。薄型モバイル向け「Ryzen 7040U」登場 Zen 4+RDNA 3にRyzen AI(一部)で「Apple M2やCore i7-1360Pよりも高速」
AMDのモバイル向けAPU「Ryzen 7040シリーズ」に、メインストリームの「Uプロセッサ」が登場する。AIプロセッサは上位製品にのみ搭載されるが、CPUコアやGPUコアのパフォーマンスアップは、全ての製品に恩恵があるようだ。モバイル向けGPU「Intel Arc Aシリーズ」が発進 スペック別に3シリーズを順次投入
Intelが、モバイル向けGPU「Intel Arc Aシリーズ」を正式に発表した。米国ではエントリー製品を搭載するノートPCの受注が始まっており、4月から搭載製品が順次お披露目される見通しだ。NVIDIA、ワークステーション向けGPU「NVIDIA RTX A2000」を発表
NVIDIAは8月10日、新たなGPUとして「NVIDIA RTX A2000」を発表した。価格は450ドルで、10月より発売される予定だ。「Tiger Lake」×「Iris Xe MAX Graphics」はなぜ速い? インテルが説明
Intelが久しぶりの外部GPU製品として発売した「Iris Xe MAX Graphics」。Tiger Lakeと協調動作することでより高速に動作することが特徴だ。その仕組みを、日本法人であるインテルが説明した。
Copyright © ITmedia, Inc. All Rights Reserved.