ITmedia NEWS > AI+ >
ITmedia AI+ AI活用のいまが分かる

GPTを超える大規模言語アーキテクチャ「Hyena」とは何か?清水亮の「世界を変えるAI」(1/2 ページ)

» 2023年03月09日 09時30分 公開
[清水 亮ITmedia]

 3月7日、刺激的なブログがHazy Researchから投稿された。新しい大規模言語モデルHyena(ハイエナ)の登場だ。

 Hazy Researchはスタンフォード大学とモントリオール大学による共同の研究チームだ。特に深層学習の世界ではトップ研究者として知られ、コンピュータ業界におけるノーベル賞に相当するチューリング賞受賞者であるヨシュア・ベンジオ博士も論文に名を連ねていることから話題になっている。

 現在、広く使われているのはGPT-3やChatGPTといったいわゆる「Transformer(トランスフォーマー)」というモデルだ。「Transformer」は、並列化がしやすく大規模な学習に向いているという特徴を持っている。GPTも、実は「Generative Pre-trained Transformer(生成的事前訓練済みトランスフォーマー)」の略で、要はTransformerである。

 Transformerそのものは2018年からあり、GPT以外にも「BERT」や「Sentence Transformer」などさまざまなバージョンがある。最近急激に話題を呼んでいるChatGPTも、Transformerを内部的に使用しているものだ。

GPTのモデルに比べ、速度が100倍に

 しかし、大規模なTransformerモデルは、パラメータ数が多く、しかも計算量が膨大であるため、利用料金が高い上に動作が遅いという問題がある。

 それに比べると、Hyenaの特徴は、まずGPTに比べて計算量が圧倒的に少ないことだ。

GPTはモデルサイズが大きくなればなるほど、パラメータ数の二乗に比例して計算量が増えるという弱点がある。パラメータ数をnとすると、n*nの計算量ということになる。

 ところがHyenaは、計算量がパラメータ数をnとしたときにn*log2nになる。パラメータの2乗とlog2n乗とでは、パラメータが増えたときの計算量が大きく変わる。実際のベンチマークで、10万トークン時にGPTの100倍高速となる結果が出ている。

 この差は、パラメータ数が多ければ多いほど、つまりAIとして賢ければ賢いほど開いていくので、これから言語モデルの規模がもっと大きくなるとしても、Hyenaの果たす役割は重要だ。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.