NVIDIA製GPUの数十倍速い？　次々に出てくる「AI専用チップ」とは何者か　識者に聞く高速化の仕組み（2/3 ページ）

スタートアップ企業Etchedが発表した「Sohu」が、AI業界に新たな波紋を投げかけている。トランスフォーマーモデルに特化したこのAI専用チップは、NVIDIAのH100 GPUと比較して20倍高速かつ低コストで動作すると主張しているからだ。

[斎藤健二，ITmedia] PC用表示関連情報

LINE

Hatena

前のページへ | 次のページへ

そもそもトランスフォーマーはどのように動いているのか

──トランスフォーマーモデルの処理の特徴について、詳しく教えていただけますか？

椎橋：トランスフォーマーモデルの処理の特徴を理解するには、まず従来のRNN（Recurrent Neural Network）との違いを理解する必要があります。

　RNNの処理の仕方は、入ってきた単語を順番にニューラルネットワークに入れて処理していきます。これまでに入力された単語の意味は、ニューラルネットワークの中に1つのベクトルとして圧縮されています。そして、新しく入ってきた単語との関係性だけを見ていくという形になります。つまり、これまで入ってきたものを「がっちゃんこ」した、総合としてのベクトルと、新しく入ってきた単語のベクトルの関係性を見るだけです。

　一方、トランスフォーマーモデルは全く異なるアプローチを取ります。トランスフォーマーの核心部分は「アテンション機構」と呼ばれるもので、これが非常に特徴的です。

　トランスフォーマーモデルでは、入力された全ての単語（トークン）同士の関係性を、それぞれ個別に計算します。例えば、10個の単語が入力されたとすると、1つの単語に対して他の9個の単語との関係性を全て見ていきます。そして、これを全ての単語に対して行います。

　この処理方法により、文脈をより深く、より正確に理解できるようになります。直感的に考えても、全ての単語間の関係性を見る方が、より精度の高い理解ができそうだと想像できますよね。実際、この方法により、トランスフォーマーモデルは非常に高い性能を発揮しています。

　ただし、この処理方法には大きなデメリットもあります。それは、計算量が膨大になるということです。入力されるトークンの数が増えれば増えるほど、計算量は飛躍的に増加していきます。

　また、この処理には大量のメモリアクセスが必要になります。入力された文章をいったんメモリに置いて、そこから何度も参照しながら処理を行う必要があるからです。

　さらに、この処理は並列化が難しいという特徴があります。全ての要素が互いに関係し合っているため、単純に処理を分割して並列に実行するということが難しいのです。

【トランスフォーマーの処理：分かりやすい例】

　トランスフォーマーの処理、特にその核心であるアテンション機構を理解するために、次のような例を考えてみましょう。ある主（王様、政治家、組織長……）に仕える100人の専門家からなるアドバイザリーボードがいます。主は、アドバイザリーボードの意見（総意）を踏まえて、自らが信じる意思決定をします。

　従来のRNNモデルでは、この状況を次のように処理します。

1人の人（仮にBさんとします）が立ち上がり、右隣のAさんに意見を聞きます。
Bさんは聞いた意見と自分の意見を合わせて要約し、左隣の次の人（Cさん）に渡します。
Cさんは、Bさんから受け取った要約と、自分の意見を合わせて新たな要約を作り、次の人に渡します。
これを100人全員が終わるまで繰り返します。
最後の100人目のアドバイザーは、主に要約を渡します
主はもともと持っていた自分の考えとアドバイザリーボードの総意（要約）を踏まえて意思決定をします

　ここで問題なのは、次の2点です。

100人のアドバイザリーボードの要約は、最後に近いアドバイザーの意見ほど強く反映されがち（初めの方の人たちの意見は忘れられがち）
アドバイザリーボードは、主がもともと持っている考えを知らず、それを踏まえた意見集約にはなっていない

　一方、トランスフォーマーモデルは、この状況を全く異なる方法で処理します。

全員が同時に立ち上がります
各人が、他の99人全員と直接会話を交わします
各人は、他の99人が自分の意見にとって有用な専門知見をどれだけを持っているかを見極めて、有用度に応じてそれぞれの意見を取り入れ自分の意見をアップデートします（アテンション）
これを全員が同時に行います
最後に、主が100人それぞれと会話をします
主は、もともとの自分の考えと各アドバイザーの意見の関連度合いを見極めて、関連度に応じて意見を取り入れて、最終的な意思決定をします。

　このトランスフォーマーの方法には、いくつかの重要な特徴があります。

並列処理：全員が同時に情報交換を行うため、処理が高速です。
直接的な関係性の把握：各人が他の全員と直接対話するため、情報のひずみが少なくなります。
大量の計算：100人それぞれが99人と対話するため、総計9900回の対話が発生します。これは膨大な計算量を意味します。
メモリ要求：各人は99人分の情報を一時的に記憶する必要があります。これは大量のメモリを必要とすることを意味します。

　この例で分かるように、トランスフォーマーモデルは非常に詳細で包括的な情報処理を行いますが、それには大量の計算リソースとメモリが必要になります。これが、トランスフォーマーモデルに最適化された特殊なハードウェアが必要とされる理由です。

実はあまり良くない、GPUとトランスフォーマーの相性

前のページへ | 次のページへ

NVIDIA製GPUの数十倍速い？ 次々に出てくる「AI専用チップ」とは何者か 識者に聞く高速化の仕組み（2/3 ページ）

そもそもトランスフォーマーはどのように動いているのか

NVIDIA製GPUの数十倍速い？　次々に出てくる「AI専用チップ」とは何者か　識者に聞く高速化の仕組み（2/3 ページ）