生成AIでGPUがいらなくなる? 業界を揺るがす「1ビットLLM」とは何か、識者に聞いた(3/3 ページ)
──じゃあ、GPUはもういらなくなるんですか?
椎橋:いえ、そんなことはないですね。
短期から中期でみると、学習にはGPUが引き続き重要な役割を果たします。また、推論においても、今回のBitNetの様に特定のアーキテクチャが固まったら、それに特化したチップを設計するのが良いでしょう。でも、研究開発の段階では、いろいろなアーキテクチャを探索する必要がありますよね。その際は、GPUやTPU(Googleの行列計算に特化したAIチップ)のような汎用的な計算資源がまだまだ必要とされるんです。
NVIDIAもAIの半導体分野を起点にビジネス展開しています。いまのNVIDIAのポジションから見ると、重要なプレイヤーであり続ける可能性は高いと思いますよ。
ただし同時に、今回のような特定のニューラルネットのアーキテクチャに対して、GPUを劇的に上回る計算効率を実現するようなAIチップが数多く生まれてくるのではないかという「AIチップのカンブリア爆発」の可能性が語られるようにもなってきています。
論文中でも、GroqというLLMの推論に特化したLPU(Language Processing Unit)の登場に触れられています。次世代半導体での復活を狙う日本の産業にとっても、注視していくべきトピックではないかと思います。
──学習にはGPUが必要なんですね。学習も1bitではできないんですか?
椎橋:実は学習は基本的にいままでと変わらないやり方が必要になります。学習にはGPUを使って、16bitとかの浮動小数点数演算をしないといけないんです。さらに、何も考えずに普通に学習したモデルを、あとから1bitに丸めてもあまりうまくいかないんですよ。
ディープラーニングの学習のときは、誤差逆伝播という手法を使います。入力からニューラルネットを通って出力が出ますよね。そのあと、教師データとの差を見て、その差を小さくするように逆向きに伝播させていきます。そのとき、どの層のパラメータをどのくらい更新するべきかを、傾きを計算して決めていきます。その傾きを勾配と呼ぶんですが、勾配を計算するには、小数値である必要があるんです。
だから、1bit LLMの学習には新しい工夫が必要になります。最終的に1bitに丸めることを前提として学習を行うんです。学習の途中でも、1bitに量子化した状態で出力を計算して、正解とどれだけずれているかを見て、そのずれを逆伝播させるんです。
ちょっと分かりにくいかもしれないのでイメージとして近い例を挙げますね。画像をモザイク化する場合を考えてみましょう。モザイクの一区画に入るピクセルの色の平均を取るのは、丸めているのと同じようなことですよね。ここで、人が見たときに何の画像か分かるようなモザイク画を作ってくださいと言われたとします。これが、学習だと考えてください。
出来上がったモザイク画を見て、元の画像が何か分かるかな? っていうのを考えるわけです。最終的にモザイク化されることを念頭に置いて、そのモザイク画から推測しやすいような元の画像を作るにはどうしたらいいか、というのが1bit LLMの学習における発想なんです。
──1bitまで丸めてもうまくいくなんて信じられないですが、本当にできるんですか?
椎橋:そうなんですよ。3値までまるめてうまくいくなんて、直感的にはあり得ないと思うんです。私も最初は半信半疑でした。
でも、パラメータ数がものすごく多いと、1bitになっていてもちゃんと機能するのかもしれません。1bit LLMの論文では、7億から700億パラメータのモデルを検証しているんですが、実際にパラメータ数が多くなると16bitのモデルと精度差が小さくなり、30億パラメータでBitNet b1.58が16bitのモデルを上回る結果になっています。
パラメータ数が膨大になると、1bitでもモデル全体としての表現力が十分になるのかな、と思えてきます。
とはいえ、やはり学習時の工夫は必要不可欠です。量子化を前提とした学習をするからこそ、うまくいっているんだと思います。
まだまだ発展途上の技術ではありますが、将来の可能性を感じさせるブレークスルーだと私は考えています。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
2
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
3
キオクシア社長「記録的な増収増益」 3カ月の売上収益1兆円、純利益は2990%増 好決算の背景は
-
4
「AIデータセンターの電力需要が急増」はホント? 発電大手Jパワー社長が明かした“報道との温度差”
-
5
伊藤忠商事や三菱ケミカルなど16社が参画 大手企業の「暗黙知」を活用する新プロジェクト
-
6
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
7
NEC社長が説く AI時代と新たな安全保障環境の到来で「ITサービスはこう変わる」
-
8
OpenAI、「ChatGPT」に個人向け資産管理機能 金融口座と連携
-
9
Python 3.15に追加されるlazy importと内包表記でのアンパッキングについて調べてみた
-
10
「邪魔すぎ」――LINE入力欄の“新AI機能”が不評 消し方は?
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR