生成AIでGPUがいらなくなる? 業界を揺るがす「1ビットLLM」とは何か、識者に聞いた(3/3 ページ)
──じゃあ、GPUはもういらなくなるんですか?
椎橋:いえ、そんなことはないですね。
短期から中期でみると、学習にはGPUが引き続き重要な役割を果たします。また、推論においても、今回のBitNetの様に特定のアーキテクチャが固まったら、それに特化したチップを設計するのが良いでしょう。でも、研究開発の段階では、いろいろなアーキテクチャを探索する必要がありますよね。その際は、GPUやTPU(Googleの行列計算に特化したAIチップ)のような汎用的な計算資源がまだまだ必要とされるんです。
NVIDIAもAIの半導体分野を起点にビジネス展開しています。いまのNVIDIAのポジションから見ると、重要なプレイヤーであり続ける可能性は高いと思いますよ。
ただし同時に、今回のような特定のニューラルネットのアーキテクチャに対して、GPUを劇的に上回る計算効率を実現するようなAIチップが数多く生まれてくるのではないかという「AIチップのカンブリア爆発」の可能性が語られるようにもなってきています。
論文中でも、GroqというLLMの推論に特化したLPU(Language Processing Unit)の登場に触れられています。次世代半導体での復活を狙う日本の産業にとっても、注視していくべきトピックではないかと思います。
──学習にはGPUが必要なんですね。学習も1bitではできないんですか?
椎橋:実は学習は基本的にいままでと変わらないやり方が必要になります。学習にはGPUを使って、16bitとかの浮動小数点数演算をしないといけないんです。さらに、何も考えずに普通に学習したモデルを、あとから1bitに丸めてもあまりうまくいかないんですよ。
ディープラーニングの学習のときは、誤差逆伝播という手法を使います。入力からニューラルネットを通って出力が出ますよね。そのあと、教師データとの差を見て、その差を小さくするように逆向きに伝播させていきます。そのとき、どの層のパラメータをどのくらい更新するべきかを、傾きを計算して決めていきます。その傾きを勾配と呼ぶんですが、勾配を計算するには、小数値である必要があるんです。
だから、1bit LLMの学習には新しい工夫が必要になります。最終的に1bitに丸めることを前提として学習を行うんです。学習の途中でも、1bitに量子化した状態で出力を計算して、正解とどれだけずれているかを見て、そのずれを逆伝播させるんです。
ちょっと分かりにくいかもしれないのでイメージとして近い例を挙げますね。画像をモザイク化する場合を考えてみましょう。モザイクの一区画に入るピクセルの色の平均を取るのは、丸めているのと同じようなことですよね。ここで、人が見たときに何の画像か分かるようなモザイク画を作ってくださいと言われたとします。これが、学習だと考えてください。
出来上がったモザイク画を見て、元の画像が何か分かるかな? っていうのを考えるわけです。最終的にモザイク化されることを念頭に置いて、そのモザイク画から推測しやすいような元の画像を作るにはどうしたらいいか、というのが1bit LLMの学習における発想なんです。
──1bitまで丸めてもうまくいくなんて信じられないですが、本当にできるんですか?
椎橋:そうなんですよ。3値までまるめてうまくいくなんて、直感的にはあり得ないと思うんです。私も最初は半信半疑でした。
でも、パラメータ数がものすごく多いと、1bitになっていてもちゃんと機能するのかもしれません。1bit LLMの論文では、7億から700億パラメータのモデルを検証しているんですが、実際にパラメータ数が多くなると16bitのモデルと精度差が小さくなり、30億パラメータでBitNet b1.58が16bitのモデルを上回る結果になっています。
パラメータ数が膨大になると、1bitでもモデル全体としての表現力が十分になるのかな、と思えてきます。
とはいえ、やはり学習時の工夫は必要不可欠です。量子化を前提とした学習をするからこそ、うまくいっているんだと思います。
まだまだ発展途上の技術ではありますが、将来の可能性を感じさせるブレークスルーだと私は考えています。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
農水省の“クソダサ”ポスター話題 「AIよりよっぽど良い」の声も 担当者に狙いを聞いた
-
2
え、21日で37テラも? 高性能SSDを食いつぶす「あのAIツール」にご用心:886th Lap
-
3
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
-
4
ソフトウェアエンジニアの仕事は「ループを書くこと」になる 内側ループと外側ループ(ハーネス)入門
-
5
Anthropicの営業はAIエージェントをこう使う! 日本法人メンバーが明かす手の内
-
6
復活した「Fable 5」 米政府からのオーダーに対して、Anthropicはどう対策したのか
-
7
「Claude Fable 5」をサブスクの標準機能に――AnthropicのエンジニアがXに投稿 7月8日以降の「早期復活目指す」
-
8
AIで“ゲームキャラの出産二次創作”を何千回と生成する人も……ChatGPTの会話57万件から見えたヘビーな利用実態
-
9
3万円で「Yahoo!ニュース」にPR掲載 プレスリリースをAIで「ニュース風記事」に
-
10
光接続の標準規格「OCI」対応シリコン、GFが27年に投入
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR