「生成AIの性能はGPUで決まる」論の間違い 性能アップにつながるインフラの作り方

» 2024年04月10日 10時00分 公開
[PR/ITmedia]
PR

 昨今の“第4次AIブーム”の立役者である生成AIがビジネスに与えるインパクトは大きい。従来のAIは膨大な開発コストがかかる上に、スーパーコンピュータ規模の大規模なシステムが必要だった。しかし、生成AIは学習済みの「基盤モデル」を自社のIT環境で動かすだけでAIのメリットを享受できる。格段に導入しやすくなったことで、一般的な企業でもビジネスに取り入れる動きが活発化している。

 生成AIの導入時に語られるのがGPUに代表されるコンピューティングリソースの話題だ。本格的なAIの開発や推論に欠かせない計算能力をどう確保するかは議論すべきポイントだ。

 しかし、その影に隠れて見落とされがちな要素がある。それが「ネットワーク」だ。ストレージにある大容量のデータを参照してGPUサーバで推論処理をする生成AIにおいて、ネットワークの伝送速度が遅ければ高価なGPUを生かせない。ネットワークはAIの性能を左右すると言える。

 これまではスパコンやデータセンター用に高速で大容量のネットワークを構成する技術「InfiniBand」が主流だった。しかし「イーサネット」が生成AIにも使えるようになったことで、一般的な企業も利用しやすくなった。

 イーサネットがなぜ一般的な利用に適しているのか、関連する技術がどのように進化してきたのか。イーサネットをAIに利用するためのソリューションについて解説する。

生成AIの頭脳はGPU ネットワークは“血管”だ

 AIのためのシステムを語るとき、たいていはGPUの性能などコンピューティングパワーが注目される。特に生成AIは、基盤モデルのように極めて膨大なデータを処理する必要があるので単一のGPUサーバでは能力不足に陥る。そこで複数のGPUサーバを高速なネットワークで接続してクラスタ化し、データを並列処理するコンピュート・バックエンド・ファブリック(GPUファブリック)を形成するケースが多い。

photo 生成AI用システムとして注目されるGPUファブリックのイメージ(提供:デル・テクノロジーズ)

 ここでGPUばかりに注目していては足をすくわれる。GPUサーバをつなぐネットワークをどのように構成するか丁寧に検討する必要がある。GPUサーバやネットワークの知見があるデル・テクノロジーズの岩辺憲昭氏(CoC ネットワーク マーケティングマネージャー)は次のように話す。

photo 岩辺憲昭氏(CoC ネットワーク マーケティングマネージャー)

 「GPUファブリックは、GPU同士の膨大な相互通信によって高速な並列計算を実行しています。生成AIの学習や推論は独特で、ネットワークの滞留時間が50%を超えるケースが出てきています。つまり、ネットワークの性能が生成AIのパフォーマンスに直結するということです。生成AIの取り組みにおいてネットワークがキーテクノロジーの一つになっているのです」


 GPUサーバは、生成AIにおける頭脳の役割を果たす。GPUにデータを伝送するネットワークは、脳に栄養や酸素を届ける血管のようなものだ。その血管が細かったり詰まったりするようでは、頭脳の働きに悪影響があるということは容易に想像できる。

生成AIを成功させるネットワーク 3つのポイントとは

 生成AIの取り組みにおいてネットワークに求める要素として、岩辺氏は3つのポイントを挙げる。1つ目は高速なトラフィック処理だ。GPU間で発生する膨大なトラフィックを低遅延で処理できる広帯域のネットワークが必要になる。高性能であればあるほどパフォーマンスは向上する。

 2つ目のポイントは、巨大なGPUクラスタ環境を構成できる拡張性だ。ネットワーク機器のスペックだけではなく、機器の単価や調達の難易度も考慮しなければならない。いかに高性能であっても、高価で手が出せなかったり需要に合わせて調達できなかったりすれば、自社のビジネススピードが落ちる原因になる。

 3つ目のポイントは、サーバやストレージを含めた大規模な生成AI用のインフラを適切に運用できるかどうかという点だ。生成AIの取り組みは、パワフルなIT環境をユーザーのニーズに応じて変更しながら試行錯誤を繰り返すことになる。構築や運用を自動化できる優れたオーケストレーターの存在が、生成AIの成功を助けてくれる。安定稼働し続けるためにはメーカーやベンダーの包括的なサポートも欠かせない。

photo 生成AIの取り組みにおいてネットワークに求められる要素(提供:デル・テクノロジーズ)

イーサネット技術に革新 生成AIを支えられるレベルに到達

 それでは、生成AIに適したネットワーク技術やネットワーク機器とはどのようなものだろうか。デル・テクノロジーズの佐々木亮氏(ネットワーク事業部 技術部長)は次のように解説する。

photo 佐々木亮氏(ネットワーク事業部 技術部長)

 「これまでGPUファブリックのネットワーク技術として、InfiniBandを採用するのが主流でした。InfiniBandは優れた技術で性能や機能は申し分ないのですが、価格が高く、サポートや入手の難しさなどの課題がありました。加えて特定のベンダーに頼りがちな傾向があり、コロナ禍で起きた半導体不足のような事態に陥る可能性もあります。こうした課題を解決し、生成AIの裾野を広げる技術としてイーサネットが台頭してきています」


 イーサネットはLANやWANを構成する要素で、家庭から企業まで幅広く使われているのでいまさら詳細を語る必要はないだろう。身近なイーサネットが生成AIに採用されてこなかったのは、GPUファブリック向けのネットワーク技術としては力不足が否めなかったからだ。

 しかし、近年イーサネットのチップとスイッチに革新が起きており、生成AIが求める低遅延かつ広帯域を実現できるレベルに達してきている。

 米Broadcomが22年に発表した「Tomahawk 5」チップは、1チップで51.2テラbpsという広帯域を実現した。前モデルの約2倍の帯域に広げている。次世代型の半導体を採用したことで、レイテンシは800ナノ秒から200ナノ秒に短縮している。

 Tomahawkは汎用(はんよう)的なイーサネットチップであり、採用しているベンダーも多いためベンダーロックを避けられる。またイーサネット規格のAI活用を推進する団体「Ultra Ethernet Consortium」が積極的な活動を展開しており、イーサネットの弱点をカバーする新技術の開発が進んでいる。汎用チップなので調達性に優れており、総所有コストもInfiniBandの約3分の1に抑えられると佐々木氏は見込む。

 「Tomahawk 5を搭載したデル・テクノロジーズのイーサネットスイッチ『PowerSwitch』は、400ギガビットイーサネットから800ギガビットイーサネットの世界に突入しようとしています。当社のAI×イーサネット技術とTomahawk 5を組み合わせて、輻輳(ふくそう)処理やフロー制御といった生成AIのネットワークインフラに必要な技術を盛り込んでいます。このパワーと機能があれば、生成AIを十分に支えられるネットワークを構築可能です」(佐々木氏)

ネットワークOSが進化 InfiniBand級の低遅延・広帯域の実現へ

 ネットワークを考える上で、それを制御するOSも無視できない。デル・テクノロジーズのネットワークOS「Enterprise SONiC Distribution by Dell Technologies」(以下、Enterprise SONiC)も大きく進化している。注目すべきは、InfiniBandで使われているネットワーク高速化技術「RDMA(Remote Direct Memory Access)」をイーサネットで実現できるプロトコル「RoCEv2」をサポートしている点だ。

 RDMAは、複数のサーバのメモリを直接つないでデータ転送を高速化する仕組みだ。これをイーサネットに取り入れることで、InfiniBand級の低遅延かつ広帯域のネットワークを構築できる。RDMAを超える高速かつセキュアな伝送技術の開発も進んでおり、さらなる進化が期待できる。

 Enterprise SONiCは高速なカットスルースイッチングや効率的なロードバランシング機能など、生成AI用のインフラを支える機能も備えている。GPUファブリックに必要なパフォーマンスと機能性を実現できるネットワークOSだ。

 「生成AIを支えるインフラとして、運用管理やオブザーバビリティーの機能にも注目してください。エコパートナーである米Augtera Networksが提供するAI技術を応用した運用監視ツールはネットワークの混雑状態をモニタリングして速やかな解消を支援します。米BeyondEdgeが手掛ける、GPUファブリックの構成を最適化するオーケストレーターも有用です。さまざまなツールを組み合わせて利用できるエコシステムが、Enterprise SONiCの価値です」(佐々木氏)

 こうした機能はすでにデル・テクノロジーズのネットワーク機器として提供されている。800ギガビットイーサネットの超高速かつ高密度のイーサネットスイッチも近く発表される予定だ。

photo Enterprise SONiCの特徴(提供:デル・テクノロジーズ)

ハードウェア、ソフトウェア、コンサルティングを網羅
デルの総合力で「AI活用の成功」を支援

 「デル・テクノロジーズはネットワークだけでなく、生成AIのコンピューティングリソースにも注力しています。貴重な情報資産や技術を保護するセキュリティソリューションも提供しており、ユーザーのニーズに適した環境を整えられる『総合力』が当社の強みです」(岩辺氏)

 AIを巡る技術は日進月歩で進化中だ。コンピューティングシステムは、巨大なスパコンから小規模なHPCへ、さらに手のひらに載るGPUボードへと小型化している。ネットワークも同様の手頃感で多様なプレイヤーを支えられる仕組みに変わってきた。いまや生成AIは、特別な企業だけが取り組むものではなく一般的な企業も自社ビジネスの一環として積極的に参入できる技術になりつつある。

 こうした状況を踏まえて、デル・テクノロジーズはハードウェアの提供だけでなく生成AIをどう活用するか、導入をどう成功させるかといったビジネス課題の解決を支援するコンサルティングサービスも手掛けている。

 「当社は、次世代イーサネットファブリックを提供できます。自社に適した生成AIのインフラ環境とビジネス戦略を、私たちと一緒に作り上げましょう」(岩辺氏)

 生成AIをビジネスに取り込みたいが、システムの構築に課題を抱えている企業はデル・テクノロジーズに相談してみてはいかがだろうか。GPUサーバからネットワーク、コンサルティングまで一気通貫で支援してくれるはずだ。

QUOカードPay3000円分が当たる!アンケート実施中 <アンケートは終了しました>


「生成AI開発基盤」に関するアンケートを実施中です。
アンケートにご回答いただいた方の中から、抽選で10名様にQUOカードPay3000円分をプレゼントいたします。「アンケートはこちら」ボタンから、ぜひご回答ください。

※賞品(QUOカードPay)の発送をもって発表にかえさせていただきます。


「Dell de AI(でるであい)」からのおすすめ記事一覧

Dell de AI(でるであい)とは──


dell-deai

「AIをビジネスで活用する」──そう言い表すのは簡単です。しかし、組織にとって本当に価値のあるアクションへ落とし込むには、考えるべきことがあまりに多すぎます。誰に相談すればいいのか、どうすれば成果を生み出せるのか。「Dell de AI “デル邂逅(であい)”」は、そんな悩みを持つ企業や組織にポジティブな出会いや思いもよらぬうれしい発見──「Serendipity(セレンディピティ)」が生まれることを目指した情報発信ポータルhttps://www.itmedia.co.jp/news/special/bz211007/です。


【関連記事】生成AIを支えるIT環境のポイント


企業は生成AIのビジネス活用をどう考えるべきか 生成AI開発基盤を提供するデルの取り組み(ITmedia PC USERに移動)


「DXを実現する最後の機会」 生成AIは日本企業の“危機”をどう救う? “いま知りたい”活用ポイントを徹底解説


Copyright © ITmedia, Inc. All Rights Reserved.


提供:デル・テクノロジーズ株式会社
アイティメディア営業企画/制作:ITmedia NEWS編集部/掲載内容有効期限:2024年4月16日

QUOカードPay3000円分が当たる!

「生成AI開発基盤」に関するアンケートを実施中です。アンケートにご回答いただいた方の中から、抽選で10名様にQUOカードPay3000円分をプレゼントいたします。<アンケートは終了しました>

関連リンク

「Dell de AI “デル邂逅(であい)”」は、AIのビジネス活用に悩む企業や組織にポジティブな出会いや思いもよらぬうれしい発見──「Serendipity(セレンディピティ)」が生まれることを目指した情報発信ポータルです。