「最初は壊れ過ぎてビビった」──1220億円投じたソフトバンク「AIスパコン」、それでもNVIDIAのGPUを選ぶワケ

» 2026年06月24日 07時00分 公開
[荒岡瑛一郎ITmedia]

 半導体メーカーの米NVIDIAが、AIブームをけん引している。AIの学習・推論に有効な「GPU」(画像処理半導体)で、旺盛なAI需要を取り込んだ。時価総額ランキングで世界1位に躍り出るなど、名実ともに“AI時代の主役”になった。

 しかし、なぜ「AIインフラといえばNVIDIA」なのか。当然ながら「GPUの処理性能が高い」という理由はあるだろうが、性能だけを比べたら競合メーカーも負けてはいない。NVIDIAがここまで支持される理由は何か。

 ソフトバンクが1万基以上のGPUを集めて作った「AI計算基盤群」の構築メンバーに、この疑問をぶつけてみた。

関連記事:情シスが「日本1位のAIスパコン」作るまで 猶予は4カ月、ソフトバンク“社長プロジェクト”の舞台裏

1220億円を投じたAI計算基盤群 AI処理性能で国内1位に

 ソフトバンクは「生成AIが産業競争や社会インフラを左右する重要技術になる」(同社広報担当)という認識の下、AI計算基盤の開発に取り組んでいる。累計投資額は1220億円に上る(補助金控除後、2026年3月時点)。

 同基盤の構築には、GPUやストレージ、管理ソフトウェアなどの各種インフラを統合したプラットフォーム「NVIDIA DGX SuperPOD」を利用。2025年に構築した「CHIE-4」は、スーパーコンピュータのAI処理性能を測る指標で国内1位に輝いた

 これまでに構築したAI計算基盤と、そこに搭載されているGPUは以下の通りだ。

AI計算基盤 GPUの数 導入したGPU 稼働開始(リンク先はプレスリリース)
第1世代 2000基以上 NVIDIA Ampere GPU(A100) 2023年10月
第2世代「CHIE-2」 4000基以上 NVIDIA Hopper GPU(H100) 2024年10月
第3世代「CHIE-3」 - NVIDIA Hopper GPU(H100) 2024年
第4世代「CHIE-4」 4000基以上 NVIDIA Blackwell GPU(B200) 2025年7月
液冷式のAI計算基盤 1224基 NVIDIA Blackwell GPU 2025年12月
photo 国内1位に輝いた、ソフトバンクのAI計算基盤CHIE-4(提供:ソフトバンク)

NVIDIAのAIインフラを「選んだ理由はここにある」

 AI計算基盤の構築に第1世代から携わる同社の種邑宏平さん(AI&HPCインフラ統括部 統括部長)は、NVIDIAのAIシステムを採用した理由を次のように説明した。

 「(AI計算基盤を使うユーザー側の要望もあるが)『構築時の最新GPUを使えるか』『GPUの性能を最大まで使えるか』『決められた期限内に安定稼働させられるか』といった点が重要でした。NVIDIA DGX SuperPODを選んだ理由は、ここにあります」

 種邑さんによると第1世代を構築した2023年当時、米AMDなどのベンダーが提供するAIシステムは、大規模な計算基盤として検証されていなかったという。一方のNVIDIA製システムは、スパコン世界ランキング「TOP500」の上位に入る多くのコンピュータに搭載されているなど実績があった。

 AIシステムとして完成されている点も、NVIDIAの強みだ。GPUの性能を引き出せるAIサーバ「DGXシリーズ」、大容量データを高速に伝送できるネットワーク機器、AIモデルの学習・推論に必要なソフトウェアをセットにした「NVIDIA AI Enterprise」などを一体的に導入することで、高性能なAIシステムを素早く構築できるとされる。

photo ソフトバンクの種邑宏平さん(共通プラットフォーム開発本部 AI&HPCインフラ統括部 統括部長)(編集部撮影)

GPU巡るトラブルも 壊れ過ぎて「みんなビビった」

 AI計算基盤の構築時、GPUを巡ってさまざまな苦労があったという。その一つが、GPUが頻繁に故障したことだ。AI処理は、GPUにかかる負荷が高いため故障しやすいという難点があるのだ。

 「AI用のGPUは、従来のITインフラで使っていたサーバなどよりも故障が多い。AI計算基盤を作り、性能試験をして安定稼働させるまでにGPUがどんどん壊れました。こんなに壊れると知らないため、みんなビビりました」(種邑さん)

 第2世代以降の構築プロジェクトに参画し、サーバ関連を担当したソフトバンクの横山哲雄さん(AIクラウド開発部 部長)もGPUの故障問題に頭を悩ませたという。

 「GPUは希少で国内の在庫が少ないため、かき集めて、順次修理をしました。他のIT製品にはない独特な苦労でした」(横山さん)

photo ソフトバンクの横山哲雄さん(共通プラットフォーム開発本部 AI&HPCインフラ統括部 AIクラウド開発部 部長)(編集部撮影)

 ソフトバンクはGPUの故障問題に向き合いながら、AI計算基盤の性能をアップグレードしてきた。現在はAI計算基盤群をクラウドサービスとして他社に貸し出し、企業のAI開発を後押しする。

 国内屈指のAIインフラを運用する同社は、日本の“AI変革”を加速させられるか。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

SaaS最新情報 by ITセレクトPR
あなたにおすすめの記事PR