GPUが宝の持ち腐れに? オンプレミスAIインフラ構築で陥るストレージの盲点

AIインフラのオンプレミス化が進んでいるが、GPU性能を阻むストレージの盲点が存在する。SB C&SとDDNが検証拠点の知見から導き出した、性能を最大化するAIインフラの「現実解」を探る。

PR/ITmedia
» 2026年02月06日 10時00分 公開
PR

 生成AIの活用に伴い、セキュリティ対策やコストの観点からオンプレミスでAIインフラを保有する企業が増えている。クラウドへのデータ配置に伴うリスクを避けて、高価になりやすい従量課金を抑えることが狙いだ。

 しかし、いざ構築してみると想定した性能を確保できず、十分な費用対効果を得られないケースは多い。GPUのスペック不足が原因だと誤認されがちだが、学習、RAG(検索拡張生成)などデータアクセスが支配的な処理は、ストレージがGPU稼働率を左右しやすい。

 この盲点について、AIワークロードに必要な環境が整う「C&S AI INNOVATION FACTORY」でストレージの検証作業を担うSB C&Sの間山翔宇氏と、AIやHPC向けの高性能ストレージ製品を展開しているデータダイレクト・ネットワークス・ジャパンの福井秀明氏に聞いた。

GPUサーバしか見ずに設計すると思わぬ落とし穴に

──生成AI活用の最新事情について、どのように捉えていますか。

※以下、敬称略。

間山: 生成AIの活用をさらに加速させるニーズが高まっています。しかし、クラウドのAIサービスはクラウドにデータを預けなくてはならず、漏えいリスクがどうしても付いて回ります。利用状況によってランニングコストが高額になるケースもありますね。こうしたリスクを回避してより高度なAI活用を実現するための手段として、オンプレミスでAIインフラを構築する動きが広がっています。

 こうしたニーズを踏まえて当社は、パートナーやお客さまがオンプレミスのAIインフラ構築を検討する際に事前検証できる「C&S AI INNOVATION FACTORY」を2025年7月に立ち上げました。NVIDIAのGPUサーバやネットワーク製品、データダイレクト・ネットワークス(以下、DDN)のストレージ製品を組み合わせて、お客さまの環境やニーズに適したAIインフラを組んで、機能や性能を検証できます。

photo SB C&Sの間山翔宇氏(ICT事業本部 技術本部 技術統括部 第2技術部 1課)

──オンプレミスでAIインフラを構築する場合、どのような課題が多いですか。

間山: 最も多いのは、GPUサーバの性能のみを重視した設計です。高性能なGPUサーバを導入したものの、ストレージが従来型でネットワークも旧来の10ギガビット・イーサネット(10GbE)のままでは、ストレージのI/O性能やネットワークの伝送性能がボトルネックとなってGPUに多くの待ち時間が発生します。これではGPUサーバの性能を生かし切れず、システム全体の性能も頭打ちになります。

福井: GPUサーバ1台でNVMe対応SSDにデータを保管しておけば、そうした問題は起きません。しかし、GPUサーバを増やしストレージネットワーク経由でストレージを共有した途端に、問題が顕在化するケースが多いですね。こうした事態を見越してGPUサーバとネットワーク、ストレージを三位一体で設計する必要があり、「GPUサーバをどうやって調達するか」というレベルから、「社内にAIインフラをどのように構築するか」という設計のフェーズに入ってきたと感じています。

AIインフラに最適なストレージ「EXAScaler」

──DDNのEXAScalerはそれらを解決できるストレージ製品として、「C&S AI INNOVATION FACTORY」でも採用されていますね。

福井: はい。EXAScalerはHPC分野で以前から広く採用されているオープンソースの並列分散ファイルシステム「Lustre」をベースにしたソフトウェアです。当社は管理機能、サポートサービスと共に専用ハードウェアにセットアップしたアプライアンス製品として提供しています。EXAScaler は並列分散処理方式を採用しており、大量データの高速なI/O処理やメタデータ処理が可能で、HPCシミュレーションといった大規模処理やAIクラスタ上のトレーニング分野で数多くの運用実績を持っています。

 EXAScaler はLustreをパッケージングしているだけでなく、AIやHPCの用途を前提とした独自のマルチテナント運用やクライアントサイドのSSDリードキャッシュ、Amazon S3準拠のインタフェースといった機能も備えています。当社がサポートする商用ディストリビューションなので、オープンソースに付き物の安定性やサポートに関する課題もクリアしています。

photo データダイレクト・ネットワークス・ジャパンの福井秀明氏(T3S, Pre-Sales, Professional Media and Content, Systems Engineer)

──なぜ「C&S AI INNOVATION FACTORY」でEXAScalerを採用したのでしょうか。

間山: HPCの分野で定評のある製品だったことに加えて、NVIDIAがレファレンスアーキテクチャとして提唱している「NVIDIA DGX BasePOD」「NVIDIA DGX SuperPOD」の認証も取得しており、NVIDIAのGPUサーバやネットワーク製品との親和性の高さが決め手になりました。「C&S AI INNOVATION FACTORY」ではInfiniBandはもちろんのこと、イーサネット上でRDMAを実現する RoCEv2 にも対応しています。必要に応じて GPUDirect RDMA などと組み合わせてGPUメモリへ直接アクセスできる構成もサポートしており、EXAScalerは両方をサポートするストレージであることも決定打でした。

 DDNのエンジニアが非常に高い技術力を持っている点も大きかったですね。私はLustreに触れた経験がなくて当初は分からないことが多かったですが、エンジニアの皆さんに日本語で親身に相談に乗っていただいて大変助かりました。

福井: 当社はお客さまの要件に丁寧に寄り添った支援を心掛けており、容量、性能、コストのバランスを十分に考慮した最適な構成をご提案しています。標準機能のみで要件を満たせない場合は、個別開発による対応や運用面を含めたワークアラウンドのご提案も可能です。導入後の運用を円滑に進めていただけるよう、お客さまの環境や運用条件に即したマニュアルや各種資料も提供しています。

高性能ストレージでAIインフラの高い性能と拡張性を担保

──「C&S AI INNOVATION FACTORY」は現在、どのような構成でEXAScalerを稼働させていますか。

間山: NVIDIAのGPUノード群とEXAScalerをInfiniBandおよびRoCEv2で接続し、AIの学習や推論、RAGなどのワークロードを同一基盤上で動かせる構成にしています。現時点は大規模学習ジョブよりも推論やRAG構成の検証に重きを置いているので、EXAScalerも学習専用ストレージというよりは学習、推論、RAGをまたいだAIインフラ全体のデータ基盤として活用しています。

──EXAScalerを採用する価値やメリットについて教えてください。

福井: AIインフラは、学習、推論のためのデータをいかに高速でGPUに供給できるかによって、処理時間やGPU稼働率が大きく左右されます。そのため多数のSSDを並べて高速なI/O帯域を確保する構成が一般的ですが、メタデータ処理がボトルネックとなり、SSDの性能を生かし切れません。

 EXAScalerはメタデータ処理とデータI/O処理を別々のサーバで実行するアーキテクチャを採用しており、メタデータ処理を複数ノードに分散させることで並列アクセス時のボトルネックを抑制しています。高並列I/Oを前提とした設計でデータ読み込みやチェックポイント保存が高速化することで、前処理や評価を含むAIパイプライン全体の処理時間(Time-to-Insight)も短縮します。これによって大規模なAI検証環境でもSSDの性能を無駄なく発揮でき、本番環境を見据えた信頼性の高い性能評価が可能です。

間山: 「C&S AI INNOVATION FACTORY」のようにお客さまごとに検証テーマが変わる環境では、キャパシティーの拡張性がポイントです。Lustreアーキテクチャを採用しているEXAScalerは、メタデータサーバ(MDS/MDT)とデータを保持するオブジェクトストレージサーバ (OSS/OST)を分けて設計できるため、検証に応じて「まずは少ないノード数から始めて、性能や容量が足りなくなったらノードを追加する」という段階的なスケールアウトがしやすい構成になっています。多様なワークロードの負荷に応じて、無理なくストレージ側のリソース配分を調整できます。

──利用者からはどのような反響がありますか。

間山: ハンズオントレーニングを定期的に開催しており、大半のお客さまはそこでEXAScalerやLustreに初めて触れます。「扱いにくいものだと思っていたが、普通のファイルシステムと同じ感覚で使える」「運用できそうな手応えをつかめた」という声を多く頂いています。

EXAScalerとNVIDIA製品を組み合わせて価値を追求

──今後はどのようにEXAScalerを活用したいとお考えですか。

間山: EXAScalerをストレージとしてだけではなく、AIインフラ全体のオブザーバビリティーや自動化の仕組みとしても活用したいと考えています。GPU利用率やネットワーク帯域、ストレージI/Oを可視化するモニタリング基盤と連携させ、ボトルネック分析やキャパシティープランニングに生かす予定です。クライアント側キャッシュや階層ストレージの機能も活用し、RAGや推論処理におけるレスポンス改善の効果も検証します。

 Kubernetes環境からEXAScalerを利用する構成や、AIパイプライン全体のオーケストレーションとの統合など、「クラウドネイティブなAIインフラ」の実現に向けた検証も進めます。これらを通じて、得られた知見をそのままお客さまの本番環境に持ち込めるような実践的なレファレンスを増やしたいですね。

──SB C&SとDDNが協業することで、どのような価値を提供したいですか。

福井: これまで当社はSIerのパートナーと協働してきましたが、SB C&Sとの連携で初めてディストリビューターとのパートナーシップを組みました。より広範なエコシステムを介してSB C&S、NVIDIAと共に、さらに多くのお客さまに価値の高いAIソリューションを提供できるのではと期待しています。

間山: LustreやEXAScalerは適切な設計とチューニングが必要なので、DDNの高い技術力とノウハウをお借りしてパートナーやお客さまに知見を還元したいと考えています。「C&S AI INNOVATION FACTORY」をハブとして、DDN、NVIDIAとの共創を加速させ、AIインフラの「現実解」となり得る標準モデルづくりを目指します。

photo

Copyright © ITmedia, Inc. All Rights Reserved.


提供:SB C&S株式会社、株式会社データダイレクト・ネットワークス・ジャパン
アイティメディア営業企画/制作:ITmedia AI+編集部/掲載内容有効期限:2026年3月5日