メディア

NVIDIA「Rubin CPX」発表　数百万トークン規模のAIワークロードを効率的に処理：AIニュースピックアップ

NVIDIAは2025年9月10日、次世代GPU「Rubin CPX」を発表した。大規模コンテキスト処理に特化し、ソフトウェア開発支援や映像生成AIに貢献する。

» 2025年09月17日 08時00分公開

[後藤大地，有限会社オングス]

この記事は会員限定です。会員登録すると全てご覧いただけます。

　NVIDIA Japan（以下NVIDIA）は2025年9月10日、新たなGPU「NVIDIA Rubin CPX」（以下、Rubin CPX）を発表した。Rubin CPXは大規模コンテキスト処理を目的として設計されており、数百万トークン規模のソフトウェアコーディングや生成ビデオアプリケーションを効率的に処理できる性能を備えている。

次世代GPU「Rubin CPX」登場　NVIDIAが描くAI革命の未来

　Rubin CPXは「NVIDIA Vera Rubin NVL144 CPX プラットフォーム」に搭載され、「NVIDIA Vera CPU」や「Rubin GPU」と統合されている「NVIDIA MGX」システムで動作する。このシステムは8エクサフロップスのAI性能を実現し、「NVIDIA GB300 NVL72」システムと比較して7.5倍の処理能力を持つ。100TBの高速メモリと毎秒1.7PBのメモリ帯域幅を単一ラックで提供する。既存の「Vera Rubin 144」システム利用者用に専用の「Rubin CPXコンピューティングトレイ」も用意される。

　NVIDIA創業者兼CEOのジェンスン・フアン氏は、Rubin CPXについて以下のように語る。

　「次世代のRubin GPUと新しいカテゴリーであるCPXプロセッサを導入することで、AIコンピューティングを新たな段階へと押し上げる」

　同氏は、「RTX」シリーズがグラフィックスとフィジカルAIに革命をもたらしたように、Rubin CPXが大規模コンテキストAIの分野で革新的役割を果たすと説明した。

　Rubin CPXは長文処理性能に優れ、ソフトウェア開発支援AIを単純なコード生成ツールから大規模プロジェクト全体を最適化できる高度なシステムへ進化させる可能性を持つ。ビデオ処理分野において、1時間の映像に最大100万トークンを必要とする従来の制約を超え、エンコードやデコード、長文コンテキスト推論を1つのチップに統合することで、検索や高品質な生成映像処理を実現する。

　Rubin CPXはモノリシックダイ設計（複数の機能を持つ回路を1枚の集積回路上に作製する方法）を採用し、「NVFP4」（NVIDIAによる4ビット浮動小数点《FP4》の独自データ方式）に対応することで性能と効率を高めている。NVFP4精度で最大30ペタフロップスの演算能力を実現し、128GBの「GDDR7」メモリを組み合わせて負荷の高い処理を支える。従来システム比で3倍高速なアテンション機能により、長文コンテキストの処理速度を向上させている。

　構成面において、Vera Rubin NVL144 CPXを含む複数のバリエーションが提供され、「NVIDIA Quantum-X800 InfiniBand」や「Spectrum-XGS Ethernet」「ConnectX-9 SuperNIC」を備えた「Spectrum-Xネットワーキングプラットフォーム」との組み合わせが可能だ。

　AI分野の企業もRubin CPXに関心を示している。Cursorは知的なコード生成と共同作業機能を強化するために活用を検討している。Runwayは映像制作や視覚効果における効率向上を狙い、Magicはソフトウェアエンジニアリングの自動化にRubin CPXを取り込もうとしている。

　NVIDIA Rubin CPXはアクセラレーテッドインフラからエンタープライズ対応ソフトウェアまで、NVIDIA AIスタック全体によってサポートされる。「NVIDIA Dynamo」プラットフォームは、AI推論を効率的に拡張し、スループットを向上させ、応答時間とモデルの提供コストを削減する。「Nemotron」ファミリーのマルチモーダルモデルを実行可能で、「NVIDIA NIM」のマイクロサービスやライブラリ、ツールを含む「NVIDIA AI Enterprise」と統合してクラウドやデータセンター、ワークステーションに展開できる。「CUDA-X」ライブラリや開発者コミュニティーを含む既存のエコシステムも拡張される。

　Rubin CPXは2026年末に提供開始が予定されている。

富士通、1ビット量子化と特化型AI蒸留でLLMを軽量化　メモリ消費量削減しつつ精度は維持
富士通は生成AI「Takane」を軽量・省電力化する新技術を発表した。1ビット量子化と特化型AI蒸留を中核とし、GPU使用量やメモリ消費を削減しつつ高精度を維持しているという。
ハルシネーションはなぜ起きるのか　OpenAIの研究が示す「正答率信仰の罠」
OpenAIは大規模言語モデルにおける「幻覚」（ハルシネーション）問題について、学習構造と評価方法に起因することを明らかにした。推測を優先する評価体系が誤答を助長し、正答率のみを重視する現行のベンチマークでは信頼性が損なわれると指摘している。
「オンプレミス版Gemini」提供開始　KDDIが初期導入に参加
Googleが生成AI「Gemini」を、Google Cloudのオンプレミス延伸環境であるGDCでも提供する。GovTech Singaporeなどの他、日本からはKDDIが初期導入に参加する。