AIのコストが経営テーマに　NVIDIAが狙う“推論の王国”と継続課金型の帝国

米NVIDIAが推論の王国を拡大している。推論とは、学習済みのAIが実際に動き、利用者の質問に答えたり、企業の業務を処理したりする段階を指す。つまり、企業が日常的にお金を払いながら使うAIである。

[湯川鶴章、エクサウィザーズ AI新聞編集長] PC用表示関連情報

LINE

Hatena

　米SemiAnalysis（セミアナリシス）は3月24日「Nvidia - The Inference Kingdom Expands」と題したレポートを公開した。米NVIDIAが推論の王国を拡大しているという意味だ。

　ここでいう推論とは、学習済みのAIが実際に動き、利用者の質問に答えたり、企業の業務を処理したりする段階を指す。つまり、企業が日常的にお金を払いながら使うAIである。

　SemiAnalysisは、米NVIDIAが今、この推論市場の覇権争いに王手をかけた状態だとみているようだ。

米NVIDIAが今、推論市場の覇権争いに王手をかけた（写真撮影：河嶌太郎）

AIをどれだけ安く、速く、大量に動かせるか　AIのコストが経営テーマに

　これまでAI業界では、どれだけ高性能なモデルを学習できるかが最大の関心事だった。そのため、巨大な学習を支える半導体が主役となり、米NVIDIAはその中心に立ってきた。

　だが、AIが企業システムや現場業務に本格的に入り込むにつれて、勝負の軸は変わりつつある。これから重要になるのは推論の領域、つまりAIをどれだけ安く、どれだけ速く、どれだけ大量に動かせるかという点だ。SemiAnalysisのレポートは、NVIDIAの最近の発表を追いながら、AIの主戦場が移動していることを解説している。

　背景にあるのは、推論の計算量の急増だ。企業のAI利用は、単純な質疑応答からAIエージェントの利用へと移行している。AIエージェントは、長い資料を読んだり、大量のコードを処理したりと、複数の手順を踏んで作業を進める。

　NVIDIA自身も、長い文脈を扱う対話や、複数段階で考えながら動くエージェント型AIの需要が強く伸びていると説明している。AIが仕事の現場に深く入るほど、1回の利用で必要になる計算量も増え、月間の利用回数も膨れ上がる。AIのコストが経営テーマになってきたのはそのためだ。

1トークンの「製造原価」を巡る戦い　問われるのは賢さより経済性

　ここで重要になるのが、1トークンをいくらで生成できるかという発想である。

　トークンはAIが文章を処理したり生成したりする際の最小単位で、要するにAIの返答にかかる原価に近い。

　今後のAIビジネスでは、モデルの賢さだけではなく、その原価をどこまで下げられるかが極めて重要になる。しかも、ただ安いだけでは足りない。応答が遅ければ使い物にならず、同時に大量処理できなければ企業向けサービスとして成立しない。SemiAnalysisは、これからのAI市場では、コスト、処理量、応答速度の3つをそろえた企業が勝つ構図になっていくと指摘する。

　SemiAnalysisによると、NVIDIAは、最新GPUだけでなく、それらを高速につなぐ接続技術、AIを効率よく動かすソフトウェア、さらにデータセンター全体の設計まで含めて、一気通貫で提供し始めている。

　同社は3月の技術ブログで、次世代のAI基盤を一つの巨大なAIスーパーコンピューターとして説明した。部品を個別に売るのではなく、AI工場そのものを丸ごと設計して供給する発想である。SemiAnalysisも、NVIDIAが推論向けの新しいラック構成や、長文処理を支える周辺基盤まで含めて押さえにきている点を重視している。

　NVIDIAが仕掛ける圧倒的なコスト破壊の「具体数値」と、需要が減るどころか増え続ける「逆説の理論」はこの先にある。

「ジェボンズのパラドックス」の衝撃　効率化がさらなる需要を呼び込む

　NVIDIAは公式ブログで、次世代システム「GB300 NVL72」が旧世代と比べて電力あたりで最大50倍高い処理性能を実現し、低遅延用途ではトークン生成コストを最大35分の1に抑えられると説明している。

　もちろん、こうした数字には条件がつくため額面通りには見られない。だが少なくとも明らかなのは、NVIDIAが勝負の軸をモデル性能の一点に置いているのではなく、AIをどれだけ安く速く回せるかという経済性の争いに移していることだ。

　SemiAnalysisによると、この市場は一度勝つと有利になり、その後も勝ち続ける可能性があるという。学習は巨額投資ではあるが、ある意味では大きな初期投資に近い。

　一方、推論はAIが使われるたびに毎回、売り上げが発生する継続収益型の事業になりやすい上、最適化が難しい。半導体だけでなく、接続、ソフトウェア、記憶装置、データセンター運用まで全体がかみ合わなければ、十分なコスト低下も速度改善も実現できない。だから参入障壁が高く、一度優位を築けば長く支配しやすい。

学習の覇者が狙う「真の金脈」　使われるたびにお金が落ちる構造

　さらに見逃せないのは、推論コストが下がるほど需要はむしろ膨らみやすいことだ。経済学でよく言われる「ジェボンズのパラドックス」によると、資源の利用効率が上がると消費が減るのではなく、逆に利用量が増えることがある。AIでもこれと同じことが起きる可能性が高いとSemiAnalysisは指摘する。

　NVIDIAが低遅延、長文対応、AIエージェントを繰り返し強調しているのは、その先に最も大きな需要拡大があると見ているからだろう。

　NVIDIAは学習用半導体で今もうすでにAI業界の主要プレーヤーである。だが、同社がその先で築こうとしているのは、もっと大きな帝国だ。AIを作る市場ではなく、AIを毎日回し続ける市場である。しかもそこは、使われるたびにお金が落ちる。

　SemiAnalysisのレポートが示しているのは、NVIDIAがAI時代の本当の金脈を見つけ、その支配権を握ろうとしているということだ。学習で勝った企業が、今度は推論でも勝とうとしている。今回のNVIDIAの年次イベント「GTC 2026」は、その野心をかなりはっきり示した場だったと言えそうだ。

NVIDIAがAI時代の本当の金脈を見つけ、その支配権を握ろうとしている（写真提供：ゲッティイメージズ）

本記事は、エクサウィザーズが法人向けChatGPT「exaBase 生成AI」の利用者向けに提供しているAI新聞「NVIDIAの推論王国拡大中　SemiAnalysisのレポートから」（2026年3月29日掲載）を、ITmedia ビジネスオンライン編集部で一部編集の上、転載したものです。

著者プロフィール

湯川鶴章

AIスタートアップのエクサウィザーズ AI新聞編集長。米カリフォルニア州立大学サンフランシスコ校経済学部卒業。サンフランシスコの地元紙記者を経て、時事通信社米国法人に入社。シリコンバレーの黎明期から米国のハイテク産業を中心に取材を続ける。通算20年間の米国生活を終え2000年5月に帰国。時事通信編集委員を経て2010年独立。17年12月から現職。主な著書に『人工知能、ロボット、人の心。』（15年）、『次世代マーケティングプラットフォーム』（07年）、『ネットは新聞を殺すのか』（03年）などがある。

AIのコストが経営テーマに NVIDIAが狙う“推論の王国”と継続課金型の帝国

AIをどれだけ安く、速く、大量に動かせるか AIのコストが経営テーマに

1トークンの「製造原価」を巡る戦い 問われるのは賢さより経済性

「ジェボンズのパラドックス」の衝撃 効率化がさらなる需要を呼び込む

学習の覇者が狙う「真の金脈」 使われるたびにお金が落ちる構造