トークン消費の爆発をどう防ぐ？　HPEとAMDが示す「自社データセンター回帰」という現実解：「HPE Discover Las Vegas 2026」現地レポート

AIエージェントの普及に伴うトークンコストの爆発にどう挑むか。HPEの年次イベントで、ルッソCTOは外部モデル依存による隠れたコストを指摘。推論を自社データセンターへ回帰させるためのインフラ戦略を、AMDの事例とともにレポートする。

LINE

Hatena

フィデルマ・ルッソ氏（HPE提供、以下同）

　米Hewlett Packard Enterprise（HPE）は2026年6月15～18日（現地時間）、米ラスベガスで年次カンファレンス「HPE Discover 2026」を開催した。ゼネラルセッションではフィデルマ・ルッソ（Fidelma Russo）CTO（最高技術責任者）が登壇し、AIエージェント時代のインフラ戦略を軸に、データ管理からクラウド運用、レジリエンスに至る一連の新製品・新機能を発表した。

　ルッソ氏はセッションの中で、AIエージェントの普及に伴う「トークン消費コストの爆発」という課題を指摘。この隠れたコストを抑え込む現実解として、HPEの最新テクノロジー、そしてゲスト登壇したAMDの事例を交えながら、推論ワークロードを自社データセンターへ回帰させるためのインフラ戦略を打ち出した。

インテリジェンスは容易に生成　真の課題は「エージェントの調整」

　AIブームから3年半、企業にとってAI戦略は自社の存続を左右するほどの重要課題となっている。

　ルッソ氏はセッションの冒頭で、「AIが企業を変革することは間違いない。その変革をいかにセキュアに、ガバナンスを効かせながら、スケーラブルに実現するかが問われている」と述べ、技術変革の焦点が実装フェーズに移ったことを強調した。

　HPEが提唱するのは、自律型AIが各所に分散して協調する「分散型エージェンティック・エンタープライズ」（Distributed Agentic Enterprise）というモデルだ。

　従来は人間がほぼ全ての意思決定を下し、システムはその支援役にとどまっていた。しかし現在のAIは、データやアプリケーション、インテリジェンスが分散した環境において、単なる「支援役」から「自律的な実行役」へと役割がシフトしつつある。

　ルッソ氏は、従来のシステムが「静的なワークフロー」であったのに対し、これからは自ら観察し、推論し、行動するシステムに進化すると指摘。さらに、「AIによってインテリジェンスそのものが分散するようになった」と環境の変化を説明した。

　「AIはもはや単なるアプリケーションではなく仕事に組み込まれ、インテリジェンスを生成すること自体は容易になりつつある。これからの真の課題は、それらをいかに『調整（オーケストレーション）』するかだ」

　この「分散したインテリジェンスの調整」という難題に対し、HPEが新たに提示するのが「クローズドループ・オペレーション」だ。これは観察、推論、行動、検証のサイクルを自律的かつリアルタイムに回し続けるシステムを指す。従来の静的なワークフローや人手による引き継ぎを徹底して排除するのが特徴だ。

データ戦略とトークノミクス：AIの「隠れたコスト」に警鐘

　HPEの役割は、クローズドループ・オペレーションの基盤をハードウェアとソフトウェアで提供することだ。このアプローチは具体的にデータとインフラ、運用で構成される。

データ戦略とトークノミクス

　1つ目のデータについて、ルッソ氏は「AIが『人間の指示を待つツール』から『自ら考えて動くエージェント』に進化するに従って、データは単なる入力情報ではなく、オペレーショナルシステムの一部となる」と指摘した。エージェンティックAIはタスクのライフサイクル全体にわたってデータに継続的にアクセスするため、データの発見可能性とガバナンス、セキュリティが一層重要になるという。

　このデータ活用を支える基盤として発表されたのが、データ管理ソフトウェアの最新版「HPE Data Fabric 8.2」だ。今バージョンではグローバルデータカタログの強化や、導入を簡素化するターンキーデプロイメントが追加された。さらに、AIエージェントがクラウドやサードパーティーストレージを含む社内データ全体を横断して参照し、自動化されたワークフローで活用できる「エージェンティックワークロードの統合」も実現している。

　ルッソ氏はここで、「トークノミクス」（Tokenomics：トークン経済）の問題を取り上げた。

　エージェントは1回のレスポンスで終わらず、推論と検証、行動を繰り返すため、トークン消費が爆発的に増大する。「表面上はシンプルなプロンプトでも、バックエンドでは数千万回のモデルインタラクションになり得る」とルッソ氏は指摘する。ある企業では月間6000億トークンを処理して約100のコーディングエージェントを稼働させており、1エージェント当たりのコストは月約1万3000ドルに上るという。

　HPE自身の事例としてルッソ氏が紹介したのが、社内向けAIサポートプラットフォーム「Mindstone」だ。推論実行環境にはNVIDIAと共同設計したターンキーAIインフラ「HPE Private Cloud AI」を、インフラ全体の可観測性と運用管理には「HPE GreenLake Intelligence」（製品横断でAIエージェントを調整し、インフラの状態をリアルタイムで把握するインテリジェンス層）を採用した。自社インフラでAIを動かすことで顧客データのガバナンスを確保し、トークン消費コストを30倍以上削減、月間約10万ドルの節約を実現したという。

　トークンコスト削減の技術的な解として紹介されたのが、「KV（Key-Value）キャッシュ」だ。KVキャッシュはAIの推論でコンテキスト（文脈情報）を再利用するための業界標準技術だが、エージェントの処理が増えるとGPUメモリから溢れ、毎回再構築のコストが発生する。HPEはこの課題に対し、KVキャッシュをGPUメモリの外側に拡張、オフロードする仕組みを、最新のストレージ「HPE Alletra Storage MP X10000（X10K）」に実装する。

　HPE Alletra Storage X10KによるKVキャッシュオフロードの効果は、HPE ProLiantサーバ（NVIDIA H200 NVL GPU×8構成）にNVIDIA Nemotron 70Bモデルを使った検証で、初回トークン生成速度（TTFT）が最大20倍高速化したことが確認されている（HPE社内ベンチマーク）。

柔軟なハイブリッド環境を築くインフラ

　2つ目のインフラについて、ルッソ氏は「AIエージェントの影響はGPUにとどまらず、CPUやデータベース、ワークフロー全体へ波及し、需要を拡大させる」と指摘する。

　HPEはプライベートクラウドのポートフォリオを「HPE Morpheus」による共通コントロールプレーンの下で3層に再編。「HPE Private Cloud AI」の拡張に加え、「VMware」からの移行を支援する「HPE Morpheus VM Essentials Software」（以下、VM Essentials）の提供により、コスト効率の高い柔軟なハイブリッド環境を実現するという。

自律型ITオペレーションへ進化させる運用

　そして3つ目の運用において、同社が提示するのが統合運用基盤「HPE CloudOps Software Suite」だ。

　可観測性ツール「HPE OpsRamp」により、トークン消費量からモデルのレイテンシ、GPUやストレージの稼働状況まで、AIファクトリー全体をリアルタイムで相関分析できる。さらに、誤作動リスクから環境を守る「HPE Zerto」のレジリエンス機能や、ServiceNowとの連携も発表。これらは製品を横断するコパイロット層「HPE GreenLake Intelligence」と連携し、IT運用そのものをAIが自律的に判断、実行する環境へと進化させる。

AMD CIOが語る「トークン消費者からトークン生産者へ」

AMDのCIO、ハスムク・ランジャン氏

　基調講演には、VM EssentialsなどのHPE技術を導入しているAMDのハスムク・ランジャン（Hasmukh Ranjan）CIO（最高情報責任者）が登壇。自社におけるAI導入の取り組みについて説明した。

　同氏によると、AMDは自社を製品の最初の顧客である「カスタマーゼロ」と位置付け、新製品をいち早く社内で検証している。その運用実績をエンジニアリングチームへ即座にフィードバックするという緊密な連携体制を構築している。

　AI導入はイノベーションと採用、最適化の3フェーズで進めており、「チャットbotやアシストツールの段階を終え、チップ設計やサプライチェーン、四半期末決算処理といった複雑な業務ワークフローへの適用に移行しつつある」とランジャン氏は話す。4万人の従業員を巻き込む変革を最重要課題の一つと位置付け、必須・任意のトレーニングプログラムを整備しているという。

　注目すべきはインフラに関する見解だ。「全てのAIワークロードにGPUが必要という誤解がある。それは正しくない」とランジャン氏、「AMD社内では多くのAIワークロードをCPUで動かしている」と続けた。具体的な試算として、「従業員1人が週200ドルのトークンを消費すると年間1万ドル、4万人規模の企業では4億ドル、7万人規模では7億ドルの新たな支出になる――以前は存在しなかったコストだ」と述べる。

　トークンコストの解決策としてAMDが取ったのが、自社データセンターで推論を完結させる構成だ。具体的には、VM Essentialsで仮想化基盤を整え、そこにAMD EPYCサーバと新発表のMI350シリーズを組み合わせた。これにより、外部モデルにアクセスするたびにコストが発生する「トークン消費者」から、自社インフラ内でトークンを生成できる「トークン生産者」への転換が可能になる、とランジャン氏。

　ルッソ氏は最後に、HPEは「信頼できるデータ層」「エージェンティック時代のプラットフォーム」「日常業務に組み込まれたインテリジェンス」という3つのアプローチで、AI時代の企業を包括的に支援していくと語った。そして、「未来は人とAIの対立ではない。双方が協力して成果を出すことこそが、次のイノベーションの時代を切り開く鍵となる」と結んだ。

（取材協力：HPE）