生成AIによる業務効率化が進む中、「チャット」が適切なUIとは限らないと専門家は指摘する。富士通がNVIDIAやGoogle Cloudと挑む、AIエージェントの次世代インタフェースとはどのようなものか。
この記事は会員限定です。会員登録すると全てご覧いただけます。
大企業を中心に生成AIによる業務の効率化が進み、多くの企業がチャット型インタフェースを通じてAIエージェントの活用を模索している。一方で、複雑なコア業務や対面での会話など、チャットでAIに指示するのが難しい場面もある。こうした課題を解決する目的で、富士通はNVIDIA、Google Cloudと協業し、AIエージェント時代の次世代インタフェース「デジタルヒューマン」の開発を進めている。
Google Cloudが開催した「Google Cloud AI Agent Summit ’25 Fall」に登壇した富士通の中田和希氏(AI戦略・ビジネス開発本部 シニアマネージャー)が、その戦略と可能性について語った。
中田氏はまず、「AGENT for AI Agents」をコンセプトに掲げる、富士通のデータ・AI戦略について解説した。
「富士通は、データやAIの主権はお客さまにあるという前提の下、コストや精度、セキュリティの観点で最適なソリューションを中立的に選択する立場を目指しています。また、単なるPoC(概念実証)で終わらせず、AIをいかに業務に根付かせるかを重視します。AIの価値を最大化するために、業務アプリケーションとして組み込むことをモットーとしています」(中田氏)
AIエージェントの活用は一般的に、全体像を捉え、コンセプトを作成してPoC(概念実証)を実施してから運用のフェーズに入る。しかし多くの場合、業務におけるAIエージェントの具体的な活用法の理解が不十分だという。
「まず実験し、実験で見えてきた課題やナレッジを活用しながら、業務のどの部分にAIを組み込めば成果を上げられるかを再検討し、アーキテクチャを考えながら構築する必要があります」(中田氏)
富士通は、2025年8月に開催された「Google Cloud Next Tokyo」で、Google Cloudの企業向け生成AIサービス「Gemini Enterprise」のPoCを希望するユーザーを募った。2カ月で製造や金融、小売等の業種の5社、10のユースケースで検証し、中には90%以上の業務効率化が見込まれるケースもあったという。
富士通は『Uvance』というブランドで『Business Impact』(貨幣的価値)と『Social Impact』(社会的価値)の2軸を重視した事業を展開している。それらの事業を展開する上で同社が重視しているのが、「Beyond Chat」という考え方だ。既に大企業を中心とした多くの企業で生成AIが使われ、チャットのインタフェースを通じたAIエージェントの活用が模索されている。しかし、製造業におけるサプライチェーン業務などの複雑なコア業務では、さまざまな情報をチャットでAIに伝える方法が最適とは限らない。今後、業務にAIを組み込むフェーズでは、「AIエージェントをどのようなインタフェースで使うか」が重要になってくる。
中田氏は、業務によってインプットの多様性やアウトプットの精度、意思決定のインパクトや利用環境が異なり、それぞれのケースに応じて「チャットか、ボタンか、カンバンか」「能動的か受動的か」「承認フローが必要か」などを決める必要があると指摘する。
中田氏は一例として、富士通が製造業のサプライチェーン業務向けに開発しているAIエージェントのアプリケーションを紹介し、次のように解説した。
「製造業のサプライチェーン業務、例えば在庫枯渇や過剰在庫に対応するといった業務は、インプットがほぼ固定されるため、インタフェースがチャットである必要はありません。この場合、AIエージェントがレコメンドする対処法とその根拠になるデータが自動で表示され、人が確認して承認すれば、業務が完了するようなインタフェースが適していると考えます」(中田氏)
AIエージェントをどのようなインタフェースで提供すべきか、という問いに対する一つの答えが、富士通がNVIDIA、Google Cloudと協業して開発する「デジタルヒューマン」だ。人と人が関わる業務、特に対面で会話をする業務に活用できる、と中田氏は強調する。
デジタルヒューマンは多言語の音声で会話できるAIアバターだ。銀行や病院、駅など多言語対応が求められる窓口業務、ショールームでの案内業務が活用シーンとして考えられる。アバターに特定の役割を与えて「社外取締役AI」や「社長AI」として振る舞わせたり、自社商品の仮想顧客として会話させることも可能だ。
「デジタルヒューマンの活用メリットは、人手不足の解消やユーザー体験の向上です。教育コストを削減しつつ、多言語でのデータ検索や対応が可能なため、人口減少やグローバル化といった社会課題の解決につながります。人が知覚できる情報量は視覚からの情報が55%、聴覚からの情報が38%とされており、チャットではなく視覚と聴覚に訴えかける対話形式にすることで、体験価値の向上が期待できます」(中田氏)
デジタルヒューマンは、既に医療業界でPoCを実施済みだ。病院での問診や医師・看護師の診療科判断のサポートといった専門性の高い業務に適用され、反響を呼んでいる。特に複数の病院から、「2025年度中にPoCを完了したい」という早期導入に向けた強い要望が寄せられており、実用化への期待が高まっている。
デジタルヒューマンは、富士通がこれまでの事業で培ってきた「ドメイン知識」、NVIDIAの「AIマイクロサービスとアバター技術」、Google Cloudの「高性能な大規模言語モデル(LLM)とAIエージェント基盤」といった、3社が持つ専門性を組み合わせて実現された。
富士通は、顧客向けの基幹システム構築などで培った、業務に関する深い知見を生かし、プロンプトや業務ロジックの設計を担う。NVIDIAは、AIコンポーネントのマイクロサービス「NVIDIA NIM」や、アプリケーションテンプレート群「NIM Agent Blueprint」、リアルタイムレンダリング技術「NVIDIA Omniverse」など、アバターを動かすためのコア技術を提供している。Google CloudはLLM「Gemini」の提供に加え、「Vertex AI Agent Builder」など、AIエージェントを構築し管理する機能を担当する。
デジタルヒューマンは、NVIDIAのAIブループリント「Tokkio」をベースに、Google CloudでKubernetesを使って動く構成になっている。音声変換やアバターレンダリング、AIエージェント(LLM+データベース/ツール)の3つのコンポーネントで構成されており、容易にカスタマイズできる点が特徴だ。
最後に中田氏は、デジタルヒューマンの今後の展開について次のように語った。
「現在、社内外の技術を集約したAI共通基盤をGoogle Cloudに構築しています。これによって、デジタルヒューマンも因果推論などの高度な機能を利用できるようになり、会話の因果関係を加味した回答を得られるようになると考えています。クラウドにアップロードすることが難しい個人情報などを扱うケースに対応するため、ローカルで使えるGoogleのLLM『Gemma』や、Google Cloudの機能をオンプレミスにデプロイできる『Google Distributed Cloud』を組み合わせ、最適な環境で最適なAIを提供できる体制の構築を目指します」
「2026年に取りたいIT資格」1位は“あのベンダー資格” 読者調査で読み解くトレンド
「コーディングはAI任せ」でエンジニアは何をする? AWSが示す、開発の新たな“主戦場”
“AIエージェントの次”のトレンドは何か Gartnerが描く未来志向型インフラのハイプ・サイクルCopyright © ITmedia, Inc. All Rights Reserved.