Google、音声モデル「Gemini 3.1 Flash Live」公開　感情に合わせて自然な対話を実現

公開 2026年03月27日 09時13分

更新 2026年03月27日 13時07分

[ITmedia]

印刷する

　米Googleは3月26日（現地時間）、「Gemini」のリアルタイム対話機能を強化する「Gemini 3.1 Flash Live」を発表した。「Gemini 3 Pro」をベースとしたネイティブなマルチモーダル推論モデルだ。最大128K（12万8000）トークンのコンテキストウィンドウを備え、音声、画像、動画、テキストを処理して自然で人間らしい音声やテキストを出力する。

（画像：Google）

　一般ユーザーは、日本を含む200以上の国と地域に拡大された「Search Live」（日本では「検索Live」）や「Gemini Live」を通じて利用できる。また、開発者向けには「Google AI Studio」の「Gemini Live API」（プレビュー版）として、企業向けには「Gemini Enterprise for Customer Experience」として提供されており、「Geminiアプリ」や「NotebookLM」など複数のプラットフォームでも利用可能だ。

Gemini Live

　従来のモデルとの大きな違いは、処理精度が向上し、遅延が大幅に低減したことで、より自然で滑らかなやり取りが可能になった点という。以前の「2.5 Flash Native Audio」と比較して、声の高さ（ピッチ）や話すペースなどの音響的なニュアンスを理解する能力が向上しており、ユーザーの不満や混乱などの感情表現に合わせて動的に応答を調整できるようになった。

　さらに、Gemini Liveでの応答がより高速化し、会話の文脈をこれまでの2倍長く維持できるようになったという。例えば、長時間のブレインストーミングで思考の途切れを防ぎたい時や、ノイズの多い環境下で複雑なタスクを処理する音声エージェントを構築・利用する時、また、旅行の予約のように複数の手順や条件が絡む複雑な機能呼び出しを行う場面などで非常に役立つとしている。

　米Scale AIが実施した音声モデルの会話能力を評価するベンチマーク「Audio MultiChallenge」では、「thinking」機能をオンにした状態で36.1％という、競合より高いスコアを記録した。このテストは、複雑な指示に従う能力や長期的な文脈を踏まえた推論能力に加え、自己一貫性の維持、さらには現実世界の音声に特有の途切れやためらい、自然な発話の訂正といった状況下で長時間の会話を管理する能力を評価するものだ。

Audio MultiChallenge結果（画像：Google）

　安全性については、GoogleのAI原則と生成AIポリシーに準拠しており、児童の搾取、ヘイトスピーチ、危険なコンテンツの生成を防ぐため、専門チームによる厳格な評価や安全性のレビューを経て開発したとしている。また、AIによる誤情報の拡散を防止するため、Gemini 3.1 Flash Liveによって生成されたすべての音声には、人間には感知できない電子透かし「SynthID」が直接埋め込まれており、AI生成コンテンツであることを高い信頼性で検出できる仕組みを整えたと説明している。

印刷する