Google、音声モデル「Gemini 3.1 Flash Live」公開 感情に合わせて自然な対話を実現
米Googleは3月26日(現地時間)、「Gemini」のリアルタイム対話機能を強化する「Gemini 3.1 Flash Live」を発表した。「Gemini 3 Pro」をベースとしたネイティブなマルチモーダル推論モデルだ。最大128K(12万8000)トークンのコンテキストウィンドウを備え、音声、画像、動画、テキストを処理して自然で人間らしい音声やテキストを出力する。
一般ユーザーは、日本を含む200以上の国と地域に拡大された「Search Live」(日本では「検索Live」)や「Gemini Live」を通じて利用できる。また、開発者向けには「Google AI Studio」の「Gemini Live API」(プレビュー版)として、企業向けには「Gemini Enterprise for Customer Experience」として提供されており、「Geminiアプリ」や「NotebookLM」など複数のプラットフォームでも利用可能だ。
従来のモデルとの大きな違いは、処理精度が向上し、遅延が大幅に低減したことで、より自然で滑らかなやり取りが可能になった点という。以前の「2.5 Flash Native Audio」と比較して、声の高さ(ピッチ)や話すペースなどの音響的なニュアンスを理解する能力が向上しており、ユーザーの不満や混乱などの感情表現に合わせて動的に応答を調整できるようになった。
さらに、Gemini Liveでの応答がより高速化し、会話の文脈をこれまでの2倍長く維持できるようになったという。例えば、長時間のブレインストーミングで思考の途切れを防ぎたい時や、ノイズの多い環境下で複雑なタスクを処理する音声エージェントを構築・利用する時、また、旅行の予約のように複数の手順や条件が絡む複雑な機能呼び出しを行う場面などで非常に役立つとしている。
米Scale AIが実施した音声モデルの会話能力を評価するベンチマーク「Audio MultiChallenge」では、「thinking」機能をオンにした状態で36.1%という、競合より高いスコアを記録した。このテストは、複雑な指示に従う能力や長期的な文脈を踏まえた推論能力に加え、自己一貫性の維持、さらには現実世界の音声に特有の途切れやためらい、自然な発話の訂正といった状況下で長時間の会話を管理する能力を評価するものだ。
安全性については、GoogleのAI原則と生成AIポリシーに準拠しており、児童の搾取、ヘイトスピーチ、危険なコンテンツの生成を防ぐため、専門チームによる厳格な評価や安全性のレビューを経て開発したとしている。また、AIによる誤情報の拡散を防止するため、Gemini 3.1 Flash Liveによって生成されたすべての音声には、人間には感知できない電子透かし「SynthID」が直接埋め込まれており、AI生成コンテンツであることを高い信頼性で検出できる仕組みを整えたと説明している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「今日言うつもりはなかったが……」 孫正義氏が明かした「ロボット自動量産工場」の実態
-
2
【役に立つの?】「Google公式」の初心者向けAI講座、受けてみたら想像以上にすごかった
-
3
Flashの再来? Figmaの新機能「Figma Motion」に懐かしいとの声 アニメーション生成するAI機能も
-
4
味の素、“万能DX人材”増員へ 育成のきっかけは新規プロジェクトの苦い経験
-
5
リコーが多能工ヒューマノイドを披露、工場ではPoCから導入に向けた実証段階へ
-
6
日立、メインフレーム事業から撤退へ ハード製造終了から9年後の決断
-
7
ClaudeをSlackチャンネルに召喚、“チームの一員”として直接指示 新機能「Claude Tag」登場
-
8
【解説】キオクシアなぜ急成長? 半導体メモリって何? AIブームを見通すための基礎知識
-
9
富士通と日本IBMの協業、ついに始動 COBOL刷新における「役割分担」は?
-
10
男性に美人局容疑で3人逮捕 ChatGPTの示談相場示し脅迫か 警視庁
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR