米Googleは6月9日(現地時間)、最新の音声モデル「Gemini 3.5 Live Translate」を発表した。話し終わりを待ってから訳す従来の方式とは異なり、話し手から数秒遅れながら継続的に音声を生成し、シームレスな同時通訳に近い体験を実現する。70以上の言語を自動検出し、話し手のイントネーションやペース、ピッチを維持したまま自然な合成音声で訳出するとしている。
展開は3つの層で同時に進む。開発者向けには「Gemini Live API」および「Google AI Studio」でパブリックプレビューとして提供を開始。企業向けには「Google Meet」で、一部のGoogle Workspace法人顧客を対象にプライベートプレビューが今月から始まり、年内にはより広範なロールアウトを予定する。一般ユーザー向けにはAndroidおよびiOSの「Google翻訳」アプリでグローバルに順次展開される。
「Google翻訳」アプリの「ライブ翻訳モード」を利用する際は、任意のヘッドフォンを接続することで、話し手のトーンを反映した同時通訳を70以上の言語で体験できる。加えてAndroid版では、ヘッドフォンを使わず端末の受話口から訳出音声を聞ける新しい「リスニング」のロールアウトも始まる。
Google Meetでは、既存の音声翻訳機能が「Gemini 3.5 Live Translate」ベースに刷新される。従来は英語との間で5言語のみに限られていたが、今回の更新で70以上の言語に対応し、1つの会議内で2000を超える言語ペアでの会話が可能になる。インタフェースも更新し、音声翻訳機能に素早くアクセスできるようにする。
Gemini 3.5 Live Translateはストリーミングで音声を処理しながら、文脈を待って品質を高めるか、即時に訳して話し手と同期するかのトレードオフを動的に調整するという。多言語入力を手動設定なしで扱えるほか、騒がしい環境にも対応するノイズ耐性を備える。Googleは応用先として、多言語の通話や会議、授業、ライブ放送などを挙げている。パートナーである配車サービスのGrabは、ドライバーと乗客の合流時のコミュニケーション向けにこのモデルをテスト中で、同社では月間1000万件超の音声通話が発生しているという。
なお、同モデルが生成する音声にはすべて電子透かし技術「SynthID」が埋め込まれ、AI生成コンテンツであることを検出可能にしている。
Google検索が「AI検索」に──エージェント機能やマルチモーダル入力に対応
Google翻訳、会話を“リアルタイムでAI翻訳”する新機能 米国などで先行提供
Googleの「Gemini Live」、翻訳サポート 画面共有と動画ストリーミングも数カ月以内に
Google、Gemini活用で翻訳・会話能力を強化 イヤホンでのリアルタイム翻訳も改善Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR