Google、OpenAIの「ChatGPTの高度な音声モード」対抗「Gemini Live」
Googleは、“Geminiと自由に会話できる”AI機能「Gemini Live」をリリースした。「Gemini Advanced」加入者向けでまずは英語のみ。向こう数週間でiOSおよび他の言語にも拡大する予定としている。
米Googleは8月13日(現地時間)、ハードウェア発表イベント「Made by Google 2024」で、“Geminiと自由に会話できる”AI機能「Gemini Live」のリリースを発表した(初出はGoogle I/O)。
同日発表の「Pixel 9」シリーズを含むAndroidスマートフォンを持つ「Gemini Advanced」加入者向けに英語での提供が開始され、向こう数週間でiOSおよび他の言語にも拡大する予定。日本でも言語設定を英語にすれば、英語で利用可能になる。
Gemini Liveは、米OpenAIの「ChatGPTの高度な音声モード」のように、端末のGeminiと音声で会話できるというもの。
立ち上げ段階では、男女合わせて10種類の「声」を選べる。例えば静かな中音程の「Nova」や明るく高めの声の「Vega」などがある(すべて星の名前)。
イベントのデモでは、口頭で「今週末に姪と甥が来るので、一緒にできる楽しくて教育的なアイデアが必要です。おそらく化学の実験のような、魔法みたいな」と質問すると、Geminiが「素敵な考えですね。古典的な科学体験の自家製火山はどうですか? 他のアイデアもお聞きになりたいですか?」と答え、最終的には見えないインクを作ることにするという例が実践された。
応答には少し時間がかかるが、ほぼ自然な会話に聞こえた。Geminiの応答の途中でさらに掘り下げた質問を投げたり、その後で元のテーマ戻ったりすることもできる。
Googleは、就職面接のリハーサルや論文のブレインストーミングに使えるとしている。
将来的には以下のXポストのように、端末のカメラで写したものについて会話するようなマルチモーダル機能も使えるようになるという。
Gemini Liveは、同日発表の「Pixel Buds Pro 2」でも利用できる。スマートフォンで起動後、本体をロックしてもそのままPixe Buds Pro 2で会話を続けられる。
Made by Googleは例年、ハードウェア中心のイベントだが、今回は冒頭からGeminiの話で始まった。
Pixel 9シリーズからは、音声アシスタントのデフォルトが「Googleアシスタント」から「Gemini」に代わる(戻すことも可能)。
また、Keep、Gmail、タスク、ユーティリティ、YouTube Musicなどのアプリと連携し、例えばKeepの買い物リストに口頭で商品を追加したり、YouTube Musicにプレイリストの作成を依頼したりできる。
さらに、コンサートのポスターを写し、その日が空いているかどうか尋ねたり、チケット購入のリマインダー設定をするという、マルチモーダルなカレンダー機能も“近日公開予定”だ。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
ノイキャン性能が2倍になった「Pixel Buds Pro 2」 Tensorチップ初搭載、「Gemini」も使える
米Googleは8月13日(現地時間)、ハードウェア発表イベント「Made by Google 2024」で、ノイズキャンセリング搭載ワイヤレスイヤフォン「Pixel Buds Pro 2」を発表した。日本では14日から予約販売を開始する。Googleストアでの発売は9月26日となっている。価格は3万6800円。Googleのマルチモーダル生成AI「Gemini Nano」がAndroidスマホ「Pixel 9」の端末内で実行可能に
Googleは8月13日(現地時間)、自社イベント「Made by Google」の中で、同社のマルチモーダル生成AI「Gemini Nano」をAndroidスマートフォンの端末内で実行できるようにすると発表した。「Pixel 9 Pro」「Pixel 9 Pro XL」登場 小型ボディ追加で2サイズに AI強化「Tensor G4」搭載
米Googleは8月13日(現地時間)、自社イベント「Made by Google」において、新型スマートフォン「Pixel 9 Pro」「Pixel 9 Pro XL」を発表した。同社の生成「Gemini」に本格対応するスマートフォンで、これまで6インチ後半のみだったProラインに、新たに6.3インチの小型ボディを追加した。Google、「Gemini 1.5 Pro」限定リリース コンテキストウィンドウは100万トークン
Googleは、生成AIの次世代モデル「Gemini 1.5」を発表した。動画なら1時間、音声なら11時間、コードなら3万行、ワードなら70万語を1度に処理できるとしている。まずはVertex AIとAI Studioユーザーに限定プレビューを提供する。