Google、マルチモーダルなAIアシスタント「Project Astra」デモでARメガネをチラ見せ
GoogleはリアルタイムのマルチモーダルAIアシスタントプロジェクト「Project Astra」を発表した。デモ動画には、Pixel搭載のプロトタイプとの会話を途中でARメガネに切り替える場面も。
米Googleは5月14日(現地時間)、年次開発者会議「Google I/O 2024」の基調講演で、リアルタイムのマルチモーダルAIアシスタントの取り組み「Project Astra」を発表した。
Google I/Oに初登壇のGoogle DeepMindのデミス・ハサビスCEOは、Geminiにおけるマルチモーダル(テキストだけでなく、画像や音声、動画など、複数のモーダルを利用できること)入力処理について語り、「AIアシスタントの未来」としてProject Astraを紹介した。
ハサビス氏は、「日常生活で本当に役立つ汎用AIエージェントを構築したいとずっと考えてきた」と語り、Pixel 7 Proに搭載したプロトタイプのAIエージェントを使う約2分のデモ動画を紹介した(記事末に転載した)。
ロンドンのGoogle DeepMindオフィスとみられる屋内でPixelを掲げた女性がAIエージェントに「音のするものを見かけたら教えて」と口頭で言い、オフィス内を移動すると、スピーカーがPixelのカメラに映ったタイミングで「音を出すスピーカーが見えます」と反応し、女性がスピーカーの映像上でツイーターの部分に矢印を描き、「これは何?」と尋ねると「それはツイーターです。高周波の音を出します」と答えた。
この後もディスプレイ上のコードについて説明したり、ホワイトボード上の猫と段ボール箱の組み合わせの映像から連想するものとして「シュレディンガーの猫」と答えたりした。
「メガネをどこに置いたか覚えていますか?」と尋ねられたエージェントは、おそらく以前“見た”映像を記憶しているらしく、「メガネは机の上の赤いリンゴの近くにありました」と答えた。
注目したいのは、そのメガネがGoogle I/O 2022で予告したARスマートグラスであることだ。女性がメガネを装着し、Pixelを机の上に置くと、エージェントとのやりとりの続きがメガネで始まる。
このメガネは2022年に予告があった後、ほとんど進捗の説明がなかったプロダクトだ。ハサビス氏はこのメガネについては言及しなかったが、Project Astraで復活するのかもしれない。
少なくとも動画のデモでは、AIエージェントは質問に迅速に返答しているし、声もかなり自然で、米OpenAIが前日に発表した新AIモデル「GPT-4o」搭載のChatGPTアプリのデモに引けを取らないレベルだ。
ハサビス氏は、Project Astraはまだ初期段階とし、機能の一部は今年後半にGeminiアプリなどのGoogle製品に導入するとのみ説明した。将来的にはスマートフォンやメガネを介して利用できる可能性があると語った。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
Google、テキストや画像から動画を生成するAI「Veo」発表 OpenAIの「Sora」対抗
Googleは「Google I/O 2024」で、テキストから動画を生成するAIモデル「Veo」を発表した。ウェイティングリストに登録できる。1080pの1分以上の動画を生成できる。Androidに“Google AI”の新機能 OSにGeminiを統合、「かこって検索」で問題を解く機能など
米Googleが、Android向けに搭載するAI関連の新機能を発表した。特定の部分を丸で囲って検索ができる「かこって検索」を、学習に活用できるようにする。Androidに生成AIモデルの「Gemini」を統合し、アプリ上のオーバーレイ表示から、より簡単にGeminiを利用可能になる。Google フォト、Geminiを活用した「Ask Photos」機能 質問して写真を検索
米Googleが、Google フォトにAIモデル「Gemini」を活用した検索機能「Ask Photos」を発表した。試験的な機能として、今後数カ月にわたって提供する。Google フォトのチャット画面で問いかけることで、特定の思い出を探したり、写真や動画に含まれる情報を探したりできる。Googleが「Gemini 1.5 Pro」をアップデート、軽量版「Gemini 1.5 Flash」もリリース
米Googleが5月14日(現地時間)、マルチモーダル生成AIモデル「Gemini」のアップデートについて発表した。「Gemini 1.5 Pro」のコンテキストウィンドウを100万トークンから200万トークンに拡張。高速な応答が可能な軽量モデル「Gemini 1.5 Flash」もリリースする。Google、「Pixel 7」「Pixel Tablet」「ARメガネ」を予告
Googleは年次開発者会議で、今秋発売の「Pixel 7」、2023年発売予定の「Pixel Tablet」を発表した。また、発売次期は未定だが開発中のARメガネも紹介した。リアルな世界に字幕が表示されるようなリアルタイム翻訳機能を搭載する。