米Googleは5月20日(現地時間)、AIアシスタント「Gemini」のスマートフォンアプリに対し、カメラに写るものについて音声で質問ができる「Gemini Live」の機能を、全ユーザーに無料で開放した。Geminiアプリのアップデートの一環で、ほかにも画像生成など複数の機能を強化したという。
スマートフォンのカメラを通して見えるものについて、検索したり質問したりできる機能。例えば、室内にある椅子を映しながら「どうやって置くするのが最適か?」と聞くと、置き場所や組み合わせるべき家具などを教えてくれる。
この機能は2024年、AIアシスタントの研究プロジェクト「Project Astra」の一環として発表。25年4月からは有料版の「Gemini Advanced」と、同社のスマートフォン「Pixel 9」シリーズ、韓国Samsungの「Galaxy S25」ユーザー向けに提供を始めていた。
他にも、画像生成機能には、同日に発表した新たなAIモデル「Imagen 4」を搭載。動画生成機能にも、同日発表の「Veo 3」を搭載した。画像生成機能は全ユーザーが無料で使える一方、動画生成機能は有料プラン「Gemini Ultra」の米国ユーザーが対象。
質問に応じて詳細な分析とレポートを作成する機能「Deep Research」では、ユーザーの独自データを情報源として追加できるようになった。近日中に、Google DriveとGmail内の情報も参照可能になる予定だ。
AIが文章作成やコーディングをサポートする機能「Canvas」には、対話形式の音声による要約作成機能などが加わった。加えて、同日に正式にリリースしたAIモデル「Gemini 2.5 Pro」を活用することで、コーディング性能も大幅に向上。自然言語による指示で“直観的”にコーディングする「Vibe Coding」(バイブコーディング)にも役立つという。
これがAIと人間が共存する未来? 実用的なAIアシスタントを目指す「Project Astra」 Googleが新たなデモ動画公開
Google DeepMindから“拡散言語モデル”「Gemini Diffusion」登場 文字通り爆速で文章・コード生成
ついに「音声付き動画」の生成が可能に Google、動画生成AIの最新モデル「Veo 3」発表
Googleからも非同期コーディングエージェント「Jules」 OpenAI「Codex」対抗か
Googleが軽量AIモデル「Gemma 3n」を発表 スマホ上で高性能マルチモーダルAI Claude 3.7 Sonnetに肉薄Copyright © ITmedia, Inc. All Rights Reserved.