約50年変わらなかったマウスを「再定義」――Google DeepMind、文脈を理解するAIポインター構想を発表:AIニュースピックアップ
Google DeepMindは、AIが画面の対象や利用者の意図を把握する新型ポインター構想を公表した。Geminiを活用し、ChromeやGooglebookで画像、表、文章を指し示すだけで要約や比較、編集を実行する試作機能を披露した。
Alphabet子会社のAI研究開発企業であるGoogle DeepMind(以下、DeepMind)は2026年5月12日(現地時間)、AIが画面の対象物と利用者の意図を同時に理解する新たなポインター技術の構想を公表した「Gemini」を基盤にした試作システムを公開し、マウスポインターを単なる位置指定ツールから、文脈を理解して操作を補助するインタフェースへ進化させる方針を示した。「Google Chrome」や新型ノートPC「Googlebook」への導入計画も発表した。
「これ」「あれ」で操作可能に――AI新UIの方向性
今回の発表において、長年ほぼ変化してこなかったマウスポインターをAI時代用に再設計する考え方が示された。現状の生成AIサービスは専用画面やチャット欄を中心に動作する例が多く、利用者は作業中の文書や画像、Webページの内容をコピーしてAI側へ渡す必要がある。DeepMindは、こうした操作が利用者の集中を妨げていると分析している。
同社が提示した構想において、AIがポインター周辺の情報を認識し、利用者が何を求めているかを推測する。建物の画像を指しつつ「ここへの道順を表示」と話しかけると、AIが画像の内容を解析し、地図情報と結び付けて案内を表示する。別の例において、統計表を指して円グラフ化を求めたり、レシピ文書を選択して材料を2倍に換算したりするデモも紹介された。
DeepMindは、この構想を支える4つの設計原則を説明した。第1は「作業の流れを維持する」ことだ。AI機能を独立した画面に隔離せず、利用者が作業しているアプリケーションで直接呼び出せる状態を目指す。PDFの内容を箇条書き化し、そのままメールに貼り付けるといった処理を、アプリ切り替えなしで実行する想定だ。
第2は「見せながら伝える」という考え方だ。現在の生成AIは、利用者が詳細な指示文を入力しなければ精度の高い結果を得にくい場合がある。新システムにおいて、ポインターが示した位置周辺の視覚情報や意味情報をAIが取得し、単語や段落、画像の一部分、コードブロックなどを識別する。利用者は複雑な説明文を作成せず、指し示す操作だけで対象を伝えられる。
第3は、「これ」や「あれ」といった曖昧な表現を扱える仕組みだ。人間同士の会話において、ジェスチャーや共有された状況を前提に短い言葉で意思疎通する場面が多い。DeepMindは、ポインティング操作と音声入力、画面の文脈を統合的に解釈できれば、自然な会話形式で複雑な指示を扱えるとみている。
第4は、画面のピクセル情報を意味のある対象へ変換する点だ。従来のコンピュータは座標情報しか扱えなかったが、AIによって場所、日時、物体などを認識し、操作可能な情報として処理できるようになるという。手書きメモの画像をタスク一覧に変換することや、旅行動画を停止した場面から店舗予約ページへ接続する利用例が紹介された。
試作システムはGeminiを利用して構築されている。「Google AI Studio」において、ポインター操作と音声入力を組み合わせ、画像編集や地図検索を実行する実験例を公開した。利用者は対象を指し示しつつ短い言葉で依頼するだけで、AIが文脈を理解して処理する。
製品展開についても具体的な方針が示された。Chromeにおいて、Webページの任意の部分を選択し、Geminiに質問できる機能を導入する。商品一覧をまとめて選択して比較を依頼することや、室内写真を指定して家具の配置イメージを生成する用途を想定する。Googlebook用には「Magic Pointer」を投入し、ノートPCでGeminiを直感的に扱える環境を整備する計画だ。
DeepMindは、AI技術が人間の行動様式に適応するべきだと強調している。従来は利用者側がコンピュータ操作を学ぶ必要があったが、同社はAIによって自然な身ぶりや短い発話でもコンピュータを扱える環境を構築したい考えだ。今回示された構想は、チャット中心だった生成AIの利用形態を、画面操作と融合した常時支援型へ変化させる試みとして注目されそうだ。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
ChatGPTがシェア4割を切る 急伸するClaude、安定のGemini――生成AI三極化の兆し
Apptopiaは、米国生成AIチャットアプリ市場で2026年4月の日次利用者数が前月比1.5%減少したと公表した。高頻度利用層は拡大基調を保ち、ClaudeとGoogle Geminiが勢力を伸ばした。
Geminiアプリで直接ファイル生成・エクスポート可能に コピペの手間を省き作業をシームレス化
Googleは、AIアシスタント「Gemini」アプリ内で、プロンプトから直接ファイルを生成できる新機能の提供を開始した。PDFや「Microsoft Word」「Microsoft Excel」などの形式に対応しており、ユーザーはチャット画面から離れることなく、共有可能なファイルへと変換できる。
Google、Gemini Enterpriseを大幅機能拡充 AIと業務フローをシームレスに融合
Googleは企業用AI基盤を拡張し、自律的に長時間稼働するエージェントや協働空間、統制機能を強化した新機能群を発表し、業務の自動化と連携の高度化を実現すると発表した。
Google、セッション乗っ取りを根絶する新技術「DBSC」を一般公開 ―― クッキー盗難をデバイス単位で無効化
Googleは端末にひも付く認証技術「DBSC」の一般公開を開始した。Chrome 146でWindowsに対応し、macOSにも拡大を予定している。
