Google、「Gemini 3.5 Flash」に「Computer Use」を標準搭載──AIが画面を見てブラウザやアプリを操作

 米Googleは6月24日(現地時間)、同社のAIモデル「Gemini 3.5 Flash」に、AIがコンピュータの画面を認識して操作を自動実行する「Computer Use」機能を標準ツールとして搭載したと発表した。開発者はこの機能を使い、Webブラウザやモバイル、デスクトップの各環境で動作するエージェントを構築できる。

(画像:Google)

 Computer Useとは、AIがスクリーンショットを通じて画面を「見て」、マウスのクリックやキーボードからの入力などの具体的な操作を生成することで動作する機能。文章や画像を生成する従来の使い方とは異なり、AIが実際の画面を操作して一連の作業を完了させる点が特徴だ。Google DeepMindでプロダクトマネジャーを務めるマテオ・キロス氏は、Gemini 3.5 FlashがGoogle検索やマップを使ったグラウンディングなどの組み込みツールに加え、画面操作にも対応したと説明している。

 実際の処理は、AIに目標と画面のスクリーンショットを渡すと、AIが「この座標をクリックする」「ここに文字を入力する」などの次の操作を提案し、開発者側のプログラムがその操作を実行する、という流れを繰り返すというものになる。実行後の新しい画面を再びAIに送り返すことで、タスクが完了するまで操作を続ける仕組みだ。AI自体がWebブラウザを直接動かすのではなく、従来の関数呼び出しと同様に、AIの提案を開発者のコードが実行する関係になる。

Computer Useの処理の流れ(画像:Google)

 今回の発表のポイントは、これまで独立した専用モデル「Gemini 2.5 Computer Use」としてのみ提供していた機能を、主力モデルであるGemini 3.5 Flashにネイティブ統合した点にある。Googleはこれにより、エージェント型の画面操作タスクで同社として過去最高の性能を実現したとしている。想定する活用先としては、継続的なソフトウェアテストや、複数の専門アプリケーションをまたぐナレッジワークなど、長時間に及ぶタスクや企業の業務自動化を挙げている。

 Googleは、AIが画面上の操作を実行するこの種の機能には新たなリスクが伴うとして、安全性への配慮も示している。例えば、AIが画面上の信頼できない情報や指示に従ってしまう可能性や、目標やページ内容を誤解して誤った操作をしてしまう可能性があるという。その対策として、Gemini 3.5 Flash向けに標的型の敵対的トレーニングを実施したほか、機密性の高い操作や取り消せない操作の前にユーザーへ明示的な確認を求める仕組みと、間接的なプロンプトインジェクションを検知した場合にタスクを自動停止する仕組みという、2つのオプションの企業向けセーフガードを提供する。同社は、こうした機能をサンドボックスによる隔離実行や人間による確認、厳格なアクセス制御と組み合わせる多層防御のアプローチを推奨している。

 開発者向けドキュメントによると、Computer Useは現時点でプレビュー機能であり、エラーやセキュリティ上の脆弱性が生じやすいとされる。Googleは、重要なタスクでは密に監督し、重大な判断や機密データの取り扱い、取り返しのつかない操作には使わないよう推奨している。

印刷する
SNSでシェア
SpecialPR

関連記事

こんなメディアも見られています

ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。

メールマガジンを配信中
メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

いますぐご登録

よく見られているカテゴリー

アクセスランキング

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10

SpecialPR

ITmedia AI+ SNS

X @itm_aiplusをフォロー

インフォメーション

ITmedia AI+をフォロー

あなたにおすすめの記事PR