ホテル予約、買い物──AIがWebサイトを人間のように操作する「Operator」は、AGI(汎用人工知能)への大きなステップだ 実際に試してみた本田雅一のクロスオーバーデジタル(2/4 ページ)

» 2025年02月27日 15時00分 公開
[本田雅一ITmedia]

AIが「ブラウザ操作する」とは?

 これまでの大規模言語モデルは、自然言語での対話やテキスト生成を得意としてきたが、ネット何かを行うためには「何かのサービスにログインし、複数のページを行き来してボタンを押す」といった行為が必要になることが多い。つまりアドバイスはできても、操作の代行はできなかった。

 しかし、Operatorはユーザーの指示を受け、リモートコンピュータ上で動作する専用のWebブラウザ上でボタンをクリックしたり、フォームへの文字入力を行い、人間がPCやスマートフォンでやっていることをそのまま再現しようとする。

photo ユーザーの希望に添って、実際にWebサイトを操作しながら情報を探す

 これは、OpenAIが「Computer-Using Agent(CUA)モデル」と呼んでいるもので、GPT-4oをベースにビジュアル認識を行い、強化学習による高度な推論能力を組み合わせてブラウザ操作を代行している。

 OperatorはWebブラウザのスクリーンショットを読み取ってGPT-4oで認識し、GUI上のボタンやメニューの位置を判断してクリックを実行する。

photo 表示された結果から、選択肢を提示してくれる

 もちろん、サービスを提供するサイトが専用APIを備えてくれるなら、こうしたことは行わなくてもいいが、CUAではさまざまなWebサイトでの挙動を強化学習で覚え、APIを使っているかのような挙動を、疑似的な画面操作で実現する。

 人間は自分の専門外の仕事をするときに、詳しい人にどうするべきか尋ねるだろう。Operatorも何かのエラーや判断できない状況が生じた場合には、人間に操作や指示を求める。

photo 候補を表示しているところ
photo 選択肢の「2」を選んで、手続きを続行してもらう

 さらにエラーを検知しても、自己修正しようと試みる機能もある。例えばフォーム入力を間違えたら、画面上に表示されたエラーメッセージから、その原因を推測して再度入力を行う。

 これまでRPA(Robotic Process Automation)でやってきた手法とも似ているが、より視覚情報と推論によって柔軟性を獲得しているところが大きな違いだ。

 ちなみにOperatorが動作する様子は画面上でモニターできるので、それを見ているだけでも興味深い。

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

最新トピックスPR

過去記事カレンダー