ホテル予約、買い物──AIがWebサイトを人間のように操作する「Operator」は、AGI(汎用人工知能)への大きなステップだ 実際に試してみた:本田雅一のクロスオーバーデジタル(2/4 ページ)
本記事では、Operatorの技術的背景と特徴、さらに実際に使ってみての可能性など考えてみることにしよう。
AIが「ブラウザ操作する」とは?
これまでの大規模言語モデルは、自然言語での対話やテキスト生成を得意としてきたが、ネット何かを行うためには「何かのサービスにログインし、複数のページを行き来してボタンを押す」といった行為が必要になることが多い。つまりアドバイスはできても、操作の代行はできなかった。
しかし、Operatorはユーザーの指示を受け、リモートコンピュータ上で動作する専用のWebブラウザ上でボタンをクリックしたり、フォームへの文字入力を行い、人間がPCやスマートフォンでやっていることをそのまま再現しようとする。
これは、OpenAIが「Computer-Using Agent(CUA)モデル」と呼んでいるもので、GPT-4oをベースにビジュアル認識を行い、強化学習による高度な推論能力を組み合わせてブラウザ操作を代行している。
OperatorはWebブラウザのスクリーンショットを読み取ってGPT-4oで認識し、GUI上のボタンやメニューの位置を判断してクリックを実行する。
もちろん、サービスを提供するサイトが専用APIを備えてくれるなら、こうしたことは行わなくてもいいが、CUAではさまざまなWebサイトでの挙動を強化学習で覚え、APIを使っているかのような挙動を、疑似的な画面操作で実現する。
人間は自分の専門外の仕事をするときに、詳しい人にどうするべきか尋ねるだろう。Operatorも何かのエラーや判断できない状況が生じた場合には、人間に操作や指示を求める。
さらにエラーを検知しても、自己修正しようと試みる機能もある。例えばフォーム入力を間違えたら、画面上に表示されたエラーメッセージから、その原因を推測して再度入力を行う。
これまでRPA(Robotic Process Automation)でやってきた手法とも似ているが、より視覚情報と推論によって柔軟性を獲得しているところが大きな違いだ。
ちなみにOperatorが動作する様子は画面上でモニターできるので、それを見ているだけでも興味深い。
関連記事
AIに定義づけられた製品が花開く――「CES 2025」に見る2025年のテックトレンド
CES 2025では、前年の「Software Defined」の流れを引き継いで「AI Defined」という潮流が生まれていることを予感させる基調講演が多かった。この潮流は、世の中の製品にどのような影響を与えるのだろうか。なぜAI全振りを表明したのか パナソニックグループの「CES 2025」ブースを見て分かったこと
パナソニックグループの楠見グループCEOが、「CES 2025」でキーノートスピーチを行い、展示ブースを展開している。その内容をチェックした。GeForce RTX 50だけではない! 社会がAIを基礎にしたものに置き換わる? 「CES 2025」で聴衆を圧倒したNVIDIAの最新構想
NVIDIAのジェンスン・ファンCEOが「CES 2025」の基調講演に登壇した。新アーキテクチャのGPU「GeForce RTX 50シリーズ」に注目が集まりがちだが、注目すべきポイントはそこだけではない。AIの時代だからこそプライバシー問題を強く意識しよう パーソナルコンピュータ誕生の背景から今に至る歩み
毎年1月28日は「データ・プライバシーの日」となっている。林信行氏が、PCの生い立ちから現在までに至る道のりを考察した。xAIが最新AIモデル「Grok 3」を無料で開放/Xの有料サブスクプラン「Xプレミアムプラス」が大幅値上げ
うっかり見逃していたけれど、ちょっと気になる――そんなニュースを週末に“一気読み”する連載。今回は、2月16日週を中心に公開された主なニュースを一気にチェックしましょう!
Copyright © ITmedia, Inc. All Rights Reserved.