これまでの大規模言語モデルは、自然言語での対話やテキスト生成を得意としてきたが、ネット何かを行うためには「何かのサービスにログインし、複数のページを行き来してボタンを押す」といった行為が必要になることが多い。つまりアドバイスはできても、操作の代行はできなかった。
しかし、Operatorはユーザーの指示を受け、リモートコンピュータ上で動作する専用のWebブラウザ上でボタンをクリックしたり、フォームへの文字入力を行い、人間がPCやスマートフォンでやっていることをそのまま再現しようとする。
これは、OpenAIが「Computer-Using Agent(CUA)モデル」と呼んでいるもので、GPT-4oをベースにビジュアル認識を行い、強化学習による高度な推論能力を組み合わせてブラウザ操作を代行している。
OperatorはWebブラウザのスクリーンショットを読み取ってGPT-4oで認識し、GUI上のボタンやメニューの位置を判断してクリックを実行する。
もちろん、サービスを提供するサイトが専用APIを備えてくれるなら、こうしたことは行わなくてもいいが、CUAではさまざまなWebサイトでの挙動を強化学習で覚え、APIを使っているかのような挙動を、疑似的な画面操作で実現する。
人間は自分の専門外の仕事をするときに、詳しい人にどうするべきか尋ねるだろう。Operatorも何かのエラーや判断できない状況が生じた場合には、人間に操作や指示を求める。
さらにエラーを検知しても、自己修正しようと試みる機能もある。例えばフォーム入力を間違えたら、画面上に表示されたエラーメッセージから、その原因を推測して再度入力を行う。
これまでRPA(Robotic Process Automation)でやってきた手法とも似ているが、より視覚情報と推論によって柔軟性を獲得しているところが大きな違いだ。
ちなみにOperatorが動作する様子は画面上でモニターできるので、それを見ているだけでも興味深い。
AIに定義づけられた製品が花開く――「CES 2025」に見る2025年のテックトレンド
なぜAI全振りを表明したのか パナソニックグループの「CES 2025」ブースを見て分かったこと
GeForce RTX 50だけではない! 社会がAIを基礎にしたものに置き換わる? 「CES 2025」で聴衆を圧倒したNVIDIAの最新構想
AIの時代だからこそプライバシー問題を強く意識しよう パーソナルコンピュータ誕生の背景から今に至る歩み
xAIが最新AIモデル「Grok 3」を無料で開放/Xの有料サブスクプラン「Xプレミアムプラス」が大幅値上げCopyright © ITmedia, Inc. All Rights Reserved.