ホテル予約、買い物──AIがWebサイトを人間のように操作する「Operator」は、AGI(汎用人工知能)への大きなステップだ 実際に試してみた本田雅一のクロスオーバーデジタル(2/4 ページ)

» 2025年02月27日 15時00分 公開
[本田雅一ITmedia]

AIが「ブラウザ操作する」とは?

 これまでの大規模言語モデルは、自然言語での対話やテキスト生成を得意としてきたが、ネット何かを行うためには「何かのサービスにログインし、複数のページを行き来してボタンを押す」といった行為が必要になることが多い。つまりアドバイスはできても、操作の代行はできなかった。

 しかし、Operatorはユーザーの指示を受け、リモートコンピュータ上で動作する専用のWebブラウザ上でボタンをクリックしたり、フォームへの文字入力を行い、人間がPCやスマートフォンでやっていることをそのまま再現しようとする。

photo ユーザーの希望に添って、実際にWebサイトを操作しながら情報を探す

 これは、OpenAIが「Computer-Using Agent(CUA)モデル」と呼んでいるもので、GPT-4oをベースにビジュアル認識を行い、強化学習による高度な推論能力を組み合わせてブラウザ操作を代行している。

 OperatorはWebブラウザのスクリーンショットを読み取ってGPT-4oで認識し、GUI上のボタンやメニューの位置を判断してクリックを実行する。

photo 表示された結果から、選択肢を提示してくれる

 もちろん、サービスを提供するサイトが専用APIを備えてくれるなら、こうしたことは行わなくてもいいが、CUAではさまざまなWebサイトでの挙動を強化学習で覚え、APIを使っているかのような挙動を、疑似的な画面操作で実現する。

 人間は自分の専門外の仕事をするときに、詳しい人にどうするべきか尋ねるだろう。Operatorも何かのエラーや判断できない状況が生じた場合には、人間に操作や指示を求める。

photo 候補を表示しているところ
photo 選択肢の「2」を選んで、手続きを続行してもらう

 さらにエラーを検知しても、自己修正しようと試みる機能もある。例えばフォーム入力を間違えたら、画面上に表示されたエラーメッセージから、その原因を推測して再度入力を行う。

 これまでRPA(Robotic Process Automation)でやってきた手法とも似ているが、より視覚情報と推論によって柔軟性を獲得しているところが大きな違いだ。

 ちなみにOperatorが動作する様子は画面上でモニターできるので、それを見ているだけでも興味深い。

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2025年12月27日 更新
  1. マウスコンピューターがPC全製品の受注を停止 法人向けPC「Mouse Pro」も購入不可能に 販売再開は2026年1月5日から順次 (2025年12月26日)
  2. そのアプリ、本当に安全ですか? スマホ新法で解禁された「外部ストア」と「独自決済」に潜むリスク (2025年12月26日)
  3. さらばWindows 10、ようこそ“画面付き”パーツ 古参も新規もアキバに集った2025年を振り返る (2025年12月26日)
  4. 25Gbpsインターネット時代の“モンスターマシン” ミニワークステーション「Minisforum MS-02 Ultra」を試す (2025年12月25日)
  5. Ryzen 7×GeForce RTX 5050 Laptop GPUの「ASUS TUF Gaming A16 FA608UH」がセールで16万9800円に (2025年12月25日)
  6. HHKB Studio専用の「木製」「アルミ製」キートップが登場 PFUダイレクトで1月5日発売 (2025年12月25日)
  7. 購入制限はグラフィックスカードにも――年末のアキバ、厳しさが増す一方で「9800X3D」特価セットが登場 (2025年12月27日)
  8. 「買うならお早めに」が悲痛な叫びに変わった年末 猛暑の後に“価格高騰”の寒波が襲った2025年PCパーツ街 (2025年12月25日)
  9. 「テクノロジーが前面に出すぎていた」――アイロボットジャパン新社長が語る、ルンバ復権への“原点回帰” (2025年12月25日)
  10. ソースネクストが8万9800円(期間限定で7万4800円)の「Windows 11 Pro 15.6インチノート型PC 1TB」を販売開始――ストレージ容量を倍増 (2025年12月26日)
最新トピックスPR

過去記事カレンダー