ホテル予約、買い物──AIがWebサイトを人間のように操作する「Operator」は、AGI(汎用人工知能)への大きなステップだ 実際に試してみた本田雅一のクロスオーバーデジタル(2/4 ページ)

» 2025年02月27日 15時00分 公開
[本田雅一ITmedia]

AIが「ブラウザ操作する」とは?

 これまでの大規模言語モデルは、自然言語での対話やテキスト生成を得意としてきたが、ネット何かを行うためには「何かのサービスにログインし、複数のページを行き来してボタンを押す」といった行為が必要になることが多い。つまりアドバイスはできても、操作の代行はできなかった。

 しかし、Operatorはユーザーの指示を受け、リモートコンピュータ上で動作する専用のWebブラウザ上でボタンをクリックしたり、フォームへの文字入力を行い、人間がPCやスマートフォンでやっていることをそのまま再現しようとする。

photo ユーザーの希望に添って、実際にWebサイトを操作しながら情報を探す

 これは、OpenAIが「Computer-Using Agent(CUA)モデル」と呼んでいるもので、GPT-4oをベースにビジュアル認識を行い、強化学習による高度な推論能力を組み合わせてブラウザ操作を代行している。

 OperatorはWebブラウザのスクリーンショットを読み取ってGPT-4oで認識し、GUI上のボタンやメニューの位置を判断してクリックを実行する。

photo 表示された結果から、選択肢を提示してくれる

 もちろん、サービスを提供するサイトが専用APIを備えてくれるなら、こうしたことは行わなくてもいいが、CUAではさまざまなWebサイトでの挙動を強化学習で覚え、APIを使っているかのような挙動を、疑似的な画面操作で実現する。

 人間は自分の専門外の仕事をするときに、詳しい人にどうするべきか尋ねるだろう。Operatorも何かのエラーや判断できない状況が生じた場合には、人間に操作や指示を求める。

photo 候補を表示しているところ
photo 選択肢の「2」を選んで、手続きを続行してもらう

 さらにエラーを検知しても、自己修正しようと試みる機能もある。例えばフォーム入力を間違えたら、画面上に表示されたエラーメッセージから、その原因を推測して再度入力を行う。

 これまでRPA(Robotic Process Automation)でやってきた手法とも似ているが、より視覚情報と推論によって柔軟性を獲得しているところが大きな違いだ。

 ちなみにOperatorが動作する様子は画面上でモニターできるので、それを見ているだけでも興味深い。

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2025年12月21日 更新
  1. 「こりゃ買えないわ」の声――ついに30万円突破の128GB DDR5メモリも (2025年12月20日)
  2. 3COINSで1万6500円の「10.1インチ タブレット」を試す 雑に扱える手軽さで、子供や大人の2台目に検討の価値アリ (2025年12月20日)
  3. 香港と深センのPC向けメモリ/ストレージ価格はどうなっている? 日本の状況と比べてみた (2025年12月19日)
  4. Thunderboltがあればメイン環境を持ち歩ける? 「ThinkPad P14s Gen 6 AMD」と外付けGPUユニットを試してみた (2025年12月19日)
  5. ナカバヤシ、小型トラックボールを内蔵した薄型ワイヤレスキーボード (2025年12月19日)
  6. PC版「ホグワーツ・レガシー」の無料配布が間もなく終了 累計販売4000万本突破、“ハリポタ”舞台のオープンワールド・アクションRPG (2025年12月18日)
  7. Steamで2025年最後の安売り「ウインターセール」開催中! 恒例の「Steamアワード」も投票開始 (2025年12月19日)
  8. スマートホーム“ガチ勢”向け「SwitchBot AIハブ」を試す 映像内の“出来事”をトリガーに家電操作できるAIカメラ実現 (2025年12月15日)
  9. 電源内蔵で配線がスッキリする「エレコム スイッチングハブ EHC-G08MN4A-HJB」が17%オフの4980円に (2025年12月18日)
  10. メモリは64GBキットを断念する空気感――128GBは何と20万円前後に (2025年12月13日)
最新トピックスPR

過去記事カレンダー