メディア

Sponsord｜

PHILIPS

ITmedia PC USER >

ホテル予約、買い物──AIがWebサイトを人間のように操作する「Operator」は、AGI（汎用人工知能）への大きなステップだ　実際に試してみた：本田雅一のクロスオーバーデジタル（2/4 ページ）

» 2025年02月27日 15時00分公開

[本田雅一，ITmedia]

前のページへ 1|2|3|4 次のページへ

AIが「ブラウザ操作する」とは？

　これまでの大規模言語モデルは、自然言語での対話やテキスト生成を得意としてきたが、ネット何かを行うためには「何かのサービスにログインし、複数のページを行き来してボタンを押す」といった行為が必要になることが多い。つまりアドバイスはできても、操作の代行はできなかった。

　しかし、Operatorはユーザーの指示を受け、リモートコンピュータ上で動作する専用のWebブラウザ上でボタンをクリックしたり、フォームへの文字入力を行い、人間がPCやスマートフォンでやっていることをそのまま再現しようとする。

ユーザーの希望に添って、実際にWebサイトを操作しながら情報を探す

　これは、OpenAIが「Computer-Using Agent（CUA）モデル」と呼んでいるもので、GPT-4oをベースにビジュアル認識を行い、強化学習による高度な推論能力を組み合わせてブラウザ操作を代行している。

　OperatorはWebブラウザのスクリーンショットを読み取ってGPT-4oで認識し、GUI上のボタンやメニューの位置を判断してクリックを実行する。

表示された結果から、選択肢を提示してくれる

　もちろん、サービスを提供するサイトが専用APIを備えてくれるなら、こうしたことは行わなくてもいいが、CUAではさまざまなWebサイトでの挙動を強化学習で覚え、APIを使っているかのような挙動を、疑似的な画面操作で実現する。

　人間は自分の専門外の仕事をするときに、詳しい人にどうするべきか尋ねるだろう。Operatorも何かのエラーや判断できない状況が生じた場合には、人間に操作や指示を求める。

候補を表示しているところ

選択肢の「2」を選んで、手続きを続行してもらう

　さらにエラーを検知しても、自己修正しようと試みる機能もある。例えばフォーム入力を間違えたら、画面上に表示されたエラーメッセージから、その原因を推測して再度入力を行う。

　これまでRPA（Robotic Process Automation）でやってきた手法とも似ているが、より視覚情報と推論によって柔軟性を獲得しているところが大きな違いだ。

　ちなみにOperatorが動作する様子は画面上でモニターできるので、それを見ているだけでも興味深い。

どんなAIモデルが動いている？

AIに定義づけられた製品が花開く――「CES 2025」に見る2025年のテックトレンド
CES 2025では、前年の「Software Defined」の流れを引き継いで「AI Defined」という潮流が生まれていることを予感させる基調講演が多かった。この潮流は、世の中の製品にどのような影響を与えるのだろうか。
なぜAI全振りを表明したのか　パナソニックグループの「CES 2025」ブースを見て分かったこと
パナソニックグループの楠見グループCEOが、「CES 2025」でキーノートスピーチを行い、展示ブースを展開している。その内容をチェックした。
GeForce RTX 50だけではない！　社会がAIを基礎にしたものに置き換わる？　「CES 2025」で聴衆を圧倒したNVIDIAの最新構想
NVIDIAのジェンスン・ファンCEOが「CES 2025」の基調講演に登壇した。新アーキテクチャのGPU「GeForce RTX 50シリーズ」に注目が集まりがちだが、注目すべきポイントはそこだけではない。
AIの時代だからこそプライバシー問題を強く意識しよう　パーソナルコンピュータ誕生の背景から今に至る歩み
毎年1月28日は「データ・プライバシーの日」となっている。林信行氏が、PCの生い立ちから現在までに至る道のりを考察した。
xAIが最新AIモデル「Grok 3」を無料で開放／Xの有料サブスクプラン「Xプレミアムプラス」が大幅値上げ
うっかり見逃していたけれど、ちょっと気になる――そんなニュースを週末に“一気読み”する連載。今回は、2月16日週を中心に公開された主なニュースを一気にチェックしましょう！

前のページへ 1|2|3|4 次のページへ

SpecialPR

アクセストップ10

2026年02月12日更新

6500円でデスクに新風！　Thermalrightの小型液晶がヒット、背景にメモリ高騰？（2026年02月09日）
新ARグラス「XREAL 1S」を試す　解像度と輝度が向上、BOSEサウンドで没入感アップ　“3D変換”も大きな魅力（2026年02月10日）
元Appleのジョナサン・アイブが手掛けるフェラーリ初EVの内装デザイン公開　物理ボタンとデジタルの融合（2026年02月10日）
マウス社長が3日間“フル参戦”した理由とは？　大阪・梅田のど真ん中で起きた“eスポーツ×地域振興”の化学反応（2026年02月11日）
ソニーが「Blu-ray Discレコーダー」の出荷と開発を終了　代替の録画手段はある？（2026年02月09日）
32GBメモリが6万円切り、2TB SSDは3.3万円から　価格上昇が続くアキバで見つけた高コスパパーツ（2026年02月07日）
ASRock、“CPU起動トラブルを解決”するSocket AM5マザー用のβ版BIOSを公開（2026年02月10日）
梅田の街がeスポーツに染まった3日間――「Osaka GeN Scramble」で見えた、地域とデバイスが融合する最新イベントの形（2026年02月10日）
もはや「光モノ」とは呼べない時代に――Corsairのタッチ液晶登場も即レア化（2025年11月03日）
PFU、HHKBをオプション付きでお得に買える「HHKBスターターキット」を期間限定で発売（2026年02月10日）

ランキングトップ30

最新トピックスPR

過去記事カレンダー

2026年

2月
1月

2025年

2024年

2023年

2022年

2021年

2020年

2019年

2018年

2017年

2016年

2015年

2014年

2013年

2012年

2011年

2010年

2009年

2008年

2007年

2006年

2005年

2004年

2003年

Feed Back

利用規約

ITmediaはアイティメディア株式会社の登録商標です。

ホテル予約、買い物──AIがWebサイトを人間のように操作する「Operator」は、AGI（汎用人工知能）への大きなステップだ 実際に試してみた：本田雅一のクロスオーバーデジタル（2/4 ページ）