検索
ニュース

ホテル予約、買い物──AIがWebサイトを人間のように操作する「Operator」は、AGI(汎用人工知能)への大きなステップだ 実際に試してみた本田雅一のクロスオーバーデジタル(3/4 ページ)

本記事では、Operatorの技術的背景と特徴、さらに実際に使ってみての可能性など考えてみることにしよう。

Share
Tweet
LINE
Hatena

Computer-Using Agent(CUA)モデルとは?

 OpenAIがCUAと呼んでいるものは、前述したようにGPT-4oの画像識別機能を用いてWebサイトの視覚認識能力を組み込み、高度な強化学習でブラウザ操作を学習させたAIモデルだ。

 テキストだけでなく画像からも文脈を読み取るため、画面上に表示されるボタンや入力欄も情報として取り込みながら目的を達成しようとする。また、強化学習により、Webのデザイン傾向も学んでいるため、明確なラベルがなくても、「ここにログイン用のボタンがありそうだ」と推測しクリックする、といった推論処理によるトライ&エラーも試みる。

 ここで明確にしておくべきなのは、Operatorが操作しているWebブラウザはユーザーのPC上ではなく、リモートコンピュータ上の専用ブラウザという点だ。

 ユーザーが「明日の午前6時30分発のフライトに間に合うようにUberを予約して」といったプロンプトを入力すると、Operatorはリモートブラウザ上で該当の予約ページを検索して開き、画面をスクリーンショットして解析しながら次のアクションを決めていく。

 筆者は請求書発行とメールでの送信の指示をしてみたが、Webから利用できる請求書発行アプリケーションを探して必要事項を入力し、PDFをダウロードしてGmailで送信してくれた。

 その間、PDFのダウンロードを許可するかや、Gmailへのログインなどはユーザーが補助する必要があったものの、それ以外のタスクはOperatorが自動で行ってくれた。予約や購入の確定ボタンを押すといった確認作業でも、直前に必ずユーザーに確認を求める設計になっている。

photo
ダウンロードしたPDFをユーザーが確認するように言ってきた

 複数のステップが必要なタスクは、モデルが自動的にサブタスクに分解して順次実行する。

 例えば、「ホテル検索→日付の入力→部屋のタイプ選択→予約情報の最終確認」といった一連の操作は、ステップごとにモデルが逐次判断して進める。誤操作をしてエラーが出た場合も、スクリーンショット解析をもとに原因を推定しリトライを試みる。

 従来にあったような、特定のWebサイトを決め打ちしたマクロ操作よりもはるかに柔軟な対応が期待できるだろう。

強化学習で進む適応範囲の拡大

 Operatorが興味深いのは、ユーザーがさまざまなタスクでこの機能を利用することで強化学習が自然に進んでいき、その汎用性が高まっていくところにあると思う。Webブラウザを通じて人間が行う操作の大部分を代行できるだろう。

 実際、Open AIは旅行、レストラン予約、ショッピング、情報収集など、多岐にわたる事例を紹介している。その一部を紹介しよう。

 米国の鉄道であるアムトラックの予約では、出発地と目的地を入力して列車の時刻表を検索し、そのままチケット予約の準備まで進めることに成功したという。

 「明日の午前6時30分に空港へ行くUberをお願い」と命じると、OperatorがUberのWebサイトにアクセスして時間設定を行い、最終確認手前まで自動で操作を進める。

 Uberの手配はWebのユーザーインタフェースが米国版と同じなため、日本でも問題なく使えた。

 OpenTableなどの提携サービスを利用し、日時や人数を指定して空き状況を確認し予約することも可能だ。海外のデモでは、サンフランシスコのレストランを検索し、OpenTable経由で予約手続きを完了させた例が紹介された。

 日本のOpenTableも「明日の午後7時に和食レストランで4人分の席を確保して」という抽象度の高い指示に対して、候補の検索から予約手続きへの移行までを一貫してやってのける。なお、食べログにも対応しているようだった。

 英語サイトの方が学習成果は多いように感じるが、日本語サイトもかなり幅広く主要なサービスを網羅しているのかもしれない。

photo
食べログでも操作が可能だ
photo
検索する地域を訪ねてきたので、指定してみたところ

 ECサイトでの商品検索や価格比較、在庫チェック、カート投入なども自動化できる。気になる製品のセール情報を探すといったタスクをOperatorに指示すると、楽天市場やAmazon.co.jpをそれぞれ調べてくれる。最終的に「この商品を購入する」直前でユーザーに決裁を仰ぐ設計になっており、誤った商品の購入リスクは低い。

 学習資料のダウンロードや複数サイト間のデータ入力といった事務処理でも活用が期待されている。特にWebフォームの反復入力などの単調な作業は、Operatorにまとめて任せると効率が大きく向上する。GUIのレイアウトが多少変わっても視覚認識により修正を試みるため、従来型のマクロより融通は利くだろう。

 自己完結できるようにトライ&エラーを行うため、未知のWebサイトでもトリッキーな操作がなければ問題なく動作することが多い。また、ユーザーが介入して正しい操作を覚え続けることで、Operatorは成長を続ける。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る