このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
米カリフォルニア大学サンディエゴ校や米Microsoftなどに所属する研究者らが発表した論文「GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation」は、スマートフォンのGUI(グラフィカルユーザーインタフェース)ナビゲーション用にGPT-4Vを基盤として構築されたエージェントシステムを提案した研究報告である。
最近の研究では、スマートフォンのタスク自動化に着目している。方法の一つとして、画面画像をテキストで説明し、大規模言語モデル(LLM)で処理するアプローチがある。今回は、大規模マルチモーダルモデル(LMM)の効果を生かし、GPT-4Vを使用したゼロショットのスマートフォンGUIナビゲーションシステム「MM-Navigator」を提案する。
MM-Navigatorは、人間のユーザーと同様にスマートフォンの画面と対話し、与えられた指示を遂行するための次の行動を決定できる。
LMMを使用したGUIナビゲーションには、2つの主要な課題がある。これらは、意図された行動の記述と局所化された行動の実行である。まず、モデルは画面の画像とテキスト指示を理解し、クエリを分析して適切な行動を決定する必要がある。
例えば「第3行目の第4列目にあるAmazonアイコンをクリックする」という自然言語の説明が挙げられる。次に、モデルはこの高度な理解をルールに基づいて実行可能な行動形式に変換する必要がある。例えば「{Action: Click, Location:(0.31, 0.57)}」のようにだ。
このアプローチでは、GPT-4Vに画像とテキストを提示して行動計画を行い、生成した出力にマークタグを設置する。これらのマークはセグメンテーションやOCRモデルを利用して空間的な位置と関連付ける。この方法により、MM-Navigatorは、画面の画像、テキスト指示、その相互作用の履歴に基づいた実行可能な行動を生成できる。
研究チームはMM-Navigatorを2つのデータセットでベンチマークテストしている。まず、スクリーンショットとユーザー指示を含むiOS GUIナビゲーションデータセットでテストを開始した。
このデータセットは、GUIナビゲーションにおける2つの主要な課題、すなわち意図された行動の記述と局所化された行動の実行に焦点を当てて設計している。人間による評価を用いて、これらのタスクでのGPT-4Vの精度を測定し、それぞれ91%と75%の結果を得た。
加えて、Androidナビゲーションベンチマークのランダムなサブセットでモデルを評価した。このベンチマークで提案された評価プロトコルに従って、追加の人間による評価も行われた。その結果、MM-NavigatorはスマートフォンのGUIナビゲーションにおいて効果的であるを示し、以前のLLMベースのアプローチを大きく上回る性能を発揮していることが明らかになった。
Source and Image Credits: An Yan, Zhengyuan Yang, Wanrong Zhu, Kevin Lin, Linjie Li, Jianfeng Wang, Jianwei Yang, Yiwu Zhong, Julian McAuley, Jianfeng Gao, Zicheng Liu, Lijuan Wang. GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation.
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR