GPT-4VでiPhoneの画面を操作するシステム　米Microsoftなどの研究者らが開発：Innovative Tech

» 2023年11月22日 08時00分公開

[山下裕毅，ITmedia]

Innovative Tech：

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: ＠shiropen2

　米カリフォルニア大学サンディエゴ校や米Microsoftなどに所属する研究者らが発表した論文「GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation」は、スマートフォンのGUI（グラフィカルユーザーインタフェース）ナビゲーション用にGPT-4Vを基盤として構築されたエージェントシステムを提案した研究報告である。

意図するアクションの記述例

　最近の研究では、スマートフォンのタスク自動化に着目している。方法の一つとして、画面画像をテキストで説明し、大規模言語モデル（LLM）で処理するアプローチがある。今回は、大規模マルチモーダルモデル（LMM）の効果を生かし、GPT-4Vを使用したゼロショットのスマートフォンGUIナビゲーションシステム「MM-Navigator」を提案する。

　MM-Navigatorは、人間のユーザーと同様にスマートフォンの画面と対話し、与えられた指示を遂行するための次の行動を決定できる。

　LMMを使用したGUIナビゲーションには、2つの主要な課題がある。これらは、意図された行動の記述と局所化された行動の実行である。まず、モデルは画面の画像とテキスト指示を理解し、クエリを分析して適切な行動を決定する必要がある。

　例えば「第3行目の第4列目にあるAmazonアイコンをクリックする」という自然言語の説明が挙げられる。次に、モデルはこの高度な理解をルールに基づいて実行可能な行動形式に変換する必要がある。例えば「{Action: Click, Location:（0.31, 0.57）}」のようにだ。

　このアプローチでは、GPT-4Vに画像とテキストを提示して行動計画を行い、生成した出力にマークタグを設置する。これらのマークはセグメンテーションやOCRモデルを利用して空間的な位置と関連付ける。この方法により、MM-Navigatorは、画面の画像、テキスト指示、その相互作用の履歴に基づいた実行可能な行動を生成できる。

iOSの画面ナビゲーションの例、ミルクフローサーを$50から$100の予算で購入するように求められている

　研究チームはMM-Navigatorを2つのデータセットでベンチマークテストしている。まず、スクリーンショットとユーザー指示を含むiOS GUIナビゲーションデータセットでテストを開始した。

　このデータセットは、GUIナビゲーションにおける2つの主要な課題、すなわち意図された行動の記述と局所化された行動の実行に焦点を当てて設計している。人間による評価を用いて、これらのタスクでのGPT-4Vの精度を測定し、それぞれ91％と75％の結果を得た。

　加えて、Androidナビゲーションベンチマークのランダムなサブセットでモデルを評価した。このベンチマークで提案された評価プロトコルに従って、追加の人間による評価も行われた。その結果、MM-NavigatorはスマートフォンのGUIナビゲーションにおいて効果的であるを示し、以前のLLMベースのアプローチを大きく上回る性能を発揮していることが明らかになった。

Source and Image Credits: An Yan, Zhengyuan Yang, Wanrong Zhu, Kevin Lin, Linjie Li, Jianfeng Wang, Jianwei Yang, Yiwu Zhong, Julian McAuley, Jianfeng Gao, Zicheng Liu, Lijuan Wang. GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation.

GPT-4Vで“動画”を分析　米Microsoftが「MM-VID」発表
米Microsoft Azure AIに所属する研究者らは、GPT-4で手書きの文字や図を読み取れるようになる技術「GPT-4V（ision）」を利用してビデオの内容を詳細なスクリプトに変換し、大規模言語モデルに高度なビデオ理解能力を与えるという研究報告を発表した。
ChatGPT、“目”と“耳”の実装を発表　写真の内容を認識、発話機能でおしゃべりも可能に
米OpenAIのチャットAI「ChatGPT」に、画像認識、音声認識、発話機能が搭載された。今後2週間かけて、PlusユーザーとEnterpriseユーザーに展開するという。
元OpenAI・アルトマン氏、Microsoftに参加　「歓迎する」とナデラCEO
米Microsoftのサティラ・ナデラCEOは、自身のX（元Twitter）アカウントで「サム・アルトマンやグレッグ・ブロックマンらがマイクロソフトに参加する」という旨の投稿を行った。
“オリジナルCopilot”が作れる「Copilot Studio」登場　スタンドアロン型にも対応　GPTとも連携
米Microsoftは、AIプラットフォーム「Microsoft Copilot Studio」を発表した。自身の好みにカスタマイズした生成AIツール「Copilot for Microsoft 365」（Copilot）をローコードで作成できる。
有料版ChatGPTの新規登録が一時停止に　「GPTs」追加で利用者が急増
米OpenAIのサム・アルトマンCEOは、AIチャット「ChatGPT」の有料版「ChatGPT Plus」の新規登録を一時停止したと発表した。