ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

スマホアプリの操作をChatGPTで自動化 文章入力でアプリ操作 中国チーム「DroidBot-GPT」開発Innovative Tech

» 2023年04月25日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2

 中国の清華大学と北京大学に所属する研究者らが発表した論文「DroidBot-GPT: GPT-powered UI Automation for Android」は、大規模言語モデル(LLM)を利用したAndroidアプリケーションの自動化に焦点を当て、自然言語の記述をスマートフォン上の一連のアクションに変換して実行するシステムを提案した研究報告である。

 例えば、「番号1234567とメールアドレスalice@github.comをAliceという名前で連絡帳に登録」といったプロンプトを入力すると、システムがアプリを操作して登録してくれる。これにより、操作がよく分かっていないアプリでも試行錯誤して時間を取られることなく、自動でタスク処理が行える。

DroidBot-GPTによるタスク処理の一例。「Simple Contacts Pro」というアプリを使って、「番号1234567、電子メールalice@github.com、Aliceという名前の連絡帳を作成する 」というタスクを実行している

 「DroidBot-GPT」と呼ぶこのシステムは、Androidアプリケーションとユーザーが記述したタスクがあると、まずアプリの画面上の状態を取得し、取得したGUI(グラフィカル・ユーザーインタフェース)をChatGPTが扱える自然言語に変換する。

 例えば「ここをクリックすればカメラに切り替わる」「ここをクリックすると、編集可能なファーストネームのテキストビューが表示される」など、アプリ上のGUIをテキストに落とし込む作業を行う。

GUIを自然言語に変換した様子

 次に、画面上の情報や行動履歴、タスクを組み合わせてプロンプトを作成し、ChatGPTに送信する。ChatGPTは適切なアクションを生成して送り返し、システムはスマートフォン上で操作を実行する。

DroidBot-GPTのシステム概要図

 DroidBot-GPTの有効性を評価するため、広く使われている17のAndroidアプリケーションで実験する。各アプリケーションに対して、2〜13ステップのGUIが含まれる1〜3個のタスクを設計する。

 実験の結果、33タスク中13タスクを完遂したが、全タスクの平均完遂率は66.76%であった。失敗も多く改良の余地はあるものの、精度を向上させれば、これまで指で行っていた全てのアプリ操作を文章入力や音声入力で行えるようになるかもしれない。

DroidBot-GPTで実行したタスクの一例

Source and Image Credits: Hao Wen, Hongming Wang, Jiaxuan Liu, and Yuanchun Li. DroidBot-GPT: GPT-powered UI Automation for Android



Copyright © ITmedia, Inc. All Rights Reserved.