このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2
中国の清華大学と北京大学に所属する研究者らが発表した論文「DroidBot-GPT: GPT-powered UI Automation for Android」は、大規模言語モデル(LLM)を利用したAndroidアプリケーションの自動化に焦点を当て、自然言語の記述をスマートフォン上の一連のアクションに変換して実行するシステムを提案した研究報告である。
例えば、「番号1234567とメールアドレスalice@github.comをAliceという名前で連絡帳に登録」といったプロンプトを入力すると、システムがアプリを操作して登録してくれる。これにより、操作がよく分かっていないアプリでも試行錯誤して時間を取られることなく、自動でタスク処理が行える。
「DroidBot-GPT」と呼ぶこのシステムは、Androidアプリケーションとユーザーが記述したタスクがあると、まずアプリの画面上の状態を取得し、取得したGUI(グラフィカル・ユーザーインタフェース)をChatGPTが扱える自然言語に変換する。
例えば「ここをクリックすればカメラに切り替わる」「ここをクリックすると、編集可能なファーストネームのテキストビューが表示される」など、アプリ上のGUIをテキストに落とし込む作業を行う。
次に、画面上の情報や行動履歴、タスクを組み合わせてプロンプトを作成し、ChatGPTに送信する。ChatGPTは適切なアクションを生成して送り返し、システムはスマートフォン上で操作を実行する。
DroidBot-GPTの有効性を評価するため、広く使われている17のAndroidアプリケーションで実験する。各アプリケーションに対して、2〜13ステップのGUIが含まれる1〜3個のタスクを設計する。
実験の結果、33タスク中13タスクを完遂したが、全タスクの平均完遂率は66.76%であった。失敗も多く改良の余地はあるものの、精度を向上させれば、これまで指で行っていた全てのアプリ操作を文章入力や音声入力で行えるようになるかもしれない。
Source and Image Credits: Hao Wen, Hongming Wang, Jiaxuan Liu, and Yuanchun Li. DroidBot-GPT: GPT-powered UI Automation for Android
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR