このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2
中国の清華大学と北京大学に所属する研究者らが発表した論文「DroidBot-GPT: GPT-powered UI Automation for Android」は、大規模言語モデル(LLM)を利用したAndroidアプリケーションの自動化に焦点を当て、自然言語の記述をスマートフォン上の一連のアクションに変換して実行するシステムを提案した研究報告である。
例えば、「番号1234567とメールアドレスalice@github.comをAliceという名前で連絡帳に登録」といったプロンプトを入力すると、システムがアプリを操作して登録してくれる。これにより、操作がよく分かっていないアプリでも試行錯誤して時間を取られることなく、自動でタスク処理が行える。
DroidBot-GPTによるタスク処理の一例。「Simple Contacts Pro」というアプリを使って、「番号1234567、電子メールalice@github.com、Aliceという名前の連絡帳を作成する 」というタスクを実行している「DroidBot-GPT」と呼ぶこのシステムは、Androidアプリケーションとユーザーが記述したタスクがあると、まずアプリの画面上の状態を取得し、取得したGUI(グラフィカル・ユーザーインタフェース)をChatGPTが扱える自然言語に変換する。
例えば「ここをクリックすればカメラに切り替わる」「ここをクリックすると、編集可能なファーストネームのテキストビューが表示される」など、アプリ上のGUIをテキストに落とし込む作業を行う。
次に、画面上の情報や行動履歴、タスクを組み合わせてプロンプトを作成し、ChatGPTに送信する。ChatGPTは適切なアクションを生成して送り返し、システムはスマートフォン上で操作を実行する。
DroidBot-GPTの有効性を評価するため、広く使われている17のAndroidアプリケーションで実験する。各アプリケーションに対して、2〜13ステップのGUIが含まれる1〜3個のタスクを設計する。
実験の結果、33タスク中13タスクを完遂したが、全タスクの平均完遂率は66.76%であった。失敗も多く改良の余地はあるものの、精度を向上させれば、これまで指で行っていた全てのアプリ操作を文章入力や音声入力で行えるようになるかもしれない。
Source and Image Credits: Hao Wen, Hongming Wang, Jiaxuan Liu, and Yuanchun Li. DroidBot-GPT: GPT-powered UI Automation for Android
ChatGPTの行政専用環境「行政GPT」 業務効率化に一役 機密情報の入力を抑止する機能も
ChatGPTに人格を与えるとどうなる? スティーブ・ジョブスになりきってEUに毒舌、有害性が増大
冷蔵庫の中身から料理レシピを考えてくれるAI ChatGPTを利用 米国チームが開発
今の技術ではChatGPTが書いた文章だと見抜けない? さまざまなツールで検証、成功率は50%以下に
25人のAIが一緒に暮らしたら、自我は芽生えるか? ゲームの中で検証 バレンタインなど勝手に企画Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR