ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

米Google、自然言語でAndroidデバイスを操作するための学習データセット公開Innovative Tech

» 2023年07月31日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 米Google Researchと米Google DeepMindに所属する研究者らが発表した論文「Android in the Wild: A Large-Scale Dataset for Android Device Control」は、Androidデバイスを自然言語で操作するための大規模な学習データセットを提案した研究報告である。このデータセットには、画面やアクションを含むデバイスのインタラクションの人間によるデモンストレーションと、それに対応する自然言語の指示が含まれている。データセットはこちらから入手できる。

データセットのエピソード例(1)
データセットのエピソード例(2)

 自然言語コマンドによるモバイル機器制御は、幅広い応用が可能である。そのためには、高レベルの命令を、人間が行うようにデバイスのインタフェースを操作する実行プランに変換する必要がある。

 最近の汎用的な大規模言語モデル(LLM)の進歩により、このようなデバイス制御システムを構築するための門戸が開かれたが、これらのシステムの訓練と評価に不可欠な大規模で包括的なデータセットが少ないため、システムのトレーニング、微調整、評価が不足している。

 このようなギャップに対処するため、研究チームは、既存のデバイス制御データセットよりも大幅に大規模で多様な「Android in the Wild」(AITW)を提示する。AITWは、350以上のAndroidアプリケーションとWebサイトにわたる約71万のエピソードから構成され、さまざまなタスク命令と実行パス、実世界のシステムインタラクションをリアルに表現している。

 各エピソードは、自然言語で提供されるゴール命令と、タスクの実行を記述する観察とアクションのペアのシーケンスで構成される。観察はアプリケーションUIのスクリーンショットで構成される。また4つのバージョンのAndroid(v10-13)、さまざまな画面解像度の8つのデバイスタイプ(Pixel 2 XLからPixel 6)で成り立つ。

 データセットの主な特徴は、実世界の軌跡をエミュレートする目的で収集した命令と実行パスの多様性である。研究チームは、高レベルのゴール指示を収集するために、人間(クラウドソーシングの評価者と著者の両方)、LLMが生成したプロンプト、(PixelHelpのような)技術文書という複数の情報源を使用した。

AITWを作成するためのデータパイプライン

 データセット構造を通じて、新しいタスクや言語、Androidのバージョン、アプリケーションやWebサイトなど、さまざまな条件下で評価するための実験セットアップを提供する。また、データ上でモデルをトレーニングし、実行し、新しい条件下でモデルの性能を評価する方法を実証する。

 AITWが、より強力なデバイス自動化モデルを作成するための研究に拍車を掛けることを期待しているという。

データセットのエピソード例(3)

Source and Image Credits: Christopher Rawles, Alice Li, Daniel Rodriguez, Oriana Riva, Timothy Lillicrap. Android in the Wild: A Large-Scale Dataset for Android Device Control



Copyright © ITmedia, Inc. All Rights Reserved.