このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
米カーネギーメロン大学や米Appleなどに所属する研究者らが発表した論文「Never-ending Learning of User Interfaces」は、アプリストアから新しいアプリを自動でインストールし、アプリ内操作を自動で行いデータを収集するとともに、モデルを継続的に自己学習させるUI(ユーザーインタフェース)学習向けクローラーを提案した研究報告である。
深層学習は、モバイルアプリケーションにおいて、アクセシビリティーの向上やデザイナーへのフィードバック提供、ユーザーエンゲージメントの予測など、新しいタイプの評価を可能にしている。
しかし、これらのモデルを訓練するには大量の注釈付きデータが必要で、その収集は手作業で行われるためコストがかかるだけでなく、人為的なエラーも避けられない。この問題を解決するために、今回「Never-ending UI Learner」と呼ばれる手法を提案する。
Never-ending UI Learnerは、実際のデバイス上でアプリケーションを自動操作しつつ、UIのセマンティック(意味的)情報を学習するシステムである。このシステムは、初期のモデルトレーニングに用いるデータを除いて、全てのデータを自動で収集、注釈付けし、トレーニングする。
具体的には、アプリストアから実際のアプリを自動でインストールし、そのUIを探索して操作の前後を含めたスクリーンショットを撮影し、その情報をもとにアノテーションを生成する。そして、学習データを収集しながら、そのデータでモデルを訓練する。
このシステムは、5000時間にわたり、6461個以上のアプリで50万回以上の操作を行い、注釈が付けられたモバイルUIスクリーンショットのデータセットを作成した。得られたデータセットは、既存の人手によるデータセットよりも10倍以上大きい。このようにして収集したデータは「タップ可能性」「ドラッグ可能性」「画面の類似性」の3つのコンピュータビジョンモデルに学習させてテストが行われた。
Never-ending UI Learnerによって得られる多くの利点がある。既存の人為的な注釈データは一時的なスナップショットにすぎないが、この手法を用いることで操作前後のスクリーンショットが取得でき、より正確な注釈が可能となる。
人手によるデータ注釈が不要なため、人為的なミスが排除され、コストも大幅に削減される。さらに、新しくリリース、または更新されたアプリで新しいUIスタイルやトレンドを経験できるため、常に最新のトレンドを追従可能だ。
Source and Image Credits: Wu, J., Krosnick, R., Schoop, E., Swearngin, A., Bigham, J. P., & Nichols, J.(2023). Never-ending Learning of User Interfaces. arXiv preprint arXiv:2308.08726.
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR