米Apple、iPhoneのUIを理解するモバイル専用AI言語モデル「Ferret-UI」発表　GPT-4V越えの性能：Innovative Tech（AI+）

» 2024年04月12日 12時00分公開

[山下裕毅，ITmedia]

Innovative Tech（AI+）：

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

X：＠shiropen2

　米Appleに所属する研究者らが発表した論文「Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs」は、iPhoneやAndroidなどのモバイルUI画面をより深く理解し、インタラクションできるように設計されたマルチモーダル大規模言語モデル（MLLM）を提案した研究報告である。

　Ferret-UIは、モバイルUIの画面上で、多様な入力形式（点、ボックス、スケッチ）を用いて参照タスク（ウィジェット分類、アイコン認識、OCRなど）を実行し、グラウンディングタスク（ウィジェット検索、アイコン検索、テキスト検索、ウィジェットリスティングなど）を行える。またスクリーンショットの詳細な説明、質疑応答の対話、スクリーンの全体的な機能や目的を推測するタスクなども行える。

Ferret-UIはモバイルUI画面を理解する

　Ferret-UIは、同社が2023年10月に発表した画像内の形や場所を言葉で説明するAI「Ferret」をベースに開発。しかし、UIの画面は一般的に自然画像よりも細長いアスペクト比を持ち、アイコンやテキストなどの小さなオブジェクトが多数存在するという特徴がある。そのため、画面全体を低解像度のまま入力するだけでは、重要な視覚情報が失われてしまう恐れがあった。

　この問題を解決するために、Ferret-UIでは「any-resolution」（anyres）技術を導入。この技術により、画面を複数のサブ画像に分割し、それぞれを別々にエンコードすることで、ディテールを拡大し、豊かな視覚的特徴を活用できるようになった。

Ferret-UIのアーキテクチャ

　学習には、基本的なUIタスクと高度なUIタスクのデータを生成する。基本的なUIタスクには、アイコン認識やテキスト検出などがあり、これらはモデルにUIエレメントのセマンティクスと空間的な位置関係を理解させるために重要である。

　一方、高度なタスクには、詳細な説明や対話、機能推論などがあり、これらはモデルが視覚的な要素について議論し、目的に沿った行動を提案し、画面の全体的な機能を解釈できるように用意されている。

　Ferret-UIの能力を評価するために、研究者らは参照タスクとグラウンディングタスクに関する14種類のモバイルUIタスクからなる包括的なテストベンチマークを開発した。

　このベンチマークを用いてiPhoneとAndroidで評価した結果、Ferret-UIは他のオープンソースのMLLMやGPT-4Vと比較して、基本的なUIタスクにおいて大幅に優れたパフォーマンスを示すことが明らかに。さらに、高度なタスクにおいても、FuyuやCogAgentといった既存のモデルを上回る性能を発揮した。

基本的なタスクデータ生成の概要

高度なタスクデータ生成の概要

Source and Image Credits: Keen You, Haotian Zhang, Eldon Schoop, Floris Weers, Amanda Swearngin, Jeffrey Nichols, Yinfei Yang, Zhe Gan. Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs.

次世代Siri？　Apple、画面内の状況を理解できるAI「ReALM」を論文発表　GPT-4超えとアピール
米AppleのMachine Learning Researchが、論文投稿サイト「arXiv」において「ReALM: Reference Resolution As Language Modeling」を発表した。ReALMは、画面上の物体への曖昧な言及や、会話での背景の文脈を理解し、音声アシスタントより自然なやりとりを可能にする新たな人工知能システムだという。
Appleの“Mシリーズチップ”から秘密鍵を盗む攻撃「GoFetch」　米研究者らが発表
イリノイ大学アーバナ・シャンペーン校やテキサス大学オースティン校などに所属する米研究チームは、AppleのMシリーズチップなどの脆弱性を用いて秘密鍵を復元するサイドチャネル攻撃を提案した研究報告を発表した。
Appleの研究者、マルチモーダルLLM「MM1」の論文発表　視覚タスクではGPT-4Vに匹敵
Appleの研究者は、独自開発のマルチモーダルLLM「MM1」の論文を発表した。画像へのキャプション追加や画像とテキストを使った質問への回答、自然言語推論を行えるよう設計。サイズはコンパクトながら視覚タスクではOpenAIのGPT-4Vに匹敵するとしている。
iPhone、Googleの生成AI「Gemini」搭載か　Appleが交渉中との報道
米Appleは、米Googleの生成人工知能（AI）「Gemini」をiPhoneに搭載する方向で交渉を行っている。米Bloomberg Newsが3月18日、関係者の話として報じた。
欧州委員会、Appleに約2900億円超の制裁金　Appleは控訴へ　Spotifyは「小さな一歩」
欧州委員会は、Appleに18億ユーロ（約2900億円）超の制裁金を科すと発表した。Spotifyからの提訴を受け、2020年からアプリ内課金システムの制限について調査していた件の結論だ。Appleは控訴すると発表した。