次世代Siri？　Apple、画面内の状況を理解できるAI「ReALM」を論文発表　GPT-4超えとアピール

» 2024年04月03日 21時00分公開

[MACお宝鑑定団]

　米AppleのMachine Learning Researchが、論文投稿サイト「arXiv」において「ReALM: Reference Resolution As Language Modeling」を発表した。ReALMは、画面上の物体への曖昧な言及や、会話での背景の文脈を理解し、音声アシスタントより自然なやりとりを可能にする新たな人工知能システムだという。

　ReALMの最小のモデルでは、画面上の参照において5%以上の絶対的な改善を得ることができたという。また、GPT-3.5とGPT-4に対するベンチマークを行い、ReALMの最小モデルはGPT-4と同等の性能を達成し、ReALMの大型モデルはGPT-4を大幅に上回る性能を達成したと説明する。

　Appleは、会話アシスタントには、参照を含むコンテキストを理解できることが不可欠だと説明していて、ユーザーが画面に表示されている内容について質問できるようにすることは、音声アシスタントで真のハンズフリー体験を実現するための重要なステップだとしている。

　なお、3月18日には米Bloombergが、米Googleの生成AI「Gemini」をiPhoneに搭載する方向で交渉を行っていると報じていた。同誌は、「iOS 18」の一部として、自社開発のAIモデルをベースにした新機能を準備している一方で、簡単なプロンプトに基づいて画像の生成や文書の作成を含む生成AI機能を提供するパートナーを探しているとしていた。

Appleの年次開発者会議「WWDC2024」は6月10日から　ヒントは「AI」
Appleは、年次開発者会議「WWDC2024」を6月10日から14日までオンラインで開催すると発表した。同社幹部が「It’s going to be Absolutely Incredible!」とポストしており、AIが大きなるようだ。
GPT-4VでiPhoneの画面を操作するシステム　米Microsoftなどの研究者らが開発
米カリフォルニア大学サンディエゴ校や米Microsoftなどに所属する研究者らは、スマートフォンのGUI（グラフィカルユーザーインタフェース）ナビゲーション用にGPT-4Vを基盤として構築されたエージェントシステムを提案した研究報告を発表した。
スマホアプリの操作をChatGPTで自動化　文章入力でアプリ操作　中国チーム「DroidBot-GPT」開発
中国の清華大学と北京大学に所属する研究者らは、大規模言語モデル（LLM）を利用したAndroidアプリケーションの自動化に焦点を当て、自然言語の記述をスマートフォン上の一連のアクションに変換して実行するシステムを提案した研究報告を発表した。
機械に話しかけて設定できる時代が来る？　なぜ“小規模”なLLMが求められるのか
LLMにおいて、学習パラメータ数は性能に直結する。一方で、注目を集めているのがLLaMaのような小規模なモデルだ。それはなぜか。