米AppleのMachine Learning Researchが、論文投稿サイト「arXiv」において「ReALM: Reference Resolution As Language Modeling」を発表した。ReALMは、画面上の物体への曖昧な言及や、会話での背景の文脈を理解し、音声アシスタントより自然なやりとりを可能にする新たな人工知能システムだという。
ReALMの最小のモデルでは、画面上の参照において5%以上の絶対的な改善を得ることができたという。また、GPT-3.5とGPT-4に対するベンチマークを行い、ReALMの最小モデルはGPT-4と同等の性能を達成し、ReALMの大型モデルはGPT-4を大幅に上回る性能を達成したと説明する。
Appleは、会話アシスタントには、参照を含むコンテキストを理解できることが不可欠だと説明していて、ユーザーが画面に表示されている内容について質問できるようにすることは、音声アシスタントで真のハンズフリー体験を実現するための重要なステップだとしている。
なお、3月18日には米Bloombergが、米Googleの生成AI「Gemini」をiPhoneに搭載する方向で交渉を行っていると報じていた。同誌は、「iOS 18」の一部として、自社開発のAIモデルをベースにした新機能を準備している一方で、簡単なプロンプトに基づいて画像の生成や文書の作成を含む生成AI機能を提供するパートナーを探しているとしていた。
Copyright (C) 1998 Mac Treasure Tracing Club. All rights reserved.
Special
PR