ITmedia NEWS > 企業・業界動向 >
ITmedia AI+ AI活用のいまが分かる

Appleの研究者、マルチモーダルLLM「MM1」の論文発表 視覚タスクではGPT-4Vに匹敵

» 2024年03月18日 10時11分 公開
[ITmedia]

 米Appleの研究者らは3月14日(現地時間)、独自開発のマルチモーダルLLM(MLLM)「MM1」の論文を発表した。画像へのキャプション追加や画像とテキストを使った質問への回答、自然言語推論を行えるよう設計したとしている。

 mm1 ユーザーが質問と答えのルールを示すと、質問に正しく答える(画像:論文より)

 MM1は、画像とテキストのペア、画像とテキストの混合データ、テキストのみのデータの混合でトレーニングされている。Mixture-of-Experts(MoE)や教師あり微調整でパラメータを300億までスケールアップすることで、比較的コンパクトなサイズでも競合するMLLMに匹敵する結果をベンチマークで達成したとしている。

 mm2 競合とのベンチマーク結果比較(画像:論文より)

 視覚タスクでは、米OpenAIの「GPT-4V」や米Googleの「Gemini」に匹敵している。

 MM1のアーキテクチャなどは公開されていない。Appleの研究者らは論文の結論を「ここで得られた知見が、コミュニティが特定の単一モデルアーキテクチャやデータ戦略を超えて、強力なモデルを構築するのに役立つことを願っている」と結んだ。

 Appleの研究者らは、昨年12月ごろから複数のLLM関連の論文を発表してきた。

 Appleのティム・クックCEOは2月の業績発表で、年内にAI分野で進行中の取り組みの詳細を共有すると語った。

Copyright © ITmedia, Inc. All Rights Reserved.