米Appleは12月12日(現地時間)、iPhoneのようなメモリ容量の限られた端末上でLLM(大規模言語モデル)を実行するための技術に関する論文「LLM in a flash:Efficient Large Language Model Inference with Limited Memory」を公開した(リンク先はPDF)。
タイトルを直訳すると「一瞬でLLM:限られたメモリでの効率的な大規模言語モデル推論」となるが、「LLM in the flash」はフラッシュメモリに収まるLLMという意味も含まれている。
Appleはメモリ容量が限られた端末上でLLMを実行するアプローチとして、この制約に合わせた推論コストモデルを開発することで革新的な手法を編み出したという。
この手法を用いると利用可能なDRAMの最大2倍のサイズのLLMを実行でき、CPUでは従来の方法と比較して4〜5倍、GPUでは20〜25倍という推論速度の高速化を達成したとしている。
ティム・クックCEOは8月のCNBCのインタビューで、「研究ベースでは、生成系AIを含むAIと機械学習の研究を何年も行ってきた」と語ったが、AIチャットbotでは米OpenAI(のChatGPT)などに後れを取っている。
高性能なLLMは膨大な計算力を必要とし、基本的にクラウド上で稼働するが、Appleはユーザーのプライバシーを重視することもあり、サービスを端末側で完結させたい考えだ。
LLM in the flashの手法が実用化されれば、iPhoneで使えるChatGPTのようなチャットbotの提供が実現するかもしれない。
米Googleは6日に発表した生成AIモデル「Gemini」の最小モデル「Gemini Nano」を既に「Pixel 8 Pro」(の英語版)に搭載済みだ。
米Microsoftも13日、SLM(小規模言語モデル)の「Phi-2」をリリースした。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR