ここで、Apple Intelligenceはどういうものかを振り返ってみよう。基調講演で概要を知ることはできるが、手っ取り早くその細部まで理解を深められる資料がある。それは、「Platforms State of the Union」だ。
Platforms State of the Unionは、WWDC基調講演の後に開催されるイベントで、発表内容をデベロッパー向けにもっと詳しくまとめたもの。長年の参加者はこっちが本番とする人がほとんどだ。現在はリアルなイベントではなく1本のまとまったビデオとなっているが、個別のセッションよりも分かりやすく、担当者が入れ替わり立ち替わり説明してくれる。
1時間を超えるビデオのうち、冒頭の20分を費やしているのが、Apple Intelligenceについて。
メインのプレゼンテーションはIntelligent System Experience Engineering担当VPのセバスチャン・マリノー=メス氏が行っている。彼の最初の説明がApple Intelligenceを端的に説明している。
「Apple IntelligenceはPersonal Intelligence Systemで、強力な生成モデルをプラットフォームにもたらす。これによってiOS、iPadOS、macOSは強力な新機能を得ることができ、言語や画像を理解し生成できる。ユーザーのコンテキストを深く理解した上でその行動を手助けするというものだ」
これだけだと「ああ、そうですね。そうなりますよね」というくらいだが、これを実現するためにどのようにしたか、というのが重要になる。
Appleが最初に下した決断は、「オンデバイスで行く」というもの。つまり、iPhone、iPad、Macのデバイス上でLLMを動かす。クラウドに投げて結果をデバイスで表示するようなことは基本しない、ということだ。Apple SiliconにはNeural Engineを古くから積んでおり、その上で動く機械学習モデルはさまざまな用途で使われてきたから不思議なことではない。
しかし、大規模言語モデルというからには、LLMはサイズも実行環境も重い。いくら高性能でUnified Memoryにより比較的潤沢で高速なメモリを持つとはいえ、通常のLLMを載せるのは不可能だ。
一方で、こうしたオンデバイス向けのLLM、SLM(小規模言語モデル)も開発が進んでいる。2024年4月23日にはMicrosoftがPhi-3を公開した。3.8Bからスタートする小規模だが効率的なモデルだ。その翌日にはAppleがOpenELMという小規模なLLMを公開。こちらは270M、450M、1.1B、3Bとさらにフットプリントが小さいもの。
GoogleのLLMであるGeminiにもオンデバイス向けのモデル「Gemini Nano」があり、PixelやChromebook、そしてChromeブラウザにも組み込まれる予定。Chromeへの組み込みは既にスタートしており、Canaryで利用可能。サイズは4bit 3.25Bといわれている。
Metaは6月27日に、MobileLLMを発表。1Bを切る小さなサイズながら高性能をうたっている。オープンソースのLlama 2についてもQualcommとの提携によってSnapdragon上で動かすことに成功している。
いずれもオンデバイス上でのLLM動作を実現したのは2024年の春以降。2023年の時点では満足のいくLLMは、数十Gバイトの高速メモリや高性能GPUを搭載したモンスターマシンでなければ動かせなかった。
つまり、この時点でLLMをデバイスに組み込もうとしても無理な相談で、デバイスからのクエリをクラウドに投げて戻っていくるのを待たなければならなかった。
Appleはセキュリティの観点からもユーザー体験からも、この道を取るわけにはいかなかった。
そこでどうしたか。それはPlatforms State of the Unionで説明されている。
Appleが取ったのは、オンデバイスとクラウドのハイブリッド戦略だ。大半のLLMタスクはオンデバイスで処理し、そこで処理できない、より大きなコンピューティングパワーが必要なタスクはクラウドで処理する。この仕組み、「Private Cloud Compute」(PCC)は、Apple自身の専用データセンターで、セキュリティ、プライバシーを確保したプライベートクラウド上で、現行の最高レベルのLLMに匹敵する性能を出せるという。
つまり、2種類のLLMのFoundation Model(基礎モデル)を作って提供しようというのだ。
このうちオンデバイスLLMの方は3B以下なので、恐らくOpenELMがその成果の1つなのだろう。この基礎モデルがある程度形になったからこそ、Apple Intelligenceが発表できるようになったと推測できる。
OpenELMはあくまでもオープンソースコミュニティー向けの研究目的のAIモデルであり、更新の計画はないとAppleは説明している。
Appleにはこれとは別に、2023年11月に発表したマルチモーダルLLM「Ferret」もある。これは視覚インプットが可能なGPT-4レベルのLLMであるLLaVAをベースに開発。それを発展させて2024年4月に論文発表された「Ferret-UI」では、スマートフォンユーザーインタフェースの参照、位置特定、推論をこなしている。
このように、表立った活動ではないが、Appleは着々とスマートフォンで動くLLMの技術を蓄積していたのだ。
Apple、生成AI「Apple Intelligence」発表 オンデバイス処理でSiriも大幅進化、ChatGPTとも連携
Apple Intelligenceでオリジナル絵文字を生成する「Genmoji」、「メッセージ」で利用可能に
「ChatGPT」アプリの登場で“生成AIとSiriの関係”はどう変わる? AppleのAI戦略を予想する
「Siri」と「AI」の関係を整理する
Androidに“Google AI”の新機能 OSにGeminiを統合、「かこって検索」で問題を解く機能などCopyright © ITmedia, Inc. All Rights Reserved.