米Googleは5月20日、モバイルデバイス向けの新しいAIモデル「Gemma 3n」を発表した。スマートフォンやタブレットなどのモバイルデバイス上で直接動作する高性能なマルチモーダルAIで、テキスト、画像、音声、動画を理解・処理できる能力を備える。
同社のオープンなAIモデル「Gemma 3」シリーズの中でも、モバイルデバイス上での効率的な実行に特化して設計されている。Google DeepMindが開発した「Per-Layer Embeddings」と呼ばれる技術により、実際のパラメータ数は5Bと8B(50億、80億パラメータ)でありながら、メモリ上への展開が必要なパラメータ数は2Bと4B(データサイズとしては2GBから3GB)と比較的小さなフットプリントで動作する。
Gemma 3nはモバイルデバイス上で従来のGemma 3 4Bと比較して約1.5倍速く応答を開始し、品質も大幅に向上しているという。また、「mix'n'match」と呼ばれる機能により、4Bモデルから特定のユースケースに最適なサブモデルを動的に作成し、品質とレイテンシーのトレードオフを調整することも可能だ。4Bのモデルは米Anthropicの「Claude 3.7 Sonnet」に肉薄するベンチマークスコアを獲得し、「GPT-4.1-nano」「Llama-4-Maverick」「Phi 4」を上回ったという。
特筆すべき点として、Gemma 3nはオーディオ処理能力を備えており、高品質な自動音声認識や翻訳が可能になっている。また、日本語を含む多言語対応も強化したとしている。
Gemma 3nの開発は、米Qualcomm、台湾MediaTek、韓国Samsung System LSIなどのモバイルハードウェアリーダーと緊密に協力して行われた。同じアーキテクチャは今年後半に提供される次世代のGemini Nanoにも採用される予定という。
開発者は本日から早期プレビューとしてGemma 3nを利用できる。ブラウザ上で直接試せる「Google AI Studio」と、ローカル環境での開発に対応した「Google AI Edge」の2つの方法が提供されている。
Google検索に「AIモード」 質問を解釈してAIが回答、高度なレポートも作成 「エージェント機能」でチケット予約も
「NotebookLM」に動画生成機能 実装時期は「かなり近いうちに」 まずは英語のみ対応
Windows 11がMCP対応へ AIエージェントがファイルシステムやアプリへアクセス可能にCopyright © ITmedia, Inc. All Rights Reserved.