「Gemma 4 12B」登場 メモリ16GBのノートPCでも動作するマルチモーダルモデル

 米Googleは6月3日(現地時間)、マルチモーダルのオープンウェイトモデル「Gemma 4 12B」を発表した。メモリ16GBのノートPCでも動作可能で、ベンチマークはより大型の「Gemma 4 26B」にも迫るという。

 特徴は、小型モデルながら画像と音声の入力に対応している点だ。画像と音声を言語モデルに入力する場合、従来はそれぞれを別々のエンコーダーで変換してから言語モデルに渡すのが一般的だった。Gemma 4 12Bは、画像を軽量の埋め込みモジュールで処理し、音声は生の信号をテキストトークンと同じ次元空間へ直接投影することで、入力の遅延とメモリ使用量を抑えた。

従来のアーキテクチャとGemma 4 12Bのアーキテクチャの比較(出典:開発者ガイド)

 ベンチマークでは、上位の26Bモデルに迫る性能を達成したという。高度な専門知識を問う「GPQA Diamond」では78.8%(26Bモデルは82.3%)、専門知識や論理的思考力を問う「MMLU Pro」は77.2%(同82.6%)となっており、いずれも前世代の「Gemma 3 27B」を超える性能だ。

ベンチマークの結果(出典:公式ブログ)

 モデルの重みは「Apache 2.0」ライセンスで公開されており、「Hugging Face」や「Kaggle」からダウンロードできる。「LM Studio」「Ollama」などのアプリで利用できる他、「llama.cpp」や「vLLM」などのツールや、「Google Cloud」での開発にも利用可能。

印刷する
SNSでシェア

この記事の著者

村田知己

村田知己

ITmedia AI+ 編集記者。市場調査会社でのエンジニア職を経て、2022年アイティメディア入社。キーマンズネット編集部、社内のデータ分析基盤構築担当、ITmedia エンタープライズ編集部を経て現職。

関連記事

こんなメディアも見られています

ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。

メールマガジンを配信中
メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

いますぐご登録

よく見られているカテゴリー

アクセスランキング

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10

SpecialPR

ITmedia AI+ SNS

X @itm_aiplusをフォロー

インフォメーション

ITmedia AI+をフォロー

あなたにおすすめの記事PR