Google I/O 2024

米Google、オープンな視覚言語モデル「PaliGemma」公開 「Gemma 2」の登場も予告

 米Googleは5月14日、視覚言語モデル(VLM)「PaliGemma」を公開した。VLMとは視覚的な入力に言語を対応させる言語モデルのことで、画像や動画を入力すると自然言語を出力できる。同社はこれを「オープンなVLM」と位置付けており、Hugging FaceやGitHubなど複数のプラットフォームで公開している。

「PaliGemma」の利用例

 また、同社が現在公開している大規模言語モデル(LLM)「Gemma」の次世代モデルに当たる「Gemma 2」も近々公開する予定であると発表。現在事前学習を進めている段階だが「Gemma 2の270億パラメータの性能は、米MetaのLLM『Llama 3』の700億パラメータに匹敵する」としている。

「Gemma 2」と他LLMとの性能を比較したグラフ

 Gemma 2の公開時期については「今後数週間以内」と説明している。

印刷する
SNSでシェア

この記事の著者

松浦立樹

松浦立樹

関連記事

こんなメディアも見られています

ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。

メールマガジンを配信中
メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

いますぐご登録

よく見られているカテゴリー

アクセスランキング

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10

SpecialPR

ITmedia AI+ SNS

X @itm_aiplusをフォロー

インフォメーション

ITmedia AI+をフォロー

あなたにおすすめの記事PR