米Google、オープンな視覚言語モデル「PaliGemma」公開　「Gemma 2」の登場も予告：Google I/O 2024

米Googleは、視覚言語モデル（VLM）「PaliGemma」を公開した。

LINE

Hatena

　米Googleは5月14日、視覚言語モデル（VLM）「PaliGemma」を公開した。VLMとは視覚的な入力に言語を対応させる言語モデルのことで、画像や動画を入力すると自然言語を出力できる。同社はこれを「オープンなVLM」と位置付けており、Hugging FaceやGitHubなど複数のプラットフォームで公開している。

「PaliGemma」の利用例

　また、同社が現在公開している大規模言語モデル（LLM）「Gemma」の次世代モデルに当たる「Gemma 2」も近々公開する予定であると発表。現在事前学習を進めている段階だが「Gemma 2の270億パラメータの性能は、米MetaのLLM『Llama 3』の700億パラメータに匹敵する」としている。

「Gemma 2」と他LLMとの性能を比較したグラフ

　Gemma 2の公開時期については「今後数週間以内」と説明している。

米Google、オープンな視覚言語モデル「PaliGemma」公開　「Gemma 2」の登場も予告：Google I/O 2024

関連記事

関連リンク

米Google、オープンな視覚言語モデル「PaliGemma」公開 「Gemma 2」の登場も予告：Google I/O 2024

関連記事

関連リンク

米Google、オープンな視覚言語モデル「PaliGemma」公開　「Gemma 2」の登場も予告：Google I/O 2024