メディア
ITmedia AI+ >

米Google、オープンな視覚言語モデル「PaliGemma」公開 「Gemma 2」の登場も予告Google I/O 2024

» 2024年05月15日 05時08分 公開
[松浦立樹ITmedia]

 米Googleは5月14日、視覚言語モデル(VLM)「PaliGemma」を公開した。VLMとは視覚的な入力に言語を対応させる言語モデルのことで、画像や動画を入力すると自然言語を出力できる。同社はこれを「オープンなVLM」と位置付けており、Hugging FaceやGitHubなど複数のプラットフォームで公開している。

「PaliGemma」の利用例

 また、同社が現在公開している大規模言語モデル(LLM)「Gemma」の次世代モデルに当たる「Gemma 2」も近々公開する予定であると発表。現在事前学習を進めている段階だが「Gemma 2の270億パラメータの性能は、米MetaのLLM『Llama 3』の700億パラメータに匹敵する」としている。

「Gemma 2」と他LLMとの性能を比較したグラフ

 Gemma 2の公開時期については「今後数週間以内」と説明している。

Copyright © ITmedia, Inc. All Rights Reserved.