Google、マルチモーダル生成AIモデル「Gemini」リリース

Googleは、5月に予告したマルチモーダルな生成AIモデル「Gemini」の最初のバージョンを発表した。3つのサイズで提供する。最大の「Ultra」は来年の提供になるが、「Pro」は英語版の「Bard」で、「Nano」は「Pixel 8 Pro」で利用可能になっている。

[ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

　米Googleは12月6日（現地時間）、Google I/Oで予告したマルチモーダルな生成AIモデル「Gemini」の最初のバージョンを発表した。

（画像：Google）

　Gemini 1.0は「Ultra」「Pro」「Nano」の3つのサイズで提供する。「Pro」は同日から生成AIボット「Bard」の英語版に搭載される。また、「Nano」は同社のハイエンドAndroidスマートフォン「Pixel 8 Pro」に搭載される。Pixel 8 Proでは、「レコーダー」アプリの要約強化や、「Gboard」のスマートリプライに展開されるとしているが、日本語対応は未定という。

Gemini 1.0は3つのサイズで提供（画像：GoogleのYouTubeより）

　最大サイズで高度なAIである「Ultra」はまだ「さらなる改良」を行っており、2024年に開発者や企業向けに公開する計画としている。また、2024年にはGemini Ultraで稼働する「Bard Advanced」もリリースする予定だ。

　Google DeepMindのデミス・ハサビスCEOは公式ブログで、Geminiを「マルチモーダルとしてゼロから構築」し、「テキスト、画像、音声、動画、コードなど、さまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることができる」と語った。

　Googleによると、Gemini Ultraは、32のベンチマークのうち30で、競合する米OpenAIのGPT-4よりも性能で上回ったという。

　数学、物理学、歴史、法律、医学、倫理など57の科目の組み合わせて知識と問題解決能力をテストするMMLU（大規模マルチタスク言語理解）では、90.00％のスコアで、人間の専門家を上回るパフォーマンスを示した初のモデルになったと主張する。

（画像：Googleの公式ブログより）

　競合するGPT-4もマルチモーダルを謳っているが、テキストと画像の2モーダルだ。Geminiは音声と動画のコンテキストも理解する。以下の動画では、人間の動作を見せるとそれに沿ってその動作を理解し、説明している。

　Gemini 1.0のトレーニングには、カスタム設計のAIアクセラレータ「TPU」の「v4」および「TPU v5e」を使った。

　Googleは、AIモデルのトレーニングに特化して設計した新たなTPUシステム「Cloud TPU v5p」も発表した。この次世代TPUで、Geminiの開発を加速させるとしている。

Google データセンターに並ぶ Cloud TPU v5p AI アクセラレータスーパーコンピューター（画像：Google）

Google、マルチモーダル生成AIモデル「Gemini」リリース

関連記事

関連リンク