ITmedia NEWS > 製品動向 >
ITmedia AI+ AI活用のいまが分かる

Google、マルチモーダル生成AIモデル「Gemini」リリース

» 2023年12月07日 07時07分 公開
[ITmedia]

 米Googleは12月6日(現地時間)、Google I/Oで予告したマルチモーダルな生成AIモデル「Gemini」の最初のバージョンを発表した。

 gemini 1 (画像:Google)

 Gemini 1.0は「Ultra」「Pro」「Nano」の3つのサイズで提供する。「Pro」は同日から生成AIボット「Bard」の英語版に搭載される。また、「Nano」は同社のハイエンドAndroidスマートフォン「Pixel 8 Pro」に搭載される。Pixel 8 Proでは、「レコーダー」アプリの要約強化や、「Gboard」のスマートリプライに展開されるとしているが、日本語対応は未定という。

 gemini 2 Gemini 1.0は3つのサイズで提供(画像:GoogleのYouTubeより)

 最大サイズで高度なAIである「Ultra」はまだ「さらなる改良」を行っており、2024年に開発者や企業向けに公開する計画としている。また、2024年にはGemini Ultraで稼働する「Bard Advanced」もリリースする予定だ。

 Google DeepMindのデミス・ハサビスCEOは公式ブログで、Geminiを「マルチモーダルとしてゼロから構築」し、「テキスト、画像、音声、動画、コードなど、さまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることができる」と語った。

 Googleによると、Gemini Ultraは、32のベンチマークのうち30で、競合する米OpenAIのGPT-4よりも性能で上回ったという。

 数学、物理学、歴史、法律、医学、倫理など57の科目の組み合わせて知識と問題解決能力をテストするMMLU(大規模マルチタスク言語理解)では、90.00%のスコアで、人間の専門家を上回るパフォーマンスを示した初のモデルになったと主張する。

 gemini 3 (画像:Googleの公式ブログより)

 競合するGPT-4もマルチモーダルを謳っているが、テキストと画像の2モーダルだ。Geminiは音声と動画のコンテキストも理解する。以下の動画では、人間の動作を見せるとそれに沿ってその動作を理解し、説明している。


 Gemini 1.0のトレーニングには、カスタム設計のAIアクセラレータ「TPU」の「v4」および「TPU v5e」を使った。

 Googleは、AIモデルのトレーニングに特化して設計した新たなTPUシステム「Cloud TPU v5p」も発表した。この次世代TPUで、Geminiの開発を加速させるとしている。

 gemini 4 Google データセンターに並ぶ Cloud TPU v5p AI アクセラレータ スーパーコンピューター(画像:Google)

Copyright © ITmedia, Inc. All Rights Reserved.