米Googleは12月6日(現地時間)、Google I/Oで予告したマルチモーダルな生成AIモデル「Gemini」の最初のバージョンを発表した。
Gemini 1.0は「Ultra」「Pro」「Nano」の3つのサイズで提供する。「Pro」は同日から生成AIボット「Bard」の英語版に搭載される。また、「Nano」は同社のハイエンドAndroidスマートフォン「Pixel 8 Pro」に搭載される。Pixel 8 Proでは、「レコーダー」アプリの要約強化や、「Gboard」のスマートリプライに展開されるとしているが、日本語対応は未定という。
最大サイズで高度なAIである「Ultra」はまだ「さらなる改良」を行っており、2024年に開発者や企業向けに公開する計画としている。また、2024年にはGemini Ultraで稼働する「Bard Advanced」もリリースする予定だ。
Google DeepMindのデミス・ハサビスCEOは公式ブログで、Geminiを「マルチモーダルとしてゼロから構築」し、「テキスト、画像、音声、動画、コードなど、さまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることができる」と語った。
Googleによると、Gemini Ultraは、32のベンチマークのうち30で、競合する米OpenAIのGPT-4よりも性能で上回ったという。
数学、物理学、歴史、法律、医学、倫理など57の科目の組み合わせて知識と問題解決能力をテストするMMLU(大規模マルチタスク言語理解)では、90.00%のスコアで、人間の専門家を上回るパフォーマンスを示した初のモデルになったと主張する。
競合するGPT-4もマルチモーダルを謳っているが、テキストと画像の2モーダルだ。Geminiは音声と動画のコンテキストも理解する。以下の動画では、人間の動作を見せるとそれに沿ってその動作を理解し、説明している。
Gemini 1.0のトレーニングには、カスタム設計のAIアクセラレータ「TPU」の「v4」および「TPU v5e」を使った。
Googleは、AIモデルのトレーニングに特化して設計した新たなTPUシステム「Cloud TPU v5p」も発表した。この次世代TPUで、Geminiの開発を加速させるとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR