Google、マルチモーダル生成AIモデル「Gemini」リリース
Googleは、5月に予告したマルチモーダルな生成AIモデル「Gemini」の最初のバージョンを発表した。3つのサイズで提供する。最大の「Ultra」は来年の提供になるが、「Pro」は英語版の「Bard」で、「Nano」は「Pixel 8 Pro」で利用可能になっている。
米Googleは12月6日(現地時間)、Google I/Oで予告したマルチモーダルな生成AIモデル「Gemini」の最初のバージョンを発表した。
Gemini 1.0は「Ultra」「Pro」「Nano」の3つのサイズで提供する。「Pro」は同日から生成AIボット「Bard」の英語版に搭載される。また、「Nano」は同社のハイエンドAndroidスマートフォン「Pixel 8 Pro」に搭載される。Pixel 8 Proでは、「レコーダー」アプリの要約強化や、「Gboard」のスマートリプライに展開されるとしているが、日本語対応は未定という。
最大サイズで高度なAIである「Ultra」はまだ「さらなる改良」を行っており、2024年に開発者や企業向けに公開する計画としている。また、2024年にはGemini Ultraで稼働する「Bard Advanced」もリリースする予定だ。
Google DeepMindのデミス・ハサビスCEOは公式ブログで、Geminiを「マルチモーダルとしてゼロから構築」し、「テキスト、画像、音声、動画、コードなど、さまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることができる」と語った。
Googleによると、Gemini Ultraは、32のベンチマークのうち30で、競合する米OpenAIのGPT-4よりも性能で上回ったという。
数学、物理学、歴史、法律、医学、倫理など57の科目の組み合わせて知識と問題解決能力をテストするMMLU(大規模マルチタスク言語理解)では、90.00%のスコアで、人間の専門家を上回るパフォーマンスを示した初のモデルになったと主張する。
競合するGPT-4もマルチモーダルを謳っているが、テキストと画像の2モーダルだ。Geminiは音声と動画のコンテキストも理解する。以下の動画では、人間の動作を見せるとそれに沿ってその動作を理解し、説明している。
Gemini 1.0のトレーニングには、カスタム設計のAIアクセラレータ「TPU」の「v4」および「TPU v5e」を使った。
Googleは、AIモデルのトレーニングに特化して設計した新たなTPUシステム「Cloud TPU v5p」も発表した。この次世代TPUで、Geminiの開発を加速させるとしている。
関連記事
- Google DeepMindのCEO、ChatGPT競合の次世代モデル「Gemini」を語る
Google DeepMindのハサビスCEOがWiredのインタビューで「Gemini」について語った。Geminiは“次世代基盤モデル”。AlphaGoの長所と大規模言語モデルを組み合わせたものと説明した。 - Google I/O 2023基調講演まとめ
Googleが5月10日に開催した年次開発者会議「Google I/O」で発表されたことを時系列にまとめた。約2時間20分という例年より長いイベントでは主にAIの取り組みについて語られた。 - Microsoft Copilot、GPT-4 Turbo、最新DALL・E 3対応などでグレードアップ
Microsoftは、生成AIサービス「Microsoft Copilot」で間もなく提供する予定の複数の新機能を発表した。「GPT-4 Turbo」採用で2023年4月までの情報を反映する他、動画要約も可能になる。 - OpenAI、改良版生成AIモデル「GPT-4 Turbo」を「GPT-4」より安価に提供へ
OpenAIは開発者会議DevDayで生成AIモデル「GPT-4 Turbo」を発表した。パフォーマンス最適化でGPT-4と比較してトークンの価格を大幅に値下げした。また、トレーニングデータを2023年4月までにした。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.