米Googleは12月6日(現地時間)、マルチモーダル生成AIモデルの第1弾として「Gemini」を発表した。データセンターからモバイルデバイスに至るまでのあらゆる場所で効率的に動作するという。
Geminiの最初のバージョンとなる1.0は「Ultra」「Pro」「Nano」の3サイズに分かれる。テキスト、画像、音声、動画、コードなど、さまざまな種類の情報を一般化してシームレスに理解し、操作し、組み合わせることができるという。これらはGoogleが「Google DeepMind」の設立時に抱いていたビジョンを実現したものだという。具体的な位置づけは次の通り。
最も大きなサイズとなるUltraは自然な画像の理解から数学的推論、音声や動画の理解に至るまで、広く使用されている32の業界ベンチマークのうち30で最高の水準を記録したという。数学、物理学、歴史、法律、医学、倫理など57の科目の組み合わせて知識と問題解決能力をテストするMMLU(大規模マルチタスク言語理解)で 90.00%と高いスコアを叩き出し、“人間の専門家を上回る”パフォーマンスを示したという。
Ultraは2024年に開発者や企業に向けて公開される計画だが、その前に一部の顧客、開発者、パートナー、安全責任専門家から得たフィードバックを生かし、改良が行われる。
Proは対話型AIサービス「Bard」(英語版のみ)に実装される。Bard提供以来最大のアップデートによって、Bardは無料かつ高性能な会話型生成AIサービスに進化したという。
Nanoはデバイスだけで動作するように設計されたコンパクトなサイズのGeminiだ。「Tensor 3」プロセッサを搭載したハイエンドのスマートフォン「Pixel 8 Pro」に実装された。音声データの内容をテキストで要約できる他、キーボードアプリ「Gboard」のスマートリプライがPixel 8 Proで生成できるようになる。ただし、当面の間は英語のみでしか利用できないという。
重複するが、GoogleはGeminiを「マルチモーダルでの高度な推論性能を備えた高性能AIモデル」と紹介している。複数(マルチ)の形式と手段(モーダル)を組み合わせて、あらゆるタスクをこなす──それがマルチモーダル生成AIモデルのGeminiだ。
Copyright © ITmedia, Inc. All Rights Reserved.