メディア
ITmedia AI+ >

イーロン・マスク氏のxAI、「Grok 3」発表 推論モデルは「o1」超うたう、調査機能「DeepSearch」も

» 2025年02月18日 16時20分 公開
[ITmedia]

 イーロン・マスク氏が手掛ける米xAIは2月18日、新しいAIモデル群「Grok 3」を発表した。「Grok 2」の後継にあたるモデルで、Grok 3と小規模版「Grok 3 mini」の他、推論モデル「Grok 3 Reasoning」「Grok 3 mini Reasoning」、OpenAIの「deep research」に似た調査機能「DeepSearch」も登場した。

「Grok 3」は18日から、Grok専用アプリにて利用可能に(Xのプレミアムプラス会員向け)

 Grok 3は、Grok 2の10倍以上の演算能力で学習を行い、数学的推論や科学的知識、コーディングなど幅広い分野で高い性能を実現するという。数学、科学、コーディングのベンチマークでは、米OpenAIの「GPT 4o」や米Google「Gemini 2 Pro」、米Anthropic「Claude 3.5 Sonnet」、中国DeepSeek「DeepSeek V3」よりも高い性能をマークするという。

数学(AIME'24)、科学(GPQA)、コーディング(LCB Oct-Feb)にて、OpenAIの「4o」やGoogleの「Gemini 2 Pro」などより高い性能とアピール
「Chatbot Arena(LMSYS)」では、OpenAIの「o1」やDeepSeekの「DeepSeek R1」を超えるという

 現在開発中の推論モデルは、β版のベンチマーク(数学・科学・コーディング)を披露。より長時間推論させることで、OpenAIの「o1」や「o3 mini high」、DeepSeekの「DeepSeek R1」、Googleの「Gemini 2 Flash Thinking」よりも高いスコアを記録したとアピールする。特に、数学とコーディングでは、小規模版のGrok 3 mini Reasoningがオリジナルのスコアを上回ったという。より長い推論は「Big Brain」ボタンとしてGrokに実装される。

推論モデルのベンチマークでは、より長い推論を行うことで他社モデルを超える性能に
AIME 2025でも、長い推論を行うことで「o1」や「DeepSeek R1」を超えるとアピールする

 DeepSearchは、Webブラウジングと検索機能を備えたエージェントで、先述のdeep researchや、GoogleやPerplexityの「Deep Research」と同様、複数の情報源から関連情報を収集・検証した上で回答を生成する。deep researchではアクセスできないXの投稿からも収集でき、デモでは「次のStarship(米SpaceXの大型宇宙船)の打ち上げはいつ?」という質問に、複数のWebサイトだけでなく、Xの投稿も調査する様子を見ることができた。

今回の発表は3つ。Grok 3と推論モデル、そしてエージェント機能
「DeepSearch」は、OpenAIの「deep research」ではアクセスできないXの投稿も調査していることが分かる

 Grok 3の開発には、米テネシー州メンフィスに新設した大規模データセンター「Colossus」を活用。122日という短期間で10万基のNVIDIA H100を稼働させ、その後、92日間で20万基まで規模を拡大したという。液冷システムの採用や、米Teslaの「Megapack」を用いた電力変動制御など、独自の技術開発により大規模なGPUクラスターの運用を実現している。

メンフィスにxAIが設置したデータセンター「Colossus」

 Grok 3は18日から、Xのプレミアムプラス会員向けに提供を開始。Grokの専用サイトでは「SuperGrok」と呼ばれる有償プランも提供(月額30ドル、年額300ドル)し、追加の推論機能やDeepSearchなどにアクセスできるとしている。イーロン・マスク氏によると、約1週間後には音声対話機能も追加される予定という。

DeepSearchや推論機能など早期アクセスできる「SuperGrok」も用意

 また、同社はすでに次世代モデルの開発に着手しており、1.2GW規模の新データセンターの建設も進行中。マスク氏は「ほぼ毎日のように性能が向上する」とコメントし、今後はAIゲームスタジオの設立も計画しているとしている。

Copyright © ITmedia, Inc. All Rights Reserved.