Xの最新AI「Grok 3」爆速レビュー ChatGPTとの能力差や“ネットの話題把握力”をチェック
イーロン・マスク氏率いる米AI企業xAIが2月18日に公開した、チャットAIアシスタント「Grok」の最新モデル「Grok 3」。Xなどの有料プラン契約者向けに順次提供が始まっており、記者も一部機能のβ版を手元で使える状況になったので、軽く触ってみた感想を伝える。
GPT-4oやClaude 3.5 Sonnet超えうたう新モデル
Grok 3は、旧モデル「Grok 2」の10倍以上の演算能力で事前学習を行ったというモデル。数学、科学、コーディングのベンチマークで、米OpenAIの「GPT-4o」や米Google「Gemini 2 Pro」、米Anthropic「Claude 3.5 Sonnet」、中国DeepSeek「DeepSeek V3」よりも高い性能をマークしたという。
xAIは小規模版「Grok 3 mini」や推論モデル「Grok 3 Reasoning」「Grok 3 mini Reasoning」も同時に公開。推論モデルは、ベンチマークにおいてOpenAIの「o1」や「o3 mini high」、DeepSeekの「DeepSeek R1」、Googleの「Gemini 2 Flash Thinking」よりも高いスコアを記録したとうたう。
一連の新モデルは、Xの有料プラン「プレミアムプラス」ユーザーに加え、Grokの機能を単体で提供する「SuperGrok」(月額30ドル、年額300ドル)のユーザーが利用可能。SuperGrokを契約している場合は、推論モデルを使うとみられる機能「Think」「Big Brain」や、ChatGPTのリサーチ機能「deep research」に似た調査機能「DeepSearch」も利用できる。
今回、記者はXのプレミアムプラスのみを契約しており「Think」「Big Brain」「DeepSearch」を除いた基本的なチャット機能のβ版のみを利用できる状況だ。そのため“素のGrok 3”の応答がどんな具合かに絞ってファーストインプレッションを伝える。
基本的には賢い スラングや引っ掛け回避も余裕
ざっくりした感想だが、素のGrok 3はそこそこ賢い。GPT-4やClaude 3 Haiku、Grok 2などでも間違えることがあった「いっぱいの“い”を“お”に変えて」「9.11と9.9はどちらが大きいか」「徒競走をしています。あなたは3位の人を抜かしました。いま、あなたは何位でしょう?」といった引っ掛け問題は難なくクリアするし、応答に目立った破綻はない。心なしか、応答速度もGrok 2より速く感じられた。
数学オリンピックの問題など、o1 pro modeでも間違えるような問いはさすがに正答できないが、この辺りは恐らく推論モデルを使える「Big Brain」「Think」を使うべきなのだろう。
デフォルトでWebブラウジング機能も備えており「話題になっている○○について調べてなど、調べごとを頼むと、特別な操作なしで10数件のWebサイトや3~10件程度のXの投稿から情報を探してくれる。参照したソースも確認可能だ。
Xのデータを使っているからか、ネットミームやスラングの解釈にも強い。例えば、許容し切れない出来事が起きたり、話の流れが予想していたものと異なったりして、ズッコけるほどの衝撃を受けたことを指すスラング「横転」について聞くとこんな感じだ。
対して、GPT-4oやo3-mini、Grok 2はこんな感じ。実際にこのスラングを使う年齢層からすると、Grok 3が最も実態に沿っていると感じる。
思想の偏りは? DEIやLGBTについて聞いてみた
昨今の国際情勢もあって、多様性や政治的な問題について、モデル自体の思想がどんな感じになっているかも気になったので、いくつか質問してみた。結論から言うと「ちょっとトランプ陣営っぽさがあるな……」という感じだ。
例えばLGBTやDEI(多様性、公平性、包括性)について意見を聞くとこんな感じ。
米国の移民問題についてはこんな感じだ。
公平を心掛けている気もするが、若干左派的な意見への評価が手厳しいように感じる。ちなみにイーロン・マスク氏や、同氏とNASAを巡る騒動について聞くとこんな感じだった。
「Xの情報収集」目的には、ちょっと工夫がいるかも
一部のユーザーが期待していたであろう「Xの最新投稿を最大限に活用して返答する」能力については、ちょっと物足りなさがあった。
記者の個人的な意見も混じるが、現状ChatGPTやClaudeがXの情報にアクセスできないこともあって、GrokにXの投稿を最大限に活用した、トレンドの把握支援を期待していたユーザーもいたはずだ。記者も、GrokにXユーザー発の意見や情報をピックアップさせ、それをChatGPTのo1 pro modeでの推論やdeep researchでの調査、GoogleのAI活用メモアプリ「NotebookLM」で活用できたらいいなと考えていた。
ただ、少なくとも“素”のGrok 3には、期待していたタスクを任せるのは難しい、もしくはプロンプトの工夫などを求められそうだ。というのも、Grok 3はWebブラウジングによって得た外部サイトの情報に頼りがちな傾向や、すぐ話題を総論的な方向性に持っていきたがる傾向がみられる。
例えば「2月18日現在、Xで注目を浴びている個別のトピックを教えて」と聞いた際の回答。聞き手としては、Xの投稿を個別に分析して「Xではこういう動画がバズっている」「こういう投稿が物議をかもしている」という、具体的な返答を期待していた。しかしGrok 3は頼んでもないのに外部のWebサイトを参照し「花粉対策が話題」「新しいマイナーガジェットに注目が集まっている」と、そんなのこの時期ずっと話題だろうがという返しをしてくる。
倫理的な問題を懸念してか、はたまたXにおけるデマや扇動の横行を考慮してか、個別のポストを参照しすぎることを避けているようで、なるべく個別のポストを参照したり、X固有の話題を挙げたり、固有名詞を出したりするようするよう頼んでも、あまり効果がなかった。
そのため、最新トレンドを把握したくてGrokに相談しても、外部の情報を参照し、周回遅れな返答が返ってきやすい印象だった。こういった用途ではDeepSearchを使え、ということだろうか。
ただ、個別の話題については悪くない。具体的に名前を出して「今炎上している○○についてまとめて」と聞くと、10件近くのポストを参照した、分かりやすいまとめが返ってくる印象だった。もちろん、ソースはXのポストなので、真偽性の確認には使えないだろうが、「ネットの反応」の温度感を探るにはよさそうだ。
これまで、ChatGPTやClaudeに比べるとパッとしていなかったGrokだが、ここにきてリサーチ機能や高度な推論など、昨今注目されている機能を全部搭載した“てんこもりAI”に進化してきた。「Think」「Big Brain」「DeepSearch」に触れていないのでまだ何とも言えないところはあるが、ChatGPTの最上級プランに比べると値段も安いので、新機能の性能次第でさらに注目を浴びる可能性がありそうだ。
一方で、激動する国際情勢のど真ん中にいる、破天荒なビジネスパーソンによるサービスということもあって、この先何が起こるか分からない懸念をはらんだAIでもある。いろんな意味で渦中のAIといえるGrokが今後どうなっていくか、目が離せない。
著者:吉川大貴
ITmedia AI+、ITmedia NEWS編集記者。2020年にアイティメディアに入社。ITmedia AI+ではAIツール・サービスのレビュー記事などを執筆。ITmedia NEWSでは主にAWSやさくらインターネットなどのクラウドインフラ動向やITスタートアップ、ゲーム業界の取材を担当し、社内の編集表彰を複数回受賞している。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
2
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
3
キオクシア社長「記録的な増収増益」 3カ月の売上収益1兆円、純利益は2990%増 好決算の背景は
-
4
「AIデータセンターの電力需要が急増」はホント? 発電大手Jパワー社長が明かした“報道との温度差”
-
5
伊藤忠商事や三菱ケミカルなど16社が参画 大手企業の「暗黙知」を活用する新プロジェクト
-
6
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
7
NEC社長が説く AI時代と新たな安全保障環境の到来で「ITサービスはこう変わる」
-
8
OpenAI、「ChatGPT」に個人向け資産管理機能 金融口座と連携
-
9
「邪魔すぎ」――LINE入力欄の“新AI機能”が不評 消し方は?
-
10
Python 3.15に追加されるlazy importと内包表記でのアンパッキングについて調べてみた
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR