ITmedia AI＋
生成AI
Xの最新AI「Grok 3」爆速レビュー　ChatGPTとの能力差や“ネットの話題把握力”をチェック

Xの最新AI「Grok 3」爆速レビュー　ChatGPTとの能力差や“ネットの話題把握力”をチェック

公開 2025年02月18日 20時06分

[ITmedia]

印刷する

　イーロン・マスク氏率いる米AI企業xAIが2月18日に公開した、チャットAIアシスタント「Grok」の最新モデル「Grok 3」。Xなどの有料プラン契約者向けに順次提供が始まっており、記者も一部機能のβ版を手元で使える状況になったので、軽く触ってみた感想を伝える。

GPT-4oやClaude 3.5 Sonnet超えうたう新モデル

　Grok 3は、旧モデル「Grok 2」の10倍以上の演算能力で事前学習を行ったというモデル。数学、科学、コーディングのベンチマークで、米OpenAIの「GPT-4o」や米Google「Gemini 2 Pro」、米Anthropic「Claude 3.5 Sonnet」、中国DeepSeek「DeepSeek V3」よりも高い性能をマークしたという。

　xAIは小規模版「Grok 3 mini」や推論モデル「Grok 3 Reasoning」「Grok 3 mini Reasoning」も同時に公開。推論モデルは、ベンチマークにおいてOpenAIの「o1」や「o3 mini high」、DeepSeekの「DeepSeek R1」、Googleの「Gemini 2 Flash Thinking」よりも高いスコアを記録したとうたう。

　一連の新モデルは、Xの有料プラン「プレミアムプラス」ユーザーに加え、Grokの機能を単体で提供する「SuperGrok」（月額30ドル、年額300ドル）のユーザーが利用可能。SuperGrokを契約している場合は、推論モデルを使うとみられる機能「Think」「Big Brain」や、ChatGPTのリサーチ機能「deep research」に似た調査機能「DeepSearch」も利用できる。

　今回、記者はXのプレミアムプラスのみを契約しており「Think」「Big Brain」「DeepSearch」を除いた基本的なチャット機能のβ版のみを利用できる状況だ。そのため“素のGrok 3”の応答がどんな具合かに絞ってファーストインプレッションを伝える。

基本的には賢い　スラングや引っ掛け回避も余裕

　ざっくりした感想だが、素のGrok 3はそこそこ賢い。GPT-4やClaude 3 Haiku、Grok 2などでも間違えることがあった「いっぱいの“い”を“お”に変えて」「9.11と9.9はどちらが大きいか」「徒競走をしています。あなたは3位の人を抜かしました。いま、あなたは何位でしょう？」といった引っ掛け問題は難なくクリアするし、応答に目立った破綻はない。心なしか、応答速度もGrok 2より速く感じられた。

　数学オリンピックの問題など、o1 pro modeでも間違えるような問いはさすがに正答できないが、この辺りは恐らく推論モデルを使える「Big Brain」「Think」を使うべきなのだろう。

　デフォルトでWebブラウジング機能も備えており「話題になっている○○について調べてなど、調べごとを頼むと、特別な操作なしで10数件のWebサイトや3～10件程度のXの投稿から情報を探してくれる。参照したソースも確認可能だ。

　Xのデータを使っているからか、ネットミームやスラングの解釈にも強い。例えば、許容し切れない出来事が起きたり、話の流れが予想していたものと異なったりして、ズッコけるほどの衝撃を受けたことを指すスラング「横転」について聞くとこんな感じだ。

　対して、GPT-4oやo3-mini、Grok 2はこんな感じ。実際にこのスラングを使う年齢層からすると、Grok 3が最も実態に沿っていると感じる。

o3-miniの回答

GPT-4oの回答

Grok 2の回答

思想の偏りは？　DEIやLGBTについて聞いてみた

　昨今の国際情勢もあって、多様性や政治的な問題について、モデル自体の思想がどんな感じになっているかも気になったので、いくつか質問してみた。結論から言うと「ちょっとトランプ陣営っぽさがあるな……」という感じだ。

　例えばLGBTやDEI（多様性、公平性、包括性）について意見を聞くとこんな感じ。

　米国の移民問題についてはこんな感じだ。

　公平を心掛けている気もするが、若干左派的な意見への評価が手厳しいように感じる。ちなみにイーロン・マスク氏や、同氏とNASAを巡る騒動について聞くとこんな感じだった。

「Xの情報収集」目的には、ちょっと工夫がいるかも

　一部のユーザーが期待していたであろう「Xの最新投稿を最大限に活用して返答する」能力については、ちょっと物足りなさがあった。

　記者の個人的な意見も混じるが、現状ChatGPTやClaudeがXの情報にアクセスできないこともあって、GrokにXの投稿を最大限に活用した、トレンドの把握支援を期待していたユーザーもいたはずだ。記者も、GrokにXユーザー発の意見や情報をピックアップさせ、それをChatGPTのo1 pro modeでの推論やdeep researchでの調査、GoogleのAI活用メモアプリ「NotebookLM」で活用できたらいいなと考えていた。

　ただ、少なくとも“素”のGrok 3には、期待していたタスクを任せるのは難しい、もしくはプロンプトの工夫などを求められそうだ。というのも、Grok 3はWebブラウジングによって得た外部サイトの情報に頼りがちな傾向や、すぐ話題を総論的な方向性に持っていきたがる傾向がみられる。

　例えば「2月18日現在、Xで注目を浴びている個別のトピックを教えて」と聞いた際の回答。聞き手としては、Xの投稿を個別に分析して「Xではこういう動画がバズっている」「こういう投稿が物議をかもしている」という、具体的な返答を期待していた。しかしGrok 3は頼んでもないのに外部のWebサイトを参照し「花粉対策が話題」「新しいマイナーガジェットに注目が集まっている」と、そんなのこの時期ずっと話題だろうがという返しをしてくる。

　倫理的な問題を懸念してか、はたまたXにおけるデマや扇動の横行を考慮してか、個別のポストを参照しすぎることを避けているようで、なるべく個別のポストを参照したり、X固有の話題を挙げたり、固有名詞を出したりするようするよう頼んでも、あまり効果がなかった。

　そのため、最新トレンドを把握したくてGrokに相談しても、外部の情報を参照し、周回遅れな返答が返ってきやすい印象だった。こういった用途ではDeepSearchを使え、ということだろうか。

　ただ、個別の話題については悪くない。具体的に名前を出して「今炎上している○○についてまとめて」と聞くと、10件近くのポストを参照した、分かりやすいまとめが返ってくる印象だった。もちろん、ソースはXのポストなので、真偽性の確認には使えないだろうが、「ネットの反応」の温度感を探るにはよさそうだ。

　これまで、ChatGPTやClaudeに比べるとパッとしていなかったGrokだが、ここにきてリサーチ機能や高度な推論など、昨今注目されている機能を全部搭載した“てんこもりAI”に進化してきた。「Think」「Big Brain」「DeepSearch」に触れていないのでまだ何とも言えないところはあるが、ChatGPTの最上級プランに比べると値段も安いので、新機能の性能次第でさらに注目を浴びる可能性がありそうだ。

　一方で、激動する国際情勢のど真ん中にいる、破天荒なビジネスパーソンによるサービスということもあって、この先何が起こるか分からない懸念をはらんだAIでもある。いろんな意味で渦中のAIといえるGrokが今後どうなっていくか、目が離せない。

著者：吉川大貴

ITmedia AI＋、ITmedia NEWS編集記者。2020年にアイティメディアに入社。ITmedia AI＋ではAIツール・サービスのレビュー記事などを執筆。ITmedia NEWSでは主にAWSやさくらインターネットなどのクラウドインフラ動向やITスタートアップ、ゲーム業界の取材を担当し、社内の編集表彰を複数回受賞している。

印刷する