イーロン・マスク氏のLLM「Grok」、1.5更新で画像認識可能に
イーロン・マスク氏のAI企業xAIは、独自のLLM「Grok」の「1.5V」版を発表した。画像認識のマルチモーダルになった。画像認識のベンチマークで「GPT-4V」、「Claude 3 Opus」、「Gemini Pro 1.5」を上回ったとしている。
イーロン・マスク氏の米AI企業xAIは4月12日(現地時間)、昨年11月に発表した独自LLM(大規模言語モデル)「Grok」の更新版「Grok-1.5V」を発表した。同社初のマルチモーダルモデルで、画像を認識する。既存のGrokユーザーに間もなく提供される予定。
1.5Vの最大の特徴は画像認識能力だ。手書きのフローチャートやスクリーンショット、写真などの解析で、既存のマルチモーダルモデルと競合するとしている。
xAIは例として、ホワイトボードに手書きしたフローチャートをPythonのコードにするようGrokに命じ、正しいコードを出力させたことを紹介している。
また、Grokがユーモアを解することを示すような例も示した。
競合との性能比較には、“新たに導入するベンチマーク”の「RealWorldQA」を用いた。このベンチマークで、Grok-1.5Vの空間理解能力が、OpenAIの「GPT-4V」、Anthropicの「Claude 3 Sonnet」および「Claude 3 Opus」、Googleの「Gemini Pro 1.5」よりも優れているという結果が出たとしている。
xAIは、「マルチモーダルな理解と生成機能を進歩させることは、宇宙を理解できる有益なAGI構築のための重要なステップだ」とし、向こう数カ月で画像だけでなく、音声や動画などのモダリティにわたって理解だけでなく生成の機能も大幅に改善していく予定だとしている。
関連記事
- イーロン・マスク氏のxAI、LLM「Grok-1」をオープンに
イーロン・マスク氏のAI企業xAIは、予告通りLLM「Grok-1」の基本モデルの重みとアーキテクチャをオープンソース化した。GitHubでApache 2ライセンスで配布している。マスク氏はXでChatGPTのアカウントに「“オープン”について説明して」とコメントした。 - イーロン・マスク氏、米OpenAIとサム・アルトマンCEOを提訴 「営利追及するのは契約違反」
米国の実業家であるイーロン・マスク氏は、米OpenAIとサム・アルトマンCEOを契約違反でサンフランシスコの裁判所に提訴した。 - xAI、“全人類に利益をもたらすAIツール”を目指す「Grok」正式発表
イーロン・マスク氏が7月に立ち上げたAI企業xAIは、同社初のAIモデル「Grok」を発表した。まだ初期β段階だが、ベンチマークでは「ChatGPT-3.5」や「Inflection-1」を上回るとしている。 - xAIのAIボット「Grok」、Xプレミアムのハイエンドプランで提供へ
Xのイーロン・マスクCTOは、xAIの新AIチャットボット「Grok」を発表。Xのリアルタイムのパブリックデータにアクセスするという。まずはXのハイエンドサブスクプラン「Xプレミアムプラス」会員に提供する。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.