イーロン・マスク氏のLLM「Grok」、1.5更新で画像認識可能に

» 2024年04月14日 06時44分公開

[ITmedia]

　イーロン・マスク氏の米AI企業xAIは4月12日（現地時間）、昨年11月に発表した独自LLM（大規模言語モデル）「Grok」の更新版「Grok-1.5V」を発表した。同社初のマルチモーダルモデルで、画像を認識する。既存のGrokユーザーに間もなく提供される予定。

　1.5Vの最大の特徴は画像認識能力だ。手書きのフローチャートやスクリーンショット、写真などの解析で、既存のマルチモーダルモデルと競合するとしている。

　xAIは例として、ホワイトボードに手書きしたフローチャートをPythonのコードにするようGrokに命じ、正しいコードを出力させたことを紹介している。

手書きフローチャートからPythonコードを書かせる（画像：xAI）

　また、Grokがユーモアを解することを示すような例も示した。

画像のユーモアを説明させる（画像：xAI）

　競合との性能比較には、“新たに導入するベンチマーク”の「RealWorldQA」を用いた。このベンチマークで、Grok-1.5Vの空間理解能力が、OpenAIの「GPT-4V」、Anthropicの「Claude 3 Sonnet」および「Claude 3 Opus」、Googleの「Gemini Pro 1.5」よりも優れているという結果が出たとしている。

ベンチマーク結果（画像：xAI）

　xAIは、「マルチモーダルな理解と生成機能を進歩させることは、宇宙を理解できる有益なAGI構築のための重要なステップだ」とし、向こう数カ月で画像だけでなく、音声や動画などのモダリティにわたって理解だけでなく生成の機能も大幅に改善していく予定だとしている。

イーロン・マスク氏のxAI、LLM「Grok-1」をオープンに
イーロン・マスク氏のAI企業xAIは、予告通りLLM「Grok-1」の基本モデルの重みとアーキテクチャをオープンソース化した。GitHubでApache 2ライセンスで配布している。マスク氏はXでChatGPTのアカウントに「“オープン”について説明して」とコメントした。
イーロン・マスク氏、米OpenAIとサム・アルトマンCEOを提訴　「営利追及するのは契約違反」
米国の実業家であるイーロン・マスク氏は、米OpenAIとサム・アルトマンCEOを契約違反でサンフランシスコの裁判所に提訴した。
xAI、“全人類に利益をもたらすAIツール”を目指す「Grok」正式発表
イーロン・マスク氏が7月に立ち上げたAI企業xAIは、同社初のAIモデル「Grok」を発表した。まだ初期β段階だが、ベンチマークでは「ChatGPT-3.5」や「Inflection-1」を上回るとしている。
xAIのAIボット「Grok」、Xプレミアムのハイエンドプランで提供へ
Xのイーロン・マスクCTOは、xAIの新AIチャットボット「Grok」を発表。Xのリアルタイムのパブリックデータにアクセスするという。まずはXのハイエンドサブスクプラン「Xプレミアムプラス」会員に提供する。