ITmedia NEWS > 企業・業界動向 >
ITmedia AI+ AI活用のいまが分かる

イーロン・マスク氏のLLM「Grok」、1.5更新で画像認識可能に

» 2024年04月14日 06時44分 公開
[ITmedia]

 イーロン・マスク氏の米AI企業xAIは4月12日(現地時間)、昨年11月に発表した独自LLM(大規模言語モデル)「Grok」の更新版「Grok-1.5V」を発表した。同社初のマルチモーダルモデルで、画像を認識する。既存のGrokユーザーに間もなく提供される予定。

 grok 1

 1.5Vの最大の特徴は画像認識能力だ。手書きのフローチャートやスクリーンショット、写真などの解析で、既存のマルチモーダルモデルと競合するとしている。

 xAIは例として、ホワイトボードに手書きしたフローチャートをPythonのコードにするようGrokに命じ、正しいコードを出力させたことを紹介している。

 grok 2 手書きフローチャートからPythonコードを書かせる(画像:xAI)

 また、Grokがユーモアを解することを示すような例も示した。

 grok 3 画像のユーモアを説明させる(画像:xAI)

 競合との性能比較には、“新たに導入するベンチマーク”の「RealWorldQA」を用いた。このベンチマークで、Grok-1.5Vの空間理解能力が、OpenAIの「GPT-4V」、Anthropicの「Claude 3 Sonnet」および「Claude 3 Opus」、Googleの「Gemini Pro 1.5」よりも優れているという結果が出たとしている。

 grok 3 ベンチマーク結果(画像:xAI)

 xAIは、「マルチモーダルな理解と生成機能を進歩させることは、宇宙を理解できる有益なAGI構築のための重要なステップだ」とし、向こう数カ月で画像だけでなく、音声や動画などのモダリティにわたって理解だけでなく生成の機能も大幅に改善していく予定だとしている。

Copyright © ITmedia, Inc. All Rights Reserved.