“目”を持つAIの新モデル「Sarashina2.2-Vision-3B」、SB Intuitionsが開発　MITライセンスで公開

ソフトバンクの子会社でAIの研究開発などを手掛けるSB Intuitionsは、大規模視覚言語モデル（VLM）「Sarashina2.2-Vision-3B」を開発した。その性能は、同サイズ帯で日本語ベンチマークでのトップクラスのスコアを達成したという。

[松浦立樹，ITmedia] PC用表示関連情報

LINE

Hatena

　ソフトバンクの子会社でAIの研究開発などを手掛けるSB Intuitions（東京都港区）は11月25日、大規模視覚言語モデル（VLM）「Sarashina2.2-Vision-3B」を開発した。その性能は、同サイズ帯での日本語ベンチマークでトップクラスのスコアを達成したという。同社はMITライセンスのもとで、このAIモデルを公開中だ。

　SB Intuitionsでは今回、LLM「Sarashina2.2-3B-Instruct」をベースにVLMを開発。多くの日本語圏のデータを学習に使用したことで、日本の文化・地理知識に詳しいAIモデルになった。例えば、日本の重要有形民俗文化財である「かずら橋」の画像について、「これはどんな橋ですか？」と質問すると、その特徴や見どころなどを解説してくれる。

日本の文化・地理知識に詳しいAIモデルに（テックブログから引用）

　他にも、日本語文書や図表を含む画像の読み取り精度も向上。ポスターのような雑多なレイアウトの文書でも正確に理解し、情報を整理することが可能となった。他にも、文書中の英語の部分だけを読み取って和訳するなど、より現実の利用例に沿うような複雑な指示にも対応できる。

ポスターのような雑多なレイアウトの文書でも、情報を正確に整理

　このVLMは、SB IntuitionsのHugging Face上のページで公開中だ。他にも同社のテックブログで、このVLMのモデル構成や各ベンチマークの評価結果なども掲載している。

“目”を持つAIの新モデル「Sarashina2.2-Vision-3B」、SB Intuitionsが開発　MITライセンスで公開

関連記事

関連リンク

“目”を持つAIの新モデル「Sarashina2.2-Vision-3B」、SB Intuitionsが開発 MITライセンスで公開

関連記事

関連リンク

“目”を持つAIの新モデル「Sarashina2.2-Vision-3B」、SB Intuitionsが開発　MITライセンスで公開