“目”を持つAIの新モデル「Sarashina2.2-Vision-3B」、SB Intuitionsが開発 MITライセンスで公開

 ソフトバンクの子会社でAIの研究開発などを手掛けるSB Intuitions(東京都港区)は11月25日、大規模視覚言語モデル(VLM)「Sarashina2.2-Vision-3B」を開発した。その性能は、同サイズ帯での日本語ベンチマークでトップクラスのスコアを達成したという。同社はMITライセンスのもとで、このAIモデルを公開中だ。

 SB Intuitionsでは今回、LLM「Sarashina2.2-3B-Instruct」をベースにVLMを開発。多くの日本語圏のデータを学習に使用したことで、日本の文化・地理知識に詳しいAIモデルになった。例えば、日本の重要有形民俗文化財である「かずら橋」の画像について、「これはどんな橋ですか?」と質問すると、その特徴や見どころなどを解説してくれる。

日本の文化・地理知識に詳しいAIモデルに(テックブログから引用

 他にも、日本語文書や図表を含む画像の読み取り精度も向上。ポスターのような雑多なレイアウトの文書でも正確に理解し、情報を整理することが可能となった。他にも、文書中の英語の部分だけを読み取って和訳するなど、より現実の利用例に沿うような複雑な指示にも対応できる。

ポスターのような雑多なレイアウトの文書でも、情報を正確に整理

 このVLMは、SB IntuitionsのHugging Face上のページで公開中だ。他にも同社のテックブログで、このVLMのモデル構成や各ベンチマークの評価結果なども掲載している。

印刷する
SNSでシェア

この記事の著者

松浦立樹

松浦立樹

関連記事

こんなメディアも見られています

ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。

メールマガジンを配信中
メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

いますぐご登録

よく見られているカテゴリー

アクセスランキング

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10

SpecialPR

ITmedia AI+ SNS

X @itm_aiplusをフォロー

インフォメーション

ITmedia AI+をフォロー

あなたにおすすめの記事PR