“目”を持つAIの新モデル「Sarashina2.2-Vision-3B」、SB Intuitionsが開発 MITライセンスで公開
ソフトバンクの子会社でAIの研究開発などを手掛けるSB Intuitions(東京都港区)は11月25日、大規模視覚言語モデル(VLM)「Sarashina2.2-Vision-3B」を開発した。その性能は、同サイズ帯での日本語ベンチマークでトップクラスのスコアを達成したという。同社はMITライセンスのもとで、このAIモデルを公開中だ。
SB Intuitionsでは今回、LLM「Sarashina2.2-3B-Instruct」をベースにVLMを開発。多くの日本語圏のデータを学習に使用したことで、日本の文化・地理知識に詳しいAIモデルになった。例えば、日本の重要有形民俗文化財である「かずら橋」の画像について、「これはどんな橋ですか?」と質問すると、その特徴や見どころなどを解説してくれる。
他にも、日本語文書や図表を含む画像の読み取り精度も向上。ポスターのような雑多なレイアウトの文書でも正確に理解し、情報を整理することが可能となった。他にも、文書中の英語の部分だけを読み取って和訳するなど、より現実の利用例に沿うような複雑な指示にも対応できる。
このVLMは、SB IntuitionsのHugging Face上のページで公開中だ。他にも同社のテックブログで、このVLMのモデル構成や各ベンチマークの評価結果なども掲載している。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
農水省の“クソダサ”ポスター話題 「AIよりよっぽど良い」の声も 担当者に狙いを聞いた
-
2
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
-
3
「Claude Fable 5」をサブスクの標準機能に――AnthropicのエンジニアがXに投稿 7月8日以降の「早期復活目指す」
-
4
3万円で「Yahoo!ニュース」にPR掲載 プレスリリースをAIで「ニュース風記事」に
-
5
ソフトウェアエンジニアの仕事は「ループを書くこと」になる 内側ループと外側ループ(ハーネス)入門
-
6
AIで“ゲームキャラの出産二次創作”を何千回と生成する人も……ChatGPTの会話57万件から見えたヘビーな利用実態
-
7
ひろゆき氏「SIer衰退予測」、AI代替の「逆転現象」の理由 2026年に生き残るエンジニア“4つの役割”
-
8
人型ロボットが工場で稼働する様子を6日間生配信、作業成功率99.99%をうたう 中国メーカー
-
9
日本の「完璧主義」から脱却し中国ヒューマノイドにどう立ち向かうか
-
10
え、21日で37テラも? 高性能SSDを食いつぶす「あのAIツール」にご用心:886th Lap
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR