“目”を持つAIの新モデル「Sarashina2.2-Vision-3B」、SB Intuitionsが開発 MITライセンスで公開
ソフトバンクの子会社でAIの研究開発などを手掛けるSB Intuitions(東京都港区)は11月25日、大規模視覚言語モデル(VLM)「Sarashina2.2-Vision-3B」を開発した。その性能は、同サイズ帯での日本語ベンチマークでトップクラスのスコアを達成したという。同社はMITライセンスのもとで、このAIモデルを公開中だ。
SB Intuitionsでは今回、LLM「Sarashina2.2-3B-Instruct」をベースにVLMを開発。多くの日本語圏のデータを学習に使用したことで、日本の文化・地理知識に詳しいAIモデルになった。例えば、日本の重要有形民俗文化財である「かずら橋」の画像について、「これはどんな橋ですか?」と質問すると、その特徴や見どころなどを解説してくれる。
他にも、日本語文書や図表を含む画像の読み取り精度も向上。ポスターのような雑多なレイアウトの文書でも正確に理解し、情報を整理することが可能となった。他にも、文書中の英語の部分だけを読み取って和訳するなど、より現実の利用例に沿うような複雑な指示にも対応できる。
このVLMは、SB IntuitionsのHugging Face上のページで公開中だ。他にも同社のテックブログで、このVLMのモデル構成や各ベンチマークの評価結果なども掲載している。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
2
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
3
キオクシア社長「記録的な増収増益」 3カ月の売上収益1兆円、純利益は2990%増 好決算の背景は
-
4
「AIデータセンターの電力需要が急増」はホント? 発電大手Jパワー社長が明かした“報道との温度差”
-
5
伊藤忠商事や三菱ケミカルなど16社が参画 大手企業の「暗黙知」を活用する新プロジェクト
-
6
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
7
NEC社長が説く AI時代と新たな安全保障環境の到来で「ITサービスはこう変わる」
-
8
OpenAI、「ChatGPT」に個人向け資産管理機能 金融口座と連携
-
9
「邪魔すぎ」――LINE入力欄の“新AI機能”が不評 消し方は?
-
10
Python 3.15に追加されるlazy importと内包表記でのアンパッキングについて調べてみた
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR