“目”を持つAIの新モデル「Sarashina2.2-Vision-3B」、SB Intuitionsが開発 MITライセンスで公開
ソフトバンクの子会社でAIの研究開発などを手掛けるSB Intuitions(東京都港区)は11月25日、大規模視覚言語モデル(VLM)「Sarashina2.2-Vision-3B」を開発した。その性能は、同サイズ帯での日本語ベンチマークでトップクラスのスコアを達成したという。同社はMITライセンスのもとで、このAIモデルを公開中だ。
SB Intuitionsでは今回、LLM「Sarashina2.2-3B-Instruct」をベースにVLMを開発。多くの日本語圏のデータを学習に使用したことで、日本の文化・地理知識に詳しいAIモデルになった。例えば、日本の重要有形民俗文化財である「かずら橋」の画像について、「これはどんな橋ですか?」と質問すると、その特徴や見どころなどを解説してくれる。
他にも、日本語文書や図表を含む画像の読み取り精度も向上。ポスターのような雑多なレイアウトの文書でも正確に理解し、情報を整理することが可能となった。他にも、文書中の英語の部分だけを読み取って和訳するなど、より現実の利用例に沿うような複雑な指示にも対応できる。
このVLMは、SB IntuitionsのHugging Face上のページで公開中だ。他にも同社のテックブログで、このVLMのモデル構成や各ベンチマークの評価結果なども掲載している。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
2年間で「1万時間」削減 「1円の誤りも許されない」ソニー経理が“まず試してみる”DX集団に化けたワケ
-
2
Google Chromeの新機能「Skills」 AIプロンプトの“毎回手打ち”を不要に
-
3
日本政府、AI「Mythos」アクセス権を取得 サイバー防衛強化に活用
-
4
東大松尾研が「LLM講座 基礎編」の講義資料を無料公開 期間限定で
-
5
「この1年はAI戦国時代」 メルカリに学ぶ、AIガバナンス策定の勘所
-
6
Claude Opus 4.8は忖度(そんたく)しません “正直すぎる”のも善しあし?
-
7
AIで思考力が奪われる? 世界の研究が警告するAIバカの壁【動画あり】
-
8
TSMC、AI活用拡大による成長維持に自信 株主総会、東京エレクトロンとの取引は継続
-
9
検図から積算まで支援する図面解析AI、工数を最大60%削減
-
10
日立、「ミュトス」にアクセスへ Anthropicと契約済、社会インフラの技術検証に利用
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR