ITmedia AI＋
生成AI
LINEヤフー、日本語マルチモーダル基盤モデル「clip-japanese-base-v2」を開発　商用利用もOK

LINEヤフー、日本語マルチモーダル基盤モデル「clip-japanese-base-v2」を開発　商用利用もOK

公開 2025年12月18日 18時53分

[ITmedia]

印刷する

　LINEヤフーは12月18日、日本語マルチモーダル基盤モデル「clip-japanese-base-v2」を開発したと発表した。前モデル「clip-japanese-base」から、学習データと学習方法を改善することによって高性能化したモデル。商用利用可能なライセンス「Apache-2.0」のもと、同社のHugging Faceページで公開中だ。

　LINEヤフーの研究チームが今回着目したのは、学習データと学習方法だ。clip-japanese-baseでは、データセット「Common Crawl」の10億件分の画像データを収集していたが、v2モデルではこれを28億件まで増加。またデータのフィルタリングも改善し、データ内のノイズを取り除き、データ品質の向上にも努めた。最終的には5億4000万件の高品質な画像・テキストペアを学習データとして使用した（前モデルは約2億件）。