LINEヤフー、日本語マルチモーダル基盤モデル「clip-japanese-base-v2」を開発 商用利用もOK

 LINEヤフーは12月18日、日本語マルチモーダル基盤モデル「clip-japanese-base-v2」を開発したと発表した。前モデル「clip-japanese-base」から、学習データと学習方法を改善することによって高性能化したモデル。商用利用可能なライセンス「Apache-2.0」のもと、同社のHugging Faceページで公開中だ。

 LINEヤフーの研究チームが今回着目したのは、学習データと学習方法だ。clip-japanese-baseでは、データセット「Common Crawl」の10億件分の画像データを収集していたが、v2モデルではこれを28億件まで増加。またデータのフィルタリングも改善し、データ内のノイズを取り除き、データ品質の向上にも努めた。最終的には5億4000万件の高品質な画像・テキストペアを学習データとして使用した(前モデルは約2億件)。

データ処理の全体像

 学習方法については、新たに知識蒸留(教師モデルの出力を生徒モデルに模倣させることで、新たなモデルを開発する手法)による高精度化にも取り組んだ。こうして構築したv2モデルと、4種類の日本語CLIPモデルと性能比較したところ、v2モデルはほとんどのベンチマークでもっとも高い性能を記録した。

各AIモデルとの性能比較

 LINEヤフーは、v2モデルを使用しての意見や感想を募っており、より多くの人に使ってほしいと案内している。

印刷する
SNSでシェア

この記事の著者

松浦立樹

松浦立樹

関連記事

こんなメディアも見られています

ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。

メールマガジンを配信中
メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

いますぐご登録

よく見られているカテゴリー

アクセスランキング

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10

SpecialPR

ITmedia AI+ SNS

X @itm_aiplusをフォロー

インフォメーション

ITmedia AI+をフォロー

あなたにおすすめの記事PR