サイバーエージェント、日本語に強い“視覚言語モデル”公開 パラメータ75億、商用利用もOK

 サイバーエージェントは6月13日、75億パラメータの日本語大規模視覚言語モデル(Vision Language Model、VLM)を一般公開した。Hugging Faceで商用利用可能なAIモデルや、研究用途でのみ使えるデモを公開中だ。

サイバーエージェント、日本語に強い“視覚言語モデル”公開

 VLMとは、画像とテキストを複合して扱えるマルチモーダルなAIモデル。画像とテキストを理解できることで「この写真に写っているものは何ですか?」のような質問にも対応できる。米OpenAIの「GPT-4o」などが代表的なモデルで、近年では画像を扱えるAIモデルの進化が急速に進んでいる。

 一方で「VLMのほとんどは英語のデータを中心に学習しており、日本文化の理解や日本語での会話に強いVLMは少ない状況」とサイバーエージェントは説明する。このような背景から同社は日本語に強いVLMを公開。日本語大規模言語モデルで合成して作ったデータセットをメインに学習させたという。

 サイバーエージェントは「公開したモデルをベースとしてチューニングすることで、画像を加味した対話AIなどの開発も可能。これにより、より多くの人々が日本語VLMに関する最先端の研究開発に取り組んでもらえる」と説明。同社は今後もVLMの開発とビジネス活用を進めるという。

印刷する
SNSでシェア

この記事の著者

松浦立樹

松浦立樹

関連記事

こんなメディアも見られています

ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。

メールマガジンを配信中
メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

いますぐご登録

よく見られているカテゴリー

アクセスランキング

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10

SpecialPR

ITmedia AI+ SNS

X @itm_aiplusをフォロー

インフォメーション

ITmedia AI+をフォロー

あなたにおすすめの記事PR