サイバーエージェント、日本語に強い“視覚言語モデル”公開　パラメータ75億、商用利用もOK

公開 2024年06月13日 13時10分

[ITmedia]

印刷する

　サイバーエージェントは6月13日、75億パラメータの日本語大規模視覚言語モデル（Vision Language Model、VLM）を一般公開した。Hugging Faceで商用利用可能なAIモデルや、研究用途でのみ使えるデモを公開中だ。

サイバーエージェント、日本語に強い“視覚言語モデル”公開

　VLMとは、画像とテキストを複合して扱えるマルチモーダルなAIモデル。画像とテキストを理解できることで「この写真に写っているものは何ですか？」のような質問にも対応できる。米OpenAIの「GPT-4o」などが代表的なモデルで、近年では画像を扱えるAIモデルの進化が急速に進んでいる。

　一方で「VLMのほとんどは英語のデータを中心に学習しており、日本文化の理解や日本語での会話に強いVLMは少ない状況」とサイバーエージェントは説明する。このような背景から同社は日本語に強いVLMを公開。日本語大規模言語モデルで合成して作ったデータセットをメインに学習させたという。

　サイバーエージェントは「公開したモデルをベースとしてチューニングすることで、画像を加味した対話AIなどの開発も可能。これにより、より多くの人々が日本語VLMに関する最先端の研究開発に取り組んでもらえる」と説明。同社は今後もVLMの開発とビジネス活用を進めるという。

印刷する

SpecialPR

この記事の著者

松浦立樹

SpecialPR

メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

SpecialPR

よく見られているカテゴリー

アクセスランキング

SpecialPR

ITmedia AI＋ SNS

インフォメーション

注目情報をチェック

お問い合わせ

ITmedia AI＋をフォロー

あなたにおすすめの記事PR