メディア
ITmedia AI+ >

DeepSeek、マルチモーダルAIモデル「Janus-Pro」をHugging Faceで公開

» 2025年01月28日 09時22分 公開
[ITmedia]

 中国DeepSeekは1月27日(米国時間)、マルチモーダルなAIモデル「Janus-Pro」のセットを発表し、米Hugging Faceで1B(10億)パラメータの「deepseek-ai/Janus-Pro-1B」をMITおよびDeepSeekモデルライセンスで公開した。

 janus 1

 Janus-Proは、マルチモーダルな理解と生成を統合する自己回帰型フレームワーク。従来の統合モデルの制約に対処するために、視覚エンコーディングを別々の経路に分離しながら、処理には単一の統合されたトランスフォーマーアーキテクチャを利用している。この分離により、視覚エンコーダの理解と生成における役割の間の競合が緩和され、フレームワークの柔軟性が向上したという。

 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-baseをベースに構築されており、テキストと画像を組み合わせて理解し、生成するマルチモーダルな能力を持つ。マルチモーダルな理解のために画像エンコーダとして米Googleが開発したツール「SigLIP-L」を使用し、384×384ピクセルの画像入力をサポートする。

 janus 2 Janus-Proと、その前身であるJanusのテキストから画像への生成の比較。画像の解像度は384×384ピクセルだ(画像:DeepSeek)

 同社は、画像解析のベンチマーク、GenEvalとDPG-Benchでは、Janus-Proの最大モデル「Janus-Pro-7B」が、米OpenAIの「DALL・E 3」、中国Huaweiの「PixArt-alpha」、中国BAAIの「Emu3-Gen」、英Stability AIの「Stable Diffusion XL」などのモデルよりも優れているという結果も紹介している。

 janus 3 ベンチマーク結果(画像:DeepSeek)

 Janus-Proモデルの使用は、DeepSeekモデルライセンスに従う必要がある。モデルが生成した出力については、ユーザーが責任を負うことになっており、DeepSeekはモデルの使用に起因するいかなる損害についても責任を負わない。コードリポジトリはMITライセンスの下でライセンスされている。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ