DeepSeek、マルチモーダルAIモデル「Janus-Pro」をHugging Faceで公開

公開 2025年01月28日 09時28分

[ITmedia]

印刷する

　中国DeepSeekは1月27日（米国時間）、マルチモーダルなAIモデル「Janus-Pro」のセットを発表し、米Hugging Faceで1B（10億）パラメータの「deepseek-ai/Janus-Pro-1B」をMITおよびDeepSeekモデルライセンスで公開した。

　Janus-Proは、マルチモーダルな理解と生成を統合する自己回帰型フレームワーク。従来の統合モデルの制約に対処するために、視覚エンコーディングを別々の経路に分離しながら、処理には単一の統合されたトランスフォーマーアーキテクチャを利用している。この分離により、視覚エンコーダの理解と生成における役割の間の競合が緩和され、フレームワークの柔軟性が向上したという。

　DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-baseをベースに構築されており、テキストと画像を組み合わせて理解し、生成するマルチモーダルな能力を持つ。マルチモーダルな理解のために画像エンコーダとして米Googleが開発したツール「SigLIP-L」を使用し、384×384ピクセルの画像入力をサポートする。

Janus-Proと、その前身であるJanusのテキストから画像への生成の比較。画像の解像度は384×384ピクセルだ（画像：DeepSeek）

　同社は、画像解析のベンチマーク、GenEvalとDPG-Benchでは、Janus-Proの最大モデル「Janus-Pro-7B」が、米OpenAIの「DALL・E 3」、中国Huaweiの「PixArt-alpha」、中国BAAIの「Emu3-Gen」、英Stability AIの「Stable Diffusion XL」などのモデルよりも優れているという結果も紹介している。