中国DeepSeekは1月27日(米国時間)、マルチモーダルなAIモデル「Janus-Pro」のセットを発表し、米Hugging Faceで1B(10億)パラメータの「deepseek-ai/Janus-Pro-1B」をMITおよびDeepSeekモデルライセンスで公開した。
Janus-Proは、マルチモーダルな理解と生成を統合する自己回帰型フレームワーク。従来の統合モデルの制約に対処するために、視覚エンコーディングを別々の経路に分離しながら、処理には単一の統合されたトランスフォーマーアーキテクチャを利用している。この分離により、視覚エンコーダの理解と生成における役割の間の競合が緩和され、フレームワークの柔軟性が向上したという。
DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-baseをベースに構築されており、テキストと画像を組み合わせて理解し、生成するマルチモーダルな能力を持つ。マルチモーダルな理解のために画像エンコーダとして米Googleが開発したツール「SigLIP-L」を使用し、384×384ピクセルの画像入力をサポートする。
同社は、画像解析のベンチマーク、GenEvalとDPG-Benchでは、Janus-Proの最大モデル「Janus-Pro-7B」が、米OpenAIの「DALL・E 3」、中国Huaweiの「PixArt-alpha」、中国BAAIの「Emu3-Gen」、英Stability AIの「Stable Diffusion XL」などのモデルよりも優れているという結果も紹介している。
Janus-Proモデルの使用は、DeepSeekモデルライセンスに従う必要がある。モデルが生成した出力については、ユーザーが責任を負うことになっており、DeepSeekはモデルの使用に起因するいかなる損害についても責任を負わない。コードリポジトリはMITライセンスの下でライセンスされている。
話題の中華LLM「DeepSeek R1」の日本語追加学習モデル サイバーエージェントが無料公開
「DeepSeek」ショック? 高性能な中国産AIの登場で、アジア株・米国株先物とともに下落
話題の中華LLM「DeepSeek R1」は、天安門事件を説明できるか あれこれ質問した
OpenAIの「o1」と同レベルうたうLLM「R1」登場、中国DeepSeekから 商用利用可Copyright © ITmedia, Inc. All Rights Reserved.