DeepSeek、マルチモーダルAIモデル「Janus-Pro」をHugging Faceで公開

» 2025年01月28日 09時22分公開

[ITmedia]

　中国DeepSeekは1月27日（米国時間）、マルチモーダルなAIモデル「Janus-Pro」のセットを発表し、米Hugging Faceで1B（10億）パラメータの「deepseek-ai/Janus-Pro-1B」をMITおよびDeepSeekモデルライセンスで公開した。

　Janus-Proは、マルチモーダルな理解と生成を統合する自己回帰型フレームワーク。従来の統合モデルの制約に対処するために、視覚エンコーディングを別々の経路に分離しながら、処理には単一の統合されたトランスフォーマーアーキテクチャを利用している。この分離により、視覚エンコーダの理解と生成における役割の間の競合が緩和され、フレームワークの柔軟性が向上したという。

　DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-baseをベースに構築されており、テキストと画像を組み合わせて理解し、生成するマルチモーダルな能力を持つ。マルチモーダルな理解のために画像エンコーダとして米Googleが開発したツール「SigLIP-L」を使用し、384×384ピクセルの画像入力をサポートする。

Janus-Proと、その前身であるJanusのテキストから画像への生成の比較。画像の解像度は384×384ピクセルだ（画像：DeepSeek）

　同社は、画像解析のベンチマーク、GenEvalとDPG-Benchでは、Janus-Proの最大モデル「Janus-Pro-7B」が、米OpenAIの「DALL・E 3」、中国Huaweiの「PixArt-alpha」、中国BAAIの「Emu3-Gen」、英Stability AIの「Stable Diffusion XL」などのモデルよりも優れているという結果も紹介している。

ベンチマーク結果（画像：DeepSeek）

　Janus-Proモデルの使用は、DeepSeekモデルライセンスに従う必要がある。モデルが生成した出力については、ユーザーが責任を負うことになっており、DeepSeekはモデルの使用に起因するいかなる損害についても責任を負わない。コードリポジトリはMITライセンスの下でライセンスされている。

話題の中華LLM「DeepSeek R1」の日本語追加学習モデル　サイバーエージェントが無料公開
サイバーエージェントは、大規模言語モデル（LLM）「DeepSeek-R1」を使った新たなAIモデルを公開した。
「DeepSeek」ショック？　高性能な中国産AIの登場で、アジア株・米国株先物とともに下落
中国のスタートアップDeepSeekが米OpenAIのChatGPTに対抗する無料のAIモデルを発表した影響を受け、1月27日に米国株先物と中国以外のアジア株が急落した。
話題の中華LLM「DeepSeek R1」は、天安門事件を説明できるか　あれこれ質問した
AIユーザー・開発者たちの話題をさらった大規模言語モデル（LLM）「DeepSeek-R1」。開発元が中国企業ということもあり、答える内容の偏りなどを懸念する声も多い。筆者も実際に試したが、環境によっては確かに回答が得られない質問が存在した。
OpenAIの「o1」と同レベルうたうLLM「R1」登場、中国DeepSeekから　商用利用可
中国のAI企業DeepSeekが、米OpenAIの「o1」と同レベルの性能をうたう大規模言語モデル（LLM）「DeepSeek-R1」を公開した。いずれもMITライセンスで、商業利用なども認めている。