DeepSeek、マルチモーダルAIモデル「Janus-Pro」をHugging Faceで公開
中国DeepSeekは1月27日(米国時間)、マルチモーダルなAIモデル「Janus-Pro」のセットを発表し、米Hugging Faceで1B(10億)パラメータの「deepseek-ai/Janus-Pro-1B」をMITおよびDeepSeekモデルライセンスで公開した。
Janus-Proは、マルチモーダルな理解と生成を統合する自己回帰型フレームワーク。従来の統合モデルの制約に対処するために、視覚エンコーディングを別々の経路に分離しながら、処理には単一の統合されたトランスフォーマーアーキテクチャを利用している。この分離により、視覚エンコーダの理解と生成における役割の間の競合が緩和され、フレームワークの柔軟性が向上したという。
DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-baseをベースに構築されており、テキストと画像を組み合わせて理解し、生成するマルチモーダルな能力を持つ。マルチモーダルな理解のために画像エンコーダとして米Googleが開発したツール「SigLIP-L」を使用し、384×384ピクセルの画像入力をサポートする。
同社は、画像解析のベンチマーク、GenEvalとDPG-Benchでは、Janus-Proの最大モデル「Janus-Pro-7B」が、米OpenAIの「DALL・E 3」、中国Huaweiの「PixArt-alpha」、中国BAAIの「Emu3-Gen」、英Stability AIの「Stable Diffusion XL」などのモデルよりも優れているという結果も紹介している。
Janus-Proモデルの使用は、DeepSeekモデルライセンスに従う必要がある。モデルが生成した出力については、ユーザーが責任を負うことになっており、DeepSeekはモデルの使用に起因するいかなる損害についても責任を負わない。コードリポジトリはMITライセンスの下でライセンスされている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「ChatGPTのコネクタでつながるし、M365 Copilotいらなくない?」→有識者3人に聞いてみた 知らないと損するコンテキスト管理「Work IQ」の仕組み
-
2
中国が人型ロボット開発競争をリードする「納得の理由」 日本に残された逆転シナリオは?
-
3
生成AI台頭、経営コンサルの倒産・廃業が過去最多ペース “補助金頼み”限界に
-
4
JASRAC、「AI作曲・人間作詞」の曲は管理します――「人間の創作的寄与の有無」で線引き
-
5
Anthropic、最上位「ミュトス」級モデルを一般提供 悪用防ぐ保護機能を備えた「Claude Fable 5」
-
6
Google、拡散型テキスト生成モデル「DiffusionGemma」公開 ローカルGPUで毎秒1000トークン超
-
7
AnthropicとNEC、金融8社とAI活用で連携 三井住友FG、大和証券など
-
8
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
9
AnthropicのアモデイCEO、フロンティアAIに「航空機並みの安全審査」求めるエッセイと政策提言を公開
-
10
公式がワンコーラス公開→AIで無断フルコーラス化、拡散 大原ゆい子氏「無職転生III」OPが被害
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR