ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

米Microsoft、“ChatGPTの目と耳実装”の影で画像対応の生成AI「DeepSpeed-VisualChat」開発Innovative Tech

» 2023年09月29日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 Microsoftに所属する研究者らが発表した論文「DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention」は、複数枚の画像とテキストを処理できる大規模言語モデル(LLM)を提案した研究報告である。DeepSpeed-VisualChatは最大70Bパラメータの言語モデルのサイズにおいて優れた拡張性を示した。

DeepSpeed-VisualChatで出力した一例

 米OpenAIは9月25日に、ChatGPTに音声および画像の認識機能を追加したと発表した。多くのメディアで取り上げられたこのニュースに隠れて、Microsoftも同日に画像認識能力を持つチャットAIを公表していた。

 既存のLLMモデルは、複数の画像とテキストを組み合わせた対話に対して十分なパフォーマンスを発揮しないという問題がある。研究チームはこの課題を解決するため、複数のテキストと画像入力をサポートするオープンソースフレームワーク「DeepSpeed-VisualChat」を提案した。

 このフレームワークは、画像の視覚的特徴を捉えるシステム「MiniGPT4」を基盤としている。また、視覚エンコーダーとして「QWen-VL」、言語モデルとして「LLaMa-2」を採用。特筆すべき点は、情報の中から特定の部分に焦点を当てる技術、すなわち「注意機構」を新しい方法で実装したことである。

 新たに導入された「Multi-Modal Causal Attention Mechanism」(MMCA)は、各モダリティに独立して注意の重みを計算する機能を持つ。これにより、異なる種類のデータ間の関連性を柔軟に捉えることができる。

 このメカニズムは、因果関係を持つデータの解釈を向上させる。これは、前のデータが後のデータに与える影響をより正確にモデル化することを示している。結果として、複数の画像とテキストを組み合わせて、的確な回答を生成できる。

 評価実験において、DeepSpeed-VisualChat、QWen-VL、SparklesChatの3つのモデルを比較した結果、DeepSpeed-VisualChatが他の手法よりも高い精度の結果を示すことを確認した。

DeepSpeed-VisualChat、QWen-VL、SparklesChatの出力結果の比較(1/2)
DeepSpeed-VisualChat、QWen-VL、SparklesChatの出力結果の比較(2/2)

Source and Image Credits: Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qi, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He. DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention.



Copyright © ITmedia, Inc. All Rights Reserved.