米Microsoft、“ChatGPTの目と耳実装”の影で画像対応の生成AI「DeepSpeed-VisualChat」開発:Innovative Tech
Microsoftに所属する研究者らは、複数枚の画像とテキストを処理できる大規模言語モデル(LLM)を提案した研究報告を発表した。DeepSpeed-VisualChatは最大70Bパラメータの言語モデルのサイズにおいて優れた拡張性を示した。
Innovative Tech:
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
Microsoftに所属する研究者らが発表した論文「DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention」は、複数枚の画像とテキストを処理できる大規模言語モデル(LLM)を提案した研究報告である。DeepSpeed-VisualChatは最大70Bパラメータの言語モデルのサイズにおいて優れた拡張性を示した。
米OpenAIは9月25日に、ChatGPTに音声および画像の認識機能を追加したと発表した。多くのメディアで取り上げられたこのニュースに隠れて、Microsoftも同日に画像認識能力を持つチャットAIを公表していた。
既存のLLMモデルは、複数の画像とテキストを組み合わせた対話に対して十分なパフォーマンスを発揮しないという問題がある。研究チームはこの課題を解決するため、複数のテキストと画像入力をサポートするオープンソースフレームワーク「DeepSpeed-VisualChat」を提案した。
このフレームワークは、画像の視覚的特徴を捉えるシステム「MiniGPT4」を基盤としている。また、視覚エンコーダーとして「QWen-VL」、言語モデルとして「LLaMa-2」を採用。特筆すべき点は、情報の中から特定の部分に焦点を当てる技術、すなわち「注意機構」を新しい方法で実装したことである。
新たに導入された「Multi-Modal Causal Attention Mechanism」(MMCA)は、各モダリティに独立して注意の重みを計算する機能を持つ。これにより、異なる種類のデータ間の関連性を柔軟に捉えることができる。
このメカニズムは、因果関係を持つデータの解釈を向上させる。これは、前のデータが後のデータに与える影響をより正確にモデル化することを示している。結果として、複数の画像とテキストを組み合わせて、的確な回答を生成できる。
評価実験において、DeepSpeed-VisualChat、QWen-VL、SparklesChatの3つのモデルを比較した結果、DeepSpeed-VisualChatが他の手法よりも高い精度の結果を示すことを確認した。
Source and Image Credits: Zhewei Yao, Xiaoxia Wu, Conglong Li, Minjia Zhang, Heyang Qi, Olatunji Ruwase, Ammar Ahmad Awan, Samyam Rajbhandari, Yuxiong He. DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention.
関連記事
- ChatGPT、“目”と“耳”の実装を発表 写真の内容を認識、発話機能でおしゃべりも可能に
米OpenAIのチャットAI「ChatGPT」に、画像認識、音声認識、発話機能が搭載された。今後2週間かけて、PlusユーザーとEnterpriseユーザーに展開するという。 - 「AIが人類を支配したら?」が現実味を帯びてきた件 加速する“AIアライメント”議論の現在地
- 商用利用OKの画像生成AI「Emi」公開 クリエイターと対話して開発、無断転載画像不使用
アニメ・マンガ風のイラストを生成でき、商用利用OKな画像生成AI「Emi」が公開された。 - 生成AIに“視覚”与える学習ライブラリ、自動運転EVベンチャー公開 最大700億パラメータの学習済みモデルも
自動運転車を開発するTuringは、日本語などの複数言語対応のマルチモーダルな学習ライブラリ「Heron」を公開した。ソースコードは、研究・商用利用が可能。併せて、最大700億パラメータの学習済みモデル群なども公開している。 - OpenAI、7月に停止したChatGPTのWebブラウズ機能を復活
OpenAIは、5月にリリースして7月に提供を停止していた「Browse with Bing」の提供を再開した。有料Webサイトの記事を読めてしまっていたのが停止の理由だが、解決できたという。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.