「GPT-4o」は何がすごい? なぜLLMは画像や音声も扱えるの? “マルチモーダル”について識者に聞いた
複数のモダリティがベクトル化、トークン変換されて、テキストと同じようにLLMのニューラルネットワークに入っていく(A Survey on Multimodal Large Language Modelsより)
Copyright © ITmedia, Inc. All Rights Reserved.
SpecialPR
Copyright © ITmedia, Inc. All Rights Reserved.
SpecialPR