Sakana AI、複数の画像を扱える“日本語視覚言語モデル”公開 非英語圏での先駆けに

ベースに使ったVLMの約4倍のスコアを記録している「Llama-3-EvoVLM-JP-v2」

記事に戻る