パナソニック、拡散モデルによるマルチモーダルAI「LaViDa」開発　文章生成を高速化

パナソニックホールディングスと傘下の米パナソニックR&Dカンパニーオブアメリカは、主に画像生成AIに利用する「拡散モデル」で文章を生成するマルチモーダルAI「LaViDa」を開発したと発表した。

[ITmedia] PC用表示関連情報

LINE

Hatena

　パナソニックホールディングス（パナソニックHD）と傘下の米パナソニックR&Dカンパニーオブアメリカは11月27日、主に画像生成AIに利用する「拡散モデル」で文章を生成するマルチモーダルAI「LaViDa」を開発したと発表した。米カリフォルニア大学ロサンゼルス校の研究者と協力。従来の文章生成で多く使われる「自己回帰型モデル」の一部に比べ、処理を高速化したという。

パナソニック、拡散モデルによるマルチモーダルAI「LaViDa」開発（出典：プレスリリース、以下同）

　拡散モデルによる文章生成では、入力データの一部にランダムにマスキングを施し、それを復元していく。自己回帰型モデルに比べ、処理を高速化できるなどの強みを持つ一方、1）単語同士の関連度を演算する「アテンション計算」が重くなる、2）学習時のマスキングに不具合が生じる可能性が高まる、という課題があった。

拡散言語モデルの仕組み

　そこで、パナソニックHDらは、入力画像と質問文のトークン（データを処理するために分割した最小単位）のアテンション計算から、出力する文章のトークンを排除する仕組み「Prefix-DLM」を開発した。これにより、計算を効率化。加えて、マスキングするトークンに漏れがないよう、相補的な2通りのマスキングを用意し、全てのトークンをAIが学習できるようにした。