このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。
X: @shiropen2
オランダのRadboud University Nijmegenに所属する研究者らが発表した論文「Rethinking open source generative AI: open-washing and the EU AI Act」は、オープンソースと主張する生成AIを対象に、どの程度オープンなのかを調査した研究報告である。
近年、オープンであると主張する生成AIシステムが急増しているが、実際にはどの程度オープンなのかは疑問だ。「オープンソース」と謳いつつ、詳しく見てみると部分的にしか公開していないことはよくある。「オープンソース」は研究やイノベーションに貢献するという考えが含まれており、法的(例えば、5月に成立したEUのAI法案)にも優遇される可能性がある。
そのため、生成AIにおける「オープンソース」の定義は重要な意味を持つようになってきており、その意味を明確にしなければならない。この研究では、14の指標から段階的にオープン性を評価する枠組みを提示し、言語生成モデル40件+ChatGPT、画像生成モデル6件+DALL-Eを調査した。14の指標の詳細は、次に示す通りである。
言語生成モデル40件でオープン性が高かったのが「OLMo 7B Instruct」「BloomZ」「AmberCha」「OpenAssistant」などで、ソースコードや訓練データ、モデルの重みなどほとんどが完全公開されていた。
一方で「Llama 3 instruct」「LLaMA2 Chat」「Gemma 7B instruct」「Mixtral 8x7B instruct」などの対象モデルの下位3分の1では、公開は少なく、公開していても限定的で、非公開が多かった。
特に、モデルの重みは公開しているものの、訓練データやコードを公開していないケースが多く「オープンウェイト」と呼んでいる。米Meta、米Google、カナダのCohere、米Microsoft、仏Mistralなどの大手企業のモデルが下位に集中しているのが特徴的である。
次に、画像生成モデルの評価結果では、6件中5件はほとんどが非公開でオープンとは言い難い結果を示した。しかし、Stable Diffusionだけはほぼ全てを完全に公開しており、対象モデルの中で群を抜いてオープン性が高いことを示した。
以上の結果から、生成AIにおける「オープンソース」は全てのモデルで公開内容が同じではなく、モデルによって公開内容が異なることが分かった。中でも、「オープンソース」を称しながらも、実際には「オープンウェイト」にすぎないケースも散見された。
特に大手企業によるモデルは、コードやトレーニングデータの詳細を公開しておらず、透明性や説明責任に欠けている。一方、BloomZやStable Diffusionなどの一部のモデルでは、ほぼ完全なオープン性を示していた。
Source and Image Credits: Liesenfeld, A., & Dingemanse, M.(in press). Rethinking open source generative AI: open-washing and the EU AI Act. In The 2024 ACM Conference on Fairness, Accountability, and Transparency(FAccT ’24). ACM.
Copyright © ITmedia, Inc. All Rights Reserved.