AI開発に黄色信号？　市場急成長で“学習用データ枯渇”の懸念　解決策といわれる「合成データ」とは何か（3/4 ページ）

公開 2024年07月30日 14時00分

著者

小林啓倫

[ITmedia]

印刷する連載新着通知を受け取る

AI開発加速＆コスト削減にも期待

　まず、データセットに含まれるバイアスの問題だ。長期間のデータや、ある程度古い時代を参照しているデータには、しばしば性別や人種に関するバイアスが含まれる。そうしたデータでAIモデルを学習させると、そのバイアスを継承し、さらに増幅させる危険性がある。そこで、合成データを使うことで、バランスの取れた代表的なデータセットを作成し、より公平なAIモデルを開発できる。

　開発の加速とコスト削減という点でも、合成データは役に立つ。合成データを使うことで、データ収集とアノテーションに必要な時間とリソースを削減し、AI開発サイクルを短縮できるのだ。また、開発したAIモデルを実世界で展開する前に、AIモデルのプロトタイピングとテストを、安全かつ制御された環境で行える。

　この「データの準備」には、倫理的な問題も絡んでくる。データのアノテーションやラベリングのプロセスは、単調な繰り返し作業で、低所得層や途上国の労働者にアウトソーシングされることが多い。そこでは低賃金かつ過酷な労働条件で労働を強いられることもあり、長らく問題視されてきた。合成データはこうした問題の解決策になる可能性も秘めている。

　前述のNVIDIAのブログでは、過去に行われた研究結果を引用する形で「合成データは実際の物体、出来事、または人物に基づくデータと同等かそれ以上にAIモデルのトレーニングに適していることが実証されている」と結論付けている。

NVIDIAが引用した論文

　さらに調査会社の米Gartnerのレポートを参照し「30年までに、AIで使うデータのほとんどがルール、統計モデル、シミュレーション、その他の技術によって人工的に生成されると予測している」ことを紹介している。もはや合成データは、AI開発を支える土台として欠かせない存在になりつつあるというわけだ。

合成データの限界

　一方、合成データは完璧な解決策というわけではなく、さまざまなリスクや限界も存在している。合成データの最大の課題の一つとして挙がるのが、現実世界のデータに見られる微妙な違いや複雑さを、完全に捉えることの難しさだ。

　データ生成のアルゴリズムを適切に調整していない場合や、実際のデータ分布を正確に表現できない場合、生成したデータは現実を正しく反映しない。そうした不正確なデータで訓練したAIモデルは、実世界上で期待通りの性能を発揮できない恐れがある。

　ただ、高品質な合成データの生成には、専門的な知識とツールが必要だ。単に実データを複製するだけでなく、データ内の基本的な構造と関係性を理解することが求められる。そうした技術的な知識と、データが関係する業務の実務面での知識、両方の分野の専門家が欠かせない。

　また「バイアスを回避できる」という利点を期待しているにもかかわらず、合成データの生成元となる実データにバイアスが含まれている場合、そのバイアスを意図せずに増幅してしまう恐れもある。

　そうなれば、合成データでトレーニングしたAIモデルは、公平性を欠いたり差別的な結果をもたらしたりする可能性がある。つまり、特に社会的影響の大きい分野での合成データ使用は、慎重を期す必要があると指摘する声もある。

　残念ながら、これはバイアスに限った話ではない。合成データの質は、元となる実データの質に大きく依存する。もし元のデータが不完全もしくは不正確、またはバイアスのような偏りを含んでいれば、合成データもそれらの限界を引き継いでしまう。いわゆる「ごみを入れればごみが出る」原則が合成データにも当てはまるわけだ。

　とはいえ、合成データの正確性や代表性を評価することは容易ではない。標準的な評価指標だけでは、その信頼性を保証するのに十分でない場合がある。この点は、合成データで訓練したAIモデルの信頼性に疑問を投げかける結果となっており、合成データ利用時の新たなリスクとなっている。

次ページへどう向き合う、ビジネスチャンスと規制のリスク