小林啓倫のエマージング・テクノロジー論考
AI開発に黄色信号? 市場急成長で“学習用データ枯渇”の懸念 解決策といわれる「合成データ」とは何か(3/4 ページ)
AI開発加速&コスト削減にも期待
まず、データセットに含まれるバイアスの問題だ。長期間のデータや、ある程度古い時代を参照しているデータには、しばしば性別や人種に関するバイアスが含まれる。そうしたデータでAIモデルを学習させると、そのバイアスを継承し、さらに増幅させる危険性がある。そこで、合成データを使うことで、バランスの取れた代表的なデータセットを作成し、より公平なAIモデルを開発できる。
開発の加速とコスト削減という点でも、合成データは役に立つ。合成データを使うことで、データ収集とアノテーションに必要な時間とリソースを削減し、AI開発サイクルを短縮できるのだ。また、開発したAIモデルを実世界で展開する前に、AIモデルのプロトタイピングとテストを、安全かつ制御された環境で行える。
この「データの準備」には、倫理的な問題も絡んでくる。データのアノテーションやラベリングのプロセスは、単調な繰り返し作業で、低所得層や途上国の労働者にアウトソーシングされることが多い。そこでは低賃金かつ過酷な労働条件で労働を強いられることもあり、長らく問題視されてきた。合成データはこうした問題の解決策になる可能性も秘めている。
前述のNVIDIAのブログでは、過去に行われた研究結果を引用する形で「合成データは実際の物体、出来事、または人物に基づくデータと同等かそれ以上にAIモデルのトレーニングに適していることが実証されている」と結論付けている。
さらに調査会社の米Gartnerのレポートを参照し「30年までに、AIで使うデータのほとんどがルール、統計モデル、シミュレーション、その他の技術によって人工的に生成されると予測している」ことを紹介している。もはや合成データは、AI開発を支える土台として欠かせない存在になりつつあるというわけだ。
合成データの限界
一方、合成データは完璧な解決策というわけではなく、さまざまなリスクや限界も存在している。合成データの最大の課題の一つとして挙がるのが、現実世界のデータに見られる微妙な違いや複雑さを、完全に捉えることの難しさだ。
データ生成のアルゴリズムを適切に調整していない場合や、実際のデータ分布を正確に表現できない場合、生成したデータは現実を正しく反映しない。そうした不正確なデータで訓練したAIモデルは、実世界上で期待通りの性能を発揮できない恐れがある。
ただ、高品質な合成データの生成には、専門的な知識とツールが必要だ。単に実データを複製するだけでなく、データ内の基本的な構造と関係性を理解することが求められる。そうした技術的な知識と、データが関係する業務の実務面での知識、両方の分野の専門家が欠かせない。
また「バイアスを回避できる」という利点を期待しているにもかかわらず、合成データの生成元となる実データにバイアスが含まれている場合、そのバイアスを意図せずに増幅してしまう恐れもある。
そうなれば、合成データでトレーニングしたAIモデルは、公平性を欠いたり差別的な結果をもたらしたりする可能性がある。つまり、特に社会的影響の大きい分野での合成データ使用は、慎重を期す必要があると指摘する声もある。
残念ながら、これはバイアスに限った話ではない。合成データの質は、元となる実データの質に大きく依存する。もし元のデータが不完全もしくは不正確、またはバイアスのような偏りを含んでいれば、合成データもそれらの限界を引き継いでしまう。いわゆる「ごみを入れればごみが出る」原則が合成データにも当てはまるわけだ。
とはいえ、合成データの正確性や代表性を評価することは容易ではない。標準的な評価指標だけでは、その信頼性を保証するのに十分でない場合がある。この点は、合成データで訓練したAIモデルの信頼性に疑問を投げかける結果となっており、合成データ利用時の新たなリスクとなっている。
Copyright © ITmedia, Inc. All Rights Reserved.
小林啓倫のエマージング・テクノロジー論考
生成AIやメタバース、新たなサイバー攻撃など、テクノロジーの進化が止まらない。少しずつ生活の中に浸透し、その恩恵を預かれることもある一方、思いもよらない問題を生み出すこともある。このコーナーでは、さまざまな分野の新興技術「エマージング・テクノロジー」について、小林啓倫氏が解説する。
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
Google、“動画版Nano Banana”こと「Gemini Omni」公開 会話で映像を生成・編集
-
2
日立、Anthropicと提携 グループ29万人に「Claude」などAI導入 社会インフラ分野にも展開へ
-
3
Appleが5年がかりで開発したセキュリティ対策を5日で突破 「Mythos」が見せつけた脆弱性攻撃の威力
-
4
GoogleのAIサブスク、最上位プランを値下げ 月額1万4500円の新プランも
-
5
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
6
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
7
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
8
「最新のAI創薬ラボ」なのに会議室みたい!? 製薬大手がラブコール送る“異色のAI企業”による新拠点とは
-
9
Google「Gemini」に個人向けAIエージェント 質問に答えるだけでなく「作業を代替」 まずは米国で
-
10
OpenAIの共同設立者アンドレイ・カーパシー、Anthropicにジョイン
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR