小林啓倫のエマージング・テクノロジー論考
AI開発に黄色信号? 市場急成長で“学習用データ枯渇”の懸念 解決策といわれる「合成データ」とは何か(1/4 ページ)
生成AIの普及が続く現在、ある調査によれば、2024年のAIの市場規模は全世界で1840億ドル(約28兆円)に達すると見られている。さらに市場の拡大は続き、30年までに8267億ドル(約127兆円)となる見込みだ。
しかし、そんな生成AIの快進撃の裏側では、AIの普及・進化に必要な学習用データが枯渇する懸念があるという。
その解決策として期待されているのが「合成データ」(synthetic data)と呼ばれるものだ。
合成データとは何か?
まず合成データとは何か、なぜそれが注目されているかについて見て行こう。GPU分野のトップランナーである米NVIDIAは、公式ブログ上で合成データを次のように定義している。
合成データとは、コンピュータ・シミュレーションやアルゴリズムが、現実世界のデータの代替として生成する注釈付き情報のことである。別の言い方をすれば、合成データは、現実世界から収集されたり測定されたりするのではなく、デジタルの世界で作成される。
「合成」という名前が示している通り合成データとは、コンピュータが生成したデータのことを指す。ただ現在の「データ」という言葉には「現実世界の情報をデジタル化したもの」の意味が含まれているので、あらゆるデータがコンピュータによって生成されたものと言えないこともない。
にもかかわらず、あえて分けているのは、合成データが「現実の世界を参照することによって生み出されたものではない」ことを明確にするためである。ではどうやって生み出されるかというと、NVIDIAの定義が説明しているように、コンピュータのシミュレーションやアルゴリズムを通じてである。
例えば、23年に発表された論文「マネーロンダリング防止手法のベンチマークとなる合成データセット」では、マネーロンダリング対策(AML)の方法を研究・比較するための公開データセットを提供することを目的に、合成データセット「SynthAML」を開発したことを解説している。
論文では、この合成データは、デンマークのSpar Nord銀行の取引データ(実際に発生したもの)をベースに、シミュレーションを行うことで生成。ただしその際、プライバシー保護のために、さまざまな対策を実データに対して行っている。そうした前処理と生成後の後処理を行い、より安全で使いやすい合成データセットを完成させている。
しかし、なぜそんな手間をかけて、コンピュータに新しいデータを生成させるのだろうか? その理由こそ、AIの将来を大きく左右しかねないものなのである。
高品質のテキストデータは2年後に枯渇? 合成データが求められる理由
まず挙げられるのは、データの不足と拡張の問題だ。AIの普及と用途の拡大が続くにつれ、AIモデルの開発に必要なデータの量と種類も拡大の一途をたどっている。複雑なAIモデルの学習には膨大な量のデータが必要だが、データは一朝一夕に生み出せるものではない。
前述の通り、データとは「現実世界の情報をデジタル化したもの」だ。私たちの周囲には何匹もの犬や猫がいるが、それらを見分けるAIを開発するには、誰かがデジタルカメラで彼らを撮影し、画像や動画としてデータ化しなければならず、それには長い時間がかかる。いずれAI開発のスピードの方がこの作業に追い付き、データが枯渇するといわれている。
Copyright © ITmedia, Inc. All Rights Reserved.
小林啓倫のエマージング・テクノロジー論考
生成AIやメタバース、新たなサイバー攻撃など、テクノロジーの進化が止まらない。少しずつ生活の中に浸透し、その恩恵を預かれることもある一方、思いもよらない問題を生み出すこともある。このコーナーでは、さまざまな分野の新興技術「エマージング・テクノロジー」について、小林啓倫氏が解説する。
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「Claude Fable 5」をサブスクの標準機能に――AnthropicのエンジニアがXに投稿 7月8日以降の「早期復活目指す」
-
2
農水省の“クソダサ”ポスター話題 「AIよりよっぽど良い」の声も 担当者に狙いを聞いた
-
3
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
-
4
NTT、独自のAIモデル「tsuzumi 2」発表 “国産AI開発競争”に「負けられない」と島田社長
-
5
3万円で「Yahoo!ニュース」にPR掲載 プレスリリースをAIで「ニュース風記事」に
-
6
AIで“ゲームキャラの出産二次創作”を何千回と生成する人も……ChatGPTの会話57万件から見えたヘビーな利用実態
-
7
「Claude Fable 5」の性能が落ちた? 提供停止前後で比べた結果 米AI企業2社がそれぞれ報告
-
8
ソフトウェアエンジニアの仕事は「ループを書くこと」になる 内側ループと外側ループ(ハーネス)入門
-
9
人型ロボットが工場で稼働する様子を6日間生配信、作業成功率99.99%をうたう 中国メーカー
-
10
え、21日で37テラも? 高性能SSDを食いつぶす「あのAIツール」にご用心:886th Lap
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR