AI開発に黄色信号? 市場急成長で“学習用データ枯渇”の懸念 解決策といわれる「合成データ」とは何か:小林啓倫のエマージング・テクノロジー論考(4/4 ページ)
ある調査によれば、2024年のAIの市場規模は全世界で1840億ドルに達し、30年までに8267億ドルとなる見込みだ。一方、生成AIの普及・進化には“学習用データの枯渇”リスクがあるという。そこで解決策として期待されているのが「合成データ」である。
プライバシーとセキュリティにもリスク
さらに懸念があるのが、プライバシーとセキュリティのリスクだ。前述の通り、合成データ利用のメリットの一つとして挙げているのがプライバシーや機密データの保護だが、合成データの生成が不適切な形で行われた場合、元のデータに関する情報を漏えいしてしまう可能性がある。
個人情報や機密情報に基づく合成データの利用時には、そうした重要な情報を危険にさらす潜在的なリスクが存在しているという前提で、あらかじめ対策を講じておかなければならない。
また合成データが倫理的に使用されるのか、という懸念も生まれている。合成データを使うことで、ディープフェイクなどの誤解を招く有害なコンテンツの生成が、さらに高度化・容易化しかねない。
意図的かどうかを問わず、バイアスを適切に除去していない合成データが広く利用された場合、既存のバイアスを永続化させるシステムが生まれてしまう可能性がある。そうした倫理的な問題は、合成データの責任ある使用と厳格な監視の必要性を示している。
どう向き合う、ビジネスチャンスと規制のリスク
こうした各種のリスクと限界に対処するには、合成データ生成の方法を慎重に検討し、生成したデータを厳密に評価、その品質と目的への適合性を継続的にモニタリングすることが不可欠となる。合成データは確かに大きな可能性を秘めているが、その使用には十分な注意と適切な管理が必要だ。
AI全体についてもいえることだが、大きなメリットとデメリットの両方を持つ技術が普及するとき、そこにはビジネスのチャンスと規制のリスクが生まれる。合成データも同様で、この価値のある手法を安全かつ正しく使いこなすために、さまざまな企業やスタートアップが関連サービスを提供するようになっている。
一方、合成データの利用拡大に伴い、その使用に関する倫理的ガイドラインや法整備がされていくと考えられる。こうした流れの中で、合成データの信頼性と安全性が向上し、より広範な採用が進み、企業にはより重い責任が課せられるようになるだろう。ますます複雑化するAIとデータを巡り、最新の動向を注視することが求められている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
文章に“多重電子透かし”を入れる技術、日立が開発 書き手が「人間」or「AI」か区別可能に その仕組みとは?
日立製作所は、AIが生成した文章に多重電子透かしを搭載する技術を開発したと発表した。この技術を使うことで、人間が書いた文章なのか、AIが生成した文章なのかを見分けられるという。
“HDMIケーブルから漏れる信号”を屋外から傍受→モニターの表示内容を盗み見るAI ウルグアイチームが開発
ウルグアイのUniversidad de la Republica Montevideoに所属する研究者らは、HDMIケーブルから意図せずに放射される電磁波を傍受し、AIを使用して解読することでモニターに表示されている画像を再現する攻撃を提案した研究報告を発表した。
生成AIが“AI生成コンテンツ”を学習し続けるとどうなる?→「モデル崩壊」が起こる 英国チームが発表
英オックスフォード大学や英ケンブリッジ大学などに所属する研究者らは、AIモデルが自己生成したデータで繰り返し学習すると、モデルの性能が低下していく「モデル崩壊」という現象を発見した研究報告を発表した。
「Llama 3.1」の日本語追加学習モデル、サイバーエージェントが公開 SNSでは「爆速すぎる」の声
サイバーエージェントは、米Metaの最新AIモデル「Llama 3.1 70B」を使った新たな大規模言語モデル(LLM)を公開した。Llama 3.1 70Bをベースに、日本語データを追加学習させたもので、Hugging Face上で公開している。
23個のAIツールを9カ月でスピード開発──ZOZO、生成AI活用に前のめり 大量展開のコツを聞いた
ファッションECサイト「ZOZOTOWN」を運営するZOZOは、生成AI活用に積極的な姿勢を見せており、独自のAIツール23個を約9カ月で開発、全社で展開している。同社が実行している「生成AI業務活用プロジェクト」の裏側について話を聞いた。