この記事は新野淳一氏のブログ「Publickey」に掲載された「オラクル、本物のようなテストデータ群を生成AIが自動生成してくれる「Select AI for Synthetic Data Generation」発表。Oracle CloudWorld 2024」(2024年9月12日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。
米Oracleは、生成AIがテスト用に実データのような特徴を備えたデータ群を自動的に生成してくれるOracle Autonomous Databaseの新機能「Select AI for Synthetic Data Generation」を発表しました。
ソフトウェアの開発において、ユーザーインターフェイスの設計時やテスト時、コードのテスト時、性能テストや負荷テストなど、さまざまな場面で適切なテストデータを用意する必要があります。
このとき、理想的には本番環境で使われる実データ全体もしくは一部をテストデータとして利用できることが望ましいといえますが、現実的には開発時にはそのようなデータは入手困難であることが一般的です。
もしも入手可能であったとしても、情報漏洩のリスクやプライバシーポリシーなどの面で、実データを開発環境やテスト環境で使うことはほとんどの場合において許されないことが想定されます。
そのため、できるだけ実データに似せたテストデータを開発者自身が用意することになりますが、手作業で実データのような内容やデータの分布を備えたテストデータを大量に作成するのは非常に面倒な作業です。
これを解決するのが、今回発表された「Select AI for Synthetic Data Generation」です。
Oracle Autonomous Databaseには、自然言語を用いてデータベースへ問い合わせなどができる生成AI機能として「Select AI」が用意されています。
「Select AI for Synthetic Data Generation」はそのSelect AIの新機能であり、生成AIがスキーマとメタデータ、自然言語の指示などを元に、テストデータを自動生成してくれます。
具体的には、データベーススキーマを定義する際に「generate_synthetic_data()」関数を呼び出すことで、生成されるテーブル内にテストデータが生成されます。テーブルのスキーマを指定する際に、自然言語でどのようなデータかを指示することも可能です。
例えば、映画データを格納するテーブルに「all movies are released in 2009」(全ての映画は2009年に公開された)や「the value for state should either be CA, WA, or TX」(州の名前はCAかWA、TXのいずれか)といった制約を付けてデータを生成させる例が示されています。
生成AIがテストデータを生成するには一定の時間がかかりますが、時間短縮のためにタスクを分割して並列実行していると説明されています。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR