Oracleは最新版のデータベースであるOracle Database 23cに、AI Vector Searchを実装すると発表した。画像や動画などの非構造化データをSQLで検索できる、その機能とは。
Oracleは2023年9月19日、「Oracle Database 23c」に「AI Vector Search」(AIベクトル検索機能)の追加を予定していると発表した。ベクトルデータ型やベクトル索引、ベクトル検索といった新たなSQL演算子が含まれ、画像や文章、動画といった非構造化データのコンテンツをベクトルとして格納し、これを活用したクエリの実行が可能になるという。
「Oracle CloudWorld」(期間:2023年9月18〜21日)に行われた、日本オラクルの三澤智光氏(取締役 執行役 社長)とOracleのアンディ・メンデルソン氏(データベース・サーバ・テクノロジー担当エグゼクティブ・バイス・プレジデント)の記者向けブリーフィングを基にその全貌をひも解く。
2023年9月21日、日本オラクルの三澤氏がOracle CloudWorldを総括した際、AIベクトル検索機能へのコメントがあったので抜粋して紹介する。
「ベクトルデータベースはAI学習データを工数をかけず高速で取り込むことができる。データプリパレーションワークがデータサイエンティストの仕事の8割と言われ、結局AIモデルの開発に割ける時間がほぼない。ベクトルデータベースがそれが変える」(三澤氏)
マルチデータファイルシステムのデータベースは、文章や画像、音声、リレーショナルデータといった種類の違う非構造化データを、異なるデータベースに格納し、それぞれの学習データを用意する必要があるため、データプリパレーションワークに工数がかかる。その点、Oracleのデータベースはさまざまな非構造化データを一つのデータベースにまとめて取り込める点が強みとなりそうだ。
ベクトルデータベースは、大規模言語モデル(LLM)とプライベートのビジネスデータを組み合わせ、自然言語の質問に回答する生成AIである「Retrieval Augmented Generation」(RAG)にも対応する。RAGは回答の精度を向上させたり、LLMトレーニングデータにプライベートのデータを含めることによるデータの露出を防いだりする。
三澤氏は「RAGもサポートするためマルチAIになる。CoheraやOpenAI、MosaicMLのサービスも使えるし、日本製のAIモデルも使える。要はマルチファイルシステムインテグレーションはいらなくなる」と語り、ベクトルデータベースが従来の開発スタイルを大きく変えると予言した。
続いて2023年9月22日、Oracleのアンディ・メンデルソン氏(データベース・サーバ・テクノロジー担当エグゼクティブ・バイス・プレジデント)の記者向けブリーフィングが行われた。
ベクトルデータベースは画像などの非構造化データを扱うため、利用するには障壁があると考えるユーザーも多いが、メンデルソン氏は「簡単に利用できる」と語る。
「このテクノロジーは驚くほど簡単に使えるようになった。SQLを利用している開発者やアナリストなら、15分もあればAIベクトル検索を使えるようにトレーニングできる」(メンデルソン氏)
従来は、AI技術に精通したデータサイエンティストでないと扱うことが難しかったような非構造化データを、一般的なSQLユーザーでも扱えるようになることは「大きな革命」と語った。
メンデルソン氏は、「構造化されていないデータを検索し、一致する画像を探し出す。あらゆる業界でベクトルデータベースのユースケースがあるため、私たちの主要なユーザーは導入に興味を持つだろう」と予想した。
Oracle Database 23cはAIベクトル検索機能の他にも、開発者を手助けする多くのバージョンアップを予定している。その一つが、自然言語でのチャットでSQLの生成をする機能だ。Oracleの研究所の実験ではすでに約60%の確率でデータベースから正しい答えを出せるSQLが生成できているという。
「SQLが誤っていた場合、正しい答えを出すようにアナリストがSQLを修正する必要がある。(中略)SQLを理解し、クエリ元データの構造を理解している人でないと修正はうまくいかない」(メンデルソン氏)
AIがSQLを生み出してくれるとはいえ、正しい答えを得るためには利用者側にSQLやデータベースの知見が求められるのが分かる。メンデルソン氏は最後に、「開発者の方は、Oracle Database 23cには強力な機能があるのでぜひ見てほしい」と語った。
Copyright © ITmedia, Inc. All Rights Reserved.