類似データ高速絞込み技術では、目的の加工データを得るために不足データセットがある場合、人間は背景知識を基に適切なデータセットを探すが、これを自動化する場合、ライブラリに用意した補助データセットから総当たりで調べる必要があり、処理時間が膨大になる。
今回、ライブラリとして用意しておく補助データの列ごとに、列に含まれる値の分布の特徴をメタデータとしてあらかじめ算出しておき、中間データから算出した特徴と類似度を算出することで、不足データを高速に絞り込む技術を開発した。
近年、POSデータとSNSのデータなどを組合せたマーケティング分析や、病院の電子カルテを分析した創薬研究など、さまざまなデータを統合し、新規ビジネスの創出や新製品の開発に活用する手法が注目を集めている。
富士通研究所では、そうした市場に向け、さまざまデータ処理技術をデータ流通、活用の視点で体系化し、「Data Bazaar(データ バザール)」とう呼称で体系化している。今回のデータ準備の自動化技術は、その構成要素の1つに位置付けており、2018年度の実用化を目指すとしている。
Copyright © ITmedia, Inc. All Rights Reserved.