分析データの前処理を自動化する2つの新技術、富士通研から準備時間が5日から半日に(2/2 ページ)

» 2017年09月19日 13時00分 公開
[金澤雅子ITmedia]
前のページへ 1|2       

データセットの特徴をメタデータで用意

 類似データ高速絞込み技術では、目的の加工データを得るために不足データセットがある場合、人間は背景知識を基に適切なデータセットを探すが、これを自動化する場合、ライブラリに用意した補助データセットから総当たりで調べる必要があり、処理時間が膨大になる。

 今回、ライブラリとして用意しておく補助データの列ごとに、列に含まれる値の分布の特徴をメタデータとしてあらかじめ算出しておき、中間データから算出した特徴と類似度を算出することで、不足データを高速に絞り込む技術を開発した。

類似データ高速絞込み技術

 近年、POSデータとSNSのデータなどを組合せたマーケティング分析や、病院の電子カルテを分析した創薬研究など、さまざまなデータを統合し、新規ビジネスの創出や新製品の開発に活用する手法が注目を集めている。

 富士通研究所では、そうした市場に向け、さまざまデータ処理技術をデータ流通、活用の視点で体系化し、「Data Bazaar(データ バザール)」とう呼称で体系化している。今回のデータ準備の自動化技術は、その構成要素の1つに位置付けており、2018年度の実用化を目指すとしている。

Photo さまざまなデータを効率的につなぎ、活用する包括的なデータ処理基盤技術群「Data Bazaar」
前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ