分析データの前処理を自動化する2つの新技術、富士通研から準備時間が5日から半日に(1/2 ページ)

富士通研究所が、さまざまな形式のデータを連携させてデータ分析に活用するためのデータ準備作業を自動化する技術を開発した。

» 2017年09月19日 13時00分 公開
[金澤雅子ITmedia]

 富士通研究所は、異なる形式のデータを連携させてデータ分析に活用するために前処理として行うデータの整形、統合処理を自動的に行う技術を開発した。同技術を約8000件のPOS購買データから抽出するマーケティング分析用データセットに適用した結果、従来5日かかっていたデータ準備作業を、約半日で終えられたという。

 従来、データ準備作業は、目的とするデータを得るため、素材となるデータにどんな変換を行い、統合していくかを十分に把握した上で一つひとつつなぎ合わせてデータを作成していく必要があり、高いスキルを持つデータサイエンティストなどが多くの時間をかけて行っていた。

 また、統合作業中に不足しているデータセットの追加や、変換プログラムの改修が必要になることもあり、そのたびに改修方法の模索と検証が必要になる。このようなデータの整形、統合、検証といった作業を繰り返すデータ準備は膨大な作業時間を要し、データ準備から分析までの全工程の8割程度を占めるといわれる。

 データの整形、統合を効率化する取り組みとして、目的とする変換結果の例を基にデータ変換を自動的に行う技術開発も行われているが、既存技術では、表記統一や形式統一、単位変換、不足データセットの結合などのさまざまな処理を試行しながら、目的のデータ統合結果を実現する組み合わせを網羅的に探索する必要がある。

 この整形処理が複雑になると、変換処理や不足データセットが増大するため、探索する組み合わせの数が膨大になり、現実的な時間で処理を終えることが困難になるという。

探索の効率化と類似データの高速絞り込みを実現

 今回開発した技術では、データ整形と統合の処理を自動的に行うため、この処理の組み合わせの探索を効率化することで、変換処理数の増加や不足データセットの追加で組み合わせの数が増大しても、高速に処理できるようにした。

 この仕組みは、変換処理の履歴から必要な処理を予測する「探索効率化技術」と不足しているデータを効率よく探索する「類似データ高速絞込み技術」の2つで実現する。

 探索効率化技術では、DB上の列(カラム)に対して、表記統一や形式統一、単位変換、不足データ結合などのさまざま変換処理を適用した中間結果をそれぞれ算出し、中間結果と加工後のデータとの類似度を算出。次に、類似度の高い中間結果を基に、さらに変換処理を適用して次の中間結果を算出し、類似度を計算する処理を繰り返しながら、目的の加工後データに近づける。

 今回、中間結果に適用する変換処理について、これまでの変換処理と変換結果の履歴を保持して、加工後のデータに類似するデータを生成する変換処理を予測することで、無駄な変換処理を削減する技術を開発。探索時間が数十分の1に短縮することを確認したという。

組み合わせ探索効率化技術
       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ