富士通研究所は、複数のデータベースに散在した重複データを短時間で統合する技術を開発した。従来手法と同等の精度ながら、時間を10分の1程度に短縮できるという。
富士通研究所は3月8日、複数のデータベースに重複して散在している顧客データを短時間で1つに統合(名寄せ)する技術を開発したと発表した。従来手法と同等の精度を確保しつつ、統合に必要な時間を10分の1程度に短縮できるとしている。
同社によると、近年は企業の合併・統合や組織の再編が頻繁に行われるようになり、複数のデータベースを統合する必要性が高まっている。複数の拠点や組織にある顧客データを名寄せする際、例えば顧客の名前を「氏名一体」もしくは「氏+名」で登録するという区分の違いや、「郵便番号」を漢字もしくは記号で記載するといった表記ルールなどの違いが障壁となることが多い。
従来の名寄せでは、顧客の名前や住所、電話番号など顧客を特定できる項目の類似性を調査し、多くの項目で一致もしくは類似した値をとるデータの組み合わせを同の一顧客と判断する手法がとられていた。しかし、大規模なデータベースでは長時間を要するという課題があった。また、時間を短縮するためにデータをある程度共通性のあるグループに小分けして調べる手法もあるが、見落としが発生する確率が高いという問題があった。
今回開発した技術では、複数項目を用いて類似した文字列を検索し、類似するデータを総合評価することで見落としの発生確率を低減した。また表記の違う顧客データは、データ同士に共通部分があり、文字の先頭や末尾、もしくは中間の1カ所が異なっても、これを類似するものと判断するようにした。これによって、例えば10項目からなる約200万件の顧客情報に名寄せする場合、従来手法では、処理に15時間半を要したが、新技術では1時間半ほどで完了できる。
同社では、2011年度中に新技術の実用化を目指す。顧客データ以外のテキストや画像、動画のタグなどを対象にしたデータ統合に関する研究開発を進めるという。
Copyright © ITmedia, Inc. All Rights Reserved.