data mining / datamining
種々の統計解析手法を用いて大量の企業データを分析し、隠れた関係性や意味を見つけ出す知識発見の手法の総称、またはそのプロセスのこと。「マイニング」は「採掘」の意。データウェアハウスなどに蓄積された膨大なデータを「鉱山」に見立て、そこから未知の知見や規則性という“鉱石”を「発掘する」という意味が込められている。
データマイニングにおける統計・解析アルゴリズムは、相関ルール、クラスタリング、ニューラルネットワーク、遺伝アルゴリズムなど数多くがある。ビジネスの分野では、「決定木分析(ディシジョンツリー)」で顧客特性や傾向を分析したり、「重回帰分析」で過去の実績データから今後の方向性を予測したりといった形で利用される。具体事例としては、商品の併売傾向(どの商品とどの商品の組み合わせが最も売れるか)を測る「マーケットバスケット分析」が有名である。
市販のデータマイニングツールにはこうした主要アルゴリズムが組み込まれており、また近年のツールには直感的な操作ができるように分かりやすいGUI画面を搭載しているものも多い。
データマイニングに取り組む際に注意したいのは、あくまで法則を見つけ出すのはユーザーである点。データマイニングツールの役割は、アルゴリズムに基づき、一定の“仮説”を導き出すことにある。そこからどのような意味を見出し、その仮説を検証できるかどうかは、統計解析や業務に精通したユーザー自身の活動とスキルによるということを忘れないようにしたい。
▼『データマイニング』 ピーター・エイドリア、ドルフ・ザンティンジ=著/山本英子、梅村恭司=訳/共立出版/1998年6月(『Data Mining』の邦訳)
▼『次世代データベースとデータマイニング――DB&DMの基礎とWeb・XML・P2Pへの適用』 石川博=著/CQ出版/2005年5月
▼『数式を使わないデータマイニング入門――隠れた法則を発見する』 岡嶋裕史=著/光文社/2006年5月『集合知プログラミング』 トビー・セガラン=著/當山仁健、鴨澤眞夫=訳/オライリー・ジャパン/2008年7月(『Programming Collective Intelligence:Building Smart Web 2.0 Applications』の邦訳)
Copyright © ITmedia, Inc. All Rights Reserved.