第1章 CRMとデータマイニングの必要性マーケターのためのデータマイニング講座(2/2 ページ)

» 2001年09月10日 12時00分 公開
[村田悦子,エス・ピー・エス・エス株式会社]
前のページへ 1|2       

2.データマイニングの定義

 前述したように「アナリティカルCRMは汎用的な目的を持つ“データマイニング”の利用分野の1つ」だとすると、データマイニングそれ自体はどのように定義付けられるのでしょうか? ここでは一般的な定義を統計手法との比較において紹介するとともに、ビジネスよりの観点からも議論していきます。

 データマイニングの定義はこれまで多数紹介されていますが、多少表現の違いはあってもほとんどが「大容量データから有効なビジネスパターンを発見する」といった意味合いのもので、「大容量データ」と「発見」というキーワードが共通しているように見受けられます。これはギガ単位のような大規模データを想定せず、事前に設定された仮説の検定、あるモデルを想定したパラメータ推定や推論・予測を主な目的とした統計解析を意識した定義とも考えられますので、統計との違いに焦点を当てて説明していきます。

データマイニングは仮説構築型の手法である

 データマイニングという概念が紹介される以前は、データ分析といえば統計解析手法を用いたものでした。データマイニングと統計が厳密に異なるものかどうかは専門家の議論にゆだねるとして、実務的な解釈では、統計が仮説検証のための手法であるのに対し、データマイニングは仮説構築の手法とされています。

 これが「発見型」といわれるゆえんで、例えば「学歴が高い人は低い人より給与が高い」という仮説を立て、それが本当かどうかを検証するのが統計的アプローチなら、給与額に影響を与える要因を、何の偏見も持たずに白紙の状態から見つけ出すのがデータマイニングといえるでしょう。有名な「ビールと紙オムツ」の併買傾向は、仮説としては極めて想起しにくい組み合わせですので、統計ではなくデータマイニングを行うことで初めて発見された象徴的な事例として語り継がれています。

 しかし、データマイニングを行えば頻繁にこのような未知の奇異な発見があると期待するのは多少短絡的かもしれません。それよりは、人間の許容範囲を超えた複雑な条件の組み合わせに対処できるところを利点と考えるべきでしょう。

 例えば、車を1台、クレジットカードを2枚以上保有する首都圏在住の40代で子供が2人いる年収1000万から1300万円の既婚の男性がダイレクトメールに返信しやすいと分かっても特に不思議はないでしょう。ビールと紙オムツのようなインパクトはありません。しかしダイレクトメールの送付先を絞り込むうえで非常に有用な情報であり、また仮説として人間が考え付くのは難しいことから、このようなルールが容易に発見できるのは、明らかにデータマイニングによる恩恵であると考えられます。当たり前の結果が出たからといってデータマイニングの効果を疑うのは間違いです。

データマイニングでは大容量データを扱う

 統計では仮説を検定するために目的を持ってデータを収集することが多く、データ数は数十から数百レコードの範囲にしかならないこともしばしばです。一方、データマイニングでは上述のように自動的に大量に収集されるデータを前提としています。そのため処理速度が重要課題となり、ハイスペックなハードウェアとともにスケーラビリティに優れたツールが求められます。

 しかし後述するビジネス目的から考えれば大容量データは必ずしも必要とはいえません。データマイニングはゼロから仮説を作り出す作業ですから試行錯誤が必須です。失敗を繰り返しながら最良と思われる結果にたどり着くプロセスは、どんなに高速なツールを使ってもギガ単位のデータでは軽快にこなせるものではありません。

 大量データを全件使用するのではなく、サンプルを使ってベストなモデルを確立したうえで、必要に応じてそのモデルに全データを流してみるという方法が現実的でしょう。データ量は多ければそれだけで精度が向上するわけではなく、交差妥当化(データの一部で出た結果を残りのデータで検証してみること)が可能になったことの恩恵のほうがはるかに大きいので、満足のいくモデルを作成するまではストレスを感じないデータ量で作業を行うのが賢明と考えられます。

データマイニングは分析スキルが必要とされない手法である

 こう断言するのは間違いですが、データマイニングの目的をビジネスプラクティスの向上と考えれば、方法論より結果が重要となるのは事実です。極言すれば、どんなに高度なアルゴリズムを駆使しようが、ビジネスにおいてアクション可能な有意義な結果が出なければマイニングを行う価値はありません。

 その意味においてはITや分析のスキルよりもビジネスセンスに依存する部分が大きいでしょう。分析結果を統計的観点から評価するにはかなりの知識が要求されますが、ビジネスの理解が十分なら、現実と照らし合わせたうえでの評価が可能です。データマイニングツールには最先端の高度なアルゴリズムが搭載されていますが、最良の結果を最短で得るためにはアルゴリズムでなくビジネスの知識がより重要で、ツールにはこのユーザーの知見を分析に反映しやすいデザインが施されていますので、スキルの要らない手法という位置付けが与えられているのもうなずけます。

 以上、一般的なデータマイニングの定義を統計との比較において考えてみました。しかし、仮説構築型の、大容量データを扱う、スキルの要らない手法でなければデータマイニングと認められないかというと大いに疑問です。特にCRMと絡めてデータマイニングをビジネスアプリケーションと考える場合、「手持ちのデータから科学的に再利用可能な汎用的ビジネスルールを導き出す」という別の定義が浮上します。

 事実データマイニングは1000件程度のデータでも可能ですし、回帰分析、判別分析、クラスター分析などの伝統的な統計手法がマイニング手法としても活用されています。むしろデータマイニングの前提条件は、解決すべきビジネス問題の存在とその認識でしょう。データマイニングを行うに当たっては、必ず解決したい問題があるはずです。ビジネスの場合ではほとんどが増収か経費削減、つまり増益につながる問題に集約されます。

 しかし、大局的な問題は同じでも、メスを入れるべき個所は各企業で異なるものです。減収の原因は製品力の衰えか、営業効率の問題なのか、あるいはプロモーションの失敗に起因しているのか。プロモーションが問題なら、改善すべきはダイレクトメールの返信率か広告媒体の選定か。それが分かる人でなければマイニングを行うことはできません。一番重要なのは業務知識なのです。


 データマイニングにおいては、分析に至るまでの工程で8割の時間が費やされるといわれています。データマイニングプロセスに関しての詳細は次回以降に譲りますが、マイニングの成功がプロセス初期のビジネスの理解とデータの理解に大きく依存することは注目に値します。なぜならこの部分はツールでは行えない属人的性格を持つものだからです。それを踏まえて、この講座ではテクノロジ主導ではなくビジネス課題主導のマーケティングの観点からデータマイニングを論じることを目的とし、次回以降で方法論に掘り下げた議論を展開していきます。


連載記事の内容について、ご質問がある方は<@IT IT Business Review 会議室>へどうぞ。


Profile

村田 悦子(むらた えつこ)

米国ボストン大学経済学部卒。ブラビス・インターナショナルにて機械翻訳システムの辞書開発。日本SEにて米国キャンドル社、BGS社の大型汎用機用運用管理システムのマーケティングに従事。1991年、日本SEと米国SPSS Inc.の合弁会社であったSPSSJapan Inc.に転籍。マーケティングマネージャを経て現在ビジネスインテリジェンス事業部担当上級副社長。ビジネス界でのデータマイニングの普及を推進するとともに、JACS-SPSS論文大賞特別審査員や学生を対象とした講演など、産学の橋渡しとなる活動に携わる。

エス・ピー・エス・エス株式会社

米国SPSS Inc.の日本法人として1988年に設立。設立以来、統計解析ツールSPSSを中心とした製品群と、関連サービスを提供。CRMなどの分野を中心にデータマイニングが注目される中、1999年5月、データマイニングツールClementineを発売。国内データマイニング分野では、最大級のユーザー数を誇る。2001年からは、データマイニングプロジェクトの標準であるCRISP-DMに沿ったコンサルティングサービスの提供など、顧客のビジネスを成功に導くソリューションを提供している。

代表取締役:イアン・スタンレイ・デュエル

東京都渋谷区広尾1-1-39

ホームページ:http://www.spss.co.jp/


前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ