第2回:「データマイニング」──意思決定の究極指標、「確率」の算出CRMチャネルの威力を活性化せよ

CRMチャネルの威力をブースト(増幅、活性化)するための取り組みは、企業が売り上げの拡大を図る上で極めて重要なテーマである。連載の第2回では、意思決定の指標である「確率」を析出するメカニズム、「データマイニング」のプロセスや分析手法を取り上げる。

» 2008年11月04日 10時00分 公開
[PR/ITmedia]
PR

 人が意思決定を行うとき、どんな指標が参考になるだろうか。その最右翼として位置付けられるのが、ある事象が発生する「確率」である。天気予報の例を持ち出すまでもなく、確率の値は、0から1のあいだで表され、1に近ければある事象が発生する確率が高く、0に近ければ事象は発生しにくいと想定することができる。そして、この確率は過去の結果データから経験的に導き出される。したがって、データが多ければ確率の値は安定し、より信頼を置くことができるようになる。

 この確率値を算出するメカニズムとして利用されるのが、「データマイニング」である。今回はその中でも強力な手法の1つ、ロジスティック回帰分析を例に、キャンペーン対象顧客、そしてキャンペーン案内オファーの意思決定プロセスを概観していこう。

CRMチャネルの威力を活性化せよ INDEX
第1回:「キャンペーン管理」── チャネルに対する司令塔
第2回:「データマイニング」── 意思決定の究極指標、確率の算出
第3回:拡大するデータウェアハウスの役割

ロジスティック回帰分析

 ロジスティック回帰分析の手法は、既に発生した事象のデータを利用して、ある事象の発生確率を算出する数式モデルを構築する。例えば、過去にキャンペーンに「反応した顧客」と「反応しなかった顧客」のデータを投入すると、その傾向を反映した数式モデルが作成される。そして、そのモデルに予測したい顧客のデータを投入すると、各顧客の反応確率が算出される。ある顧客のキャンペーン反応確率が0.8であったとしよう。極めておおざっぱに言えば、これは同じデータ傾向を有している顧客の8割が、キャンペーンに反応したことを示す。

 すべての顧客に確率値を付与すれば、各顧客の反応確率を比較できるため、反応確率が高い顧客をキャンペーン案内対象として優先できる。例えば、予算枠から決定された対象顧客数が3000名であれば、反応確率上位3000名を選択することが合理的な意思決定といえる。

 また、案内オファーに選択肢が存在するとき、この確率値を競争させることもできる。例えば、オファーの選択肢として、商品購入時に1.「割引」、2.「ノベルティ」、3.「ポイント付与」の3つがあるとしよう。この3つそれぞれに対して数式モデルを構築し、すべての顧客に対して各々3つの確率値を算出させる。顧客ごとに3つの確率値を比較し、最も高い確率値を得たオファーを選択することが、合理的な意思決定だ。ある顧客には割引を案内し、別な顧客にはノベルティを案内するといった、個別化に活用できるようになる。前回説明した「キャンペーン管理ツール」では、この確率値、もしくはそれに基づいて選択されたオファーのデータを引き継ぎ、キャンペーンの設定に活用する。

確率値の比較 確率値の比較

データマイニングのプロセス

 確率値を算出するまでの流れを、「Teradata Warehouse Miner」を例に見ていこう。同製品はTeradata Database内でデータマイニング処理を完遂できる製品だ。すべてのアルゴリズムをSQLで処理でき、したがってすべてのデータをテーブル形式で扱うことができるのが特徴だ。このため、Teradata Databaseが有する強力なパフォーマンスを最大限に活用することができる。以降、プロセス順に実施項目を概観しよう。

Teradata Warehouse Minerの画面イメージ Teradata Warehouse Minerの画面イメージ

1. データの理解

 データマイニングにおいて、すべてのデータは変数として扱われ、その集合が単一の表となる。顧客ごとに「キャンペーンに反応した/しなかった」という変数(結果変数)が存在するが、これを説明してくれそうな変数(説明変数)を探し出すことが最初のステップだ。この段階において、各データの傾向がどうなっているか、別の変数との相関がどうなっているかを確認し、変数候補として組み込むか否かを決定する。Teradata Warehouse Minerはこのフェーズにおいて、各変数の値がどうなっているかを確認する機能を提供する。

2. データの準備

 変数候補が出そろった段階で、それを下の図のような単一の表として構築する必要がある。通常、データウェアハウスに存在しているデータは正規形で保持されているため、このデータを集計、派生処理する必要がある。下の図には男性/女性データをフラグデータとして変換する例と、商品別の売上データを、取引明細から集計させる例を示した。このような作業は試行錯誤的に実施されるため、一般に手間が掛かり、データマイニングプロセス全体の50%を占めるともいわれている。Teradata Warehouse Minerを利用することにより、この表はTeradata Databaseのテーブル形式で管理され、利用可能となる。このため、当該テーブルを共用、定期リフレッシュすることで作業生産性が改善される。

データマイニングに用いる表の作成 データマイニングに用いる表の作成

3. モデリング

 データ準備が整った段階で、数式モデルを構築する。数式モデルそのものの解説は避けるが、ロジスティック回帰分析は、説明変数を使って確率値を算出するような数式モデルを析出する。数式内に含まれる説明変数には、確率値を大きく押し上げる変数、大きく押し下げる変数、または小さな影響しか与えない変数が存在する。そのため、さまざまな変数とその値の違いが確率値を決定付け、また、そのように作用する数式モデルが出来上がる(なお、作成されたモデルは利用に値するかどうか検証・評価されなければならないが、ここでは割愛する)。

4. スコアリング

 得られた数式モデルを、本来予測したい顧客に適用する。具体的には、数式に顧客ごとの各変数を代入し、顧客ごとの確率値を算出するわけだ。Teradata Warehouse Minerでは、モデルがSQL文で作成される。同製品のスケジューラー機能を利用してこのSQLを実行し、定期的にスコア(=確率値)を更新させることができる。また、キャンペーン管理ツールである「Teradata Relationship Manager」側でもこのスコアが格納されたテーブルを利用できるため、データマイニングの結果を、透過的にキャンペーン設定環境に連携させることもできる。

5. スコアの適用

 仕上げとして、キャンペーン管理ツール側でスコアを利用し、対象顧客、案内オファー、案内チャネルを決定する。案内オファーを例に取れば、以下のような意思決定を顧客ごとに下すことになる。

  • コールセンターのインバウンド/アウトバウンドで、電話先の顧客に対して案内すべき、最も反応確率が高い商品紹介スクリプトはどれか
  • ATM端末や会員向けWebサイトに表示させるバナー広告で、最も反応確率の高いバナーはどれか
  • ダイレクトメールや電子メールのオファーコンテンツ掲載枠が3つであった場合、反応確率トップ3のオファーコンテンツはどれか

そのほかの確率算出手法例

 以下に挙げる手法も、データマイニング、そして確率算出の手法として利用される代表例である。詳細な解説は割愛するが、析出の目的やデータ種別に応じて選択できる。

デシジョンツリー分析

 この手法もロジスティック回帰分析と同様、事象の発生/未発生から逆算してモデルを作成するが、樹形図形式の分かりやすいルールにしてくれるのが特徴。「普通預金残高500万円以上(AND)年間入金額700万円以上(AND)年齢40歳以上であれば、定期預金を申し込む確率は0.89である」のような形式だ。

アソシエーション分析

 アソシエーション分析は、事象Aが発生したとき、事象Bが同時発生する確率を算出する手法だ。考え方はシンプルで、過去に商品Aが購入された際に、商品Bが購入された割合を算出し、それがそのまま確率となる。しかしながら、この手法がパワフルなのは、すべての発生事象に対して総当たり的に確率値を付与する点にある。膨大な扱い商品の中から推奨商品を意思決定するような、いわゆる「ロングテール」アプローチに適した手法である。

意思決定自動化の前提

 これまで見てきたように、データマイニングにおけるモデルと、キャンペーン管理におけるキャンペーン構成要素を事前に設定しておけば、おおよそほとんどのキャンペーンは自動的に組み立てられ、各チャネルに連携させることができる。すべての意思決定が自動化されるわけではないが、「誰に対して、何を案内するか?」を自動的に決定することは可能だ。

 ただし、これには2つの条件がある。1つはユーザーがキャンペーンを起動させる条件と、条件にひも付いて後続起動されるキャンペーンを厳密にデザインできること。そして、もう1つは「データ」である。データの種類が広範であれば、説明変数として活用できるデータのバリエーションも広がる。データの絶対量が多ければ、確率値のベースとなる傾向は安定し、確率値はより信頼できるようになる。これはデータマイニングを使わず、通常のデータ分析(レポーティングや非定型分析)の結果を利用してキャンペーンをセットアップする際にも言えることである。つまり、利用可能なデータが意思決定の能力に影響を与えるのである。

 そしてそのとき、基盤となるデータウェアハウス環境の優劣が意思決定能力を決定付けることになる。意思決定のスピード、適用範囲、精度……、これらはすべてデータウェアハウスがどれだけのパワーとデータを提供してくれるかに掛かっている。この点を整理するため、次回はデータウェアハウスの役割について解説する。

賢いCRMの3原則

1

第1回: 顧客リレーションシップの「維持」
企業が消費者向けのマーケティングを推進し、顧客とのリレーションシップを拡大するために、念頭に置くべき3つの原則が存在する。当連載「賢いCRMの3原則」では、この3原則に基づいたマーケティングキャンペーンの進め方を解説する。第1回目の今回は、顧客リレーションシップの「維持」を取り上げる。(08/09 10:00)

2

第2回:顧客リレーションシップの「強化」
企業が消費者向けのマーケティングを推進し、顧客とのリレーションシップを拡大するために、念頭に置くべき3つの原則が存在する。当連載「賢いCRMの3原則」では、この3原則に基づいたマーケティングキャンペーンの進め方を解説する。第2回目の今回は、顧客リレーションシップの「強化」を取り上げる。(09/27 10:00)

2

第3回:顧客リレーションシップの「構築」
企業が消費者向けのマーケティングを推進し、顧客とのリレーションシップを拡大するために、念頭に置くべき3つの原則が存在する。当連載「賢いCRMの3原則」では、この3原則に基づいたマーケティングキャンペーンの進め方を解説する。第3回目の今回は、顧客リレーションシップの「構築」を取り上げる(10/18 10:00)


顧客データ活用のABC

1

第1回:顧客データのプロファイリング
消費低迷環境下において顧客からの支持を得るためには、自社の顧客を深く理解する能力が求められる。当連載「顧客データ活用のABC」では、顧客データを分析し、活用に導く枠組みを解説する。第1回目の今回は、顧客データのプロファイリング方法を取りあげる。(08/03 10:00)

2

第2回:分析でキャンペーンポイントを導き出す
消費低迷環境下において顧客からの支持を得るためには、自社の顧客を深く理解する能力が求められる。連載の第2回では、キャンペーン・アイデアを導き出すための分析例について解説する。(09/01 10:00)

3

第3回:マルチチャネル環境下でのデータ統合
消費低迷環境下において顧客からの支持を得るためには、自社の顧客を深く理解する能力が求められる。当連載「顧客データ活用のABC」では、顧客データを分析し、活用に導く枠組みを解説してきた。第3回目では、これを実現するためのデータ基盤を考察する。(09/16 10:00)


CRMチャネルの威力を活性化せよ

1

第1回:「キャンペーン管理」── チャネルに対する司令塔
連載の第1回では、この「チャネルブースター」の核として、直接的にチャネルに対して「だれに対して、何を案内するか?」を指示してくれる「キャンペーン管理」を取り上げる。(2008/10/14 10:00)

1

第3回:拡大するデータウェアハウスの役割
これまでこの連載では、前回と前々回で、キャンペーン管理ツールとデータマイニングツールを利用した、知識の析出からキャンペーンのセットアップ、そしてチャネルへの連携に至るプロセスをさかのぼってきた。第3回では、これを下支えするデータウェアハウスの役割を解説する。(2008/11/19 10:00)


Copyright © ITmedia, Inc. All Rights Reserved.


提供:日本テラデータ株式会社
アイティメディア営業企画/制作:ITmedia エンタープライズ編集部/掲載内容有効期限:2008年12月4日