第2回:「データマイニング」──意思決定の究極指標、「確率」の算出:CRMチャネルの威力を活性化せよ
CRMチャネルの威力をブースト(増幅、活性化)するための取り組みは、企業が売り上げの拡大を図る上で極めて重要なテーマである。連載の第2回では、意思決定の指標である「確率」を析出するメカニズム、「データマイニング」のプロセスや分析手法を取り上げる。
人が意思決定を行うとき、どんな指標が参考になるだろうか。その最右翼として位置付けられるのが、ある事象が発生する「確率」である。天気予報の例を持ち出すまでもなく、確率の値は、0から1のあいだで表され、1に近ければある事象が発生する確率が高く、0に近ければ事象は発生しにくいと想定することができる。そして、この確率は過去の結果データから経験的に導き出される。したがって、データが多ければ確率の値は安定し、より信頼を置くことができるようになる。
この確率値を算出するメカニズムとして利用されるのが、「データマイニング」である。今回はその中でも強力な手法の1つ、ロジスティック回帰分析を例に、キャンペーン対象顧客、そしてキャンペーン案内オファーの意思決定プロセスを概観していこう。
*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***
ロジスティック回帰分析
ロジスティック回帰分析の手法は、既に発生した事象のデータを利用して、ある事象の発生確率を算出する数式モデルを構築する。例えば、過去にキャンペーンに「反応した顧客」と「反応しなかった顧客」のデータを投入すると、その傾向を反映した数式モデルが作成される。そして、そのモデルに予測したい顧客のデータを投入すると、各顧客の反応確率が算出される。ある顧客のキャンペーン反応確率が0.8であったとしよう。極めておおざっぱに言えば、これは同じデータ傾向を有している顧客の8割が、キャンペーンに反応したことを示す。
すべての顧客に確率値を付与すれば、各顧客の反応確率を比較できるため、反応確率が高い顧客をキャンペーン案内対象として優先できる。例えば、予算枠から決定された対象顧客数が3000名であれば、反応確率上位3000名を選択することが合理的な意思決定といえる。
また、案内オファーに選択肢が存在するとき、この確率値を競争させることもできる。例えば、オファーの選択肢として、商品購入時に1.「割引」、2.「ノベルティ」、3.「ポイント付与」の3つがあるとしよう。この3つそれぞれに対して数式モデルを構築し、すべての顧客に対して各々3つの確率値を算出させる。顧客ごとに3つの確率値を比較し、最も高い確率値を得たオファーを選択することが、合理的な意思決定だ。ある顧客には割引を案内し、別な顧客にはノベルティを案内するといった、個別化に活用できるようになる。前回説明した「キャンペーン管理ツール」では、この確率値、もしくはそれに基づいて選択されたオファーのデータを引き継ぎ、キャンペーンの設定に活用する。
データマイニングのプロセス
確率値を算出するまでの流れを、「Teradata Warehouse Miner」を例に見ていこう。同製品はTeradata Database内でデータマイニング処理を完遂できる製品だ。すべてのアルゴリズムをSQLで処理でき、したがってすべてのデータをテーブル形式で扱うことができるのが特徴だ。このため、Teradata Databaseが有する強力なパフォーマンスを最大限に活用することができる。以降、プロセス順に実施項目を概観しよう。
1. データの理解
データマイニングにおいて、すべてのデータは変数として扱われ、その集合が単一の表となる。顧客ごとに「キャンペーンに反応した/しなかった」という変数(結果変数)が存在するが、これを説明してくれそうな変数(説明変数)を探し出すことが最初のステップだ。この段階において、各データの傾向がどうなっているか、別の変数との相関がどうなっているかを確認し、変数候補として組み込むか否かを決定する。Teradata Warehouse Minerはこのフェーズにおいて、各変数の値がどうなっているかを確認する機能を提供する。
2. データの準備
変数候補が出そろった段階で、それを下の図のような単一の表として構築する必要がある。通常、データウェアハウスに存在しているデータは正規形で保持されているため、このデータを集計、派生処理する必要がある。下の図には男性/女性データをフラグデータとして変換する例と、商品別の売上データを、取引明細から集計させる例を示した。このような作業は試行錯誤的に実施されるため、一般に手間が掛かり、データマイニングプロセス全体の50%を占めるともいわれている。Teradata Warehouse Minerを利用することにより、この表はTeradata Databaseのテーブル形式で管理され、利用可能となる。このため、当該テーブルを共用、定期リフレッシュすることで作業生産性が改善される。
3. モデリング
データ準備が整った段階で、数式モデルを構築する。数式モデルそのものの解説は避けるが、ロジスティック回帰分析は、説明変数を使って確率値を算出するような数式モデルを析出する。数式内に含まれる説明変数には、確率値を大きく押し上げる変数、大きく押し下げる変数、または小さな影響しか与えない変数が存在する。そのため、さまざまな変数とその値の違いが確率値を決定付け、また、そのように作用する数式モデルが出来上がる(なお、作成されたモデルは利用に値するかどうか検証・評価されなければならないが、ここでは割愛する)。
4. スコアリング
得られた数式モデルを、本来予測したい顧客に適用する。具体的には、数式に顧客ごとの各変数を代入し、顧客ごとの確率値を算出するわけだ。Teradata Warehouse Minerでは、モデルがSQL文で作成される。同製品のスケジューラー機能を利用してこのSQLを実行し、定期的にスコア(=確率値)を更新させることができる。また、キャンペーン管理ツールである「Teradata Relationship Manager」側でもこのスコアが格納されたテーブルを利用できるため、データマイニングの結果を、透過的にキャンペーン設定環境に連携させることもできる。
5. スコアの適用
仕上げとして、キャンペーン管理ツール側でスコアを利用し、対象顧客、案内オファー、案内チャネルを決定する。案内オファーを例に取れば、以下のような意思決定を顧客ごとに下すことになる。
- コールセンターのインバウンド/アウトバウンドで、電話先の顧客に対して案内すべき、最も反応確率が高い商品紹介スクリプトはどれか
- ATM端末や会員向けWebサイトに表示させるバナー広告で、最も反応確率の高いバナーはどれか
- ダイレクトメールや電子メールのオファーコンテンツ掲載枠が3つであった場合、反応確率トップ3のオファーコンテンツはどれか
そのほかの確率算出手法例
以下に挙げる手法も、データマイニング、そして確率算出の手法として利用される代表例である。詳細な解説は割愛するが、析出の目的やデータ種別に応じて選択できる。
デシジョンツリー分析
この手法もロジスティック回帰分析と同様、事象の発生/未発生から逆算してモデルを作成するが、樹形図形式の分かりやすいルールにしてくれるのが特徴。「普通預金残高500万円以上(AND)年間入金額700万円以上(AND)年齢40歳以上であれば、定期預金を申し込む確率は0.89である」のような形式だ。
アソシエーション分析
アソシエーション分析は、事象Aが発生したとき、事象Bが同時発生する確率を算出する手法だ。考え方はシンプルで、過去に商品Aが購入された際に、商品Bが購入された割合を算出し、それがそのまま確率となる。しかしながら、この手法がパワフルなのは、すべての発生事象に対して総当たり的に確率値を付与する点にある。膨大な扱い商品の中から推奨商品を意思決定するような、いわゆる「ロングテール」アプローチに適した手法である。
意思決定自動化の前提
これまで見てきたように、データマイニングにおけるモデルと、キャンペーン管理におけるキャンペーン構成要素を事前に設定しておけば、おおよそほとんどのキャンペーンは自動的に組み立てられ、各チャネルに連携させることができる。すべての意思決定が自動化されるわけではないが、「誰に対して、何を案内するか?」を自動的に決定することは可能だ。
ただし、これには2つの条件がある。1つはユーザーがキャンペーンを起動させる条件と、条件にひも付いて後続起動されるキャンペーンを厳密にデザインできること。そして、もう1つは「データ」である。データの種類が広範であれば、説明変数として活用できるデータのバリエーションも広がる。データの絶対量が多ければ、確率値のベースとなる傾向は安定し、確率値はより信頼できるようになる。これはデータマイニングを使わず、通常のデータ分析(レポーティングや非定型分析)の結果を利用してキャンペーンをセットアップする際にも言えることである。つまり、利用可能なデータが意思決定の能力に影響を与えるのである。
そしてそのとき、基盤となるデータウェアハウス環境の優劣が意思決定能力を決定付けることになる。意思決定のスピード、適用範囲、精度……、これらはすべてデータウェアハウスがどれだけのパワーとデータを提供してくれるかに掛かっている。この点を整理するため、次回はデータウェアハウスの役割について解説する。
賢いCRMの3原則
*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***
顧客データ活用のABC
*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***
CRMチャネルの威力を活性化せよ
*** 一部省略されたコンテンツがあります。PC版でご覧ください。 ***
関連記事
- eBay、Wal-mart、バンカメ、Dellらが「ペタバイト倶楽部」の初代メンバーに
10月中旬のTeradata PARTNERS 2008で、ペタバイト以上のデータウェアハウスを構築する企業にアワードが贈られた。いよいよ企業がペタバイト級の分析データを扱う時代がやって来た。 - DWHにイノベーションが続々、企業の欠かせない差異化要素に
企業が競争力を高め、売り上げの向上を図るためには、顧客を理解し、適切なアプローチをすることが求められる。その基盤となるデータウェアハウスでは、さまざまなイノベーションが進行中だ。TeradataのブロブストCTOに話を聞いた。 - Oracleのデータ・ウェアハウス・アプライアンスは大風呂敷?
「Teradata PARTNERS 2008」で、TeradataのブロブストCTOが日本プレスのインタビューに応じ、Oracleが9月下旬のOracle OpenWorldカンファレンスで発表したデータ・ウェアハウス・アプライアンスは、「大風呂敷にすぎない」とやり込めた。 - 三井住友銀行の新CRMシステム、住宅地図活用で訪問回数が倍増
ネバダ州ラスベガスで開催中の「Teradata PARTNERS 2008」は2日目を迎え、三井住友銀行が住宅地図を活用した新しい営業支援システムの事例を紹介した。担当エリアを「面」で理解できるようにするのが狙いだ。 - コカ・コーラウエストの成長を支える自販機支援システム
ラスベガスの「Teradata PARTNERS 2008」では、コカ・コーラウエストが先進事例を紹介した。同社は多種多様な飲料を開発、世界でも類を見ない自販機チャネルを効率的に運用することで成長を維持している。 - eBayが5ペタバイトのDWH構築、Teradataユーザー会で各社が「知識」を共有
「Teradata PARTNERS 2008」は「Enterprise Intelligence Awards」の授与式で幕を開けた。「Excellence in BI and Analytics」には、5ペタバイトという世界最大規模のDWHを構築するeBayが選ばれている。
関連リンク
提供:日本テラデータ株式会社
アイティメディア営業企画/制作:ITmedia エンタープライズ編集部/掲載内容有効期限:2008年12月4日
Copyright © ITmedia, Inc. All Rights Reserved.