第1回：顧客データのプロファイリング：顧客データ活用のABC

消費低迷環境下において顧客からの支持を得るためには、自社の顧客を深く理解する能力が求められる。当連載「顧客データ活用のABC」では、顧客データを分析し、活用に導く枠組みを解説する。第1回目の今回は、顧客データのプロファイリング方法を取りあげる。

» 2009年08月03日 10時00分公開

[PR／ITmedia]

顧客データ活用のABC　INDEX
第1回：顧客データのプロファイリング
第2回：分析でキャンペーンポイントを導き出す　（別ウインドウで開きます）
第3回：マルチチャネル環境下でのデータ統合　（別ウインドウで開きます）

顧客データの地平線

　「顧客データを分析する」とき、まずはどんなデータが存在しているのかを理解できなければ始まらない。また、データベース上のデータはさまざまな目的に活用されるため、必ずしも顧客データの分析に適した形式で保持されているわけではない。

　そのため、最初に実施すべきことはプロファイリングによって顧客データの全体像をつかむことである。ここでは、あるデータの形式を想定して、そのデータ形式を基準に考えることを提案する。以下に示す図は、分析データセットと呼ばれる、一般にデータマイニングの対象データとして利用されるデータの保持形式である。

図1：分析データセットの例

　保持形式といっても単純な表で、縦の行に顧客番号を、横の列に想定できるあらゆる顧客属性や指標を並べただけのものである。この表は物理的にデータベーステーブルとして作成しても構わないし、こういう形式を想定するだけで、実際に分析作業に取り掛かる際のイメージとして考えても構わない。

　縦に指定される顧客番号からの行は一般にサンプルと呼ばれる。分析の対象となるのは顧客であるため、まず各行にそれぞれの顧客に関する情報が羅列されるようにこの形式とする。これに対して、列に配置される属性や指標値のことを変数と呼ぶ。顧客ごとに異なる値をとるため「変わる数値」の意で「変数」だ。変数は顧客を見る基準を意味し、「どの観点で顧客を把握するか」を規定している。

　従って、例えば自社の顧客が100万人であるならば、行の合計は100万件に、把握したい変数が2000個であるならば、列数は2000件+顧客番号の合計2001件となる。このような地平線に対して、以降で分析を実施していくことを考えてみよう。

　また、この2000個の変数を考える場合、1つのデータから幾つもの変数を作成できることを注記しておく。図1は、携帯電話会社を想定した分析データセットである。この中の「当月着信総数」は、通話もしくは電子メールの両着信数（電子メールは受信数）を足して求めている。また、前月の着信総数との比較、夜間着信総数割合として絞り込みを行なっている。このように同じ着信データを利用するにしても、把握したい切り口によって変数はさまざまに変化する。

単一変数を用いたプロファイリング

　このようにして得られた分析データセットに対して、プロファイリングを実施する。まずは各変数を単独で見ていく。それぞれの変数は量的変数、もしくは質的変数のいずれかに分類される。量的変数の場合、平均値、最小値、最大値等の代表値を利用して、変数値の特徴を理解する。また、分布を把握することによって、どのように変数値が集中/分散しているかを把握可能となる（図2A）。

図2：変数分布と分割/集約例

　ただし、量的変数の傾向として、とり得る値のバリエーションが非常に多くなってしまうことが多い。例えば請求金額が30000円と30001円の顧客がいたとしよう。この2件の請求金額差は非常に小さく、本来は同額の顧客として考えたい。それぞれ異なる値として扱われると、全体傾向を把握しづらくなってしまう。

　そのため、これを質的変数に変換したのが図2Bである。図2Bでは、図2Aの変数値を2.5刻みで4分割し、それぞれに所属する顧客をグループ化している。グループ#1には値が0から2.5の間を示している顧客の顧客数を表示している。これによって、値の集中と分散をより簡素化した形式で理解することが可能となる。

　この例では、各グループ間に序列関係（値の大小）が存在しているが、序列関係の無い質的変数の場合も、同様に把握することが可能である。図2Cは、図2Aを利用回数が発生したか（値>0）、否か（値=0）で分割、集約した結果である。このように、把握したい目的によって集約のレベルを変更しながら変数の特徴を理解していく。このような序列関係の無い質的変数の例として、居住地域、性別、契約商品などが挙げられる。

　日本テラデータでは、Teradata Warehouse Miner内のモジュール、Teradata Profilerを利用して、これらのプロファイリング処理を実現している。このモジュールは元来、データマイニングに適用するデータを事前に把握するために用意されている。前述した代表値の把握はTeradata Profilerの「単変量統計」機能にて、図2Aは「頻度分析」機能にて、そして図2B及び図2Cのグループ分割と集約を実施する作業は「度数分析」機能にて実施することが可能である。

　他の分析ツールに無い特徴的な点として、度数分析で得られたグループ分割の結果、つまり分割後のグループ番号を、データベーステーブルに書き込み可能な点が挙げられる。これによって任意に顧客を分類し、その結果を追って再利用することが可能となっている。

2変数、3変数を用いたプロファイリング

　単一変数のプロファイリングによって各変数の特徴が理解できたら、次に実施するのは、変数間の関係を理解することである。以下の図3は、2変数を縦軸と横軸の両方に、そして各顧客をドットで表示させた散布図である。このような視覚化によって、両変数が正比例の関係にあるか、反比例の関係にあるか、それとも全くランダムな関係にあるかを理解することが可能となる（Teradata Profilerの機能「散布図」を利用）。

図3：2変数の散布図

　このような散布図を用いた表示は、3変数までであれば立体空間上にプロットすることにより実現できる（図4）。しかし、それ以上になると視覚表現は難しい。また変数自体の増加も傾向の把握を難しくさせる。

図4：3変数の散布図

　従って、これ以上の変数間の関係を読み解く場合には、視覚による直感的な把握だけではなく、ある目的を持って分析を進めていく必要がある。その手法の1つとして考えられるのが、データマイニングである。本稿での詳細説明は割愛するが、大まかに説明すると、データマイニングのプロセスによって、既存変数群を利用して新規の変数が新たに作成される。これによって「特定事象の発生確率予測値」、「特定変数値の定量予測値」、「サンプルの任意グループへの分類結果」等の新規変数が作成され、意思決定に活用される。

セグメンテーション

　複数変数を利用したプロファイリングのもう1つの方法として、セグメンテーションを考える。ここまで、分析データセットの「列」である変数に着目してプロファイリングを行なってきたが、セグメンテーションは「行」に着目する。「行」、つまり各顧客を任意にグループ化し、グループ間もしくは母集団との比較を実施する。以下の図5は、この一例である。

図5：セグメント比較の例

　もともと100万件あった大規模な分析データセットは、年齢層別で縦に圧縮されている。つまり、単一の変数（ここでは年齢)を基準にして顧客を分類し、分類（=セグメント）ごとの傾向を把握している。これにプラスして、母集団の行を追加し、また顧客数という指標を新たに追加している。これによって顧客全体との比較、そして各セグメントの大きさを理解している。

　このとき、分析の対象となる各行が、顧客（単一の顧客）からセグメント（複数の顧客）に集約されたため、利用する変数は平均値、最小値、最大値、合計値、構成比等の指標に変換して比較することになる。そして指標値の違いがそのセグメントの特徴となる。例えば、「0 - 30歳」セグメントの通話回数は「母集団と比べて」高く、一方で通話時間は「他のセグメントと比べても」低い。このような形式で比較していくことにより、各セグメントに特徴的な違いが理解できるようになる。

　また、ここでは年齢をセグメントの絞込条件に利用したが、分析データセット上の変数であれば、どれでもセグメントの絞込条件に利用できる。例えば「上京して親元を離れ、首都圏に住む大学生」セグメントは、「地域 = 首都圏」AND「職業 = 学生」AND「18歳 <= 年齢 <= 25歳」AND「遠距離通話回数/月 >= 3回」といった条件であらかた絞り込める。

　そしてこのセグメントごとに、どのような商品を契約/購入しているのか、どのようなチャネルを利用しているのか、どのような利用パターンなのか等を理解できれば、自社の顧客「層」ごとにどのような特徴を有しているか理解できる。これでプロファイリング作業はおおよそ完了であり、自社の顧客層ごとに、どのような変数的特徴を有しているかを押さえたことになる。次の作業は、「行動」のための分析だ。分析の対象が顧客であることを考えた場合、ここでいう「行動」とは、顧客に対する働きかけであり、具体的にはキャンペーン活動である。

　日本テラデータのキャンペーン管理ツール「Teradata Relationship Manager」では、任意にセグメントを作成し、管理していくことが可能となっている。また、作成されたセグメントを分析の対象として利用することも、分析の区分軸として利用することも、キャンペーンの対象顧客として利用することも可能となっている。次回は「Teradata Relationship Manager」を利用した、実際にキャンペーンに活用するための分析手法を解説する。

賢いCRMの3原則

第1回: 顧客リレーションシップの「維持」
企業が消費者向けのマーケティングを推進し、顧客とのリレーションシップを拡大するために、念頭に置くべき3つの原則が存在する。当連載「賢いCRMの3原則」では、この3原則に基づいたマーケティングキャンペーンの進め方を解説する。第1回目の今回は、顧客リレーションシップの「維持」を取り上げる。（08/09 10:00）

第2回：顧客リレーションシップの「強化」
企業が消費者向けのマーケティングを推進し、顧客とのリレーションシップを拡大するために、念頭に置くべき3つの原則が存在する。当連載「賢いCRMの3原則」では、この3原則に基づいたマーケティングキャンペーンの進め方を解説する。第2回目の今回は、顧客リレーションシップの「強化」を取り上げる。（09/27 10:00）

第3回：顧客リレーションシップの「構築」
企業が消費者向けのマーケティングを推進し、顧客とのリレーションシップを拡大するために、念頭に置くべき3つの原則が存在する。当連載「賢いCRMの3原則」では、この3原則に基づいたマーケティングキャンペーンの進め方を解説する。第3回目の今回は、顧客リレーションシップの「構築」を取り上げる（10/18 10:00）

顧客データ活用のABC

第2回：分析でキャンペーンポイントを導き出す
消費低迷環境下において顧客からの支持を得るためには、自社の顧客を深く理解する能力が求められる。連載の第2回では、キャンペーン･アイデアを導き出すための分析例について解説する。（09/01 10:00）

第3回：マルチチャネル環境下でのデータ統合
消費低迷環境下において顧客からの支持を得るためには、自社の顧客を深く理解する能力が求められる。当連載「顧客データ活用のABC」では、顧客データを分析し、活用に導く枠組みを解説してきた。第3回目では、これを実現するためのデータ基盤を考察する。（09/16 10:00）

CRMチャネルの威力を活性化せよ

第1回：「キャンペーン管理」── チャネルに対する司令塔
連載の第1回では、この「チャネルブースター」の核として、直接的にチャネルに対して「だれに対して、何を案内するか？」を指示してくれる「キャンペーン管理」を取り上げる。（2008/10/14 10:00）

第2回：「データマイニング」──意思決定の究極指標、「確率」の算出
連載の第2回では、意思決定の指標である「確率」を析出するメカニズム、「データマイニング」のプロセスや分析手法を取り上げる。（2008/11/04 10:00）

第3回：拡大するデータウェアハウスの役割
これまでこの連載では、前回と前々回で、キャンペーン管理ツールとデータマイニングツールを利用した、知識の析出からキャンペーンのセットアップ、そしてチャネルへの連携に至るプロセスをさかのぼってきた。第3回では、これを下支えするデータウェアハウスの役割を解説する。（2008/11/19 10:00）

今こそエンタープライズDWHで競争優位を勝ち取れ
厳しい中にあっても競争優位を得ようと全社的なデータウェアハウスを導入し、データ分析に取り組む顧客企業がある。「Teradata Universe Tokyo 2009」でコーラー社長兼CEOとブロブストCTOに話を聞いた。