Excelだけを使った手軽なBIでも、データが示す隠されたものが見えるようになる。視覚化することで見えてくるものをExcelのグラフで体験しよう。
誰でも手軽にできるExcelを使ったBI連載の三回目は、いよいよExcelのグラフを使ったデータ分析作業に入っていくことにしよう。
前回までにご紹介のとおり、ビジネスデータ分析のステップは大まかに以下のようになる。
今回はこのうちステップ3以降を解説していく。
ビジネスデータ分析において見るべきポイントは、あえて統計的な言い方をすると、「平均」、「分散(ばらつき)」、「相関(関連性)」の3つになる。平均からはあなたの会社の典型的な顧客像が、分散からは顧客の類似具合やグループが、相関からは時間や顧客属性間の関連性が分かる。
しかし、これらを統計数値として計算する必要はなく、グラフで視覚的に理解すれば十分だ。慣れてくれば、折れ線グラフや棒グラフの軸をどんどん切り替えながら重要なポイントを見つけ出せるようになるが、イメージしにくい場合はまず「散布図」というグラフを使って全体像を俯瞰的に把握してみるのもよいだろう。
散布図は、2つの数値を持つデータの分布を点で表現する。例えば年収をX軸、購入金額をY軸とした場合、顧客1人1人が点で表わされる。その点が示すXとYの値がそれぞれ、その人の年収と購入金額になる。年収と購入金額の間に関連性があるなら、多くの顧客データをプロットすることで散布図上に現れる点が規則的な形になる。この形から、関連性の有無や傾向、強さ、あるいは外れデータが分かる。
ただし散布図機能にはいくつか制限がある。
最後の問題については、Excel 2007であれば、点の塗りつぶし色の透明度を高くすることで、重なり合う点は濃く見えるため判別できるのだが、Excel 2003以前ではこれができない。こんなとき、統計的には間違いだが、ビジネスデータ分析のテクニックとしては、ランダム関数(RAND)を使って分析に影響のない程度に値をずらしてやればよい。RAND() は0〜1の間の値をランダムに生成するので、元の値に「1+RAND()÷10-0.05」を掛ければ、上下5%、つまり誤差と言い張れる範囲で適度にぶれるはずだ。
ではまずピボットテーブルを別シートにコピーしよう。その後、購入年を2009年に絞り込み、問題である購入金額列と、別の何かの属性列を同時に選択して、グラフウィザードで散布図を生成する。
散布図を作ったらなんとなく形が見える。正確でなくてもよいので適当に平均線や塊の範囲を書き込んでみよう。Excelの散布図には「近似線」を生成する機能があるのでこれで平均を出してもよいが、たぶん手で引いても結果はあまり変わらない。こうしてできた線や丸が、あなたの会社における典型的な顧客像になる。この中に収益につながる理想の顧客層があり、そこからずれている顧客は理想の顧客層に移動させたいし、新規顧客の攻めどころを読む材料にしたい。
次に、分析範囲の絞り込みを行う。理想の顧客層やずれている顧客層が持つ特徴をもとに、売上との関係性を推測、つまり仮説を立てるのだ。
先ほどの購入金額と年収の2軸による散布図を見てみよう。オレンジの近似線は上昇傾向を示している、つまり全般には、年収が増えると購買金額も増えている。しかし点の集合にはいくつか塊があるようにも見える。近似線の傾向が正しいとすれば、図のように2つのグループがあると解釈できそうだ。緑のグループはごく標準的な顧客タイプ、赤のグループはそのパターンとは外れるグループだ。ここで購入年のフィルタを2009から2008に切り替えてみたらほとんどが緑の範囲内に収まっていたとすると、このグループに発生した特殊な要因が売上を押し下げたという仮説が成り立つ。
このような動きを折れ線グラフなどで検出するのは難しい。この散布図を折れ線グラフで描く場合は普通、顧客年収ごとの購入金額の平均を出すことになり、近似線と似たようなグラフになるだろう。つまり、誰かに与えられた、いつも軸が固定されている静的な折れ線グラフだけで意思決定するなどもってのほか、ということである。
Copyright © ITmedia, Inc. All Rights Reserved.