パーソナルBI入門 第三回 ExcelのグラフでBIを極めるこれからのビジネスマンに必須のツール(1/2 ページ)

Excelだけを使った手軽なBIでも、データが示す隠されたものが見えるようになる。視覚化することで見えてくるものをExcelのグラフで体験しよう。

» 2009年05月26日 07時00分 公開
[米野宏明(マイクロソフト),ITmedia]

 誰でも手軽にできるExcelを使ったBI連載の三回目は、いよいよExcelのグラフを使ったデータ分析作業に入っていくことにしよう。

 前回までにご紹介のとおり、ビジネスデータ分析のステップは大まかに以下のようになる。

  1. 課題設定:何が解くべき問題なのかを決める
  2. データ収集:データを集めてきれいにする
  3. 仮説設定:集めたデータの全体像を把握し因果関係を推測する
  4. 仮説検証:データを掘り下げて分析し推測が正しいかどうか検証する
  5. 意思決定:検証結果を整理し選択する

 今回はこのうちステップ3以降を解説していく。

Step 3. 集めたデータの全体像を把握する

「散布図」で全体を俯瞰してみる

 ビジネスデータ分析において見るべきポイントは、あえて統計的な言い方をすると、「平均」、「分散(ばらつき)」、「相関(関連性)」の3つになる。平均からはあなたの会社の典型的な顧客像が、分散からは顧客の類似具合やグループが、相関からは時間や顧客属性間の関連性が分かる。

 しかし、これらを統計数値として計算する必要はなく、グラフで視覚的に理解すれば十分だ。慣れてくれば、折れ線グラフや棒グラフの軸をどんどん切り替えながら重要なポイントを見つけ出せるようになるが、イメージしにくい場合はまず「散布図」というグラフを使って全体像を俯瞰的に把握してみるのもよいだろう。

 散布図は、2つの数値を持つデータの分布を点で表現する。例えば年収をX軸、購入金額をY軸とした場合、顧客1人1人が点で表わされる。その点が示すXとYの値がそれぞれ、その人の年収と購入金額になる。年収と購入金額の間に関連性があるなら、多くの顧客データをプロットすることで散布図上に現れる点が規則的な形になる。この形から、関連性の有無や傾向、強さ、あるいは外れデータが分かる。

散布図 散布図による顧客データの表現

 ただし散布図機能にはいくつか制限がある。

  1. ピボットテーブルから直接生成できないので、別のシートに表のデータをコピーする必要がある
  2. 軸も数値でないといけない。例えばYes/Noのような文字列が入っている場合、Yesを1、Noを0のように数字に置き換えてやる
  3. XYとも同じ値の場合は点が重なってしまい、幾つ同じ値があるのか分からない

 最後の問題については、Excel 2007であれば、点の塗りつぶし色の透明度を高くすることで、重なり合う点は濃く見えるため判別できるのだが、Excel 2003以前ではこれができない。こんなとき、統計的には間違いだが、ビジネスデータ分析のテクニックとしては、ランダム関数(RAND)を使って分析に影響のない程度に値をずらしてやればよい。RAND() は0〜1の間の値をランダムに生成するので、元の値に「1+RAND()÷10-0.05」を掛ければ、上下5%、つまり誤差と言い張れる範囲で適度にぶれるはずだ。

 ではまずピボットテーブルを別シートにコピーしよう。その後、購入年を2009年に絞り込み、問題である購入金額列と、別の何かの属性列を同時に選択して、グラフウィザードで散布図を生成する。

「散布図」に落書きをする

 散布図を作ったらなんとなく形が見える。正確でなくてもよいので適当に平均線や塊の範囲を書き込んでみよう。Excelの散布図には「近似線」を生成する機能があるのでこれで平均を出してもよいが、たぶん手で引いても結果はあまり変わらない。こうしてできた線や丸が、あなたの会社における典型的な顧客像になる。この中に収益につながる理想の顧客層があり、そこからずれている顧客は理想の顧客層に移動させたいし、新規顧客の攻めどころを読む材料にしたい。

近似線 データの偏りを見つける

 次に、分析範囲の絞り込みを行う。理想の顧客層やずれている顧客層が持つ特徴をもとに、売上との関係性を推測、つまり仮説を立てるのだ。

 先ほどの購入金額と年収の2軸による散布図を見てみよう。オレンジの近似線は上昇傾向を示している、つまり全般には、年収が増えると購買金額も増えている。しかし点の集合にはいくつか塊があるようにも見える。近似線の傾向が正しいとすれば、図のように2つのグループがあると解釈できそうだ。緑のグループはごく標準的な顧客タイプ、赤のグループはそのパターンとは外れるグループだ。ここで購入年のフィルタを2009から2008に切り替えてみたらほとんどが緑の範囲内に収まっていたとすると、このグループに発生した特殊な要因が売上を押し下げたという仮説が成り立つ。

 このような動きを折れ線グラフなどで検出するのは難しい。この散布図を折れ線グラフで描く場合は普通、顧客年収ごとの購入金額の平均を出すことになり、近似線と似たようなグラフになるだろう。つまり、誰かに与えられた、いつも軸が固定されている静的な折れ線グラフだけで意思決定するなどもってのほか、ということである。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ