“Excelでデータ分析を実現” コカ・コーラ ボトラーズジャパンは膨大なCSVとどう闘ったか?(1/2 ページ)

コカ・コーラ ボトラーズジャパンはCSV形式での膨大な量の生データをどのように取り扱い、Excelをデータ分析ツールとして使いこなし、データで深堀りする文化を定着させたのか。

» 2023年03月23日 07時00分 公開
[吉田育代ITmedia]

この記事は会員限定です。会員登録すると全てご覧いただけます。

 アンケートデータは顧客の“生の声”であるという点で非常に高い価値を持つ。しかし販売実績データなどのビジネスデータとは異なり、設問が毎年変わるなどの特徴があるため簡単に分析するのは困難なことも多くある。

 コカ・コーラ製品を取り扱うボトラーであるコカ・コーラ ボトラーズジャパンにおいてもこれは同様で、毎年数十万人の回答者を対象に市場調査を実施しているが、長らく回答データを活用した深堀り分析には苦慮してきた。

 同社はこの問題をどのように解消し、現場のユーザーが生データを自由に分析する風土を醸成したのか。Snowflake日本法人が2023年2月14日に開催したリアル/オンラインイベント「SNOWDAY JAPAN」で、コカ・コーラ ボトラーズジャパンのマイケル・ベキアレス(Michael Bekiares)氏(Commercial Data Management Section Head of Commercial Data Management)がデータ活用戦略のポイントを語った。

CSV形式での生データが使えるようになるまで

 コカ・コーラ ボトラーズジャパンは市場動向の把握を目的に、数十万人の消費者を対象に飲料の嗜好や購買行動などについてアンケート形式で調査している。調査は外部の調査会社に委託しており、この会社から回答データを集計してテキスト化したレポートとCSV形式での生データという2種類の形式を受け取っている。集計レポートについては十分に活用できていたが、これまでCSV形式での生データについては以下の5つの障壁からほとんど分析に活用できていなかった。

 1つ目はデータがすぐに活用できる形になっていなかったという点だ。設問や回答がコードで記述されていたため、人が読むには何らかの方法で変換して解読できるようにする仕組みが必要だった。

 2つ目はデータボリュームの問題だ。生データの量は膨大なためデスクトップツールで扱えず、変換できたとしても「Microsoft Excel」(以下、Excel)や「Tableau」に格納するのは困難だった。

 3つ目は設問や回答のテキストが毎年少しずつ変化していたことだ。単年で分析するには問題ないが、経年で比較するのが難しい。

 4つ目は回答データの持ち方だ。ベキアレス氏によると、設問の中には「5種類の中から最大3つまで選んでください」といった複数回答を促すものがある。慣れていないユーザーは、こうした複雑な回答をどのように分析すればいいかが分からない。

 5つ目は従業員のスキルの問題だ。コカ・コーラ ボトラーズジャパンのユーザーの多くが対象となる生データの分析に慣れておらず、ピボットテーブルに触れたことがないというケースが大半だった。

コカ・コーラ ボトラーズジャパンのマイケル・ベキアレス氏

 ベキアレス氏は生データの活用について「集計レポートはいわば“静的なピボットテーブル”のようなもので、縦軸に1つの次元、横軸に1つの次元、その組み合わせを数多く作って、できたものを分析する仕組みです。しかしこれでは多次元分析が困難である他、自力で多次元化してもデータは読みにくくなり、Excelの処理能力も超えてしまいます。少ない次元では良いインサイトを得られとしたとしても、この数字をドライブしてるものは何なのかと分析したいときに、それ以上深掘りできません。この点をどうしても解決したいと思いました」と語る。

生データ活用に向けた3大戦略

 この問題の解決に向けてベキアレス氏は「データ構造戦略」「データ変換戦略」「データ提供戦略」の3つの戦略を立てた。

コカ・コーラ ボトラーズジャパンの生データ活用戦略(出典:コカ・コーラ ボトラーズジャパン発表資料)

 データ構造戦略は、生データの構造を分析に利用できるように作り変えるというものだ。各設問コードと回答コードをテキストに翻訳するキーとなるコードマスターを整備するとともにデータの正規化に努めた。

 データの正規化とは以下の図版のような不ぞろいな情報から余計な情報をパージしてExcelに格納する仕組みだ。ベキアレス氏によると、コカ・コーラ ボトラーズジャパンが調査を委託している企業から送られてくるマスターは、データをベタ打ちでExcelに入力したもので表記揺れや不要な情報がテキスト内に入っているケースが多かった。人間が見るだけなら構わないが、データとして活用するとなるとこれらのテキスト情報は“くどい”。そのためExcelの関数を用いて、不要なテキストをパージし、「25〜29」や「25ー29」といった表記揺れも解消した。

正規化のイメージ(出典:コカ・コーラ ボトラーズジャパン発表資料)

 マスターにもともとなかった「回答グループ」や「経年設問」項目も追加した。前者は対象者を単純な年代別ではなく、「30代未満や50代未満で何人いるか」といったことを知りたいときのためのものだ。後者は調査年によって設問の詳細が変わってしまうことがある中で、経年比較をできるようにしたものだ。

コードマスターの例(出典:コカ・コーラ ボトラーズジャパン発表資料)

 同社は数値化にも力を入れており、回答をテキストで持つだけでなく「この設問に何人が回答したか」「回答そのものは何割を占めているか」といった関連する数値も保持している。

回答ごとの回答数をデータとして保持し、回答の代表値も求めるようにしたことで、テキストデータの数量分析を可能にした(出典:コカ・コーラ ボトラーズジャパン発表資料)

 気になるのはこうしたデータについての方針をどのような根拠に基づいて決定したかである。今回のセッションナビゲーターを務めるSnowflakeの仁木隆介氏(プロフェッショナルサービス&トレーニング本部 ソリューションアーキテクト)が聞いたところ、ベキアレス氏は「どのようなデータ分析を実現したいのかをユーザーにヒアリングし、その結果を受けて最適なデータ構造を考えた」と話した。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.