BIツールの価格が劇的に低下し、事業の担当者でもツールに触れられるような時代になってきた。「Tableau」や「Microsoft Power BI」のようなBIツールを使えば、データを直感的な操作で可視化できる。ただし、その前提となるデータの記述や加工の段階で、データ処理初心者がやってしまいがちな“落とし穴”がある。
パシフィコ横浜で8月23日から25日にかけて開催されたゲーム開発に携わるITエンジニアやデータサイエンティストが集まるカンファレンス「CEDEC 2023」では、データ分析に携わることになった初心者向けに、データ記述やデータ加工の悪例と、その対策を解説する講演が開かれた。
登壇したのは、コンサルタント会社truestar(東京都渋谷区)の戸崎茂雄さん。戸崎さんは、データエンジニアとして紙の帳票のデジタルデータ化に携わってきた経歴を持つ。そんな戸崎さんが見てきた、データ分析初心者による「あるあるな失敗例」とはどのようなものか。
これまで紙の帳票で収集してまとめていた情報を、デジタルデータとして入力すれば、より深い分析が可能になる。ただし、こうした紙帳票の代替としてのデータ化では、分析が困難な“えげつない”データが生じやすいという。
紙の帳票からのデータ化の有名な悪例はいわゆる「ネ申エクセル」(神Excel)だ。印刷した時の見栄えを良くするために、セルを方眼紙のように整形したExcelシートだが、コンピュータの判読性は非常に悪いため、データ分析においては大敵といえる。ただし、総務省の通達を発したこともあり、神Excelは淘汰(とうた)が進んでいる。
神Excelではないとしても、Excelシートでのデータ収集には課題がある。例えば、○×回答の「〇」もその1つだ。一口に〇といっても、よく似た記号が複数存在する。Excelでは、プルダウン方式の回答欄を手軽に制作できるが、コンピュータでの入力に不慣れな人の場合、〇×以外の記号をシートに直接入力することがある。
例えば、丸印をWindows標準のIMEパッドで手書きすると、日本語環境でも幾何学模様やインドのカンナダ文字、北アフリカのティフナグ文字などで使われる丸印を容易に入力できてしまう。結果、〇と混同してしまうため注意が必要になる。
これに対する定番の解決策は、シートへの直接記入を制限する「シート保護・ブック保護」機能だ。しかし、これも“えげつない”回答者を前にしては、万能の解決策にはならないという。なぜなら「入力制限がかかっていると、それに従うのではなく、制限を解除する考えに進む人が一定数いる」(戸崎さん)からだ。検索で情報を得て、Excelシートのロックを解除してまでして自前の書式で記入されることが往々にしてあるという。
Excelシートでのデータ収集の落とし穴に大して最も確実な対策は「Excelシート入力でデータ収集をしない」ことだと戸崎さん。簡単なアンケートならGoogle FormsやMicrosoft Formsを用いたり、機密保持が必要なものなら必要に応じて専門業者に依頼したりすることを推奨している。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR