「雑用扱いで名前もない」 データ分析の土台を支える“SQLを叩く人”の重要性を問い直す:これからのAIの話をしよう(データ整備人編)(2/3 ページ)
データ分析をする上で欠かせない「データ整備人」とは、どんな役割を担う人なのか。ないがしろにされがちなデータ整備人の仕事について、データ分析の専門家が解説します。
しんゆう:肩書で見ると、エンジニアとアナリストの方が半々ぐらいですね。男女比でいえば女性は1割ほど。データ整備人で役職付きの方は少ない印象です。
松本:マネジャー的な立場ではなく、自分で手を動かしている現場の方たちが多いのですね。
しんゆう:そうですね。
松本:データサイエンティスト協会が提唱するスキルチェックリスト(PDF)には、ビジネス、データサイエンス、データエンジニアリングの項目はあるものの、整備やアーキテクチャについてはあまり言及されていない印象です。
しんゆう:データサイエンティスト協会は、データをサイエンスすることが主眼ですから、データ整備はあまり意識していないのではないでしょうか。
松本:とはいえデータの整合性や確からしさを維持する仕事は、誰かがやらなきゃいけません。
しんゆう:間違いなく重要です。AIでいえば、アノテーション(データのタグ付け)は絶対に誰かがやらなければいけないですよね。それと同じです。
松本:データ整備人について考えることになったきっかけはありますか。
しんゆう:私はフリーランスとして活動していますが、自分の肩書や役割を人にどう説明したらいいのだろうと思ったんです。エンジニアといっても何か作っているわけではないですし、アナリストというほど分析業務もやっていない。そこで、自分の仕事は「エンジニアとアナリストの間に立ってやっていることだな」と気付きました。毎回仕事の内容を説明するわけにはいかないので、その役割に名前を付けようと考えたのが最初のきっかけです。
松本:名前は大事ですよね。僕はデータサイエンティストと名乗ることが多いですが、RやPythonでコードを書くことも多く、エンジニアからは「それは機械学習エンジニアじゃない?」と言われます。でも、マーケティングのイベントに登壇して「僕は機械学習エンジニアです」と言っても「ん?」という顔をされてしまうでしょう。
しんゆう:その仕事を誰かがやらないと、いろいろな人が困ります。でも、名前もなければ、誰がやるのかもよく分からないので、上司にもクライアントにも(その役割の重要性を)説明できません。そんな状態では、社外はもちろん、社内ですら理解が得られませんよね。
多くの組織で「データ整備」が後回しになる理由
松本:データ整備人と言われて、ピンと来ない人も大勢いますよね。データ分析には、意思決定を行うためのデータを収集し、分析、洞察、伝達する――というプロセスがあります。データの収集や、分析しやすいように整理することの大変さを理解することは重要で、この工程で失敗すると、後の工程に大きく響きます。そのことを理解していない人が意外と多いですよね。
Copyright © ITmedia, Inc. All Rights Reserved.