ITmedia NEWS > 企業・業界動向 >

文系記者が「データサイエンティスト育成スクール」に通った結果半年間の取材体験記(4/6 ページ)

» 2019年08月20日 07時00分 公開
[村上万純ITmedia]

結局のところ、自習は必要

 しかし、データサイエンスにまつわる専門知識を半年間で詰め込むので、結局のところ自習は欠かせない。週1回3時間の授業に加え、毎週出される宿題を提出、授業の予習と復習をし、分からないところは独自に調べ、気になることは深掘りする――となると、勉強時間の確保が難しい。

 記者の場合は、学んだことが普段の取材に生かされているなという実感もあり、勉強すること自体はそこまで苦ではなかった。例えば、データサイエンティストやAI開発者への取材で、これまではあまり深く踏み込めなかったアルゴリズムの内容を聞いたり、それぞれのデータサイエンティストがどのような業務をしているかをより具体的に想像したりできるようになった。専門性の高い内容なので日々学ぶべきことは多いが、「以前よりも想像力を働かせることができるようになった」と感じることが増えたように思う。

 しかし、平日の仕事が終わった後に勉強するのは大変で、MacでJupyterNotebookを開いたまま寝落ちすることも多かった。特にプログラミングは分からないことだらけだったので、疑問があればひたすらググり、先人たちが残した知恵をQiitaなどの技術者向情報サービスでチェックした。さらに理解を深めたければ専門書の出番だ。特に統計学の仮説検定は一度聞いただけでは理解できなかったので、統計学の入門本を何冊か購入した。

 また、記者の場合は初めてのMac、初めてのPythonとR、(ほぼ)初めての統計学だったので、ハードウェア、ソフトウェア、そして学習内容でそれぞれつまづく三重苦だった。道具を手になじませるには使い続けるしかないので、恥ずかしながらMacとJupyterNotebookのショートカットキー一覧を覚えるところから始めていった。実際に手を動かすことで気付くことも多かった。

PythonのWebサイト

実際に手を動かすことで気付くこと

 どこに苦労するかは個人差があるだろうが、プログラミングが不慣れだったのでコードを書くのはかなり苦戦した。コードを書く→実行する→エラーが出る→エラーの説明文をコピペしてググる→コードを書き直す、という作業をひたすら繰り返した。

 Webブラウザの自動操作ライブラリ「Selenium」を使い、PythonでWebサイトの情報を収集するスクレイピングを実行した際には、ページ遷移がうまくいかず欲しい情報が取得できないエラーが頻発。1つのエラーを直すと別のエラーが発生し、そのエラーを直すと別の行がエラーになる――という、エンジニアリングの醍醐味(?)も十分に味わった。突破口が見えず心がポッキリ折れそうになったときも、講師に質問できるのは安心感につながる。

 また、AI開発者に取材したときに良く話題に上がる「データの前処理が大変だ」という話も、少しだが身をもって体感できた。演習用のデータなので、欠損値や外れ値をチェックしたり、数値データが大きすぎる場合にデータを標準化したりする程度だが、「欠損をどう処理するか」を考えるだけでもいくつかの方法がある。データを集計、可視化したときに、そのデータの傾向や特徴を的確に把握することは、その後の分析をスムーズに進めるためにも重要だと感じたが、これは一朝一夕で身に付くスキルではないだろう。

 データサイエンスにまつわる一通りの内容を学習することで、自分は何が得意で何が苦手なのかが何となく分かってくる。データサイエンティストにキャリアチェンジしたい人は、事前に自身の適正を把握しておいて損はないはずだ。

Copyright © ITmedia, Inc. All Rights Reserved.