2015年7月27日以前の記事
検索
インタビュー

Kaggleトップ1%のAI人材、なぜNTT東日本に? 若手データサイエンティストの活躍(4/5 ページ)

世界中のAI人材が競う技術コンペ「Kaggle」で上位1%に入る「Kaggle Master」の若手3人は、なぜNTT東日本を選んだのか。Kaggleでの学びをどう実務に生かしているのか。

Share
Tweet
LINE
Hatena
-

実務でも発揮される、Kaggleでの経験

 Kaggleの経験が実務に与えた最大の価値は、技術そのものよりも「モデルの精度の検証を正しく行う力」だと3人は口をそろえる。Kaggleのコンペでは、課題への解法として提出するモデルの性能が評価用データに基づいて算出され、そのスコアに応じた暫定順位が公開される。

 一方で、最終順位を決める際には参加者には開示されていない、別の評価用データを使用する。その評価データに、提出したモデルを当てはめた際の性能のスコアで順位が決定する。

 そのため、公開されているデータにうまく適合したモデルであれば暫定順位では高スコアを出せるものの、そのデータの特徴に過度に合わせすぎてしまうと、最終的な評価データでは精度が大きく落ちることがあるのだ。先述した「皮膚病変の画像のコンペ」などがその例だ。目の前のスコアが高いからといって、そのモデルがどんなデータにも通用するとは限らない。

 こうした環境に身を置くことで、参加者は「このモデルは別のデータでも同じように機能するのか」といった点を常に頭において検証するようになる。結果として、目先のスコアに一喜一憂するのではなく、汎用的に通用するモデルかどうかを見極める姿勢が自然と身に付いたという。

 この感覚は、3人それぞれの実務にも生きている。

 青柳氏は、顧客データを活用した営業支援システムを開発している。具体的には、顧客の契約情報や各サービスの利用状況といった膨大なデータを分析し、解約の予兆を早期に検知して継続を促すアクションを提案したり、受注確度の高い商材の提案タイミングを割り出したりするAIの開発に取り組んでいる。

 青柳氏は業務の中で、AIの精度検証がいかに重要であるかを痛感する出来事を経験した。外部のシステム会社から納品されたAIにおいて、本来は将来予測に使えないはずの「将来のデータ」が学習に含まれており、検証時には高い精度が出る一方で、実際の運用時には精度が大幅に低下する構造になっていたのだ。

 「Kaggleをやっていなければ、そのまま見逃していたかもしれません。検証のやり方に違和感を持てるようになったのは、コンペの経験が大きいと感じています」(青柳氏)

 森田氏と小林氏も、それぞれの現場でKaggleの経験を生かしている。森田氏が携わるのは、NTT東日本の採用業務を支援するAIシステムの開発だ。同社では動画選考を導入しており、応募者が提出した動画をAIで解析し、人事担当者の選考業務を支援している。

 このプロジェクトは森田氏の入社以前から進められていたが、人事担当者とAIの評価の整合性に課題があり、精度が目標水準に届いていなかった。プロジェクトの継続自体も検討されていたが、森田氏は「Kaggleで培った知見を応用し、データの見直しや検証方法の改善など、仮説検証のサイクルを高速で回すことで効率的に改善を進めました。その結果、約3週間で目標水準を達成できました」と振り返る。

 小林氏が担当するのは、一次産業向けのAI開発だ。中でも力を入れているのが、新潟県の養鯉(ようり)業者と連携した雄雌判別AIの開発である。

 ニシキゴイは、体形や色彩の美しさから雌の方が高値で取引される一方、成魚になる前の段階では外見からの判別が難しく、これまでは専門家が一匹ずつ触ったり見たりして確認するしかなかった。AIによって早期の雄雌判別が実現すれば、養鯉業者の負担軽減に加え、雌のみを優先して飼育できるようになり、価値向上につながる可能性がある。

 しかし、開発は一筋縄ではいかなかった。養鯉業者ごとにコイの種類やサイズ、撮影環境が異なるため、手元で用意した検証データでは高い精度が出ていても、実際の現場で撮影した画像に適用すると成果が下がるなど、「検証環境と本番環境のギャップ」が課題となることもあった。

 「どんな条件の違いが精度低下の原因になっているのかを一つずつ切り分け、データやモデルを調整していく作業は、Kaggleで身に付けた検証の進め方そのものでした」と小林氏は振り返る。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る