ITmedia NEWS > AI+ >

ある日突然「AI担当」になったら何をすべきか プロジェクトを成功させる”データ準備”のコツきょうから始めるAI活用(3/4 ページ)

» 2018年12月04日 08時00分 公開
[小林啓倫ITmedia]

(1)そもそもデータがない場合

 まずは、ゼロからデータを集めないといけない場合。当然ながらまずはデータ量を増やす(画像内の矢印A)準備が必要になる。だが、手当たり次第にデータを集めると、かえって混乱を招くことになってしまう。

 先ほどのAI-OCRの例では、AIの学習に使えそうな情報は、アナログ形式(紙媒体の書類)だが存在していた。これを画像化すれば、いったんは学習用のデータになるかもしれない。しかし対象とする書類のフォーマットがバラバラで、何種類もあったらどうか。よくよく調べてみると、年に数枚しか発生しないし、AIに学習させることがどうやっても不可能な書類と判明した、という悲しいケースもあるだろう。

 どのようなデータがどのくらいあれば十分なのかは、いま達成しようとしている目標や、使用するAIのアルゴリズムなどによって異なる。そこでベンダーや技術者に確認を取り、データ収集に掛かるコストとも相談しながら準備を進めることになるが、現実に即して目標を修正した方が良い場合もある。例えばAI-OCRで読み込ませる帳票は、頻繁に受領する上位3種類に絞る、といった具合に。

(2)データの品質に問題はないか

 次に目を向けるべきは、「データ量は適切だが、そのままではAIの学習に使えない」という質の問題だ。集めたデータに適切な処理をし、AIに学習させるために十分なデータ量を確保する(画像内の矢印B)のが次の準備になるが、これはデータを集める以上に難しい作業といえる。

 例えばAI-OCRの件では、画像化した書類と、それを正しく読み取ったテキストデータをひも付けてやる必要がある。また画像そのもののクオリティーがまちまちだとすると(例えば、ある書類はスキャナーで画像化されているが、別の書類はスマホで斜めから撮影されているなど)、それを補正する処理を入れなければならない。データに欠落があったり、画質が荒すぎるのも問題だ。

 仮にプロジェクトが(1)「データがゼロの状態」から出発しているのであれば、(2)「データの品質不足」で起こる問題を想定して、データ収集を工夫できる。手持ちの既存データの品質があまりに低い場合には、無理してそれをAIに与えようとするより、データを収集し直すか、外部から入手するといった選択肢も検討するべきだ。

 また、データに「偏り」がないかの確認も欠かせない。AI-OCRの例で言うと、仮に膨大な量の書類データをAIに与えていたとしても、(現実的には考えにくい状況だが)その書類を書いたのがたった1人の人物だったとしたらどうだろうか。AIはその人物のクセだけを学んでしまい、別の人物が書いた書類をうまく認識できないかもしれない。

 これは実際に多くのAI導入プロジェクトを失敗に追い込んでいる問題で、米Amazon.comですらその犠牲となっている。Amazonは履歴書を自動で審査するAIを開発していたのだが、過去10年間分の履歴書データをAIに与えていたところ、男性を高く評価するように「学習」してしまった。女性差別であるとして、同社はすぐに運用を取りやめたが、AIがそのような偏見を持ってしまったのは、過去のデータで女性が採用されたケースが少ないためだ。

 同じワナに陥らないためには、大量のデータを集めて安心するのではなく、その品質まで深く追求する姿勢を持たなければならない。

Copyright © ITmedia, Inc. All Rights Reserved.