本連載では議論を簡単にするために、AIを「これまで人間のみが実行可能だった作業や、人間には不可能だった作業を、機械がデータに基づいて実行することを可能にする仕組み」と定義している。つまり「データがあること」は当然の話なのだが、この点は意外に忘れられていたり、プロジェクトを進める上でのハードルになったりすることが多い。
具体的にどういうことなのか、AIによる手書きや印字された文字の自動認識技術「AI-OCR」を例に考えてみよう。
AI技術を活用し、読み取りの精度や機能を向上させたOCRであるAI-OCRは、AI系アプリケーションの中でも比較的導入のイメージがしやすい。例えば「これまで人間が確認してテキストデータ化していた手書きの申込書を、AIが代わりに読み取ってくれる」といった具合だ。そうした分かりやすさもあり、AIの導入検討でも取り上げられやすい事例の1つだ。
程度の差はあれ、どんな企業でも何かしらの書類を使っていること、また既に製品化して提供しているベンダーが多いことも、AI-OCRへの注目が高い理由だろう。それでは社内で予算を取って、適当なベンダーを連れてきて既製品をインストールすれば終わりかというと、もちろんそれで済む話ではない。
AIが求められた作業を実行し、かつその作業の精度を上げるためには、作業に関係するデータを与えてやる必要がある。簡単に言えば、AIはそのデータを使って「学習」し、与えられた仕事を遂行するスキルを身に付けるわけだ。AI-OCRの場合は「書類を読み取ること」が目標の作業であり、文字の認識率を上げるため、読み取らせたい書類の画像データを与えてやらなければならない。
ここまでは多くの人々が理解しているが、実際にデータを集めようとするとさまざまな障害が待っている。
そもそも現在は人間が目で見てテキストデータに置き換えているので、書類の画像など存在しない。仮に画像化していても、AIに読ませることを前提としていないので撮り方やクオリティーも安定していない。また、一定のクオリティーの画像があっても、人間がテキスト化したデータと画像をひも付けていない(画像だけ渡されてもAIには画像の意味が分からない)など、課題は多い。
それではAI導入を行う際、データをめぐってどのような準備を進めなければならないか、一般的なケースを考えてみよう。下図は横軸にデータの量、縦軸にデータの品質(AI導入に活用できる内容になっているか)を置き、問題を整理したものだ。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR