本連載では議論を簡単にするために、AIを「これまで人間のみが実行可能だった作業や、人間には不可能だった作業を、機械がデータに基づいて実行することを可能にする仕組み」と定義している。つまり「データがあること」は当然の話なのだが、この点は意外に忘れられていたり、プロジェクトを進める上でのハードルになったりすることが多い。

　具体的にどういうことなのか、AIによる手書きや印字された文字の自動認識技術「AI-OCR」を例に考えてみよう。

　AI技術を活用し、読み取りの精度や機能を向上させたOCRであるAI-OCRは、AI系アプリケーションの中でも比較的導入のイメージがしやすい。例えば「これまで人間が確認してテキストデータ化していた手書きの申込書を、AIが代わりに読み取ってくれる」といった具合だ。そうした分かりやすさもあり、AIの導入検討でも取り上げられやすい事例の1つだ。

画像はイメージ

　程度の差はあれ、どんな企業でも何かしらの書類を使っていること、また既に製品化して提供しているベンダーが多いことも、AI-OCRへの注目が高い理由だろう。それでは社内で予算を取って、適当なベンダーを連れてきて既製品をインストールすれば終わりかというと、もちろんそれで済む話ではない。

　AIが求められた作業を実行し、かつその作業の精度を上げるためには、作業に関係するデータを与えてやる必要がある。簡単に言えば、AIはそのデータを使って「学習」し、与えられた仕事を遂行するスキルを身に付けるわけだ。AI-OCRの場合は「書類を読み取ること」が目標の作業であり、文字の認識率を上げるため、読み取らせたい書類の画像データを与えてやらなければならない。

データ準備に必要なこと

　ここまでは多くの人々が理解しているが、実際にデータを集めようとするとさまざまな障害が待っている。

　そもそも現在は人間が目で見てテキストデータに置き換えているので、書類の画像など存在しない。仮に画像化していても、AIに読ませることを前提としていないので撮り方やクオリティーも安定していない。また、一定のクオリティーの画像があっても、人間がテキスト化したデータと画像をひも付けていない（画像だけ渡されてもAIには画像の意味が分からない）など、課題は多い。

　それではAI導入を行う際、データをめぐってどのような準備を進めなければならないか、一般的なケースを考えてみよう。下図は横軸にデータの量、縦軸にデータの品質（AI導入に活用できる内容になっているか）を置き、問題を整理したものだ。