生成AIが正しく認識できるようにデータを整形する技術をDNPが発表した。その効果と方法とは。
大日本印刷(以下、DNP)は2023年12月14日、PDFや「Microsoft Word」ファイルなどのドキュメントを生成AI(人工知能)の学習に適したデータに整形する技術を開発したと発表した。整形されたデータを生成AIに学習させることで、誤回答や非回答の件数を減らすことを目指す。
DNPは2023年5月に構築した生成AIを活用できる社内環境で同技術を用いて、社内規定や品質マニュアル、決算短信などのドキュメントデータを整形し、生成AIに学習・参照させる実証実験を行った。
その結果、整形したデータを用いた生成AIは、従来のデータを用いた生成AIと比較して、誤回答を約90%削減できたという。
DNPによれば、同技術はドキュメントをタイトルや本文、画像、表組み、キャプションなどの要素ごとに分割し、生成AIが学習・参照しやすいデータ形式に整形する。
生成AIの利用が急速に進む一方で、誤った内容の出力(ハルシネーション)が課題だ。この課題の解決に向けて、日本政府は生成AIの利用ルールなどを議論する内閣府の「AI戦略会議」で、政府保有のデータを開発者に提供する方針を決めたが、DNPによるとその多くはPDFだという。こういった動きを踏まえ、同社は企業や自治体が保有する多様なドキュメントを生成AI向けのデータとして整形する技術を開発した。
同社は2024年1月、生成AIの活用に必要な学習データの加工や収集に課題を持つ企業に向けて同技術を提供する見込みだ。
Copyright © ITmedia, Inc. All Rights Reserved.