この課題を解決するために、Sansanが採用したのが、2023年に子会社化した言語理解研究所の技術だった。同研究所は40年近い歴史を持ち、日本語の解析に特化したルールベースの技術を開発してきた。同研究所では、日本語の単語一つ一つに、品詞、正誤情報、揺れ、同義語などを登録しており、さらにどの概念に分類されるか、どんな意図や感情を想起させるかといったことを記述した大規模言語知識データベースを構築してきた。いわば伝統的なAIの手法を使った言語解析の仕組みだ。
「新しい言葉が生まれるたびに、人力でデータベースに登録し続けている」と尾花氏は説明する。「40人ほどの会社だが、そのうち10人から20人が辞書チームとして、この作業に従事している。この地道な作業が、高精度な解析を可能にしている」
「契約書が指し示す原契約(親契約)がどれかを抜き出せ」。こんなプロンプトを最新の生成AIに投げれば、ほとんどの場合正解が出てくるだろう。生成AIがあれば従来型の言語解析AIはもはや不要になる――。そんなこともささやかれる昨今だが、用途によっては逆にルールベースであることの意味がある。
生成AIの精度は急速に上がっているが、仕組み上、誤りを完全になくすことはできない。さらになぜ今回間違ったのかの解明も困難だ。そして次回間違わないように修正することも実質的に行えない。「ルールベースの技術を中心に据えることで、万が一誤りが生じた場合でも、なぜ間違ったのか、どう修正したのかを明確に説明できる。これは、特に法務分野では極めて重要な要素だ」と、尾花氏は説明可能性の重要性を強調した。
生成AIの活用が急速に進みつつあるが、想像とは違い、精度を高めることは容易ではない。この例は社内データに基づいた回答を実現するRAGの精度をアップしようとすると、処理が多層化、多段階化する上、必ずしも精度はアップしないというもの
“インバウン丼”と呼ばないで――1杯1万円超の海鮮丼が話題の豊洲「千客万来」、運営企業が漏らした本音
やよい軒が“ロボ化”してまで死守した「ご飯おかわり自由」
「580円の朝焼肉」誰が食べている? 焼肉ライクが開店を“4時間”早めてまで始めたワケ
「朝モス」利用者、実は40〜60代がボリューム層 そのコンセプトは
肉2倍の「夜マック」に見る、マクドナルドのディナー戦略Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR注目記事ランキング