“AI記者”による省力化と効率化の行く先は――日本経済新聞社の働き方改革AWS Summit Tokyo 2017(2/3 ページ)

» 2017年06月05日 15時00分 公開
[田中宏昌ITmedia]

決算PDFとXBRLのデータを解析して決算サマリーを生成

 AI記者が生成する決算サマリーのシステムは、AI研究を手掛ける東京大学松尾豊特任准教授研究室や、日本語解析技術を得意とする言語理解研究所(ILU)の協力を得て開発された。2015年3月に、日経デジタル部局の若手エンジニアがSlackの社内チャットで雑談していたことに端を発してから、2017年1月のβ版公開まで2年もたっていない。

photo 決算サマリー公開までの道のり
photo 電子版で公開されている決算サマリーを、新聞紙面に換算すると段からレッチに相当する

 具体的にAI記者の記事生成プロセスを見ていこう。

 まず、東京証券取引所が運営する適時開示情報伝達システム「Timely Disclosure network」(TDnet)に上場企業が開示するPDF形式の決算短信と、XBRL(eXtensible Business Reporting Language)形式のデータを基に、文章を生成していく。生成自体は10秒もかからず、Webに掲載するまでは前掲の通り1分〜2分という時間しかかからない。

photo AI記者の記事生成プロセス

 どのように原稿ができていくのかというと、まずXBRLのデータから数値や表を抜き出し、直近の業績や来期の見通しといった売上高や利益など業績に関する文章をまとめる。

 続いて、公開されたPDFを全体業績文とセグメント文に分け、文章の格構造を解析する。そして原因と結果の文書ペアを見つけ(文書構造解析)、ネガティブなのかポジティブなのかを分析していく。そこから、業績要因とそれ以外に文を分類し、日経基準で業績要因文を選択、最後に文章を読みやすく整形してサマリーを生成するという流れだ。

 公表された決算数値をテンプレートに流し込んでいるだけではなく、売上高や利益など前年同期から変わった理由も分析した上で記述しているのがミソで、客観的事実ではない記述や、企業が一般的/定常的に実施している理由は省くなどの学習をさせ、アルゴリズムをチューニングしているという。


※講演元からの依頼により、プレゼンテーション資料を一部削除しました(2017年6月6日15時50分)

photo AIが判断する文章の実例

AWSを使うことでピーク時でもスムーズな対応が可能に

 なぜAWSを利用したのかというと、「決算発表は2月、5月、8月、11月と年4回もピークがあり、特に5月のピークは1日で2000件を超える。このピークに対応できるのが重要だから」だと藤原氏は言う。ピーク時でも、AI記者の生成スピードが変わらないのは見逃せないところだろう。

photo AWSのシステム構成。サーバレスにしたかったが、アプリケーションのメモリが2Gバイト以上必要なのでサーバを省けなかったとのこと
photo 年4回ある上場企業の決算

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ