“3行要約AI”大反響 「走れメロス」の失敗報告に開発ベンチャーも注目 原因と対策を聞く
文章からAIで3行の要約を生成するサービスがSNSを中心に盛り上がっている。多くの人が試す中、「走れメロス」の要約が失敗だと話題になった。その原因と対策を開発したAIベンチャー企業に聞いた。
文章を入れるとAIで3行の要約を数十秒のうちに生成する――こんな機能を試せるデモサイトが8月26日に公開されると、要約結果の投稿がTwitterなどで相次いだ。中には太宰治の「走れメロス」や昔話「桃太郎」、匿名掲示板のコピペ文章などを要約したという報告も飛び交った。
このAIは東京大学・松尾豊研究室発のAIベンチャーELYZA(イライザ/東京都文京区)が開発した「ELYZA DIGEST」だ。デモサイト公開後5日間で約13万人がアクセスし、要約の実行数は14万5000回を超えた。
整った文章でなくても精度の高い要約文を生成
同社はELYZA DIGESTのデモサイトを8月26日に公開。入力したテキストやニュース記事などのURLを基に、AIが一から要約文を作る「生成型」モデル。文の一部を抜き出す「抽出型」モデルなどと異なり、議事録や会話文など整った文章でなくても精度の高い要約文を生成できるという。
公開後、Twitterなどでは「結論から簡潔に述べていて好感度高い」「(会見での議員の発言を試したら)発言の趣旨を見事に表している」などの反応があった。一方で「赤ずきんちゃんがオオカミに食われた」「繰り返しに少し弱い」「3行では重要な要素を絞りきれないのでは」などうまく要約されない報告もあった。
「走れメロス」要約ではAIがミス 原因はせりふ内の表現
ELYZA DIGESTでは要約結果の成功・失敗をユーザーが評価できる。約1万7600件の評価のうち、成功が約8500件、失敗が約9000件だった。ELYZAの曽根岡侑也CEOは「人はAIにほぼ100%の精度を望むことが多い。半分近く成功したのは励みになる」と好意的に受け止め「失敗例も読み解くと面白い」と話す。
走れメロスの要約結果では「王が逆ギレし、セリヌンティウスがキルされた」というツイートが9月10日までに約1.7万RTされ話題になった。本来は王の暴君ぶりに激怒した主人公メロスが、王の人質になったセリヌンティウスを救う物語だ。
ITmedia NEWS編集部が青空文庫の「走れメロス」で試すと、王が主人公メロスの友人(セリヌンティウス)を殺した上で激怒したと読める次の結果が出た。
- メロスが、邪悪に敏感な男に激怒した。
- 王は、メロスの無二の友人を人質として殺害し、三日目に殺害した。
- 王は、メロスの心はわからないと、暴君に激怒した。
曽根岡CEOは、要約が失敗した原因として王の「三日目に殺してやるのも気味がいい」など乱暴なせりふに注目。ELYZA DIGESTが得意とするニュース記事にはない、小説特有の不確定な要素が混ざった文章や、せりふ内の表現などを重要部分と勘違いした可能性があるという。
もう1つの原因に、要約可能な文章の長さを指摘する。デモ版は約2500字の文章が精度を維持できる限界だという。走れメロスでは物語終盤にセリヌンティウスを救う場面があるため、反映されなかったとみている。
小説やネットコピペの要約が約25%、予想外の多さ
ELYZA DIGESTはニュース記事や議事録など要約ニーズがある文章向けに開発した。約14万件の要約結果からランダムに100件を選んで内容を調べると、記事やブログなどが約60%を占めた。小説や歌詞、ネットのコピペなどは約25%で、予想外に多かったという。
今後は集めた文章と成功・失敗の評価を基に、どんな文章で失敗しやすいか、弱点はどこかなどを分析。アルゴリズムの改善、ジャンル特化、機能の拡充という3つの方法で要約精度の改善を進める。
アルゴリズムの改善では、より大きな学習モデルを使って精度を上げたり、主語の取り違えをなくしたりするすなど、今回判明した課題を解決する。
ジャンルの特化では、対話文や議事録、小説などの領域に特化して要約の精度を上げる方法を探る。機能面では入力できる文字数を現在の2500文字から数万文字に増やしたり、出力する要約文を3行より増やしたりして失敗の削減を目指す。
「AIは使い物にならない」イメージを拭い去るため公開
同社は自然言語処理(NLP)技術を研究。複数の日本企業へのヒアリングで議事録や会話メモなどを要約する作業に苦労していると知り、要約AIの開発を進めた。
ELYZA DIGESTIを公開した理由について曽根岡CEOは「法人向けだけでは多くの人に知ってもらえない」とした上で、「要約が一番(ユーザーに)驚きがあり、手軽に扱えるものだった。これまでNLPは使い物にならないイメージが強かった。すでに人間の能力を超えている分野もあると体験してもらいたい」と説明する。
NLP分野では、2017年までAIの精度は人間の足元に及ばなかったという。18年に米Googleが開発した言語処理モデル「BERT」を皮切りに精度が上がり、19年には英語のテストで人間を超えた。
英語圏ではNLPや文章を扱うAI分野で変革が起きているという。ELYZAは日本語でも変革を実現し、その技術の実用化を目指している。
関連記事
- 「どんな文章も3行に要約するAI」デモサイト、東大松尾研発ベンチャーが公開 「正確性は人間に匹敵」
文章の「3行要約」を生成するAIのデモサイトを、東大・松尾豊研究室発のAIベンチャーが公開。会話文の要約も得意だ。要約の正確性は「人間に匹敵する」という。 - Google、複雑な会話型クエリでも意図をくんで答えるBERT採用検索を英語で開始
Googleは、注目の自然言語処理技術「BERT」を、まずは米国の英語検索で採用する。「ブラジルから米国への入国にはビザが必要?」のような会話型クエリを入力した場合、従来より欲しい答えが表示されるようになる。 - 「当時もこんな空だったのかな」──カラー化した原爆写真がネットで反響 AIと人力で戦時中などの写真を色付ける「記憶の解凍」
広島と長崎に投下された原爆の“きのこ雲”のカラー化画像がTwitterに投稿され、注目された。「記憶の解凍」という活動の一環で、AIツールと戦争体験者の証言、Twitterのコメントなどを反映してカラー化している。活動に取り組む、東京大学大学院の渡邉英徳教授に取材した。 - AIが記事を要約、ニュース動画を自動作成 博報堂DYなど、新聞社向けに提供
AIが新聞記事から要約を作成し、音声化・動画化まで行うサービス「NEWS BRAIN」を、博報堂DYメディアパートナーズとオープンエイトが開発。新聞社向けに提供する。 - 文章からプログラムを自動生成する「OpenAI Codex」β版APIが公開 「GitHub Copilot」のエンジン
米AI研究機関のOpenAIが、自然言語からソースコードを自動生成するAIシステム「Codex」のプライベートβ版APIの提供を始めた。PythonやJavaScript、Rubyなど10以上の言語に対応している。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.