「3年で日本語の自然言語処理がどこまで進化したかを知ってほしい」ELYZA DIGEST開発企業に聞く

「人間を超える正確性を獲得した」とする日本語要約エンジンが話題だ。言語処理の技術的なブレークスルーとされる「BERT」の技術をベースにしているというが、その精度や実務での可能性はどのくらいあるだろうか。

» 2021年09月08日 10時30分 公開
[原田美穂ITmedia]

この記事は会員限定です。会員登録すると全てご覧いただけます。

 AI(人工知能)技術を強みとするスタートアップ企業ELYZAが「どんな文章でも3行に要約する」としてWebサービス「ELYZA DIGEST」を2021年8月26日に公開した。ELYZAによると発表から5日ほどで延べ13万人が利用するなど話題を集めている。

サービスは公開初日から話題を集めた(ELYZA DIGESTのWebページ

3年で日本語の自然言語処理技術はどこまで進化したかを知ってもらいたい

ELYZA CEOの曽根岡 侑也氏。大学院在学中にIPAの未踏プログラムに選出されるなど技術的にも評価されてきた(画像提供:ELYZA)

 同サービスを公開するに当たって同社CEOの曽根岡 侑也氏は「日本語の自然言語処理が本当にこの3年で劇的に進化たことを体感してほしかった」とその意図を語る。

 「従来、日本語の言語処理は複雑で困難とされてきたが、現在は人間を超える成果も出しつつある。それにもかかわらず過去の『品質が十分ではなかった時代の苦い体験』からか、この劇的な進化を知らない人があまりにも多い」(曽根岡氏)

 AIブームが過熱気味だったこの数年は日本語の自動応答AIなどが多数提案されてきたことから、何らかのソリューションの導入を検討した経験がある読者もいるだろう。その際の品質評価で「限定的な用途でしか使えない」と判断したかもしれない。曽根岡氏はその時の判断をアップデートする時期が来たと訴える。

 ELYZAは東京大学松尾 豊教授の研究室からスピンオフしたベンチャー企業で、日本語の自然言語処理を得意とする「ELYZA BRAIN」を開発する。本稿冒頭で紹介したELYZA DIGESTのサービスはELYZA BRAINの成果の一部をWebサービスとして公開したものだ。

 要約文の生成には古くからあるものを含め、幾つかのアプローチが考えられる。元の文章から重要な文を抜き出す「抽出型」、逆に不要な単語を省いていく「圧縮型」、あるいは為替や株価情報などのように定型文で表現できる場合は事前に設定したテンプレートに合わせて要約する「テンプレート型」もある。

 ELYZA DIGESTは元の文章をインプットに使いながら要約文を作る「生成型」のアプローチをとる。生成型の場合、元の文章にない単語も表現のために使えるため、より自然な表現を選択できる。モデルの作成には相応の計算リソースが必要になったり、チューニング次第では意味の違う要約を生成することもあり得る点が技術的に難しいところとされる。

文章要約の技術アプローチ(出典:ELYZA提供資料)

BERT以降の日本語処理エンジンはどこまで人間を超えたか

 冒頭、曽根岡氏が語った「この3年での技術的ブレークスルー」というのはGoogleのAI研究者が発表した「BERT」(Bidirectional Encoder Representations from Transformers)に関する論文以降の研究の発展を指す。

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ