「3年で日本語の自然言語処理がどこまで進化したかを知ってほしい」ELYZA DIGEST開発企業に聞く
「人間を超える正確性を獲得した」とする日本語要約エンジンが話題だ。言語処理の技術的なブレークスルーとされる「BERT」の技術をベースにしているというが、その精度や実務での可能性はどのくらいあるだろうか。
AI(人工知能)技術を強みとするスタートアップ企業ELYZAが「どんな文章でも3行に要約する」としてWebサービス「ELYZA DIGEST」を2021年8月26日に公開した。ELYZAによると発表から5日ほどで延べ13万人が利用するなど話題を集めている。
3年で日本語の自然言語処理技術はどこまで進化したかを知ってもらいたい
同サービスを公開するに当たって同社CEOの曽根岡 侑也氏は「日本語の自然言語処理が本当にこの3年で劇的に進化たことを体感してほしかった」とその意図を語る。
「従来、日本語の言語処理は複雑で困難とされてきたが、現在は人間を超える成果も出しつつある。それにもかかわらず過去の『品質が十分ではなかった時代の苦い体験』からか、この劇的な進化を知らない人があまりにも多い」(曽根岡氏)
AIブームが過熱気味だったこの数年は日本語の自動応答AIなどが多数提案されてきたことから、何らかのソリューションの導入を検討した経験がある読者もいるだろう。その際の品質評価で「限定的な用途でしか使えない」と判断したかもしれない。曽根岡氏はその時の判断をアップデートする時期が来たと訴える。
ELYZAは東京大学松尾 豊教授の研究室からスピンオフしたベンチャー企業で、日本語の自然言語処理を得意とする「ELYZA BRAIN」を開発する。本稿冒頭で紹介したELYZA DIGESTのサービスはELYZA BRAINの成果の一部をWebサービスとして公開したものだ。
要約文の生成には古くからあるものを含め、幾つかのアプローチが考えられる。元の文章から重要な文を抜き出す「抽出型」、逆に不要な単語を省いていく「圧縮型」、あるいは為替や株価情報などのように定型文で表現できる場合は事前に設定したテンプレートに合わせて要約する「テンプレート型」もある。
ELYZA DIGESTは元の文章をインプットに使いながら要約文を作る「生成型」のアプローチをとる。生成型の場合、元の文章にない単語も表現のために使えるため、より自然な表現を選択できる。モデルの作成には相応の計算リソースが必要になったり、チューニング次第では意味の違う要約を生成することもあり得る点が技術的に難しいところとされる。
BERT以降の日本語処理エンジンはどこまで人間を超えたか
冒頭、曽根岡氏が語った「この3年での技術的ブレークスルー」というのはGoogleのAI研究者が発表した「BERT」(Bidirectional Encoder Representations from Transformers)に関する論文以降の研究の発展を指す。
関連記事
- 損保ジャパン、AIでカスタマーセンターの通話内容を自動的に要約記録 2022年度に実用化
SOMPOホールディングスは、コールセンター領域のDXで、東京大学 松尾研究室発のAIスタートアップのELYZAと提携。対話特化型の自然言語処理モデルを共同開発し、損保ジャパンのカスタマーセンターにおける通話内容の要約記録作業を自動化する実証実験を開始した。 - AIで"良いコメント"を上位に ヤフーの無償APIをNewsPicksらが導入
ヤフーは「深層学習を用いた自然言語処理モデル(AI)」を利用してコメントを評価する機能のAPIを無償提供する。「NewsPicks」「攻略大百科」「ママスタコミュニティ」が、コメント欄の健全化に向けて同APIを活用する。 - AIでコンプライアンス対応支援 KPMGコンサルティングが新ソリューションを発表
「GRACE」は、ライフサイエンス業界のサービスや情報提供の形が多様化する中、自然言語処理技術を柔軟に活用し、コンプライアンス対応を支援する。 - 働き方改革にAIを活用 “自然言語解析技術を結実させたAI”でNTT Comが新境地に挑戦
NTTコミュニケーションズが「働き方改革」にAIを活用したサービスを発表した。自然言語解析技術を活用したAIサービス「COTOHA」シリーズの新ラインアップとなる会議支援サービス「COTOHA Meeting Assist」だ。通信キャリアの同社がこうしたサービスに注力するのはなぜか。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.