NECが5秒程度の音声から個人を認識できる声認証技術を開発。特定フレーズの読み上げではなく、自然な会話音声など、任意の言葉で認識できる。雑音にも強く、誤認識率は約5%という。
NECは2019年2月19日、声認証技術を強化し、5秒程度の自然な会話音声から個人を認識できる新たな声認証技術を開発したと発表した。背景の雑音や、電話回線のノイズ、複数話者の声が混在する状況などで人には聞き取りが難しい音源でも、約95%の精度で認識できるという。
声認証には、特定のフレーズの発話音声データを登録や認証に用いる「テキスト依存方式」と、特定フレーズに依存せず、非定型の自然な発話データを登録し、認証に用いる「テキスト独立方式」の2方式がある。
テキスト依存方式は、スマートスピーカーなどで実用化されているが、特定のフレーズを使用する必要があり、活用の場が限定される。一方、テキスト独立方式は、自然な会話から認証が可能なため、発言スピード、アクセント、言語などに依存せず、応用・活用の場が広いとされている。ただし、これまでは、認証に10秒以上の長い発声が必要など、技術的制約があった。
今回の新技術は、テキスト依存方式の声認証の改良版ともいえるもの。深層学習を用いて音声から個人の特徴を効率的に抽出する新手法を開発し、これまで10秒程度は必要とされていた発話時間を、およそ半分の5秒に短縮した。
Copyright © ITmedia, Inc. All Rights Reserved.