ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

英語ネイティブとの発音の違いを深層学習で可視化 ソニーCSLが開発Innovative Tech

» 2022年01月20日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 ソニーコンピュータサイエンス研究所(ソニーCSL)京都研究室の研究チームが開発した「A Language Acquisition Support System that Presents Differences and Distances from Model Speech」は、非母国語の学習において、学習者の発話とネイティブスピーカーの発話の差異を深層学習を用い分析し、視覚的に提示するシステムだ。学習者はこの差異を埋めようと繰り返し発話することで、ネイティブに近い発話を習得できるようになると期待できる。

(a)練習したい英語の文章と、ネイティブスピーカーの音声が与えられる。(b)学習者の英語の発話を分析し、学習者の発話がネイティブスピーカーの発話とどのくらい離れているか、どこが違うかを波形と2次元座標上の点で表示する。(c)学習者はシステムから指摘された部分を修正するために発話を繰り返し、自分の発話がネイティブスピーカーの発話に近づいたところで学習を終了する

 母国語ではない新しい言語を効果的に学ぶためには、学習者は自分とその言語のネイティブスピーカーとの違いを理解する必要がある。最も一般的な方法は、ネイティブスピーカーが、学習者のスピーチをどれだけ聞き取れているかを評価することだが、多くの時間や労力を要する。

 この評価手法を自動化するため、自己教師あり学習を使い、少量のデータでネイティブスピーカーの音声と学習者の音声を識別するシステムを提案する。このシステムは、学習者の発話とネイティブスピーカーの発話の間に何が違うのか、どのくらい離れているのかを可視化し、学習者の言語学習を支援する。

 これまでの発音検出システムでは、学習者の音声とネイティブスピーカーの音声の違いを、イントネーションやリズム、音素などを詳細に計算しているが、これらの具体的な部分を修正しても、必ずしもその人の発音が分かりやすくなるとは限らない。

 このシステムでは、話者自身の音声とネイティブスピーカーの音声の違いや距離を直感的に示すことで、話者はインタラクションを繰り返しながら、違いをなくしたり、距離を近づけたりして発音を改善していく。

 このシステムはこれまでの検出器と違い、学習者の発話する文章と、ネイティブスピーカーの発話する文章を必ずしも一致させておく必要はないため、データセットにない文章も含め、発話を学習したい文を学習者が自由に選べる。

 システムは学習者の発話を分析し、学習者の発話と多数のネイティブスピーカーの発話との相違点と距離を学習者に提示する。差異については、発話波形において、ネイティブスピーカーと異なる部分が赤で示され、この部分が濃いほど、違いが大きいことを指す。

ネイティブスピーカーと異なる箇所は赤色で表示される

 また2次元座標上の赤い点はネイティブスピーカーの発話を、青い点は学習者の発話を表しており、これらの点の間の距離が大きいほど、ネイティブスピーカーの発話と異なることを意味している。

赤丸がネイティブスピーカーの発音で青丸がユーザーの発音、両者の距離が近いほどネイティブと似た発音になる

 学習者はこの可視化されたデータにより、直感的に違いを把握できるだけでなく、繰り返し発話する中で、どれだけ近づいたかを瞬時に判定できる。波形の差分だけでなく、どれだけ異なる発話かを点と点の距離で可視化している点が大きい。例えば、繰り返し発話する中で、少しでも点と点が近づくと、今の修正の方向性が正しかったと分かるし、離れれば間違っていたすぐに分かる。

 このように、具体的にイントネーションやリズム、音素を細かく理解し修正するのではなく、直感で修正が行える点が本システムの利点といえるだろう。

 この研究は、もともとは「東京の人が京言葉をまねてもすぐに見抜かれてしまう」という体験から始まったそうで、AIによる技能判定や技能獲得支援の手法として、他の応用にも展開可能ではないかとしている。

Source and Image Credits: Kazuki Kawamura and Jun Rekimoto. 2021. A Language Acquisition Support System that Presents Differences and Distances from Model Speech. The Adjunct Publication of the 34th Annual ACM Symposium on User Interface Software and Technology. Association for Computing Machinery, New York, NY, USA, 44–46. DOI:https://doi.org/10.1145/3474349.3480225



Copyright © ITmedia, Inc. All Rights Reserved.