このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
ソニーコンピュータサイエンス研究所(ソニーCSL)京都研究室の研究チームが開発した「A Language Acquisition Support System that Presents Differences and Distances from Model Speech」は、非母国語の学習において、学習者の発話とネイティブスピーカーの発話の差異を深層学習を用い分析し、視覚的に提示するシステムだ。学習者はこの差異を埋めようと繰り返し発話することで、ネイティブに近い発話を習得できるようになると期待できる。
母国語ではない新しい言語を効果的に学ぶためには、学習者は自分とその言語のネイティブスピーカーとの違いを理解する必要がある。最も一般的な方法は、ネイティブスピーカーが、学習者のスピーチをどれだけ聞き取れているかを評価することだが、多くの時間や労力を要する。
この評価手法を自動化するため、自己教師あり学習を使い、少量のデータでネイティブスピーカーの音声と学習者の音声を識別するシステムを提案する。このシステムは、学習者の発話とネイティブスピーカーの発話の間に何が違うのか、どのくらい離れているのかを可視化し、学習者の言語学習を支援する。
これまでの発音検出システムでは、学習者の音声とネイティブスピーカーの音声の違いを、イントネーションやリズム、音素などを詳細に計算しているが、これらの具体的な部分を修正しても、必ずしもその人の発音が分かりやすくなるとは限らない。
このシステムでは、話者自身の音声とネイティブスピーカーの音声の違いや距離を直感的に示すことで、話者はインタラクションを繰り返しながら、違いをなくしたり、距離を近づけたりして発音を改善していく。
このシステムはこれまでの検出器と違い、学習者の発話する文章と、ネイティブスピーカーの発話する文章を必ずしも一致させておく必要はないため、データセットにない文章も含め、発話を学習したい文を学習者が自由に選べる。
システムは学習者の発話を分析し、学習者の発話と多数のネイティブスピーカーの発話との相違点と距離を学習者に提示する。差異については、発話波形において、ネイティブスピーカーと異なる部分が赤で示され、この部分が濃いほど、違いが大きいことを指す。
また2次元座標上の赤い点はネイティブスピーカーの発話を、青い点は学習者の発話を表しており、これらの点の間の距離が大きいほど、ネイティブスピーカーの発話と異なることを意味している。
学習者はこの可視化されたデータにより、直感的に違いを把握できるだけでなく、繰り返し発話する中で、どれだけ近づいたかを瞬時に判定できる。波形の差分だけでなく、どれだけ異なる発話かを点と点の距離で可視化している点が大きい。例えば、繰り返し発話する中で、少しでも点と点が近づくと、今の修正の方向性が正しかったと分かるし、離れれば間違っていたすぐに分かる。
このように、具体的にイントネーションやリズム、音素を細かく理解し修正するのではなく、直感で修正が行える点が本システムの利点といえるだろう。
この研究は、もともとは「東京の人が京言葉をまねてもすぐに見抜かれてしまう」という体験から始まったそうで、AIによる技能判定や技能獲得支援の手法として、他の応用にも展開可能ではないかとしている。
Source and Image Credits: Kazuki Kawamura and Jun Rekimoto. 2021. A Language Acquisition Support System that Presents Differences and Distances from Model Speech. The Adjunct Publication of the 34th Annual ACM Symposium on User Interface Software and Technology. Association for Computing Machinery, New York, NY, USA, 44–46. DOI:https://doi.org/10.1145/3474349.3480225
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR