ソニーコンピュータサイエンス研究所（ソニーCSL）京都研究室の研究チームが開発した「A Language Acquisition Support System that Presents Differences and Distances from Model Speech」は、非母国語の学習において、学習者の発話とネイティブスピーカーの発話の差異を深層学習を用い分析し、視覚的に提示するシステムだ。学習者はこの差異を埋めようと繰り返し発話することで、ネイティブに近い発話を習得できるようになると期待できる。

（a）練習したい英語の文章と、ネイティブスピーカーの音声が与えられる。（b）学習者の英語の発話を分析し、学習者の発話がネイティブスピーカーの発話とどのくらい離れているか、どこが違うかを波形と2次元座標上の点で表示する。（c）学習者はシステムから指摘された部分を修正するために発話を繰り返し、自分の発話がネイティブスピーカーの発話に近づいたところで学習を終了する

　母国語ではない新しい言語を効果的に学ぶためには、学習者は自分とその言語のネイティブスピーカーとの違いを理解する必要がある。最も一般的な方法は、ネイティブスピーカーが、学習者のスピーチをどれだけ聞き取れているかを評価することだが、多くの時間や労力を要する。

　この評価手法を自動化するため、自己教師あり学習を使い、少量のデータでネイティブスピーカーの音声と学習者の音声を識別するシステムを提案する。このシステムは、学習者の発話とネイティブスピーカーの発話の間に何が違うのか、どのくらい離れているのかを可視化し、学習者の言語学習を支援する。

　これまでの発音検出システムでは、学習者の音声とネイティブスピーカーの音声の違いを、イントネーションやリズム、音素などを詳細に計算しているが、これらの具体的な部分を修正しても、必ずしもその人の発音が分かりやすくなるとは限らない。

　このシステムでは、話者自身の音声とネイティブスピーカーの音声の違いや距離を直感的に示すことで、話者はインタラクションを繰り返しながら、違いをなくしたり、距離を近づけたりして発音を改善していく。

　このシステムはこれまでの検出器と違い、学習者の発話する文章と、ネイティブスピーカーの発話する文章を必ずしも一致させておく必要はないため、データセットにない文章も含め、発話を学習したい文を学習者が自由に選べる。

　システムは学習者の発話を分析し、学習者の発話と多数のネイティブスピーカーの発話との相違点と距離を学習者に提示する。差異については、発話波形において、ネイティブスピーカーと異なる部分が赤で示され、この部分が濃いほど、違いが大きいことを指す。

ネイティブスピーカーと異なる箇所は赤色で表示される

　また2次元座標上の赤い点はネイティブスピーカーの発話を、青い点は学習者の発話を表しており、これらの点の間の距離が大きいほど、ネイティブスピーカーの発話と異なることを意味している。

赤丸がネイティブスピーカーの発音で青丸がユーザーの発音、両者の距離が近いほどネイティブと似た発音になる

　学習者はこの可視化されたデータにより、直感的に違いを把握できるだけでなく、繰り返し発話する中で、どれだけ近づいたかを瞬時に判定できる。波形の差分だけでなく、どれだけ異なる発話かを点と点の距離で可視化している点が大きい。例えば、繰り返し発話する中で、少しでも点と点が近づくと、今の修正の方向性が正しかったと分かるし、離れれば間違っていたすぐに分かる。

　このように、具体的にイントネーションやリズム、音素を細かく理解し修正するのではなく、直感で修正が行える点が本システムの利点といえるだろう。

　この研究は、もともとは「東京の人が京言葉をまねてもすぐに見抜かれてしまう」という体験から始まったそうで、AIによる技能判定や技能獲得支援の手法として、他の応用にも展開可能ではないかとしている。

Source and Image Credits: Kazuki Kawamura and Jun Rekimoto. 2021. A Language Acquisition Support System that Presents Differences and Distances from Model Speech. The Adjunct Publication of the 34th Annual ACM Symposium on User Interface Software and Technology. Association for Computing Machinery, New York, NY, USA, 44–46. DOI:https://doi.org/10.1145/3474349.3480225

テキストから御朱印を自動生成するシステム、筑波大が開発　寺社1000カ所以上から御朱印収集、データ化
筑波大学落合研究室の研究チームは、テキストから御朱印を自動生成する学習ベースのシステムを開発。訓練用のデータセットは、寺社1000カ所以上を訪問し取得した御朱印を基に大規模にデータ化した。
ジョジョのキャラクター風に顔写真を変換する「JoJoGAN」　1枚の画像からAIが学習
米イリノイ大学アーバナ・シャンペーン校の研究チームは、入力した1枚の顔画像を漫画「ジョジョの奇妙な冒険」のキャラクター風に変換する機械学習フレームワークを開発した。「空条承太郎」など、作中のキャラクターに似せた顔に変換する。
トリミングではなく、写真を拡張して良い構図を提案　AIが適切な背景を自動合成
中国の南開大学とTencent AI Lab、韓国のXverseの研究チームは、写真内を切り抜くのではなく、広げる方法で被写体に合わせた構図にして出力する、深層学習を使った外向きクロッピング手法を開発した。
テキストだけで、AIが3Dモデルを自動生成　米Googleなどの研究チームが開発
米Google Researchと米カリフォルニア大学バークレー校の研究チームは、自然言語の記述のみからデジタル3Dオブジェクトを生成するZero-shot learningを使ったアプローチを提案。3Dの学習データを必要とせずに形状や色、スタイルを柔軟に制御する。
1枚の顔写真から過去や未来の姿を生成　各年齢のしわや頭部をAIが予測
イスラエルのTel-Aviv Universityの研究チームは、1枚の顔写真から、その人物のアイデンティティーを維持したまま、異なる年齢の顔画像を合成する手法を開発した。頭部の形状やシワなどの肌質感の変化をリアルに再現した、年齢変換タスクを実行する。