ほぼ無音の「吸った声」で音声認識　マイクロソフト研究

» 2018年10月18日 20時01分公開

[井上輝一，ITmedia]

　「音声入力は楽だが、人前で話すのは恥ずかしいし聞かれたくない」――こんな問題を解決してくれるかもしれない、新しい音声認識技術を米Microsoft Researchが10月5日（現地時間）に発表した。ひそひそ声よりも小さな声での音声認識を可能にする。

サイレントボイスの解説動画

　「サイレントボイス」と名付けられたこの技術は、一般的な「息を吐いての発声」ではなく、「息を吸っての発声」から音声を認識する。

　通常の発声では声帯を震わせて空気を振動させ、声道や鼻腔などで共鳴して声になる。ひそひそ声も声帯こそ震わせないが、声帯の狭い隙間を通る際にノイズ音を発生させ、通常の声と同様の経路を通って声となる。

サイレントボイスの動作原理

　一方の息を吸う「サイレントボイス」では、マイク付きのプレートを唇に当てることで、唇とプレートの間の狭い隙間から息を吸う際に発生するひそひそ声のような音を認識する。

　サイレントボイスの利点は大きく2点。息を吐く発声と違い、ポップノイズ（マイクに息や風が当たって発生する雑音）が発生せず、口のごく近くにマイクを置けるため高いS／N比を実現できることと、空気流を検出するだけで、通常の発声なのか息を吸う発声なのかを簡単に判断できるということだ。

息を吸うため、ポップノイズが生まれない

　サイレントボイスを開発した研究者の福本雅朗さんは、指にはめるリング状のデバイスや、スマートウォッチ、インプラントの前歯などにこの技術を適用することで、周囲に不審感を与えない、ほぼ無音の音声認識操作が可能になるとしている。

ひそひそ声より小さな声をマイクで拾える

サイレントボイスの応用例

自然な音声作る「WaveNet」の衝撃　なぜ機械は人と話せるようになったのか
流ちょうな日本語を発声するスマートスピーカー。「こんな音声合成ができるにはあと10年かかると思っていた」と研究者は衝撃を受けている。これを実現したWaveNetとは何か。スマートスピーカーを作る技術がどんなものかを研究者に聞く。
ひっそり成長「合成声優」ヒカリちゃん（21）　「声優さんの仕事を代替したい」――VoiceText開発者の挑戦
音声合成キャラクターが静かな進化を遂げている。「あと数年後には、現実のアナウンサーや声優の仕事が合成音声に置き換わる可能性がある」と開発者は話す。
「声を自由に変えられる技術」でコミュニケーションはどう変わる？
特定の他人の声になれる、音声変換技術はコミュニケーションにどのような影響を及ぼすのか。
“ほんやくコンニャク”の実現はいつ？　音声認識・翻訳技術は「言語」の壁を取り払うか
未来のひみつ道具を実現する最新テクノロジー。
機械と対話できる日は来るのか　アドバンスト・メディアに聞く、音声認識の課題と可能性
「音声認識」がクローズアップされることが増えた。音声認識が主な操作法であるスマートスピーカーやロボットも登場している。では、現在の音声認識技術は、どのレベルまで到達しているのか。アドバンスト・メディアに話を聞いた。