ITmedia NEWS > STUDIO >
ニュース
» 2021年03月04日 07時00分 公開

Clubhouseで注目度が上がる「音声」を技術的に見る 説得力のある声を伝えるために知っておくべきこと(1/2 ページ)

小寺信良さんが考えるコミュニケーションの音声。

[小寺信良,ITmedia]

 西田さんのコラム『「音声」の重要性を改めて考えてみた』は、音声コンテンツの歴史と可能性をうまくまとめたものだった。それに触発される形で、僕は映像音声技術者の視点で音声というものの特性を語ってみたいと思う。

この記事について

この記事は、毎週月曜日に配信されているメールマガジン『小寺・西田の「マンデーランチビュッフェ」』から、一部を転載したものです。今回の記事は2021年3月1日に配信されたものです。メールマガジン購読(月額660円・税込)の申し込みはこちらから。さらにコンテンツを追加したnote版『小寺・西田のコラムビュッフェ』(月額980円・税込)も3月からスタート。

 2週間ほど前だったか、Clubhouse内で「イケボで語れるBluetoothイヤフォンはどれか」という企画に協力したことがある。Bluetoothイヤフォンは遅延が大きく、音声通話には向いてないように思われがちだが、遅延が大きいのは高音質の音楽伝送プロファイルとコーデックを使用したときの話だ。

 音声通話にはHSP(Headset Profile)やHFP(Hands-Free Profile)上で音声通話用のコーデックが動いており、遅延はそれほど大きくはない。そうでなければ、そもそも電話用のBluetoothヘッドセットなどはとうの昔に滅んでいるはずだ。

 Bluetoothイヤフォンの音質評価は、これまで聴く方の評価ばかりだったわけだが、通話能力のテストというのはかなり珍しい。およそ15種類のイヤフォンをテストしたが、それぞれ個性が全く違っており、値段が高ければ通話音声がいいとも限らないという事実が明らかになった。

photo Apple純正有線イヤフォン「EarPods」のマイク

 Bluetoothの通話機能は、基本的には内蔵されているSoCに搭載されており、マイクがあれば実装できる。ただマイクの配置や集音性能、ノイズリダクションの実装方法、音声通話に割くデータ量といった違いから、通話品質に違いが出るようだ。

 つまりオーディオメーカーは高音質伝送のA2DP(Advanced Audio Distribution Profile)上のコーデック処理には熱心だが、通話プロファイル上の音声品質に関してはあまり注意を払っていないということである。それは利用頻度の低い機能に対してコストを割かないという点において、現時点では正しい。しかし今後音声コンテンツやコミュニケーションが伸びるのであれば、メーカーはまたやることが増えることになる。

 Clubhouseで一つ分かったのは、QualcommのSoCに内蔵の音声通話向けノイズリダクションとはあまり相性が良くないということである。おそらくClubhouse自体にもノイズリダクション機能があるのではないかと推測するのだが、双方が同じような効き方をすることで、しゃべるとノイズが乗り、しゃべり始めの子音が少し切れるという現象があった。

 設定の悪いノイズゲートみたいな感じを想像していただければいいかと思う。あいにくSoC内蔵の通話向けノイズリダクションは設定で切れないので、その手のイヤフォンをClubhouseで使うのは避けたほうが良さそうだ。

Hi-Fiが最適解ではない世界

 明瞭感のある音声を最低限の情報量で実現するために、音声、とくに人間の肉声に関する研究は古くから行われており、その多くは録音技術や放送、電話による通話に生かされている。

 音声による言葉の伝送で欠かせないのが、「フォルマント」という考え方だ。母音、つまり「アイウエオ」の違いを表現しているのは、特定の周波数ピークである。フォルマント周波数は、第1ピークが500〜1kHz付近に、第2ピークが1.5k〜3kHzあたりに存在する。母音の種類によって、この第1と第2の位置関係が変わる。

 音声を明瞭に伝えるためには、このフォルマント周波数帯域をきれいに通してやる必要がある。子音を表現する周波数は幅広いが、第1フォルマントよりも低くなることはあまり考えられない。人間の出す声は実に千差万別で、ボイスパーカッションなどを演じる人は子音を低く持っていくテクニックとかあるのかもしれないが、訓練しないとできない発声方法はここではとりあえず置いておく。

 そう考えると、第1フォルマントの下限である500Hz以下はなくても通話にはあまり困らないので、余裕を見てもだいたい300Hz以下はデータとしてはカットできる。一方高い方では「サシスセソ」を表現する歯擦音は高い周波数を含むため、高域特性がいいほうが明瞭度は上がるが、ある程度のところでカットしても伝わらないわけではない。聞き手側が発音の不足を脳で補完するからである。従って、既存の装置では、上限が3.4kHzぐらいまであれば問題なく通話はできるものとして設計されている。

 ではこの上下の周波数特性を広げていけば、よりよい音声伝送ができるのか。基本的にはYesだが、技術的には難しくなる。というのも、周波数帯域を広げていけばそれだけ余計なノイズも集音してしまうからだ。周波数帯を限るということは、肉声にフォーカスしてノイズカットするという意味も含まれているのである。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.