「小さな声から明瞭な声への変換処理の精度向上には、どうしてもたくさんのデータが必要。そのためには収録用のマイクセンサーがたくさん必要で、企業に作ってもらわなければいけないが、企業が作るには売れるものでないといけない。売れるものであるためにはサービスが必要で……」と、サービス開発とマイクセンサーの製造に“鶏が先か、卵が先か”のようなジレンマがあると戸田教授は悩む。

　データが取れればサービスが作れ、サービスを利用してもらうことで更にデータを蓄積し改善していける。そんなサイクルについては、米Googleの「Voice Search」（音声検索機能）に学ぶべきところがあるという。

2018年のGoogle音声検索

　「Voice Searchがスマートフォンアプリとしてローンチしたのは、まだディープラーニングが組み込まれる前（英語版リリースは08年、日本語対応は09年）だったが、それでも十分使えると話題になった。人々に使われつつ、大量のリアルなデータを集めて精度改善につなげる枠組みを作ったことが重要であり、ディープニューラルネットワークによる学習・認識の性能を引き出す上でも大きな礎になったという背景があるだろう」（戸田教授）

　Googleのような大企業ではない立場で、いかに大量のリアルなデータを集められるかが実用化に向けた課題だ。

周知しなければいけない「悪用の可能性」

　「音声変換の技術向上も大事だが、技術を社会に周知することも大事」と戸田教授はいう。

　他人の声に成り済ませるということは、「オレオレ詐欺」のように電話口で人をだますこともできる。「そうした悪用が行われることは避けては通れないだろう」（戸田教授）とした上で、「例えば、画像だったら自由に編集できることは多くの人がもう知っているから、疑ってかかることもできる。音声についても、詐欺などの可能性を疑えるようしっかり周知していかなければいけない」（同）と危機感を抱く。

　「技術を広めていく立場である以上、悪用の可能性があることを隠すのではなく、知ってもらう方が良い。そんな中でも使い方を間違わなければ、ものすごく役に立つということも理解してほしい」──良い面と悪い面の両方を知ってもらうことが、音声変換技術を研究し広めていく上で大事なことだと戸田教授は締めくくった。

自然な音声作る「WaveNet」の衝撃　なぜ機械は人と話せるようになったのか
流ちょうな日本語を発声するスマートスピーカー。「こんな音声合成ができるにはあと10年かかると思っていた」と研究者は衝撃を受けている。これを実現したWaveNetとは何か。スマートスピーカーを作る技術がどんなものかを研究者に聞く。
音声合成はアナウンサーや声優の仕事を奪うのか？
「AIアナウンサー」など、コンピュータが人間の代わりに音声の読み上げを務める機会が増えている。音声合成はどこまで人間のようにしゃべることができるのか。
“別人の声”が出せる「アニメガホン」登場　コンサート会場なら「歌手の声で」警備・案内可能に
声を通すと別人の声にリアルタイムで変換するメガホン「ANIMEGAPHONE」が登場。コンサート会場で「歌手の声」で警備や案内をするなどの利用シーンを想定している。
「あなたの声」でしゃべり出す――音声合成スマホアプリ「コエステーション」東芝が公開
自分の声をデータ化し、音声合成でしゃべらせることができるアプリ「コエステーション」を東芝デジタルソリューションが公開。いくつかのセリフを読み上げるだけで、声の分身「コエ」を作成できる。