「小さな声から明瞭な声への変換処理の精度向上には、どうしてもたくさんのデータが必要。そのためには収録用のマイクセンサーがたくさん必要で、企業に作ってもらわなければいけないが、企業が作るには売れるものでないといけない。売れるものであるためにはサービスが必要で……」と、サービス開発とマイクセンサーの製造に“鶏が先か、卵が先か”のようなジレンマがあると戸田教授は悩む。
データが取れればサービスが作れ、サービスを利用してもらうことで更にデータを蓄積し改善していける。そんなサイクルについては、米Googleの「Voice Search」(音声検索機能)に学ぶべきところがあるという。
「Voice Searchがスマートフォンアプリとしてローンチしたのは、まだディープラーニングが組み込まれる前(英語版リリースは08年、日本語対応は09年)だったが、それでも十分使えると話題になった。人々に使われつつ、大量のリアルなデータを集めて精度改善につなげる枠組みを作ったことが重要であり、ディープニューラルネットワークによる学習・認識の性能を引き出す上でも大きな礎になったという背景があるだろう」(戸田教授)
Googleのような大企業ではない立場で、いかに大量のリアルなデータを集められるかが実用化に向けた課題だ。
「音声変換の技術向上も大事だが、技術を社会に周知することも大事」と戸田教授はいう。
他人の声に成り済ませるということは、「オレオレ詐欺」のように電話口で人をだますこともできる。「そうした悪用が行われることは避けては通れないだろう」(戸田教授)とした上で、「例えば、画像だったら自由に編集できることは多くの人がもう知っているから、疑ってかかることもできる。音声についても、詐欺などの可能性を疑えるようしっかり周知していかなければいけない」(同)と危機感を抱く。
「技術を広めていく立場である以上、悪用の可能性があることを隠すのではなく、知ってもらう方が良い。そんな中でも使い方を間違わなければ、ものすごく役に立つということも理解してほしい」──良い面と悪い面の両方を知ってもらうことが、音声変換技術を研究し広めていく上で大事なことだと戸田教授は締めくくった。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR