ITmedia NEWS > 企業・業界動向 >
ニュース
» 2018年05月25日 20時09分 公開

スマートスピーカーが“ゴール”とは限らない? ヤフーが考えるこれからの音声技術の勝負どころ (1/2)

音声アシスタントや音声エージェントサービスなど、私たちにとって身近な存在になった音声サービス。それはどんな技術で作られ、どんな風に進化しようとしているのか。音声技術を積極的に開発しているというヤフーに聞いてみた。

[村田朱梨,ITmedia]

 天気やニュースを尋ねれば教えてくれ、ちょっとした雑談にも答えてくれる音声アシスタントや音声エージェントサービスは、今や私たちにとってとても身近な存在になった。では、そうした音声サービスはどのような技術で作られ、これからどのように進化しようとしているのだろうか。音声認識や自然言語処理などに積極的に取り組んでいるヤフーに話を聞いてみた。

ヤフーの音声技術とは

 音声認識を使ったヤフーのサービスといえば、累計ダウンロード数250万を超える対話型音声エージェントアプリ「Yahoo!音声アシスト」(Android)が挙げられる。同社のWeb検索や経路探索、天気予報などさまざまなサービスと連携しており、「六本木から浅草まで」と話しかけて経路検索をしたり、「水曜日の天気は?」と言って天気予報を確認したりできる。

photo 「Yahoo!音声アシスト」

 その音声アシストに使われている音声認識エンジンが「YJVOICE」だ。YJVOICEは2015年にDNN(ディープニューラルネットワーク、深層学習)を導入。従来の手法と比べると、同じデータ量で学習した場合、音声認識した文の正解率は10%ほど改善したという。音声認識業務などを行うヤフーの三宅純平氏(データ&サイエンスソリューション統括本部 サイエンス本部)は、「音声認識にディープラーニングを活用するなどの論文が発表されたのが2012年ごろから。そこから3年後という、それなりに早いタイミングで取り入れることができた」と話す。

photo DNNの実装範囲
photo 現在利用しているのはDNNとHMMを組み合わせた音声認識モデル
photo DNNによる性能の向上

 三宅氏によれば、現状の音声認識で苦手なところを数十億単位で集めたデータから取り出し「音声データとその発話ラベルを教師データとして学習させている」という。

 しかし、音声認識にディープラーニングを導入している企業は多い。他社の技術と差別化する要素の1つは、「検索クエリ」の活用という。

photo 三宅純平氏

 「ヤフーはWeb検索をはじめ、たくさんのクエリを持っているので、それを学習に利用している。例えば『東京』『から』『品川』という3つの組み合わせが共起しやすい(同時に出現する)確率を学習させ、次に来る単語の予測で正しいものを出しやすくする」(三宅氏)

 「発話された音声がどういう発音だったか」の識別はディープラーニングで、「その音がどんな言葉だったか」変換するところは検索クエリの学習で、それぞれ精度を高めているという。

 「自社で音声認識を持っていることの強みは、サービスに合わせて音声認識を改善できること。アプリごとに調整したり、(Web検索の)急上昇ワードを認識できるようにしたり、すぐに対応できる」(三宅氏)

 しかし、音声認識技術だけではYahoo!音声アシストのようなサービスを作ることはできない。もう1つ重要なのがいわゆる「音声理解」――認識した文字列がどんな内容であったかをコンピュータに理解させる意味理解のための技術だ。「音声認識だけではなく、音声理解との蜜月が今後は大事になる」(三宅氏)

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.