機械と対話できる日は来るのか アドバンスト・メディアに聞く、音声認識の課題と可能性特集・音声言語インタフェース最前線(3/3 ページ)

» 2018年04月06日 06時00分 公開
[田中聡ITmedia]
前のページへ 1|2|3       

利便性が恥ずかしさを超える面も

 音声認識の精度が向上して、自然に対話できるようになったとしても、「人前で機会に話し掛けるのが恥ずかしい」という心理的な阻害要因もある。KDDIが2017年に行った音声操作に対する意識調査では、音声によるインターネット検索を人前で行うのは「恥ずかしい」が7割を超えたという結果も出ている(関連記事)。

 ただ、この点について坂口氏は「10年前とは相当変わってきている」とみる。「音声認識は、B2Bだと業務効率改善や働き方改革にも使われていて、例えば日報を声で作成したいというニーズは非常に増えています。以前は、営業担当者が会社に戻って日報をPCに打ち込んでいました。外出先でも作業できるようにと、iPhoneやiPadを営業に配布している企業もありますが、フリックでの入力はつらく、報告内容が薄くなるというデメリットがあります。そこで、声で入力することに注目が集まっています」

 アドバンスト・メディアが公開しているAmiVoiceのAPIをもとに、企業が開発したアプリに音声認識を組み込み、日報の作成に活用しているケースが多いという。大手製薬会社など、業務日報を声で作る事例が増えている。「ある程度の社員数がいる会社だと、コストをかけて自社に適切なアプリを開発できますが、少人数の企業でしたらAmiVoice SBxを活用できます」(坂口氏)

 このように、分野によっては「利便性向上」が「恥ずかしさ」を上回っているシーンもあるようだ。

スマホに縛られない音声認識デバイスは増える

 では、コンシューマーと音声認識の距離感はどう変わっていくのだろうか。

 「スマートスピーカーはわれわれも研究していますが、精度がいいものから悪いものまであります。今後はスマートフォンとは違ったアプローチの専用デバイスが増えていくと思っています。われわれもウェアラブル型マイク(WT01)を法人向けに開発していますが、これからは、B2B2Cでコンシューマーが使えるデザインのモノも研究開発していきたいと思っています」(坂口氏)

 「ili(イリー)」や「ポケトーク」「Mayumi」などの翻訳デバイスは、その好例だ(ちなみに、ずれもAmiVoiceは採用していない)。「これらの製品はスマートフォンを必要としません。用途を特化した端末は増えていくと思います」(坂口氏)

音声認識 スマホいらずで翻訳ができる「ポケトーク」

文字起こしが不要になる日は来る?

 編集記者としては、取材で話した内容を起こしてくれるツールも欲しい。アドバンスト・メディアも、官公庁や民間企業向けに、議事録作成支援ツールを提供しているが、個人でも手軽に活用できるようになるとありがたい。

 文字起こしは「授業中に先生が話したことのメモを取るなど、コンシューマー寄りに近いニーズだと思います」と坂口氏は話す。「一言一句、しゃべった通りの議事録を作るニーズもあれば、要約のニーズもあります。誰もが文字起こしを自動化できる世界は立ち上げていきたいですね」

 現時点では、法人向けに「AmiVoice iVoX」という書き起こしにも利用できるアプリを提供している。マイク(WT01)を経由してスマホアプリに録音された音声をサーバにアップし、テキストに変換してPCから確認、編集ができる。個人向けにはiOSで使える「AmiVoice iVoX Personal」を提供している。こちらは30秒までしか録音できないが、写真の記録もできるので、例えば会議で使ったホワイトボードを撮影して、コメントを入れて保存するといった使い方ができる。

音声認識 30秒まで録音して書き起こしができる「AmiVoice iVoX Personal」

 iVoXのようなアプリは、マイクを使えば認識精度は上がるが、話者が何人もいると、その分マイクを用意しないといけない。1対1だけではなく、複数人でミーティングをするようなシーンで使えるマイクデバイスも考えていきたいとのことだ。

取材を終えて:機械と対話できる未来に近づいている

 今回の取材を通して、機会と対話できる日が来るのはまだ先だが、この世界の実現に向けて着実に進んでいることが分かった。特定の分野では既に対話を実現できているが、日常会話となると、膨大な発話シナリオをどこまで積み上げていけるのかが鍵を握っている。その中で、コミュクラフトのような、ユーザーと一緒にシナリオを作っていく取り組みは興味深い。

 現時点で、音声認識が大きなメリットをもたらしているのは法人現場が多い印象だが、日常生活でも活躍する可能性は十分ある。例えば食事の出前。お店を探すだけなら今の音声認識でもできるが、ユーザーの好みを理解した上でメニューを提案、出前までしてくれるサービスがあったら便利そう。あとは携帯電話の契約。キャリアショップは連日大混雑だが、PCやスマホを通じて音声で質問、相談、各種手続きができるようになれば、店舗の負荷改善や契約率向上にもつながる。

 このように、特定の分野についても、まだ広げる余地は大いにある。音声認識の利用シーン拡大とさらなる進化に期待したい。

前のページへ 1|2|3       

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

最新トピックスPR

過去記事カレンダー

2024年