ユビキタス社会の実現のために、音声認識でリードする
カーナビなどで使用されているが、一般的にはあまり浸透していないように見える音声認識技術。「AmiVoice」で音声認識技術を飛躍的に進めるアドバンスト・メディアの鈴木清幸社長に話を聞いた。キーワードは、人とコンピューターのコミュニケーションである。

 すでに、およそ40年もの歴史がある音声認識技術。ところが、これまで参入した企業は、ビジネスとして軌道に乗せるのに苦労してきたという。その大きな原因は、今までの音声認識技術にある。音声をデータ処理して認識させるために、統計に基づいた分析と大量のテキストデータが必要だったからだ。そんななか、新たな技術でさまざまな分野に新風を巻き起こそうとしているアドバンスト・メディア。同社の鈴木清幸社長に、新たな音声認識技術について聞いた。

ITmedia まずは御社の音声認識技術について教えてください。

鈴木 まず、従来の音声認識技術では、人間がコンピュータに合わせることが必要になっていました。例えば、操作するユーザーの声を登録する「事前学習」が必要であったこと。それも、結構な分量の読み上げをこなしてからでないと、使うことができませんでした。

 また、コンピュータの指定した順序で発話していかないと認識されないこと。加えて、コンピュータの認識しやすいような発話をしないと認識がなかなか正確にならないということもあります。普通、人が話すときに自然と「えーと」というようなコンピュータにとっては想定外の余計な語句や発声が混じりますが、こういったところをきちんとカットするなどの処理は、これまでの音声認識では一番苦手だったんです。

 アドバンスト・メディアでは、音声認識技術に特化した事業を展開してきました。弊社の音声認識システム「AmiVoice」は、みなさんがこれまで使い、また体験してきた従来の音声認識を超えたものになっています。


もともとはAIの研究者だった鈴木氏。「AmiVoice」についての熱心な話ぶりを聞くいていると、技術者の片鱗が見える。

 まず大きなポイントは、事前学習が不要であるということ。つまりは、誰にでもすぐに使ってもらえるということです。これは話者、シーンを問わずに利用できるという大きなメリットが出ます。

 次に、非常に自然であるということ。話すスピードやアクセント、抑揚の変化にも対応できます。もちろん、連続発話認識といって、いちいち区切って話さなくても、話し言葉そのままできちんと認識してくれることも大きいですね。

 さらに言えば、メインのシステムは言語非依存であるということ。これは、多国語対応がすばやく出来るという利点もあります。

 とにかく、ユーザーに対してストレスを感じさせることなく、ごく自然に、当たり前のように話しかけ、認識可能なのが「AmiVoice」なんです。

 「AmiVoice」によって、音声認識技術は本当の実用化ができたといっても過言ではないと思います。

ITmedia 「AmiVoice」は現在どのような分野で使われているのですか?

鈴木 弊社では、安易にコンシューマ向けソフトとして提供するのではなく、企業・団体で使われるシーンを中心に、領域を限定して成功を収めてきました。

 「AmiVoice」が現在の段階でもっとも有効に使われているのは、医療の分野です。医療改革の流れが加速し、各種診断結果の文書記録保存や電子カルテ化が急速に進んでいますよね? その中で、ドクターをはじめとする医療スタッフの作業効率を上げることに成功しています。 また、自治体の議会などで作る会議の議事録作成システムも注目されています。不特定の話者に対応していることや、複数人同時に喋られてもきちんと認識してデータ化することができるという強みが認められています。

 もちろん、一般の方にも利用されるようなところ、カーナビや携帯端末といったいろいろなデバイスですでに利用されています。

ITmedia 音声認識という技術がこれから目指す方向と、将来像についてのお考えをお聞かせください。

鈴木 まず、ビジネスの方向性でいうと、今後はより多くのユーザーさんに使っていただくため、またビジネスを大きなものにするため、新しい価値創造をしていかなくてはいけません。その方向性としては、教育分野や、エンターテイメント分野などが大きな市場になるのではないかと予想しています。

 「AmiVoice」が言語非依存のシステムであるということは先にもお話したとおりですが、この多言語対応が容易であるという点を活かして、弊社では例えば自動通訳システムへの発展ですとか、言語教育システムへの展開、ということも考えています。

 また、先ほど議事録の作成システムがすでにある、ということをお話しました。実は、今までテープに録音してある会話だとか、そうした文字データ化されていない情報というものが、多く埋もれていることは分かっているんです。例えば、コールセンターでお客さんとメーカーさんがやり取りした内容であるとかね。そうしたものが、「AmiVoice」で簡単に文字データ化できて、それをさらに分析して、という作業を行うと、今まで経験的には分かっていた、というようなユーザーさんの要望であるとか、よくあるクレームであるとかが、きちんとした、分かりやすい形で容易に営業の現場へフィードバックすることができるようになるわけです。こうした、今まで見過ごされてきたところに音声認識技術をうまく合致させていくだけでも、大きなビジネスが生まれることでしょう。

 さて、ごく近いところばかりお話しましたので、将来の方向性に目を向けてお話しすると、まずユビキタス社会への対応、というところがポイントになると思います。すでに、ある携帯端末にも当社のテクノロジーが搭載されることが決まっていますが、せっかく「いつでもどこでも情報を得られる」というモバイルネットワークも、今の携帯電話のように細かいキーを押すことでしかアクセスできないと、本当の意味で「誰でも簡単に」使えるようにはなっていないわけですよね。

 長いコマンドの変わりに音声、それも普段の話し言葉できちんとコンピューターに対する入力を行うことが出来るようにならなければいけないわけです。この意味では、弊社の「AmiVoice」は、それを実現するだけの技術レベルに達しています。

 これに「AmiVoice」では分散型処理、つまりネットワークを介した処理ができるということが利点として加わります。分散処理が可能であれば、端末に動作の重い認識処理機能を搭載せず、インターネットサービスの窓口として、音声認識を気軽に活用してもらえます。

 弊社でも、こうした点はハードウェアの面で対応しており、すでにDSRチップと言う、小型化した音声認識システムを開発しています。先の携帯電話への導入などは、これを使っています。

 ただ、こうして音声認識がモバイルの世界に多く使われるようになると、通信技術の進歩も重要な要件になってきますね。もちろん、現在供給されているだけの通信帯域で十分に対応はできているのですが、これからさらにいろいろな機能を加え、性能を向上させていくとなると回線やサーバー処理能力のキャパシティを増大させていくことが必須条件です。それに加えてキャパシティ・プランニングとでも言いましょうか、ネットワークに流すデータの帯域をうまくマネジメントすることも重要でしょうね。

 ユビキタスばかりではなく、ほかにもセキュリティというところも、これから成熟した電子社会の実現には不可欠ですね。この面で弊社はすでに声紋認識によるセキュリティシステムも開発しています。諮問認証や瞳の光彩認証など、さまざまな方法が開発されていますが、認識精度と、手軽に誰でも恩恵をうけられるという点で、声紋認証は非常に優れたシステムだと自負しています。

 この3つのキーワード、ユビキタス、ネットワーク、そしてセキュリティは今一番注目しているポイントですね。さらに未来、となるともう音声認識そのものは当たり前に誰もが使える環境になっていて、そこからさらにAIなどの発展につながっているでしょうね。音声認識技術を使って、そうした真に便利な社会の実現を目標に活動していきたいと思います。

2004年、今年のお正月は?
「テニスですね。元旦に打ち初めをするくらい熱中しているんですよ。普段から時間が空けばやっていて、多いときには8時間くらい(笑)。本格的にテニスをするようになって13年くらい。今では公式戦で何度も優勝を経験しているほどですよ。」

2004年に求められる人材像とは?
もちろん、やる気も重要なポイントですし、顧客があってのビジネスですから、お客様に信頼していただける人物、お客を作り出せる人物であることは当然です。それに加えて、アドバンストメディアでの仕事に夢を持てる人、想像力豊かな人。クリエイティブな人。これは、技術職でも営業職でも同じです。やりがいも夢もたくさんあるアドバンストメディア、そして「AmiVoice」で、ともに「創造するビジネス」をしましょう。

関連記事
新春インタビュースペシャル2004

[聞き手:臼井隆宏,ITmedia]