認識エンジンの“カスタマイズ”が強み――Nuanceが目指す音声認識サービスの進化形Dragon Dictation/Searchも世界で好評(2/2 ページ)

» 2011年06月15日 10時00分 公開
[PR/ITmedia]
前のページへ 1|2       

音声認識アプリのSDKを提供する「NMDP」

 Nuanceが展開している音声認識アプリについて、もう1つ注目したい取り組みが、2010年冬からアプリ開発者向けに提供している「NMDP(Nuance Mobile Developer Program」だ。NMDPでは、Nuanceのクラウド型音声認識技術のAPIを利用するためのSDKを提供しており、個人と会社を問わず、日本を含む世界のアプリ開発者が参加できる。対象となるのは、iOS(3.0と4.0)とAndroid(2.1と2.2)向け音声ディクテーション、音声検索、音声合成アプリ。1日3台、100トランザクション(=サーバ経由の音声認識100回)という条件付きで、90日間無料でAPIを試せる。今後は他のOSも対応するよう拡張する見通しだ。

 現在は数千タイトルのアプリの開発が進んでおり、主に米国と欧州で20を超えるアプリが配信されている。これらNMDPによるアプリのダウンロード数は1300万に上り、Nuanceの音声クラウドへのアクセス数は毎日100万トランザクションを記録している。

photophoto 音声で単語を検索して調べられる辞書アプリ「Merriam-Webster」

 NMDP経由でリリースされたアプリの中には、検索、辞書、商品検索などが多いという。質問形式で検索ができる、Ask.com公式の「ASK検索アプリ」、辞書アプリ「Merriam-Webster」、Facebook Chatにも対応するマルチ言語通訳アプリ「Speech Trans」、ショッピングリストに登録した商品の売り場やルートを、入店後に知らせてくれる「Aisle 411」、タスク管理アプリ「taskmind」などが人気を集めている。「辞書アプリは単語のスペルが分からなくても調べられます。Aisle 411のような商品検索アプリはIKEAなどの広い店舗で目当ての商品を探すといったシーンで役立つのではないでしょうか」と馬場氏は説明する。

photo NMDPのSDKが配布されているNuanceのWebサイト

 NMDPのSDKは、NuanceのWebサイト(外部リンク)に登録することで入手できる。残念ながら日本語には対応していないが、「SDKではシンプルなAPIを提供しているので、開発自体は難しくなく、時間がかからないこともメリットです。ディクテーションで10言語、音声合成で35言語に対応しているので、世界でアピールできるサービスを開発できます」と馬場氏は説明する。

 NMDPのWebサイトには「フォーラム」(英語)も用意され、開発者同士で質問を投げて回答をするといった情報交換ができる。フォーラムにはNuanceの技術者も聴従して参加しているので、専門的な質問にも対応してもらえる。NMDPの詳細はYouTubeの専門チャンネル(英語)(外部リンク)でも公開されているので、参照してほしい。アプリの作成が終了したら、Nuanceに提出して同社の審査結果を待つ。「混み合っていなければ1日、遅くとも3日以内には返答します」(岡本氏)

 審査を通過したら、開発者はNuanceのトランザクションパッケージ(商用アクセス権)を購入する。パッケージはトランザクション(音声認識のサーバにアクセスしてテキスト化すること)の数に応じて4タイプが用意されており、最安のものだと、1000ドル(約8万1170円)で5万トランザクションを利用できる。「音声認識技術が全くない状態からアプリに実装させることを考えると、それほどハードルの高い数字ではないでしょう」と馬場氏は話す。

 Dragon DictationとDragon Searchを除き、Nuanceの音声認識技術を使ったアプリは日本ではまだ登場していないが、馬場氏によると、日本の開発者もNMDPに参加しているので、近日中に対応アプリがリリースされるのでは、とのこと。日本発のNMDPアプリの登場にも期待したい。「開発者の方にも、まずDragon DictationやDragon Searchを試していただきたいですね」(馬場氏)

音声認識アプリごとに“カスタマイズ”できるのが強み

 音声ソリューションは、Googleをはじめ競合他社も多いが、西村氏は他社にはないNuanceの付加価値は“カスタマイズできること”だと考える。Googleの場合、Web検索やマップなど、自社サービスにおける音声認識にほぼ特化しているが、Nuanceでは辞書や商品検索など、サードパーティが提供するアプリごとに、音声認識エンジンのカスタマイズが可能だ。例えば量販店の商品検索アプリを開発する場合、検索する単語の中には多数の商品名が含まれるが、こうした固有名詞もアプリに合わせてデータベースへ登録していく。「Nuanceは音声ソリューションの専業メーカー。技術者やサービスのリソースが豊富にある」(西村氏)ことから、カスタマイズにも柔軟に対応できるのが強みだ。

 世界で音声認識市場が盛り上がる一方で、「英語圏の人は話す文化があるので音声認識に慣れている人が多いですが、日本では抵抗を感じる人が多い」と西村氏が話すように、日本で音声認識が浸透するのはこれからだ。この点について西村氏は「今までは音声認識を使う機会が少なく、日本の多くの方は、コールセンターくらいしか使ったことがないのではないでしょうか」と話す。多くのユーザーに音声認識アプリを使ってもらうには、いかに訴求するかが大切だが、「音声認識の技術だけを訴求しても難しいでしょう。アプリと一緒に訴求する必要があります」と同氏は考える。

 「短期的には有名なアプリに我々の音声認識を使ってもらい、長期的には声紋認証を導入したり、ケータイ以外の端末からも音声認識を使ってもらったりするなど、音声ソリューションを広げていきたいですね。海外ではコーヒーメーカーに音声認識を導入した事例もあります。デジタルサイネージで音声を使って検索をする、プロジェクターで投影しながら音声コマンドを出す、といった使い方も面白いでしょう。あらゆるものに対して“音声のイネーブル”を目指していきます」

photo

前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.


提供:ニュアンスコミュニケーションズジャパン株式会社
アイティメディア営業企画/制作:ITmedia +D 編集部/掲載内容有効期限:2011年6月30日