NTTドコモはAndroidスマートフォン向けの音声エージェント機能「しゃべってコンシェル」を発表した。3月1日からサービスを開始する。
しゃべってコンシェルは、専用アプリを起動してAndroidスマートフォンに話しかけると、端末の基本的な操作を指示したり、必要なコンテンツをdメニューなどから探してくれる新しいインタフェース。アプリはdメニューから無料で提供する。サービス自体も無料だが、検索結果として有料コンテンツが紹介されることもある(決済するかどうかはユーザーが判断する)。
ドコモはフィーチャーフォン向けにも音声を使ってケータイを操作する技術(DSL:分散型音声認識技術)提供しているが、しゃべってコンシェルは音声の処理をドコモのネットワーククラウド側で行うのが特徴。利用する機種に依存せず精度の高い言葉の認識をし、すばやく処理結果を返すことができるという。ネットワーククラウドを活用したドコモのサービスには、2011年11月に試験提供を開始した「通訳電話」があり、しゃべってコンシェルはそれに続く第2弾。しゃべってコンシェルは3月にリリースされたあと、自然言語インタフェースを随時提供して機能と精度を向上させ、2012年中にiコンシェルなどの各種サービスと連携する予定だ。
クラウドを活用したスマートフォンの音声認識サービスといえば、Androidの基本機能にもGoogleの音声検索や音声による文字入力などが含まれているほか、iPhone向けの「Siri」が有名だ。これらとしゃべってコンシェルが最も違う点について、NTTドコモサービス&ソリューション開発部長の栄藤稔氏は「サービスとユーザーとの導線を確保している点。コンテンツとの連携ができるのが、まったく違う」と説明した。
「日本語に対応している点がSiriと違う。しゃべってコンシェルは日本のユーザー、日本のコンテンツに特化しており、その目的はdメニュー内にある多種多様なコンテンツに話し言葉でアクセスしてもらうこと。(iモードの)iメニューと同じようにスマートフォンにはdメニューがあるが、それぞれのコンテンツは階層の奥にあり、すべてのユーザーが目にするわけではない。しゃべってコンシェルがデータベースへの橋渡し役になる」(栄藤氏)
目的は違うが、技術的には「ほかの音声認識サービスとあまり差はない」(栄藤氏)とも補足した。話し言葉のような自然言語を使ったインタフェースは急速に進化しており、差が付きにくい分野だという。しゃべってコンシェルの技術そのものはドコモR&Dセンタ内の先進技術研究所で開発されたが、音声の認識エンジンはATR-Trekの技術を採用した。現在の語彙数は約数十万語、言語の認識率は90%で「これはほかの音声認識技術と遜色はない」(栄藤氏)。またdメニューという国内向けサービスへの橋渡しが前提のため、英語などの多言語化は検討していない。方言への対応も、今のところ考えていないという。
「こうしたサービスは実際にリリースして多くユーザーに使っていただかないと、精度が上がらない。夏までにはパーソナル対応などの個人適用を行い、またQ&Aに応えるような機能も追加する。今は詳細を明かせないが、ある質問をすると気の利いた答えが返ってくるようになる」(栄藤氏)
サービス開始時点で可能な端末の操作と、連携するコンテンツは以下の通り。
機能 | 発話例 | スマートフォンの動作 |
---|---|---|
電話 | ○○に電話する | 電話帳から○○を検索し、ダイアル画面を表示 |
メール | ○○にメールしたい | 電話帳から○○を検索し、メール作成画面を表示 |
カメラ | カメラを起動 | カメラ(ビデオ)の起動画面を表示 |
メモ | メモ | メモ作成画面を起動 |
スケジューラー(検索) | 明日の予定を教えて | 明日の予定一覧を表示 |
スケジューラー(登録) | 明日の3時に予定を登録 | 日時を明日3時にセットした予定登録画面を起動 |
アラーム | 朝8時にアラームをセット | 朝8時にセットされたアラーム画面を起動 |
タイマ | 3分後にタイマーをセット | 3分間にセットされたタイマ画面を起動 |
音楽プレーヤー | ○○の曲を再生 | スマートフォンの端末内から○○の曲を検索し、音楽プレーヤーを起動 |
カテゴリ | コンテンツ |
---|---|
エリアガイド(グルメ/ショップ/病院など) | dメニュー |
レシピ情報 | クックパッド |
乗換案内 | dメニュー |
地図 | ゼンリンデータコム |
天気 | dメニュー |
ニュース | dメニュー |
つぶやき | dメニュー |
画像コンテンツ | dメニュー |
動画コンテンツ | dメニュー |
音楽コンテンツ | dメニュー |
アプリ | dメニュー |
ゲームコンテンツ | dメニュー |
本/コミック | dメニュー |
教えて!goo | NTTレゾナント |
Wikipedia | Wikipedia |
フィーチャーフォンの音声認識は個々の機種の性能差をあまり吸収できなかったが、スマートフォン向けのしゃべってコンシェルは、処理の多くをクラウドに移したため、さまざまなAndroid端末で利用できる。ただ、ある程度の端末性能が必要なため、Android 2.2以上を搭載したドコモスマートフォンが動作対象だ。ドコモでは今後発売されるスマートフォンには順次対応する予定で、プリインストールも検討していきたいとしている。
他のスマホ向け音声認識と異なり、dメニューという公式コンテンツサービスへの橋渡しを担うしゃべってコンシェル。当面は無料で提供され、具体的なビジネスモデルもこれから検討する段階だという。しかし、iモードからspモードへステージを移した各CPにとっては、モバイルコンテンツへのユーザー導線を得る貴重な存在になるかもしれない。
Copyright © ITmedia, Inc. All Rights Reserved.