ニュース
» 2012年02月28日 18時11分 UPDATE

「Siri」とは何が違う?:ドコモの音声エージェント「しゃべってコンシェル」、開発の狙いとは

ドコモがスマホ向けの音声エージェントサービス「しゃべってコンシェル」を発表した。音声認識機能はAndroidの基本機能にも含まれているが、ドコモではコンテンツへの導線確保を目的に提供する。

[平賀洋一,ITmedia]

 NTTドコモはAndroidスマートフォン向けの音声エージェント機能「しゃべってコンシェル」を発表した。3月1日からサービスを開始する。

 しゃべってコンシェルは、専用アプリを起動してAndroidスマートフォンに話しかけると、端末の基本的な操作を指示したり、必要なコンテンツをdメニューなどから探してくれる新しいインタフェース。アプリはdメニューから無料で提供する。サービス自体も無料だが、検索結果として有料コンテンツが紹介されることもある(決済するかどうかはユーザーが判断する)。

photophotophoto 「しゃべってコンシェル」はアプリで提供(写真=左)。アイコンをタップするとiコンシェルでおなじみの「執事のヒツジ君」が登場。常時起動しているウィジェットではなく、明示的に使う方式だ(写真=中央)。“プロ野球の開幕はいつ?”と質問したところ、教えてgooの検索結果が表示された(写真=右)

photophotophoto エリアガイドや楽曲の入手先など、階層が深くなったdメニューの各コンテンツに直接アクセスできる

yo_dc13.jpgyo_dc14.jpgyo_dc15.jpgyo_dc16.jpg 初心者の利用も考慮してか、ヘルプメニューも比較的充実している(写真=左端)。アプリの設定、詳細画面(写真=中左、中右、右端)

photo NTTドコモ サービス&ソリューション開発部長の栄藤稔氏

 ドコモはフィーチャーフォン向けにも音声を使ってケータイを操作する技術(DSL:分散型音声認識技術)提供しているが、しゃべってコンシェルは音声の処理をドコモのネットワーククラウド側で行うのが特徴。利用する機種に依存せず精度の高い言葉の認識をし、すばやく処理結果を返すことができるという。ネットワーククラウドを活用したドコモのサービスには、2011年11月に試験提供を開始した「通訳電話」があり、しゃべってコンシェルはそれに続く第2弾。しゃべってコンシェルは3月にリリースされたあと、自然言語インタフェースを随時提供して機能と精度を向上させ、2012年中にiコンシェルなどの各種サービスと連携する予定だ。

 クラウドを活用したスマートフォンの音声認識サービスといえば、Androidの基本機能にもGoogleの音声検索や音声による文字入力などが含まれているほか、iPhone向けの「Siri」が有名だ。これらとしゃべってコンシェルが最も違う点について、NTTドコモサービス&ソリューション開発部長の栄藤稔氏は「サービスとユーザーとの導線を確保している点。コンテンツとの連携ができるのが、まったく違う」と説明した。

photophotophoto しゃべってコンシェルの仕組み(写真=左)と提供機能(写真=中央)。サービスを提供するなかで、制度と機能を向上させる(写真=右)

 「日本語に対応している点がSiriと違う。しゃべってコンシェルは日本のユーザー、日本のコンテンツに特化しており、その目的はdメニュー内にある多種多様なコンテンツに話し言葉でアクセスしてもらうこと。(iモードの)iメニューと同じようにスマートフォンにはdメニューがあるが、それぞれのコンテンツは階層の奥にあり、すべてのユーザーが目にするわけではない。しゃべってコンシェルがデータベースへの橋渡し役になる」(栄藤氏)

 目的は違うが、技術的には「ほかの音声認識サービスとあまり差はない」(栄藤氏)とも補足した。話し言葉のような自然言語を使ったインタフェースは急速に進化しており、差が付きにくい分野だという。しゃべってコンシェルの技術そのものはドコモR&Dセンタ内の先進技術研究所で開発されたが、音声の認識エンジンはATR-Trekの技術を採用した。現在の語彙数は約数十万語、言語の認識率は90%で「これはほかの音声認識技術と遜色はない」(栄藤氏)。またdメニューという国内向けサービスへの橋渡しが前提のため、英語などの多言語化は検討していない。方言への対応も、今のところ考えていないという。

 「こうしたサービスは実際にリリースして多くユーザーに使っていただかないと、精度が上がらない。夏までにはパーソナル対応などの個人適用を行い、またQ&Aに応えるような機能も追加する。今は詳細を明かせないが、ある質問をすると気の利いた答えが返ってくるようになる」(栄藤氏)

photo 栄藤氏とともにしゃべってコンシェルの説明会に出席した、ドコモ サービスコミュニケーションサービス部担当部長の前田義晃氏(写真=中央)、同社ネットワーク開発部担当部長の鈴木偉元氏(写真=右)

 サービス開始時点で可能な端末の操作と、連携するコンテンツは以下の通り。

「しゃべってコンシェル」で操作できるスマートフォンの機能
機能 発話例 スマートフォンの動作
電話 ○○に電話する 電話帳から○○を検索し、ダイアル画面を表示
メール ○○にメールしたい 電話帳から○○を検索し、メール作成画面を表示
カメラ カメラを起動 カメラ(ビデオ)の起動画面を表示
メモ メモ メモ作成画面を起動
スケジューラー(検索) 明日の予定を教えて 明日の予定一覧を表示
スケジューラー(登録) 明日の3時に予定を登録 日時を明日3時にセットした予定登録画面を起動
アラーム 朝8時にアラームをセット 朝8時にセットされたアラーム画面を起動
タイマ 3分後にタイマーをセット 3分間にセットされたタイマ画面を起動
音楽プレーヤー ○○の曲を再生 スマートフォンの端末内から○○の曲を検索し、音楽プレーヤーを起動

「しゃべってコンシェル」で調べることができるコンテンツ
カテゴリ コンテンツ
エリアガイド(グルメ/ショップ/病院など) dメニュー
レシピ情報 クックパッド
乗換案内 dメニュー
地図 ゼンリンデータコム
天気 dメニュー
ニュース dメニュー
つぶやき dメニュー
画像コンテンツ dメニュー
動画コンテンツ dメニュー
音楽コンテンツ dメニュー
アプリ dメニュー
ゲームコンテンツ dメニュー
本/コミック dメニュー
教えて!goo NTTレゾナント
Wikipedia Wikipedia

photo 通訳電話は対応言語が増え、中国語と韓国語に対応した

 フィーチャーフォンの音声認識は個々の機種の性能差をあまり吸収できなかったが、スマートフォン向けのしゃべってコンシェルは、処理の多くをクラウドに移したため、さまざまなAndroid端末で利用できる。ただ、ある程度の端末性能が必要なため、Android 2.2以上を搭載したドコモスマートフォンが動作対象だ。ドコモでは今後発売されるスマートフォンには順次対応する予定で、プリインストールも検討していきたいとしている。

 他のスマホ向け音声認識と異なり、dメニューという公式コンテンツサービスへの橋渡しを担うしゃべってコンシェル。当面は無料で提供され、具体的なビジネスモデルもこれから検討する段階だという。しかし、iモードからspモードへステージを移した各CPにとっては、モバイルコンテンツへのユーザー導線を得る貴重な存在になるかもしれない。

photophoto 対応言語が増えた、通訳電話の設定画面

Copyright© 2016 ITmedia, Inc. All Rights Reserved.