ニュース
» 2011年11月04日 19時04分 UPDATE

ドコモ「通訳電話」を試験提供――音声サービスで“アラジンの魔法のランプ”を目指す

NTTドコモが「通訳電話サービス」の試験サービスを11月下旬から提供する。離れた相手に他言語で通訳しながら通話できるほか、端末1台を使ってその場で通訳した内容を外国人に伝えたりできる。モニターの意見をもとに改良し、2012年度下期に商用サービスを目指す。

[田中聡,ITmedia]

 NTTドコモが11月4日、異なる言語での会話を可能にする「通訳電話サービス」の試験サービスを提供することを発表した。

 同サービスは、音声認識、翻訳、音声合成などの処理をドコモのネットワーク上で行うことで、端末の処理能力に依存せずに通訳ができるのが特長。一般ユーザー向けには11月4日から11月20日まで「通訳電話サービス紹介サイト」(http://pr.docomo-translation.com/)でモニターを公募し、11月下旬から2012年3月下旬までサービスを提供する。対象となるのは、データ専用プランを除くFOMAサービスの契約者(400人)。利用料金は無料。企業や団体(15社以上)とも協業し、観光、教育、小売、医療、社内コミュニケーションなどで活用してもらう。対応言語は日英と日韓。

「遠隔利用型」と「対面利用型」の2種類を提供

 通訳電話サービスは、「遠隔利用型」と「対面利用型」の2種類に分けられる。離れた相手と他言語で通話するときに役立つのが遠隔利用型。発話した音声を認識、翻訳して通話相手に音声と文字をリアルタイムで伝えられる。文字も表示されるので、チャットのように使うことも可能。翻訳される前の、相手が話した音声もそのまま再生されるので、抑揚や声のトーンなども伝わる。対面利用型は端末1台で利用するもの。発話した音声を認識し、翻訳された音声と文字を確認できる。辞書代わりに活用できるほか、日本を訪れた外国人に応対する、渡航先で現地の人と会話するといったシーンで使える。なお、日韓の通訳については対面型のみ利用可能。

photophoto 遠隔利用型(左)と対面利用型(右)のイメージ
photophoto 遠隔利用型では、米国に留学している家族のホストファミリーと話すといった利用シーンが想定される
photophotophoto
photophoto サービス事業者とタイアップし、観光、教育、小売、医療分野などでも活用していく

 遠隔利用型で発信できるのはドコモ端末からのみで、Android端末の場合はアプリ経由で通話する。受け手について、電話を受けて音声を聞くだけなら、他社ケータイや固定電話も可能。対面利用型サービスもドコモのAndroidアプリで利用できる。フィーチャーフォン向けのアプリは現時点では提供する予定はないが、0120の特番から発信できる。通訳電話サービスでは「マルチコール」を採用しており、音声の通訳には音声回線、テキストの表示にはデータ回線を使う(3G回線でも利用できる)。海外で利用する際はローミング扱いになる。

目指すは“アラジンの魔法のランプ”

photo NTTドコモ 取締役常務執行役員 研究開発センター所長 小森光修氏

 ドコモは2015年に向けた中期ビジョンに「スマートライフの実現」を掲げており、これを支えるのが「パーソナルクラウド」「ビジネスクラウド」「ネットワーククラウド」という3つのクラウドだ。同社 取締役常務執行役員 研究開発センター所長の小森光修氏は「通訳電話サービスはネットワーククラウドに関係の深いサービス。ネットワークでの高度な情報処理や通信処理によって、コミュニケーションに付加価値を提供したい」と説明する。「音声をIP化して、音声とデータを統合的に扱える基盤の構築はほぼ終えている」(同氏)

 クラウドサービスを展開するにあたり、外部の技術も積極的に採用していく。今回の通訳電話サービスをはじめ、「音声認識や音声合成などの技術を自由に組み合わせて、多彩なサービスを安価かつスピーディに提供していく」と小森氏は説明する。同社 ネットワーク開発部担当部長の那須和徳氏によると、「通訳電話サービスの音声認識や翻訳には外部の技術が使われている」という。使っている技術も1社ではなく、複数の会社から採用している。「日本語に強いところ、英語に強いところ、旅行会話や医療分野の通訳に優れたところなど、分野ごとに強い技術を組み合わせている」(同氏)。

 音声認識、音声合成、位置情報、通訳電話、情報解析……などさまざまなクラウドサービスの組み合わせを変えることで、サービスのバリエーション拡大も狙う。小森氏は「我々は『アラジンの魔法のランプ』と呼んでいるが、将来的には(リアルの)コンシェルジュのような機能を実現していきたい」と意気込む。

photophotophoto ドコモの「中期ビジョン2015」の位置付け(写真=左)。「スマートライフ」実現のカギを握るのが「クラウド」だ(写真=中)。さまざまま技術をドコモのクラウドサービスと連携させていく(写真=右)
photophotophoto オープンイノベーション、ネットワーククラウド、アジャイル開発(反復型)を軸にサービスを開発していく(写真=左)。ドコモの音声サービスの取り組み(写真=中)。通訳電話サービスの仕組み(写真=右)

固有名詞と雑音下での認識が課題

photo NTTドコモ ネットワーク開発部担当部長 那須和徳氏

 通訳電話サービスはワイヤレスジャパン2011でも展示していたが、今回提供するサービスは当時から拡張されている。まず基本性能に手を加え、日本語の認識精度が85%から90%に、英語の認識精度が60%から80%に向上している。言語は日英に加えて日韓にも対応。2012年1月下旬には日中の通訳(対面型のみ)もサポートする。また、「ポルトガル語などもニーズが高いので、さらなる多言語化も検討している」(那須氏)とのこと。「遊び心」も追求し、話者の声から男性か女性かを認識、翻訳後の声を男女どちらかを自動選択してくれる。とはいえ、「認識精度はまだ100%ではなく、誤認識や誤翻訳もある」(那須氏)ため、試験サービスを通じて利用シーンの把握や認識精度のさらなる向上に努める。今後はモニターからのフィードバックをもとにさらに改良し、2012年度下期に商用サービスを目指す(利用料金は未定)。

photophotophoto ワイヤレスジャパン展示時点からの改善点(写真=左)。試験サービス実施の目的(写真=中)。2012年度以降の商用化を目指す(写真=右)

 通話をする際にどれだけスピーディに翻訳できるかが気になるが、通訳電話サービスでは「2秒ほどで文字が表示されるので、待ち時間は感じられない。レスポンスタイムに注目してほしい」と那須氏は自信を見せる。現時点での課題は方言や固有名詞の対応だという。通訳電話サービスで登録されている言語数は日本語と英語が40万ほどだが、「『おおきに』で『Thank you』は通訳されない」など、データーベースに登録されていない単語は認識されない。また、騒音の大きい場所でどれだけ正しく認識できるのかも課題の1つだという。

 「言葉の壁を乗り越えてコミュニケーションを実現する、将来の夢のサービスだと思っている」と小森氏も期待を寄せる通訳電話サービス。実際にデモを試したところ、一部の固有名詞を除き、スムーズかつ(おおむね)正確に認識され、実用に耐えうるものだと感じた。試験サービスを経てさらにバージョンアップを果たした商用サービスの登場を待ちたい。

photophoto 日本語と英語で遠隔利用型、日本語と韓国語で対面利用型のデモを実施


photophoto こちらは対面利用型のAndroidアプリ。「アイティメディアの田中と申します」と話したら、しっかり韓国語に翻訳された

Copyright© 2016 ITmedia, Inc. All Rights Reserved.