ドコモ「通訳電話」を試験提供――音声サービスで“アラジンの魔法のランプ”を目指す
NTTドコモが「通訳電話サービス」の試験サービスを11月下旬から提供する。離れた相手に他言語で通訳しながら通話できるほか、端末1台を使ってその場で通訳した内容を外国人に伝えたりできる。モニターの意見をもとに改良し、2012年度下期に商用サービスを目指す。
NTTドコモが11月4日、異なる言語での会話を可能にする「通訳電話サービス」の試験サービスを提供することを発表した。
同サービスは、音声認識、翻訳、音声合成などの処理をドコモのネットワーク上で行うことで、端末の処理能力に依存せずに通訳ができるのが特長。一般ユーザー向けには11月4日から11月20日まで「通訳電話サービス紹介サイト」(http://pr.docomo-translation.com/)でモニターを公募し、11月下旬から2012年3月下旬までサービスを提供する。対象となるのは、データ専用プランを除くFOMAサービスの契約者(400人)。利用料金は無料。企業や団体(15社以上)とも協業し、観光、教育、小売、医療、社内コミュニケーションなどで活用してもらう。対応言語は日英と日韓。
「遠隔利用型」と「対面利用型」の2種類を提供
通訳電話サービスは、「遠隔利用型」と「対面利用型」の2種類に分けられる。離れた相手と他言語で通話するときに役立つのが遠隔利用型。発話した音声を認識、翻訳して通話相手に音声と文字をリアルタイムで伝えられる。文字も表示されるので、チャットのように使うことも可能。翻訳される前の、相手が話した音声もそのまま再生されるので、抑揚や声のトーンなども伝わる。対面利用型は端末1台で利用するもの。発話した音声を認識し、翻訳された音声と文字を確認できる。辞書代わりに活用できるほか、日本を訪れた外国人に応対する、渡航先で現地の人と会話するといったシーンで使える。なお、日韓の通訳については対面型のみ利用可能。
遠隔利用型で発信できるのはドコモ端末からのみで、Android端末の場合はアプリ経由で通話する。受け手について、電話を受けて音声を聞くだけなら、他社ケータイや固定電話も可能。対面利用型サービスもドコモのAndroidアプリで利用できる。フィーチャーフォン向けのアプリは現時点では提供する予定はないが、0120の特番から発信できる。通訳電話サービスでは「マルチコール」を採用しており、音声の通訳には音声回線、テキストの表示にはデータ回線を使う(3G回線でも利用できる)。海外で利用する際はローミング扱いになる。
目指すは“アラジンの魔法のランプ”
ドコモは2015年に向けた中期ビジョンに「スマートライフの実現」を掲げており、これを支えるのが「パーソナルクラウド」「ビジネスクラウド」「ネットワーククラウド」という3つのクラウドだ。同社 取締役常務執行役員 研究開発センター所長の小森光修氏は「通訳電話サービスはネットワーククラウドに関係の深いサービス。ネットワークでの高度な情報処理や通信処理によって、コミュニケーションに付加価値を提供したい」と説明する。「音声をIP化して、音声とデータを統合的に扱える基盤の構築はほぼ終えている」(同氏)
クラウドサービスを展開するにあたり、外部の技術も積極的に採用していく。今回の通訳電話サービスをはじめ、「音声認識や音声合成などの技術を自由に組み合わせて、多彩なサービスを安価かつスピーディに提供していく」と小森氏は説明する。同社 ネットワーク開発部担当部長の那須和徳氏によると、「通訳電話サービスの音声認識や翻訳には外部の技術が使われている」という。使っている技術も1社ではなく、複数の会社から採用している。「日本語に強いところ、英語に強いところ、旅行会話や医療分野の通訳に優れたところなど、分野ごとに強い技術を組み合わせている」(同氏)。
音声認識、音声合成、位置情報、通訳電話、情報解析……などさまざまなクラウドサービスの組み合わせを変えることで、サービスのバリエーション拡大も狙う。小森氏は「我々は『アラジンの魔法のランプ』と呼んでいるが、将来的には(リアルの)コンシェルジュのような機能を実現していきたい」と意気込む。
固有名詞と雑音下での認識が課題
通訳電話サービスはワイヤレスジャパン2011でも展示していたが、今回提供するサービスは当時から拡張されている。まず基本性能に手を加え、日本語の認識精度が85%から90%に、英語の認識精度が60%から80%に向上している。言語は日英に加えて日韓にも対応。2012年1月下旬には日中の通訳(対面型のみ)もサポートする。また、「ポルトガル語などもニーズが高いので、さらなる多言語化も検討している」(那須氏)とのこと。「遊び心」も追求し、話者の声から男性か女性かを認識、翻訳後の声を男女どちらかを自動選択してくれる。とはいえ、「認識精度はまだ100%ではなく、誤認識や誤翻訳もある」(那須氏)ため、試験サービスを通じて利用シーンの把握や認識精度のさらなる向上に努める。今後はモニターからのフィードバックをもとにさらに改良し、2012年度下期に商用サービスを目指す(利用料金は未定)。
通話をする際にどれだけスピーディに翻訳できるかが気になるが、通訳電話サービスでは「2秒ほどで文字が表示されるので、待ち時間は感じられない。レスポンスタイムに注目してほしい」と那須氏は自信を見せる。現時点での課題は方言や固有名詞の対応だという。通訳電話サービスで登録されている言語数は日本語と英語が40万ほどだが、「『おおきに』で『Thank you』は通訳されない」など、データーベースに登録されていない単語は認識されない。また、騒音の大きい場所でどれだけ正しく認識できるのかも課題の1つだという。
「言葉の壁を乗り越えてコミュニケーションを実現する、将来の夢のサービスだと思っている」と小森氏も期待を寄せる通訳電話サービス。実際にデモを試したところ、一部の固有名詞を除き、スムーズかつ(おおむね)正確に認識され、実用に耐えうるものだと感じた。試験サービスを経てさらにバージョンアップを果たした商用サービスの登場を待ちたい。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- ワイヤレスジャパン2011:SFの世界を具現化――ドコモの「通訳電話」、11月に試験サービス
外国語ができなくても、通訳なしに海外の人と電話で話せる――。そんな「通訳電話」サービスをドコモが開発した。 - Mobile World Congress 2011:NFCから同時通訳電話まで――MWCで技術力を披露するドコモ
スペインで開催されているMobile World Congress 2011でNTTドコモは、同社の端末やサービスの展示に加え、NFCに対する取り組みや、LTEを見すえた同時通訳電話サービス、さらには筆跡や顔といったユーザーの個性を反映したコミュニケーションサービスの研究などを紹介している。 - 言語の違いを乗り越えて、複数人とグループチャット――NICTがスマホ向け翻訳会話アプリ「ChaTra」開発
独立行政法人情報通信研究機構が、21言語の翻訳機能を備えたiPhone/Android向けグループチャットアプリ「ChaTra」(チャトラ)を開発。実験として年内にも無料公開する予定だ。 - 「音声認識ブラウザ」発表:Googleは競争相手ではない?――B to Bと多言語化に注力するアドバンスト・メディア
モバイル分野ではこれまでコンシューマー向けに音声認識サービスを提供してきたアドバンスト・メディアが、今後は法人向け業務アプリの開発にも注力する。また、iOSだけでなく、AndroidやWindows Phone 7向けアプリも開発していく。 - Googleの「音声検索」とは違う:音声認識で人間並みのコミュニケーションが可能に――「AmiVoice」の未来
アドバンスト・メディアは、同社の音声認識技術「AmiVoice」を用いた幅広いサービスを展開している。同社が目指すのは、これまでの「機械中心」だった音声認識を超える「人間中心」のサービスだ。一方で、iPhoneやAndroid端末などモバイル分野にも注力していく。 - まずはiPhoneからTwitterと連携する――音声認識技術「AmiVoice」が向かう先
「携帯電話の音声入力はキー入力を補完するもの」と考える人が多いだろうが、アドバンスト・メディアが開発する音声認識技術「AmiVoice」は、音声入力が主役になる可能性を秘めている。キーワードは“対話”と“Twitter”だ。 - 常識を超えた「超音声認識」も登場する――アドバンスト・メディアが切り開く音声認識の可能性
日本で唯一となる音声認識専門企業のアドバンスト・メディアは、医療、モバイル、コールセンター、英語教育などさまざまな分野で音声認識技術を提供している。“機械との自然なコミュニケーション”を目指すという同社の音声認識技術の強みとは。そして今後のロードマップは――。