ドコモ「通訳電話」を試験提供――音声サービスで“アラジンの魔法のランプ”を目指す

» 2011年11月04日 19時04分 公開
[田中聡,ITmedia]

 NTTドコモが11月4日、異なる言語での会話を可能にする「通訳電話サービス」の試験サービスを提供することを発表した。

 同サービスは、音声認識、翻訳、音声合成などの処理をドコモのネットワーク上で行うことで、端末の処理能力に依存せずに通訳ができるのが特長。一般ユーザー向けには11月4日から11月20日まで「通訳電話サービス紹介サイト」(http://pr.docomo-translation.com/)でモニターを公募し、11月下旬から2012年3月下旬までサービスを提供する。対象となるのは、データ専用プランを除くFOMAサービスの契約者(400人)。利用料金は無料。企業や団体(15社以上)とも協業し、観光、教育、小売、医療、社内コミュニケーションなどで活用してもらう。対応言語は日英と日韓。

「遠隔利用型」と「対面利用型」の2種類を提供

 通訳電話サービスは、「遠隔利用型」と「対面利用型」の2種類に分けられる。離れた相手と他言語で通話するときに役立つのが遠隔利用型。発話した音声を認識、翻訳して通話相手に音声と文字をリアルタイムで伝えられる。文字も表示されるので、チャットのように使うことも可能。翻訳される前の、相手が話した音声もそのまま再生されるので、抑揚や声のトーンなども伝わる。対面利用型は端末1台で利用するもの。発話した音声を認識し、翻訳された音声と文字を確認できる。辞書代わりに活用できるほか、日本を訪れた外国人に応対する、渡航先で現地の人と会話するといったシーンで使える。なお、日韓の通訳については対面型のみ利用可能。

photophoto 遠隔利用型(左)と対面利用型(右)のイメージ
photophoto 遠隔利用型では、米国に留学している家族のホストファミリーと話すといった利用シーンが想定される
photophotophoto
photophoto サービス事業者とタイアップし、観光、教育、小売、医療分野などでも活用していく

 遠隔利用型で発信できるのはドコモ端末からのみで、Android端末の場合はアプリ経由で通話する。受け手について、電話を受けて音声を聞くだけなら、他社ケータイや固定電話も可能。対面利用型サービスもドコモのAndroidアプリで利用できる。フィーチャーフォン向けのアプリは現時点では提供する予定はないが、0120の特番から発信できる。通訳電話サービスでは「マルチコール」を採用しており、音声の通訳には音声回線、テキストの表示にはデータ回線を使う(3G回線でも利用できる)。海外で利用する際はローミング扱いになる。

目指すは“アラジンの魔法のランプ”

photo NTTドコモ 取締役常務執行役員 研究開発センター所長 小森光修氏

 ドコモは2015年に向けた中期ビジョンに「スマートライフの実現」を掲げており、これを支えるのが「パーソナルクラウド」「ビジネスクラウド」「ネットワーククラウド」という3つのクラウドだ。同社 取締役常務執行役員 研究開発センター所長の小森光修氏は「通訳電話サービスはネットワーククラウドに関係の深いサービス。ネットワークでの高度な情報処理や通信処理によって、コミュニケーションに付加価値を提供したい」と説明する。「音声をIP化して、音声とデータを統合的に扱える基盤の構築はほぼ終えている」(同氏)

 クラウドサービスを展開するにあたり、外部の技術も積極的に採用していく。今回の通訳電話サービスをはじめ、「音声認識や音声合成などの技術を自由に組み合わせて、多彩なサービスを安価かつスピーディに提供していく」と小森氏は説明する。同社 ネットワーク開発部担当部長の那須和徳氏によると、「通訳電話サービスの音声認識や翻訳には外部の技術が使われている」という。使っている技術も1社ではなく、複数の会社から採用している。「日本語に強いところ、英語に強いところ、旅行会話や医療分野の通訳に優れたところなど、分野ごとに強い技術を組み合わせている」(同氏)。

 音声認識、音声合成、位置情報、通訳電話、情報解析……などさまざまなクラウドサービスの組み合わせを変えることで、サービスのバリエーション拡大も狙う。小森氏は「我々は『アラジンの魔法のランプ』と呼んでいるが、将来的には(リアルの)コンシェルジュのような機能を実現していきたい」と意気込む。

photophotophoto ドコモの「中期ビジョン2015」の位置付け(写真=左)。「スマートライフ」実現のカギを握るのが「クラウド」だ(写真=中)。さまざまま技術をドコモのクラウドサービスと連携させていく(写真=右)
photophotophoto オープンイノベーション、ネットワーククラウド、アジャイル開発(反復型)を軸にサービスを開発していく(写真=左)。ドコモの音声サービスの取り組み(写真=中)。通訳電話サービスの仕組み(写真=右)

固有名詞と雑音下での認識が課題

photo NTTドコモ ネットワーク開発部担当部長 那須和徳氏

 通訳電話サービスはワイヤレスジャパン2011でも展示していたが、今回提供するサービスは当時から拡張されている。まず基本性能に手を加え、日本語の認識精度が85%から90%に、英語の認識精度が60%から80%に向上している。言語は日英に加えて日韓にも対応。2012年1月下旬には日中の通訳(対面型のみ)もサポートする。また、「ポルトガル語などもニーズが高いので、さらなる多言語化も検討している」(那須氏)とのこと。「遊び心」も追求し、話者の声から男性か女性かを認識、翻訳後の声を男女どちらかを自動選択してくれる。とはいえ、「認識精度はまだ100%ではなく、誤認識や誤翻訳もある」(那須氏)ため、試験サービスを通じて利用シーンの把握や認識精度のさらなる向上に努める。今後はモニターからのフィードバックをもとにさらに改良し、2012年度下期に商用サービスを目指す(利用料金は未定)。

photophotophoto ワイヤレスジャパン展示時点からの改善点(写真=左)。試験サービス実施の目的(写真=中)。2012年度以降の商用化を目指す(写真=右)

 通話をする際にどれだけスピーディに翻訳できるかが気になるが、通訳電話サービスでは「2秒ほどで文字が表示されるので、待ち時間は感じられない。レスポンスタイムに注目してほしい」と那須氏は自信を見せる。現時点での課題は方言や固有名詞の対応だという。通訳電話サービスで登録されている言語数は日本語と英語が40万ほどだが、「『おおきに』で『Thank you』は通訳されない」など、データーベースに登録されていない単語は認識されない。また、騒音の大きい場所でどれだけ正しく認識できるのかも課題の1つだという。

 「言葉の壁を乗り越えてコミュニケーションを実現する、将来の夢のサービスだと思っている」と小森氏も期待を寄せる通訳電話サービス。実際にデモを試したところ、一部の固有名詞を除き、スムーズかつ(おおむね)正確に認識され、実用に耐えうるものだと感じた。試験サービスを経てさらにバージョンアップを果たした商用サービスの登場を待ちたい。

photophoto 日本語と英語で遠隔利用型、日本語と韓国語で対面利用型のデモを実施


photophoto こちらは対面利用型のAndroidアプリ。「アイティメディアの田中と申します」と話したら、しっかり韓国語に翻訳された

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2026年03月12日 更新
  1. 「iPhone 17e」と「iPhone 17」は何が違う? 3万円の価格差をスペックから検証する (2026年03月10日)
  2. 庵野秀明、GACKT、ひろゆき、ドワンゴ川上らが集結 “カメラのいらないテレビ電話”をうたう新サービス「POPOPO」18日に発表へ (2026年03月11日)
  3. 「iPad Air(M4)」実機レビュー 「もうProじゃなくてもいい」と思えた性能、だからこそ欲しかったFace ID (2026年03月09日)
  4. 「iPhone 17e」を試して分かった“16eからの進化” ストレージ倍増と実質値下げで「10万円以下の決定版」に (2026年03月09日)
  5. 自分で修理できるスマホ「Fairphone(6th Gen.)」を見てきた わずか10分で画面交換、2033年まで長期サポート (2026年03月10日)
  6. 携帯キャリアの通信9サービス、総合満足度はpovoがトップ サブブランド勢が好調 MMDが調査 (2026年03月10日)
  7. 60ms未満の音声遅延速度で端末をワイヤレス化「UGREEN USBオーディオトランスミッター」が30%オフの2309円に (2026年03月09日)
  8. キーボード付きスマホ「Titan 2 Elite」がUnihertzから登場 実機に触れて分かった“絶妙なサイズ感” (2026年03月09日)
  9. 「Galaxy S26」シリーズはどこが安い? 一括価格と2年間の実質負担額を比較、お得なキャリアはココだ (2026年03月11日)
  10. 【無印良品】ウエストポーチもになる「スリングバッグ」が3990円に値下げ中 植物由来の原料を使用 (2026年03月11日)
最新トピックスPR

過去記事カレンダー

2026年