ドコモ「通訳電話」を試験提供――音声サービスで“アラジンの魔法のランプ”を目指す

» 2011年11月04日 19時04分 公開
[田中聡,ITmedia]

 NTTドコモが11月4日、異なる言語での会話を可能にする「通訳電話サービス」の試験サービスを提供することを発表した。

 同サービスは、音声認識、翻訳、音声合成などの処理をドコモのネットワーク上で行うことで、端末の処理能力に依存せずに通訳ができるのが特長。一般ユーザー向けには11月4日から11月20日まで「通訳電話サービス紹介サイト」(http://pr.docomo-translation.com/)でモニターを公募し、11月下旬から2012年3月下旬までサービスを提供する。対象となるのは、データ専用プランを除くFOMAサービスの契約者(400人)。利用料金は無料。企業や団体(15社以上)とも協業し、観光、教育、小売、医療、社内コミュニケーションなどで活用してもらう。対応言語は日英と日韓。

「遠隔利用型」と「対面利用型」の2種類を提供

 通訳電話サービスは、「遠隔利用型」と「対面利用型」の2種類に分けられる。離れた相手と他言語で通話するときに役立つのが遠隔利用型。発話した音声を認識、翻訳して通話相手に音声と文字をリアルタイムで伝えられる。文字も表示されるので、チャットのように使うことも可能。翻訳される前の、相手が話した音声もそのまま再生されるので、抑揚や声のトーンなども伝わる。対面利用型は端末1台で利用するもの。発話した音声を認識し、翻訳された音声と文字を確認できる。辞書代わりに活用できるほか、日本を訪れた外国人に応対する、渡航先で現地の人と会話するといったシーンで使える。なお、日韓の通訳については対面型のみ利用可能。

photophoto 遠隔利用型(左)と対面利用型(右)のイメージ
photophoto 遠隔利用型では、米国に留学している家族のホストファミリーと話すといった利用シーンが想定される
photophotophoto
photophoto サービス事業者とタイアップし、観光、教育、小売、医療分野などでも活用していく

 遠隔利用型で発信できるのはドコモ端末からのみで、Android端末の場合はアプリ経由で通話する。受け手について、電話を受けて音声を聞くだけなら、他社ケータイや固定電話も可能。対面利用型サービスもドコモのAndroidアプリで利用できる。フィーチャーフォン向けのアプリは現時点では提供する予定はないが、0120の特番から発信できる。通訳電話サービスでは「マルチコール」を採用しており、音声の通訳には音声回線、テキストの表示にはデータ回線を使う(3G回線でも利用できる)。海外で利用する際はローミング扱いになる。

目指すは“アラジンの魔法のランプ”

photo NTTドコモ 取締役常務執行役員 研究開発センター所長 小森光修氏

 ドコモは2015年に向けた中期ビジョンに「スマートライフの実現」を掲げており、これを支えるのが「パーソナルクラウド」「ビジネスクラウド」「ネットワーククラウド」という3つのクラウドだ。同社 取締役常務執行役員 研究開発センター所長の小森光修氏は「通訳電話サービスはネットワーククラウドに関係の深いサービス。ネットワークでの高度な情報処理や通信処理によって、コミュニケーションに付加価値を提供したい」と説明する。「音声をIP化して、音声とデータを統合的に扱える基盤の構築はほぼ終えている」(同氏)

 クラウドサービスを展開するにあたり、外部の技術も積極的に採用していく。今回の通訳電話サービスをはじめ、「音声認識や音声合成などの技術を自由に組み合わせて、多彩なサービスを安価かつスピーディに提供していく」と小森氏は説明する。同社 ネットワーク開発部担当部長の那須和徳氏によると、「通訳電話サービスの音声認識や翻訳には外部の技術が使われている」という。使っている技術も1社ではなく、複数の会社から採用している。「日本語に強いところ、英語に強いところ、旅行会話や医療分野の通訳に優れたところなど、分野ごとに強い技術を組み合わせている」(同氏)。

 音声認識、音声合成、位置情報、通訳電話、情報解析……などさまざまなクラウドサービスの組み合わせを変えることで、サービスのバリエーション拡大も狙う。小森氏は「我々は『アラジンの魔法のランプ』と呼んでいるが、将来的には(リアルの)コンシェルジュのような機能を実現していきたい」と意気込む。

photophotophoto ドコモの「中期ビジョン2015」の位置付け(写真=左)。「スマートライフ」実現のカギを握るのが「クラウド」だ(写真=中)。さまざまま技術をドコモのクラウドサービスと連携させていく(写真=右)
photophotophoto オープンイノベーション、ネットワーククラウド、アジャイル開発(反復型)を軸にサービスを開発していく(写真=左)。ドコモの音声サービスの取り組み(写真=中)。通訳電話サービスの仕組み(写真=右)

固有名詞と雑音下での認識が課題

photo NTTドコモ ネットワーク開発部担当部長 那須和徳氏

 通訳電話サービスはワイヤレスジャパン2011でも展示していたが、今回提供するサービスは当時から拡張されている。まず基本性能に手を加え、日本語の認識精度が85%から90%に、英語の認識精度が60%から80%に向上している。言語は日英に加えて日韓にも対応。2012年1月下旬には日中の通訳(対面型のみ)もサポートする。また、「ポルトガル語などもニーズが高いので、さらなる多言語化も検討している」(那須氏)とのこと。「遊び心」も追求し、話者の声から男性か女性かを認識、翻訳後の声を男女どちらかを自動選択してくれる。とはいえ、「認識精度はまだ100%ではなく、誤認識や誤翻訳もある」(那須氏)ため、試験サービスを通じて利用シーンの把握や認識精度のさらなる向上に努める。今後はモニターからのフィードバックをもとにさらに改良し、2012年度下期に商用サービスを目指す(利用料金は未定)。

photophotophoto ワイヤレスジャパン展示時点からの改善点(写真=左)。試験サービス実施の目的(写真=中)。2012年度以降の商用化を目指す(写真=右)

 通話をする際にどれだけスピーディに翻訳できるかが気になるが、通訳電話サービスでは「2秒ほどで文字が表示されるので、待ち時間は感じられない。レスポンスタイムに注目してほしい」と那須氏は自信を見せる。現時点での課題は方言や固有名詞の対応だという。通訳電話サービスで登録されている言語数は日本語と英語が40万ほどだが、「『おおきに』で『Thank you』は通訳されない」など、データーベースに登録されていない単語は認識されない。また、騒音の大きい場所でどれだけ正しく認識できるのかも課題の1つだという。

 「言葉の壁を乗り越えてコミュニケーションを実現する、将来の夢のサービスだと思っている」と小森氏も期待を寄せる通訳電話サービス。実際にデモを試したところ、一部の固有名詞を除き、スムーズかつ(おおむね)正確に認識され、実用に耐えうるものだと感じた。試験サービスを経てさらにバージョンアップを果たした商用サービスの登場を待ちたい。

photophoto 日本語と英語で遠隔利用型、日本語と韓国語で対面利用型のデモを実施


photophoto こちらは対面利用型のAndroidアプリ。「アイティメディアの田中と申します」と話したら、しっかり韓国語に翻訳された

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2026年04月27日 更新
  1. 3社そろい踏みの「Starlink Direct」 料金で仕掛けるドコモとソフトバンク、先行するKDDIは“サービス”で差別化 (2026年04月25日)
  2. 楽天モバイル、ルーター「Rakuten WiFi Pocket 5G」の販売を一時停止 理由は? (2026年04月24日)
  3. スマホの「残価設定」にメス? 総務省がルール統一を検討も、Appleは「不当な扱い」と猛反発 (2026年04月25日)
  4. ダイソーで1100円の「USB充電器(PD20W)」は、きちんと20Wで充電できるのか? (2026年04月26日)
  5. ダイソーの1100円「シースルーイヤフォン」に一目ぼれ “音質と個体差”に目をつむれば「あり」な選択肢 (2026年04月23日)
  6. Xiaomiの前に、中国スマホの“雄”だったMeizu、またしてもピンチ (2026年04月26日)
  7. 1.72型ディスプレイ搭載スマートバンド「Xiaomi Smart Band 10」、高精度の睡眠モニタリングも可能 (2026年04月25日)
  8. ソフトバンクが「今回もやる」とGalaxy S26を月額1円で販売――販売方法を早急に見直さないと撤退を迫られるメーカーも (2026年03月08日)
  9. 携帯電話のホッピング問題、「6カ月以内の継続利用を認める」方向で決着か 2026年夏に結論 (2026年04月23日)
  10. 「Pixel 10a」と「Pixel 10」どちらを選ぶ? 実機比較で分かった「約5万円差の価値」と「明確な違い」 (2026年04月20日)
最新トピックスPR

過去記事カレンダー

2026年