ドコモ「通訳電話」を試験提供――音声サービスで“アラジンの魔法のランプ”を目指す

» 2011年11月04日 19時04分 公開
[田中聡,ITmedia]

 NTTドコモが11月4日、異なる言語での会話を可能にする「通訳電話サービス」の試験サービスを提供することを発表した。

 同サービスは、音声認識、翻訳、音声合成などの処理をドコモのネットワーク上で行うことで、端末の処理能力に依存せずに通訳ができるのが特長。一般ユーザー向けには11月4日から11月20日まで「通訳電話サービス紹介サイト」(http://pr.docomo-translation.com/)でモニターを公募し、11月下旬から2012年3月下旬までサービスを提供する。対象となるのは、データ専用プランを除くFOMAサービスの契約者(400人)。利用料金は無料。企業や団体(15社以上)とも協業し、観光、教育、小売、医療、社内コミュニケーションなどで活用してもらう。対応言語は日英と日韓。

「遠隔利用型」と「対面利用型」の2種類を提供

 通訳電話サービスは、「遠隔利用型」と「対面利用型」の2種類に分けられる。離れた相手と他言語で通話するときに役立つのが遠隔利用型。発話した音声を認識、翻訳して通話相手に音声と文字をリアルタイムで伝えられる。文字も表示されるので、チャットのように使うことも可能。翻訳される前の、相手が話した音声もそのまま再生されるので、抑揚や声のトーンなども伝わる。対面利用型は端末1台で利用するもの。発話した音声を認識し、翻訳された音声と文字を確認できる。辞書代わりに活用できるほか、日本を訪れた外国人に応対する、渡航先で現地の人と会話するといったシーンで使える。なお、日韓の通訳については対面型のみ利用可能。

photophoto 遠隔利用型(左)と対面利用型(右)のイメージ
photophoto 遠隔利用型では、米国に留学している家族のホストファミリーと話すといった利用シーンが想定される
photophotophoto
photophoto サービス事業者とタイアップし、観光、教育、小売、医療分野などでも活用していく

 遠隔利用型で発信できるのはドコモ端末からのみで、Android端末の場合はアプリ経由で通話する。受け手について、電話を受けて音声を聞くだけなら、他社ケータイや固定電話も可能。対面利用型サービスもドコモのAndroidアプリで利用できる。フィーチャーフォン向けのアプリは現時点では提供する予定はないが、0120の特番から発信できる。通訳電話サービスでは「マルチコール」を採用しており、音声の通訳には音声回線、テキストの表示にはデータ回線を使う(3G回線でも利用できる)。海外で利用する際はローミング扱いになる。

目指すは“アラジンの魔法のランプ”

photo NTTドコモ 取締役常務執行役員 研究開発センター所長 小森光修氏

 ドコモは2015年に向けた中期ビジョンに「スマートライフの実現」を掲げており、これを支えるのが「パーソナルクラウド」「ビジネスクラウド」「ネットワーククラウド」という3つのクラウドだ。同社 取締役常務執行役員 研究開発センター所長の小森光修氏は「通訳電話サービスはネットワーククラウドに関係の深いサービス。ネットワークでの高度な情報処理や通信処理によって、コミュニケーションに付加価値を提供したい」と説明する。「音声をIP化して、音声とデータを統合的に扱える基盤の構築はほぼ終えている」(同氏)

 クラウドサービスを展開するにあたり、外部の技術も積極的に採用していく。今回の通訳電話サービスをはじめ、「音声認識や音声合成などの技術を自由に組み合わせて、多彩なサービスを安価かつスピーディに提供していく」と小森氏は説明する。同社 ネットワーク開発部担当部長の那須和徳氏によると、「通訳電話サービスの音声認識や翻訳には外部の技術が使われている」という。使っている技術も1社ではなく、複数の会社から採用している。「日本語に強いところ、英語に強いところ、旅行会話や医療分野の通訳に優れたところなど、分野ごとに強い技術を組み合わせている」(同氏)。

 音声認識、音声合成、位置情報、通訳電話、情報解析……などさまざまなクラウドサービスの組み合わせを変えることで、サービスのバリエーション拡大も狙う。小森氏は「我々は『アラジンの魔法のランプ』と呼んでいるが、将来的には(リアルの)コンシェルジュのような機能を実現していきたい」と意気込む。

photophotophoto ドコモの「中期ビジョン2015」の位置付け(写真=左)。「スマートライフ」実現のカギを握るのが「クラウド」だ(写真=中)。さまざまま技術をドコモのクラウドサービスと連携させていく(写真=右)
photophotophoto オープンイノベーション、ネットワーククラウド、アジャイル開発(反復型)を軸にサービスを開発していく(写真=左)。ドコモの音声サービスの取り組み(写真=中)。通訳電話サービスの仕組み(写真=右)

固有名詞と雑音下での認識が課題

photo NTTドコモ ネットワーク開発部担当部長 那須和徳氏

 通訳電話サービスはワイヤレスジャパン2011でも展示していたが、今回提供するサービスは当時から拡張されている。まず基本性能に手を加え、日本語の認識精度が85%から90%に、英語の認識精度が60%から80%に向上している。言語は日英に加えて日韓にも対応。2012年1月下旬には日中の通訳(対面型のみ)もサポートする。また、「ポルトガル語などもニーズが高いので、さらなる多言語化も検討している」(那須氏)とのこと。「遊び心」も追求し、話者の声から男性か女性かを認識、翻訳後の声を男女どちらかを自動選択してくれる。とはいえ、「認識精度はまだ100%ではなく、誤認識や誤翻訳もある」(那須氏)ため、試験サービスを通じて利用シーンの把握や認識精度のさらなる向上に努める。今後はモニターからのフィードバックをもとにさらに改良し、2012年度下期に商用サービスを目指す(利用料金は未定)。

photophotophoto ワイヤレスジャパン展示時点からの改善点(写真=左)。試験サービス実施の目的(写真=中)。2012年度以降の商用化を目指す(写真=右)

 通話をする際にどれだけスピーディに翻訳できるかが気になるが、通訳電話サービスでは「2秒ほどで文字が表示されるので、待ち時間は感じられない。レスポンスタイムに注目してほしい」と那須氏は自信を見せる。現時点での課題は方言や固有名詞の対応だという。通訳電話サービスで登録されている言語数は日本語と英語が40万ほどだが、「『おおきに』で『Thank you』は通訳されない」など、データーベースに登録されていない単語は認識されない。また、騒音の大きい場所でどれだけ正しく認識できるのかも課題の1つだという。

 「言葉の壁を乗り越えてコミュニケーションを実現する、将来の夢のサービスだと思っている」と小森氏も期待を寄せる通訳電話サービス。実際にデモを試したところ、一部の固有名詞を除き、スムーズかつ(おおむね)正確に認識され、実用に耐えうるものだと感じた。試験サービスを経てさらにバージョンアップを果たした商用サービスの登場を待ちたい。

photophoto 日本語と英語で遠隔利用型、日本語と韓国語で対面利用型のデモを実施


photophoto こちらは対面利用型のAndroidアプリ。「アイティメディアの田中と申します」と話したら、しっかり韓国語に翻訳された

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2026年04月09日 更新
  1. コンセントに挿すだけで見守れる「Wi-Fiセンシングプラグ」発売 人感センサーよりも広範囲に検知 (2026年04月07日)
  2. メルカリで詐欺に遭った話 不誠実な事務局の対応、ユーザーが「絶対にやってはいけない」こと (2025年04月27日)
  3. 「Google Pixel 10a」を実質3万9800円で入手する方法 先代「Pixel 9a」から“値上げしなかった”理由 (2026年04月07日)
  4. 「任天堂3DSの未使用品、素手で触るなよ」――中古店による「素手持ち」写真が物議 商品ランクの定義とは? (2026年04月07日)
  5. 「Google Pixel 10a」はどこが安い? 一括価格と2年間の実質負担額を比較、お得なキャリアはココだ (2026年04月08日)
  6. ソフトバンクが「今回もやる」とGalaxy S26を月額1円で販売――販売方法を早急に見直さないと撤退を迫られるメーカーも (2026年03月08日)
  7. PayPay、5月以降に4自治体でプレミアム付き商品券を提供 最大2万円おトク (2026年04月08日)
  8. 依然として人気の高い「iPhone SE(第3世代)」、2万円台のお手頃価格も魅力 Back Marketの販売ランキング (2026年04月07日)
  9. Android 15搭載11.97型タブレット「アイリスオーヤマ 12型タブレット TM12E2W74-AZ1B」が19%オフの2万3800円に (2026年04月08日)
  10. PayPay、4月から6自治体で最大30%の還元キャンペーン 練馬区や鎌ケ谷市など (2026年03月18日)
最新トピックスPR

過去記事カレンダー

2026年