ITmedia NEWS > 科学・テクノロジー >

カタカナ英語発音を「ネイティブっぽく」自動変換──NTTが研究成果を公開

» 2013年06月05日 10時00分 公開
[山崎春奈,ITmedia]

 NTTコミュニケーション科学基礎研究所が最新の研究成果を披露する「オープンハウス2013」が6月6〜7日、NTT京阪奈ビル(京都府精華町)で行われる。機械学習、データ圧縮技術、プライバシーを守る位置情報活用、統計翻訳、音声認識、脳の物体認識の仕組み──などテーマは多岐に渡っており、同研究所の前田英作所長は「すぐに製品化されるようなものではないが、必ず将来につながるもの。未来を作り出している現場にぜひ実際に触れてほしい」と話している。

 同研究所は神奈川県厚木市とけいはんな学園都市を拠点に、人間科学と情報科学の両面からコミュニケーションについて研究している。

 オープンハウスでは約30の研究について成果を披露する。その1つ、日本人が話した英語を“ネイティブっぽく変換する”という「それっぽくしゃべります」は、発話リズムを整えて出力する技術だ。

 日本人の英語は単語ごとにはっきり区切るくせが強く、母音の数も少ないため、リズムを整えなめらかにすることで聞き取りやすさは改善されるのでは──と考えたという。音声信号を発音と発話リズムに分解し高い精度で抽出する独自アルゴリズム「非負値時空間分解法」により、「カタカナ英語」をなめらかなスピード、リズムに変換する。将来は携帯端末を介したリアルタイムの変換やTV会議やプレゼンテーションでの場に導入するような応用を考えているという。

photo 冗長なカタカナ英語をネイティブのリズムに整える

 大学の講義や会議など、自然でフランクに話される場で高精度な音声認識を実現する技術も。単語の誤りをフィードバックする際、出力結果だけではなく、音声から音素を推定する部分やノイズを除去する部分までさかのぼって自動でパラメータを再調整する。これにより、発話者のくせや声質、その場の環境を反映し「より人間の学習に近い」改善を繰り返せるという。

 音声認識の単語エラー率は従来技術の30.1%と比較して17.9%まで低下。今後はさらに精度やスピードを高め、リアルタイムの字幕出力や、人とコミュニケーションするロボットへの搭載を見据える。

photo MITの講義映像がデモとなっているが、技術的には日本語でも可能。精度もほぼ変わらないという

 ビッグデータ解析のための機械学習技術の開発にも取り組んでいる。一例として展示されるのは、Twitterに投稿されたテキストと時間、まとめられたTogetterデータを用いたツールだ。

 あるキーワードについて、該当キーワードの投稿数の推移、関連性の強い単語やトピック、キーマンとなっているアカウント、関連キュレーション情報などを分析して表示する。目指すのは「単なるデータ活用の一歩先、未来予測や意思決定の支援につながる技術」。位置情報、気象情報、交通・物流データ、映像データなど複数のデータを組み合わせ、「1つのデータでは見えないものをいかに可視化するか」を追求していくという。

photo Twitterのテキストデータはあくまで対象データの1つ。「時間や空間情報をどう入れていくかが課題」

Copyright © ITmedia, Inc. All Rights Reserved.