ITmedia NEWS > 科学・テクノロジー >

「プロ品質の8割」に迫る音声合成技術、富士通研が開発

» 2009年07月28日 07時00分 公開
[ITmedia]

 富士通研究所は7月27日、業界最高クラスの高品質な音声合成技術を開発したと発表した。プロのナレーションに迫るクオリティーを実現し、従来はナレーターが必要だった放送コンテンツや各種アナウンスなどを低コストな合成音声で代替できると期待している。2009年度上期中の実用化を目指す。

photo 新技術の概要

 日本語独特の発話リズムを解析するための統計手法を新たに開発し、独自の発話リズム制御モデルを構築。各音の長さについて、肉声との差を同社従来技術と比べ3分の2に抑えたことで「1つ1つの音の長さのバランスが取れた、流ちょうな読み上げ音声を実現した」という。

 さまざまな文章にも対応できる大規模な音声波形データベースも開発。イントネーションの違いを網羅し、使用頻度の高い単語や文例を中心に、同社従来比で約10倍となる数万個のフレーズを収録。各単語間のつながりなどで機械的な歪みのない音声を合成できるようになったという。

 新技術による合成音声は、音声品質の評価方法である「CMOS評価」で、プロのナレーション品質の80%に迫る業界最高クラスのスコアを達成したという。今後、さまざまな利用シーンに対応するための機能強化を進める。

関連キーワード

音声合成 | 富士通研究所


Copyright © ITmedia, Inc. All Rights Reserved.