「プロ品質の8割」に迫る音声合成技術、富士通研が開発

「プロのナレーション品質の8割」に迫るという高品質な音声合成技術を富士通研究所が開発。肉声を代替可能な技術として近く実用化する。

[ITmedia] PC用表示関連情報

LINE

Hatena

　富士通研究所は7月27日、業界最高クラスの高品質な音声合成技術を開発したと発表した。プロのナレーションに迫るクオリティーを実現し、従来はナレーターが必要だった放送コンテンツや各種アナウンスなどを低コストな合成音声で代替できると期待している。2009年度上期中の実用化を目指す。

新技術の概要

　日本語独特の発話リズムを解析するための統計手法を新たに開発し、独自の発話リズム制御モデルを構築。各音の長さについて、肉声との差を同社従来技術と比べ3分の2に抑えたことで「1つ1つの音の長さのバランスが取れた、流ちょうな読み上げ音声を実現した」という。

　さまざまな文章にも対応できる大規模な音声波形データベースも開発。イントネーションの違いを網羅し、使用頻度の高い単語や文例を中心に、同社従来比で約10倍となる数万個のフレーズを収録。各単語間のつながりなどで機械的な歪みのない音声を合成できるようになったという。

　新技術による合成音声は、音声品質の評価方法である「CMOS評価」で、プロのナレーション品質の80％に迫る業界最高クラスのスコアを達成したという。今後、さまざまな利用シーンに対応するための機能強化を進める。

関連キーワード