ニュース
「プロ品質の8割」に迫る音声合成技術、富士通研が開発
「プロのナレーション品質の8割」に迫るという高品質な音声合成技術を富士通研究所が開発。肉声を代替可能な技術として近く実用化する。
富士通研究所は7月27日、業界最高クラスの高品質な音声合成技術を開発したと発表した。プロのナレーションに迫るクオリティーを実現し、従来はナレーターが必要だった放送コンテンツや各種アナウンスなどを低コストな合成音声で代替できると期待している。2009年度上期中の実用化を目指す。
日本語独特の発話リズムを解析するための統計手法を新たに開発し、独自の発話リズム制御モデルを構築。各音の長さについて、肉声との差を同社従来技術と比べ3分の2に抑えたことで「1つ1つの音の長さのバランスが取れた、流ちょうな読み上げ音声を実現した」という。
さまざまな文章にも対応できる大規模な音声波形データベースも開発。イントネーションの違いを網羅し、使用頻度の高い単語や文例を中心に、同社従来比で約10倍となる数万個のフレーズを収録。各単語間のつながりなどで機械的な歪みのない音声を合成できるようになったという。
新技術による合成音声は、音声品質の評価方法である「CMOS評価」で、プロのナレーション品質の80%に迫る業界最高クラスのスコアを達成したという。今後、さまざまな利用シーンに対応するための機能強化を進める。
関連記事
- 好みの声で携帯メール読み上げ KDDI研と名工大、携帯にダウンロードできる音声合成ソフト試作
携帯電話でダウンロード利用できる軽量な音声合成ソフトを、KDDI研究所と名工大が試作した。好みの声優の声でメールを読み上げるといったサービスが可能という。 - 自分の声で音声合成 OKIがソフト発売
自分の声から音声を合成し、入力したテキストを読み上げられるソフトを、OKIが発売した。病気などで声を失った人に、自分の声の代わりに使ってもらいたいという。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.