「プロ品質の8割」に迫る音声合成技術、富士通研が開発

公開 2009年07月28日 07時04分

更新 2009年07月27日 09時28分

[ITmedia]

印刷する

　富士通研究所は7月27日、業界最高クラスの高品質な音声合成技術を開発したと発表した。プロのナレーションに迫るクオリティーを実現し、従来はナレーターが必要だった放送コンテンツや各種アナウンスなどを低コストな合成音声で代替できると期待している。2009年度上期中の実用化を目指す。

新技術の概要

　日本語独特の発話リズムを解析するための統計手法を新たに開発し、独自の発話リズム制御モデルを構築。各音の長さについて、肉声との差を同社従来技術と比べ3分の2に抑えたことで「1つ1つの音の長さのバランスが取れた、流ちょうな読み上げ音声を実現した」という。

　さまざまな文章にも対応できる大規模な音声波形データベースも開発。イントネーションの違いを網羅し、使用頻度の高い単語や文例を中心に、同社従来比で約10倍となる数万個のフレーズを収録。各単語間のつながりなどで機械的な歪みのない音声を合成できるようになったという。

　新技術による合成音声は、音声品質の評価方法である「CMOS評価」で、プロのナレーション品質の80％に迫る業界最高クラスのスコアを達成したという。今後、さまざまな利用シーンに対応するための機能強化を進める。

印刷する

SpecialPR

メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

SpecialPR

本日の新着記事

アクセスランキング

ITmedia NEWS SNS

ITmedia News

インフォメーション

注目情報をチェック

お問い合わせ

ITmediaNEWSをフォロー

あなたにおすすめの記事PR

関連記事