ITmedia NEWS >

漫画キャラのせりふを、感情のこもった音声合成に変換 北京理工大学などが新技術Innovative Tech

» 2020年01月08日 09時30分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 北京理工大学とUAEのInception Institute of Artificial Intelligence(IIAI)、米ジョージ・メイソン大学の研究チームが2019年11月に発表した新技術「Comic-Guided Speech Synthesis」は、漫画に登場するキャラクターが発するせりふを、適切な感情をこめた音声に変換し、出力する手法だ。

photo 本手法の概要図。漫画本のページを入力に分析し音声合成を生成する。

 漫画本のページを読み込ませると、各キャラクターが発している吹き出しの中のせりふを分析し、ストーリーの流れに沿って音声を合成する仕組み。

 分析と発話に当たっては、「Comic Visual Analysis」「Comic Speech Synthesis」の2つの技術を使用する。各技術の詳細は以下の通り。

  • Comic Visual Analysis:漫画本のページを分析し、パネル・吹き出し・テキストなどを抽出した上で、各要素を物語の順序に並べ替える。その上で、吹き出しと、せりふの主であるキャラクターをひもづける。続けて、各キャラクターの性別と年齢、せりふの内容と対応する感情(幸せ、悲しみ、怒りなど)を識別する。
  • Comic Speech Synthesis:Comic Visual Analysisの分析に基づき、性別・年齢・感情と対応する、各キャラクターの音声を合成する。
photo 本手法の2段階パイプライン。漫画本のページを分析する項目と、それに基づく音声合成の項目
photo コミック要素の関係分析に基づき、各キャラクターの性別や年齢、感情を推測する
photo (上段行)喜怒哀楽などの感情を判別、(中段行)怒りの強弱を3段階で判別、(下段行)恐怖で泣く、恐怖で怒るなど異なる感情の組み合わせを判別

 これらの技術を用いることで、オーディオコミック制作の自動化、本から飛び出して話すARキャラクターの作成、話せる3Dアバターの生成、ゲームキャラクターのナレーション――など、さまざまな活用が可能になる。漫画とは異なる言語で音声を出力することで、外国語学習の手段としても利用できる。

photo 本手法を用いた活用例。(左)HoloLensを介して表示される本のARコンテンツが話す、(中央)ゲームキャラクターのナレーションを自動挿入、(右)3Dアバターに話させる

Copyright © ITmedia, Inc. All Rights Reserved.