ITmedia NEWS > AI+ >
ITmedia AI+ AI活用のいまが分かる

マスク装着時に話したテキストを翻訳、字幕表示 KAIST「MAScreen」開発Innovative Tech

» 2020年11月26日 06時39分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 韓国科学技術院(KAIST)の研究チームが開発した「MAScreen」は、マスク着用時の顔の表情と唇の動きを読み取り、マスクの前面に装着したLEDディスプレイに表示するシステムだ。マイクで収録した音声をテキスト化し、他言語に翻訳して字幕表示することもできる。

photo マスク内の表情と唇の動きを捉え、前面のLEDディスプレイに表示する

 マスクで隠れた表情と唇の動きを捉え、その動きを分類してマスク前面のLEDディスプレイに表示する。動きを検出するために、マスク内には反射型光センサーアレイを組み込んでいる。

photo マスク内の構造。LEDディスプレイ、反射型光センサーアレイ、マイクロフォンを組み込んだ

 機械学習アルゴリズムで動きを分類し、唇の動き12種類(大きく開口、口をゆがませる、母音など)、顔の表情11種類(笑顔、怒り、悲しみなど)に分ける。分類精度は99%以上を達成。分類された表情はリアルタイムにLEDディスプレイに表示する。

photo 顔の表情は11種類の中から選択

 マスク内に搭載したマイクで音声を検出する。検出した音声はテキストに変換され、テキストはLEDディスプレイへ右から左へ流れるテロップのように字幕表示される。

photo 音声をテキストに変換し、右から左へ流れるテロップのように字幕表示

 テキストを別の言語へ即座に翻訳し表示することも可能だ。デモ動画では、英語をフランス語や日本語に翻訳し表示している様子を確認できる。

photo 韓国語を英語に翻訳し表示している

Copyright © ITmedia, Inc. All Rights Reserved.