話した言葉を透明パネルに字幕表示 筑波大、「See-Through Captions」開発:Innovative Tech
コロナ禍においては自然なコミュニケーション手段になるかもしれない。
Innovative Tech:
このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
筑波大学 デジタルネイチャー研究室のチームが開発した「See-Through Captions」は、話者の音声を自動でテキスト変換し、相手との間に設置した透明ディスプレイに字幕をリアルタイム表示する聴覚障害者向けシステムだ。1対1の対面コミュニケーションにおいて、相手の表情やボディーランゲージを確認しながら自然体でやりとりできる。
計算機によって多様性を実現する社会に向けた超AI基盤に基づく空間視聴触覚技術の社会実装を目指す「xDiversity」プロジェクトの一環だ。
聴覚障害者との対面コミュニケーションにおいて、最も一般的な手段は手話だが、近年はスマートフォンやARシステムを活用して相手に話し言葉を字幕として提示できる自動音声認識のリアルタイムキャプションが利用されるようになってきた。
しかし、スマートフォンを見たり、見せたりしていると、相手のボディーランゲージや表情、アイコンタクトなどの非言語コミュニケーションを見落としがちだ。また、ARシステムを用いた手法だと、話者が自動音声認識の誤認識を確認できないことが円滑なコミュニケーションの妨げとなる。
これらの問題点を解決するために、今回は透明ディスプレイを利用し、会話中に相手を見ながら自動音声認識結果を確認できるリアルタイムキャプションシステムを開発した。1対1の対面時に限定されるが、自動音声認識の誤認識や相手の非言語コミュニケーションの見落としを防ぎながら会話できる。
システムの主な機能は、自動音声認識と字幕表示の2つだ。音声入力装置として指向性マイクを使用し、透明ディスプレイ前の話者の音声を入力に、その音声を自動音声認識を介してテキストに変換、音声認識結果のテキストを透明ディスプレイにリアルタイムで表示する。
表示される文字は、サイズ、色、透明度、フォントなどユーザーが自由に変更できる。今後は、文字表示速度、行数、消失速度などのパラメーターも設計したいという。
特筆すべきは、相手に大きな字幕が表示される一方で、話者にも同じ字幕がこちらが読めるように反転し小さな文字で表示されていること。これにより話者もリアルタイムで自動音声認識による変換を確認でき、誤認識にもすぐに気付ける。
聴覚障害者と対話者は、双方が相手の非言語コミュニケーションを読み取り、字幕で音声内容や誤認識を理解しながら円滑な意思疎通が行える。
スーパーマーケットから役所まであらゆる場所で飛沫防止用透明パネルが設置されているコロナ禍においては、今回のシステムとの相性も良く、導入も考えられるだろう。
一方、聴覚障害者の手話や文字による発言を聴者がどのようにして受け取るか、文字よりも手話を好む聴覚障害者への情報提示方法などは、検討の余地がある。
関連記事
- タトゥーシールのように貼れるOLED 水で転写、緑色に発光
OLEDタトゥーシールを安価に製造する方法。 - 口パクの顎の動きで音声認識 イヤフォンに後付け可能
声を出さない音声入力が可能に。 - 第3の足として歩行を助けるロボット ランニング補助や転倒防止にも
義足ではなく、積極的にロボット足を使っていく。 - コメディー作品の“笑いどころ”を機械学習で予測 「ビッグバン・セオリー」でユーモア学ぶ
シットコムが簡単に作れてしまうかもしれないし、ぜんぜん笑ってくれないかもしれない。 - バッタの耳をロボットのセンサーに バイオハイブリッドロボット「Ear-Bot」
バッタのサイボーグ化ではなく、ロボットにバッタのバイオパーツを装着する方式。 - “相互通信無し”で人やドローンとぶつからないドローン 回避の仕組みは
この技術があればドローン規制は緩和されるかもしれない。 - 脳からの命令を自分の手に伝え、動かす 脊髄損傷でも手を動かし触覚を得る試み
麻痺した人が脳のインプラントから自分の筋肉をコントロールすることに成功したという。 - 人が弾くピアノに合わせて演奏する仮想バイオリニスト 他者演奏の音声から演奏の動きと音を自動作成
バイオリン演奏の動きと音を同時に生成する仕組み。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.