ITmedia NEWS > 科学・テクノロジー >

「同席しているみたい」──ビデオ会議の相手を3Dモデル化 Googleの「Project starline」 その仕組みは?Innovative Tech(3/3 ページ)

» 2022年01月27日 08時00分 公開
[山下裕毅ITmedia]
前のページへ 1|2|3       

顔のトラッキング

 通常のビデオ会議だと必要のない、顔のトラッキングがこのシステムでは非常に重要となる。上述したように、左右の目から見ているような描画と、相手の口の位置からこちらの耳の位置へ音が聞こえる表現を行うからだ。

 正確なフェーストラッキングを行うために、120Hzで動作する4台の同期した1280×1024のモノクロカメラを使用する。各画像を基に、34の顔のランドマークを見つけ、目や口、耳の位置を決定。4台のカメラのうち少なくとも2台で見つかった各特徴について、三角測量を使ってその3D位置を求めている。微妙なノイズの除去やトラッキングの遅延の緩和も行っている。

圧縮と伝送

 テクスチャ付きメッシュなどの一般的な3D表現は、高解像度でフレームレートの高いデータの場合、リアルタイムに圧縮し伝送することは現在のところ不可能だ。解決するために今回は、3D表現を作成して送信するのではなく、従来のビデオ圧縮を使用して複数のカラー画像とデプスマップを送信するアプローチを提案する。

 ビデオ圧縮を利用することで、NVIDIA GPUに搭載しているNVENC/NVDECユニットが利用可能となり、高い忠実度と許容可能なビットレートを維持しながら、離れたシステム間でのカラー3D表現における双方向リアルタイム伝送を実現した。

 アブレーション実験では、深度画像を10ビットのH.265で圧縮しても、最終的なレンダリングの品質に大きな影響を与えないと分かった。衣服の質感やジェスチャーの大きさに応じて、伝送帯域は約30〜100Mbit/sに変化するが、このビットレートは、従来のビデオ会議よりも高いとはいえ、企業ネットワークではすでに実現可能な数字なため許容範囲といえるだろう。

データフローの概要

評価実験

 実験では、ユーザー調査によるシステムの有効性と、従来のビデオ会議との比較を評価した。その結果、従来のビデオ会議よりも、プレゼンスやアテンション、リアクションゲージ、エンゲージメントが向上すると分かった。一部の被験者は、会議の内容をよりよく思い出せたと報告した。また、ポジティブな会議の指標とされる非言語的行動(うなずきや手振り、眉毛の動きなど)の割合が高いことも、ユーザー調査から明らかになった。

Source and Image Credits: Jason Lawrence, Danb Goldman, Supreeth Achar, Gregory Major Blascovich, Joseph G. Desloge, Tommy Fortes, Eric M. Gomez, Sascha Haberling, Hugues Hoppe, Andy Huibers, Claude Knaus, Brian Kuschak, Ricardo Martin-Brualla, Harris Nover, Andrew Ian Russell, Steven M. Seitz, and Kevin Tong. 2021. Project starline: a high-fidelity telepresence system. ACM Trans. Graph. 40, 6, Article 242 (December 2021), 16 pages. DOI:https://doi.org/10.1145/3478513.3480490



前のページへ 1|2|3       

Copyright © ITmedia, Inc. All Rights Reserved.