米Dolby LaboratoriesとスペインのUniversitat Pompeu Fabraの研究チームが開発した「Universal Speech Enhancement With Score-based Diffusion」は、収録した映像のバックグラウンドノイズ（背景雑音）を強力に除去する技術だ。動画撮影した雑音を消し去り、話す声だけをくっきり残すことができる。強力すぎるため、映像がアフレコを挿入したみたいな仕上がりになってしまう。

野外で撮影した動画にこの手法を適応し、背景ノイズを除去し音声のみを強調している様子

　実世界で録音した音声には必然的に背景の雑音や残響が含まれ、不快感や明瞭度の妨げになるためノイズ除去が行われる。最近では深層学習の登場によりノイズ除去技術の精度が向上した。

　だが音声強調の観点ではノイズ除去だけが全てではなく、クリッピング、コーデックのアーチファクト、リバーブ、スペクトル操作、過度の圧縮、最適でないイコライゼーション、帯域制限、ラウドネスの不整合など考慮できる要素は他にも複数存在する。

　研究ではこれら合計55種類のゆがみを扱い、補正するシステムを提案する。この手法は、スコアベース拡散を用いた生成モデルと、混合密度ネットワークを用いて強調を行う多重解像度解析の調整ネットワークから構成される。

　このモデルで編集した音声は精度が高く、まるで声だけを切り取ったかのような出力結果を示す。

　実験では専門家の参加者たちによる主観評価を行った。その結果、最新アプローチ12モデルをしのぎ、この手法が高品質な音声強調ができると分かった。古い映画や料理番組、屋外で撮影した映像などにこの手法を適応し音声のみを強調した比較を確認することができる。

Source and Image Credits: Serra, Joan, et al. “Universal Speech Enhancement with Score-based Diffusion.” arXiv preprint arXiv:2206.03065 (2022).

UNIXシェルの並列化により最大34倍高速化する「PaSh」、米MITなどが開発　プログラム結果も正確
米ペンシルベニア大学、米MIT、ポーランドのXIV Staszic High School、米国の研究機関Aarno Labs、米Stevens Institute of Technologyによる研究チームは、UNIXシェルで実行されるプログラムの速度を最大34倍高速化できるシステムを開発した。
1枚のパノラマ写真から室内を3次元で忠実に再現　Googleなどが開発
中国の浙江大学と米Googleの研究チームは、1枚のパノラマ写真から部屋内の全体の3次元シーンを正確に再現するシステムを開発した。
iPhoneの自撮りで本物そっくりな動く3Dリアルアバター　米Metaが技術開発
米MetaのReality Labsの研究チームは、スマートフォンで自撮りした短時間のスキャン画像から、本物そっくりの3D頭部アバターを生成するシステムを開発した。異なる視点やフォトリアリスティックな表情を表現し、高い忠実度で再現する。
手書きスケッチをきれいな3D図面に自動変換するシステム　英国やフランスなどの研究チームが開発
英University College London 、フランスの研究機関Inria、Microsoft Research Asia、Adobe Researchによる研究チームは、フリーハンドで描いた形状をCAD（Computer-Aided-Design）コマンドに自動変換するスケッチベースのモデリングシステムを開発した。
道路脇にごみ箱があると自動運転車が間違って止まる？　米国の研究者らが検証
米カリフォルニア大学アーバイン校と米カリフォルニア大学ロサンゼルス校の研究チームは、自動運転車において、道路脇に置かれた物に反応し停止してしまうかを検証した論文を発表した。