ITmedia NEWS > 科学・テクノロジー >

脳活動から見ている映像を復元する技術「Mind-Video」 シンガポールと香港の研究者らが開発Innovative Tech

» 2023年05月29日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2

 シンガポール国立大学と香港中文大学に所属する研究者らが発表した論文「Cinematic Mindscapes: High-quality Video Reconstruction from Brain Activity」は、脳活動から見ている映像を復元する手法を提案した研究報告である。磁気共鳴機能画像法(fMRI)で取得した脳活動から高品質な動画を再構成する。

猫の映像(上段)を見ている脳活動から猫の映像(下段)を復元する

 脳活動からユーザーが見ている画像を復元する手法は、これまでにもいくつか報告されてきた。例えば、阪大などが発表した、画像を見せた際のfMRI信号から潜在拡散モデルで画像を生成する手法である。一方で、見ている動画を脳活動から復元する手法は限定的である。

 今回は、fMRIで取得した脳活動から見ている映像を再構築する学習モデルを提案する。

 このモデルは、fMRIエンコーダーと映像生成モデルの2つのモジュールで構成する。2つのモジュールは別々に学習した後、一緒に微調整される。そのため、どちらか一方がより優れたアーキテクチャを持つ場合、新しいモデルを容易に適応可能という。

 fMRIは全脳の活動をBOLD信号で捉える。ここでは視覚刺激時に活性化するBOLD信号に注目する。まず大規模な教師なし学習とマスクされた脳のモデリングを活用して、視覚的なfMRIの特徴を学習する。

 次に、注釈付きデータセットのマルチモダリティを利用して、意味に関連する特徴を抽出し、対照学習(Contrastive Learning)によるCLIP(Contrastive Language-Image Pre-Training)空間でfMRIエンコーダーを訓練する。

 そして、拡張したStable Diffusionを動画でトレーニングし、その後、注釈付きデータを用いてfMRIエンコーダーと一緒に調整する。

Mind-Videoの概要

 実験では、fMRIから動画を生成するベースラインとこの手法を比較し、評価する。参加者3人を対象に、fMRIフレームから2秒間のビデオ(6フレーム)を再構築する。

 実験の結果、他の3つに比べ、この手法は意味的にグランドトゥルースと類似して現実的で高品質な映像を生成した。またセマンティックとSSIMで定量的に評価した結果、この手法は意味分類タスクで85%、SSIMで0.19の精度を達成し、従来の最先端アプローチを45%上回った。

上段がグランドトゥルース、上から2段目がこの手法の出力結果、下3行は既存の方法で出力した結果
GTがグランドトゥルースで、Oursがこの手法の出力結果

 この手法はまだ参加者内レベルのものであり、参加者間の汎化能力は個人差があるため未解明である。また、この手法は大脳皮質の10%以下のBOLD信号しか再構成に使用しておらず、全脳データを使用した再構成は未開拓である。

Source and Image Credits: Zijiao Chen, Jiaxin Qing, and Juan Helen Zhou. Cinematic Mindscapes: High-quality Video Reconstruction from Brain Activity.



Copyright © ITmedia, Inc. All Rights Reserved.