シンガポール国立大学と香港中文大学に所属する研究者らが発表した論文「Cinematic Mindscapes: High-quality Video Reconstruction from Brain Activity」は、脳活動から見ている映像を復元する手法を提案した研究報告である。磁気共鳴機能画像法（fMRI）で取得した脳活動から高品質な動画を再構成する。

猫の映像（上段）を見ている脳活動から猫の映像（下段）を復元する

　脳活動からユーザーが見ている画像を復元する手法は、これまでにもいくつか報告されてきた。例えば、阪大などが発表した、画像を見せた際のfMRI信号から潜在拡散モデルで画像を生成する手法である。一方で、見ている動画を脳活動から復元する手法は限定的である。

　今回は、fMRIで取得した脳活動から見ている映像を再構築する学習モデルを提案する。

　このモデルは、fMRIエンコーダーと映像生成モデルの2つのモジュールで構成する。2つのモジュールは別々に学習した後、一緒に微調整される。そのため、どちらか一方がより優れたアーキテクチャを持つ場合、新しいモデルを容易に適応可能という。

　fMRIは全脳の活動をBOLD信号で捉える。ここでは視覚刺激時に活性化するBOLD信号に注目する。まず大規模な教師なし学習とマスクされた脳のモデリングを活用して、視覚的なfMRIの特徴を学習する。

　次に、注釈付きデータセットのマルチモダリティを利用して、意味に関連する特徴を抽出し、対照学習（Contrastive Learning）によるCLIP（Contrastive Language-Image Pre-Training）空間でfMRIエンコーダーを訓練する。

　そして、拡張したStable Diffusionを動画でトレーニングし、その後、注釈付きデータを用いてfMRIエンコーダーと一緒に調整する。

Mind-Videoの概要

　実験では、fMRIから動画を生成するベースラインとこの手法を比較し、評価する。参加者3人を対象に、fMRIフレームから2秒間のビデオ（6フレーム）を再構築する。

　実験の結果、他の3つに比べ、この手法は意味的にグランドトゥルースと類似して現実的で高品質な映像を生成した。またセマンティックとSSIMで定量的に評価した結果、この手法は意味分類タスクで85％、SSIMで0.19の精度を達成し、従来の最先端アプローチを45％上回った。

上段がグランドトゥルース、上から2段目がこの手法の出力結果、下3行は既存の方法で出力した結果

GTがグランドトゥルースで、Oursがこの手法の出力結果

　この手法はまだ参加者内レベルのものであり、参加者間の汎化能力は個人差があるため未解明である。また、この手法は大脳皮質の10％以下のBOLD信号しか再構成に使用しておらず、全脳データを使用した再構成は未開拓である。

Source and Image Credits: Zijiao Chen, Jiaxin Qing, and Juan Helen Zhou. Cinematic Mindscapes: High-quality Video Reconstruction from Brain Activity.

触感を脳に直接送る電子皮膚　ラット実験に成功　米スタンフォード大などが開発
米スタンフォード大学と韓国の慶尚大学校に所属する研究者らは、外部の温度や圧力を測定できる、皮膚に貼る柔軟で伸縮性が高い電子皮膚を提案した研究報告を発表した。
動画を見るマウスの脳活動から映像をAIで復元　スイスの研究者ら「CEBRA」開発
スイス連邦工科大学ローザンヌ校に所属する研究者らは、動画を見るマウスの脳活動データから、見ている映像を復元する機械学習アルゴリズムを提案した研究報告を発表した。
壁を見るだけで“壁の先にある物体”を脳活動から画像化　英国の研究者らが技術開発
英グラスゴー大学に所属する研究者らは、見えない向こう側の物体の反射光を見た脳活動から、その物体を画像として再構築するブレインコンピュータインタフェース（BCI）を提案した研究報告を発表した。
脳が知覚した内容を「Stable Diffusion」が画像化　脳活動を解析　阪大などが技術開発
大阪大学大学院生命機能研究科と情報通信研究機構CiNetに所属する研究者らは、潜在拡散モデルを用い、人間の脳活動から画像を生成する手法を提案した研究報告を発表した。
“考えている単語”を脳から読み取り特定　口パクは不要　米カリフォルニア工科大が発表
米カリフォルニア工科大学に所属する研究者らは、四肢まひの参加者が話したり話すまね（口パク）をしたりせず、単に考えている単語を脳から予測できるブレイン・マシン・インタフェース（BMI）を提案した研究報告を発表した。