脳が知覚した内容を「Stable Diffusion」が画像化　脳活動を解析　阪大などが技術開発：Innovative Tech

大阪大学大学院生命機能研究科と情報通信研究機構CiNetに所属する研究者らは、潜在拡散モデルを用い、人間の脳活動から画像を生成する手法を提案した研究報告を発表した。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: ＠shiropen2

　大阪大学大学院生命機能研究科と情報通信研究機構CiNetに所属する研究者らが発表した論文「High-resolution image reconstruction with latent diffusion models from human brain activity」は、潜在拡散モデルを用い、磁気共鳴機能画像法（fMRI）により得られた人間の脳活動から画像を生成する手法を提案した研究報告である。実験参加者に画像を見せた際のfMRI信号から潜在拡散モデルで画像を生成する。

（左）フレームワークの概要、（右）上段が実験参加者に見せた画像。下段がfMRI信号から潜在拡散モデルが生成した画像

【修正履歴:3月8日午後6時40分更新：掲載当初のタイトルから一部内容を修正しました。】

　脳活動から視覚画像を再構成することは、脳データに関連するサンプルサイズが比較的小さいため難しい問題である。近年では、GAN（Generative Adversarial Network）や自己教師あり学習などの深層学習モデルを使用して、この課題に取り組み良い結果を示してきているが、リアルな画像を生成できないのが現状だ。

　この課題に対し、今回はテキストプロンプトから画像を生成する潜在拡散モデルとfMRIによる脳活動記録を組み合わせて、脳活動から画像を生成するフレームワークを提案する。具体的には、Text-to-Image拡散生成モデルで代表的な1つである「Stable Diffusion」を使用する。

　このフレームワークは、脳活動を用いた複雑な深層学習モデルの訓練を行わず、fMRIから潜在拡散モデルの潜在空間へのマッピングを必要とするだけのシンプルな仕様である。具体的には、脳活動から低次の視覚情報を読み取るデコーダーと、高次の意味情報を読み取るデコーダーをそれぞれ構築し、それらの出力をStable Diffusionの内部における画像とテキスト情報に対応した潜在変数として用いる。

フレームワークの概要図

　学習データセットには、高磁場強度（7T）で実施された大規模fMRIデータセット「Natural Scenes Dataset」（NSD）を使用する。NSDデータセットとは、参加者8人が30～40回のスキャンセッションを通じてさまざまな画像を見ながらfMRI測定を行ったものである。今回、NSDデータセットから2万7750の試行を訓練用とテスト用に分けて活用した。

　具体的には、訓練用データを用いてデコーダーの構築・調整を行い、テスト用データを用いて脳活動（fMRI信号）からの画像生成の検証を行った。なお検証用の画像生成の際にはテスト用の画像とテキスト情報は使われていない。

　上記の検証の結果、実験参加者に画像を見せた際のfMRI信号から、参加者に提示した画像と類似した高解像度画像（512×512）を生成（再構成）することに成功した。この際、低次の視覚情報と高次の意味情報どちらか単独ではなく、両方を脳活動からデコーディングすることで、元画像の見た目と意味内容をバランス良く保ちつつ再構成できた。

（上段）実験参加者に見せた画像、（下段）fMRI信号から拡散モデルが生成した画像

一番左の赤いボックスで囲まれた画像は実験協力者に見せた画像。その右は、四人の実験協力者の脳活動からそれぞれ別々に再構成された画像

　潜在拡散モデルは急速に発展しているものの、もともと人の脳にインスパイアされて作られたCNN（Convolutional Neural Network）などの他の深層学習モデルに比べて、その内部表現について理解が進んでいない。そこで、潜在拡散モデル内の各構成要素と脳活動との対応関係を探ることで、各構成要素がどのような情報を表現しているのかを探る解析も行った。

　特に、潜在拡散モデルは画像の潜在表現にノイズを加えることでさまざまな画像を生成できるが、ノイズを加える影響が潜在拡散モデルの内部情報表現のどのような変化と対応しているのかも検証した。

　その結果、ノイズが少ない状態では低次視覚野の活動と対応が強く、逆にノイズを強くするとより意味などの情報を表現する高次視覚野との対応が強くなる様子を、定量的に示すことに成功した。

　この論文は、6月に開催予定のComputer Visionの国際会議「CVPR 2023」（The IEEE / CVF Computer Vision and Pattern Recognition Conference 2023）に採択された研究である。

潜在表現に加えるノイズレベルの量を低レベル（上）から高レベル（下）まで変化させた上で、拡散モデル内の各構成要素と脳活動との対応関係を探った結果

Source and Image Credits: Yu Takagi, Shinji Nishimoto. High-resolution image reconstruction with latent diffusion models from human brain activity. https://doi.org/10.1101/2022.11.18.517004

脳が知覚した内容を「Stable Diffusion」が画像化　脳活動を解析　阪大などが技術開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク

脳が知覚した内容を「Stable Diffusion」が画像化 脳活動を解析 阪大などが技術開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク

脳が知覚した内容を「Stable Diffusion」が画像化　脳活動を解析　阪大などが技術開発：Innovative Tech