このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
中国の清華深セン国際大学院、Tencent AI Lab、Peng Cheng Laboratoryに所属する研究者らが発表した論文「DreamDiffusion: Generating High-Quality Images from Brain EEG Signals」は、脳波(EEG)から高品質でリアルな画像を生成する拡散モデルを提案した研究報告である。提案手法は、EEGデータセットから学習した知識と画像拡散モデルの生成能力を利用する。
人の脳から拡散モデルを利用して画像を生成するアプローチはこれまでにも研究されてきた。例えば、阪大などが開発したシステムなどだ。しかし、その多くは、磁気共鳴機能画像法(fMRI)により得られた脳活動から画像を生成するアプローチを採用している。そのため、専門家の操作が必要な上、高価で持ち運びが困難なfMRI装置を必要とし、実用的ではない。
これに対して脳波は、非侵襲的かつ低コストで脳の電気活動を記録する方法である。EEG信号を簡便に取得できるポータブルな市販製品も登場している。
この研究では、脳波信号で事前に訓練したテキストから画像への拡散モデル「Stable Diffusion」を用い、画像を生成する手法を提案する。しかし、脳波信号を活用するには課題も多い。例えば、脳波信号は非侵襲的に捉えられるため本質的にノイズが多い。また、脳波データは限られており個人差も無視できない。
CLIPの使用と多数のテキストと画像ペアに対するトレーニングのおかげで、Stable Diffusionにおけるテキスト空間と画像空間はよく整列している。だがノイズの多い脳波と画像のペアを用いて、脳波、テキスト、画像の空間をどのように整列させるのかが問題となる。
この問題に対して研究者らは、主に3つのモジュールからなるシステムを構築する。(1)ノイズの多い脳波データから情報を抽出するEEGエンコーダーのためのマスク信号の事前訓練、(2)Stable Diffusionを用いた、EEGと画像のペアからなるデータセットによる微調整、(3)追加のCLIPエンコーダーを用いたEEG、テキスト、画像の空間の整列、となる。
今回使用したEEGと画像のペアデータは、6人の被験者がImageNetデータセットから40の異なるカテゴリーのオブジェクトに属する2000枚の画像を見せられながら記録された脳波のコレクションである。そのため、40カテゴリーに限定されていることに留意したい。
この手法の精度を評価するため、類似の最新研究(Brain2Image)と定性的に比較した実験を行った。結果、Brain2Imageによって生成した画像よりも著しく精度が高いことが確認でき、提案手法の有効性を示した。
Source and Image Credits: Yunpeng Bai, Xintao Wang, Yanpei Cao, Yixiao Ge, Chun Yuan, and Ying Shan. DreamDiffusion: Generating High-Quality Images from Brain EEG Signals
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR