メディア
ITmedia AI+ >

脳で“思う”→画像を生成するAI「PAM」 見ている画像の脳活動をもとに生成 オランダの研究者らが発表Innovative Tech(AI+)

» 2024年07月23日 12時00分 公開
[山下裕毅ITmedia]

Innovative Tech(AI+):

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。

X: @shiropen2

 オランダのRadboud Universityに所属する研究者らが発表した論文「PAM: Predictive Attention Mechanism for Neural Decoding of Visual Perception」は、見ている画像を脳活動から再構築するAIを用いた神経デコーディングを提案した研究報告である。

見ている画像を人間の脳活動から再構築するアプローチ

 神経デコーディングは、脳の神経活動から知覚刺激の特徴を解読する技術であり、この分野の研究は大きく分類や識別、再構成の3つのアプローチに分けられる。

 分類は、脳活動パターンを事前に定義したカテゴリーに振り分ける手法で、識別は被験者が見ている特定の画像を候補となる複数の刺激の中から特定する手法だ。再構成は、脳活動データから見ている画像を再生成する手法であり、最も複雑なアプローチで、脳活動から画像そのものを再現することを目指す。

 この研究では、脳活動から画像を再構成するアプローチに挑戦する。実行するために、予測アテンション機構(PAM)と呼ばれる新しい手法を用いる。

 従来のアテンション機構では入力データから直接クエリを導出していたが、PAMでは学習可能なクエリを使うことで、脳データの中で最も関連性の高い特徴に動的に焦点を当てられる。これにより、脳活動データのような複雑で不透明な入力にも対応可能になる。また、画像生成にはGANの一種であるStyleGAN-XLを組み合わせている。

 実験では2つの異なるデータセットを使用。1つ目のデータセット(B2G)は、サルが見ている合成画像を電極アレイによって記録したMUAデータで構成している。2つ目のデータセット(GOD)は、人間が見ている自然画像を機能的磁気共鳴画像法(fMRI)で記録した脳活動データで構成している。

 B2Gデータセットを用いた実験では、PAMは従来の線形デコーダーと比較して、はるかに優れた画像再構築性能を示した。再構築した画像は元の刺激と視覚的に非常に類似しており、定量的な評価指標でも大幅な改善が見られた。GODデータセットの再構成はMUAデータほど高品質ではないが、刺激の特定の特徴を反映していた。

(上段)元の画像、(中段)PAMで再構築した画像、(下段)従来の手法で再構築した画像

 PAMの再構築性能の向上だけでなく、アテンションの重みを分析することで、脳のどの部位(領域)がより重要な役割や機能を果たしているかを理解できる。B2GデータセットではV1(後頭部大脳皮質に位置する1次視覚野)が基本的な輪郭、V4(第4視覚野)が色情報、IT(下側頭葉)が顔などの特徴を捉えた。

 GODデータセットではV1とV2(第2視覚野)が基本的な輪郭、V3(第3視覚野)がより定義された形状、V4が色と質感の情報、LOC(外側後頭複合体)とFFA(紡錘状顔領域)がより文脈的な情報を捉えた。

 両データセットにおいて、より高次の視覚処理を行う脳領域(B2GではIT、GODではLOC)に高いアテンションが向けられていることが明らかになった。興味深いことに、高次領域の情報は直接的には元の画像と視覚的に似ていないにもかかわらず、最終的な再構築に大きく貢献していた。これは、高次領域の情報が画像の全体的な特徴や意味的な側面を導く役割を果たしていることを示唆している。

Source and Image Credits: Thirza Dado, Lynn Le, Marcel van Gerven, Yagmur Gucluturk, Umut Guclu. PAM: Predictive Attention Mechanism for Neural Decoding of Visual Perception.



Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ