このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。
X: @shiropen2
オランダのRadboud Universityに所属する研究者らが発表した論文「PAM: Predictive Attention Mechanism for Neural Decoding of Visual Perception」は、見ている画像を脳活動から再構築するAIを用いた神経デコーディングを提案した研究報告である。
神経デコーディングは、脳の神経活動から知覚刺激の特徴を解読する技術であり、この分野の研究は大きく分類や識別、再構成の3つのアプローチに分けられる。
分類は、脳活動パターンを事前に定義したカテゴリーに振り分ける手法で、識別は被験者が見ている特定の画像を候補となる複数の刺激の中から特定する手法だ。再構成は、脳活動データから見ている画像を再生成する手法であり、最も複雑なアプローチで、脳活動から画像そのものを再現することを目指す。
この研究では、脳活動から画像を再構成するアプローチに挑戦する。実行するために、予測アテンション機構(PAM)と呼ばれる新しい手法を用いる。
従来のアテンション機構では入力データから直接クエリを導出していたが、PAMでは学習可能なクエリを使うことで、脳データの中で最も関連性の高い特徴に動的に焦点を当てられる。これにより、脳活動データのような複雑で不透明な入力にも対応可能になる。また、画像生成にはGANの一種であるStyleGAN-XLを組み合わせている。
実験では2つの異なるデータセットを使用。1つ目のデータセット(B2G)は、サルが見ている合成画像を電極アレイによって記録したMUAデータで構成している。2つ目のデータセット(GOD)は、人間が見ている自然画像を機能的磁気共鳴画像法(fMRI)で記録した脳活動データで構成している。
B2Gデータセットを用いた実験では、PAMは従来の線形デコーダーと比較して、はるかに優れた画像再構築性能を示した。再構築した画像は元の刺激と視覚的に非常に類似しており、定量的な評価指標でも大幅な改善が見られた。GODデータセットの再構成はMUAデータほど高品質ではないが、刺激の特定の特徴を反映していた。
PAMの再構築性能の向上だけでなく、アテンションの重みを分析することで、脳のどの部位(領域)がより重要な役割や機能を果たしているかを理解できる。B2GデータセットではV1(後頭部大脳皮質に位置する1次視覚野)が基本的な輪郭、V4(第4視覚野)が色情報、IT(下側頭葉)が顔などの特徴を捉えた。
GODデータセットではV1とV2(第2視覚野)が基本的な輪郭、V3(第3視覚野)がより定義された形状、V4が色と質感の情報、LOC(外側後頭複合体)とFFA(紡錘状顔領域)がより文脈的な情報を捉えた。
両データセットにおいて、より高次の視覚処理を行う脳領域(B2GではIT、GODではLOC)に高いアテンションが向けられていることが明らかになった。興味深いことに、高次領域の情報は直接的には元の画像と視覚的に似ていないにもかかわらず、最終的な再構築に大きく貢献していた。これは、高次領域の情報が画像の全体的な特徴や意味的な側面を導く役割を果たしていることを示唆している。
Source and Image Credits: Thirza Dado, Lynn Le, Marcel van Gerven, Yagmur Gucluturk, Umut Guclu. PAM: Predictive Attention Mechanism for Neural Decoding of Visual Perception.
肥満治療薬の仕組み なぜ一口食べる前から満腹を感じる? 「食前満腹感」を引き起こす脳の仕組みを解明
寝不足で失われた「記憶」、後で十分寝ても手遅れ? 繰り返し高速再生する機能は戻らず 米研究者らが検証
幼少期ポケモンにハマってた人は「ポケモン特有の脳活動」に成長 米国チームによる2019年の研究報告
「歩くのが遅い人は脳が小さくIQが低い」──歩行速度と脳の構造に相関あり? 米国チームの実験結果
音楽を体のどの部位で感じているのか? 東大と広島大が500人以上で検証Copyright © ITmedia, Inc. All Rights Reserved.