NTT、「脳解読技術」を開発　AIで“脳内イメージ”を言語化できるように

公開 2025年11月17日 18時58分

[ITmedia]

印刷する

　NTTは11月17日、脳の活動データをもとに、人が見たり思い浮かべたりした視覚情報を言葉に変換する技術「マインド・キャプショニング」を開発したと発表した。大量のテキストデータを学習させることで、自然言語処理性能を高めたAIモデル「深層言語モデル」を活用。将来的には、発話困難者の意思伝達などに役立つことが期待されるという。

研究の概要と主要な結果（出典：プレスリリース、以下同）

　マインド・キャプショニングでは、MRI装置を使って脳活動を調べる「fMRI」で得たデータを基に、視覚情報を文章で出力する。開発段階では、人が動画を見ている際の脳の活動データと、その動画の視覚情報を説明する文章を収集。深層言語モデル「DeBERTa-large」により、脳の活動から、動画の説明文の意味を示す数値を予測するデコーダーを構築した。これに、文章の単語を一部隠し、その単語を予測するタスクで訓練したAIモデル「RoBERTa-large」を組み合わせた。

マインド・キャプショニングの仕組み

　NTTはマインド・キャプショニングで生成した文章をもとに、候補となる100本の動画から、人が見たり思い浮かべたりした動画を当てられる確率も調べた。6人が参加した検証では、脳全体の活動データを利用した場合「観察（知覚）時は約50％、想起時でも約30％の精度で正しい動画を同定できた」（NTT）という。

　NTTによると「言語処理に関与する脳部位」（前頭葉から側頭葉にわたる言語ネットワーク）の活動を除外しても、精度に大きな変化は無かったという。マインド・キャプショニングが「非言語的な情報を言語として解釈可能にしていることを示唆している」とした。

マインド・キャプショニングの精度を検証した結果

　NTTは今後、マインド・キャプショニングが脳内の情報をどれほど正確に捉えているかより詳細に検証する。「将来的には、乳幼児や動物など、言葉を話せない対象の脳における構造化された思考の発達過程を解明する研究にも応用できると期待される」（NTT）

　一方、マインド・キャプショニングについて「個人の心的プライバシーを侵害するおそれを内包している」とNTT。今回は実験の参加者に同意を得て、数日にわたり、1人当たり延べ17時間ほど脳の活動を測定した。しかし将来的には「より少ないデータから個人の思考内容を解読できる可能性が生じる」と指摘。予測精度とプライバシーの保護を両立する研究手法やデータ運用にも注力する。

　今回の研究成果は、米国の科学誌「Science Advances」のオンライン版に5日（現地時間）に掲載された。

印刷する