ITmedia NEWS > 速報 >
ITmedia AI+ AI活用のいまが分かる

動画・音声を視聴したときの“脳反応”を予測──Metaが開発した脳活動予測AI「TRIBE v2」の可能性Innovative Tech

» 2026年04月02日 08時00分 公開

Innovative Tech:

2019年にスタートした本連載「Innovative Tech」は、世界中の幅広い分野から最先端の研究論文を独自視点で厳選、解説する。執筆は研究論文メディア「Seamless」(シームレス)を主宰し、日課として数多くの論文に目を通す山下氏が担当。イラストや漫画は、同メディア所属のアーティスト・おね氏が手掛けている。X:@shiropen2

 米Metaなどに所属する研究者らが発表した論文「A foundation model of vision, audition, and language for in-silico neuroscience」は、人間の脳活動を予測する基盤モデル「TRIBE v2」を発表した研究報告だ。

 従来の脳科学では「顔を見るときはこの部位が活発になる」といったように、顔認識や言語処理など個別の機能ごとに対応する脳部位を調べるのが主流だった。しかし、日常的には複数の感覚が同時に働いているのが人間の脳だ。TRIBE v2はこの複雑な脳活動に対し、動画・音声・テキストという3つの情報を統合して、それらを見聞きした際に脳がどう反応するかをシミュレーションする。

photo 動画・音声・テキストから脳活動を予測するTRIBE v2の全体像

 これまでは脳の反応を調べるには、人間をfMRI装置に入れて測定するのが常識だった。しかしTRIBE v2は、720人分・1000時間以上のfMRI脳データを学習しており、「インシリコ実験」──すなわち生身の人間やfMRIを一切使わずに、コンピュータ上だけで脳科学の実験を成立させられる。

 例えば、顔の画像を見せたときに反応する「紡錘状回顔領域」や、文字を見たときに活発になる「視覚的単語形状領域」、他にも身体や場所などといった数十年にわたる実証研究で特定されてきた脳の局所的な反応を、AIの予測だけでほぼ正確に再現できた。加えて、複数の感覚が脳内でどのように統合されるかというメカニズムまでも可視化している。

photo 顔・場所・身体・文字に対する脳の反応を、AIの予測(上段)だけで実測(下段)とほぼ一致させた
photo 言語処理に関する知見も、TRIBE v2はfMRIなしの予測(上段C)だけで実測(下段D)と一致する結果を再現した

 その結果、従来の線形モデルを大幅に上回る精度を達成し、未知の動画や音声、さらには一度もデータとして取り込んだことのない新規被験者に対しても、脳の反応を予測できるようになった。国際コンペ「Algonauts 2025」では263チーム中1位を獲得している。

photo TRIBE v2による脳反応の予測は、実際にfMRIで測定した個人データの大半よりも正確だった
photo テキスト(赤)・音声(緑)・動画(青)が脳のどこで処理されるかを色分けした脳マップ

 ただし制約もある。fMRIの性能(時間分解能)の限界から、ミリ秒単位の神経活動は捉えられない。入力も視覚・聴覚・言語に限られるため、嗅覚や触覚などの感覚は扱えない。さらに、脳を刺激の受動的な受け手としてのみモデル化しており、行動の生成や意思決定、発達過程、臨床的な病態といった能動的・動的な側面にはまだ対応できていない。

 一方で、データ量と精度の間にスケーリング則が確認されており、今後さらに大規模なfMRIデータが集まれば予測精度がさらに向上する可能性がある。

 TRIBE v2をプラットフォーマーとしてのMetaから見ると、ある動画をユーザーが視聴した際に脳のどの領域がどう活性化するかを“配信前”に把握できるという点が注目に値するという。つまり、動画を公開する前に、その映像が人々の感情をどう揺さぶるかを脳科学の観点からシミュレーションできるわけだ。

 MetaはSNSを長年運営しているため、人々の反応データ(エンゲージメント指標、画面の滞在時間など)を膨大に保持しており、それらをターゲティング広告などに活用してきた。そこに今回の脳反応予測が加わることで、ユーザーの反応をより根本的なレベルから予測・最適化していく道が開けるかもしれない。

Source and Image Credits: d’Ascoli, S., Rapin, J., Benchetrit, Y., Brookes, T., Begany, K., Raugel, J., Banville, H., & King, J.-R. (2026). A foundation model of vision, audition, and language for in-silico neuroscience. FAIR at Meta. https://github.com/facebookresearch/tribev2


Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

あなたにおすすめの記事PR