脳波から言葉を生成するAI「Brain-to-Text」　“声道”への指令を解読、言葉に変換：Innovative Tech

米University of California, San Franciscoなどによる研究チームは、脳に電極を埋め込み、脳波から言葉を生成する研究報告を発表した。発声した際に声道付近の筋肉に指令を送る脳神経から読み取り、脳波から言葉を生成する。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　米University of California, San Franciscoなどによる研究チームが発表した論文「Neuroprosthesis for Decoding Speech in a Paralyzed Person with Anarthria」は、脳に電極を埋め込み、脳波から言葉を生成する深層学習を用いたシステムを提案した研究報告だ。発声した際に声道付近の筋肉に指令を送る脳神経から読み取り、脳波から言葉を生成する。

「How are you today？」という質問文に対して、電極を埋め込んだ参加者の脳波を分析して「I am very good」と出力している様子

　脳の電気的活動を記録し、ロボットアーム、ビデオゲーム、コンピュータ画面上のカーソルなど、外界の何かを制御する信号に変換する研究は数多く探求されてきた。

　中でもテキストに変換するためには通常、動きを制御する脳の一部である運動皮質にインプラントが配置される。ユーザーはバーチャルキーボード上を移動するカーソルを制御する特定の物理的なアクションを想像する。

　だが、それではアルファベットを1文字ずつタイピングしなければならないため、入力が遅い。そこでこの研究では、脳波から直接言葉を生成する野心的なアプローチを検証する。具体的には、カーソルやペンを動かすユーザーの意図を解読する代わりに、声道を制御する意図を解読する。

　声道は、喉頭や舌、唇を支配する数十の筋肉で構成される。発声は、喉頭の声帯に可聴振動を発生させ、唇や顎、舌の形を変えることで呼吸を形作っており、非常に複雑な運動行為でもある。研究グループは、これらの筋肉に動きのコマンドを送る脳の運動皮質部分に焦点を当てて、この問題に取り組む。

　この脳領域の神経活動を有用な方法で研究するには、発話内容と、その言葉を発したときの筋肉の動きの指令である神経活動のデータセットが必要になる。研究グループは、脳幹部の脳卒中により構音障害と痙性四肢麻痺を呈した参加者に、皮質脳波（ECoG）の電極を脳に埋め込みデータを集めた。

　参加者には「空腹」「のどが渇いた」などの日常生活に役立つ50の単語リストの中から、「いいえ、のどが渇いていません」など、自分で選択した文を生成してもらった。

ブレインコンピュータインタフェースの概略図

　記録された皮質活動のパターンから単語を検出・分類するために、深層学習アルゴリズムを用いて計算モデルを作成した。これらの計算モデルと、直前の質問文から次の単語の確率を求める自然言語モデルを適用し、参加者が発話しようとした文の全文をデコードする。

　実験では参加者に質問文を見てもらい、その答えを考えてもらった。結果、参加者の皮質活動からリアルタイムに文を解読したところ、1分間に15.2語の単語を解読し、単語の誤り率は中央値で25.6％であった。また、81週間の研究期間を通して安定した皮質信号を用いて、47.1％の精度で単語を分類した。

　この結果から、神経活動を利用して、50語のセットから単語を生成しようとする試みを検出・分類できることが分かった。今回は質問文に対して50単語の中から検出するにとどまったが、さらに単語数を増やし神経活動との関係を細かく学習していけば、より多様な表現が生成できるようになるだろう。

　ここで“生成”という言葉に疑問を感じる人がいるかもしれない。50単語というデータベースから脳波に応じて確率が高い単語を選択しているだけにすぎないのではないかという疑問である。

　しかし、今は50単語いう人間が想像できる範囲での量にすぎないからで、1人の人間だけでは想像できない言語表現をデータベースに持ったコンピュータから出力されるテキストは生成と感じてしまうだろう。

　例えば、Text-to-Image、いわゆる画像生成AIで考えると分かりやすい。これも画像を新しく“生成”しているように見えて、テキストと画像の特徴量の近さを特徴空間で検索しているだけにすぎず、その特徴量が人間が考える量をはるかに超える膨大な量であるため、単にテキストと画像の特徴量が近い画像を出力しているだけなのに、あたかも人間が思い付かない新しい画像が生成したかのように感じてしまう。

　よって、Brain-to-Textモデルも特徴量が増えていけば、より多様で表現豊かな自然言語が生成されていくと考えられる。

Source and Image Credits: David A. Moses, Ph.D., Sean L. Metzger, M.S., Jessie R. Liu, B.S., Gopala K. Anumanchipalli, Ph.D., Joseph G. Makin, Ph.D., Pengfei F. Sun, Ph.D., Josh Chartier, Ph.D., Maximilian E. Dougherty, B.A., Patricia M. Liu, M.A., Gary M. Abrams, M.D., Adelyn Tu-Chan, D.O., Karunesh Ganguly, M.D., Ph.D., and Edward F. Chang, M.D. Neuroprosthesis for Decoding Speech in a Paralyzed Person with Anarthria

脳波から言葉を生成するAI「Brain-to-Text」　“声道”への指令を解読、言葉に変換：Innovative Tech

Innovative Tech：

関連記事

関連リンク

脳波から言葉を生成するAI「Brain-to-Text」 “声道”への指令を解読、言葉に変換：Innovative Tech

Innovative Tech：

関連記事

関連リンク

脳波から言葉を生成するAI「Brain-to-Text」　“声道”への指令を解読、言葉に変換：Innovative Tech