米University of California, San Franciscoなどによる研究チームが発表した論文「Neuroprosthesis for Decoding Speech in a Paralyzed Person with Anarthria」は、脳に電極を埋め込み、脳波から言葉を生成する深層学習を用いたシステムを提案した研究報告だ。発声した際に声道付近の筋肉に指令を送る脳神経から読み取り、脳波から言葉を生成する。

「How are you today？」という質問文に対して、電極を埋め込んだ参加者の脳波を分析して「I am very good」と出力している様子

　脳の電気的活動を記録し、ロボットアーム、ビデオゲーム、コンピュータ画面上のカーソルなど、外界の何かを制御する信号に変換する研究は数多く探求されてきた。

　中でもテキストに変換するためには通常、動きを制御する脳の一部である運動皮質にインプラントが配置される。ユーザーはバーチャルキーボード上を移動するカーソルを制御する特定の物理的なアクションを想像する。

　だが、それではアルファベットを1文字ずつタイピングしなければならないため、入力が遅い。そこでこの研究では、脳波から直接言葉を生成する野心的なアプローチを検証する。具体的には、カーソルやペンを動かすユーザーの意図を解読する代わりに、声道を制御する意図を解読する。

　声道は、喉頭や舌、唇を支配する数十の筋肉で構成される。発声は、喉頭の声帯に可聴振動を発生させ、唇や顎、舌の形を変えることで呼吸を形作っており、非常に複雑な運動行為でもある。研究グループは、これらの筋肉に動きのコマンドを送る脳の運動皮質部分に焦点を当てて、この問題に取り組む。

　この脳領域の神経活動を有用な方法で研究するには、発話内容と、その言葉を発したときの筋肉の動きの指令である神経活動のデータセットが必要になる。研究グループは、脳幹部の脳卒中により構音障害と痙性四肢麻痺を呈した参加者に、皮質脳波（ECoG）の電極を脳に埋め込みデータを集めた。

　参加者には「空腹」「のどが渇いた」などの日常生活に役立つ50の単語リストの中から、「いいえ、のどが渇いていません」など、自分で選択した文を生成してもらった。

ブレインコンピュータインタフェースの概略図

　記録された皮質活動のパターンから単語を検出・分類するために、深層学習アルゴリズムを用いて計算モデルを作成した。これらの計算モデルと、直前の質問文から次の単語の確率を求める自然言語モデルを適用し、参加者が発話しようとした文の全文をデコードする。

　実験では参加者に質問文を見てもらい、その答えを考えてもらった。結果、参加者の皮質活動からリアルタイムに文を解読したところ、1分間に15.2語の単語を解読し、単語の誤り率は中央値で25.6％であった。また、81週間の研究期間を通して安定した皮質信号を用いて、47.1％の精度で単語を分類した。

　この結果から、神経活動を利用して、50語のセットから単語を生成しようとする試みを検出・分類できることが分かった。今回は質問文に対して50単語の中から検出するにとどまったが、さらに単語数を増やし神経活動との関係を細かく学習していけば、より多様な表現が生成できるようになるだろう。

　ここで“生成”という言葉に疑問を感じる人がいるかもしれない。50単語というデータベースから脳波に応じて確率が高い単語を選択しているだけにすぎないのではないかという疑問である。

　しかし、今は50単語いう人間が想像できる範囲での量にすぎないからで、1人の人間だけでは想像できない言語表現をデータベースに持ったコンピュータから出力されるテキストは生成と感じてしまうだろう。

　例えば、Text-to-Image、いわゆる画像生成AIで考えると分かりやすい。これも画像を新しく“生成”しているように見えて、テキストと画像の特徴量の近さを特徴空間で検索しているだけにすぎず、その特徴量が人間が考える量をはるかに超える膨大な量であるため、単にテキストと画像の特徴量が近い画像を出力しているだけなのに、あたかも人間が思い付かない新しい画像が生成したかのように感じてしまう。

　よって、Brain-to-Textモデルも特徴量が増えていけば、より多様で表現豊かな自然言語が生成されていくと考えられる。

Source and Image Credits: David A. Moses, Ph.D., Sean L. Metzger, M.S., Jessie R. Liu, B.S., Gopala K. Anumanchipalli, Ph.D., Joseph G. Makin, Ph.D., Pengfei F. Sun, Ph.D., Josh Chartier, Ph.D., Maximilian E. Dougherty, B.A., Patricia M. Liu, M.A., Gary M. Abrams, M.D., Adelyn Tu-Chan, D.O., Karunesh Ganguly, M.D., Ph.D., and Edward F. Chang, M.D. Neuroprosthesis for Decoding Speech in a Paralyzed Person with Anarthria

画像生成AIが“ロボットの動き”を生成　英ICL「DALL-E-Bot」開発
英Imperial College London（ICL）の研究チームは、テキスト入力に応じて自動生成した画像を目標に、ロボットが動いて物体を再配置するシステムを提案した研究報告を発表した。
文章から“3Dモデル”をAIが生成　米Googleなどが「DreamFusion」を開発
米Google Researchと米UC Berkeleyの研究チームは、テキストから3Dオブジェクトを生成するシステムを提案した研究報告を発表した。「DreamFusion」と呼ぶこの手法は、テキストから2D画像を生成する拡散モデルを用いて、テキストから3次元への合成を実行する。
段落ごとに文章を自動要約するAIテキストエディタ　ドイツの研究者らが開発
ドイツのUniversity of Bayreuthの研究チームは、段落（パラグラフ）単位で自動要約する学習ベースのライティングツールを開発した。書き手が行う文章添削の効率化を支援するという。
愛犬の合成画像を生成できるAI　文章で指示するだけでコスプレ　米Googleが開発
米Google Researchと米ボストン大学の研究チームは、数枚の被写体画像とテキスト入力を使って、与えられた被写体が溶け込んだ新たな合成画像を作成する被写体駆動型Text-to-Imageモデルを開発した。
「好きなキャラに近い絵をAIが量産」――ある概念を“単語”に圧縮し入力テキストに使える技術
イスラエルのTel-Aviv UniversityとNVIDIAの研究チームは、ある概念を新しい単語（論文ではnew pseudo-wordと表現している）に置き換え、その新しい単語を一部に用いた文章を画像生成AIの入力に使用するシステムを開発した。