AI又一突破!解碼人類(lèi)思想,腦損傷患者能實(shí)現“無(wú)障礙”交流了?
作者:董怡楠
發(fā)布時(shí)間:2025-02-11
瀏覽次數:2279

對人類(lèi)而言,溝通至關(guān)重要。然而,全球有數以萬(wàn)計的人因腦損傷而無(wú)法實(shí)現正常交流。

腦損傷是指腦組織的異常,可由神經(jīng)系統疾病或創(chuàng )傷性腦損傷(TBI)引起,導致各種神經(jīng)功能缺損。此前發(fā)表在《柳葉刀神經(jīng)病學(xué)》的研究顯示,2021 年全球有超過(guò) 30 億人患有神經(jīng)系統疾病,如中風(fēng)、阿爾茲海默癥、腦膜炎、癲癇和自閉癥譜系障礙等。此外,全球每年也約有 6900 萬(wàn)人遭受著(zhù)因道路交通事故等導致的創(chuàng )傷性腦損傷。

能否“修復”損傷的大腦,對于改善人類(lèi)的日常生活和工作至關(guān)重要,且意義重大。

今天,Meta 公布了兩項重磅研究,他們聯(lián)合認知科學(xué)和神經(jīng)科學(xué)頂尖研究機構巴斯克認知、大腦和語(yǔ)言中心(BCBL),采用非侵入式方法利用 AI 解碼大腦語(yǔ)言、并進(jìn)一步理解人類(lèi)大腦如何形成語(yǔ)言。這兩項突破性的研究成果也使得高級機器智能(Advanced Machine Intelligence, AMI)更加接近實(shí)現。

據介紹,第一項研究成功地通過(guò)非侵入式方法解碼了腦部活動(dòng)中句子的生成,準確解碼了多達 80% 的字符,也就是說(shuō)可以完全通過(guò)大腦信號重建想表達的完整句子;第二項研究則詳細介紹了 AI 如何幫助理解這些大腦信號,并闡明大腦如何有效地將思想轉化為一連串的文字。

這不僅有助于幫助無(wú)法溝通的患者恢復語(yǔ)言能力,也幫助科學(xué)家加深對大腦處理語(yǔ)言和認知過(guò)程的理解,推動(dòng)精度更高、更安全可靠的腦機接口(BCI)的開(kāi)發(fā)。

從大腦活動(dòng)到文本輸出:依靠非侵入式方法解碼

目前的方法表明,可以通過(guò)神經(jīng)假體向 AI 解碼器輸入指令信號來(lái)恢復交流。然而,當前的立體定向腦電圖和皮層腦電圖等侵入式腦記錄技術(shù)需要神經(jīng)外科干預,且難以推廣,非侵入式方法又通常受到其記錄信號的噪聲復雜性的限制。

第一項研究中,Meta 團隊提出了一種非侵入式方法來(lái)解碼大腦活動(dòng)中的句子生成,并在 35 名腦部狀態(tài)健康的志愿者中證明了其有效性。

他們訓練了一個(gè)新的 AI 模型,可以解碼來(lái)自腦電圖(EEG)或腦磁圖(MEG)的句子,參與者則在 QWERTY 鍵盤(pán)上輸入簡(jiǎn)短的句子。該 AI 模型可以解碼參與者用 MEG 記錄輸入的多達 80% 的字符,平均字符錯誤率(CER)為 32% ,大大優(yōu)于傳統的 EEG(CER:67%)。對于表現最佳的參與者,該模型實(shí)現了 19% 的 CER,并且可以完美解碼訓練集之外的各種句子。

具體實(shí)驗設計如下:

參與者坐在投影屏幕前,MEG 和 EEG 分別距離眼睛 100 厘米和 70 厘米,鍵盤(pán)放在一個(gè)穩定的平臺上。M/EEG 傳感器與鍵盤(pán)之間的距離為 70 厘米,確保參與者能以自然的姿勢打字。每次實(shí)驗包括三個(gè)步驟:閱讀、等待、鍵入。

圖|鍵入實(shí)驗設計

首先,準備好的句子在參與者面前的屏幕上逐詞顯示,以黑色大寫(xiě)字體呈現在 50% 灰色背景上,持續時(shí)間在 465 至 665 毫秒之間,單詞之間沒(méi)有間隔。其次,在每個(gè)句子的最后一個(gè)單詞消失后,屏幕上會(huì )顯示一個(gè)黑色的固定十字,持續 1.5 秒,參與者被要求在 1.5 秒內記住這個(gè)句子。當十字從屏幕上消失后,參與者開(kāi)始憑記憶輸入句子。

在打字過(guò)程中,屏幕上不會(huì )顯示任何字母,但有最低限度的視覺(jué)反饋,即每按一次鍵,屏幕中央的黑色小方塊就順時(shí)針旋轉 10 度,有助于在不呈現按鍵輸入的情況下發(fā)出成功按鍵的信號,從而確保參與者最小化眼球運動(dòng)。

參與者盡可能準確地鍵入句子,不使用空格糾錯,同時(shí)將注意力集中在屏幕中央,使用大寫(xiě)字母且不帶重音。每次測試包括 128 個(gè)不重復的陳述性句子(西班牙語(yǔ)),每句話(huà)包含 5 到 8 個(gè)單詞,由定語(yǔ)、名詞、形容詞、介詞和動(dòng)詞組成。在 EEG 中,參與者共輸入了 4000 個(gè)句子和 146000 個(gè)字符;在 MEG 中,共輸入了 5100 個(gè)句子和 193000 個(gè)字符。

接下來(lái),他們對深度學(xué)習架構 Brain2Qwerty 進(jìn)行了訓練,以解碼這些 M/EEG 信號中的單個(gè)字符。Brain2Qwerty 則通過(guò)三個(gè)核心階段從大腦活動(dòng)中解碼文本:(1)一個(gè)卷積模塊(convolutional module),輸入的是 500 毫秒窗口的 M/EEG 信號;(2)一個(gè)在句子層面上訓練的 transformer 模塊(3)一個(gè)預訓練的語(yǔ)言模型,用來(lái)糾正 transformer 模塊的輸出。性能評估使用的是句子層面的 CER。

圖|參與者輸入與基于 MEG 解碼的文本結果(標紅為錯誤部分)

他們評估了平均字符錯誤率 ,結果顯示,Brain2Qwerty 在 MEG 和 EEG 上的錯誤率分別為 32±0.6% 和 67±1.5% ,反映了不同記錄設備之間的巨大差異,表現最好和最差的 EEG 受試者在不同句子中的 CER 分別為 61±2.0% 和 71±2.3%,表現最好和最差的 MEG 受試者在各句子中的 CER 分別為 19±1.1% 和 45±1.2%。

圖|解碼表現較好的 EEG 和 MEG 文本對比,正確解碼字符標為藍色,錯誤為紅色

那么,相比于經(jīng)典的基線(xiàn)架構,Brain2Qwerty 的性能如何呢?

為了解決這個(gè)問(wèn)題,他們用同樣的方法訓練了線(xiàn)性模型和 EEGNet(一種用于腦機接口技術(shù)的流行架構),并通過(guò)跨受試者的 Wilcoxon 檢驗比較了它們與 Brain2Qwerty 的解碼性能。就 MEG 而言,EEGNet 在手誤率(HER)(p=0.008) 和 CER (p<10-4) 方面均優(yōu)于線(xiàn)性模型,但就 EEG 而言,EEGNet 僅在 HER 方面優(yōu)于線(xiàn)性模型(p=0.03)。然而,EEGNet 的效果仍然不如 Brain2Qwerty,相比之下,Brain2Qwerty 在 EEG 和 MEG 的 CER 上分別提高了 1.14 倍和 2.25 倍。

該項研究結果表明,侵入式和非侵入式方法之間的差距縮小,這也為開(kāi)發(fā)安全的腦機接口開(kāi)辟了道路。

從思想到語(yǔ)言的轉化:層次化的表征生成

第二項研究旨在理解協(xié)調人類(lèi)大腦語(yǔ)言生成的神經(jīng)機制。

研究說(shuō)話(huà)時(shí)的大腦活動(dòng)對神經(jīng)科學(xué)來(lái)說(shuō)一直極具挑戰性,部分原因是存在一個(gè)簡(jiǎn)單的技術(shù)問(wèn)題:移動(dòng)嘴巴和舌頭會(huì )嚴重干擾神經(jīng)成像信號。

為了探索大腦如何將想法轉化為復雜的運動(dòng)動(dòng)作序列,Meta 團隊使用 AI 幫助解釋參與者輸入句子時(shí)的 MEG 信號。通過(guò)每秒拍攝 1000 張大腦快照,他們能夠精確定位思想轉化為單詞、音節甚至單個(gè)字母的準確時(shí)刻。

這一研究建立在第一項研究的輸入句子實(shí)驗基礎上,為了研究大腦何時(shí)以及是否會(huì )產(chǎn)生語(yǔ)言表征的層次結構,他們從這些信號(X)線(xiàn)性解碼了四個(gè)層次表征的向量嵌入(Y):上下文詞嵌入(使用 GPT-2),去上下文詞嵌入(使用 Spacy),音節嵌入(使用 FastText)以及字母(使用 One-Hot-Encoder,OHE),使用皮爾遜相關(guān)系數評估解碼性能。

圖|左為實(shí)驗設計,右為解碼層次

研究結果表明,大腦在產(chǎn)生語(yǔ)言時(shí)采用層次化的過(guò)程,首先生成上下文表征,然后依次生成詞匯、音節和字母表征,證實(shí)了語(yǔ)言理論的層次預測:大腦會(huì )產(chǎn)生一系列表征,產(chǎn)生每個(gè)單詞之前的神經(jīng)活動(dòng)以上下文、單詞、音節和字母級表征的連續上升和下降為標志,并逐漸將它們轉化為無(wú)數的動(dòng)作,例如鍵盤(pán)上的實(shí)際手指運動(dòng)。

此外,這項研究還揭示了大腦如何連貫而同時(shí)地表達連續的單詞和動(dòng)作。研究結果表明,大腦使用一種“動(dòng)態(tài)神經(jīng)代碼”——一種特殊的神經(jīng)機制,它可以鏈接連續的表達,同時(shí)在很長(cháng)一段時(shí)間內保持每個(gè)表達。

圖 | 輸入每個(gè)單詞前大腦產(chǎn)生的語(yǔ)言表征層次

然而,Meta 團隊也表示,這些研究也存在一些局限性。

例如,當前的解碼性能仍不夠完善,線(xiàn)性解碼算法可能無(wú)法捕捉大腦活動(dòng)的復雜性,需要更復雜的解碼算法;且還不適用于實(shí)時(shí)解碼,需要開(kāi)發(fā)實(shí)時(shí)架構。在實(shí)用層面上,MEG 要求受試者處于磁屏蔽室中并保持靜止。此外,使用打字任務(wù)來(lái)探究語(yǔ)言產(chǎn)生的神經(jīng)機制,可能無(wú)法完全反映自然語(yǔ)言產(chǎn)生的神經(jīng)機制,研究也主要在健康的參與者中進(jìn)行,還需要進(jìn)一步研究在腦損傷患者中的適用性。

催生“無(wú)障礙交互”新范式

交流是人類(lèi)活動(dòng)的重要內容,用技術(shù)解決交流能力失去或缺陷的問(wèn)題,一直是科技先驅關(guān)注的前沿。

近年來(lái),全球腦機接口技術(shù)正在快速跨越科幻與現實(shí)的邊界。例如,侵入式腦機接口技術(shù)已在運動(dòng)控制和語(yǔ)言解碼等方面取得突破,馬斯克的 Neuralink 公司利用 Link 芯片,使癱瘓患者能以意念操控機械臂完成復雜動(dòng)作;而腦機接口與 AR/VR 融合的多模態(tài)交互技術(shù)也在不斷發(fā)展,Synchron 公司通過(guò)腦機接口操控 Apple Vision Pro 的案例,為消費級應用帶來(lái)了無(wú)限遐想。同時(shí),非侵入式腦機接口技術(shù)因無(wú)需手術(shù)、低風(fēng)險的特點(diǎn),更適合大規模應用,也取得了顯著(zhù)進(jìn)步。

此外,AI 模型的引入有望徹底提升解碼效率和優(yōu)化醫療決策,未來(lái)或能借助 LLM 實(shí)時(shí)解析腦電信號,將零散的神經(jīng)活動(dòng)轉化為連貫語(yǔ)言,甚至實(shí)現與外部 AI 系統的直接交互,從而催生“無(wú)障礙交互”新范式。

對此,你怎么看呢?

參考鏈接:

https://ai.meta.com/blog/brain-ai-research-human-communication/

https://ai.meta.com/research/publications/from-thought-to-action-how-a-hierarchy-of-neural-dynamics-supports-language-production/

https://ai.meta.com/research/publications/brain-to-text-decoding-a-non-invasive-approach-via-typing/

https://www.who.int/news/item/14-03-2024-over-1-in-3-people-affected-by-neurological-conditions--the-leading-cause-of-illness-and-disability-worldwide


歡迎掃碼關(guān)注深i科普!

我們將定期推出

公益、免費、優(yōu)惠的科普活動(dòng)和科普好物!


聽(tīng)說(shuō),打賞我的人最后都找到了真愛(ài)。
做科普,我們是認真的!
掃描關(guān)注深i科普公眾號
加入科普活動(dòng)群
  • 參加最新科普活動(dòng)
  • 認識科普小朋友
  • 成為科學(xué)小記者
欧美精品v欧洲精品|国产三级视频在线播放线观看|91精品欧美一区|精品综合久久久久久98|亚洲自怕偷柏图