Articles in Turing Academy cover three major themes: ESG Net Zero Laboratory, AI Laboratory and Lean Management Laboratory. We will share articles on related topics from time to time. We also welcome students who are interested in the above topics to submit articles and share them with you. Insights (I want to contribute)

腦機介面新突破:非侵入式「腦到文字」解碼技術的未來展望

 

圖1:研究方法.( Zhang et al., 2025)
 

 

圖靈學院
科楠
2025-3-7

 

    近年來,腦機介面(Brain-Computer Interface, BCI)技術的發展為失去語言或運動能力的患者帶來了新的希望。然而,傳統的侵入式腦機介面雖然效果顯著,卻伴隨著手術風險和長期維護的挑戰。最近,Meta AI 的研究團隊提出了一種非侵入式的「腦到文字」解碼方法,名為 Brain2Qwerty,該方法通過腦電圖(EEG)和腦磁圖(MEG)來解碼大腦活動,並將其轉化為文字。這項技術的出現,不僅縮小了侵入式與非侵入式腦機介面之間的差距,也為未來的臨床應用提供了新的可能性。

 

本文將深入探討這項技術的原理、實驗結果、可行性分析,以及它對未來腦機介面技術的潛在影響。

 

1. 技術背景與研究動機

 

1.1 侵入式腦機介面的挑戰

 

    侵入式腦機介面通過在大腦運動區域植入電極,記錄和解碼神經活動,從而幫助患者進行運動和溝通任務。近年來,隨著人工智慧模型的進步,侵入式腦機介面已經能夠解碼自然語言,並實現接近正常語速的語言輸出。例如,Metzger 等人(2023)的研究表明,侵入式腦機介面可以實現每分鐘 79 個單詞的解碼速度,字符錯誤率(Character Error Rate, CER)為 15.2%。

然而,侵入式腦機介面的最大問題在於其手術風險。植入電極可能導致腦出血、感染等併發症,且長期維持功能性皮質植入仍然具有挑戰性。此外,侵入式腦機介面的應用範圍有限,難以大規模推廣到需要診斷或恢復溝通能力的患者群體。

 

1.2 非侵入式腦機介面的潛力

 

    相比之下,非侵入式腦機介面(如基於 EEG 的技術)雖然避免了手術風險,但其信噪比(Signal-to-Noise Ratio, SNR)較低,解碼性能有限。傳統的非侵入式腦機介面通常要求用戶執行複雜的任務,例如注視閃爍的刺激物或長時間想像手腳運動,這些任務雖然能產生相對容易檢測的腦電圖模式,但解碼準確率仍然不高。

 

為了解決這些問題,研究團隊提出了基於 MEG 的非侵入式腦機介面。MEG 通過測量大腦皮層產生的磁場波動,具有比 EEG 更高的信噪比。近年來,基於 MEG 的自然語言解碼技術在語言理解任務中取得了顯著進展,這表明結合現代 AI 模型和高質量的 MEG 信號,有可能實現從非侵入式腦活動記錄中解碼語言生成。

 

2. Brain2Qwerty 技術原理與實驗設計

 

2.1 實驗設計

 

    研究團隊招募了 35 名健康成年志願者,要求他們在鍵盤上輸入短暫記憶的句子,同時使用 EEG 或 MEG 記錄其大腦活動。實驗中,句子以單詞形式逐個顯示在螢幕上,參與者在看到提示後開始輸入句子,且不提供視覺反饋。研究團隊開發了 Brain2Qwerty 模型,這是一個三階段的神經網路架構,旨在從腦電信號中解碼文字。

 

2.2 Brain2Qwerty 模型架構

 

Brain2Qwerty 模型由三個核心模組組成:

 

1. 卷積模組(Convolutional Module):處理 500 毫秒的 MEG/EEG 信號窗口,提取特徵。


2. 變換器模組(Transformer Module):在句子級別進行訓練,利用上下文訊息來精確解碼每個字符。


3. 預訓練語言模型(Pretrained Language Model):用於校正變換器的輸出,進一步提高解碼準確率。

 

2.3 實驗結果

 

    實驗結果顯示,Brain2Qwerty 在 MEG 數據上的平均字符錯誤率(CER)為 32%,顯著優於 EEG 的 67%。對於表現最好的參與者,MEG 的解碼 CER 可低至 19%,並且能夠完美解碼訓練集之外的句子。相比之下,EEG 的解碼效果較差,生成的文本大多難以理解。

 

此外,研究團隊還對模型進行了多項消融實驗,驗證了每個模組的貢獻。結果表明,卷積模組和變換器模組的結合顯著提高了字符解碼的準確率,而語言模型模組進一步將 EEG 和 MEG 的 CER 分別提高了 4% 和 6%。

 

 

圖2:跨模型的解碼性能。A. 左手和右手按鍵時腦電圖誘發反應的差異。每條黑線代表感測器相對於按鍵的差分電壓。 B. 與 A 相同,但針對 MEG。 C. 在每個時間樣本上訓練線性分類器,以預測每次按鍵時是左手還是右手。灰線代表機會水準,誤差線是參與者平均值的標準誤差。顯著的解碼分數(p < 0.05)以星號標示。 D.與 C 相同,但用於字元分類。 E-H。比較現有架構(線性和 EEGNet)以及我們的三步驟 Brain2Qwerty 模型(Conv+Trans+語言模型)的消融,以獲得手部錯誤率(HER)和字元錯誤率(CER)。每一個點代表單一參與者的平均得分。統計意義以 p < 0.05 (*)、p < 0.01 (**) 和 p < 0.001 (***) 表示。 (Pinet and Nozari, 2020)


3. 技術可行性分析

 

3.1 信號品質與解碼性能

 

    MEG 的高信噪比是 Brain2Qwerty 模型成功的關鍵因素之一。與 EEG 相比,MEG 能夠更清晰地捕捉大腦皮層的活動,從而提供更準確的解碼結果。實驗結果顯示,MEG 在左右手按鍵分類任務中的準確率達到 74%,而 EEG 僅為 64%。這表明 MEG 在捕捉運動相關的大腦活動方面具有明顯優勢。

 

3.2 模型的泛化能力

 

    Brain2Qwerty 模型不僅能夠解碼訓練集中的句子,還能夠處理未見過的句子。這表明該模型具有一定的泛化能力,能夠適應不同的語言輸入。此外,模型還能夠糾正參與者的打字錯誤,這進一步證明了其語言模型的強大能力。

 

3.3 臨床應用的挑戰

 

    儘管 Brain2Qwerty 在實驗中表現出色,但其臨床應用仍面臨一些挑戰。首先,該模型目前無法實時運行,因為變換器和語言模型需要在句子級別進行處理,這意味著必須等待整個句子輸入完成後才能生成輸出。其次,該研究僅針對健康參與者進行了測試,尚未應用於失去運動能力的患者(如閉鎖綜合症患者)。未來的研究需要探索如何將打字任務轉化為想像任務,或者設計能夠跨參與者泛化的 AI 系統。

 

4. 對未來腦機介面技術的影響

 

4.1 非侵入式腦機介面的發展潛力

 

    Brain2Qwerty 的成功展示了非侵入式腦機介面在語言解碼方面的潛力。隨著 MEG 技術的進一步發展,特別是基於光泵磁力計(Optically Pumped Magnetometers, OPMs)的新型 MEG 傳感器的出現,未來有望實現可穿戴的非侵入式腦機介面設備。這將大大降低腦機介面的使用門檻,並使其能夠應用於更廣泛的患者群體。

 

4.2 對語言生成與溝通的影響

 

    這項技術的突破不僅對失去語言能力的患者具有重要意義,還可能對語言生成和溝通方式產生深遠影響。未來,非侵入式腦機介面可能成為一種新的溝通工具,幫助人們更快速、更自然地表達思想。此外,該技術還可能應用於虛擬實境(VR)和擴增實境(AR)領域,實現更直觀的人機交互。

 

4.3 倫理與隱私問題

 

    隨著腦機介面技術的發展,倫理和隱私問題也將成為關注的焦點。腦機介面能夠直接讀取大腦活動,這可能引發對個人隱私的擔憂。未來的研究和政策制定需要確保這些技術的使用符合倫理標準,並保護用戶的隱私權。

 

5. 結論

 

    Brain2Qwerty 的出現標誌著非侵入式腦機介面技術的重大進步。通過結合 MEG 的高信噪比和現代 AI 模型,該技術能夠以較低的錯誤率解碼語言生成,並在未來有望應用於臨床環境。儘管目前仍存在一些技術挑戰,但隨著 MEG 技術的進一步發展和 AI 模型的改進,非侵入式腦機介面將成為一種安全、高效的溝通工具,為失去語言能力的患者帶來新的希望。

 

這項技術的未來發展不僅將改變腦機介面的應用場景,還可能對語言生成、人機交互等領域產生深遠影響。我們期待在不久的將來,看到更多基於非侵入式腦機介面的創新應用,為人類社會帶來更多的便利與可能性。

 

 

Reference:
Brain-to-Text Decoding:A Non-invasive Approach via Typing