一個「毛骨悚然」的裡程碑:華裔科學家AI解碼腦電波,準確率97%
2023-04-01 12:11:50 2
資料來源:新智元
這篇文章大約有1524個單詞,建議閱讀4分鐘。
本文介紹了美國加州大學舊金山分校的科研團隊使用人工智慧解碼系統將人類腦電波翻譯成英語句子,準確率為97%。
世界剛剛開始適應谷歌和亞馬遜等公司製造的虛擬助手所產生的力量。如果用一個詞來描述這些虛擬助理識別我們聲音的準確性,那就是「難以置信」。
現在,一個更「令人毛骨悚然」的裡程碑就在眼前:人工智慧系統可以將我們的大腦活動轉化為完整的文本,而無需我們說一句話。
這不是科幻小說。近幾十年來,腦機接口的發展突飛猛進。從動物到人類參與者,這樣的事情已經嘗試過了。
幾天前,舊金山加利福尼亞大學的一個研究小組使用人工智慧解碼系統將人類腦電波翻譯成英語句子,準確率達到97%。
論文地址:
https://www.nature.com/articles/s4159020-0608
這項研究發表在3月30日的《自然神經科學》雜誌上,題目是「用編碼器-解碼器框架將皮層活動機器翻譯成文本」(使用編碼器-解碼器框架將皮層活動翻譯成文本)。
張智威
這項研究由中國科學家、加州大學舊金山分校神經外科教授張智威博士領導。張智威博士的研究集中於語言、運動和人類情感的大腦機制。他還是神經工程和修復中心的聯合主任,該中心是加州大學舊金山分校和加州大學伯克利分校的合作單位。
人類腦電波被翻譯成句子,準確率為97%
為了提高準確性,研究小組使用了一種新的方法來解碼大腦皮層腦電圖:大腦皮層活動中產生的電脈衝記錄被植入大腦的電極接收。
在這項研究中,四名癲癇患者佩戴這種植入物來監測癲癇發作。研究小組進行了一項輔助實驗:參與者被要求大聲朗讀並重複一些固定的句子,同時電極記錄他們的大腦活動。
這些數據然後被輸入到一個神經網絡,該網絡根據實驗音頻記錄,分析與特定語音信號相對應的大腦活動模式,例如元音、輔音或嘴部運動。
圖1:解碼過程
之後,另一個神經網絡解碼這些表徵(從重複的30-50個口語句子中收集),並使用它來嘗試預測所說的內容,完全基於句子的大腦皮層特徵。
圖2:解碼句子的錯誤率
該系統產生一個單詞錯誤率(WER),在最好的情況下,一個參與者在將大腦信號轉換成文本時的錯誤率只有3%。至少在嚴格的實驗條件下,這可能是人工智慧最接近人類思維的方式。
圖3:經過遷移學習訓練後,在編碼器-解碼器模型中解碼MOCHA-1語句的錯誤率
在他們的論文中,研究小組詳細列出了大量參與者提到的參考句子和神經網絡產生的預測,這些預測有時是錯誤的,但並不總是如此。然而,當錯誤很明顯時,它們似乎與人耳聽到的語音結果大不相同(這可能是人工智慧中有限的數據集造成的副作用)。
表1:錯誤解碼的句子示例(左邊的參考句和右邊的預測句)
在最不準確的情況下,這些錯誤實際上與所說的沒有任何關係,無論是語義上還是語音上。例如,「她穿著暖和的羊毛工作服」被解釋為「綠洲是海市蜃樓」。
然而,儘管這些明顯的錯誤非常奇怪,研究小組認為,總的來說,該系統可能構成基於人工智慧的大腦活動解碼的新基準,在最好的情況下,它相當於專業的人類語音轉錄,單詞錯誤率為5%。
圖6:解碼過程的圖形模型
圖7:網絡架構
當然,處理普通人講話的專業轉錄者需要處理數千個單詞,相比之下,系統只需要學習有限短句中使用的大約250個單詞的大腦皮層特徵,所以這不是一個公平的比較。
儘管有許多障礙需要克服,但研究小組相信,該系統有一天可能成為喪失語言能力的患者進行語言修復的基礎。如果真的這樣做了,那將是一場災難。
「在長期植入的參與者中,可用的訓練數據量將比本研究中使用的半小時演講多幾個數量級,」作者解釋道,「這表明語言的詞彙量和靈活性可能會大大增加。」
參考連結:
http://www . science alert . com/new-ai-system-translates-human-brain-signals-to-text-with-up-to-9precision
-完畢-
關注官方微信公眾平臺「艾數據派」和清華-青島數據科學研究院姐妹號「數據派THU」,獲取更多講座收益和優質內容。