這是人類有史以來首次直接根據(jù)大腦信號,合成語音和面部表情,標志著腦機接口應用史上的又一里程碑。
18年前,年僅30歲的Ann Johnson遭遇了嚴重的中風,當時她是一名數(shù)學老師、排球教練以及一個嬰兒的母親,從此失去了運動和語言能力。
在她女兒的記憶里,從沒有過母親說話的聲音——直到美國加州大學舊金山分校等機構(gòu)的學者將一塊芯片植入了Ann Johnson的大腦皮層。接受植入后,當她默念句子時,屏幕上的AI替身會幫她發(fā)出“她自己的”聲音,并展示微笑、嘟嘴、悲傷等等那些Ann Johnson努力想傳達的表情。
8月23日,《自然》雜志發(fā)布了這項壯舉,這也是人類有史以來首次直接根據(jù)大腦信號,合成語音和面部表情,它標志著腦機接口應用史上的又一里程碑。領導這一研究的加州大學舊金山分校神經(jīng)外科教授Edward?。茫瑁幔睿缯f,“我們只是想恢復人們的本來面目。”
Ann?。剩铮瑁睿螅铮睢∨cAI替身互動。(圖源:視頻截屏)
在腦機接口領域,近年來多個機構(gòu)陸續(xù)發(fā)布重磅成果。人工智能幫助癱瘓人士恢復基礎的日?;顒樱锌圃荷钲谙冗M技術(shù)研究院正高級工程師李驍健告訴“醫(yī)學界”,“走得快的話,全球預計在2030年前就會有系統(tǒng)率先申報上市?!?/p>
從Ann?。剩铮瑁睿螅铮睢〉纳鲜鼋?jīng)歷來看,“讀心算法”的落地已并非天方夜譚。在價格方面,“不算手術(shù)、護理等醫(yī)療開銷,全套植入硬件設備成本最低可控制在5萬元人民幣之內(nèi)?!崩铗斀”硎?。
視頻由加州大學舊金山分校威爾神經(jīng)科學研究所Metzger等人提供。(視頻來源于網(wǎng)絡)
2005年中風后,Ann?。剩铮瑁睿螅铮罨忌狭碎]鎖綜合征。
十幾年來,她都靠著帶有反射點的眼鏡,對準屏幕的字母敲擊形成文字和外界交流。每分鐘只能生成14個單詞,她在2020年的一篇文章中寫道,“閉鎖綜合征,就像你有充分的認知,有完整的感覺,但被鎖在一個沒有肌肉的身體里?!?/p>
直到2021年,Ann?。剩铮瑁睿螅铮羁吹搅艘豁椦芯?,科研團隊通過腦機接口芯片和人工智能算法,幫助一名癱瘓人士將試圖說的話轉(zhuǎn)為文本,并顯示屏幕上。Ann Johnson立刻聯(lián)系了對方,后來被選為此次臨床試驗的8名受試者之一。
而這次,研究人員不再滿足僅用文字展示話語。具體地,研究小組將一個由?。玻担场€電極組成的、信用卡大小的芯片植入Ann?。剩铮瑁睿螅铮畲竽X皮層的語言區(qū)域。在那里,芯片將攔截在中風前本應傳遞到嘴唇、舌頭、喉部和臉部肌肉的神經(jīng)元信號,重新采集并傳到Ann Johnson頭部的電子端口,端口和計算機相連,信號被解碼為文本,再合成語音。
本次試驗系統(tǒng)的概念圖。(圖源:加州大學舊金山分校)
語音模版用的是20年前Ann Johnson在婚禮祝酒詞的發(fā)言,“聽到自己的聲音會讓人激動......女兒也從未聽過我的聲音?!彼嬖V研究人員。
關于發(fā)聲的原理,李驍健向“醫(yī)學界”解釋道,當她在大腦中默念單詞時,芯片會采集到相應的大腦信號,再通過人工智能分類器,提取出不同單詞的音素組合特征,解碼并對應到事先搭建好的單詞庫中識別,最終形成的語音由AI發(fā)聲。
研究人員構(gòu)建了由1024個單詞組成的詞庫,人工智能并不直接識別單詞,而是通過最小聲音單位的組合來實現(xiàn),比如“Hello”包含:“HH”、“AH”、“L”和“OW”,這樣,計算機只要和人建立了39 個聲音單元的連接,理論可以組合成任何詞句。
試驗過程中,Ann Johnson進行了幾周的訓練,她必須一遍又一遍默念?。保埃玻础€單詞中的音節(jié),直到人工智能學會識別每個音節(jié)對應的大腦活動,組合后與詞庫一一對應,建立連接。
Ann?。剩铮瑁睿螅铮钔ㄟ^腦機接口系統(tǒng),與AI提升進行“意念互動”。(圖源:NBC)
由于植入電極密度增加、解碼和人工智能學習等方面的進展,解碼發(fā)聲的速度得到了大幅提升。研究結(jié)果顯示,該系統(tǒng)每分鐘能生成?。罚浮€單詞,正常人的語速大約在每分鐘?。保叮啊€。而在同一團隊前述2021年的試驗中,還僅為每分鐘15到18個單詞。
研究團隊還和一家面部動畫公司合作,和Ann?。剩铮瑁睿螅铮睢〈竽X連接時,AI能識別信號并讓她的動畫替身做出下巴張開、閉合、咧嘴等不同動作,以表示開心、悲傷或驚訝。
“這是腦機接口在實用性上的重大突破。電子輔助失聲者溝通并不是新鮮事,但早期多為二維運動控制任務,計算機只需解碼大腦中‘上下’和‘左右’兩個自由度,患者就能在虛擬鍵盤上任意選擇字母,甚至無需人工智能輔助解碼。但一個個字母拼,速度可想而知。”
“最新系統(tǒng)則屬于多分類任務,分為表情和語言兩大類,表情中又有張嘴、閉嘴、咧嘴等,語言下面又包含幾十個不同音素。不同‘意念’形成龐大的排列組合后,還能相對快速、精準地實現(xiàn)轉(zhuǎn)化,這反映了包括神經(jīng)科學、人工智能等多學科近年來的飛速發(fā)展?!崩铗斀≌f。
系統(tǒng)同時加入了聯(lián)想功能,在出現(xiàn)同音詞時,能根據(jù)語義選出最接近的詞匯。結(jié)果表明,當Ann?。剩铮瑁睿螅铮钍褂谩。保埃玻础€單詞的詞匯集時,準確率約為?。罚担ァ?/p>
“我們的目標是恢復一種完整的溝通方式,也是與他人交談最自然的方式。這將對他們(癱瘓人士)的獨立性和社交產(chǎn)生深遠影響?!毖芯咳藛T表示,目前他們正在開發(fā)“無線版本”的設備,讓使用者不必通過頭頂電線和計算機連接。
目前,這一系統(tǒng)還不適用于“完全癱瘓”人士。Ann Johnson尚能調(diào)動部分嘴部肌肉,對口型。李驍健介紹道,喪失肌肉活動的人,大腦運動、語言相關的神經(jīng)活動也會最大程度退化,神經(jīng)信號的采集和解讀會更加困難。
對于殘障人士,該試驗被認為是在“恢復身體獨立性和自主性”上又邁出了一大步。這兩年,腦接機口領域接連出現(xiàn)了革命性進展。
2022年6月28日,美國約翰斯·霍普金斯大學研究人員完成了全球首例雙邊植入腦機接口人體試驗,讓一位癱瘓30年的患者通過意念操控機械臂切、遞送蛋糕,完成自主進食;
美國Synchron公司則在今年1月公布“血管介入式”腦機接口臨床試驗最新進展,4名癱瘓者成功控制了外部設備,可進行發(fā)短信郵件、個人理財、在線購物等日?;顒?;
總部位于阿姆斯特丹的Onward公司開發(fā)了“腦-脊髓接口”,今年5月登頂《自然》的成果顯示,一位癱瘓12年的病人表現(xiàn)出神經(jīng)功能恢復跡象,植入物關閉后也能拄著拐杖行走。
大膽設想一個未來場景,無論是健康還是身患重疾,人類通過腦機接口,用“意念”實現(xiàn)對大部分智能設備的控制,解放身體勞動力,能否成為現(xiàn)實?
李驍健說,從單純的概念到落地醫(yī)療市場,腦機接口離大眾已并不遙遠。“讓失能者靠人工智能的輔助拿水杯喝水、控制輪椅自行運動、發(fā)合成的語音,完成一些2D或簡單的3D操作等,技術(shù)上已經(jīng)不是問題?!?/p>
“從這些基本需求出發(fā),只需采集大腦皮層運動和語言區(qū)的較少量神經(jīng)信號,對植入電極、芯片和解碼算力等的要求也相對低。預計5到10年內(nèi)就會有相應產(chǎn)品申報?!崩铗斀≌f。
也正因如此,他認為此次研究成果,很大程度代表了醫(yī)用植入式腦機接口技術(shù)短中期內(nèi)的發(fā)展方向。不過分追求高端的硬件設備,首先在簡單、實用的臨床應用場景上做出突破,上市時定價也不會很高?!皩嶒炛忻糠昼娊獯a了七八十個單詞,基本達到現(xiàn)實場景可用的水平?!?/p>
Ann Johnson植入的是貼附在大腦皮層的ECoG電極,這一技術(shù)已誕生了近20年。Synchron公司用的則是“血管介入式”腦機接口,電極放入大腦血管,而不是皮層組織,雖然犧牲了信號采集的豐富度,但更為安全成熟,解碼也相對簡單,被認為是或?qū)⒆钕壬鲜械漠a(chǎn)品。
而在約翰斯·霍普金斯大學的研究中,由于要采集和解碼多緯度、精細的動作信號,實現(xiàn)對機械臂的精準控制。以目前的技術(shù)來看,則要通過向腦內(nèi)植入高密度、深度刺入式電極陣列來實現(xiàn)。離臨床使用上還有一定距離。
安全性是一方面的擔憂,同時復雜程度也將決定腦機接口能否實現(xiàn)無線控制。李驍健表示,只要頭頂還長出“電線”,它就不可能成為真正的臨床醫(yī)療器械?!案毜倪\動控制信息,要依靠全體內(nèi)植入式的腦機接口裝置大規(guī)模收發(fā)神經(jīng)信號。這方面要做成無線,目前技術(shù)上還達不到?!?/p>
價格是另一考量。即便硬件成本隨科技發(fā)展一降再降,但和藥物不同的是,醫(yī)用腦機接口還依賴專業(yè)人士輔導下的大量使用訓練、醫(yī)療護理以及后期一系列維護成本?!霸绞菑碗s的系統(tǒng),脫離實驗室回歸日常使用的可能性也越低?!崩铗斀”硎?。
對于國內(nèi)的腦接機口領域來說同樣如此。根據(jù)中國信息通信研究院發(fā)布的《腦機接口總體愿景與關鍵技術(shù)研究報告》,結(jié)合我國肢體殘障和神經(jīng)系統(tǒng)的疾病負擔,預測神經(jīng)重塑、神經(jīng)替代、神經(jīng)調(diào)控等腦機接口技術(shù)將擁有十萬億級別的市場空間。
“硬件水平上,我國和歐美的差距沒有想象得那么大。前幾年大家把腦機接口當作一種高端設備投資,強調(diào)‘高端設備國產(chǎn)替代’,但最近才發(fā)現(xiàn)海外率先取得臨床成果的,往往用的是較早期的設備技術(shù)。”李驍健說。
今年5月29日,中科院院士趙繼宗在中關村論壇腦機接口創(chuàng)新發(fā)展論壇上稱,語言重建、腦控機械臂,在這些領域,國外能做到的,國內(nèi)也能做到,但更重要的是如何讓政府部門參與協(xié)調(diào)整個產(chǎn)學研用這條線,“個別病例、個別試驗可能都沒有問題,但最后要用于更多患者,就得考慮產(chǎn)業(yè)化路徑?!?/p>
“本次海外最新成果,靠的也不是新型硬件設備,而是團隊在語言解碼領域方法的創(chuàng)新和突破,瞄準簡單卻實用的說話場景。相比硬件設備,臨床醫(yī)學、腦科學、人工智能、工程學的扎實基礎和多學科交叉、產(chǎn)學研間的緊密協(xié)作,結(jié)合臨床需求的緊迫程度,才是哪個系統(tǒng)能率先落地的關鍵因素。”李驍健說。
(文章來源于互聯(lián)網(wǎng))