近期,美國(guó)加利福尼亞的研究人員開(kāi)發(fā)了一個(gè)由人工智能驅(qū)動(dòng)的系統(tǒng),可實(shí)現(xiàn)幫助癱瘓患者用原聲恢復(fù)自然說(shuō)話能力。
這項(xiàng)新技術(shù)由美國(guó)加利福尼亞大學(xué)伯克利分校和舊金山分校的研究人員共同研發(fā)。通過(guò)植入式設(shè)備采集大腦神經(jīng)信號(hào),并利用"AI 學(xué)習(xí)重建患者獨(dú)特的語(yǔ)音特征。與"2024 年該領(lǐng)域腦機(jī)接口合成語(yǔ)音的進(jìn)展相比,此次研究成果實(shí)現(xiàn)了質(zhì)的飛躍。
該研究論文近期發(fā)表在《自然·神經(jīng)科學(xué)》雜志上。加利福尼亞大學(xué)伯克利分校電氣工程與計(jì)算機(jī)科學(xué)助理教授、該研究的聯(lián)合首席研究員戈帕拉·阿努曼奇帕利解釋道:“我們的流式處理方法將亞馬遜智能語(yǔ)音助手Alexa"和蘋(píng)果語(yǔ)音助手"Siri 等設(shè)備所具備的快速語(yǔ)音解碼能力引入了神經(jīng)假肢領(lǐng)域。通過(guò)使用類似的算法,我們發(fā)現(xiàn)可以對(duì)神經(jīng)數(shù)據(jù)進(jìn)行解碼,并首次實(shí)現(xiàn)近乎同步的語(yǔ)音傳輸。這樣合成所得語(yǔ)音更加自然流暢?!?/p>
這項(xiàng)技術(shù)的創(chuàng)新之處在于兼容多種腦信號(hào)采集方式:它能直接記錄大腦皮層神經(jīng)活動(dòng)的高密度電極陣列(如本實(shí)驗(yàn)所用),也適用于穿透式微電極,還能用于測(cè)量面部肌肉活動(dòng)的非侵入式表面肌電圖(sEMG)傳感器。
其工作原理是:首先,安裝在患者身上的神經(jīng)修復(fù)裝置會(huì)從控制語(yǔ)言產(chǎn)生的大腦運(yùn)動(dòng)皮層采集神經(jīng)數(shù)據(jù),然后人工智能將這些數(shù)據(jù)解碼成語(yǔ)音。該論文的合著者趙哲俊解釋說(shuō):“我們解碼的是思維形成后的指令——當(dāng)患者確定表達(dá)內(nèi)容、選詞造句并準(zhǔn)備調(diào)動(dòng)發(fā)音器官時(shí)的神經(jīng)活動(dòng)?!?/p>
人工智能是基于患者在屏幕上看到文字并默默嘗試說(shuō)出這些文字時(shí)所采集的大腦功能數(shù)據(jù)進(jìn)行訓(xùn)練的。這使得研究團(tuán)隊(duì)能夠?qū)⑸窠?jīng)活動(dòng)與患者試圖說(shuō)出的文字進(jìn)行映射。同時(shí),文本轉(zhuǎn)語(yǔ)音模型會(huì)生成患者“說(shuō)話”的音頻,該模型是利用患者在受傷癱瘓之前的聲音數(shù)據(jù)開(kāi)發(fā)的。
在上述概念驗(yàn)證演示中,合成語(yǔ)音雖未達(dá)完美自然度,節(jié)奏也并非完全自然,但已非常接近。該系統(tǒng)在患者嘗試說(shuō)話后的1"秒內(nèi)就開(kāi)始解碼大腦信號(hào)并輸出語(yǔ)音,和"2023 年進(jìn)行的研究中所需的8"秒相比有了顯著提升。
這項(xiàng)技術(shù)可以極大地改善漸凍癥等類似衰弱性疾病患者的生活質(zhì)量,幫助他們表達(dá)日常需求和復(fù)雜想法,更順暢地與親友交流。
下一步,研究人員計(jì)劃加快人工智能生成語(yǔ)音的處理速度,并探索增強(qiáng)語(yǔ)音情感表現(xiàn)力的的方法。
(編譯自"New Atlas 網(wǎng)站)