王學(xué)健,王杰*,王小亞,袁旻忞,桑晉秋,蔡娟娟
(1.廣州大學(xué)電子與通信工程學(xué)院,廣州市 510725;2.廣州市婦女兒童醫(yī)療中心,廣州市 510168;3.交通運輸部公路科學(xué)研究院,北京 100088;4.中國科學(xué)院聲學(xué)研究所,北京 100049;5.中國傳媒大學(xué)媒體融合與傳播國家重點實驗室,北京 100024)
阿爾茲海默癥是一種神經(jīng)系統(tǒng)退行性疾病,在老年人群中具有較高的發(fā)病率[1][2]。該疾病會導(dǎo)致記憶衰退和語言能力損失,在患病中后期會出現(xiàn)生活無法自理等情況,這極大地增加了家庭和社會負(fù)擔(dān)。由于患者與正常人大腦之間存在差異,目前該疾病的診斷需要經(jīng)歷以下幾個階段:1)核磁共振成像(Magnetic Resonance Imaging,MRI)檢查;2)正電子發(fā)射性計算機(jī)斷層顯像(Positron Emission Computed Tomography,PET)檢查;3)腦脊液檢測特定蛋白質(zhì);4)認(rèn)知障礙檢測,如簡易智力狀態(tài)檢查量表(Mini-mental State Examination,MMSE)和蒙特利爾認(rèn)知評估量表(Montreal cognitive Assessment,MoCA),最后在醫(yī)生分析所有檢測結(jié)果后,才能給出明確的診斷結(jié)論。這一過程無疑將花費大量的時間以及精力,同時對醫(yī)生的職業(yè)技能和臨床經(jīng)驗也有著較高的要求。為了緩解醫(yī)學(xué)診療的壓力,學(xué)者們也在積極尋求便捷的方法實現(xiàn)阿爾茲海默癥的診療,得益于公開的MRI數(shù)據(jù)集,以機(jī)器學(xué)習(xí)為代表的分析方法在診斷患者病情方面取得了不錯的效果,該類方法需要挑選出患者與正常人大腦之間差異較大的區(qū)域如海馬體,杏仁核等感興趣區(qū)(regions of interests,ROI),然后使用支持向量機(jī)[3],Ada boost[4]等算法進(jìn)行分類與預(yù)測,研究者也會將受試者的認(rèn)知障礙評判分?jǐn)?shù)結(jié)合起來,做到更為準(zhǔn)確的判斷[5]。除此之外,PET影像數(shù)據(jù)和CSF檢測結(jié)果也是診斷患者的重要依據(jù),文獻(xiàn)[6]將MRI、PET和CSF數(shù)據(jù)結(jié)合,實現(xiàn)阿爾茲海默癥患者與認(rèn)知障礙患者二者的區(qū)分。隨著深度學(xué)技術(shù)的發(fā)展,研究者也嘗試使用二維卷積網(wǎng)絡(luò)和三維卷積網(wǎng)絡(luò)進(jìn)行識別,直接對病患的三維影像結(jié)果進(jìn)行建模并輸出最終判斷結(jié)果[7][8][9]。影像數(shù)據(jù)雖然可以直觀反映出病人腦部病理結(jié)構(gòu)的改變,但是在患病初期,患者與正常人的影像結(jié)果差異并不明顯,針對這一問題,從患者的語言能力進(jìn)行判斷便成為一種重要途徑。研究人員讓患者對某一特定的圖片進(jìn)行描述,并記錄他們的語音數(shù)據(jù)。在此基礎(chǔ)上將語音的頻譜信息或者M(jìn)FCC信息作為特征輸入,使用支持向量機(jī),人工神經(jīng)網(wǎng)絡(luò)等算法進(jìn)行識別[10][11],在文獻(xiàn)[12][13]中,研究人員對患者的語音進(jìn)行聲學(xué)特征和語言特征的提取,如獲取說話人語音的韻律特征,統(tǒng)計患者在描述中的停頓情況等,并將其應(yīng)用到病癥的識別上。在文獻(xiàn)[14][15]中,研究人員使用自動語言識別系統(tǒng),將病人的語音信息轉(zhuǎn)為文本信息,并將該文本信息作為輸入,送入到自然語言處理模型中,實現(xiàn)對阿爾茲海默癥的識別。
因為對于醫(yī)療設(shè)備的要求有所降低,從患者語言能力進(jìn)行疾病診斷的方法更為簡便,同時得益于深度學(xué)習(xí)強(qiáng)大的分類功能,利用深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)合患者的語音信息來輔助醫(yī)生對人群進(jìn)行阿爾茲海默癥的快速識別和初步診斷是值得研究和探索的。使用深度學(xué)習(xí)方法進(jìn)行語音分類或識別往往需要獲取說話人合適的發(fā)聲特征,由于語音信息為長序列信息,所以獲取該類特征需要構(gòu)建恰當(dāng)?shù)拈L序列模型,相較于傳統(tǒng)建模方法,深度學(xué)習(xí)網(wǎng)絡(luò)更為復(fù)雜的結(jié)構(gòu)能更好地利用語音長序列的邏輯關(guān)系,如Dual Path Recurrent Neural Network(DPRNN)[16]將長語音序列通過分塊操作,使用循環(huán)神經(jīng)網(wǎng)絡(luò)分別對語音塊內(nèi)部信息和不同語音塊之間的外部信息進(jìn)行建模,在語音分離任務(wù)上表現(xiàn)出了優(yōu)異的性能,也有學(xué)者將其與Transformer[17]相結(jié)合,創(chuàng)造出Dual Path Transformer Network(DPTNet)[18];而在語音識別任務(wù)上,學(xué)者利用Transformer提取長語音全局信息的交互規(guī)律并結(jié)合卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行語音局部特征的學(xué)習(xí),創(chuàng)造出Conformer[19],Conformer在 LibriSpeech[20]數(shù)據(jù)集上的錯詞率(word error rate,WER)已經(jīng)降到了2.1。深度學(xué)習(xí)模型強(qiáng)大的分類與識別能力在阿爾茲海默癥的識別上已經(jīng)取得了一定成就[14][15],但是現(xiàn)階段對語言能力的判斷方法往往需要結(jié)合語音識別模型和自然語言處理模型,在實現(xiàn)步驟上較為繁瑣,且語音識別模型和自然語言處理模型需要較高的計算復(fù)雜度和較大的計算參數(shù)量,例如語音識別模型Conformer[19]的參數(shù)量達(dá)到了118.8M。所以設(shè)計一種既兼顧計算資源同時可以簡化判斷流程的方法是很有必要的。
針對以上問題,本文的研究需選擇一種兼顧性能與計算資源的端到端深度學(xué)習(xí)語音分類模型,SuDo-RM-RF[21][22]模型是近年來在語音分離領(lǐng)域較為成功的一種基于口語發(fā)聲特征掩碼估計的語音分離模型,在使用少量參數(shù)的情況下,仍可取得良好的特征分類效果,同時相較于 DPRNN[16],Time-domain Audio Separation Network(TasNet)[23],DPTNet[18]等語音分離模型,其所需的訓(xùn)練時間大幅度減少。本文在SuDoRM-RF模型的基礎(chǔ)上進(jìn)行改進(jìn),設(shè)計了一種語言障礙情況鑒別器加入到解碼器中,實現(xiàn)對說話人語言能力的分類,以區(qū)分出正常人(HC,Healthy Control),阿爾茲海默癥初期認(rèn)知障礙患者(MCI,Mild Cognitive Impairment),阿爾茲海默癥患者(AD,Alzheimer disease)三類人群。改進(jìn)后的模型被命名為SuDoRM-RF-AD。
本文的結(jié)構(gòu)如下:第2節(jié)介紹SuDoRM-RF-AD模型及其參數(shù)配置,第3節(jié)為實驗部分,第4節(jié)為本文的結(jié)論。
SuDoRM-RF-AD結(jié)構(gòu)如圖1所示,該模型由編碼器、分離器和解碼器三部分組成。相較于SuDoRM-RF架構(gòu),SuDoRM-RF-AD在前者的解碼器中增加了一個語言障礙情況鑒別器(圖1虛線所示),以實現(xiàn)對三類不同的人群的區(qū)分。為了更生動形象地進(jìn)行描述,本文將鑒別器的鑒別法則稱作為“專家”?!皩<摇笔穷I(lǐng)域內(nèi)的翹楚,對自身所處的領(lǐng)域擁有完備的專業(yè)知識以及專業(yè)技能素養(yǎng)?;谶@一思想,SuDoRM-RF-AD的三位“專家”便需要依靠自身的經(jīng)驗以及知識,從語音信號或語音信號特征中判斷說話人的所屬類別。選擇三位“專家”是依照職能確定的,“專家1”擅長判斷說話人是否健康,即用來判斷說話人屬于HC的概率大?。弧皩<?”對于阿爾茲海默癥早期認(rèn)知障礙患者具有很強(qiáng)的判斷能力,即可以依靠“專家2”得到說話人是否確診MCI的概率;類似地,“專家3”用來判斷說話人是否屬于AD。這是一個多標(biāo)簽分類的過程,輸出的結(jié)果分別表示被試者屬于HC、MCI和AD的概率,為了明確被試者所處的類別,Su-DoRM-RF-AD最終會選擇輸出概率最大值所對應(yīng)的類別作為被試者的類別。
圖1 SuDoRM-RF-AD結(jié)構(gòu)
編碼器將輸入信息進(jìn)行壓縮,便于在后續(xù)的分離器中分離出重要特征。假設(shè)原始輸入信息為x∈RT,其中T表示長度。原始信號在編碼器內(nèi)經(jīng)過一次一維卷積操作,并通過ReLU函數(shù)激活[24],輸出結(jié)果即為編碼器輸出結(jié)果vx。編碼器的表達(dá)式如下:
由分離器接受來自編碼器的輸出結(jié)果,對其進(jìn)行特征的提取。如式(2)所示,vx在經(jīng)過一次一維卷積和層歸一化(LayerNorm)[25]操作之后會送進(jìn)U-ConvBlock中。可以依次通過多個U-ConvBlock結(jié)構(gòu),其中UConvBlocki表示輸入需要通過i個U-ConvBlock結(jié)構(gòu),其中i∈[1,B]。
U-ConvBlock是分離器的主要組成部分,結(jié)合了U-Net[26]和Convtasnet[27]的優(yōu)點,結(jié)構(gòu)示意如圖2所示。Y(i)經(jīng)過通道擴(kuò)展、下采樣、上采樣以及通道壓縮一系列操作之后可以獲取信息的多尺度特征,而后通過跳躍連接將相同維度的特征信息進(jìn)行融合,以避免特征信息在提取過程中的丟失,假設(shè)共計通過B個U-ConvBlock結(jié)構(gòu)的輸出,計為Y(B),如式(3)所示。
圖2 U-ConvBlock結(jié)構(gòu)(深度為3)
解碼器通過y?i做出判斷,得到所屬類別的概率。首先對每個特征的潛在表達(dá)式y(tǒng)?i進(jìn)行一維轉(zhuǎn)置卷積操作,這里的一維轉(zhuǎn)置卷積操作是編碼器一維卷積的逆過程,便得到了各個特征完整的表達(dá)式Si,如式(6)所示。
為了從Si得到最終的判斷概率,SuDoRM-RF-AD會首先通過第一層全連接層篩選出更適用于判斷說話人所屬類別的特征。由于全連接層的節(jié)點權(quán)重不一致,對于權(quán)重較小的節(jié)點,可以采用Dropout策略[28]來減少小權(quán)重特征對最終判斷的影響。在經(jīng)過第一層全連接層篩選出所需要的特征之后,為了方便最終的判斷,需要統(tǒng)一輸出格式,采用ReLU激活函數(shù),實現(xiàn)判斷概率位于區(qū)間[0,1]內(nèi)。最后通過第二層線性全連接層,三位“專家”給出各自最終的判斷結(jié)果,記第i位“專家”給出的判斷概率為pi,表達(dá)式如式(7)所示。
本次任務(wù)的網(wǎng)絡(luò)參數(shù)設(shè)置如下,對于編碼器的一維卷積操作,其卷積核大小為21,步長為10,填充為10,為了更好地學(xué)習(xí)輸入特征,輸出的通道數(shù)設(shè)置為32。對于分離器,其一維卷積操作使用卷積核大小為1*1,步長為1,填充為0。U-ConvBlock的個數(shù)為3,每一個U-ConvBlock需要進(jìn)行3次連續(xù)時間下采樣,同理為恢復(fù)數(shù)據(jù)維度,也需要進(jìn)行3次上采樣。解碼器的一維轉(zhuǎn)置卷積為編碼器一維卷積的逆操作,其卷積核大小為21。鑒別器的第一層全連接層輸出節(jié)點個數(shù)為128,第二層輸出格式為1,輸出通道數(shù)為3,分別得到HC、MCI、AD的預(yù)測概率。
本文數(shù)據(jù)集采用江蘇師范大學(xué)的《阿爾茲海默綜合癥競賽數(shù)據(jù)集》,每段語音長度為6秒鐘,AD人群樣本共計158條,MCI樣本共計186條,HC樣本共計216條,總計樣本560條。其中70%的樣本用于訓(xùn)練集,10%的樣本用于驗證,20%的樣本用于測試,每次訓(xùn)練開始之前均會重新將數(shù)據(jù)進(jìn)行隨機(jī)劃分。針對頻譜特征,梅爾頻譜特征以及MFCC特征,采用兩種基線系統(tǒng)[29]:對于MFCC特征,基線系統(tǒng)模型將輸入信息經(jīng)過不同規(guī)格的一維卷積層處理之后,送入密集連接層,輸出所屬類別;對于頻譜或梅爾頻譜特征,基線系統(tǒng)則將輸入信息經(jīng)過不同規(guī)格的二維卷積層處理之后,送入密集連接層,輸出所屬類別。
本文優(yōu)化器使用Adam優(yōu)化器,學(xué)習(xí)率初始為0.001。對于多分類任務(wù),采用交叉熵?fù)p失作為模型的損失函數(shù)。其中交叉熵?fù)p失定義的公式如公式(8),n為樣本數(shù)量,m為類別數(shù)量,yiC表示符號函數(shù),樣本i屬于C則為1,否則為0,PiC表示觀測樣本i屬于類別C的預(yù)測概率。
為了更好地篩選出最佳性能的模型參數(shù),本文使用了動態(tài)學(xué)習(xí)率策略,用驗證集調(diào)整模型的最優(yōu)參數(shù),模型每經(jīng)過2次迭代之后若在驗證集上的識別正確率未提升,則學(xué)習(xí)率衰減10%;如果模型迭代10次之后,性能仍未提高,則訓(xùn)練結(jié)束,同時保留最優(yōu)模型參數(shù)。
同時選擇準(zhǔn)確率,召回率,精確率以及F1值作為模型的衡量標(biāo)準(zhǔn),其中準(zhǔn)確率(accuracy)表示分類正確的數(shù)量占總分類數(shù)量中的比重,精確率(precision)表示預(yù)測為正類的樣本中有多少是真正的正類樣本,召回率(recall)表示樣本中的正例有多少被預(yù)測正確,而F1值是精確率和召回率的調(diào)和平均,兼顧了精確率與召回率二者的衡量特點。四個指標(biāo)的取值范圍均在0到1之間,數(shù)值趨近1表示模型的衡量性能越好,四個指標(biāo)的定義如下:
其中,TP、TN、FP、FN分別表示樣本正類判定為正類的數(shù)量,負(fù)類判定為負(fù)類的數(shù)量,負(fù)類判定為正類的數(shù)量,正類判定為負(fù)類的數(shù)量。
3.3.1 MFCC特征訓(xùn)練及分析
為了驗證本題模型的性能優(yōu)勢,實驗將分別采用MFCC特征,頻譜特征以及梅爾頻譜特征作為輸入,驗證模型的分類能力。MFCC特征數(shù)據(jù)維度為20,在訓(xùn)練開始之前被轉(zhuǎn)變?yōu)橐痪S序列數(shù)據(jù)進(jìn)行輸入,輸入格式為張量(tensor),格式大小為[批次(batch),數(shù)據(jù)長度(length)]。
實驗結(jié)果如表1所示,正確率、精確率、召回率和F1值最大為1,最小為0,F(xiàn)lops表示模型計算所需的浮點運算單元,該值越小,就表明模型所需的計算復(fù)雜度越低,對于模型的參數(shù)量,該值越小,表示模型所需的存儲空間越小,所有結(jié)果保留小數(shù)點后三位。其中SuDo-RM-RF-ADm*n表示模型經(jīng)過m個U-ConvBlock,每個U-ConvBlock經(jīng)過n次連續(xù)時間采樣。從表1可以看出,使用本文模型,其結(jié)果在正確率、精確率、召回率以及F1值四個指標(biāo)上均優(yōu)于基線系統(tǒng),這就表明,本文提出的模型能給HC、AD、MCI三類人群的正確識別結(jié)果帶來穩(wěn)定的提升。此外,如果省去分離模塊中的U-ConvBlock結(jié)構(gòu),那么最終的性能相較于使用U-ConvBlock結(jié)構(gòu)會有所降低,雖然使用U-ConvBlock結(jié)果會使計算復(fù)雜度和參數(shù)量略微提升,但是對正確識別HC、AD、MCI三類人群是很有幫助的。值得注意的是,在使用MFCC特征對SuDoRM-RF-AD模型進(jìn)行訓(xùn)練時,SuDoRM-RF-AD的參數(shù)量約為0.54M,這與其他經(jīng)典的深度學(xué)習(xí)模型結(jié)構(gòu)的參數(shù)量相比,如ResNet50[30]的23.5M,VGG-16[31]的138M,DeiT-Tiny[32]的5.7M,幾乎可以忽略不計,Su-DoRM-RF-AD的輕量化也成為它的優(yōu)勢之一。
表1 MFCC特征模型訓(xùn)練結(jié)果
3.3.1 頻譜特征和梅爾頻譜特征訓(xùn)練及分析
與處理MFCC特征不同的是,基線系統(tǒng)處理頻譜特征和梅爾頻譜特征均使用的是二維卷積操作[29],而本文針對MFCC特征處理使用一維卷積操作進(jìn)行處理。二維卷積會兼顧周邊范圍內(nèi)的信息量,而一維卷積則只能利用卷積核前后位置的信息。但是為了便于擴(kuò)展本模型在不同特征上的學(xué)習(xí)能力,本模型在頻譜特征和梅爾頻譜特征上的訓(xùn)練依然采用一維卷積方式,這樣可以無需改變模型的基礎(chǔ)架構(gòu),而僅對語言障礙情況鑒別器作進(jìn)一步的改進(jìn)即可,如圖3所示,在原有鑒別器前額外增加兩層一維Depth-wise卷積層[33]進(jìn)行特征的篩選,這樣做的目的是篩選出可用特征并進(jìn)一步克服全連接層使用參數(shù)較多這一問題。
圖3 增加Depth-wise卷積層后的鑒別器
針對頻譜的參數(shù)設(shè)定如下:第一層卷積層的輸入輸出通道數(shù)均為3,卷積核大小為64,步長為32。第二層的輸入輸出通道數(shù)也為3,卷積核大小為32,步長為16。針對梅爾頻譜的參數(shù)設(shè)定如下:第一層卷積層的輸入輸出通道數(shù)均為3,卷積核大小為32,步長為16。第二層的輸入輸出通道數(shù)也為3,卷積核大小為16,步長為8。其余訓(xùn)練設(shè)置不變,將輸入的頻譜特征和梅爾頻譜特征數(shù)據(jù)轉(zhuǎn)變?yōu)橐痪S序列數(shù)據(jù)進(jìn)行輸入,輸入格式為張量(tensor),格式大小為[批次(batch),數(shù)據(jù)長度(length)]。
從表2中可以看出,本文使用的模型雖然采用一維卷積操作,將頻譜特征和梅爾頻譜特征當(dāng)作序列信息進(jìn)行處理,但是正確率、精確率、召回率、F1值相較于基線系統(tǒng)依然得到提升,以正確率而言,本文模型在頻譜特征上提升約1.4%,在梅爾頻譜上的提升約4.4%,同時從實驗結(jié)果可以看出,使用了U-ConvBlock的模型相較于不使用的模型其各項參數(shù)均有細(xì)微提升,這也表明使用了U-ConvBlock的模型在區(qū)分HC、AD、MCI三類人群時可以給識別正確率帶來提升,這一結(jié)論與使用MFCC特征進(jìn)行訓(xùn)練時所得結(jié)論一致。
表2 梅爾頻譜和頻譜特征模型訓(xùn)練結(jié)果
本文在語音分離SuDoRM-RF模型基礎(chǔ)上,通過設(shè)計并加入語言障礙情況鑒別器,構(gòu)建出適用于阿爾茲海默癥說話人識別的端到端網(wǎng)絡(luò)SuDoRM-RF-AD。該模型可以基于阿爾茲海默癥早期認(rèn)知障礙患者和阿爾茲海默癥患者與正常人語言能力的差異,實現(xiàn)對三類人群的識別,相較于使用MFCC特征的基線系統(tǒng),當(dāng)模型使用3層U-ConvBlock結(jié)構(gòu),每層進(jìn)行三次連續(xù)時間采樣后,模型平均識別正確率可達(dá)84.8%,相較于基線系統(tǒng)提升約20%,且參數(shù)量僅為0.54M;對于使用頻譜特征的基線系統(tǒng),識別正確率提高了約1.4%,模型參數(shù)量約為0.23M;而較之梅爾頻譜基線系統(tǒng)則提高了4.4%,模型參數(shù)量僅為0.22M。這表明本文提出的模型是一種識別性能較好的輕量化架構(gòu)。