徐 偉,鄭 威,錢 煒,劉 健
(江蘇科技大學(xué) 電子信息學(xué)院,江蘇 鎮(zhèn)江 212000)
深度學(xué)習(xí)在過去的十余年得到快速發(fā)展,受到了越來越多研究學(xué)者的關(guān)注。深度學(xué)習(xí)最大的特點是善于從原始數(shù)據(jù)中提取高級的抽象特征,具有良好的泛化能力,因此被廣泛應(yīng)用于與特征提取相關(guān)的科學(xué)研究領(lǐng)域。在傳統(tǒng)的機器學(xué)習(xí)算法中,需要大量的工程領(lǐng)域相關(guān)知識,存在的問題是設(shè)計特征提取的方法受到限制,而深度學(xué)習(xí)的誕生有效地解決了機器學(xué)習(xí)存在的不足[1]。目前訓(xùn)練數(shù)據(jù)的快速增長以及計算機芯片處理數(shù)據(jù)能力的增強,使得深度學(xué)習(xí)在自然語言處理和計算機視覺領(lǐng)域應(yīng)用前景廣闊,促進了人工智能領(lǐng)域的發(fā)展。深度學(xué)習(xí)的模型主要有卷積神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)和自動編碼器[2]。卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的一種經(jīng)典且應(yīng)用廣泛的模型結(jié)構(gòu),它是由機器學(xué)習(xí)中的人工神經(jīng)網(wǎng)絡(luò)發(fā)展而來。近年來,卷積神經(jīng)網(wǎng)絡(luò)發(fā)展迅速,已經(jīng)成為深度學(xué)習(xí)研究領(lǐng)域中的熱點。1962年,生理學(xué)家Hubel和Wiesel通過對貓腦視覺皮層的研究,發(fā)現(xiàn)生物的視覺皮層細胞只對輸入圖像的局部區(qū)域很敏感,首次提出了感受野的概念。1980年,F(xiàn)ukushima根據(jù)Hubel和Wiesel的層級模型提出了與之類似的結(jié)構(gòu)—神經(jīng)認(rèn)知機。1998年,Yann LeCun及其合作人員構(gòu)建了一個典型的卷積神經(jīng)網(wǎng)絡(luò)模型—LeNet-5,并且在手寫數(shù)字字符識別中取得成功[3]。經(jīng)過多年的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)從最初的手寫數(shù)字字符識別應(yīng)用,逐漸擴展到其他更復(fù)雜的領(lǐng)域,例如人臉識別[4]、手勢動作識別[5]、交通標(biāo)志識別[6];再應(yīng)用到熱門的人工智能領(lǐng)域,例如情感分析[7]、語音識別[8]、心電信號分類和檢測[9]等。
非侵入性胎兒心電信號是檢測胎心率的研究重點,研究胎心率的重要指標(biāo)就是檢測胎兒心電周期中的QRS波群。文中在研究信號與信息處理的基礎(chǔ)上,針對從孕婦腹璧信號里提取胎兒心電信號的困難性,提出采用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)方法結(jié)合短時傅里葉變換檢測胎兒QRS波群。該方法突破了傳統(tǒng)胎心率檢測時需要將母體與胎兒心電信號分離的限制,可以在不去除母體心電信號的情況下直接檢測胎兒QRS波群,最終獲得可靠的胎兒QRS波群檢測性能。
卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)主要有輸入層、卷積層、池化層(降采樣層)、全連接層和輸出層。卷積層和池化層會設(shè)置多個交替連接,互相配合逐層進行特征提取,最后通過全連接層傳遞給輸出層。
1.1.1 卷積層
卷積層是卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的核心,它由多個特征面組成,其作用是特征提取。卷積層通過卷積核以固定的滑動步長對輸入信號進行特征提取,第一個卷積層提取的是初級特征例如線條、邊緣、輪廓,高層的提取更高級的抽象特征[10]。卷積層的特點是局部連接和權(quán)值共享。局部連接指的是卷積層中的神經(jīng)元與前一層輸入單元的部分神經(jīng)元連接,這部分區(qū)域稱為該神經(jīng)元的局部感受域。輸入特征面采用一組相同的權(quán)值與輸出特征面進行局部連接,這就是權(quán)值共享,作用是通過減少網(wǎng)絡(luò)中訓(xùn)練參數(shù)使網(wǎng)絡(luò)模型的復(fù)雜度降低,也可以達到減輕網(wǎng)絡(luò)過擬合的目的。
卷積核是卷積層進行卷積操作的重要部分,其本質(zhì)為權(quán)值矩陣[11],卷積核以固定的滑動步長在前一層輸入單元上移動,然后與局部感受域上的值進行卷積操作,最后得到輸入單元的特征圖。卷積核的參數(shù)包括個數(shù)、大小、滑動步長和零填充大小。在實際應(yīng)用中,往往需要多個卷積核得到多個特征面。卷積核進行卷積運算的表達式為:
(1)
f(x)=max(0,x)
(2)
1.1.2 池化層
池化層也稱為降采樣層或特征映射層,和卷積層一樣是由多個特征面組成,但每層池化的特征面唯一對應(yīng)卷積層的輸出特征面,特征面的個數(shù)不會發(fā)生改變。池化層也采用局部連接且神經(jīng)元不同時局部感受域不會出現(xiàn)重疊。因為卷積層的輸出是高維特征,直接使用進行分類會增加計算量和復(fù)雜程度。所以池化層的作用是降低卷積層輸出特征的維數(shù),得到的特征具有空間不變性,相當(dāng)于二次特征提取。常用的池化方法包括最大池化法、均值池化法和隨機池化法[12]。池化表達式為:
(3)
1.1.3 全連接層
在多個卷積層和池化層交替連接后會連接一個或多個全連接層,全連接層的作用是整合卷積層和池化層的特征得到全局特征進行分類[13]。全連接層和多層感知器相似,其中每一個神經(jīng)元與其前一層進行全連接,同一層內(nèi)神經(jīng)元相互不連接。全連接層的輸出值被傳遞給Softmax分類器,經(jīng)過Softmax分類器后得到一系列的概率值,這些概率值相加為1。輸出的概率值個數(shù)對應(yīng)網(wǎng)絡(luò)訓(xùn)練輸入的類別個數(shù),測試時輸入被檢測為概率值最大的類別。Softmax分類器的數(shù)學(xué)表達式為:
(4)
其中,N為輸入矢量x的長度。
非平穩(wěn)信號例如氣溫、血壓、心電信號等,它們的統(tǒng)計特征隨時間變化發(fā)生改變。短時傅里葉變換(STFT)是分析非平穩(wěn)信號不可或缺的工具,它的主要思想是將非平穩(wěn)信號進行加窗處理,然后再進行傅里葉變換,得到信號在窗函數(shù)一個窄區(qū)間內(nèi)近似平穩(wěn)信號的頻譜,窗函數(shù)可以根據(jù)時間變化進行平移,通過窗函數(shù)可以得到任意時間段的頻譜圖,在時域上實現(xiàn)信號的局部化[14]。假設(shè)非平穩(wěn)信號為x(t),窗函數(shù)為s(t),則非平穩(wěn)信號的短時傅里葉變換的數(shù)學(xué)表達式為:
(5)
其中,*表示復(fù)數(shù)共軛。
實驗中使用的數(shù)據(jù)集是PhysioNet/CinC競賽中提供的數(shù)據(jù)集Challenge 2013 Training Set A。set-a組數(shù)據(jù)集包含七十五條腹部心電圖(AECG)記錄(a01-a75),每條持續(xù)1分鐘。每條記錄包括四個通道,每個通道的采樣頻率為1 000 Hz,分辨率為16位。文獻[15]通過研究發(fā)現(xiàn)有七條記錄(a33、a38、a47、a52、a54、a71和a74)由于參考注釋不準(zhǔn)確,本實驗將不使用。實驗將前15條記錄用于卷積神經(jīng)網(wǎng)絡(luò)測試,其他都用于網(wǎng)絡(luò)訓(xùn)練,實驗保證訓(xùn)練和測試之間沒有相同的數(shù)據(jù)集。
信號質(zhì)量評估在檢測胎兒QRS波群中起到重要作用,文中采用樣本熵(SampEn)方法對心電信號進行分析,確定數(shù)據(jù)集中是否含有過多的噪聲成分。樣本熵公式為:
(6)
其中,m表示向量序列的維數(shù),r表示閾值,N表示數(shù)據(jù)的長度。在本實驗中,向量序列的維數(shù)設(shè)置為2,閾值設(shè)定為1.5,數(shù)據(jù)長度設(shè)置為500。
通過將四個通道的樣本熵值與閾值進行比較,小于1.5的可判斷為良好的心電信號,并選擇樣本熵值最小的通道在實驗中使用。圖1顯示了來自set-a組a61號數(shù)據(jù)的10秒信號質(zhì)量評估示例。
圖1 set-a組a61號數(shù)據(jù)10秒信號質(zhì)量評估
非侵入性的胎兒心電信號的主要噪聲來源于電力線干擾和基線漂移。首先,使用陷波濾波器來消除電力線干擾噪聲。其次,使用基于小波變換的低通濾波器去除基線漂移干擾。圖2和圖3顯示了去除兩種噪聲的對比。
圖2 濾除電力線干擾
圖3 濾除基線漂移干擾
本實驗的QRS波群檢測研究實際上是一項分類研究,預(yù)處理后的心電信號以100毫秒進行分段,分段后的胎兒心電信號通過短時傅里葉變換轉(zhuǎn)化成二維時頻圖,再通過卷積神經(jīng)網(wǎng)絡(luò)被檢測成兩類:有QRS波群和沒有QRS波群。根據(jù)PhysioNet提供的參考注釋,每100毫秒的心電信號被參考注釋標(biāo)記的分類為胎兒QRS波群,未被參考注釋標(biāo)記的分類為非胎兒QRS波群針對本實驗分段后的心電信號,計算短時傅里葉變換采用Hanning窗,窗口大小為64,將每100個采樣點的心電信號進行短時傅里葉變換,最終轉(zhuǎn)化為33×37的二維時頻圖。
圖4顯示了文中設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。總體來看,網(wǎng)絡(luò)結(jié)構(gòu)包含三個卷積塊和一個密集層。第一個卷積塊包含卷積層、批量標(biāo)準(zhǔn)化層和激活功能層,批量標(biāo)準(zhǔn)化的使用使卷積神經(jīng)網(wǎng)絡(luò)模型更容易優(yōu)化和處理。第二個卷積塊包含卷積層、批量標(biāo)準(zhǔn)化層、激活功能層和最大池化層,在卷積層和池化層之間應(yīng)用Dropout技術(shù)以防止網(wǎng)絡(luò)結(jié)構(gòu)出現(xiàn)過擬合現(xiàn)象。第三個卷積塊和第二個類似,以構(gòu)成深度卷積神經(jīng)網(wǎng)絡(luò)模型。密集層包含兩個全連接層,最終通過Softmax產(chǎn)生了兩類的輸出。卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的具體參數(shù)設(shè)置如表1所示。
圖4 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計
表1 卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)置
2.6.1 損失、準(zhǔn)確率和訓(xùn)練次數(shù)的關(guān)系
由圖5可以看出,準(zhǔn)確率隨訓(xùn)練次數(shù)迅速上升,最終訓(xùn)練300次達到77%左右。影響準(zhǔn)確率的主要因素是母體心電信號比胎兒強以及存在高頻肌電噪聲干擾,致使卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值優(yōu)化陷入局部最優(yōu),從而對后續(xù)分類性能造成影響。實驗中損失函數(shù)選擇交叉熵函數(shù)作為優(yōu)化目標(biāo),由圖6可以看出損失先持續(xù)下降,然后出現(xiàn)波動,訓(xùn)練結(jié)束時穩(wěn)定在0.3左右。
圖5 訓(xùn)練次數(shù)和準(zhǔn)確率變化的關(guān)系
圖6 訓(xùn)練次數(shù)和損失變化的關(guān)系
2.6.2 測試結(jié)果評價指標(biāo)
實驗評價檢測方法有效性的三個指標(biāo)分別是靈敏度(Sen)、陽性預(yù)測值(PPV)和準(zhǔn)確率(Acc),分別通過下式計算:
(7)
(8)
(9)
其中,TP表示胎兒QRS波群被正確檢測為胎兒QRS波群的樣本,F(xiàn)P表示非胎兒QRS波群被錯誤檢測為胎兒QRS波群的樣本,F(xiàn)N表示胎兒QRS波群被錯誤檢測為非胎兒QRS波群的樣本,TN表示非胎兒QRS波群被正確檢測為非胎兒QRS波群的樣本。
實驗測試結(jié)果如表2所示,QRS波群檢測的靈敏度、陽性預(yù)測值和準(zhǔn)確率分別為86.98%、88.35%和78.03%。影響準(zhǔn)確率的主要原因有:數(shù)據(jù)存在高頻肌電干擾,其形態(tài)與胎兒QRS波群相似,導(dǎo)致高頻肌電噪聲被錯誤識別成胎兒QRS波群;數(shù)據(jù)集中存在10%左右的胎兒QRS波群與母體重合,最終未被正確識別。
表2 針對15條數(shù)據(jù)檢測結(jié)果統(tǒng)計
2.7.1 不同激活函數(shù)對比
激活函數(shù)會影響卷積神經(jīng)網(wǎng)絡(luò)的分類性能,文中進一步研究了不同激活函數(shù)對胎兒QRS波群檢測性能的影響。測試了三種不同的激活函數(shù)分別是Sigmoid、Tanh和ReLU,分類準(zhǔn)確率分別為62.47%、70.28%和78.03%。從實驗結(jié)果可以得出ReLU的檢測效果優(yōu)于其他兩種激活函數(shù)。原因是在誤差反向傳播過程中計算梯度時,Sigmoid和Tanh計算導(dǎo)函數(shù)復(fù)雜,而ReLU的導(dǎo)函數(shù)固定為1;Sigmoid和Tanh存在飽和區(qū),容易出現(xiàn)梯度消失的現(xiàn)象;ReLU將網(wǎng)絡(luò)中部分神經(jīng)元輸出置0,增加網(wǎng)絡(luò)稀疏度,減少過擬合現(xiàn)象。
2.7.2 不同信號長度分段對比
根據(jù)PhysioNet提供的參考注釋顯示,一個胎兒QRS波群時限為50毫秒左右,為了覆蓋一個完整的心跳周期每段信號至少50毫秒。文中進一步研究了不同信號長度對胎兒QRS波群檢測性能的影響,即50毫秒、100毫秒、150毫秒和200毫秒,研究結(jié)果顯示準(zhǔn)確率分別為76.26%、78.03%、75.87%和68.27%。從實驗結(jié)果可以得出分段為100毫秒時檢測準(zhǔn)確率最高。分段長度太短不能包含完整心跳周期,太長含有冗余信息。分段長度不能超過200毫秒,否則胎兒和母體QRS波群會出現(xiàn)在同一段信號中,失去分類意義。
為了驗證卷積神經(jīng)網(wǎng)絡(luò)的有效性,文中選取支持向量機和BP神經(jīng)網(wǎng)絡(luò)做不同方法對比,對比結(jié)果見表3。支持向量機作為機器學(xué)習(xí)中的傳統(tǒng)分類算法,通過內(nèi)核函數(shù)映射至高維特征空間實現(xiàn)非線性分類;文中采用高斯徑向基函數(shù)作為核函數(shù),分類準(zhǔn)確率達到70.65%。BP神經(jīng)網(wǎng)絡(luò)作為人工神經(jīng)網(wǎng)絡(luò)中的經(jīng)典算法,非線性映射能力強大;文中采用了兩個隱含層以及非線性激活函數(shù)Sigmoid,分類準(zhǔn)確率達到75.21%。最終對比三種分類器的準(zhǔn)確率,實驗結(jié)果表明卷積神經(jīng)網(wǎng)絡(luò)具有更好的分類能力,可以有效檢測胎兒QRS波群。
表3 與其他方法對比
文中成功將二維卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于胎心率檢測課題中,結(jié)合了批量標(biāo)準(zhǔn)化和Dropout技術(shù),提高了卷積神經(jīng)網(wǎng)絡(luò)性能。由于卷積神經(jīng)網(wǎng)絡(luò)具有局部連接和權(quán)值共享等特性,能夠通過有監(jiān)督訓(xùn)練自動獲取胎兒QRS波群特征,而且特征對微小平移具備不變性,從而能夠解決胎心率檢測任務(wù)。最終在不去除母體心電信號的基礎(chǔ)上使用卷積神經(jīng)網(wǎng)絡(luò)進行檢測,經(jīng)過數(shù)據(jù)集的測試分別得到了較高的靈敏度、陽性預(yù)測值和準(zhǔn)確率。但是由于心電信號的一維性,導(dǎo)致卷積神經(jīng)網(wǎng)絡(luò)能夠提取的時頻特征較少,最終在測試時出現(xiàn)誤差,分類結(jié)果受到局限。在接下來研究中一方面應(yīng)提高對數(shù)據(jù)集的處理,例如研究如何去除高頻肌電噪聲的干擾;另一方面繼續(xù)對卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行優(yōu)化,發(fā)揮卷積神經(jīng)網(wǎng)絡(luò)對大數(shù)據(jù)處理的優(yōu)勢。