趙 勇, 何夢(mèng)園, 王泊林, 趙 榮, 孟 宗*
1. 燕山大學(xué)電氣工程學(xué)院, 河北省測(cè)試計(jì)量技術(shù)及儀器重點(diǎn)實(shí)驗(yàn)室, 河北 秦皇島 066004
2. 燕山大學(xué)信息科學(xué)與工程學(xué)院, 河北省特種光纖與光纖傳感重點(diǎn)實(shí)驗(yàn)室, 河北 秦皇島 066004
肺炎支原體(mycoplasma pneumoniae, MP)感染是社區(qū)獲得性肺炎最常見的病因之一[1]。 它是引起人類呼吸道感染的常見病原體, 如支氣管炎、 肺炎等, 嚴(yán)重可誘發(fā)哮喘等疾病[2]。 目前, 肺炎支原體菌株傳統(tǒng)實(shí)驗(yàn)室診斷方法主要包括培養(yǎng)法、 血清學(xué)法和聚合酶鏈反應(yīng)(polymerase chain reaction, PCR)分析[3]。 然而培養(yǎng)實(shí)驗(yàn)的培養(yǎng)周期長(zhǎng), 出結(jié)果慢; 血清學(xué)分析使用抗體作為生物標(biāo)志物, 缺乏對(duì)疾病發(fā)作的敏感性[1]; PCR技術(shù)具有較高靈敏度和特異性, 但需要熟練的操作人員、 昂貴的儀器和復(fù)雜的樣品預(yù)處理, 不能廣泛應(yīng)用于早期即時(shí)檢測(cè)[4]。 目前各種檢測(cè)方法都存在耗時(shí)長(zhǎng), 對(duì)實(shí)驗(yàn)條件、 環(huán)境和人員要求高, 培養(yǎng)過程中易受細(xì)菌和真菌干擾, 診斷敏感性和特異性低等問題, 限制了其在臨床上的廣泛應(yīng)用[5-6]。 因此, 快速、 靈敏、 特異的肺炎支原體菌株檢測(cè)方法研究具有重要臨床意義。
拉曼光譜是一種非彈性散射的電磁輻射, 是分子振動(dòng)和輻射之間能量交換的結(jié)果。 拉曼光譜技術(shù)具有所需樣品少、 無需復(fù)雜預(yù)處理、 不破壞樣品、 檢測(cè)速度快且靈敏度高等特點(diǎn), 廣泛應(yīng)用于乙肝[7]、 肺癌、 胃癌、 腎病[8]等疾病的診斷。 感染肺炎支原體的患者血液分子結(jié)構(gòu)發(fā)生變化并反映在其拉曼光譜中, 為基于拉曼光譜法判斷肺炎支原體菌株類型提供理論依據(jù)。
隨著深度學(xué)習(xí)在圖像處理、 語音識(shí)別等許多領(lǐng)域都取得成功應(yīng)用, 卷積神經(jīng)網(wǎng)絡(luò)獲得廣泛關(guān)注和極大發(fā)展, 但目前應(yīng)用于疾病診斷領(lǐng)域的光譜識(shí)別算法大多采用傳統(tǒng)機(jī)器學(xué)習(xí)方法。 相對(duì)于傳統(tǒng)拉曼光譜分類算法而言, 深度學(xué)習(xí)方法可以省去特征提取環(huán)節(jié), 簡(jiǎn)化光譜分類過程, 提高識(shí)別準(zhǔn)確率。 一維卷積神經(jīng)網(wǎng)絡(luò)可以從包含各種特征的光譜中提取與目標(biāo)分析物相關(guān)的信息。 Liu等[9]采用包括特征提取的金字塔形卷積層和用于分類的2個(gè)全連接層的LetNet變體的深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)拉曼光譜數(shù)據(jù)分類的方法, 在RRUFF礦物拉曼光譜數(shù)據(jù)庫上取得很好的分類效果。 Shao等[10]使用2個(gè)卷積和1個(gè)全連接的卷積神經(jīng)網(wǎng)絡(luò)結(jié)合拉曼數(shù)據(jù)篩選前列腺癌骨轉(zhuǎn)移的能力, 使用五倍交叉驗(yàn)證方法對(duì)模型進(jìn)行訓(xùn)練和測(cè)試, 模型平均檢測(cè)正確率81.70%。 李慶旭等[11]將可見-近紅外透射光譜技術(shù)與3個(gè)卷積層和1個(gè)全連接層的卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合, 用于入孵前種鴨蛋受精信息的無損鑒別, 測(cè)試集分類正確率97.41%, 高于邏輯回歸、 SVM等傳統(tǒng)方法。
本文提出將一維卷積神經(jīng)網(wǎng)絡(luò)(one-dimensional convolution neural network, 1D-CNN)模型應(yīng)用到肺炎支原體菌株拉曼光譜識(shí)別問題, 優(yōu)化卷積核大小和數(shù)目等模型參數(shù), 針對(duì)M129型和FH型兩類肺炎支原體光譜, 模擬高斯噪聲、 泊松噪聲和乘性噪聲等測(cè)量拉曼光譜數(shù)據(jù)時(shí)的常見噪聲, 驗(yàn)證模型抗噪能力, 通過和傳統(tǒng)機(jī)器學(xué)習(xí)算法所建模型分類結(jié)果進(jìn)行比較, 證明所提出方法的有效性, 為肺炎支原體肺炎快速診斷提供一個(gè)新的思路。
本文研究的肺炎支原體菌株拉曼光譜數(shù)據(jù)來源于Dryad光譜數(shù)據(jù)集(https://doi.org/10.5061/dryad.s5h20)[12], 具體選擇兩種主要的肺炎支原體菌株基因型M129型和FH型菌株的各25條拉曼光譜作為基礎(chǔ)光譜樣本模板。 原始數(shù)據(jù)庫中采集兩類菌株拉曼光譜時(shí), 激光器光源功率為28 mW, 積分時(shí)間為10 s, 光譜采集范圍400~1 800 cm-1, 兩類肺炎支原體菌株的基線校正后的平均拉曼光譜圖如圖1所示。
圖1 兩類肺炎支原體菌株拉曼光譜圖
卷積神經(jīng)網(wǎng)絡(luò)的建立通常要求基于大規(guī)模數(shù)據(jù)庫作為訓(xùn)練數(shù)據(jù), 充足的訓(xùn)練數(shù)據(jù)可以使神經(jīng)網(wǎng)絡(luò)模型充分學(xué)習(xí)到數(shù)據(jù)類別內(nèi)部特征和類別間的區(qū)別, 增強(qiáng)模型的魯棒性, 盡可能避免過擬合現(xiàn)象。 然而在實(shí)際應(yīng)用領(lǐng)域中, 由于臨床樣本的限制往往無法獲得足夠的拉曼光譜來訓(xùn)練深度學(xué)習(xí)模型。
數(shù)據(jù)增強(qiáng)是一種從有限的標(biāo)記樣本中擴(kuò)大樣本數(shù)量來訓(xùn)練神經(jīng)網(wǎng)絡(luò), 從而提高模型魯棒性的技術(shù)。 對(duì)于光譜數(shù)據(jù), 本文通過給拉曼光譜加入隨機(jī)基線偏移量, 設(shè)定樣本光譜的不同基線斜率和隨機(jī)乘性擴(kuò)大光譜幅值的方法進(jìn)行光譜數(shù)據(jù)增強(qiáng)。 隨機(jī)偏移量設(shè)定為樣本±0.10倍光譜標(biāo)準(zhǔn)差; 在0.95~1.05之間隨機(jī)設(shè)定基線的斜率; 按照樣本光譜的1±0.10倍標(biāo)準(zhǔn)差進(jìn)行幅值乘性擴(kuò)大。 一個(gè)光譜樣本進(jìn)行10倍增強(qiáng)后的光譜如圖2所示。
圖2 拉曼光譜數(shù)據(jù)增強(qiáng)
實(shí)際光譜數(shù)據(jù)采集過程中, 由于受傳感器材料屬性、 工作環(huán)境、 電子元器件和結(jié)構(gòu)等影響, 會(huì)引入各種噪聲, 如電阻引起的熱噪聲、 光子噪聲、 暗電流噪聲、 光響應(yīng)的非均勻性、 環(huán)境噪聲等。 噪聲以無用的信息形式出現(xiàn), 擾亂光譜的可觀測(cè)信息, 呈現(xiàn)與物質(zhì)不相連的譜峰。 傳統(tǒng)算法很難完全去除噪聲影響, 因此模型的抗噪性能顯得尤為重要。
高斯噪聲是最主要的隨機(jī)噪聲類型, 主要是由于傳感器亮度不均勻, 長(zhǎng)期工作溫度過高引起; 由于光具有量子特效, 到達(dá)檢測(cè)器表面的量子數(shù)目存在統(tǒng)計(jì)漲落, 因此對(duì)光譜細(xì)節(jié)信息遮蓋, 這種由于光量子而造成的測(cè)量不確定性稱為泊松噪聲; 乘性噪聲往往由于信道不理想引起, 噪聲部分隨信號(hào)變化而變化, 且與信號(hào)是相乘關(guān)系。 根據(jù)以上對(duì)噪聲的分析, 本文在M129型和FH型肺炎支原體菌株的原始光譜中分別疊加均值為0, 方差為0.000 1的高斯噪聲、 泊松噪聲以及方差為0.002的乘性噪聲, 疊加噪聲后的光譜如圖3所示。
圖3 原始光譜和疊加噪聲光譜
根據(jù)光譜數(shù)據(jù)特點(diǎn), 本文構(gòu)造1D-CNN模型進(jìn)行光譜分類。 整個(gè)1D-CNN包含3個(gè)卷積層和3個(gè)池化層, 其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 一維卷積神經(jīng)網(wǎng)絡(luò)拉曼光譜分類模型
光譜數(shù)據(jù)以2 746×1的矩陣形式輸入卷積層, 在卷積運(yùn)算層中, 使用線性修正單元變體LeakyReLU作為激活函數(shù), 表示式如式(1)所示
(1)
為了降低運(yùn)算復(fù)雜度, 卷積神經(jīng)網(wǎng)絡(luò)每層內(nèi)的神經(jīng)元權(quán)值共享, 通過大量仿真優(yōu)化比較, 卷積核尺寸參數(shù)分別設(shè)定為10×1, 5×1和2×1, 卷積核個(gè)數(shù)分別設(shè)定為64, 64和128。 卷積可提取前一層信息的不同特征, 這些不同特征共同作為下一層網(wǎng)絡(luò)的輸入數(shù)據(jù)。 一維信號(hào)卷積運(yùn)算公式如式(2)所示
(2)
式(2)中, *表示卷積運(yùn)算,yj為第j個(gè)輸出特征圖,xj為第j個(gè)輸入特征圖,kij為本層卷積運(yùn)算所使用的卷積核,bj為第j個(gè)特征圖的偏置。
每個(gè)卷積運(yùn)算層后對(duì)應(yīng)一個(gè)池化層, 對(duì)卷積運(yùn)算生成的特征圖采樣, 池化層運(yùn)算并未減少特征圖個(gè)數(shù), 而是減小每個(gè)特征圖的維度, 縮減數(shù)據(jù)量, 提升運(yùn)算速度, 本文采用最大池化(Max-pooling)對(duì)信號(hào)進(jìn)行降采樣, 其表達(dá)式如式(3)所示。
f(Xk)=max{a1, …,as}
(3)
式(3)是最大池化對(duì)信號(hào)降采樣計(jì)算方法, 對(duì)卷積層運(yùn)算所得的一個(gè)特征映射將其劃分多個(gè)不重疊Xk,k=1, 2, 3, …,K, 區(qū)域大小為s。
卷積及池化層獲取光譜數(shù)據(jù)特征后, 將其展開并輸入全連接層進(jìn)行分類, 使用tanh激活函數(shù), 并在全連接層后加入應(yīng)用比例為0.5的隨機(jī)失活層, 避免過擬合, 加快收斂速度, 提高神經(jīng)網(wǎng)絡(luò)魯棒性。 設(shè)置批處理樣本數(shù)目參數(shù)為90, 采用交叉熵?fù)p失函數(shù), 計(jì)算公式如式(4)所示
(4)
式(4)中,xn是訓(xùn)練光譜數(shù)據(jù),yn,k是第n個(gè)樣本預(yù)測(cè)第k個(gè)數(shù)據(jù)的標(biāo)簽,pn,k是第n個(gè)樣本預(yù)測(cè)第k個(gè)標(biāo)簽值的概率,N是總共的樣本數(shù),k為總標(biāo)簽類數(shù)。
原始光譜數(shù)據(jù)經(jīng)過增強(qiáng)和三類噪聲疊加構(gòu)成建模所需的光譜數(shù)據(jù)集, 將數(shù)據(jù)集隨機(jī)劃分為3部分: 70%光譜數(shù)據(jù)作為訓(xùn)練集, 10%光譜數(shù)據(jù)作為驗(yàn)證集, 用于在反向傳播訓(xùn)練過程中調(diào)整神經(jīng)元權(quán)重參數(shù); 20%光譜數(shù)據(jù)作為測(cè)試集, 用于測(cè)試已訓(xùn)練后的網(wǎng)絡(luò)模型性能。 模型經(jīng)過200個(gè)epoch訓(xùn)練之后的正確率和損失值曲線如圖5所示, 可以看出網(wǎng)絡(luò)基本收斂。
圖5 1D-CNN模型損失率和準(zhǔn)確率曲線
本文提出的1D-CNN方法與LDA, KNN和SVM三種傳統(tǒng)方法進(jìn)行比較, 結(jié)果如表1所示。 從表1中可以看出, CNN對(duì)加入高斯噪聲的M129和FH肺炎支原體菌株光譜數(shù)據(jù)所建模型分類正確率為98%, 泊松噪聲的M129和FH肺炎支原體菌株光譜數(shù)據(jù)所建模型的分類正確率為97%, 乘性噪聲的M129和FH肺炎支原體光譜菌株數(shù)據(jù)所建模型的分類正確率為97%, 均高于傳統(tǒng)算法所建模型的分類正確率。
表1 不同算法分類結(jié)果對(duì)比
為了進(jìn)一步比較1D-CNN模型和傳統(tǒng)算法對(duì)不同種類噪聲的抗噪能力, 分別得到KNN, SVM, LDA和CNN模型的混淆矩陣, 如圖6所示。 從圖6中可以看出, 基于1D-CNN方法所建模型的誤判個(gè)數(shù)最少, 同時(shí)1D-CNN模型對(duì)肺炎支原體菌株類型的靈敏度和特異性均高于其他算法所建模型, 結(jié)果表明1D-CNN模型相比傳統(tǒng)算法模型在抗噪聲方面具有明顯優(yōu)勢(shì)。
圖6 不同算法針對(duì)三種噪聲的混淆矩陣對(duì)比
對(duì)于肺炎支原體菌株類型的定性分析, ROC曲線下面積AUC(area under the curve)與準(zhǔn)確率呈正相關(guān), AUC值越大, 模型準(zhǔn)確率越高。 不同算法針對(duì)不同種類噪聲的ROC曲線對(duì)比結(jié)果如圖7所示。 由圖7(a)可知, 加入高斯噪聲后,CNN模型的AUC值為0.982, 傳統(tǒng)分類算法LDA, KNN和SVM模型的AUC值分別為0.612, 0.624和0.658; 由圖7(b)和(c)可知, 加入泊松噪聲和乘性噪聲后, CNN模型的AUC值也均高于其他算法。
圖7 疊加三類噪聲的不同算法ROC曲線對(duì)比
噪聲強(qiáng)度對(duì)拉曼光譜定性分析模型提出更高要求, 因此在肺炎支原體菌株原始拉曼光譜中分別疊加5, 15, 25, 35, 45和55 dBW六種不同強(qiáng)度的高斯白噪聲, 以測(cè)試模型的抗噪聲性能, 四種算法在不同噪聲強(qiáng)度下的分類結(jié)果對(duì)比如圖8所示。
從圖8可以看出, 隨著噪聲強(qiáng)度的不斷增大, LDA, KNN和SVM算法所建模型分類正確率下降幅度較大, 而1D-CNN 方法所建模型的分類正確率變化幅度較小, 當(dāng)添加噪聲強(qiáng)度達(dá)到55 dBW時(shí), 1D-CNN模型依然能夠提取到拉曼光譜特征, 獲得92.5%的分類正確率。 因此, 1D-CNN 所建模型抗噪性能遠(yuǎn)優(yōu)于傳統(tǒng)算法所建模型性能。
圖8 不同算法針對(duì)不同強(qiáng)度噪聲分類結(jié)果
為實(shí)現(xiàn)肺炎支原體菌株類型的準(zhǔn)確分類, 提出1D-CNN拉曼光譜分類方法。 針對(duì)小樣本肺炎支原體菌株的拉曼光譜, 提出適用于拉曼光譜數(shù)據(jù)的數(shù)據(jù)增強(qiáng)方法, 擴(kuò)充光譜數(shù)據(jù)以滿足建模樣本需求。 同時(shí)模擬光譜采集時(shí)不同種類噪聲影響, 驗(yàn)證模型的抗噪能力。 結(jié)果表明利用拉曼光譜結(jié)合1D-CNN, 無需光譜預(yù)處理可以有效篩選信息, 同時(shí)能夠更好地挖掘出光譜特征, 從而減少計(jì)算量和縮短計(jì)算時(shí)間。 相比傳統(tǒng)算法能得到更高的分類正確率, 并具有很好地抗噪聲能力, 具有明顯的優(yōu)勢(shì)和重要的實(shí)際應(yīng)用價(jià)值。