謝修娟 顧兵
摘? ?要:細(xì)菌耐藥性的日益加劇,以及目前的耐藥性檢測方法周期長等問題,給臨床第一時間準(zhǔn)確用藥帶來極大的挑戰(zhàn)和困境. 為此,本文將探索深度學(xué)習(xí)技術(shù)在抗菌藥物耐藥性預(yù)測中的應(yīng)用,提出一種融合注意力機(jī)制的雙通道卷積神經(jīng)網(wǎng)絡(luò)模型,通過上下兩個通道對建模后的送檢數(shù)據(jù)做不同粒度的特征提取,每個通道經(jīng)過卷積和池化后引入注意力機(jī)制,聚焦重要的特征信息,而后將兩個通道的特征進(jìn)行融合,從而完成分類輸出. 將模型在某三甲醫(yī)院細(xì)菌藥敏檢測歷史數(shù)據(jù)集上,與多種不同方法進(jìn)行對比實驗,結(jié)果表明,本文所提出方法在分類準(zhǔn)確度F值指標(biāo)中平均實現(xiàn)20.35%的提升,同時在小樣本分類上表現(xiàn)出更好的效果.
關(guān)鍵詞:深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);注意力機(jī)制;耐藥性預(yù)測
中圖分類號:TP301? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)志碼:A
Research on Antimicrobial Resistance Analysis Based on Deep Learning
XIE Xiujuan GU Bing
(1. Department of Computer Engineering,Southeast University Chengxian College,Nanjing 210000,China;
2. College of Medical Technology,Xuzhou Medical University,Xuzhou 221004,China)
Abstract:The increasing drug resistance of bacteria,as well as the long cycle of current drug resistance testing methods,bring great challenges and difficulties to accurate drug use at the first time in clinic.Therefore,this paper will explore the application of deep learning technology in the prediction of antimicrobial resistance,and proposes a dual-channel convolution neural network model integrating attention mechanisms. Through the upper and lower channels,different granularity features are extracted from laboratory data after modeling. After convolution and pooling,an attention mechanism is introduced in each channel to focus on important feature information,and then the features of the two channels are fused to complete the classification output. The model is applied to the historical data set of bacterial drug sensitivity test in a tertiary hospital,and compared with other methods.The results show that the proposed method achieves an average improvement of 20.35% in F-value index of classification accuracy,and performs better in small sample classification.
Key words:deep learning;convolutional neural network;attention mechanism;drug resistance prediction
在互聯(lián)網(wǎng)技術(shù)高速發(fā)展的今天,醫(yī)療、教育、金融、電商等各個行業(yè)的數(shù)據(jù)以“爆炸”式速度在增長,如何從海量數(shù)據(jù)中,提取有價值的信息變得越來越重要. 深度學(xué)習(xí)作為大數(shù)據(jù)分析的關(guān)鍵技術(shù)之一[1],它將特征提取與分類器有機(jī)融合,能從大量輸入信息中自動學(xué)習(xí)特征并完成分類,在圖像識別、語音識別、文本分類及情感分析等諸多領(lǐng)域取得了較好的實踐效果[2-3]. 近年來,不少學(xué)者開始探索醫(yī)療衛(wèi)生行業(yè)大數(shù)據(jù)的智能化處理,嘗試運用深度學(xué)習(xí)技術(shù)處理醫(yī)學(xué)大數(shù)據(jù),主要集中于對醫(yī)學(xué)圖像、電子病歷、基因組學(xué)的分析[4],特別是醫(yī)學(xué)影像圖像,包括圖像分類、圖像分割、圖像重建、目標(biāo)檢測等關(guān)鍵問題,如:Yasaka等[5]使用深度學(xué)習(xí)技術(shù)對增強CT圖像上肝臟占位性疾病進(jìn)行包括典型的干細(xì)胞癌、不確定的肝腫塊及腫塊樣病灶、血管瘤在內(nèi)的五種病灶分類,平均AUC為0.92;Jiang等[6]利用基于AlexNet的全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行視網(wǎng)膜血管分割,在4個公開數(shù)據(jù)集上取得優(yōu)異表現(xiàn);You等[7]提出一種基于半監(jiān)督的圖像恢復(fù)算法,將殘差學(xué)習(xí)方式用于循環(huán)對抗生成網(wǎng)絡(luò),將低分辨率CT圖像,準(zhǔn)確恢復(fù)至高分辨率CT圖像;Almasni等[8]使用YOLO網(wǎng)絡(luò)對乳腺腫塊進(jìn)行自動檢測,定位準(zhǔn)確率高達(dá)99.7%,并能準(zhǔn)確地區(qū)分良性和惡性病變.
由于醫(yī)學(xué)數(shù)據(jù)存在多源異構(gòu)性、公開數(shù)據(jù)集缺乏、高質(zhì)量數(shù)據(jù)標(biāo)注困難、對領(lǐng)域知識有一定要求等諸多因素,致使醫(yī)學(xué)數(shù)據(jù)的處理與分析發(fā)展較慢. 從已有統(tǒng)計數(shù)據(jù)來看,深度學(xué)習(xí)在檢驗醫(yī)學(xué)中的研究比較少,主要集中在血細(xì)胞識別、體液分析、免疫分析、微生物領(lǐng)域、寄生蟲領(lǐng)域和基因及蛋白組學(xué)領(lǐng)域[9-15],而這些絕大多數(shù)還是屬于圖像處理應(yīng)用.
隨著抗菌藥物耐藥性的加劇,抗菌藥物的不合理使用問題愈來愈嚴(yán)重,構(gòu)成全球公共衛(wèi)生的一大威脅[16]. 目前,各大醫(yī)院耐藥性檢測方法多采用傳統(tǒng)的細(xì)菌培養(yǎng)方法,從鑒定細(xì)菌到完成藥敏檢測至少需要3 ~ 5 d時間,這種傳統(tǒng)檢測方法延誤了醫(yī)生對患者的抗菌藥物耐藥性的知悉時機(jī),給臨床用藥帶來挑戰(zhàn)和困境. 大數(shù)據(jù)分析技術(shù)是否能為快速、準(zhǔn)確地使用抗菌藥物另辟蹊徑?目前,對抗菌藥物的數(shù)據(jù)分析處理研究極少,Nguyen 等[17]使用機(jī)器學(xué)習(xí)的XGBoost算法,構(gòu)建非傷寒沙門氏菌基因組與15種抗生素間的MIC預(yù)測模型;梁治鋼、王一敏[18-19]先后使用機(jī)器學(xué)習(xí)的免疫遺傳算法和深度學(xué)習(xí)的長短期記憶網(wǎng)絡(luò)模型,基于電子病歷數(shù)據(jù),對抗菌藥物的是否合理使用進(jìn)行了探索性研究.
本文將探索深度學(xué)習(xí)技術(shù)在細(xì)菌藥敏檢測歷史大數(shù)據(jù)中的應(yīng)用,提出一種融合注意力機(jī)制的雙通道卷積神經(jīng)網(wǎng)絡(luò)模型,充分挖掘不同深淺層次的藥敏檢測文本信息,并為不同重要程度的信息賦予不同的權(quán)重,構(gòu)建檢測樣本與抗菌藥物間的分類模型,而后利用此模型判斷待測樣本對抗菌藥物的耐受程度,第一時間為醫(yī)生臨床用藥提供最適合個體患者的決策支持,為抗菌藥物的合理使用提供輔助作用.
1? ?所用技術(shù)
1.1? ?卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)作為當(dāng)前最為流行的深度學(xué)習(xí)網(wǎng)絡(luò)模型之一,近些年在計算機(jī)視覺領(lǐng)域取得了令人矚目的成績. 它具有優(yōu)異的特征自學(xué)習(xí)能力,從底層圖像特征逐步映射到高層語義特征,常被用于分類和預(yù)測. 卷積神經(jīng)網(wǎng)絡(luò)主要由輸入層、卷積層、池化層和輸出層四部分組成.
1)輸入層:卷積神經(jīng)網(wǎng)絡(luò)的輸入層一般是二維數(shù)據(jù)格式,可以是二維圖像矩陣,也可以是二維文本矩陣,本文是將基于患者檢測樣本的二維文本數(shù)據(jù)作為輸入.
2)卷積層:卷積層利用共享的卷積核與輸入層或者前一個卷積層的局部感受野做卷積運算,再經(jīng)過激活函數(shù)(如Sigmoid、tanh、Relu)做非線性運算,得到特征值,卷積運算如公式(1)所示.
1.2? ?文本詞向量處理
檢測樣本所對應(yīng)的文本數(shù)據(jù)要用于深度學(xué)習(xí),第一步需要將文本數(shù)據(jù)數(shù)字化,即將文本映射為k維的向量空間. 傳統(tǒng)的做法是使用One-hot編碼,將文本中的最小單位數(shù)據(jù)(可以是數(shù)字、字或詞等,簡稱元素)表示成一個向量. 具體做法是對文本按照需求進(jìn)行元素分割,建立一個包含所有元素的元素庫,向量的維度與庫大小相同,向量中,只有表示該元素的位置為1,其它為0.
One-hot方法有兩個主要缺點,一是當(dāng)元素比較多時,容易造成維度災(zāi)難;二是元素之間的相關(guān)性無法體現(xiàn). 鑒于這些問題,提出了分布式表示法,早期是使用統(tǒng)計學(xué)方法按照元素出現(xiàn)的次數(shù)將每個元素表示成一個實數(shù)向量,通過向量之間的余弦/歐式距離來表示元素間的語義相似性. 后來,又提出更為容易的基于神經(jīng)網(wǎng)絡(luò)的向量訓(xùn)練方法, Word2Vec[20]是目前所有分布式向量訓(xùn)練中效果最好的一種框架.
2? ?模型構(gòu)建
本文所提出的融合注意力機(jī)制的雙通道卷積神經(jīng)網(wǎng)絡(luò)模型,如圖1所示. 對原始的檢驗數(shù)據(jù)經(jīng)過預(yù)處理后,進(jìn)行向量化建模,以此作為輸入數(shù)據(jù),被分別送往相互獨立且深度不同的上下兩個通道的卷積神經(jīng)網(wǎng)絡(luò)中,每個通道經(jīng)過若干卷積和池化操作后,引入注意力機(jī)制,通過擬合多組權(quán)重向量來表征各特征分量的重要性,再經(jīng)過一個全連接層,而后將兩個通道的特征數(shù)據(jù)進(jìn)行融合,最后利用softmax函數(shù)實現(xiàn)分類輸出.
2.1? ?藥敏檢測數(shù)據(jù)建模
本文研究的數(shù)據(jù)源是細(xì)菌藥敏檢測數(shù)據(jù),每一條檢測樣本包含患者的年齡、性別、所屬科室、送檢日期、樣本類型、細(xì)菌種類、報告日期等送檢數(shù)據(jù),以及該患者對各個抗菌藥物的最低抑菌濃度(MIC)檢出結(jié)果值. 從送檢數(shù)據(jù)中選取有可能影響抗菌藥物耐受值的多個屬性作為輸入特征,以檢出結(jié)果MIC作為分類標(biāo)簽. 考慮到不同菌種對同一種抗菌藥物的敏感性不同,并且同一菌種在不同標(biāo)本中對同一種抗菌藥物的敏感值也不盡相同. 如:細(xì)菌aba和細(xì)菌aca對抗菌藥物AMP的最低抑菌濃度不同,同時,在不同檢測樣本中,細(xì)菌aba對抗菌藥物AMP會表現(xiàn)出來多個不同的MIC值. 因此,有必要為每種抗菌藥物建立一個分類模型,根據(jù)輸入的多特征送檢數(shù)據(jù),輸出其對當(dāng)前抗菌藥物的MIC分類值.
包含多特征的送檢樣本數(shù)據(jù)向量化表示,是卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取和融合的重要前提. 本文借鑒文本問題中構(gòu)建詞向量模型的做法,每一個屬性特征值對應(yīng)一個詞,使用一個向量來表示,特征向量維度為所有特征值的個數(shù),由于本文最后篩選得到的藥敏數(shù)據(jù)特征向量維度為42,顯然不存在維度災(zāi)難問題,同時各個特征間關(guān)聯(lián)性比較弱,故選用傳統(tǒng)的One-hot法構(gòu)建特征向量模型,如:性別男這個特征被表示為向量(1000...000). 而一條包含多個特征的送檢樣本數(shù)據(jù)則對應(yīng)文本問題中的一條句子,建模后為一個二維矩陣,矩陣的每一行即是一個特征向量.
2.2? ?雙通道卷積神經(jīng)網(wǎng)絡(luò)
2.3? ?注意力機(jī)制
注意力機(jī)制,是通過給各個特征分量分配合適的權(quán)重,篩選出重要特征并且聚焦到這些信息上. 它分成三個部分,分別為擠壓(squeeze)、激勵(excitation)和注意(attention),如圖1所示. 假設(shè)經(jīng)過卷積和池化后的特征信息是一個包含n個特征向量的二維矩陣,記為Um × n,進(jìn)行擠壓處理后,得到向量z(z1,z2,…,zn),擠壓函數(shù)(Fsq)的計算如公式(5)所示;隨后,將向量z經(jīng)過公式(6)的激勵處理(Fex),得到注意力權(quán)重向量a(a1,a2,…,an);最后,將權(quán)重向量a與特征矩陣U相乘,如公式(7)所示,生成帶注意力機(jī)制的特征輸出U′.
2.4? ?模型訓(xùn)練
3? ?實驗及分析
3.1? ?數(shù)據(jù)集
本文數(shù)據(jù)來源為某三甲醫(yī)院重癥監(jiān)護(hù)病房(ICU)2014年至2019年六年的細(xì)菌藥敏檢測歷史數(shù)據(jù),共計15 128條.? 其中,細(xì)菌種類有156種,抗菌藥物種類有53種,本文選取抗菌藥物AMK的所有檢測數(shù)據(jù)作為試點. 實際生產(chǎn)數(shù)據(jù)比較復(fù)雜,必須經(jīng)過預(yù)處理后才能用于實驗,本文的數(shù)據(jù)預(yù)處理工作包括:數(shù)據(jù)過濾、異常值檢測和規(guī)范化. 第一,數(shù)據(jù)過濾:在檢驗領(lǐng)域?qū)I(yè)人士的幫助下,對原始數(shù)據(jù)進(jìn)行篩選,去除無關(guān)指標(biāo),挑選出有可能影響抗菌藥物耐受值的5個屬性特征作為輸入,分別為患者性別、患者年齡、來源科室、標(biāo)本類型和細(xì)菌種類;第二,異常值檢測:根據(jù)專家自身檢測經(jīng)驗,排查原始數(shù)據(jù)中存在的不合理的檢測結(jié)果,同時,將缺失值較多以及記錄數(shù)比較少的檢測樣本也納入異常數(shù)據(jù),直接刪除它們. 最終用于實驗的數(shù)據(jù)集有1 781條,其中,涉及到的細(xì)菌有aba、eco等5種,分類標(biāo)簽數(shù)有<=2、<=4等6個;第三,規(guī)范化:為方便后期的數(shù)據(jù)處理,對5個特征使用數(shù)值進(jìn)行量化表示,以實現(xiàn)量化方式的統(tǒng)一.
3.2? ?評價指標(biāo)
本文采用F度量值[21]作為分類結(jié)果的評價標(biāo)準(zhǔn). 該方法同時兼顧了查準(zhǔn)率(P)和查全率(R)兩個指標(biāo),P、R和F分別由式(10)~式(12)計算得到.
P = TP/(TP + FP)(10)
R = TP/(TP + FN)(11)
F = (2*P)/(P + R)(12)
式中:TP為正類被劃分為正類的樣本數(shù),F(xiàn)P為負(fù)類被劃分為正類的樣本數(shù),F(xiàn)N為正類被劃分為負(fù)類的樣本數(shù),TP+FP表示實際分類的樣本數(shù),TP+FN 表示應(yīng)有的樣本數(shù).
3.3? ?實驗環(huán)境及參數(shù)設(shè)置
本文的實驗環(huán)境:操作系統(tǒng)為Windows 10,處理器為Intel Core i3,GPU1060 6G,內(nèi)存24G,硬盤256G,編程語言為Python 3.6,深度學(xué)習(xí)框架為Keras 2.1.2,后端使用Tensorflow 1.3.0.
為確保結(jié)果的客觀性和有效性,實驗采取十折交叉驗證法. 數(shù)據(jù)集被劃分為10份,1份為測試集,其余9份為訓(xùn)練集,10份樣本隨機(jī)輪流進(jìn)行10次實驗,取平均值作為模型最終的結(jié)果值. 經(jīng)過多次實驗,確定了一組最佳模型參數(shù),參數(shù)取值見表1所示.
3.4? ?實驗結(jié)果與分析
3.4.1? ?對比方法介紹
為更好地對本文所提出的融合注意力機(jī)制的雙通道卷積神經(jīng)網(wǎng)絡(luò)模型(CNN-Att-TChan)在藥敏檢測數(shù)據(jù)中的分類效果進(jìn)行評估,設(shè)計了如下對比實驗:
1)單通道二維卷積神經(jīng)網(wǎng)絡(luò)模型(CNN-2D). 該模型基于傳統(tǒng)的CNN網(wǎng)絡(luò),卷積核為二維,包含多層的卷積和池化操作.
2)帶注意力機(jī)制的單通道二維卷積神經(jīng)網(wǎng)絡(luò)模型(CNN-2D-Att). 該模型在CNN-2D基礎(chǔ)上,增加了基于特征分量的注意力機(jī)制.
3)雙通道二維卷積神經(jīng)網(wǎng)絡(luò)模型(CNN-2D-
TChan). 在CNN-2D網(wǎng)絡(luò)基礎(chǔ)上,設(shè)計了上下兩個通道,分別進(jìn)行多次卷積和池化操作,然后進(jìn)行特征融合,進(jìn)而分類輸出.
4)多通道一維有池化卷積神經(jīng)網(wǎng)絡(luò)模型(CNN-1D-MChan). 使用多個不同寬度,但長度相同的一維卷積核從多個通道提取數(shù)據(jù)特征,每一個卷積核長度等于藥敏數(shù)據(jù)特征向量維度,由于每個二維輸入矩陣經(jīng)過一次一維卷積后得到的已經(jīng)是向量,因此,每個通道只進(jìn)行一次卷積和池化,其它操作與CNN-2D-TChan類似.
5)多通道一維無池化卷積神經(jīng)網(wǎng)絡(luò)模型(CNN-1D-MChan-NoPooling). 在4)中CNN-1D-MChan網(wǎng)絡(luò)基礎(chǔ)上,去除池化操作,每個通道經(jīng)過一維卷積后,直接進(jìn)行向量融合,而后進(jìn)入全連接層.
6)經(jīng)典深度學(xué)習(xí)模型[22-25]. 除1)-5)自構(gòu)建的深度學(xué)習(xí)網(wǎng)絡(luò)模型外,還選用經(jīng)典分類模型ResNet-18、AlexNet-8、VGG-16,進(jìn)行對比實驗.
7)機(jī)器學(xué)習(xí)模型.? 選用機(jī)器學(xué)習(xí)分類方法中的隨機(jī)森林算法(RF)和決策樹算法(C4.5)作為代表,進(jìn)行對比實驗. 為使實驗結(jié)果更具有可比性,采用與本文一致的aba等5種細(xì)菌和抗菌藥物AMK作為輸入,為每個菌種和抗菌藥物建立一對一的分類模型,取5個模型的均值作為最終結(jié)果.
3.4.2? ?整體性能對比分析
不同模型的整體性能對比結(jié)果如圖2和表2所示. 由于本次實驗的數(shù)據(jù)屬于結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)量比較小、并且特征工程量不大等偶然因素,機(jī)器學(xué)習(xí)不失為一種有效方法,表現(xiàn)出了較好的分類性能. 但是實驗過程中,RF和C4.5兩種機(jī)器學(xué)習(xí)方法也暴露出一些問題,如:在面對訓(xùn)練集中的噪聲數(shù)據(jù)時容易出現(xiàn)過擬合現(xiàn)象、隨機(jī)森林法的Bootstrap自助采樣做法會導(dǎo)致有些樣本沒有被訓(xùn)練到、不能表征特征之間的相互關(guān)聯(lián)等,當(dāng)訓(xùn)練數(shù)據(jù)量非常龐大時,模型性能會被弱化,相反此時深度學(xué)習(xí)模型卻更具有優(yōu)勢.
本文主要探究深度學(xué)習(xí)模型在抗菌藥物耐藥性預(yù)測中的應(yīng)用,從多組對比實驗得到:
1)分類準(zhǔn)確度方面,本文所提出的CNN-Att-TChan模型與其它模型相比,F(xiàn)值有一定提升,說明本文模型所引入的多通道等做法能有效提高分類準(zhǔn)確度,如圖2所示. 第一,通道數(shù)影響. CNN-2D、CNN-2D-TChan、ResNet、Alexnet、VGG的對比實驗中,同是二維卷積,但是雙通道網(wǎng)絡(luò)表現(xiàn)出更好的分類效果,CNN-2D-TChan的F值比CNN-2D約高出7%,比經(jīng)典模型平均約高出10%,可見,增加通道數(shù),能提取到更為豐富的融合高層次和低層次的語義特征,有利于模型的擬合訓(xùn)練;第二,網(wǎng)絡(luò)層數(shù)影響. 在CNN-2D和經(jīng)典模型的對比實驗中,同是單通道,同是二維卷積,但CNN-2D的F值比經(jīng)典模型平均約高出3%,這是因為本文實驗經(jīng)典模型的網(wǎng)絡(luò)層數(shù)基本都比CNN-2D深,其中ResNet-18模型包含17個卷積層和1個全連接層,網(wǎng)絡(luò)層數(shù)約CNN-2D的三倍,網(wǎng)絡(luò)層次越高,越能提取到能表征局部和全局視圖的復(fù)雜特征,這適合于復(fù)雜圖像的識別與處理,而對于本文的藥敏檢測數(shù)據(jù),雖然輸入也可視為圖像,但該圖像矩陣的每一行僅有一個有效值,隨著網(wǎng)絡(luò)層數(shù)的深入,勢必會引入更多的有效值以外的冗余信息,從而干擾模型的正常訓(xùn)練;第三,注意力機(jī)制影響. 在CNN-Att-TChan與CNN-2D-TChan的對比實驗中,前者比后者增加了一個注意力機(jī)制,從實驗結(jié)果來看,分類準(zhǔn)確度有一定提升,但提升幅度不是特別大,關(guān)于注意力機(jī)制的作用下文會詳細(xì)敘述;第四,卷積核維度影響. 在CNN-2D、CNN-2D-TChan、CNN-1D-MChan的一組實驗中,發(fā)現(xiàn)一維卷積的分類準(zhǔn)確度遠(yuǎn)遠(yuǎn)低于二維卷積,下文將進(jìn)一步進(jìn)行卷積核維度影響的對比實驗.
2)時間性能方面,Epochs值為50時,各個模型的訓(xùn)練時長如表2所示,所提出模型的訓(xùn)練時長,比三個經(jīng)典模型要短,但較網(wǎng)絡(luò)層數(shù)相當(dāng)?shù)腃NN-2D模型有所增加. 實驗結(jié)果表明,在二維卷積網(wǎng)絡(luò)模型中,第一,添加注意力機(jī)制,訓(xùn)練時長約增長26.84%,注意力機(jī)制是在“卷積池化后、全連接前”增加的一個操作,通過自學(xué)習(xí)給每個特征分量分配注意力權(quán)重,必然會存在時耗,但是由于注意力機(jī)制在各特征分量層面采取的是并行運算方式,因此對整個模型的時間效率不會有太大影響;第二,雙通道較單通道,訓(xùn)練時長平均高出25.43%,因為每增加一個通道,經(jīng)過逐步卷積和池化后,勢必會在全連接層產(chǎn)生“層內(nèi)連乘、層間相加”的大量參數(shù),極大地增加了計算量,從而影響網(wǎng)絡(luò)的訓(xùn)練速度,可以說增加通道數(shù)是以降低模型執(zhí)行效率為代價的.
3.4.3? ?單項性能對比分析
1)注意力機(jī)制對比分析. 在上述對比實驗中發(fā)現(xiàn),增加注意力機(jī)制,對分類準(zhǔn)確度的提升雖然不是特別明顯,但是被正確預(yù)測出來的分類數(shù)增多. CNN-2D、CNN-2D-TChan和經(jīng)典模型,在數(shù)次測試中最終預(yù)測正確的均只有“<=2”這一個分類,這可能是數(shù)據(jù)集不均衡原因造成,因為整個數(shù)據(jù)集有約60%都屬于“<=2”類別,大樣本所帶的信息量比小樣本要高,使得分類器自然傾向于大樣本數(shù)據(jù). 但是添加注意力機(jī)制后,發(fā)現(xiàn)有更多的其它小樣本類別被正確預(yù)測出來,平均100次測試,有超過50%的概率預(yù)測出其它小樣本類別,這是因為注意力機(jī)制通過賦予高權(quán)重,能有機(jī)會聚焦到小樣本特征.
為進(jìn)一步驗證,本文在一維卷積CNN-1D-MChan和CNN-1D-MChan-NoPooling模型中添加了本文所提出模型中的特征分量(通道域)注意力機(jī)制,輔以空間域注意力機(jī)制和混合注意力機(jī)制(空間+通道),進(jìn)行對比實驗,實驗結(jié)果如表3所示. 結(jié)果表明,注意力機(jī)制在一維卷積中的作用與在二維卷積中相當(dāng),增設(shè)注意力機(jī)制對于模型分類準(zhǔn)確度影響不大,在一維卷積中甚至有微弱下降,但是能有效改善小樣本的預(yù)測分類效果. 此外,本文的通道域注意力機(jī)制,較空間域注意力機(jī)制和混合注意力機(jī)制,在預(yù)測準(zhǔn)確度和小樣本分類預(yù)測上的表現(xiàn)不分伯仲.
為進(jìn)一步評估注意力機(jī)制對模型訓(xùn)練時間性能的影響,本文在一維卷積和二維卷積中分別進(jìn)行了對比實驗,圖3為不同模型在不同的Epochs下完成一次迭代的訓(xùn)練時間變化曲線. 由圖3可見,兩組對比實驗中,添加注意力機(jī)制后訓(xùn)練時長均有一定程度的提升. 添加了注意力機(jī)制后的一維卷積網(wǎng)絡(luò)(CNN-1D-Att)與沒有添加注意力機(jī)制的一維卷積網(wǎng)絡(luò)(CNN-1D)訓(xùn)練時長提升幅度非常小,幾乎可以忽略不計;而添加了注意力機(jī)制后的二維卷積網(wǎng)絡(luò)(CNN-2D-Att)較沒有添加注意力機(jī)制的二維卷積網(wǎng)絡(luò)(CNN-2D),訓(xùn)練時長有一定差異,前者比后者平均高出25.36%,如圖,當(dāng)Epochs為300時,訓(xùn)練時長多出約42 s,但相對CNN-2D原始時長440 s來說,這個差值可以說比較小,故再次驗證添加注意力機(jī)制對于模型訓(xùn)練時間整體性能影響不大.
2)一維/二維卷積對比分析. 考慮到本文特征向量采用類詞向量建模的方法,輸入矩陣中的每一行構(gòu)成一個完整的藥敏特征向量,因而有必要進(jìn)行一維卷積核和二維卷積核的對比實驗,一維卷積核的窗口長度等于樣本特征向量的維數(shù),使得卷積操作只在輸入矩陣的一個方向上進(jìn)行,以便提取一到多個完整的特征信息. 設(shè)計了一組對比實驗,分別是一維卷積模型(CNN-1D)、一維無池化卷積模型(CNN-1D-NoPooling)、普通二維卷積模型(CNN-2D),結(jié)果如圖4和圖5所示.
圖4結(jié)果表明,CNN-1D-NoPooling的分類準(zhǔn)確度略高于CNN-1D,但它們都遠(yuǎn)遠(yuǎn)低于CNN-2D,這進(jìn)一步驗證了前文一維卷積在分類準(zhǔn)確度方面比二維卷積效果要差的結(jié)論,其原因主要是本文的一維卷積操作受輸入矩陣規(guī)模局限,只有一層,只能提取低層次特征,雖然移除了池化層,不對特征做精簡以保留竟可能多的特征,但由于一維卷積提取到的特征單一、泛化能力弱等問題,削弱了模型訓(xùn)練質(zhì)量. 此外,在時間復(fù)雜度影響方面,如圖5所示,一維卷積的訓(xùn)練時長要比二維卷積少出約60%,一方面是由于一維卷積的網(wǎng)絡(luò)模型層數(shù)少,導(dǎo)致網(wǎng)絡(luò)模型整體復(fù)雜度降低,另一方面是一維卷積過程中卷積核規(guī)模、輸出特征規(guī)模變小致使單個卷積層時間復(fù)雜度下降.
4? ?結(jié)? ?論
本文提出一種融合注意力機(jī)制的雙通道卷積神經(jīng)網(wǎng)絡(luò)模型用于檢驗醫(yī)學(xué)中抗菌藥物的耐藥性預(yù)測. 該方法通過上下兩個通道對建模后的送檢數(shù)據(jù)矩陣做不同粒度的特征提取,每個通道經(jīng)過卷積和池化后引入注意力機(jī)制,使模型聚焦重要的特征信息,而后將兩個通道的特征進(jìn)行融合,從而完成分類輸出. 將模型在某三甲醫(yī)院細(xì)菌藥敏檢測歷史數(shù)據(jù)集上,與多種不同方法進(jìn)行了對比實驗,結(jié)果表明,本文所提出方法在整體分類準(zhǔn)確度和小樣本分類方面表現(xiàn)出更好的效果,具有一定的可行性和有效性. 下一步工作,將對原始數(shù)據(jù)存在的細(xì)菌類型和類別不均衡問題作進(jìn)一步的探索和研究,提高輸入數(shù)據(jù)質(zhì)量,從而進(jìn)一步提升模型分類質(zhì)量.
參考文獻(xiàn)
[1]? ? 程學(xué)旗,靳小龍,王元卓,等,大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述 [J]. 軟件學(xué)報,2014,25(9):1889—1908.CHENG X Q,JIN X L,WANG Y Z,et al. Survey on big data system and analytic technology[J]. Journal of Software,2014,25(9):1889—1908. (In Chinese)
[2]? ? LECUN Y,BENGIO Y,HINTON G. Deep learning[J].Nature,2015,521(7553):436—444.
[3]? ? 何炎祥,孫松濤,牛菲菲,等. 用于微博情感分析的一種情感語義增強的深度學(xué)習(xí)模型[J]. 計算機(jī)學(xué)報,2017,40(4):773—790.HE Y X,SUN S T,NIU F F,et al.A deep learning model enhanced with emotion semantics for microblog sentiment analysis[J]. Chinese Journal of Computers,2017,40(4):773—790. (In Chinese)
[4]? ? MIOTTO R,WANG F,WANG S,et al. Deep learning for healthcare:review,opportunities and challenges[J]. Briefings in Bioinformatics,2018,19(6):1236—1246.
[5]? ? YASAKA K,AKAI H,ABE O,et al. Deep learning with convolutional neural network for differentiation of liver masses at dynamic contrast-enhanced CT:a preliminary study[J]. Radiology,2018,286(3):887—896.
[6]? ? JIANG Z X,ZHANG H,WANG Y,et al. Retinal blood vessel segmentation using fully convolutional network with transfer learning[J].Computerized Medical Imaging and Graphics,2018,68:1—15.
[7]? ? YOU C Y,LI G,ZHANG Y,et al. CT super-resolution GAN constrained by the identical,residual,and cycle learning ensemble(GAN-CIRCLE)[J]. IEEE Transactions on Medical Imaging,2020,39:188—203.
[8]? ? ALMASNI M A,AL-ANTARI M A,PARK J M,et al. Simultaneous detection and classification of breast masses in digital mammograms via a deep learning YOLO-based CAD system[J]. Computer Methods and Programs in Biomedicine,2018,157:85—94.
[9]? ? 嚴(yán)虹,劉國燁,李硯,等. 深度學(xué)習(xí)在檢驗醫(yī)學(xué)中的研究與應(yīng)用[J]. 中華檢驗醫(yī)學(xué)雜志,2019,42(12):1063—1066.YAN H,LIU G Y,LI Y,et al. Research and application of deep learning in laboratory medicine[J]. Chinese Journal of Laboratory Medicine,2019,42(12):1063—1066. (In Chinese)
[10]? SHAHIN A I,GUO Y,AMIN K M,et al. White blood cells identification system based on convolutional deep neural learning networks[J]. Comput Methods Programs Biomed,2019,168:69—80.
[11]? JAVADI S,MIRROSHANDEL S A. A novel deep learning method for automatic assessment of human sperm images[J]. Computers in Biology and Medicine,2019,109:182—194.
[12]? LI Y Q,MAHJOUBFAR A,CHEN C L,et al. Deep cytometry:deep learning with real-time inference in cell sorting and flow cytometry[J]. Scientific Reports,2019,9(1):11088.
[13]? JO Y,PARK S,JUNG J,et al. Holographic deep learning for rapid optical screening of anthrax spores[J]. Science Advances,2017,3(8):e1700606.
[14]? ZHANG Y B,KOYDEMIR H C,SHIMOGAWA M M,et al. Motility-based label-free detection of parasites in bodily fluids using holographic speckle analysis and deep learning[J]. Light:Science & Applications,2018,7:108.
[15]? 趙新元,秦偉捷,錢小紅. 深度學(xué)習(xí)方法在生物質(zhì)譜及蛋白質(zhì)組學(xué)中的應(yīng)用[J]. 生物化學(xué)與生物物理進(jìn)展,2018,45(12):1214—1223.ZHAO X Y,QIN W J,QIAN X H.Application of deep learning in biological mass spectrometry and proteomics[J]. Progress in Biochemistry and Biophysics,2018,45(12):1214—1223.(In Chinese)
[16]? SHI J H,YAN Y,LINKS M G,et al. Antimicrobial resistance genetic factor identification from whole-genome sequence data using deep feature selection[J]. BMC Bioinformatics,2019,20(15):1—14.
[17]? NGUYEN M,LONG S W,MCDERMOTT P F,et al. Using machine learning to predict antimicrobial MICs and associated genomic featuresfor nontyphoidal salmonella[J]. Journal of Clinical Microbiology,2019,57(2):e01260-18.
[18]? 王一敏,梁治鋼. 基于免疫遺傳算法的抗菌藥物數(shù)據(jù)挖掘[J]. 計算機(jī)系統(tǒng)應(yīng)用,2017,26(3):156—161.WANG Y M,LIANG Z G. Data mining of antimicrobial drug based on immune genetic algorithm[J]. Computer System? and? Application,2017,26(3):156—161. (In Chinese)
[19]? 梁治鋼,王一敏. 深度學(xué)習(xí)在電子病歷抗菌藥物使用方法分類中的應(yīng)用[J]. 計算機(jī)系統(tǒng)應(yīng)用,2019,28(8):71—77.LIANG Z G,WANG Y M. Application of deep Learning in classification of antimicrobial using methods in electronic medical records[J]. Computer System? and Application,2019,28(8):71—77. (In Chinese)
[20]? MIKOLOV T,CHEN K,CORRADO G,et al. Efficient estimation of word representations in vector space[EB/OL]. arXiv:1301.3781,2013-5-5.
[21]? 鐘將,劉榮輝. 一種改進(jìn)的KNN文本分類[J]. 計算機(jī)工程與應(yīng)用,2012,48(2):142—144.ZHONG J,LIU R H. Improved KNN text categorization[J]. Computer Engineering and Applications,2012,48(2):142—144. (In Chinese)
[22]? 陳紅松,陳京九. 基于ResNet和雙向LSTM融合的物聯(lián)網(wǎng)入侵檢測分類模型構(gòu)建與優(yōu)化研究[J].湖南大學(xué)學(xué)報(自然科學(xué)版),2020,47(8):1—8.CHEN H S,CHEN J J. Study on construction of IOT network intrusion detection classification model and optimization based on combination of ResNet and bidirectional LSTM network[J]. Journal of Hunan University(Natural Sciences),2020,47(8):1—8. (In Chinese)
[23]? ELNASIR S,SHAMSUDDIN S M.Proposed scheme for palm vein recognition based on linear discrimination analysis and nearest neighbour classifier[C]// 2014 International Symposium on Biometrics and Security Technologies(ISBAST). Kuala Lumpur,Malaysia: IEEE,2014:67—72.
[24]? KRIZHEVSKY A,SUTSKEVERI,HINTON G E. ImageNetclassification with deep convolutional neural networks[C]//International Conference on Neural Information Processing Systems. New York:Curran Associates Inc,2010:1097—1105.
[25]? SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL].2014.