許 晗
(黎明職業(yè)大學(xué) 信息與電子工程學(xué)院,福建 泉州 362000)
21世紀(jì)以來,慢性病患者的比例逐年上升,致死率也在逐步升高。研究發(fā)現(xiàn)對(duì)HEp-2細(xì)胞(Human Epithelial type-2)進(jìn)行免疫熒光檢測(cè)可用于鑒定抗核抗體(ANA),這在識(shí)別自身免疫性疾病中起著重要作用。HEp-2細(xì)胞是人體喉癌上皮細(xì)胞,常用于檢測(cè)血清中的抗核抗體,進(jìn)而判斷是否具有自身免疫性疾病和對(duì)應(yīng)的疾病。
目前,檢測(cè)ANA主要采用的方法是傳統(tǒng)的手工評(píng)估法,一般可分為以下三個(gè)步驟:圖像預(yù)處理、特征提取(特征選擇)、特征分類。[1]盡管傳統(tǒng)方法已經(jīng)能夠達(dá)到較高的準(zhǔn)確率,但手工設(shè)計(jì)的特征都是基于人的先驗(yàn)知識(shí),而不是主動(dòng)地從數(shù)據(jù)中挖掘信息;同時(shí),在這些方法中,先進(jìn)行特征提取,再進(jìn)行分類,所以分類的準(zhǔn)確率很大程度上依賴于特征提取;另外,如果這些特征的提取階段有大量參數(shù),則會(huì)導(dǎo)致人工調(diào)節(jié)參數(shù)較為繁瑣。近年來,許多研究者致力于開發(fā)HEp-2細(xì)胞分類的計(jì)算機(jī)輔助判讀系統(tǒng),但是這些自動(dòng)化的判讀方法大多還是依賴于手工設(shè)計(jì)的特征提取方法和與之分離訓(xùn)練的分類器,同時(shí)這些系統(tǒng)的判讀性能與專業(yè)醫(yī)生相比仍然存在很大的差距。[2]
本文受自然圖像識(shí)別領(lǐng)域的深度卷積神經(jīng)網(wǎng)絡(luò)的啟發(fā),基于深度殘差網(wǎng)絡(luò)[3]對(duì)HEp-2細(xì)胞熒光圖像進(jìn)行分類研究,采用了ResNet18和ResNet34兩種深度學(xué)習(xí)模型對(duì)HEp-2細(xì)胞的ICPR 2012數(shù)據(jù)集進(jìn)行分類,并取得了良好的效果。
本文使用的是ICPR 2012數(shù)據(jù)集,[4]該數(shù)據(jù)集來自2012年ICPR競(jìng)賽的細(xì)胞分類部分,包括來自28個(gè)自身免疫性疾病病人的1 455個(gè)不同細(xì)胞樣本的熒光模式圖像。圖像由熒光顯微鏡先通過40倍(目鏡*物鏡)放大,再通過參數(shù)為6.45 um的CCD數(shù)字相機(jī)捕捉,最終數(shù)據(jù)集由兩個(gè)以上的專家通過手動(dòng)分割和標(biāo)注后得到。[5]整個(gè)數(shù)據(jù)集包含均質(zhì)型圖像388張、粗斑點(diǎn)型圖像228張、核仁型圖像127張、著絲點(diǎn)型圖像200張、致密斑點(diǎn)型圖像345張、細(xì)胞質(zhì)型圖像222張。根據(jù)熒光強(qiáng)度的不同,圖像被分為positive(顯性)、intermediate(中性)兩類。完整的數(shù)據(jù)集中標(biāo)明了每張圖像的ID,以及它們對(duì)應(yīng)的染色模式類別。圖1顯示了該數(shù)據(jù)集中六種HEp-2細(xì)胞染色模式示例圖。
為了方便分割和其他圖像處理,以及避免其他物質(zhì)對(duì)細(xì)胞的干擾,競(jìng)賽方還為每一個(gè)細(xì)胞圖像提供了掩膜,如圖2所示。
圖2 掩碼圖像
近年來,以Alex Net,VGGNet,Google Net,ResNet為主導(dǎo)的一系列CNN方法在圖像分類任務(wù),尤其是Image Net大規(guī)模圖像分類競(jìng)賽中脫穎而出。[6]經(jīng)過測(cè)試發(fā)展,與傳統(tǒng)網(wǎng)絡(luò)層數(shù)越深、生成的模型參數(shù)就越好的觀點(diǎn)不同,傳統(tǒng)的CNN網(wǎng)絡(luò)結(jié)構(gòu)如果一味的增加網(wǎng)絡(luò)層數(shù),準(zhǔn)確率不再上升,訓(xùn)練錯(cuò)誤率和測(cè)試錯(cuò)誤率甚至?xí)岣?。?]參數(shù)在神經(jīng)網(wǎng)絡(luò)中被反向傳播時(shí),梯度是需要被不斷傳播的,但是如果網(wǎng)絡(luò)層加深,傳播過程中梯度會(huì)逐漸消失。網(wǎng)絡(luò)無法對(duì)前面的參數(shù)進(jìn)行有效調(diào)整,也就得不到好的訓(xùn)練效果,這稱之為網(wǎng)絡(luò)退化問題。目前,技巧、初始權(quán)值選擇和權(quán)值共享等是深度學(xué)習(xí)的主要進(jìn)展方向。[8]
2015年Image Net圖像分類比賽冠軍ResNet網(wǎng)絡(luò)深度達(dá)到了152層,他們使用了殘差學(xué)習(xí)(Residual Learning)結(jié)構(gòu),[9]利用一個(gè)152層的深度網(wǎng)絡(luò)將錯(cuò)誤率下降到了3.57%,成功解決了網(wǎng)絡(luò)退化問題。該方法沒有使用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)去擬合所需要的實(shí)際映射關(guān)系,而是創(chuàng)新性地提出了殘差映射的方式。這樣,成功使得每一部分權(quán)重的調(diào)整都能被有效進(jìn)行,調(diào)整作用更明顯,更容易訓(xùn)練。
圖3是常規(guī)的神經(jīng)網(wǎng)絡(luò)形式。每層有激活函數(shù)和權(quán)值,圖中采用的是Relu激活函數(shù),目的是為了避免梯度消失的問題。圖4是殘差網(wǎng)絡(luò)的基本單元。在殘差網(wǎng)絡(luò)中,剛開始輸入的x,按照常規(guī)的神經(jīng)網(wǎng)絡(luò)進(jìn)行權(quán)值疊加,其結(jié)果通過激活函數(shù)后第二次進(jìn)行權(quán)值疊加,隨后再把輸入的信號(hào)和二次輸出結(jié)果疊加并第三次通過激活函數(shù),這就是殘差網(wǎng)絡(luò)的工作原理,而那條線稱為捷徑連接(shortcut connections)。在線性擬合中的殘差指的是數(shù)據(jù)點(diǎn)距離擬合直線的函數(shù)值的差,即這里的x就是擬合的函數(shù),而H(x)就是具體的數(shù)據(jù)點(diǎn),那么通過訓(xùn)練使得擬合的值加上F(x)就得到具體數(shù)據(jù)點(diǎn)的值,因此F(x)就是殘差。[10]
圖3 常規(guī)神經(jīng)網(wǎng)絡(luò)形式
圖4 殘差網(wǎng)絡(luò)基本單元
圖4 中,通過“shortcut connections(捷徑連接)”,原來的結(jié)果變?yōu)镠(x)=F(x)+x,若F(x)=0,則H(x)=x,即恒等映射。[11]這時(shí),網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)由原來的調(diào)整全部的參數(shù),變成去調(diào)整每一小塊的參數(shù),使每一塊的參數(shù)得到最優(yōu)解。也就是,所謂的殘差就是:F(x)=H(x)-x,如果F(x)=0,這時(shí)H(x)=x,也就是每一小塊的參數(shù)得到了最優(yōu)解,網(wǎng)絡(luò)的目的就變成了學(xué)習(xí)H(x)與x的差值,使差值接近于0。經(jīng)過這樣的轉(zhuǎn)變,當(dāng)網(wǎng)絡(luò)層數(shù)加深時(shí),錯(cuò)誤率也不會(huì)上升。
這種結(jié)構(gòu)是跳躍式的,即前一層的結(jié)果不僅可以傳輸給下一層,還可以跳躍著傳輸給下面的某一層。該結(jié)構(gòu)使得神經(jīng)網(wǎng)絡(luò)內(nèi)部可以疊加多層網(wǎng)絡(luò),解決了深度學(xué)習(xí)的模型錯(cuò)誤率不降反升的難題。正是因?yàn)檫@個(gè)思想,神經(jīng)網(wǎng)絡(luò)的層數(shù)可以增加到很多層,甚至上千層,使得傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)難題得到解決。
殘差學(xué)習(xí)模塊如圖5所示,其中x表示輸入向量,y表示輸出向量。該模塊通過添加短路連接實(shí)現(xiàn)公式F(x)+x,目的是使輸入與輸出的差值最小。x經(jīng)過若干網(wǎng)絡(luò)層后得到實(shí)際映射H(x),而F(x)=H(x)-x,即整個(gè)網(wǎng)絡(luò)由原來的擬合H(x),變?yōu)閿M合殘差函數(shù)F(x),這也使得網(wǎng)絡(luò)更加高效、便捷。[12]深度殘差網(wǎng)絡(luò)的原理是把全部訓(xùn)練分成許多個(gè)非常小的塊(block)去訓(xùn)練,讓每一塊訓(xùn)練的誤差最小,從而整體誤差最小,就能夠減少出現(xiàn)梯度彌散的現(xiàn)象。
圖5 殘差學(xué)習(xí)模塊
由圖6中ResNet網(wǎng)絡(luò)基本結(jié)構(gòu)可知,在這些基本結(jié)構(gòu)中,有一些“shortcut connections”是實(shí)線,有一些是虛線。造成這樣的原因主要是經(jīng)過連接后,如果x和F(x)的通道是一樣的,則H(x)=F(x)+x;如果他們的通道不一樣,就不能直接相加,而是需要再經(jīng)過一些操作。因此,需要依靠實(shí)線和虛線來區(qū)分這兩種情況:①當(dāng)輸入和輸出的維度是相同的,在網(wǎng)絡(luò)結(jié)構(gòu)上可以連續(xù)串聯(lián),以加深網(wǎng)絡(luò)的深度,從而直接用公式H(x)=F(x)+x來計(jì)算。②當(dāng)輸入和輸出的維度不同,則在網(wǎng)絡(luò)結(jié)構(gòu)上不能連續(xù)串聯(lián),卷積塊的作用就是為了改變網(wǎng)絡(luò)的維度,此時(shí)不能用公式H(x)=F(x)+x計(jì)算,應(yīng)該使用H(x)=F(x)+Wx,其中W是卷積操作,用于調(diào)整x的維度。[13]
圖6 ResNet網(wǎng)絡(luò)基本結(jié)構(gòu)
本文選取ICPR 2012競(jìng)賽數(shù)據(jù)集中所有positive圖像作為實(shí)驗(yàn)數(shù)據(jù),其中的六類模式圖像(Homogeneous,Coarse Speckled,F(xiàn)ine Speckled,Nucleolar,Centromere,Cytoplasmic)各自按照8∶2分為訓(xùn)練集和測(cè)試集,得到671張訓(xùn)練集、168張測(cè)試集。另外,本文還使用ICPR 2016競(jìng)賽數(shù)據(jù)集中的13 596張圖片作為實(shí)驗(yàn)數(shù)據(jù),同樣將其中的Centromere、Golgi、Nucleolar、NuMem、Homogeneous、Speckled 六類模式分別按照8∶2分為訓(xùn)練集和測(cè)試集,得到10 874張訓(xùn)練集和2 722張測(cè)試集。為避免圖像尺度不同對(duì)結(jié)果產(chǎn)生影響,實(shí)驗(yàn)中將細(xì)胞圖像尺度均統(tǒng)一成100×100的尺寸。
本文采用的訓(xùn)練模型為ResNet18和ResNet34,其中ResNet18具體除由輸入層、卷積層、池化層、全連接層、輸出層這些基礎(chǔ)的網(wǎng)絡(luò)結(jié)構(gòu)組成外,還包括四個(gè)作為映射的殘差塊。ResNet18包括(8*2+1)個(gè)卷積層+1個(gè)全連接層。ResNet34與ResNet18基本結(jié)構(gòu)相同,包括(16*2+1)個(gè)卷積層+1個(gè)全連接層。數(shù)字代表網(wǎng)絡(luò)的深度,18指的是18個(gè)帶有權(quán)重的層,包括全連接層和卷積層,不包括BN層和池化層。
每個(gè)模型使用200 個(gè)epoch 進(jìn)行網(wǎng)絡(luò)收斂,batch size為8。損失函數(shù)為交叉熵?fù)p失函數(shù),LR為0.1;激活函數(shù)為Relu函數(shù)。表1為Resnet網(wǎng)絡(luò)結(jié)構(gòu)模型。
表1 Resnet網(wǎng)絡(luò)結(jié)構(gòu)模型
本文首先采用了CPR2012數(shù)據(jù)集進(jìn)行試驗(yàn),其結(jié)果如圖7和表2、表3所示。從圖7的結(jié)果來看,在ResNet18和ResNet34進(jìn)行圖像分類時(shí),可以發(fā)現(xiàn)損失函數(shù),即錯(cuò)誤率是逐漸下降的,并且最終錯(cuò)誤率降到0.03%,初始時(shí)的損失函數(shù)不太理想。ResNet18相對(duì)于ResNet34來說,調(diào)整效果好。
表2 ResNet18圖像級(jí)檢測(cè)時(shí)的混淆矩陣(%)
表3 ResNet34圖像級(jí)檢測(cè)時(shí)的混淆矩陣(%)
圖7 ResNet18和ResNet34在訓(xùn)練過程中的損失變化
表2是采用ResNet18方法在ICPR 2012測(cè)試用數(shù)據(jù)集上的混淆矩陣,表格顯示圖像級(jí)檢測(cè)分類效果比較理想,在Cent、Hom以及Nucl這三類不同的染色模式類別之間,正確率達(dá)到了100%;C.Sp這一染色模式類別也達(dá)到了93.40%;僅在Cyt以及F.Sp兩類染色模式中出現(xiàn)了誤判,發(fā)生了混淆,但這兩類的誤判并不多,兩者的正確率同樣分別到達(dá)了88.99%和87.50%。從實(shí)驗(yàn)數(shù)據(jù)可以看出,該方法對(duì)圖像分類有較好的效果。
表3是采用ResNet34方法在ICPR 2012測(cè)試用數(shù)據(jù)集上的混淆矩陣。實(shí)驗(yàn)結(jié)果顯示,在Cent和Nucl這兩類不同的染色模式類別之間,分類正確率達(dá)到了100%,Cyt這一類別的分類正確率保持不變,F(xiàn).Sp類別的分類正確率則是上升了6.15%,這說明增加網(wǎng)絡(luò)深度有利于降低混淆函數(shù),提高圖像分辨的正確率。但Hom以及C.Sp這兩類別與ResNet18的方法相比,正確率略有下降,下降了1.88%與12.86%。兩種方法對(duì)染色模式圖像描述的鑒別能力都很強(qiáng),二者都具有比較理想的鑒別能力。
根據(jù)表4可以看出,在ICPR2012數(shù)據(jù)集上,ResNet18 和ResNet34 的分類結(jié)果是類似的,ResNet18在Positive_train-Positive_test的分類結(jié)果為94%,比ResNet34的93%略高。
表4 ICPR2012數(shù)據(jù)集的分類結(jié)果比較
深度殘差網(wǎng)絡(luò)模型的優(yōu)勢(shì)是既能良好提取特征,又可加深網(wǎng)絡(luò)深度。與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,由于圖片數(shù)據(jù)量的增大,使得模型的學(xué)習(xí)效果更好,分類準(zhǔn)確率更高,使用深度學(xué)習(xí)方法可以極大提高實(shí)驗(yàn)效率。
襄陽職業(yè)技術(shù)學(xué)院學(xué)報(bào)2023年6期