郝占龍,羅曉曙,趙書林
1.廣西師范大學(xué) 電子工程學(xué)院,廣西 桂林 541004
2.廣西師范大學(xué) 化學(xué)與藥學(xué)學(xué)院,廣西 桂林 541004
CNN已經(jīng)在機(jī)器學(xué)習(xí)領(lǐng)域中得到了廣泛的應(yīng)用[1-3]。CNN模型作為一種有效的圖像分類工具,已經(jīng)應(yīng)用在人臉識(shí)別、字符識(shí)別、自然圖像分類等領(lǐng)域[4-6]。CNN模型對(duì)圖像進(jìn)行圖像分類,避免了一些傳統(tǒng)的分類方法中對(duì)圖像特征提取困難,特征提取復(fù)雜度高,通用性差等問題[7-11]。經(jīng)典的CNN模型都需要較多的數(shù)據(jù)進(jìn)行參數(shù)的訓(xùn)練才能具有一定的分類能力,而HEp-2數(shù)據(jù)集中僅有訓(xùn)練集為721張、測(cè)試集為738張總計(jì)1 459張單細(xì)胞圖像,無法直接進(jìn)行CNN模型的訓(xùn)練,并且經(jīng)典的CNN模型普遍采用每層相同尺度卷積核的結(jié)構(gòu);為了使模型在不同尺度上對(duì)圖像進(jìn)行特征提取,針對(duì)以上問題,本文采用數(shù)據(jù)提升方法對(duì)訓(xùn)練集單圖像進(jìn)行擴(kuò)充,并設(shè)計(jì)同層多尺度核CNN模型,仿真測(cè)試表明本文數(shù)據(jù)提升方法有效訓(xùn)練了網(wǎng)絡(luò)參數(shù),并且本文同層多尺度核CNN模型提高了單細(xì)胞圖像的識(shí)別率。
盡管CNN使用局部感受野,權(quán)值共享的方式減少了大量的參數(shù),但是相對(duì)于本文使用的細(xì)胞圖像數(shù)據(jù)集,網(wǎng)絡(luò)模型的參數(shù)數(shù)量依然很多,訓(xùn)練這樣的網(wǎng)絡(luò)仍然具有很大的挑戰(zhàn)。
在本文使用的兩個(gè)細(xì)胞圖像數(shù)據(jù)庫(kù)中,hep2的單細(xì)胞圖像標(biāo)準(zhǔn)訓(xùn)練集為721張,測(cè)試集為738張;深度學(xué)習(xí)是一種自動(dòng)學(xué)習(xí)特征的機(jī)器學(xué)習(xí)方法,需要足夠的訓(xùn)練樣本才能夠更加有效地調(diào)整網(wǎng)絡(luò)參數(shù),顯然如此小規(guī)模的圖像顯然無法直接有效訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)中的眾多參數(shù)。對(duì)于每一張醫(yī)學(xué)圖像都來自承受著疾病痛苦的病人,應(yīng)該想辦法盡量充分利用這些圖片中的更多信息。為了盡量利用有限的訓(xùn)練數(shù)據(jù),可以通過使用一些方法對(duì)數(shù)據(jù)進(jìn)行提升,這樣,模型將看不到兩張完全相同的圖片,也有利于抑制過擬合,使得模型更有效地調(diào)整參數(shù),提高泛化能力。
數(shù)據(jù)提升的方法主要有:裁剪、旋轉(zhuǎn)[12]、亮度、對(duì)比度變換[13]、規(guī)范化等。
通過三階插值變換對(duì)圖像的尺寸進(jìn)行規(guī)范化,然后通過裁剪、旋轉(zhuǎn)、亮度、對(duì)比度變換、規(guī)范化等方式對(duì)數(shù)據(jù)集進(jìn)行提升;通過數(shù)據(jù)提升,使得可用訓(xùn)練集單細(xì)胞圖像樣本數(shù)量得到了擴(kuò)充,每張尺寸為72×72的單細(xì)胞圖像進(jìn)行64×64裁剪即可得到64張不同的圖像,也即使原始單細(xì)胞圖像數(shù)據(jù)集擴(kuò)大64倍;若每張圖像只進(jìn)行90°步長(zhǎng)的旋轉(zhuǎn),即可得到4張不同的圖像,單細(xì)胞數(shù)據(jù)集再次擴(kuò)大4倍,通過這兩種方法,原來的HEp-2訓(xùn)練集中721張單細(xì)胞圖像即可擴(kuò)大到184 576張,擴(kuò)大256倍,再通過對(duì)比度、亮度變化所得到的圖像數(shù)量將更加龐大。通過這些方法擴(kuò)大了數(shù)據(jù)集,有利于卷積神經(jīng)網(wǎng)絡(luò)中參數(shù)的訓(xùn)練和模型的泛化;為下一步卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)和訓(xùn)練提供了基礎(chǔ)。具體數(shù)據(jù)提升公式可表示為:
其中 y為輸出圖像,I為輸入圖像,F(xiàn)a、Fb分別為亮度、對(duì)比度變換系數(shù),crop為裁剪矩陣,rot為旋轉(zhuǎn)矩陣。
如圖1所示為一張單細(xì)胞圖像某次數(shù)據(jù)提升效果圖,第一張為原圖,數(shù)據(jù)提升1~3參數(shù)如表1所示,其中crop為裁剪矩陣起點(diǎn)坐標(biāo),rot為旋轉(zhuǎn)矩陣所旋轉(zhuǎn)的角度。
圖1 單細(xì)胞圖像數(shù)據(jù)提升效果圖
表1 數(shù)據(jù)提升參數(shù)表
LeNet-5[14]等經(jīng)典模型使用固定的尺度對(duì)細(xì)胞圖像進(jìn)行觀察,也即每層卷積核尺度是單一固定的,這意味著感受野是固定的;而人類視覺過程中,隨著人觀察事物的關(guān)注點(diǎn)的不同,感受野的大小并不是單一的,所以在單層卷積時(shí)使用多個(gè)不同尺度的卷積核同時(shí)卷積做為下一層的輸入,這樣有利于網(wǎng)絡(luò)在不同的尺度上對(duì)圖像的特征信息進(jìn)行更充分的提取。
考慮到人類視覺過程隨著興趣點(diǎn)的不同感受野會(huì)不同的特點(diǎn),參考LeNet-5模型結(jié)構(gòu),將第一個(gè)卷積層改為一個(gè)5×5和一個(gè)7×7兩個(gè)不同尺度的卷積核ω1、ω2,使得卷積神經(jīng)網(wǎng)絡(luò)可以通過不同的尺度處理輸入的圖像。則第一個(gè)卷積層的輸出Out為:
其中I為輸入圖像,?代表same方式卷積。如圖2所示為same方式卷積和valid方式卷積示意圖。
圖2 兩種卷積運(yùn)算示意圖
如圖3所示為本文所述同層多尺度核卷積神經(jīng)網(wǎng)絡(luò)模型。其中C代表卷積(Convolutional),P代表池化(Pooling),例如C1.1@64×64×8代表第一層第一個(gè)卷積核卷積得到的特征圖,尺寸為64×64,一共有8張;模型使用ReLUs激活函數(shù),每次最大池化后進(jìn)行局部歸一化再輸入到下一層。用表示經(jīng)過ReLUs的神經(jīng)元在(x,y)處應(yīng)用核函數(shù)i的響應(yīng),則局部響應(yīng)歸一化可表示為[15]:
其中N是該層核函數(shù)的總數(shù),n是參與競(jìng)爭(zhēng)的鄰域數(shù)量,超參數(shù) k,n,α和 β 可設(shè)置為[15]k=2,n=5,α=10-4,β=0.75。
圖3 同層多尺度核CNN模型
為了研究部分參數(shù)對(duì)CNN模型的影響,調(diào)整部分參數(shù),和本文模型不同的是,CNN1去掉了卷積層Conv3,CNN2去掉了全連接函數(shù)Localfunction2,CNN3去掉Conv1.2卷積核函數(shù),所有模型均采用最大池化——maxpooling,具體參數(shù)如表2所示。
表2 幾種CNN模型參數(shù)列表
圖4為幾種不同模型下測(cè)試集準(zhǔn)確率曲線,從圖中可以看出,本文模型較其他參考模型測(cè)試集預(yù)測(cè)準(zhǔn)確率都更高,說明本文所述模型中任何一部分結(jié)構(gòu)都是缺一不可的,最下面一條曲線為使用本文模型時(shí)的無數(shù)據(jù)提升模型識(shí)別率,說明數(shù)據(jù)提升后能夠更加有效地訓(xùn)練網(wǎng)絡(luò)參數(shù);表3為4種模型的HEp-2單細(xì)胞識(shí)別率,和Faraki[7],Nosaka[8]方法不同的是本文模型使用數(shù)據(jù)提升后單細(xì)胞圖像進(jìn)行訓(xùn)練,使得模型對(duì)于殘缺、對(duì)比度亮度變化、旋轉(zhuǎn)具有一定的適應(yīng)性,本文模型識(shí)別率為72.1%比單尺度模型CNN4提高2.7%。表4為本文模型和近年其他文獻(xiàn)對(duì)HEp-2單細(xì)胞圖像六分類識(shí)別率的對(duì)比,本文所述模型對(duì)HEp-2單細(xì)胞六分類識(shí)別率72.1%分別比ICPR2012競(jìng)賽最佳方法68.7%提高了3.4%,比ICPR2012競(jìng)賽中的CNN模型分類識(shí)別率提高了12.3%;對(duì)比其他方法也都有一定程度的識(shí)別率提升。
圖4 不同模型HEp-2測(cè)試集準(zhǔn)確率變化曲線
表3 4種模型細(xì)胞分類識(shí)別率 %
表4 本文模型和近年其他文獻(xiàn)對(duì)HEp-2細(xì)胞圖像六分類識(shí)別率 %
本文所述的同層多尺度核CNN模型避免了Faraki[7],Nosaka[8]細(xì)胞圖像分類方法特征提取困難、計(jì)算復(fù)雜、只適用特定的細(xì)胞類型等缺點(diǎn),具有較好的魯棒性和抗擾性,對(duì)于圖像殘缺、對(duì)比度亮度不同以及旋轉(zhuǎn)等都仍然能夠很好地完成HEp-2單細(xì)胞圖像的六分類,具有一定的應(yīng)用價(jià)值。