梁立媛,吉曉東,2*,李文華,3
(1. 南通大學信息科學技術學院,江蘇 南通 226019;2. 南通先進通信技術研究院,江蘇 南通 226019;3. 江蘇文絡電子科技有限公司,江蘇 南通 226019)
消化道疾病[1],如出血、腫瘤和潰瘍等,已成為一種高發(fā)病癥并嚴重的危害人們的健康和生活質量。作為一種新型的消化道疾病檢查技術,膠囊內(nèi)鏡[2,3](Wireless capsule endoscope,WCE)與傳統(tǒng)的插入式消化道內(nèi)鏡相比,具有無創(chuàng)傷、安全、可全程檢測等優(yōu)越性能。醫(yī)生通過系統(tǒng)傳回的圖像來診斷患者是否患病,然而,膠囊內(nèi)鏡自口至肛門的過程耗費6-8小時,檢查過程產(chǎn)生的圖片量高達43200-57600張[4],醫(yī)生逐張診斷的方式耗時長,且極易使人疲勞、漏掉有用的信息,難于應對較大的檢查量。因此,找到一種對膠囊內(nèi)鏡圖像有良好分類效果的計算機輔助分析方法尤為重要。
目前,膠囊內(nèi)鏡圖像的分類算法主要分為兩類。一類是傳統(tǒng)的基于圖像特征提取的機器學習分類方法。設計者提取圖像的顏色[5]、紋理[6]和統(tǒng)計特征[7],并通過支持向量機(Support Vector Machine, SVM)[4,8]、K-近鄰(k-nearest neighbor,KNN)[6,7]等進行分類,受主觀因素影響較大,極易漏掉有價值的信息。一類是采用卷積神經(jīng)網(wǎng)絡(Convolutional neural network, CNN)的分類方法。作為一種端到端的學習方法[9],卷積神經(jīng)網(wǎng)絡對輸入的圖像進行參數(shù)優(yōu)化,在輸出層給出所在分類,相比傳統(tǒng)分類方法擁有更強的自動學習特征的能力。然而,設計一個有良好分類效果的卷積神經(jīng)網(wǎng)絡需要大量的數(shù)據(jù)優(yōu)化網(wǎng)絡中的參數(shù)。針對膠囊內(nèi)鏡圖像數(shù)據(jù)量少的問題,本文提出一種基于遷移學習的膠囊內(nèi)鏡圖像分類算法。首先對WCE圖像進行預處理和數(shù)據(jù)擴增;接著,采用Alexnet、Googlenet、Inception-v3網(wǎng)絡提取WCE圖像的深層特征。最后,合并提取到的3個模型的特征向量并輸入到SVM進行訓練和分類。實驗證明,相比手動提取特征的方法和構建卷積神經(jīng)網(wǎng)絡的方法,本文提出的方法具有更好的分類性能。
本文所提方法的流程如圖1所示。
圖1 本文方法流程圖
本文所提方法主要包括4個部分:1)數(shù)據(jù)預處理:WCE圖像含有噪聲,首先,對WCE圖像進行真彩色增強及中值濾波去除噪聲,改善圖像質量。2)數(shù)據(jù)擴增:WCE數(shù)據(jù)集相對較小且存在健康、病變圖像類別不均衡的問題。仿射變換方法增大樣本,平衡健康、病變類別。3)遷移學習:CNN模型訓練所需的參數(shù)量巨大,直接訓練,易過擬合,因此采用ImageNet 數(shù)據(jù)預初始化Alexnet、Googlenet、 Inception-v3網(wǎng)絡的模型參數(shù)。4)訓練及分類:利用預初始化后的3個卷積網(wǎng)絡提取囊內(nèi)鏡圖像的深層特征并加以融合,作為SVM的輸入進行訓練和分類。
本文數(shù)據(jù)庫由杭州華沖科技有限公司提供,包含分辨率為480*480的bmp格式膠囊內(nèi)鏡臨床圖像共1251張,其中病變圖像135張,健康圖像1116張,病變圖像遠小于健康圖像,需要對數(shù)據(jù)進行擴增。圖2給出了部分圖像, (a)(b)為健康圖像,(c)(d)病變圖像。
圖2 健康與病變圖像示例
由于膠囊內(nèi)鏡本身的CMOS攝像頭聚焦不準,光學遮光罩受消化液污染,電源供電不足等限制,獲得的WCE圖像存在亮度低,受噪聲污染的問題。針對WCE圖像的自身特點,提出的預處理步驟如下。
1)真彩色增強:將圖像由RGB(Red,Green,Blue)色彩空間轉化到更符合人的視覺特性的HSI(Hue,Saturation,Intensity)空間。對S,I分量分別進行1.5、1.2倍的增強處理,并將處理后的H,S,I分量轉換回RGB顏色空間。提升圖像亮度,使邊緣清晰,反差增強。圖像RGB與HSI空間的轉換算法如下:
算法1 RGB到HSI空間的轉換
輸入:R、G、B
輸出:H、S、I
1)H∈[0°,120°]:
(注:S=0時,對應無色的中心點,H無意義,定義H=0;S=0時,對應黑色,H,S無意義,定義H=0,S=0)
2)中值濾波:用5×5的窗口對上面得到的圖像的R,G,B分量進行中值濾波操作,去除噪聲的同時保留邊緣信息。
數(shù)據(jù)擴增用于解決數(shù)據(jù)集的類別不均衡和模型過擬合問題。采用仿射變換方法對數(shù)據(jù)集進行增強。主要通過將圖像旋轉 90°/180°/270°、裁剪、在水平和垂直方向作鏡像,以及這些操作的組合操作將數(shù)據(jù)集1次擴增為原來的9倍,得到健康圖像10044張,病變圖像1215張。對1215張病變圖像通過裁剪操作進行2次擴增為原來的8倍,得到9720張病變圖像,與10044張健康圖像數(shù)量均衡。
遷移學習[10]根據(jù)具體實現(xiàn)方法可分為:樣本遷移、特征遷移、關系遷移和模型遷移,近年來,已經(jīng)成為了卷積神經(jīng)網(wǎng)絡的發(fā)展趨勢之一,它降低了CNN方法中對樣本的要求,解決了傳統(tǒng)機器學習方法中訓練樣本和測試樣本必須獨立同分布以及訓練樣本數(shù)目需求過大的問題[11]。本文在包含1000類,126萬張自然圖像的ImageNet 數(shù)據(jù)庫上預初始化Alexnet、Googlenet、 Inception-v3的模型參數(shù)。自然圖像與WCE圖像不同但相關,采取遷移學習的方法可以在ImageNet 數(shù)據(jù)庫上學到有助于WCE圖像分類的如角點、邊緣、顏色、紋理等特征,進而提高卷積神經(jīng)網(wǎng)絡在小樣本的WCE圖像上的分類性能。
3.2.1 Alexnet網(wǎng)絡結構
Alexnet網(wǎng)絡[12]在2012年ImageNet圖像識別的比賽冠軍,主要由5個卷積層,3個池化層,3個全連接層和softmax 層組成,基本網(wǎng)絡結構如圖3所示。
圖3 Alexnet網(wǎng)絡結構
3.2.2 Googlenet網(wǎng)絡結構
Googlenet網(wǎng)絡[13]主要包括2個普通卷積層、9個Inception層,3個池化層和softmax 層。模型通過 Inception結構,在增加網(wǎng)絡寬度的同時,減少參數(shù)數(shù)量,降低計算復雜度。Googlenet基本網(wǎng)絡結構如圖4所示。
圖4 Googlenet網(wǎng)絡結構
3.2.3 Inception-v3網(wǎng)絡結構
Inception-v3網(wǎng)絡[14]由Google 2014年發(fā)布,模型中的Inception模塊,在一個卷積層中同時選用多種較小尺寸的卷積核替換較大尺寸的卷積核,提取多種特征后合并到一起作為輸出結果。Inception結構加入1×1卷積核實現(xiàn)降低特征維度,增強卷積操作的非線性表達能力的效果。Inception-v3基本網(wǎng)絡結構如圖5所示。
圖5 Inception-v3網(wǎng)絡結構
將3.1節(jié)得到的WCE數(shù)據(jù)輸入到Alexnet、Googlenet、Inception-v3,輸入數(shù)據(jù)時將圖像尺寸調(diào)節(jié)成符合網(wǎng)絡要求的227×227,224×224,299×299,提取Alexnet的“Fc7”層的4096維特征,Googlenet的“Loss-classifier”層的1000維特征,Inception-v3的“Ave_pool”層的2048維特征, 并將其合并為7144維的特征向量F。
F=[F1,F(xiàn)2,F(xiàn)3]
(1)
SVM[15]是由Vapnik等人運用統(tǒng)計學理論中的結構風險最小化準則和VC維理論提出的一種依賴核函數(shù)的機器學習分類算法,其原理是:尋找分類的最優(yōu)超平面,使超平面兩側類別的邊緣距離最大。樣本集{(x1,y1),(x2,y2),…,(xn,yn)},分類函數(shù)為
f(x)=sgn(ω·x+b)
(2)
其中,ω是權值向量,b是偏移量。
依據(jù)結構風險最小化準則,等價為
(3)
引入拉格朗日算子αi,分類閾值b*,最優(yōu)分類函數(shù)為
(4)
樣本集{(x1,y1),(x2,y2),…,(xn,yn)}線性不可分時,引入核函數(shù)K(xi·x)將樣本轉換到近似線性可分的空間,對應的最優(yōu)分類函數(shù)為
(5)
在SVM的訓練階段,利用2.2節(jié)得到的訓練樣本的7144維特征向量及對應的類別標簽,選取徑向基核函數(shù)對SVM分類器進行訓練,得到用于后續(xù)分類的SVM分類器。徑向基核函數(shù)的表達式如下[16]。
(6)
其中,σ為可調(diào)參數(shù)。
在SVM的分類階段,將測試樣本的特征向量輸入到訓練好的SVM分類器中進行分類識別。
本實驗在Matlab 2018b下完成,實驗硬件平臺為:Intel(R)Xeon(R)Silver 4110處理器,32G內(nèi)存,Nivida Quardo P2000顯卡,5.032G顯存。將增強后的數(shù)據(jù)集隨機分成2部分:70%作為訓練集用于訓練SVM分類器,30%作為測試集用于測試模型的識別和泛化能力,訓練與測試的數(shù)據(jù)互不交叉。為了對比不同方法對實驗分類性能的影響,本文設置了4組實驗。
實驗1:為驗證前期數(shù)據(jù)預處理和數(shù)據(jù)擴增的有效性,將增強前后的WCE圖像數(shù)據(jù)均輸入到Alexnet、Googlenet、Inception-v3進行對比實驗。
實驗2:為驗證特征融合方法的有效性,分別選擇提取Alexnet、Googlenet、Inception-v3對應的4096、1000和2048維特征和本文提出的特征融合方法作為對比。
實驗3:為驗證選擇SVM作為分類器的有效性,本文選取隨機森林(Random Forest,RF)、K近鄰(K-nearest neighbor,KNN)和樸素貝葉斯(Naive Bayes,NB)3種分類器作為對比。
實驗4:為驗證本文方法的有效性,同現(xiàn)有其它方法的分類結果對比。
對于醫(yī)學圖像的分類,可以從圖像的分類準確率來判定該分類系統(tǒng)的性能。令TP表示被正確分類的病變圖像,F(xiàn)P表示被錯誤分類的病變圖像,TN表示被正確分類的健康圖像,F(xiàn)N表示被錯誤分類的健康圖像,本文使用敏感性(Sensitivity),特異性(Specificity)和準確率(Accuracy)作為方法的評價指標。
(7)
(8)
(9)
其中,敏感性Sensitivity,特異性Specificity和準確率Accuracy分別表示病變圖像、健康圖像以及總體WCE圖像的分類準確率。
4.3.1 第1組實驗分析
實驗1針對數(shù)據(jù)增強對實驗結果的影響,采用增強前后的數(shù)據(jù)做了2組對比實驗,實驗結果如表1所示。從表1的實驗結果可知,應用增強后的數(shù)據(jù)比原始數(shù)據(jù)的分類效果要好,說明在本文方法中,數(shù)據(jù)增強對于改善模型的分類效果是不可或缺的。
表1 數(shù)據(jù)增強前后的分類結果對比
4.3.2 第2組實驗分析
對Alexnet、Googlenet、Inception-v3提取的特征進行合并是本文的貢獻點之一。實驗2對比了只提取單個網(wǎng)絡的特征對分類性能的影響,結果如表2所示。從表2的實驗結果可知,特征融合的方法更能有效的表示W(wǎng)CE圖像的特征,因此提高分類的準確率。
表2 遷移不同網(wǎng)絡的分類結果對比
4.3.3 第3組實驗分析
為了驗證分類器對分類性能的影響,實驗3對比了RF、KNN、NB、SVM 4個分類器,結果如表3所示,由表3可知,SVM在分類性能上表現(xiàn)最好。
4.3.4 第4組實驗分析
實驗4將本文方法同現(xiàn)存的圖像分類方法進行對比,結果如表4所示。鄧江洪[8]等人是根據(jù)特征的平均影響值對提取的顏色矩和灰度共生矩陣(Gray-level Co-occurrence Matrix)特征進行篩選,再用SVM進行分類。Xiuli Li[9]等人采用只增強病變圖像,遷移Inception-v3網(wǎng)絡并在網(wǎng)絡最后添加1個全連接層的方法分類圖像。由實驗結果可知,本文方法在敏感性,特異性,準確率方面均高于其它2種方法,驗證了本文方法的有效性。
表4 本文方法與現(xiàn)有其它方法的分類結果對比
為解決基于卷積神經(jīng)網(wǎng)絡的圖像分類算法上存在的模型參數(shù)難以訓練、易過擬合的問題,突破傳統(tǒng)機器學習方法中訓練樣本和測試樣本必須獨立同分布的限制,本文提出一種結合遷移學習和SVM的方法,實現(xiàn)膠囊內(nèi)鏡圖像的自動分類。在實驗過程中,對膠囊內(nèi)鏡圖像采取真彩色增強,中值濾波,數(shù)據(jù)擴增方法提升圖像對比度、濾除噪聲、平衡健康與病變圖像數(shù)量。先用ImageNet 數(shù)據(jù)預初始化Alexnet、Googlenet、 Inception-v3網(wǎng)絡,再基于遷移學習的思想,利用預初始化的3個網(wǎng)絡提取膠囊內(nèi)鏡圖像的深層特征并合并用于訓練SVM分類器,實驗結果表明,本文方法能夠有效提取膠囊內(nèi)鏡圖像的特征,提高分類準確率。
本文對膠囊內(nèi)鏡圖像的分類僅為健康與病變兩類。在今后的研究中,可以將病變圖像細分為出血、腫瘤、潰瘍等多個類別,嘗試改進Alexnet、Googlenet、 Inception-v3的網(wǎng)絡結構,進一步提高分類準確率。