胡恒豪, 王俊峰, 方智陽(yáng), 周海霞
(1.四川大學(xué)計(jì)算機(jī)學(xué)院, 成都610065; 2. 四川大學(xué)空天科學(xué)與工程學(xué)院, 成都 610065;3.四川大學(xué)華西醫(yī)院呼吸與危重癥醫(yī)學(xué)科, 成都 610041)
結(jié)核病(Tuberculosis, TB)被列為我國(guó)法定重大傳染病之一,是嚴(yán)重危害人民群眾健康的呼吸道傳染病.第五次全國(guó)結(jié)核病流行病學(xué)調(diào)查結(jié)果顯示[1],活動(dòng)性肺結(jié)核鄉(xiāng)村患病率(569/10萬(wàn))明顯高于城鎮(zhèn)(307/10萬(wàn)),西部地區(qū)(695/10萬(wàn))患病率高于東部(291/10萬(wàn))、中部地區(qū)(463/10萬(wàn)).由于西部地區(qū)貧困,邊遠(yuǎn)和少數(shù)民族地區(qū)較多,結(jié)核病防治人力資源匱乏等因素增加了結(jié)核病防治工作難度.
計(jì)算機(jī)輔助診斷醫(yī)學(xué)圖像一直是國(guó)內(nèi)外研究熱點(diǎn)[2-4].隨著深度學(xué)習(xí)在自然語(yǔ)言處理和圖像處理領(lǐng)域的不斷發(fā)展,越來(lái)越多的研究者采用深層神經(jīng)網(wǎng)絡(luò)模型處理醫(yī)學(xué)圖像的病理分類(lèi)和病灶檢測(cè)等問(wèn)題.谷歌AI團(tuán)隊(duì)設(shè)計(jì)深度學(xué)習(xí)算法分析視網(wǎng)膜圖像并識(shí)別糖尿病視網(wǎng)膜病變的特征,且在驗(yàn)證集上該算法性能略高于8位眼科醫(yī)生[5].斯坦福大學(xué)研究者利用深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練皮膚癌診斷模型,并同21 位認(rèn)證皮膚科醫(yī)生對(duì)比測(cè)試,結(jié)果表明其診斷能力接近皮膚科醫(yī)生[6].谷歌和斯坦福大學(xué)的研究成果建立在大量經(jīng)醫(yī)生標(biāo)注的數(shù)據(jù)上,而文獻(xiàn)[7]指出深度醫(yī)學(xué)圖像研究面臨帶標(biāo)注的數(shù)據(jù)量小,不能滿(mǎn)足大數(shù)據(jù)分析要求,不能保證模型分析結(jié)果的泛化能力等問(wèn)題.
目前針對(duì)數(shù)字化X線(xiàn)攝影(Digital Radiography,DR)胸片研究的大型公開(kāi)數(shù)據(jù)集有美國(guó)國(guó)立衛(wèi)生研究院提供的NIH Chest X-Ray-14[8]和斯坦福大學(xué)吳恩達(dá)團(tuán)隊(duì)的CheXpert[9].其中Chest X-Ray-14包含112 120個(gè)來(lái)自30 805名不同患者的正面DR胸片,每張胸片由14種不同的胸部病理標(biāo)簽標(biāo)注.Rajpurkar等[10]在ChestX-ray14上設(shè)計(jì)并訓(xùn)練了121層卷積神經(jīng)網(wǎng)絡(luò)用于肺炎檢測(cè).CheXpert數(shù)據(jù)集里面有224 316張DR胸片,共涉及65 240名患者.胸片均是患者在斯坦福醫(yī)院進(jìn)行胸部X光檢查之后的留存,并附有相關(guān)的放射學(xué)報(bào)告.研究者采用自然語(yǔ)言處理技術(shù)開(kāi)發(fā)了一種基于規(guī)則的自動(dòng)貼標(biāo)機(jī),從放射學(xué)報(bào)告中提取觀察結(jié)果,為胸片做病理分類(lèi).麻省理工學(xué)院研究者成功使用CheXpert的自動(dòng)貼標(biāo)機(jī)為371 920張DR胸片作標(biāo)注,準(zhǔn)確率能達(dá)到專(zhuān)業(yè)醫(yī)生水平,并整理得到MIMIC-CXR數(shù)據(jù)集[11].雖然以上數(shù)據(jù)集量級(jí)均達(dá)10萬(wàn)張,且有14種病理標(biāo)簽,但沒(méi)有包含肺結(jié)核DR胸片.
在欠發(fā)達(dá)地區(qū),基層衛(wèi)生院是檢測(cè)肺結(jié)核的第一關(guān)口,影像學(xué)方法被廣泛用于醫(yī)生臨床診斷.當(dāng)前的肺結(jié)核臨床診斷方式中,醫(yī)生通常先觀察DR胸片來(lái)判斷患者是否屬于肺結(jié)核或疑似活動(dòng)性肺結(jié)核,再做進(jìn)一步診斷.但在實(shí)際閱片過(guò)程中,由于胸部肋骨、胸膜等重疊組織會(huì)造成偽影以及醫(yī)生的經(jīng)驗(yàn)差異、閱片水平不一等問(wèn)題,臨床診斷結(jié)果存在漏檢、誤判.Schalekamp等[12]研發(fā)了計(jì)算機(jī)輔助系統(tǒng)(Computer-Aided Diagnosis,CAD)輔助診斷肺結(jié)核,表明可減小診斷結(jié)果的誤診率,顯著提高閱片醫(yī)生的工作效率.蘭云旭等[13]提出基于Spark的并行醫(yī)學(xué)圖像處理方法,并以肺葉胸片分割算法為實(shí)例證明計(jì)算機(jī)輔助診斷可適用于大規(guī)模高并發(fā)的醫(yī)學(xué)圖像處理場(chǎng)景.
基于傳統(tǒng)機(jī)器學(xué)習(xí)的胸片肺結(jié)核病灶檢測(cè)方法首先通過(guò)對(duì)DR胸片做預(yù)處理,提取疑似病變區(qū)域的特征,如形狀特征、紋理特征、密度特征等,再使用傳統(tǒng)機(jī)器學(xué)習(xí)方法訓(xùn)練的分類(lèi)器來(lái)判斷候選疑似區(qū)域是否為病變區(qū)域.Noor等[14]提出了一種統(tǒng)計(jì)解釋技術(shù)來(lái)檢測(cè)DR胸片中的結(jié)核病灶.他們首先對(duì)DR胸片進(jìn)行小波變換,然后從小波系數(shù)中計(jì)算12個(gè)紋理測(cè)量值,再對(duì)這些紋理測(cè)量執(zhí)行主成分提取以減少維數(shù).最后,使用概率橢球和判別函數(shù)來(lái)估計(jì)錯(cuò)誤分類(lèi)概率.Shen等[15]基于自適應(yīng)閾值均值漂移的聚類(lèi)算法先分割出候選區(qū)域,然后使用貝葉斯分類(lèi)器判斷候選區(qū)域是否為異常區(qū)域.Tan等[16]使用統(tǒng)計(jì)學(xué)特征在DR胸片上篩查肺結(jié)核取得良好效果.符堯等[17]采用加速穩(wěn)健特征算子來(lái)檢測(cè)分隔后的肺實(shí)質(zhì)圖像特征點(diǎn)得到疑似病變區(qū)域,再利用支持向量機(jī)成功對(duì)疑似區(qū)域做分類(lèi)判斷.
針對(duì)基于人工設(shè)計(jì)特征提取的結(jié)核檢測(cè),文獻(xiàn)[18]指出沒(méi)有特定的分類(lèi)器表現(xiàn)最佳,因?yàn)槊總€(gè)分類(lèi)器使用自己的訓(xùn)練集,且紋理特征比幾何特征更常用.采用基于人工的特征提取方法處理醫(yī)學(xué)圖像,需要算法設(shè)計(jì)者有豐厚的醫(yī)學(xué)知識(shí)儲(chǔ)備,才能提取出有足夠區(qū)分性的高質(zhì)量特征.而傳統(tǒng)的機(jī)器學(xué)習(xí)分類(lèi)器性能受限于訓(xùn)練樣本的質(zhì)量和分布,容易出現(xiàn)訓(xùn)練樣本不夠造成過(guò)擬合現(xiàn)象,算法魯棒性低導(dǎo)致模型泛化能力不強(qiáng)等問(wèn)題.
由于傳統(tǒng)的特征提取方法往往會(huì)忽略圖像的深層語(yǔ)義,深度學(xué)習(xí)網(wǎng)絡(luò)能隨著層數(shù)加深,從圖像數(shù)據(jù)中獲取更高階的特征,可以有效改善檢測(cè)器的分類(lèi)性能,避免人工設(shè)計(jì)特征提取算法的復(fù)雜性和局限性.Hwang等[19]設(shè)計(jì)了基于深度卷積網(wǎng)絡(luò)的CAD系統(tǒng),用于自動(dòng)TB篩查.Lakhani等[20]利用AlexNet和GoogLeNet實(shí)現(xiàn)對(duì)肺結(jié)核胸片的分類(lèi),其中分類(lèi)器在白俄羅斯結(jié)核病公共衛(wèi)生計(jì)劃和托馬斯杰斐遜大學(xué)醫(yī)院收集的非公開(kāi)胸片數(shù)據(jù)集上訓(xùn)練120個(gè)周期后達(dá)到了99%準(zhǔn)確度.目前公開(kāi)可用的肺結(jié)核胸片數(shù)據(jù)集[21]數(shù)量有限,不足以充分一個(gè)訓(xùn)練用于檢測(cè)病灶的深層網(wǎng)絡(luò),且數(shù)據(jù)集中的正常樣本是大多數(shù),病理樣本少,導(dǎo)致訓(xùn)大多數(shù)時(shí)間在訓(xùn)練正常樣本.Ghorakavi[22]在訓(xùn)練前使用Haar特征和LBP特征提取方法,通過(guò)裁剪肺部輪廓進(jìn)一步關(guān)注病灶區(qū)域,以加強(qiáng)神經(jīng)網(wǎng)絡(luò)對(duì)突出結(jié)核病特征的關(guān)注,改善結(jié)核病診斷系統(tǒng)的性能和響應(yīng)時(shí)間.
針對(duì)訓(xùn)練如GoogLeNet和AlexNet的低層卷積神經(jīng)網(wǎng)絡(luò)120個(gè)時(shí)期會(huì)導(dǎo)致數(shù)據(jù)過(guò)度擬合,且肺輪廓分割并未實(shí)際解決訓(xùn)練樣本不充足問(wèn)題,本文提出了利用深層網(wǎng)絡(luò)實(shí)現(xiàn)DR胸片肺結(jié)核病灶檢測(cè)與病變區(qū)域定位的方法及其基于RetinaNet[23]改進(jìn)的肺結(jié)核病灶檢測(cè)架構(gòu)Tuberculosis Neural Net(TBNN).方法將遷移學(xué)習(xí)[24]原理應(yīng)用模型訓(xùn)練中,保留模型在大型數(shù)據(jù)集中提取胸片的深層特征,并用于小量的肺結(jié)核胸片樣本檢測(cè).TBNN模型將訓(xùn)練重心放在肺結(jié)核樣本上,減弱大量正常樣本對(duì)模型的反饋.實(shí)驗(yàn)結(jié)果證明,本文提出的方法能更好的解決肺結(jié)核病灶檢測(cè)問(wèn)題.
醫(yī)學(xué)數(shù)據(jù)集中的正常樣本是大多數(shù),病理樣本較少,導(dǎo)致訓(xùn)練中的大多數(shù)時(shí)間用在了正常樣本上,病理樣本對(duì)模型訓(xùn)練的影響較弱.Facebook AI Research研究者發(fā)現(xiàn)造成這種情況的核心問(wèn)題是檢測(cè)器在訓(xùn)練過(guò)程中會(huì)遇到前景和后景類(lèi)別極度不平衡的問(wèn)題,提出Focal Loss (FL)來(lái)替代Cross EntropyLoss(CE)以解決類(lèi)別不平衡問(wèn)題,如式(1)所示.
(1)
其中,pt∈[0,1]代表二分類(lèi)模型將類(lèi)別t正確分類(lèi)的能力,如式(2)所示.
(2)
(3)
當(dāng)γ=0時(shí),F(xiàn)L就是CE,當(dāng)γ增加時(shí),調(diào)制系數(shù)變大.FL把訓(xùn)練重點(diǎn)放在更稀疏的樣本上,可以有效降低在訓(xùn)練期間大量容易被正確分類(lèi)的樣本給目標(biāo)檢測(cè)器所帶來(lái)抑制影響.
采用FL取代常見(jiàn)one-stage目標(biāo)檢測(cè)架構(gòu)中的CE后,得到基于FL的檢測(cè)框架示意圖如圖1,處理流程如下.
(1) 一個(gè)負(fù)責(zé)計(jì)算整個(gè)輸入圖像的卷積特征圖的骨架網(wǎng)絡(luò).此部分由一個(gè)自底向上前向傳播的特征提取網(wǎng)絡(luò)和一個(gè)自頂向下上采樣的特征金字塔網(wǎng)絡(luò)組成,分別對(duì)應(yīng)圖中的a)和b).網(wǎng)絡(luò)a)通過(guò)對(duì)輸入的多次卷積,提取出由淺至深層的圖像語(yǔ)義,網(wǎng)絡(luò)b)通過(guò)對(duì)前饋網(wǎng)絡(luò)a)的結(jié)果上采樣,再橫向連接a)中相同大小的特征圖,并將輸出送到子網(wǎng)絡(luò).
(2) 兩個(gè)子網(wǎng)絡(luò)分別負(fù)責(zé)對(duì)骨干網(wǎng)絡(luò)輸出的分類(lèi)以及執(zhí)行卷積得到預(yù)測(cè)邊框的回歸.每一層的計(jì)算都是相對(duì)獨(dú)立的,低層特征和高層特征都能對(duì)最后預(yù)測(cè)結(jié)果提供信息.
(3) 使用FL作為分類(lèi)子網(wǎng)絡(luò)的輸出.
圖1 基于Focal Loss的檢測(cè)框架Fig.1 The detection architecture based on focal loss
在此基礎(chǔ)上,本文通過(guò)實(shí)驗(yàn)改進(jìn)了特征提取網(wǎng)絡(luò),并提出針對(duì)DR胸片的肺結(jié)核病灶檢測(cè)模型TBNN.
傳統(tǒng)的機(jī)器學(xué)習(xí)只有在訓(xùn)練集數(shù)據(jù)和測(cè)試集數(shù)據(jù)都來(lái)自同一個(gè)域和同一分布的時(shí)候才能很好運(yùn)行,但是在實(shí)際應(yīng)用中,這種假設(shè)可能不成立.模型的泛化能力以及遷移能力很低,這也是運(yùn)用傳統(tǒng)機(jī)器學(xué)習(xí)方法處理醫(yī)學(xué)圖像問(wèn)題的缺陷之一.根據(jù)經(jīng)驗(yàn),至少需要2萬(wàn)張胸片才能充分訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò).遷移學(xué)習(xí)指從一個(gè)或多個(gè)任務(wù)的域中提取知識(shí)并將知識(shí)應(yīng)用于目標(biāo)任務(wù)的方法.即一個(gè)域D由兩個(gè)部分組成:特征空間X以及邊緣概率分布P(X),其中,X={x1,…,xn}∈X,指某個(gè)特定的學(xué)習(xí)樣本;一個(gè)任務(wù)T由輸出空間Y={y1,…,yn}和預(yù)測(cè)函數(shù)f(·)=P(Y|X)組成.T不能被觀察,但是可通過(guò)訓(xùn)練多組數(shù)據(jù){xi,yi},xi∈X,yi∈Y被學(xué)習(xí).假設(shè)有兩個(gè)域DS和DT以及不同的學(xué)習(xí)任務(wù)TS和TT,遷移學(xué)習(xí)就是利用DS和TS的知識(shí)來(lái)改善任務(wù)TT的預(yù)測(cè)函數(shù)f(·)在域DT中的表現(xiàn)能力.基于肺炎在DR影像學(xué)上表征和肺結(jié)核相似的特點(diǎn),本文采用圖2所示的深層遷移學(xué)習(xí)方法實(shí)現(xiàn)DR胸片肺結(jié)核病灶檢測(cè).
圖2 基于遷移學(xué)習(xí)的深層特征提取網(wǎng)絡(luò)Fig.2 The deep feature extraction network based on transfer learning
(4)
每次訓(xùn)練中更新參數(shù)w和θ的過(guò)程看作是一次學(xué)習(xí).學(xué)習(xí)誤差函數(shù)采用FL,優(yōu)化函數(shù)選用隨機(jī)梯度下降法,如式(5)所示.
(5)
其中,wt+1表示第t+1次學(xué)習(xí)后的網(wǎng)絡(luò)權(quán)重;Vt+1表示第t+1次學(xué)習(xí)中網(wǎng)絡(luò)的更新量;動(dòng)量μ是權(quán)重更新量的系數(shù);學(xué)習(xí)率α是權(quán)重系數(shù);FL(wt)是誤差的梯度.這樣特征提取網(wǎng)絡(luò)可通過(guò)朝梯度負(fù)方向更新參數(shù)來(lái)減小誤差以達(dá)到學(xué)習(xí)目的.
除了訓(xùn)練特征提取網(wǎng)絡(luò)使用的RSNA肺炎數(shù)據(jù)集(26 684張DR胸片訓(xùn)練樣本,3 000張DR胸片測(cè)試樣本),實(shí)驗(yàn)所使用的華西肺結(jié)核數(shù)據(jù)集數(shù)據(jù)有以下三點(diǎn)特性.
1) 針對(duì)性.肺結(jié)核標(biāo)注胸片數(shù)據(jù)是在重大傳染病國(guó)家科技重大專(zhuān)項(xiàng)實(shí)施中由西南地區(qū)30余所基層鄉(xiāng)鎮(zhèn)衛(wèi)生院在體檢篩查時(shí)采集.采樣地區(qū)屬于肺結(jié)核多發(fā)和醫(yī)療資源相對(duì)缺乏區(qū)域.
2) 真實(shí)性.由于閱讀醫(yī)學(xué)圖像需要具備豐富的醫(yī)學(xué)理論知識(shí),我們從收集的胸片中,按圖3的三級(jí)遞進(jìn)式診斷中整理出1 935張疑似肺結(jié)核胸片由華西醫(yī)院結(jié)核專(zhuān)家做標(biāo)注.
圖3 肺結(jié)核標(biāo)注數(shù)據(jù)采集Fig.3 Labeled tuberculosis dataset collection
3) 準(zhǔn)確性.除了對(duì)肺結(jié)核胸片打標(biāo)簽外,還利用矩形框?qū)Σ∽儏^(qū)域做了像素級(jí)標(biāo)注.標(biāo)注前胸片已進(jìn)行了脫敏處理,只保留其圖像信息,如圖4.將標(biāo)注信息和圖像相匹配后,得到表1所示的肺結(jié)核標(biāo)注數(shù)據(jù)集.其中,X, Y, Width, Height分別表示標(biāo)注框的左上頂點(diǎn)的坐標(biāo)以及標(biāo)注框的寬和高的像素值.
(600 px*699 px)
表1 肺結(jié)核標(biāo)注數(shù)據(jù)集示例
Tab.1 The example of labeled tuberculosis dataset
圖名標(biāo)注信息編號(hào)屬性X/pxY/pxWidth/pxHeight/px圖4DR胸部平片13672714122028846144165
考慮到肺炎和肺結(jié)核同為呼吸道感染疾病,在DR胸片上有相似的表征,本文采用RSNA肺炎數(shù)據(jù)集[25]來(lái)訓(xùn)練肺結(jié)核檢測(cè)模型的特征提取子網(wǎng)絡(luò),比較不同網(wǎng)絡(luò)對(duì)相似檢測(cè)任務(wù)的檢測(cè)能力.我們?cè)贙eras上選取了9種利用ImageNet[26]預(yù)訓(xùn)練好的網(wǎng)絡(luò)模型,分別是VGGNet16,VGGNet19,ResNet101,ResNet152,MobileNet128,MobileNet192,DenseNet121,DenseNet169,DenseNet201[27-31],并以相同的學(xué)習(xí)方式,參數(shù)優(yōu)化采用隨機(jī)梯度下降法(Stochastic Gradient Descent, SGD),學(xué)習(xí)率為1×10-2,在RSNA肺炎數(shù)據(jù)集上訓(xùn)練10個(gè)epoch,每個(gè)epoch學(xué)習(xí)2 500步并保留最佳的一組參數(shù).評(píng)價(jià)指標(biāo)采用了約登指數(shù)(Youden’s index),表示篩檢方法發(fā)現(xiàn)真正的病人與非病人的總能力.越大說(shuō)明模型實(shí)驗(yàn)的效果越好,真實(shí)性越大.
Youden=Se+Sp-1
(6)
其中,Se∈[0,1]是靈敏度(sensitivity),代表模型將真實(shí)的病人判斷為有病的能力; Sp∈[0,1]是特異度(specificity),代表模型將沒(méi)有發(fā)病的人判斷為無(wú)病的能力.靈敏度和特異度如下式計(jì)算.
(7)
(8)
(9)
(10)
其中,Ntp、Ntn、Nfp、Nfn分別指代混淆矩陣中的實(shí)際發(fā)病且分類(lèi)正確、實(shí)際未發(fā)病且分類(lèi)正確、實(shí)際發(fā)病卻分類(lèi)錯(cuò)誤、實(shí)際未發(fā)病卻分類(lèi)錯(cuò)誤的樣本個(gè)數(shù),通過(guò)計(jì)算得到表2.
表2 多網(wǎng)絡(luò)在不同訓(xùn)練周期下對(duì)DR胸片肺炎檢測(cè)能力比較(‰)
表2中網(wǎng)絡(luò)在每一周期得到的(1-Sp,Se), 即為當(dāng)前參數(shù)下ROC曲線(xiàn)上的截?cái)帱c(diǎn).如果將同種網(wǎng)絡(luò)所有截?cái)帱c(diǎn)連線(xiàn),如圖5所示,可以發(fā)現(xiàn)VGG19整體表現(xiàn)優(yōu)于VGG16; MobileNet192和MobileNet128表現(xiàn)相近,前者在表2中的Youden指數(shù)更大(0.656>0.623); ResNet101略?xún)?yōu)于ResNet152;DenseNet整體表現(xiàn)差于其他三種,且抖動(dòng)幅度大,曲線(xiàn)不平滑.
(a) Cutoff connections of Vgg
(b) Cutoff connections of Mobilenet
(c) Cutoff connections of Resnet
(d) Cutoff connections of Densenet
圖5 各網(wǎng)絡(luò)在不同訓(xùn)練周期下的ROC曲線(xiàn)截?cái)帱c(diǎn)連線(xiàn)
Fig.5 The connections of ROC cutoffs ondifferent training epochs withvarious architecture
圖5所示VGG19、 ResNet101以及MobileNet192的曲線(xiàn)更為平滑,性能更優(yōu),DenseNet整體性能較差.且MobileNet相較于VGG、ResNet最大Youden值更大.為了比較各網(wǎng)絡(luò)在肺結(jié)核檢測(cè)任務(wù)中的表現(xiàn),我們分別將三種網(wǎng)絡(luò)替換肺結(jié)核檢測(cè)框架中骨架的特征提取網(wǎng)絡(luò)部分,再通過(guò)遷移學(xué)習(xí)的方法訓(xùn)練得到檢測(cè)模型TBNN-vgg、TBNN-mobile和TBNN-res.其中TBNN-mobile為圖6所示的TBNN,特征提取子網(wǎng)部分網(wǎng)絡(luò)采用了和MobileNet[27]前13層相同的網(wǎng)絡(luò)結(jié)構(gòu),其中cov5,cov11和cov13分別對(duì)應(yīng)文獻(xiàn)[27]中Table1的第5步,第11步和第13步卷積操作.卷積得到的3個(gè)特征圖分別作為RetinaNet[23]中的Cov3,Cov4,Cov5.在FPN部分得到5個(gè)特征圖P3-P7,并將每一個(gè)特征圖送到分類(lèi)和病灶區(qū)域預(yù)測(cè)子網(wǎng)計(jì)算結(jié)果.
此次模型遷移學(xué)習(xí)中用到的訓(xùn)練集和驗(yàn)證集圖像數(shù)據(jù)全部來(lái)自于華西肺結(jié)核數(shù)據(jù)集,其中訓(xùn)練集樣本數(shù)量1886張,驗(yàn)證集樣本數(shù)量155張,測(cè)試集樣本數(shù)量143張.以學(xué)習(xí)率1×10-2訓(xùn)練10個(gè)epoch后得到各模型在驗(yàn)證集上分類(lèi)結(jié)果的ROC曲線(xiàn)和PR曲線(xiàn),如圖7所示.其中TBNN-mobile的AUC值大于TBNN-resnet和TBNN-vgg,且在PR曲線(xiàn)中的平衡點(diǎn)(BEP)值更高.以上實(shí)驗(yàn)結(jié)果表明,相較于其他主流的網(wǎng)絡(luò)模型架構(gòu),MobileNet網(wǎng)絡(luò)更適合作為T(mén)BNN的特征提取子網(wǎng).
圖6 TBNN肺結(jié)核病灶檢測(cè)模型Fig.6 TBNN Tuberculosis lesions detection model
避免模型在遷移學(xué)習(xí)過(guò)程中取巧地利用已經(jīng)習(xí)得的肺炎特征來(lái)對(duì)肺結(jié)核做病灶檢測(cè),產(chǎn)生負(fù)遷移現(xiàn)象,我們比較了遷移學(xué)習(xí)前后的TBNN模型在肺結(jié)核測(cè)試集上的表現(xiàn).統(tǒng)計(jì)結(jié)果如表3所示,
表3 遷移學(xué)習(xí)前后模型對(duì)測(cè)試集的檢測(cè)結(jié)果
Tab.3 Model detection results of pre-transfer learning and post-transfer learning
時(shí)間NtpNtnNfpNfn遷移學(xué)習(xí)前213128遷移學(xué)習(xí)后10↑12580↓
可以看出遷移學(xué)習(xí)前僅憑借肺炎特征并不能很好檢測(cè)出測(cè)試集中的肺結(jié)核胸片,漏檢率達(dá)到80%,而遷移學(xué)習(xí)后測(cè)試集中10張含肺結(jié)核病灶的胸片均被成功檢測(cè).
比較了基于單個(gè)或多個(gè)人工構(gòu)造的特征做特征提取的方向梯度直方圖特征(HOG)算法、基于均值漂移聚類(lèi)(HKG)、統(tǒng)計(jì)特征和SURF算法的檢測(cè)方法以及利用神經(jīng)網(wǎng)絡(luò)做特征提取的TBNN檢測(cè)模型對(duì)同組DR胸片做肺結(jié)核分類(lèi)的性能,結(jié)果顯示TBNN相比于基于人工構(gòu)造特征的傳統(tǒng)機(jī)器學(xué)習(xí)檢測(cè)方法有更高的分類(lèi)精度,性能上也更優(yōu).
表5為基于深度學(xué)習(xí)的肺結(jié)核檢測(cè)算法TBNet[22]和TBNN在同等規(guī)模訓(xùn)練集下,訓(xùn)練 10個(gè)Epoch后模型性能比較.其中TBNet使用了基于Haar特征和LBP特征的多重顯著特征數(shù)據(jù)增強(qiáng)方法,從原始的800張胸片中裁剪出敏感區(qū)域和噪聲加入訓(xùn)練,以達(dá)到充分訓(xùn)練模型且提高分類(lèi)準(zhǔn)確率.TBNet的訓(xùn)練集、驗(yàn)證集和測(cè)試集直接或間接來(lái)自同源數(shù)據(jù)集[21],本文提出的TBNN在訓(xùn)練階段采用和TBNet規(guī)模相近總量更少的訓(xùn)練集和驗(yàn)證集,測(cè)試集為文獻(xiàn)[21]提供的所有胸片.結(jié)果顯示,相同訓(xùn)練周期下,TBNN所需訓(xùn)練樣本更小、測(cè)試集更大,模型準(zhǔn)確性更高,且模型具有較強(qiáng)的泛化能力.
表4 本文方法與基于人工構(gòu)造特征的檢測(cè)方法對(duì)比
Tab.4 Compared withartificial feature extraction and detection methods
HKG[15]統(tǒng)計(jì)特征[16]SURF[17]TBNNAccuracy%77.6779.8482.2789.68AUC0.790 20.824 90.851 50.901 5
為了比較肺結(jié)核病灶檢測(cè)模型的在實(shí)際情景中的檢測(cè)能力,我們邀請(qǐng)了三位來(lái)自放射科的人類(lèi)閱片醫(yī)生和TBNN對(duì)同一組胸片做肺結(jié)核分類(lèi),其中三位醫(yī)生都工作在圖3所示數(shù)據(jù)采集流程中不同地區(qū)的基層衛(wèi)生院,擁有豐富的閱片經(jīng)驗(yàn),參與測(cè)試的時(shí)間和地點(diǎn)相互獨(dú)立,測(cè)試的DR胸片選自數(shù)據(jù)采集工作得到的結(jié)核標(biāo)注數(shù)據(jù)集,且未參與TBNN訓(xùn)練.為了盡量減小其他因素對(duì)閱片過(guò)程的影響,測(cè)試前沒(méi)有向醫(yī)生告知TBNN的任何細(xì)節(jié).
表5 本文方法和基于多重顯著特征的數(shù)據(jù)增強(qiáng)方法對(duì)比
Tab.5 Compared with multiple salient-feature based data augmentation method
Setting模型TBNetTBNN訓(xùn)練集/張255 7188 6驗(yàn)證集/張150155測(cè)試集/張412800Validation Accuracy/%81.3389.68Testing Accuracy/%75.4285.38是否標(biāo)識(shí)病灶×√
表6 本文方法和單個(gè)閱片醫(yī)生檢測(cè)同組DR胸片結(jié)果比較
統(tǒng)計(jì)結(jié)果由表6所示,基于深度遷移學(xué)習(xí)的TBNN肺結(jié)核檢測(cè)模型在對(duì)DR胸片的檢測(cè)上,靈敏度更高,即漏檢率更低,特異性與人類(lèi)醫(yī)生相近.三位人類(lèi)閱片醫(yī)生的Ntp數(shù)值大小幾乎相同,即能正確檢測(cè)結(jié)核陽(yáng)性胸片的水平接近,但通過(guò)混淆矩陣分析相互檢測(cè)結(jié)果差異(+表示分類(lèi)陽(yáng)性,-表示分類(lèi)陰性),如表7所示,醫(yī)生A和醫(yī)生B、醫(yī)生C分別在30和38張胸片上檢測(cè)結(jié)果不一致,整體檢測(cè)結(jié)果接近的醫(yī)生B(Se=0.67,Sp=0.96)和醫(yī)生C(Se=0.69,Sp=0.97)也存在16張結(jié)論相反的胸片.
表7 醫(yī)生閱片結(jié)果混淆矩陣
表8 本文方法和閱片醫(yī)生組合檢測(cè)同組DR胸片結(jié)果比較
Tab.8 Compared with combinationsof radiologists
閱片醫(yī)生NtpNtnNfpNfn漏檢率Accuracy醫(yī)生A+B40871990.180.82醫(yī)生A+C43871960.120.84醫(yī)生B+C391006100.200.90醫(yī)生A+B+C44852150.100.83兩人組平均40.791.314.78.30.170.85整體平均41.589.816.27.50.150.85TBNN4198880.160.90
如果只要有一位醫(yī)生結(jié)論是結(jié)核陽(yáng)性,則把該胸片判別為陽(yáng)性,以減弱單個(gè)醫(yī)生檢測(cè)水平經(jīng)驗(yàn)對(duì)結(jié)果的影響,減低漏檢率.表8統(tǒng)計(jì)了多位醫(yī)生所有可能組合的檢測(cè)結(jié)果,其中醫(yī)生A存在的兩人組檢測(cè)準(zhǔn)確率相對(duì)較低,但能檢測(cè)出相對(duì)更多的陽(yáng)性患者,醫(yī)生B和醫(yī)生C的組合有最高的準(zhǔn)確率,但漏檢率也最高.結(jié)合表6單個(gè)醫(yī)生檢測(cè)結(jié)果,TBNN的Ntp大于單個(gè)醫(yī)生,即TBNN漏檢率比單個(gè)醫(yī)生更低,且低于兩人組平均值,略高于整體平均值,其準(zhǔn)確率高于所有組合結(jié)果.
閱片醫(yī)生A除了對(duì)測(cè)試胸片進(jìn)行分類(lèi),還通過(guò)標(biāo)注工具標(biāo)注出疑似病灶區(qū)域.圖8所示為醫(yī)生A和TBNN對(duì)同一張DR胸片的肺結(jié)核病灶區(qū)域的標(biāo)注結(jié)果比較,其中,圖8 (a)為華西肺結(jié)核數(shù)據(jù)集中的真實(shí)結(jié)果;圖8 (b)為醫(yī)生A通過(guò)標(biāo)注工具手工標(biāo)注結(jié)果;圖8 (c)為T(mén)BNN在對(duì)DR胸片做肺結(jié)核分類(lèi)時(shí)的自動(dòng)標(biāo)注結(jié)果.考慮到醫(yī)生會(huì)通過(guò)臨床表現(xiàn)和生化數(shù)據(jù)等多維度來(lái)診斷,TBNN在實(shí)際中的診斷表現(xiàn)已經(jīng)有不低于醫(yī)生的水平.
(a) Ground Truth (b)Doctor A (c) TBNN
圖8 醫(yī)生A和TBNN標(biāo)注同張DR胸片的肺結(jié)核病灶區(qū)域
Fig.8 The boxes of labeling the same DR film by Radiologist A and TBNN
由于基于人工構(gòu)造特征的傳統(tǒng)機(jī)器學(xué)習(xí)的肺結(jié)核檢測(cè)方法存在著泛化能力不高,無(wú)法挖掘圖像深層語(yǔ)義等問(wèn)題,本文啟發(fā)性利用肺炎深度網(wǎng)絡(luò)檢測(cè)模型做遷移學(xué)習(xí)來(lái)訓(xùn)練針對(duì)DR胸片的特征提取子網(wǎng)絡(luò).為了減弱容易分類(lèi)的正樣本對(duì)模型訓(xùn)練的影響,提出了基于Focal Loss目標(biāo)檢測(cè)架構(gòu)的肺結(jié)核病灶檢測(cè)模型TBNN.實(shí)驗(yàn)結(jié)果證明,本文提出的基于深層遷移學(xué)習(xí)的肺結(jié)核病灶檢測(cè)模型在多種分類(lèi)器評(píng)價(jià)指標(biāo)上均高于以往的基于人工構(gòu)造特征的傳統(tǒng)機(jī)器學(xué)習(xí)檢測(cè)方法,并且在真實(shí)測(cè)試集上有不低于放射科閱片醫(yī)生的診斷表現(xiàn).相較基于傳統(tǒng)數(shù)據(jù)增強(qiáng)手段的深度學(xué)習(xí)肺結(jié)核分類(lèi)算法,我們提出的方法能充分利用樣本特征和更快的收斂,并且在訓(xùn)練速度和模型分類(lèi)精度等能力上更優(yōu).在深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,數(shù)據(jù)集樣本數(shù)量和質(zhì)量對(duì)模型性能好壞起著決定性作用.利用小量肺結(jié)核胸片樣本調(diào)參可以提高模型性能,但并不能解決網(wǎng)絡(luò)訓(xùn)練問(wèn)題.我們?yōu)榱顺浞钟?xùn)練TBNN的特征提取子網(wǎng)絡(luò)使用了大型肺炎數(shù)據(jù)集,造成TBNN對(duì)肺結(jié)核檢測(cè)更依賴(lài)于肺炎相似的圖像語(yǔ)義特征,深層網(wǎng)絡(luò)的黑盒屬性會(huì)造成無(wú)法解釋的誤檢和漏檢情況,如何解決這類(lèi)問(wèn)題將是下一步的研究方向.