周林鵬, 姚劍敏,2*, 嚴(yán) 群,2, 林志賢
(1. 福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350108;2. 晉江市博感電子科技有限公司,福建 晉江362200)
醫(yī)學(xué)影像技術(shù)日益成熟,如何有效地利用已有的醫(yī)學(xué)影像數(shù)據(jù)輔助醫(yī)生進(jìn)行分析和診斷是目前相對(duì)有挑戰(zhàn)性的任務(wù)。醫(yī)學(xué)圖像數(shù)據(jù)主要包括磁共振成像(MRI)、電子計(jì)算機(jī)斷層掃描圖像(CT)、數(shù)字減影血管造影圖像(DSA)以及正電子發(fā)射斷層掃描圖像(PET)。海量的數(shù)據(jù)、各種各樣的歸類標(biāo)準(zhǔn)給醫(yī)學(xué)影像的有效組織和管理帶來(lái)了巨大的挑戰(zhàn),與之而來(lái)的是專業(yè)影像醫(yī)生的極度緊缺。在中國(guó),醫(yī)學(xué)影像的年增長(zhǎng)率約為30%,但放射科醫(yī)生的年增長(zhǎng)率僅有4.1%。據(jù)統(tǒng)計(jì),以肺結(jié)節(jié)檢測(cè)為例,三甲醫(yī)院平均每天需要接待200例左右的肺結(jié)節(jié)篩查患者,每個(gè)患者在檢查環(huán)節(jié)中會(huì)產(chǎn)生200~300張左右的CT影像,如何利用現(xiàn)有技術(shù)及相關(guān)影像數(shù)據(jù)來(lái)輔助醫(yī)生進(jìn)行臨床診斷成為了現(xiàn)在亟待解決的問(wèn)題[1-3]。
目前,醫(yī)學(xué)影像信息系統(tǒng)(PACS)可以通過(guò)各種接口將臨床收集的醫(yī)學(xué)影像以數(shù)字化的形式保存起來(lái),初步解決了影像數(shù)據(jù)的存儲(chǔ)問(wèn)題[4]。為了利用這些醫(yī)學(xué)數(shù)據(jù)庫(kù)來(lái)輔助醫(yī)生進(jìn)行病情分析及診斷,需要設(shè)計(jì)有效的醫(yī)學(xué)圖像檢索系統(tǒng)(CBMIR)。通過(guò)檢索相似的圖像和病歷,醫(yī)生可以綜合參考多個(gè)維度的信息來(lái)給出更加全面精準(zhǔn)的病情定位及診療方案。因此,圍繞CBMIR系統(tǒng)設(shè)計(jì)及優(yōu)化的相關(guān)研究也越來(lái)越多。Jiji等提出了一種基于內(nèi)容的皮膚病變圖像檢索方法[5],Mizotin等提出了一種基于SIFT特征的視覺詞袋的方法,用于腦磁共振圖像的檢索,以診斷阿爾茨海默氏病[6]。Rahman提出了一種基于類別信息作為監(jiān)督信號(hào)的生物醫(yī)學(xué)圖像檢索方法[7]。陳等人提出基于多參數(shù)Gabor的消化道超聲圖像的處理方法,強(qiáng)化了超聲圖像邊緣信息的特征提取[8]。近年來(lái),深度學(xué)習(xí)在圖像處理領(lǐng)域取得了巨大的成功,為圖像特征提取提供了新思路。Qayyum等人提出了通過(guò)遷移學(xué)習(xí)的方法在自然圖像上預(yù)先訓(xùn)練的CNN模型上使用醫(yī)學(xué)圖像進(jìn)行微調(diào),并將模型所學(xué)習(xí)的特征和分類結(jié)果用于醫(yī)學(xué)圖像檢索[9]。呂等人提出基于三維卷積的肺結(jié)節(jié)圖像處理方法[10]。熊等人提出基于vgg16及哈希編碼的醫(yī)學(xué)圖像檢索模型DHCNN[11], 彭晏飛等人提出引入注意力機(jī)制進(jìn)行圖像特征提取[12],周國(guó)華等人提出使用多幅不同角度圖像進(jìn)行CT圖像檢索[13]。
醫(yī)學(xué)圖像具有不同于通用數(shù)據(jù)集的固有特征:異質(zhì)性、模糊性、高分辨率、多模態(tài)等[14],而文獻(xiàn)[6]中的模型無(wú)法很好地提取圖像語(yǔ)義特征,文獻(xiàn)[9]中模型只用了網(wǎng)絡(luò)最后幾層特征描述圖像,忽略了底層紋理特征,因此都未取得較滿意的檢索精度。本文提出了一種融合多尺度特征及注意力機(jī)制的醫(yī)學(xué)圖像檢索方法,該方法通過(guò)抽取不同尺度的特征進(jìn)行學(xué)習(xí),有效融合了淺層視覺特征及深層語(yǔ)義特征,并引入注意力機(jī)制來(lái)提高網(wǎng)絡(luò)對(duì)關(guān)鍵區(qū)域的關(guān)注度,抑制無(wú)關(guān)背景區(qū)域?qū)z索結(jié)果的干擾。最后在損失函數(shù)設(shè)計(jì)上,結(jié)合了交叉熵?fù)p失及中心損失的優(yōu)點(diǎn),有效緩解了檢索過(guò)程中誤檢索及漏檢索的現(xiàn)象。
根據(jù)圖1所示,一個(gè)完整的醫(yī)學(xué)圖像檢索系統(tǒng)一般包括以下3個(gè)流程:首先是數(shù)據(jù)集線下特征抽取并組建特征矩陣庫(kù)的階段,其次是線上輸入圖像特征提取階段,最后是將輸入圖像的特征與特征矩陣庫(kù)中的特征進(jìn)行相似度計(jì)算,并返回相似度排名靠前的top-k圖像。
圖1 醫(yī)學(xué)圖像檢索系統(tǒng)示意圖Fig.1 Schematic diagram of medical image retrieval system
上述流程中主要包括圖像預(yù)處理、特征提取以及距離度量3個(gè)功能模塊,本節(jié)將就這3個(gè)功能模塊的具體實(shí)現(xiàn)展開介紹,并重點(diǎn)介紹本文在特征提取模塊的設(shè)計(jì)及優(yōu)化上所做的相關(guān)工作。
在進(jìn)行醫(yī)學(xué)圖像檢索時(shí),通常需要對(duì)不同成像設(shè)備采集到的圖像采取不同的預(yù)處理措施,比如常見的CT圖像中,像素值分布較廣,直接歸一化到0~255會(huì)損失較多的信息,因此需要根據(jù)不同組織的Hu值來(lái)選擇合適的窗寬窗位做特定區(qū)間的像素延展,使圖像的細(xì)節(jié)信息得以凸顯。對(duì)于X-ray圖像,通常會(huì)由于不同采集設(shè)備以及不同放射劑量使數(shù)據(jù)庫(kù)中X-ray樣本的亮度、對(duì)比度等分布不均勻,需要對(duì)圖像數(shù)據(jù)進(jìn)行直方圖平衡預(yù)處理,以減輕外界因素對(duì)模型特征學(xué)習(xí)的干擾。
本文的主要工作主要集中在本模塊的設(shè)計(jì)及優(yōu)化上,首先是設(shè)計(jì)了一個(gè)多尺度特征提取網(wǎng)絡(luò),其次是引入自注意力模塊,最后是結(jié)合多重?fù)p失對(duì)模型進(jìn)一步優(yōu)化。本模塊的主體結(jié)構(gòu)如圖2所示。
圖2 特征提取模塊結(jié)構(gòu)圖Fig.2 Structure diagram of feature extraction module
2.2.1 多尺度特征提取網(wǎng)絡(luò)
本文的特征提取模塊選用了經(jīng)典的Resnet[15]結(jié)構(gòu),我們希望通過(guò)一個(gè)深層網(wǎng)絡(luò)來(lái)獲取醫(yī)學(xué)圖像中深層次的語(yǔ)義特征。然而由于網(wǎng)絡(luò)層數(shù)變深,同時(shí)也帶來(lái)了梯度爆炸或梯度彌散的問(wèn)題,并且梯度在從深層向淺層傳遞的過(guò)程中逐步減弱,使得淺層網(wǎng)絡(luò)無(wú)法得到有效的訓(xùn)練。由于梯度的不穩(wěn)定及反傳的低效性,導(dǎo)致網(wǎng)絡(luò)很難收斂。針對(duì)這些問(wèn)題,Resnet網(wǎng)絡(luò)進(jìn)行了相應(yīng)的結(jié)構(gòu)改進(jìn)。
梯度在傳播過(guò)程中的不穩(wěn)定性主要由以下幾點(diǎn)導(dǎo)致:首先,在權(quán)重隨機(jī)初始化過(guò)程中權(quán)值被賦予較大的值,導(dǎo)致反傳的梯度與權(quán)值相乘大于1,并在后續(xù)傳播過(guò)程中逐層放大導(dǎo)致梯度爆炸,Resnet網(wǎng)絡(luò)通過(guò)對(duì)權(quán)重進(jìn)行高斯初始化可以較好避免梯度爆炸的問(wèn)題;其次,sigmod激活函數(shù)的特性決定了它對(duì)較大或較小的輸入值表現(xiàn)出梯度低敏感性,導(dǎo)致梯度無(wú)法有效地經(jīng)過(guò)sigmod激活函數(shù)反向傳播。基于此,Resnet網(wǎng)絡(luò)通過(guò)對(duì)激活函數(shù)的輸入進(jìn)行批歸一化(BatchNorm)操作,將輸入限制在激活函數(shù)的梯度敏感區(qū)間,并引入計(jì)算更為簡(jiǎn)單且對(duì)梯度反向傳播更高效的relu激活函數(shù)來(lái)緩解梯度經(jīng)過(guò)激活函數(shù)損耗較多的問(wèn)題。
盡管采取BatchNorm操作及選用relu激活函數(shù)緩解了梯度經(jīng)過(guò)激活函數(shù)時(shí)的損耗,但還是未徹底解決由網(wǎng)絡(luò)加深帶來(lái)的淺層網(wǎng)絡(luò)學(xué)習(xí)不充分的問(wèn)題。為此,Resnet網(wǎng)絡(luò)提出了經(jīng)典的殘差塊結(jié)構(gòu),即圖2中的Bottleneck結(jié)構(gòu)。在原始順序堆疊的3個(gè)卷積層的基礎(chǔ)上,通過(guò)一個(gè)跳躍連接將輸入疊加到輸出上。由于跳躍連接的存在,為靠近輸出端得到的梯度向靠近輸入端的淺層網(wǎng)絡(luò)傳遞提供了可能性,避免了梯度只能經(jīng)過(guò)深層網(wǎng)絡(luò)回傳引起的梯度彌散問(wèn)題。同時(shí),圖2中的殘差塊為優(yōu)化之后的結(jié)構(gòu),原始?xì)埐顗K由兩個(gè)3*3卷積組成,新結(jié)構(gòu)通過(guò)使用1*1卷積來(lái)對(duì)特征圖通道進(jìn)行壓縮和擴(kuò)張,保證網(wǎng)絡(luò)精度的同時(shí)又減少了模型的參數(shù)量,加快了網(wǎng)絡(luò)前向推理的速度。
最后,針對(duì)本數(shù)據(jù)集特征尺度差異較大的問(wèn)題,為了使網(wǎng)絡(luò)能充分學(xué)習(xí)到不同尺度的特征,提高特征的有效性,本文在Resnet網(wǎng)絡(luò)的基礎(chǔ)上分別抽取Stage1、Stage3、Stage5輸出的特征圖,對(duì)于512×512尺寸的輸入,輸出的特征圖尺寸分別為128×128×64、64×64×512、16×16×2 048,分別對(duì)應(yīng)圖像的淺層紋理特征、中間層過(guò)渡特征以及深層語(yǔ)義特征,并輸入到后續(xù)的自注意力模塊中對(duì)逐層特征進(jìn)行進(jìn)一步通道篩選。
2.2.2 自注意力模塊
對(duì)于殘差網(wǎng)絡(luò)輸出的不同尺度的特征圖,本文通過(guò)設(shè)計(jì)一個(gè)自注意力模塊來(lái)對(duì)特征圖中不同通道特征進(jìn)行進(jìn)一步篩選,來(lái)提高關(guān)鍵通道的特征表達(dá)能力,進(jìn)一步引導(dǎo)網(wǎng)絡(luò)將注意力聚焦到包含關(guān)鍵信息的區(qū)域。該模塊的設(shè)計(jì)思路來(lái)源于非局部均值(NLM)降噪算法。NLM算法最初在2005年由Buades等人提出[16],并被廣泛用于圖像復(fù)原及視頻降噪領(lǐng)域, NLM的濾波過(guò)程可以用下面公式表示:
(1)
C(p)=∑p∈B(p,r)w(p,q)
(2)
(3)
NLM算法的核心思想是為了克服雙線性濾波、中值濾波等濾波算法僅考慮圖像局部信息的局限性,從而提出以圖像塊為單位,在全局范圍內(nèi)根據(jù)不同圖像塊之間的相似度進(jìn)行像素值加權(quán)平均,更好地實(shí)現(xiàn)圖像高斯噪聲的濾除,并且不損失圖像細(xì)節(jié)。雖然本文的目的并不是做圖像降噪,但是NLM算法實(shí)現(xiàn)降噪的思路其實(shí)就是在抑制圖像中的無(wú)關(guān)信息,進(jìn)而使有效信息得到充分表達(dá),基于此,我們可以將這一思想用于高維特征圖的特征通道篩選任務(wù)中,從而達(dá)到抑制無(wú)關(guān)通道特征、強(qiáng)化關(guān)鍵通道特征的目的。事實(shí)上,后面的Non Local Neural Network[17]以及Attention GAN[18-19]中的注意力模塊正是借鑒了NLM算法的思想,通過(guò)計(jì)算任意兩個(gè)特征通道之間的交互來(lái)直接捕捉遠(yuǎn)程依賴,得到更多的全局輔助信息以彌補(bǔ)小卷積核信息獲取不足的缺陷,進(jìn)而對(duì)所有特征通道進(jìn)行更加合理權(quán)重分配。自注意力模塊結(jié)構(gòu)圖如圖3所示。
圖3 自注意力模塊結(jié)構(gòu)圖Fig.3 Structure diagram of self-attention-module
下面從自注意力模塊結(jié)構(gòu)圖對(duì)其中原理做進(jìn)一步闡述,首先,對(duì)于輸入的特征圖,經(jīng)過(guò)3條不同的分支f(x)、g(x)及h(x),通過(guò)3組數(shù)量相同的1*1卷積進(jìn)行通道壓縮,并保留通道維度將寬高展平成一維,這里主要是為了減少輸入特征圖的信息冗余,同時(shí)降低后面相似度計(jì)算的復(fù)雜度。其次,對(duì)分支f(x)的特征圖進(jìn)行轉(zhuǎn)置操作再和分支g(x)的特征圖進(jìn)行矩陣相乘,然后將結(jié)果經(jīng)過(guò)softmax進(jìn)行歸一化,從向量積數(shù)學(xué)表達(dá)式可以看出矩陣的乘積其實(shí)表征了向量間的余弦相似度。實(shí)際上,這里進(jìn)行的就是NLM算法中的不同通道之間特征圖的相似度計(jì)算。最后,將歸一化輸出后的注意力矩陣和分支h(x)得到的特征圖進(jìn)行相乘,這里其實(shí)就是根據(jù)相似度對(duì)不同通道進(jìn)行權(quán)重重分配,再次經(jīng)過(guò)softmax得到以及1*1卷積對(duì)通道擴(kuò)張至輸入特征圖的通道數(shù),此時(shí)輸出的特征圖中的關(guān)鍵細(xì)節(jié)特征相對(duì)于原特征圖得到了更充分的表達(dá),從而實(shí)現(xiàn)注意力重分配。
在上述模塊中對(duì)輸入不同尺度的特征圖進(jìn)行特征壓縮時(shí),對(duì)于通道數(shù)較少的淺層特征,容易因壓縮率過(guò)高而損失掉有效信息,而對(duì)于通道數(shù)較多的深層特征,則會(huì)因?yàn)閴嚎s率過(guò)低導(dǎo)致存在較高的信息冗余并增加后續(xù)的相似度計(jì)算過(guò)程的耗時(shí)。因此,本文考慮到不同尺度特征圖的通道維度上信息冗余的差異性,從淺層至深層分別采用4倍、8倍、16倍的壓縮率,有效地平衡各尺度的信息利用率及計(jì)算效率。同時(shí),借鑒上文殘差塊結(jié)構(gòu),將輸入特征圖通過(guò)跳躍連接直接疊加到自注意力模塊的輸出,進(jìn)一步優(yōu)化梯度反向傳播的效率。
最后,為了優(yōu)化系統(tǒng)在高維特征在檢索時(shí)的時(shí)間開銷及存儲(chǔ)上的空間開銷,本文采用主成分分析法將不同層的高維輸出嵌入到低維空間中,最終輸出能夠高效表征圖像特征的128維特征向量。
2.2.3 損失函數(shù)
考慮到醫(yī)學(xué)圖像背景大多相似度較高,而同一類別的數(shù)據(jù)會(huì)因不同采集對(duì)象而呈現(xiàn)較大的視覺差異,從而導(dǎo)致不同類之間的樣本特征因高度相似的背景區(qū)域而相互混雜,同類之間數(shù)據(jù)由于存在較大視覺差異使得在特征空間中距離被拉大,因此,本文在損失函數(shù)設(shè)計(jì)上,采用了交叉熵?fù)p失和中心損失相結(jié)合的思路,來(lái)改善上述問(wèn)題。本文損失函數(shù)公式如下:
L=λ1LCE+λ2LC
(4)
(5)
(6)
對(duì)于交叉熵?fù)p失,從計(jì)算公式(5)可以看出,交叉熵?fù)p失反映的是預(yù)測(cè)值的概率分布和真實(shí)標(biāo)簽的概率分布之間的差異程度。在網(wǎng)絡(luò)不斷訓(xùn)練迭代的過(guò)程中,網(wǎng)絡(luò)能夠?qū)W習(xí)到類別間的區(qū)分特征,使得預(yù)測(cè)的概率分布能夠逐步擬合真實(shí)標(biāo)簽的概率分布,然而對(duì)于醫(yī)學(xué)影像數(shù)據(jù)檢索模型,僅讓不同類別的數(shù)據(jù)在特征空間實(shí)現(xiàn)類間可分還不夠,我們還希望同類特征分布能夠更緊湊,這樣檢索得到的結(jié)果才能和輸入樣本表現(xiàn)出強(qiáng)相關(guān)性,才能夠?yàn)榕R床診斷提供更多有價(jià)值的參考信息。
進(jìn)一步的,為了解決類內(nèi)特征不緊湊問(wèn)題,本文引入了中心損失,公式(6)中xi表示網(wǎng)絡(luò)提取到的樣本特征,Cyi表示第yi個(gè)類別的特征中心,中心損失統(tǒng)計(jì)的是每個(gè)批次中的樣本特征與對(duì)應(yīng)類別的特征中心的距離,并在訓(xùn)練過(guò)程中,將計(jì)算得到的損失值通過(guò)梯度反傳來(lái)優(yōu)化網(wǎng)絡(luò)參數(shù),從而縮短同類樣本在特征空間中的距離[20]。
在設(shè)計(jì)好特征提取模塊的基礎(chǔ)上,可以離線抽取數(shù)據(jù)集中的圖像特征,并將所有的特征向量拼接成特征矩陣進(jìn)行存儲(chǔ),同時(shí)將數(shù)據(jù)庫(kù)中的圖片路徑與矩陣中對(duì)應(yīng)的特征向量建立索引。在檢索過(guò)程中,通過(guò)計(jì)算輸入圖像的特征向量與特征矩陣中所有向量間的距離,并按距離從小到大排序來(lái)檢索數(shù)據(jù)庫(kù)中的相關(guān)樣本。常用的距離評(píng)估函數(shù)有以下幾種:
(7)
(8)
切比雪夫距離:
(9)
(10)
上述距離度量函數(shù)中,歐式距離、曼哈頓距離以及切比雪夫側(cè)重描述特征空間中向量間的數(shù)值關(guān)系,余弦距離則表示特征向量中不同維度間相對(duì)層面的差異。由于醫(yī)學(xué)圖像固有的異質(zhì)性,同類樣本可能在數(shù)值上存在較大區(qū)別,因此本文采用余弦距離來(lái)衡量輸入圖像與數(shù)據(jù)庫(kù)中圖像特征間的相似度。
3.1.1 數(shù)據(jù)集
本文使用的是斯坦福吳恩達(dá)老師團(tuán)隊(duì)收集的MURA數(shù)據(jù)集,包含來(lái)自14 892位不同年齡段患者的40 895張骨骼X光片,分別采集自患者的肩部、肱骨、手肘、前臂、手腕、手掌和手指7個(gè)不同的部位。首先,為了保證模型的檢索性能,需要將數(shù)據(jù)集按最具有區(qū)分度的特征進(jìn)行組織再送入網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí),這里選擇按不同采集部位進(jìn)行數(shù)據(jù)歸類。數(shù)據(jù)集中各類樣本的數(shù)量分布如圖4所示。
圖4 樣本數(shù)量分布圖Fig.4 Distribution diagram of different classes
觀察到數(shù)據(jù)集中前臂、肱骨這兩個(gè)類別數(shù)量不足,而肩部、手腕兩個(gè)類別數(shù)量偏多,本文在預(yù)處理階段針對(duì)數(shù)量較少的前臂、肱骨類別做了圖像旋轉(zhuǎn)、剪裁等數(shù)據(jù)增強(qiáng)操作,并適當(dāng)減少數(shù)量較多的肩部、手腕兩個(gè)類別的訓(xùn)練樣本數(shù)來(lái)平衡各類樣本數(shù)量。其次,注意到數(shù)據(jù)集中圖片長(zhǎng)寬比分布不均,且長(zhǎng)邊均為512,短邊長(zhǎng)度在80~512區(qū)間呈隨機(jī)分布,短邊長(zhǎng)度分布如圖5所示。
圖5 短邊長(zhǎng)度區(qū)間分布圖Fig.5 Distribution diagram of short side length interval
為了避免送入特征提取網(wǎng)絡(luò)時(shí)圖像被直接resize而導(dǎo)致特征失真,在預(yù)處理階段將短邊沿圖像兩側(cè)以圖像均值像素填充至與長(zhǎng)邊一致,從而保證圖像中包含有效信息區(qū)域的縱橫比不受破壞。圖像預(yù)處理前后的圖片如圖6所示。
圖6 (a)數(shù)據(jù)集原圖;(b)預(yù)處理后圖。Fig.6 (a) Original images of dataset; (b) Preprocessed images.
3.1.2 評(píng)估指標(biāo)
一般而言,圖像檢索系統(tǒng)的性能可以分別從查準(zhǔn)率(Precision)、查全率(Recall)、F1度量(F1-score)、平均檢索精度(mAP)以及檢索時(shí)間幾個(gè)指標(biāo)來(lái)評(píng)估。 不同的應(yīng)用場(chǎng)景各個(gè)指標(biāo)的關(guān)注度不同,對(duì)查詢準(zhǔn)確率較高的場(chǎng)景,比如在醫(yī)學(xué)圖像檢索中,需要得到最相關(guān)的檢索信息,且不相關(guān)樣本誤檢索會(huì)帶來(lái)較大的負(fù)面作用,所以更關(guān)注查準(zhǔn)率。
查準(zhǔn)率和查全率的公式為:
(11)
(12)
其中:TP為檢索結(jié)果中相關(guān)樣本的數(shù)量,F(xiàn)P是檢索結(jié)果中不相關(guān)樣本的數(shù)量,F(xiàn)N是數(shù)據(jù)庫(kù)中未檢索到的相關(guān)樣本數(shù)量。
事實(shí)上,查準(zhǔn)率和查全率是相互影響的。一般情況下,當(dāng)查準(zhǔn)率高時(shí),容易漏檢索,導(dǎo)致查全率低;而查全率高時(shí),容易檢索到錯(cuò)誤樣本,導(dǎo)致查準(zhǔn)率低。因此,通過(guò)計(jì)算查全率和查準(zhǔn)率的加權(quán)調(diào)和平均值F1-score可以綜合考慮這兩個(gè)指標(biāo)。F1-score的計(jì)算公式為:
(13)
在一些圖像檢索比賽中,通常還會(huì)參考檢索結(jié)果中top-k的平均檢索精度(mAP@k),如2020年的華為DIGIX數(shù)碼設(shè)備檢索比賽中,以top1的檢索精度以及top-k的平均檢索精度加權(quán)得到最終的成績(jī)。一般情況下,用戶只會(huì)選擇性瀏覽排名靠前的10~20條檢索結(jié)果,因此, top-k平均檢索精度更能反映用戶在實(shí)際檢索場(chǎng)景中的直觀感受。top-k平均檢索精度的公式為:
(14)
其中s為查詢次數(shù)、Position(j)指搜索到的第j個(gè)相關(guān)樣本在檢索結(jié)果中的位置。
3.1.3 訓(xùn)練
本實(shí)驗(yàn)在開源linux操作系統(tǒng)ubuntu18.04下進(jìn)行,相關(guān)硬件設(shè)備為NVIDIA-1080顯卡、32 G內(nèi)存主機(jī)。并使用通用的深度學(xué)習(xí)框架pytorch進(jìn)行網(wǎng)絡(luò)設(shè)計(jì),在pycharm編輯器中進(jìn)行代碼調(diào)試。
在訓(xùn)練前,為了更好地衡量模型在查準(zhǔn)率和查全率兩個(gè)指標(biāo)上的評(píng)估,本文在測(cè)試集構(gòu)造時(shí)統(tǒng)一了各個(gè)類別的數(shù)量。分別從每個(gè)類別中抽取1 100張圖片,其中1 000張作為圖像庫(kù),100張作為待檢索的輸入圖片。這樣可以避免在召回率計(jì)算時(shí),數(shù)量多的類別召回率表現(xiàn)很低的情況。在此基礎(chǔ)上,對(duì)數(shù)據(jù)集中剩余樣本按類別進(jìn)行5∶5的訓(xùn)練集、驗(yàn)證集劃分。
在數(shù)據(jù)加載時(shí),為了盡可能保留數(shù)據(jù)集原始信息,圖像以每批次4張,尺寸為512×512輸入網(wǎng)絡(luò)。為了進(jìn)一步平衡樣本數(shù)量差異帶來(lái)的少數(shù)樣本特征學(xué)習(xí)不充分的問(wèn)題,采用類別平衡采樣法來(lái)保證每次采樣中少數(shù)樣本類別的被采樣概率。其次,為了使模型對(duì)實(shí)際檢索場(chǎng)景中輸入圖像的光照、角度、尺寸變換有更強(qiáng)的適應(yīng)能力,對(duì)每個(gè)批次的數(shù)據(jù)進(jìn)行在線數(shù)據(jù)增強(qiáng)。相比于離線增強(qiáng),在線數(shù)據(jù)增強(qiáng)能夠節(jié)省大量的數(shù)據(jù)存儲(chǔ)空間,并且由于每個(gè)批次增強(qiáng)方式的隨機(jī)性,能得到更豐富的輸出,提高模型的魯棒性。
最后,為了加快網(wǎng)絡(luò)收斂,采用初始學(xué)習(xí)率為0.001,權(quán)重衰減因子為1e-4的adam優(yōu)化器對(duì)模型參數(shù)沿負(fù)梯度方向更新,并在20,50,90訓(xùn)練輪數(shù)時(shí)對(duì)學(xué)習(xí)率進(jìn)行衰減,使網(wǎng)絡(luò)在訓(xùn)練初期保持較高的學(xué)習(xí)率,加快損失值下降的速度,在訓(xùn)練后期通過(guò)降低學(xué)習(xí)率來(lái)抑制損失振蕩現(xiàn)象,使網(wǎng)絡(luò)逐步收斂。
3.2.1 定量分析
為了驗(yàn)證本文方法的有效性,分別對(duì)比了SIFT-BoVWs、DHCNN、RAN在Mura數(shù)據(jù)集上的各個(gè)指標(biāo)上的表現(xiàn),其中查準(zhǔn)率及查全率采用相似度0.8為閾值,即只取相似度大于0.8的作為最終檢索結(jié)果,并統(tǒng)計(jì)了各個(gè)模型在Mura數(shù)據(jù)集上每個(gè)類別的mAP@100、mAP@20指標(biāo),表1是實(shí)驗(yàn)具體數(shù)據(jù)。
表1 對(duì)比試驗(yàn)?zāi)P托阅鼙容^Tab.1 Performance comparison of comparative test models
從對(duì)比實(shí)驗(yàn)可以看出,基于視覺詞袋表征圖像特征的SIFT-BoVWs模型在本數(shù)據(jù)集上精度比較低并且檢索時(shí)間較長(zhǎng),主要是因?yàn)槟P透P(guān)注圖像的紋理及形狀信息,而無(wú)法提取并利用圖像的深層語(yǔ)義信息來(lái)進(jìn)行圖像檢索,檢索時(shí)間較長(zhǎng)主要是圖像SIFT特征提取階段耗時(shí)過(guò)多。DHCNN模型則利用了vgg16特征提取網(wǎng)絡(luò)來(lái)代替SIFT特征提取并對(duì)高維的特征進(jìn)行哈希值編碼,在GPU設(shè)備的加速下,加快了特征提取的速度,并且由于訓(xùn)練過(guò)程中學(xué)習(xí)到了每個(gè)類的抽象特征,使得模型精度有了6.2%的mAP@20精度指標(biāo)的提升。RAN模型同樣是采用深度學(xué)習(xí)的方法來(lái)提取圖像特征,并在此基礎(chǔ)上引入了自注意力模塊,使得模型精度有了大幅度提升,但是RAN的特征提取網(wǎng)絡(luò)采用了結(jié)構(gòu)較復(fù)雜的Resnet101網(wǎng)絡(luò),檢索耗時(shí)相比于DHCNN網(wǎng)絡(luò)有所增加。本文設(shè)計(jì)的模型,在特征提取網(wǎng)絡(luò)上參考了相較于前兩者更輕量的resnet50主干網(wǎng)絡(luò),并在此結(jié)構(gòu)上進(jìn)行了一定改進(jìn),通過(guò)抽取不同層的特征,并利用注意力模塊對(duì)其進(jìn)行權(quán)重重分配,最后在訓(xùn)練階段通過(guò)交叉熵?fù)p失和中心損失融合進(jìn)一步讓每個(gè)類別的特征在特征空間分布更加合理,最終在Mura數(shù)據(jù)集上mAP@20取得了0.98的檢索精度。
3.2.2 定性分析
為了使檢索效果得到更直觀的體現(xiàn),對(duì)同一張輸入圖片分別用4個(gè)模型進(jìn)行檢索,并得到top10檢索結(jié)果,如圖7所示。
圖7 不同模型的檢索效果圖。(a) SIFT-BoVWs; (b)DHCNN; (c)RAN; (d)本文模型。 紅框中為誤檢索圖片。Fig.7 Effect diagram of different models.(a) SIFT-BoVWs;(b)DHCNN;(c)RAN;(d)Ours. The picture in the red box is the wrong picture.
從檢索結(jié)果top10可以直觀地看出,SIFT-BoVWs模型更關(guān)注樣本的顏色、形狀等特征,而對(duì)于輸入的肘部測(cè)試圖像,由于檢索結(jié)果中第四幅肱骨圖像和輸入圖像在視覺上的相似性導(dǎo)致誤檢索。模型DHCNN和RAN則在誤檢索上有所改善,但仍存在個(gè)別誤檢。綜合來(lái)看,本文的模型在top10的檢索精度表現(xiàn)較好,也比較符合實(shí)際場(chǎng)景對(duì)模型的檢索精度要求。
3.3.1 定量分析
本節(jié)對(duì)本文第二部分中提到的主要改進(jìn)點(diǎn)進(jìn)行消融實(shí)驗(yàn)分析,并以此對(duì)各個(gè)模塊引入的目的及取得的效果做更直觀地?cái)⑹觥?/p>
在實(shí)驗(yàn)過(guò)程中嘗試過(guò)的且對(duì)精度提升有比較大幫助的主要3點(diǎn):(1)融合多個(gè)尺度特征對(duì)樣本進(jìn)行更全面的描述,優(yōu)化模型對(duì)于輸入圖像中不同尺度范圍的檢索能力;(2)加入自注意力模塊,強(qiáng)化圖像中關(guān)鍵細(xì)節(jié)特征的表達(dá)能力;(3)結(jié)合多重?fù)p失優(yōu)化,在加大類間距離的同時(shí),縮短類內(nèi)距離,使樣本特征在特征空間的分布更加合理。
為了更方便地描述上述改進(jìn)點(diǎn)在數(shù)據(jù)集中每個(gè)類別上的提升效果,統(tǒng)計(jì)了實(shí)驗(yàn)中模型在Mura數(shù)據(jù)集7個(gè)類別的mAP@100指標(biāo),表2是消融實(shí)驗(yàn)的具體數(shù)據(jù)。
表2 消融實(shí)驗(yàn)?zāi)P托阅鼙容^Tab.2 Performance comparison of ablation experimental models
在Resnet50的基礎(chǔ)上,結(jié)合上文提到的優(yōu)化措施,設(shè)計(jì)了6組實(shí)驗(yàn)。通過(guò)對(duì)模型在各類的檢索精度分析可知,模型在手肘、肩部這兩類的精度較低。而通過(guò)觀察這兩類易檢索出錯(cuò)的樣本發(fā)現(xiàn),模型對(duì)于肘關(guān)節(jié)的局部圖像以及包含前臂和肱骨的肘部圖像容易檢索成其他類,而肩膀這類樣本也是如此,由此猜想模型對(duì)于尺度變化大的樣本的特征辨別能力還不夠,因此有了引入多尺度特征的嘗試,通過(guò)對(duì)不同尺度特征的組合嘗試,這兩類的檢索精度得到了平均10個(gè)點(diǎn)的提高。同時(shí)對(duì)比了注意力及多重?fù)p失單獨(dú)作用的模型精度提升,在單一尺度的注意力作用下,手肘、前臂、肩膀3個(gè)類的提升并不如多尺度的明顯,而多重?fù)p失的加入則能夠在前臂、手掌這兩個(gè)易混淆的類上有十分明顯的提升。
結(jié)合上述實(shí)驗(yàn)可以發(fā)現(xiàn),在引入多尺度特征的基礎(chǔ)上,雖然模型的整體精度提高了,但是手腕、前臂這兩類的精度有所下降。對(duì)這兩類的特征圖可視化之后發(fā)現(xiàn),前文引入的淺層紋理會(huì)對(duì)手腕的特征造成一定程度的影響,使得模型的注意力被邊緣紋理特征破壞,導(dǎo)致手腕與前臂這兩類混淆的幾率加大?;诖?,引入自注意力機(jī)制,使網(wǎng)絡(luò)能夠關(guān)注到重要的特征并抑制無(wú)關(guān)的干擾性特征,實(shí)驗(yàn)表明,引入注意力機(jī)制后, 網(wǎng)絡(luò)的注意力能夠關(guān)注到不同類別的關(guān)鍵特征區(qū)域,從而較好地解決了類間易混淆問(wèn)題。
在引入注意力模塊之后,每個(gè)類別的精度都得到了平衡。為了進(jìn)一步提高模型精度,引入中心損失和交叉熵?fù)p失結(jié)合來(lái)優(yōu)化各類樣本在特征空間的分布,減少位于邊界區(qū)域的樣本混淆概率。
3.3.2 定性分析
為了使每個(gè)模塊的改進(jìn)更加直觀,本文隨機(jī)抽取了部分樣本的特征進(jìn)行了可視化處理,并以熱力圖的形式疊加到原圖進(jìn)行展示,圖8是具體效果。
圖8 消融實(shí)驗(yàn)效果圖。(a)原圖;(b)RvesNet50; (c)ResNet50+多層特征;(d)ResNet50+多層特征+注意力。Fig.8 Effect diagram of ablation experiment. (a)Original image; (b) ResNet 50; (c) ResNet 50+ Multiple feature; (d) ResNet 50+ Mutiple feature+Self-attention.
可以看出,相對(duì)于ResNet50基礎(chǔ)模型,多尺度特征的引入可以從全局角度對(duì)不同尺度特征進(jìn)行更合理的組合。引入自注意力模塊后,網(wǎng)絡(luò)的關(guān)注度進(jìn)一步集中到了關(guān)鍵區(qū)域。
引入多重?fù)p失前后在注意力圖中無(wú)明顯變化,這里將樣本特征進(jìn)行降維處理,降維到二維后,在平面圖中進(jìn)行展示,圖9是使用多重?fù)p失前后的每類樣本特征分布圖。
圖9 樣本特征分布圖。(a)原分布圖; (b)優(yōu)化后分布圖。Fig.9 Distribution map of sample features. (a) Original distribution map; (b) Optimized distribution map.
針對(duì)醫(yī)學(xué)圖像的一些固有特征造成現(xiàn)有的一些圖像檢索方案偏低的問(wèn)題,本文提出了一種融合多尺度特征及注意力機(jī)制的醫(yī)學(xué)圖像檢索系統(tǒng)優(yōu)化思路。在特征提取階段,借鑒了深度殘差網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì),并融合不同層次、不同尺度的特征圖,充分利用了圖像的淺層紋理特征及深層語(yǔ)義特征,較好地緩解了不同尺度目標(biāo)的特征提取問(wèn)題。同時(shí),設(shè)計(jì)了一個(gè)改進(jìn)的注意力模塊以適應(yīng)不同尺度的特征圖輸出,并對(duì)所有通道特征進(jìn)行權(quán)重重分配,提高了關(guān)鍵通道的特征表達(dá)能力,使圖像中的重要細(xì)節(jié)特征更加突出。最后,在模型訓(xùn)練階段,采用交叉熵?fù)p失和中心損失相結(jié)合的思路,使得各個(gè)類的樣本特征在樣本空間的分布更加合理,進(jìn)一步提高了模型的檢索精度。實(shí)驗(yàn)證明,本文的方案相較于其他醫(yī)學(xué)圖像檢索模型在Mura數(shù)據(jù)集上mAP@20能夠獲得0.98的精度,基本符合實(shí)際場(chǎng)景對(duì)模型的檢索精度要求。