• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合多頭注意力機(jī)制的新冠肺炎聯(lián)合診斷與分割

    2022-12-21 03:23:48李金星孫俊李超BilalAhmad
    關(guān)鍵詞:編碼器注意力卷積

    李金星,孫俊,李超,Bilal Ahmad

    江南大學(xué),無(wú)錫 214122

    0 引 言

    自2020年,一種新型冠狀病毒引發(fā)的肺炎疫情在全世界迅速蔓延,嚴(yán)重威脅著人類(lèi)生命與健康。世界衛(wèi)生組織將這種新型冠狀病毒肺炎命名為“2019新型冠狀病毒病”,簡(jiǎn)稱(chēng)“新冠肺炎”或“COVID-19”(corona virus disease 2019)。據(jù)Worldometer網(wǎng)站報(bào)道,截止到2021年9月23日,全球約有2.3億新冠感染病例。新冠肺炎是一種由新型冠狀病毒引發(fā)的急性呼吸道傳染病,傳染性強(qiáng),癥狀隱蔽,病死率高;而控制新冠肺炎傳播的關(guān)鍵是盡快篩查出被感染者并及時(shí)隔離治療,防止出現(xiàn)大規(guī)模的“人傳人”。但是如何快速識(shí)別出人群中的病毒攜帶者,這是疫情防治過(guò)程中的一個(gè)重大難題。目前,大規(guī)模使用的方法是核酸檢測(cè),即聚合酶鏈反應(yīng)(polymerase chain reaction,PCR),該方法通過(guò)查找人的呼吸道標(biāo)本中是否存在新冠病毒的核酸,來(lái)確定是否被感染。一旦核酸檢測(cè)為 “陽(yáng)性”,即可證明患者體內(nèi)有病毒存在,然而這種檢測(cè)存在一定的局限性。一是傳統(tǒng)的實(shí)驗(yàn)室方法耗時(shí)耗力;二是檢測(cè)結(jié)果會(huì)存在假陰性;三是檢測(cè)結(jié)果反饋具有一至兩天的滯后性。因此,為應(yīng)對(duì)大規(guī)模的實(shí)時(shí)檢測(cè),開(kāi)發(fā)一款快速精準(zhǔn)的計(jì)算機(jī)輔助診斷方法至關(guān)重要。

    人工智能飛速發(fā)展,并廣泛應(yīng)用于各個(gè)領(lǐng)域。其中,深度學(xué)習(xí)作為人工智能技術(shù)的核心,已成功地應(yīng)用在肺部醫(yī)學(xué)影像的自動(dòng)診斷或病灶分割(康波 等,2020)。而且主要涉及兩種放射成像影片,即胸部CT(computed tomography,CT)和X線(xiàn)胸片(chest X-Ray,CXR)。由于CT成像會(huì)產(chǎn)生強(qiáng)輻射,一般禁止用于孕婦和兒童,而CXR作為一種非侵入性檢查,輻射明顯低于CT(孟琭和李镕輝,2020),并且CXR成像比CT成像更快、更便宜。因此,相比CT,CXR更適合大規(guī)模使用。本文工作主要面向CXR的深度網(wǎng)絡(luò)構(gòu)建。

    為對(duì)抗新冠病毒,前人已經(jīng)提出了各種CXR自動(dòng)診斷分類(lèi)網(wǎng)絡(luò),并且絕大多數(shù)都基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的架構(gòu)。Farooq和Hafeez(2020)通過(guò)改進(jìn)ResNet50提出了COVID-ResNet,用于CXR的4分類(lèi)診斷,準(zhǔn)確率達(dá)到了96.23%。Apostolopoulos和Mpesiana(2020)報(bào)道了一種結(jié)合遷移學(xué)習(xí)的VGG19(Visual Geometry Group)網(wǎng)絡(luò),可以在CXR的2分類(lèi)診斷上達(dá)到98.75%的準(zhǔn)確率。Das等人(2020)精簡(jiǎn)了Inception_v3網(wǎng)絡(luò),面向CXR的3分類(lèi)和4分類(lèi)診斷,分別達(dá)到了99.96%和99.92%的準(zhǔn)確率。此外,Owaist等人(2021)提出一種聚合了多級(jí)特征的深度網(wǎng)絡(luò),能以95.38%的準(zhǔn)確率篩選出COVID-19感染者(CXR的2分類(lèi)診斷)。雖然現(xiàn)有網(wǎng)絡(luò)表現(xiàn)出卓越的分類(lèi)精度,但由于它們訓(xùn)練測(cè)試的數(shù)據(jù)過(guò)少,有的只有幾百幅CXR,很難滿(mǎn)足深度網(wǎng)絡(luò)的數(shù)據(jù)需求,網(wǎng)絡(luò)可能存在過(guò)擬合,而且網(wǎng)絡(luò)對(duì)CXR的分類(lèi)相對(duì)簡(jiǎn)單。并且在CNN中,卷積操作只能從圖像的固有像素提取局部特征,而無(wú)法關(guān)注到這些特征的優(yōu)先級(jí)。當(dāng)肺部疾病的分類(lèi)粒度進(jìn)一步細(xì)化,使用CNN去處理CXR可能不再適合。為此,Park等人(2021)首先提出了一種基于視覺(jué)Transformer(vision transformer,VIT)的模型,實(shí)現(xiàn)了對(duì)CXR的自動(dòng)分類(lèi)診斷和肺部感染嚴(yán)重性的分析,在3個(gè)外部數(shù)據(jù)集上測(cè)試,該模型分別實(shí)現(xiàn)了93.2%、92.1%和92.8%的3分類(lèi)診斷(Park等,2021)。但是Park等人(2021)提出的Transformer網(wǎng)絡(luò)只使用深層抽象特征(通過(guò)DenseNet主干提取)作為嵌入特征。雖然這與大多數(shù)計(jì)算機(jī)視覺(jué)中的VIT架構(gòu)(Carion等,2020)設(shè)計(jì)相符,但完全忽視了醫(yī)學(xué)影像CXR的表觀特征。

    現(xiàn)如今,醫(yī)學(xué)影像分割領(lǐng)域也越來(lái)越多地采用CNN的深度網(wǎng)絡(luò)。Ronneberger等人(2015)提出了U-Net模型,它采用U形編碼器—解碼器架構(gòu)對(duì)圖像進(jìn)行像素級(jí)的分類(lèi)以完成分割任務(wù)。編碼器通過(guò)卷積和下采樣提取高分辨率的語(yǔ)義信息,解碼器通過(guò)卷積和上采樣將編碼特征輸出為二值分割掩模(分割標(biāo)簽),而且網(wǎng)絡(luò)使用跳躍連接將編碼特征與解碼特征連接,以避免梯度消失。U-Net具有優(yōu)異的分割性能,自其出現(xiàn)以來(lái)大量的改進(jìn)架構(gòu)相繼提出。Zhou等人(2018)提出了一個(gè)具有密集和嵌套連接(跳躍連接)的U-Net版本,有效地提升了分割精度,稱(chēng)做U-Net+,然而在U-Net和U-Net+中,編碼器的連續(xù)下采樣和大步長(zhǎng)的卷積操作可能會(huì)導(dǎo)致某些特征信息的丟失。因此,Gu等人(2019)使用了一種新的語(yǔ)義編碼器,即ResNet34的前4層,以收集更多的上下文特征,減少特征的丟失,稱(chēng)做CE-Net(context encoder network)。但同樣地,由于卷積操作固有的局部性,這些CNN的分割模型不能實(shí)現(xiàn)對(duì)全局特征的建模。為增加圖像的全局信息,本文使用Transformer架構(gòu),通過(guò)注意力機(jī)制對(duì)圖片的高級(jí)上下文特征進(jìn)行建模。本文的工作體現(xiàn)在以下4個(gè)方面:

    1)構(gòu)建了一個(gè)名為ViTNet(vision transformer network)的Transformer深度網(wǎng)絡(luò),能夠同時(shí)實(shí)現(xiàn)肺部影像的分類(lèi)診斷和區(qū)域分割。

    2)提出了一種適合分類(lèi)和分割聯(lián)合訓(xùn)練的混合損失函數(shù)。

    3)編譯了一個(gè)CXR 5分類(lèi)并帶有新冠肺部感染區(qū)分割掩膜的數(shù)據(jù)集。

    4)將提出的架構(gòu)應(yīng)用于CXR自動(dòng)診斷分類(lèi)和新冠感染區(qū)分割,結(jié)果明顯優(yōu)于主流的分類(lèi)和分割網(wǎng)絡(luò)。

    1 多頭注意力機(jī)制

    Transformer的初次提出是為了解決機(jī)器翻譯問(wèn)題,因?yàn)樗懿东@到全局的上下文信息,相比于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)具有明顯優(yōu)勢(shì)。Transformer的全局屬性主要體現(xiàn)在它的編碼方式和多頭注意力機(jī)制(multiple head attention,MHA)(Vaswani等,2017)。Transformer的編碼輸入是同維(d維)向量的有序序列,表示了所有的特征信息。多頭注意力機(jī)制將輸入序列矩陣中每個(gè)向量h等分,整個(gè)輸入矩陣隨即分為h個(gè)不同的子塊,原序列特征被映射到了h個(gè)子空間中,h是總頭數(shù),每個(gè)注意力關(guān)注一個(gè)子空間上的輸入信息。圖1顯示了多頭注意力模塊的計(jì)算過(guò)程,MHA的輸入是3個(gè)輸入序列矩陣(查詢(xún)矩陣、關(guān)鍵值矩陣和數(shù)值矩陣)分別映射到h個(gè)子空間的結(jié)果,表示為[q1…qh],[k1…kh],[v1…vh]。當(dāng)[q1…qh],[k1…kh],[v1…vh](3個(gè)輸入矩陣)的輸入特征完全相同時(shí),MHA輸出自注意力后的結(jié)果;當(dāng)[q1…qh],[k1…kh],[v1…vh]的表示特征不同時(shí),MHA輸出交叉注意力后的結(jié)果,即

    output=MHA([q1…qh], [k1…kh], [v1…vh])

    (1)

    多頭注意力機(jī)制最大的特點(diǎn)就是能夠根據(jù)頭數(shù)平行地計(jì)算,以節(jié)省運(yùn)行時(shí)間。如圖1中MHA過(guò)程,對(duì)于第i個(gè)頭的輸入qi,ki,vi,首先進(jìn)行線(xiàn)性映射Linear(),分別輸出Qi,Ki,Vi,即

    Qi=Linear1(qi)=Wqqi
    Ki=Linear2(ki)=Wkki
    Vi=Linear3(vi)=Wvvi

    (2)

    圖1 自動(dòng)診斷與區(qū)域分割的網(wǎng)絡(luò)架構(gòu)Fig.1 The network frame for CXR auto-diagnosis and lung region segmentation

    然后,通過(guò)式(3)計(jì)算第i頭的輸出。最后,將各個(gè)頭的輸出拼接起來(lái)即為MHA的最終輸出,即

    (3)

    output=[H1…Hh]

    (4)

    式中,softmax函數(shù)計(jì)算了注意力權(quán)重矩陣與Vi的乘積,輸出了數(shù)值特征Vi經(jīng)注意力后的結(jié)果。d是常數(shù),等于輸入序列中向量的維度,用于縮小(scaled)高維向量的數(shù)值。

    2 聯(lián)合診斷與分割網(wǎng)絡(luò)

    2.1 整體架構(gòu)

    如圖1所示,本文提出了一種基于Transformer的深度網(wǎng)絡(luò),能同時(shí)進(jìn)行CXR分類(lèi)診斷與感染區(qū)分割。當(dāng)CXR被認(rèn)為感染新冠肺炎,網(wǎng)絡(luò)能同時(shí)將其感染區(qū)域分割出來(lái)。網(wǎng)絡(luò)的整體框架主要由3個(gè)部分組成,即雙路嵌入層、Transformer模塊和分割解碼器。

    2.2 雙路嵌入層

    大多數(shù)Transformer編碼器的嵌入特征單一,或是深層特征序列,或是淺層特征序列。雙路嵌入層通過(guò)兩種映射方式,分別提取出CXR的淺層直觀特征與深層抽象特征。一是線(xiàn)性分割CXR為多個(gè)小補(bǔ)丁塊,將每塊補(bǔ)丁的像素?cái)?shù)據(jù)直接卷積映射到D維空間,得到表示直觀特征的向量序列[x1,x2,…,xN];二是使用預(yù)訓(xùn)練的網(wǎng)絡(luò)生成D通道的特征圖(H,W,D),再將其線(xiàn)性展開(kāi),得到長(zhǎng)度為H×W的D維特征向量序列[x′1,x′2,…,x′N(xiāo)],以表示圖像的深層抽象特征。

    如圖1所示,對(duì)于同一幅CXR輸入,一方面,以32×32像素的滑動(dòng)窗口線(xiàn)性分割圖像(linear project)并使用2維卷積映射出512維向量;另一方面,通過(guò)預(yù)訓(xùn)練的backbone(選用ResNet34的前4層,原因見(jiàn)5.3節(jié))提取尺寸為(14, 14, 512)的特征圖,按通道展開(kāi)為196個(gè)512維向量的線(xiàn)性序列。第1種方式中,每次卷積操作都被限制在滑動(dòng)窗口裁剪出來(lái)的補(bǔ)丁塊;第2種方式中,特征圖上的邊緣位置的感受野不能覆蓋原圖。因此,兩種方式嵌入的向量表示都相對(duì)局部。

    2.3 Transformer模塊

    首先,在嵌入的淺層特征向量序列[x1,x2,…,xN]中添加一個(gè)用于分類(lèi)預(yù)測(cè)的頭向量(head token),得到[xpred,x1,x2,…,xN]。然后,添加位置編碼,具體為

    Y(0)=[xpred,x1,x2,…,xN]+Epos

    (5)

    式中,xpred∈RD稱(chēng)為預(yù)測(cè)頭,Epos∈RN+1,Y(0)表示第1個(gè)Transformer編碼器的輸入。同樣的操作處理深層特征序列[x′1,x′2,…,x′N(xiāo)],得到Y(jié)′(0)。

    如圖1所示,Transformer模塊由6個(gè)編碼器和1個(gè)交叉注意力模塊串聯(lián)構(gòu)成。第i個(gè)編碼器計(jì)算為

    Y′(i-1)=LN(MHA(Y(i-1),Y(i-1),Y(i-1)))+Y(i-1)
    Y(i)=LN(MLP(Y(i-1)′))+Y′(i-1)

    (6)

    式中,LN為層歸一化(layer normalization)。Y(i)表示第i個(gè)編碼器的輸出。多頭注意力的3個(gè)輸入矩陣都是Y(i-1),輸出是自注意力后結(jié)果。通過(guò)自注意力機(jī)制,每個(gè)編碼器非線(xiàn)性地輸出全局感受特征。多個(gè)編碼器串聯(lián)使用,能使網(wǎng)絡(luò)獲得不同層次的特征,低層次特征包含的信息更多,而高層次特征的語(yǔ)義性更強(qiáng)。最后6個(gè)編碼器輸出高階的上下文特征。

    圖2顯示了編碼器中具體的計(jì)算過(guò)程,輸入序列首先經(jīng)過(guò)多頭的自注意力模塊,然后使用殘差,層歸一化(layer normalization,LN)得到中間輸出Y′(i-1),最后送入多層感知機(jī)(multiple layer perceptron,MLP)中,繼續(xù)采用殘差,層歸一化,得到輸出Y(i)。殘差和層歸一化能避免梯度消失,以加速網(wǎng)絡(luò)的收斂。

    交叉注意力模塊是整個(gè)Transformer模塊的核心。它將Transformer編碼器的高階上下文特征與卷積出來(lái)的深層抽象特征送入交叉注意機(jī)制。計(jì)算如式(7),過(guò)程見(jiàn)圖2。

    (7)

    圖2 Transformer模塊的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The architecture of Transformer module

    式中,Y′(0)是深層特征序列添加預(yù)測(cè)頭和位置編碼后的結(jié)果。在交叉注意力模塊中,先使用自注意力處理深層特征序列,再將處理結(jié)果與高階的上下文特征進(jìn)行交叉注意力,最后送入多層感知機(jī)。這樣有兩個(gè)優(yōu)點(diǎn):一是使網(wǎng)絡(luò)綜合了ResNet34提取的局部特征與Transformer編碼的全局特征;二是使網(wǎng)絡(luò)綜合了深層抽象特征與自注意力編碼后的淺層高級(jí)特征。

    Transformer模塊的輸出結(jié)果為

    Z=[zpred,z1,z2,…,zN]

    (8)

    式中,輸出的預(yù)測(cè)頭zpred用于分類(lèi)任務(wù)。剩余向量序列[z1,z2,…,zN]經(jīng)過(guò)拼接用于分割任務(wù)。[z1,z2,…,zN]拼接后的維度是196×512,重組后,特征圖的維度為14×14×512。

    2.4 分割解碼模塊

    在醫(yī)學(xué)影像分割的編碼器—解碼器架構(gòu)中,典型的解碼器主要采用兩種方法來(lái)還原圖像尺寸:上采樣和逆卷積。上采樣通過(guò)線(xiàn)性插值的方式來(lái)改變特征圖尺寸,而逆卷積使用卷積映射自適應(yīng)地增大特征圖。本文中,網(wǎng)絡(luò)的分割解碼器使用逆卷積操作來(lái)恢復(fù)圖像尺寸。為了保證解碼特征圖與相應(yīng)的編碼特征圖尺寸相同,分割解碼器依次由1×1的卷積、滑動(dòng)步數(shù)為2的3×3的逆卷積和1×1的卷積3部分構(gòu)成,見(jiàn)圖1。3×3的逆卷積擴(kuò)大特征圖的尺寸為原來(lái)的一倍。1×1的卷積可以有效地控制輸入輸出的特征圖通道數(shù),盡可能減少語(yǔ)義信息的丟失。最后,使用跳躍連接將編碼特征圖對(duì)應(yīng)地加到尺寸相當(dāng)?shù)慕獯a特征圖,使網(wǎng)絡(luò)具有較大的反向梯度,以使網(wǎng)絡(luò)盡快收斂。

    3 聯(lián)合訓(xùn)練的混合損失

    3.1 分類(lèi)任務(wù)損失

    分類(lèi)任務(wù)的損失函數(shù)fcls由對(duì)比損失fA(cont-rastive loss)(He等,2021)和交叉熵?fù)p失fB兩部分構(gòu)成,表達(dá)如下

    (9)

    式中,sim函數(shù)表示計(jì)算zi,zj兩個(gè)向量的余弦相似度,zi,zj對(duì)應(yīng)著Transformer模塊輸出的預(yù)測(cè)頭,即zpred。α表示截?cái)嘀担O(shè)置為0.4。對(duì)比損失函數(shù)可以減小不同類(lèi)別預(yù)測(cè)頭的相似度,增加同一類(lèi)別的預(yù)測(cè)頭的相似度。最后對(duì)每個(gè)預(yù)測(cè)頭使用全連接,分類(lèi)結(jié)果向量送入交叉熵?fù)p失函數(shù)。

    3.2 分割損失與聯(lián)合訓(xùn)練損失

    CXR分割任務(wù)的目標(biāo)是將新冠肺炎的病灶區(qū)域標(biāo)注為前景色,其他部分劃分為背景色。它是一種像素級(jí)別的二分類(lèi)任務(wù),最常用的損失函數(shù)是二分類(lèi)的交叉熵?fù)p失(binary cross entropy loss),表達(dá)為

    fseg=-wi[yilogxi+(1-yi)log(1-xi)]

    (10)

    最后,模型使用不確定性損失動(dòng)態(tài)平衡分類(lèi)與分割任務(wù)(Zhang等,2021),表達(dá)為

    (11)

    式中,w1和w2是可學(xué)習(xí)參數(shù),初始值分別設(shè)置為-4.85和-6.55。

    4 數(shù)據(jù)集與實(shí)驗(yàn)參數(shù)

    4.1 數(shù)據(jù)集的構(gòu)建

    本文編譯了一個(gè)CXR 5分類(lèi)的數(shù)據(jù)集。所有新冠患者的CXR都標(biāo)注了感染區(qū)的分割掩膜。所有數(shù)據(jù)來(lái)自于6個(gè)Kaggle公開(kāi)集,它們收集自GitHub、Kaggle的其他存儲(chǔ)集、SIRM(Italian Society of Medical and Interventional Radiology)、NIH(National Library of Medicine)、國(guó)外大學(xué)(Qatar University, Tampere University, the University of Dhaka)和醫(yī)療機(jī)構(gòu)(Hamad Medical Corporation)等的公開(kāi)數(shù)據(jù)。每個(gè)存儲(chǔ)集中CXR的類(lèi)別與數(shù)量顯示在表1。

    表1 各公開(kāi)數(shù)據(jù)集的CXR分類(lèi)統(tǒng)計(jì)Table 1 The statistics of classified CXRs in each repository /幅

    表1中前5個(gè)存儲(chǔ)集都沒(méi)有新冠肺炎感染區(qū)的分割掩膜,所以引入第6個(gè)存儲(chǔ)集QaTa-COVID19。各類(lèi)別CXR總數(shù)之間相互比較,健康正常類(lèi)明顯高于其他類(lèi),細(xì)菌性肺炎明顯低于病毒性肺炎類(lèi)和肺部不透明類(lèi)。為模擬真實(shí)的檢測(cè)情景(絕大多數(shù)案例為健康正常),保留了所有存儲(chǔ)集的健康正常CXR。但為保持?jǐn)?shù)據(jù)平衡,病毒性肺炎類(lèi)和肺部不透明類(lèi)的CXR僅從表中第4(Degerli等,2021)和第5(Rahman等,2021)存儲(chǔ)集中收集。最后使用的數(shù)據(jù)集由表1中各加粗項(xiàng)組成,刪除重復(fù)圖像,并將每幅圖像尺寸調(diào)整為448×448 像素。編譯好的數(shù)據(jù)集總共有38 466幅CXR,其中有2 951幅新冠肺炎患者的CXR,16 964幅健康正常人的CXR,6 103幅細(xì)菌性肺炎患者的CXR,5 725幅病毒性肺炎患者的CXR和6 723幅肺部不透明的CXR。

    各病癥的CXR通常表現(xiàn)介紹如下:

    1)新冠肺炎。磨玻璃樣(ground-glass opacity,GGO)改變,通常出現(xiàn)在雙側(cè)、外圍;隨著疾病的進(jìn)展,有時(shí)會(huì)出現(xiàn)鋪路石征(小葉間隔增厚和小葉內(nèi)線(xiàn)與磨玻璃影疊加,稱(chēng)之為鋪路石征);GGO區(qū)域出現(xiàn)血管擴(kuò)張或牽拉性支氣管擴(kuò)張。

    2)病毒性肺炎。檢查可見(jiàn)肺紋理增多,可能出現(xiàn)網(wǎng)狀影;多表現(xiàn)出斑片狀或結(jié)塊狀的實(shí)變影;伴有廣泛的GGO;會(huì)產(chǎn)生支氣管壁增厚等癥狀。

    3)細(xì)菌性肺炎。支氣管肺炎型改變;多會(huì)出現(xiàn)肺葉實(shí)變、空洞形成或較大量胸腔積液;炎性浸潤(rùn)陰影,可呈大片絮狀、濃淡不均勻。

    4)肺部不透明。CXR影像上出現(xiàn)部分肺缺失。

    其實(shí),實(shí)際臨床中細(xì)菌性和病毒性肺炎大類(lèi)下又有復(fù)雜多樣的細(xì)分,它們的CXR亦有一定差異。圖3中展示了各類(lèi)具有代表性的案例。

    圖3 各類(lèi)X光片的例子展示Fig.3 The examples of different X-ray images

    4.2 實(shí)驗(yàn)參數(shù)設(shè)置

    實(shí)驗(yàn)硬件環(huán)境為搭載Intel Xeon CPU E5-2650 v4,2.2 GHz處理器和Tesla K80,12 GB顯卡的服務(wù)器集群。軟件環(huán)境為64位Centos7操作系統(tǒng)下的Pytorch深度學(xué)習(xí)框架。

    各網(wǎng)絡(luò)通過(guò)4張K80顯卡并行訓(xùn)練。網(wǎng)絡(luò)參數(shù)設(shè)置如下:批處理大小由模型大小和顯卡容量人為確定,VITNet采用16;總的迭代次數(shù)為200;使用Adam優(yōu)化器;學(xué)習(xí)率的初始值為0.000 2,若模型迭代10步后沒(méi)有更新權(quán)重,縮小學(xué)習(xí)率為原來(lái)的一半。

    5 實(shí)驗(yàn)結(jié)果與討論

    5.1 CXR自動(dòng)診斷結(jié)果比較

    在分類(lèi)診斷實(shí)驗(yàn)中,將VITNet與通用的Transformer分類(lèi)網(wǎng)絡(luò)(Dosovitskiy等,2021)和5種流行的深度學(xué)習(xí)模型進(jìn)行對(duì)比,即ResNet18,ResNet50,VGG16,Inception_v3和Dla(deep layer aggregation),結(jié)果展示在表2。ResNet18,ResNet50,VGG16,Inception_3都是經(jīng)過(guò)預(yù)訓(xùn)練的分類(lèi)模型;Dla是一種多特征融合的深度網(wǎng)絡(luò),不使用預(yù)訓(xùn)練(與VITNet一樣)。就診斷的精度而言,VITNet模型具有最高的分類(lèi)精度(95.37%),而后依次是Inception_v3(95.17%),Dla(94.40%),VGG16(94.16%),以及ResNet50和ResNet18(93.48%和92.18%)。單純Transformer分類(lèi)的精度是92.22%,僅優(yōu)于ResNet18。召回率描述了模型準(zhǔn)確識(shí)別出不同類(lèi)別為正例的能力,召回率越高,模型對(duì)于X線(xiàn)胸片的誤診率越低??傮w上,通用Transformer的誤診可能性最大,除此之外,其他各模型的召回率順序與其精度順序一致。F1指標(biāo)綜合考慮了精度與召回率,其結(jié)果更能反映模型準(zhǔn)確性??梢钥闯觯心P驮贔1上的表現(xiàn)順序與召回率的順序完全一致。kappa系數(shù)是統(tǒng)計(jì)學(xué)中評(píng)估一致性的方法,也可用來(lái)評(píng)估多分類(lèi)模型的準(zhǔn)確度。顯然,表2中各模型在精度和kappa上有相同的性能排列。綜上,VITNet在精度、召回率、F1和kappa系數(shù)上都表現(xiàn)最好,具有最佳的診斷效果。

    表2 各網(wǎng)絡(luò)的分類(lèi)性能對(duì)比Table 2 The comparison of classification accuracy /%

    圖4中繪制了各模型分類(lèi)結(jié)果的混淆矩陣(由于ResNet網(wǎng)絡(luò)已有ResNet50作為對(duì)比,未繪制ResNet18的結(jié)果)。依次單獨(dú)分析5個(gè)類(lèi)別的結(jié)果,就新冠肺炎而言,VGG16和Inception_v3表現(xiàn)最佳,然后是VITNet和Dla;就肺部不透明和病毒性肺炎的分類(lèi)效果,VITNet表現(xiàn)出了最佳的效果;而就健康正常類(lèi)而言,單純的Transformer分類(lèi)網(wǎng)絡(luò)表現(xiàn)最佳;就細(xì)菌性肺炎的分類(lèi)結(jié)果,本文模型僅次于Inception_v3模型。

    圖4 各網(wǎng)絡(luò)分類(lèi)結(jié)果的混淆矩陣Fig.4 Confusion matrixe maps of network classification results

    5.2 新冠肺炎感染區(qū)域的分割結(jié)果

    為了驗(yàn)證分割效果,本文網(wǎng)絡(luò)與4種主流網(wǎng)絡(luò)進(jìn)行對(duì)比,結(jié)果如表3所示。PSPNet(pyramid scene parsing network)是通用的語(yǔ)義分割模型,它的分割效果在所有網(wǎng)絡(luò)中最差。U-Net、U-Net+、CE-Net是面向醫(yī)學(xué)影像的專(zhuān)用網(wǎng)絡(luò),模型中都引入了跳躍連接,網(wǎng)絡(luò)可以將淺層特征與抽象特征結(jié)合起來(lái),有效提升網(wǎng)絡(luò)的收斂速度與分割效果。相比這4種分割網(wǎng)絡(luò),VITNet在精度和AUC(area under ROC curve)上都具有更好的表現(xiàn),但在敏感度上稍遜色于U-Net+。這可能還要涉及到網(wǎng)絡(luò)的穩(wěn)定性,測(cè)試發(fā)現(xiàn),U-Net+敏感度指標(biāo)隨著迭代的波動(dòng)非常大,相鄰兩次保存權(quán)重的網(wǎng)絡(luò)敏感度可能會(huì)相差6%左右。在分割任務(wù)中,敏感度是衡量網(wǎng)絡(luò)正確預(yù)測(cè)病灶區(qū)的能力,特異度則用于衡量正確預(yù)測(cè)無(wú)病變正常區(qū)域的能力。同一個(gè)分割網(wǎng)絡(luò)很難兼具好的敏感性和特異性,就像表3中特異度最好的前兩名網(wǎng)絡(luò),敏感度表達(dá)反而最差。VITNet的特異性表現(xiàn)相對(duì)較差,僅優(yōu)于CE-Net。Dice系數(shù)是表達(dá)分割的預(yù)測(cè)與真實(shí)結(jié)果之間相似性的指標(biāo),表3中VITNet具有最高的指標(biāo)數(shù)值,即表現(xiàn)出的相似性最好。通過(guò)各指標(biāo)的比較,VITNet的分割效果最好。

    表3 各網(wǎng)絡(luò)的分割效果對(duì)比Table 3 The comparison of segmentation performance /%

    圖5顯示了6幅新冠肺炎感染的CXR影像及它們的分割結(jié)果。相比之下,VITNet具有更好的分割表現(xiàn),這一點(diǎn)通過(guò)各分割預(yù)測(cè)結(jié)果的邊緣與真實(shí)標(biāo)簽邊緣的相似性可以明顯看出。特別地,當(dāng)病灶區(qū)域相對(duì)較小時(shí),VITNet的分割性能愈發(fā)突出。

    圖5 不同分割網(wǎng)絡(luò)的分割案例結(jié)果展示Fig.5 Illustrative examples of the lung infected region segmentation obtained by different networks((a) original CXR; (b) ground truth; (c) VITNet; (d) CE-Net; (e) U-Net; (f) U-Net+; (g) PSPNet)

    5.3 Backbone的消融實(shí)驗(yàn)

    VITNet的Backbone使用的是ResNet。原因如下:1)ResNet使用的殘差網(wǎng)絡(luò)能有效避免梯度消失,加速網(wǎng)絡(luò)收斂。2)ResNet的網(wǎng)絡(luò)結(jié)構(gòu)符合嵌入特征的維數(shù)需要。由于Transformer模塊中的輸入序列必須是同維向量,雙路嵌入層中2維卷積核的數(shù)量必須與Backbone提取的特征圖的通道數(shù)一致。之前的實(shí)驗(yàn)表明,當(dāng)輸入圖像尺寸固定為448×448像素,這個(gè)維數(shù)設(shè)置為512時(shí),網(wǎng)絡(luò)性能最突出,而Inception、DenseNet和VGG等網(wǎng)絡(luò)提取的特征圖維數(shù)大都為1 024或2 048,維數(shù)過(guò)高。若直接使用這些網(wǎng)絡(luò)作為Backbone,將使得整個(gè)網(wǎng)絡(luò)冗余且難收斂;若更改這些網(wǎng)絡(luò)結(jié)構(gòu)使輸出降維就無(wú)法導(dǎo)入開(kāi)發(fā)者預(yù)訓(xùn)練好的權(quán)重。3)ResNet的網(wǎng)絡(luò)結(jié)構(gòu)層次明確,可以有效地與解碼器構(gòu)成U形分割網(wǎng)絡(luò)架構(gòu)。Backbone編碼的中間特征圖與解碼輸出的中間特征圖有相同的尺寸,可直接進(jìn)行跳躍連接。

    表2和表3對(duì)比了3種ResNet網(wǎng)絡(luò)作為Backbone的實(shí)驗(yàn)結(jié)果,即VITNet18、VITNet和VITNet50分別使用了ResNet18、ResNet34和ResNet50作為Backbone。很明顯,使用ResNet34的VITNet診斷與分割的性能最佳,然后是VITNet18,最后是VITNet50。ResNet18作為Backbone的效果不及ResNet34,是因?yàn)镽esNet34網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜,能夠提取到更深層次的特征。VITNet50的性能最差,是因?yàn)镽esNet50的網(wǎng)絡(luò)結(jié)構(gòu)得到了更改,以使輸出的特征圖維度等于512,因此作為Backbone的ResNet50不能使用預(yù)訓(xùn)練好的權(quán)重,結(jié)果自然相對(duì)較差。

    5.4 聯(lián)合網(wǎng)絡(luò)性能的分析

    通過(guò)以上圖表可以看出,VITNet分別與主流的CNN分類(lèi)或分割網(wǎng)絡(luò)進(jìn)行比較,結(jié)果顯示VITNet具有優(yōu)異的聯(lián)合診斷與分割性能。單就診斷性能而言,VITNet相比其他網(wǎng)絡(luò)具有最好的分類(lèi)效果,網(wǎng)絡(luò)結(jié)構(gòu)中使用了交叉注意力,能同時(shí)考慮Backbone提取的深層特征信息與Transformer自注意力編碼后的淺層高級(jí)上下文信息。而其他網(wǎng)絡(luò)的分類(lèi)特征相對(duì)單一,ResNet18,ResNet50,VGG16和Inception_v3網(wǎng)絡(luò)通過(guò)多層卷積提取高維深層特征來(lái)完成分類(lèi)任務(wù);Dla則將多級(jí)特征聚合以完成分類(lèi),在未使用預(yù)訓(xùn)練的情況下,預(yù)測(cè)結(jié)果超過(guò)了VGG16和Res-Net網(wǎng)絡(luò),但仍比VITNet差。再者在損失函數(shù)上,VITNet不僅進(jìn)行交叉熵的分類(lèi)損失計(jì)算,還將預(yù)測(cè)頭向量送入分類(lèi)對(duì)比損失,以使特征空間中的同類(lèi)別預(yù)測(cè)頭盡可能接近(相似),不同類(lèi)別的預(yù)測(cè)頭盡可能遠(yuǎn)離,而在其他網(wǎng)絡(luò)中,全連接分類(lèi)的結(jié)果則直接通過(guò)交叉熵?fù)p失進(jìn)行分類(lèi)預(yù)測(cè)。單論新冠感染區(qū)的肺部分割,VITNet在精度上表現(xiàn)最好,因?yàn)樗饤壛薝-Net和U-Net+編碼器中的連續(xù)下采樣,使用CE-Net中的編碼器(ResNet34的前4層),以更完整地保持圖像的語(yǔ)義信息。并且VITNet中引入了注意力機(jī)制,通過(guò)自注意力機(jī)制關(guān)注全局特征,通過(guò)交叉注意力綜合考慮深層抽象特征與淺層高級(jí)特征,而CE-Net網(wǎng)絡(luò)更多地關(guān)注了局部抽象特征。通過(guò)圖5發(fā)現(xiàn),當(dāng)肺炎的感染偏小時(shí),VITNet的分割效果更好,很少出現(xiàn)檢測(cè)不到分割區(qū)域的情況。這可能是由于網(wǎng)絡(luò)是同時(shí)進(jìn)行分類(lèi)和分割任務(wù)的,當(dāng)分類(lèi)任務(wù)診斷出新冠感染時(shí),網(wǎng)絡(luò)也能同時(shí)學(xué)習(xí)到需要進(jìn)行必要的分割輸出。

    聯(lián)合網(wǎng)絡(luò)對(duì)每幅圖像進(jìn)行肺炎診斷與感染區(qū)域分割,而其他網(wǎng)絡(luò)只能處理一種任務(wù)。圖6顯示了聯(lián)合網(wǎng)絡(luò)與其他分類(lèi)分割網(wǎng)絡(luò)組合運(yùn)行的時(shí)間對(duì)比結(jié)果,數(shù)字標(biāo)簽顯示了各網(wǎng)絡(luò)處理每幅圖像的時(shí)間,并且分類(lèi)和分割網(wǎng)絡(luò)分別表示為無(wú)陰影和實(shí)陰影柱狀圖,VITNet網(wǎng)絡(luò)是圖6中最后一個(gè)柱狀圖。從圖6可以看出,診斷分類(lèi)網(wǎng)絡(luò)花費(fèi)的時(shí)間極少,分割由于本身任務(wù)相對(duì)復(fù)雜需要較多的時(shí)間,聯(lián)合網(wǎng)絡(luò)僅與分割網(wǎng)絡(luò)相比,就已經(jīng)顯示出了最快的分割速度,處理每幅圖像的耗時(shí)是0.56 s。VITNet運(yùn)行效率最高,因?yàn)榫W(wǎng)絡(luò)使用了多頭注意力模塊,相比其他網(wǎng)絡(luò)通過(guò)大量卷積操作提取圖像特征,VITNet通過(guò)空間換取時(shí)間的思想平行地編碼圖像全局特征,減少了運(yùn)行時(shí)間。

    雖然聯(lián)合網(wǎng)絡(luò)具有最優(yōu)的性能,但是就實(shí)際應(yīng)用而言,VITNet仍然存在不足。觀察圖4中VITNet的混淆矩陣,可以發(fā)現(xiàn)有一個(gè)新冠感染者被錯(cuò)誤地診斷為健康正常,這種錯(cuò)分類(lèi)的案例在現(xiàn)實(shí)中可能會(huì)產(chǎn)生無(wú)法估量的傷害,鑒于新冠肺炎極強(qiáng)的傳染性,而基于深度模型的預(yù)測(cè)出現(xiàn)這種錯(cuò)分類(lèi)的情況很難避免,VGG16和Inception_v3雖然表現(xiàn)出100%的新冠肺炎分類(lèi)精度,但是如果繼續(xù)增加測(cè)試數(shù)據(jù),很大可能也會(huì)出現(xiàn)錯(cuò)分類(lèi)的案例。雖然傳統(tǒng)的核酸檢測(cè)也可能存在假陰性的情況,但在大規(guī)模應(yīng)用上,核酸檢測(cè)相對(duì)要更加嚴(yán)謹(jǐn)。盡管如此,考慮到核酸檢測(cè)結(jié)果的時(shí)間滯后性,本文提出的聯(lián)合診斷與分割網(wǎng)絡(luò)可以作為核酸測(cè)試前的輔助測(cè)試,配合醫(yī)生診斷以快速篩查人群。

    圖6 VITNet網(wǎng)絡(luò)與其他網(wǎng)絡(luò)組合的運(yùn)行效率對(duì)比Fig.6 The efficiency comparison between VITNet and other networks

    6 結(jié) 論

    本文提出了一種基于Transformer的聯(lián)合學(xué)習(xí)網(wǎng)絡(luò),能夠同時(shí)完成對(duì)X線(xiàn)胸片的診斷分類(lèi)和新冠感染區(qū)分割。為實(shí)現(xiàn)自動(dòng)診斷分類(lèi)任務(wù),網(wǎng)絡(luò)通過(guò)自注意力編碼和ResNet34前4層獲取肺部圖像的淺層高級(jí)特征和深層抽象特征,并經(jīng)由交叉注意力模塊輸出用于分類(lèi)的預(yù)測(cè)頭;就肺部感染區(qū)分割任務(wù),網(wǎng)絡(luò)使用了U型編碼器—解碼器架構(gòu),編碼器依托診斷分類(lèi)的網(wǎng)絡(luò),解碼器主要是通過(guò)逆卷積實(shí)現(xiàn)。為實(shí)現(xiàn)兩種任務(wù)的聯(lián)合訓(xùn)練,使用了一種分類(lèi)和分割損失混合函數(shù),它能在訓(xùn)練時(shí)動(dòng)態(tài)地平衡兩種任務(wù)的訓(xùn)練尺度。實(shí)驗(yàn)中,將聯(lián)合網(wǎng)絡(luò)同時(shí)輸出的分類(lèi)與分割結(jié)果,分別與主流的分類(lèi)或分割網(wǎng)絡(luò)的輸出比較,聯(lián)合網(wǎng)絡(luò)都能有一定程度的提升,并且網(wǎng)絡(luò)具有突出的運(yùn)行效率。但從分類(lèi)輸出的混淆矩陣可以看出,網(wǎng)絡(luò)有一次錯(cuò)誤地將新冠肺炎患者診斷為正常,使得這個(gè)網(wǎng)絡(luò)不適用于大規(guī)模的精細(xì)篩查診斷,可能更適合粗略的初步篩查和配合醫(yī)生診斷。也因此認(rèn)識(shí)到一種高精度的分類(lèi)算法對(duì)新冠肺炎的診斷和篩查至關(guān)重要,這也是未來(lái)自動(dòng)診斷的重點(diǎn)研究方向。

    猜你喜歡
    編碼器注意力卷積
    讓注意力“飛”回來(lái)
    基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于FPGA的同步機(jī)軸角編碼器
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
    基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
    A Beautiful Way Of Looking At Things
    JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
    電子器件(2015年5期)2015-12-29 08:42:24
    多總線(xiàn)式光電編碼器的設(shè)計(jì)與應(yīng)用
    林周县| 施甸县| 巩义市| 商城县| 卫辉市| 阜康市| 灵武市| 旌德县| 余姚市| 兖州市| 额济纳旗| 乐东| 石嘴山市| 聂荣县| 景洪市| 湟源县| 洛川县| 马龙县| 大悟县| 贵阳市| 乌拉特前旗| 安达市| 北票市| 海兴县| 靖州| 通许县| 尼勒克县| 松潘县| 金溪县| 博野县| 建水县| 蚌埠市| 唐海县| 达孜县| 棋牌| 海晏县| 高安市| 油尖旺区| 永定县| 恭城| 建湖县|