哈艷,袁偉珵,孟翔杰,田俊峰
致病病毒嚴(yán)重威脅人類的生命健康,如新型冠狀病毒肺炎全球大流行,造成了不可挽回的損失,但同時(shí)提高了人們對病毒傳播、致病和治療等的認(rèn)知及重視程度。在病毒爆發(fā)的過程中,對病毒及時(shí)進(jìn)行早期診斷則是遏制病毒傳播的最佳手段。目前利用透射電子顯微鏡(transmission electron microscope,TEM)對病毒進(jìn)行形態(tài)觀察是對病毒早期診斷的重要檢測方式,通過TEM可以獲得病毒的高分辨率圖像,能夠表達(dá)病毒超微結(jié)構(gòu)的更多細(xì)節(jié)[1-2],因此TEM成為病毒形態(tài)學(xué)診斷的有力工具[3]。
在臨床檢測中,傳統(tǒng)的TEM檢測方法常依靠專家手工識(shí)別,存在步驟繁瑣、耗時(shí)長、效率低等缺陷,并且需要經(jīng)驗(yàn)豐富的病毒專家才能進(jìn)行精準(zhǔn)判斷。由于專業(yè)訓(xùn)練的病毒專家屬于非常昂貴的人力資源,世界各地能夠使用TEM進(jìn)行病毒鑒定的機(jī)構(gòu)非常少[4-5],導(dǎo)致發(fā)展中國家和落后地區(qū)等無法對新型或變異病毒進(jìn)行及時(shí)檢測和診斷,嚴(yán)重影響了病毒傳染疾病的診治與防疫工作。近年來,隨著計(jì)算機(jī)輔助診斷技術(shù)的發(fā)展,很多研究工作利用機(jī)器學(xué)習(xí)方法,通過手工設(shè)計(jì)的特征構(gòu)建分類器以開展TEM圖像中的病毒形態(tài)自動(dòng)識(shí)別工作,有效緩解了病毒檢測與診斷的壓力[6]。但由于病毒結(jié)構(gòu)多樣、背景復(fù)雜和TEM圖像中不可避免地出現(xiàn)噪聲,上述方法在病毒識(shí)別方面受到特征依賴性和場景泛化能力差的影響,其效果不能滿足實(shí)際應(yīng)用的要求。
目前,深度學(xué)習(xí)技術(shù)由于其卓越的性能已被廣泛應(yīng)用于醫(yī)學(xué)圖像識(shí)別任務(wù),可以有效解決TEM病毒圖像手工檢測效率低和機(jī)器學(xué)習(xí)方法受背景噪聲影響大等問題。但已有的深度學(xué)習(xí)方法大多關(guān)注圖像像素級信息,使得提取的信息獨(dú)立表示該圖像的特征,忽略了不同病毒樣本之間的關(guān)系,導(dǎo)致模型過于關(guān)注圖像上的局部特征,而忽略了整體的形態(tài)特征差異關(guān)系,進(jìn)而導(dǎo)致對病毒形態(tài)圖像識(shí)別準(zhǔn)確率不高。
本文提出的增強(qiáng)圖卷積神經(jīng)網(wǎng)絡(luò)(Enhanced Graph Convolutional Network,EGCN)用于透射電子顯微鏡下的病毒形態(tài)自動(dòng)識(shí)別。該方法不僅關(guān)注圖像的局部特征,而且指導(dǎo)模型學(xué)習(xí)不同病毒樣本之間的關(guān)系,從其鄰居樣本中獲得更全面的病毒形態(tài)信息。首先,利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取病毒的像素級特征,獲得的CNN特征主要集中于不同病毒樣本的局部信息。然后使用K近鄰(K-Nearest Neighbor,KNN)算法將圖像之間的相關(guān)性融合到模型中。最后,在圖卷積網(wǎng)絡(luò)(GCN)分類器中引入群體超分類技術(shù),從而提取到更全面的病毒結(jié)構(gòu)特征,進(jìn)行病毒形態(tài)的精準(zhǔn)分類。
1.1 顯微圖像分類 目前,與人工智能相關(guān)的顯微鏡圖像識(shí)別算法因其高效和效果良好而被廣泛應(yīng)用[6-12]。比如,ABDALLA等[7]采用K近鄰和人工神經(jīng)網(wǎng)絡(luò)算法來識(shí)別顯微圖像數(shù)據(jù)中的細(xì)胞和寄生蟲。MARC等[8]提出了對利什曼原蟲的深度學(xué)習(xí)自動(dòng)分割和識(shí)別算法。除此之外,LI等[9]設(shè)計(jì)了深度循環(huán)遷移學(xué)習(xí)模型來識(shí)別多種寄生蟲顯微圖像,通過引入寄生蟲相似樣本的宏觀目標(biāo)樣本促進(jìn)寄生蟲圖像的特征提取,由此提高了寄生蟲顯微圖像的識(shí)別效果。
在病毒形態(tài)識(shí)別領(lǐng)域,也有一些基于電子顯微鏡的研究。XIAO等[6]提出了用于病毒形態(tài)學(xué)診斷的殘差混合注意力網(wǎng)絡(luò),將殘差結(jié)構(gòu)和三個(gè)注意力模塊集成到一個(gè)端到端的模型中,完成了對電子顯微鏡中病毒識(shí)別任務(wù)。SINTORN等[10]提出了一種精細(xì)化的模板匹配方法來識(shí)別巨細(xì)胞病毒顆粒。ONG等[11]提出了一種基于雙譜特征的識(shí)別方法,通過獲取輪廓和紋理信息來識(shí)別胃腸病毒。WEN等[12]建立了一種通過多尺度主成分分析方法提取病毒特征的病毒識(shí)別模型。但是這些方法僅考慮病毒圖像樣本類別與圖像特征之間的關(guān)系,忽視了圖像樣本特征中的群體相似問題,因此在實(shí)際應(yīng)用中效果還不理想。
1.2 GCN 由于GCN具有挖掘樣本特征之間關(guān)系的獨(dú)特能力,許多研究采用GCN作為特征學(xué)習(xí)方法[13-18]。如SAHBI等[13]為圖像特征建立了一個(gè)正交的連接矩陣,通過鄰域最優(yōu)地聚集特征節(jié)點(diǎn),并結(jié)合輕量級GCN進(jìn)行手勢識(shí)別;MIN等[14]提出了一種基于注意力圖網(wǎng)絡(luò)的車位檢測方法,其根據(jù)標(biāo)記點(diǎn)周圍視圖的圖像建立圖結(jié)構(gòu),用單元化的圖神經(jīng)網(wǎng)絡(luò)來聚合樣本之間的鄰近信息。ZHOU等[15]通過GCN將動(dòng)作特征和微表情特征聯(lián)合表示,實(shí)現(xiàn)微表情識(shí)別;XIAO等[16]提出了一種利用GCN將類間相似度知識(shí)整合到CNN模型的方法來解決圖像識(shí)別問題。此外,ADNAN等[17]通過兩階段表征學(xué)習(xí)框架識(shí)別了兩種肺癌亞型,該方法通過基于顏色的算法和圖神經(jīng)網(wǎng)絡(luò)將原始圖像映射為向量表示,并在圖池中引入注意力機(jī)制來推斷樣本之間的相關(guān)性。BAO等[18]提出的掩碼圖注意力網(wǎng)絡(luò),該網(wǎng)絡(luò)通過CNN特征表示節(jié)點(diǎn)之間的相互信息傳輸,更有效地實(shí)現(xiàn)行人的再識(shí)別。
為了更好地解決病毒形態(tài)診斷問題,首先利用CNN提取圖像特征表示,然后將CNN特征和樣本之間的關(guān)系輸入GCN模塊,整個(gè)網(wǎng)絡(luò)由群體超分類損失和病毒分類交叉熵?fù)p失進(jìn)行聯(lián)合優(yōu)化,進(jìn)而提出了EGCN。
2.1 方法總述 為了解決病毒形態(tài)分類問題,首先,使用CNN從原始圖像中提取視覺特征。然后,通過KNN算法計(jì)算一個(gè)鄰接矩陣來表示CNN特征的相關(guān)性。最后,將CNN特征和其他的相關(guān)性輸入到GCN中學(xué)習(xí)圖特征表示,并利用群體超分類和病毒分類損失進(jìn)行網(wǎng)絡(luò)優(yōu)化,提出了一種端到端的EGCN。模型整體結(jié)構(gòu)如圖1所示。首先,EGCN通過CNN對病毒圖片提取像素級特征,然后通過圖學(xué)習(xí)建立樣本特征之間的關(guān)系,并引入圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖特征學(xué)習(xí),利用超分類損失提高網(wǎng)絡(luò)的特征提取能力,實(shí)現(xiàn)在像素級特征上提取更具魯棒性的樣本鑒別特征,最終通過主分類損失進(jìn)行病毒形態(tài)識(shí)別。
圖1 EGCN算法模型整體結(jié)構(gòu)Figure 1 Overall structure of EGCN algorithm model
2.2 像素級特征提取 CNN可以根據(jù)像素間的關(guān)系挖掘圖像的像素級特征信息,在分類問題上解決了許多挑戰(zhàn)性的問題[19]。因此,本文使用經(jīng)典的CNN模型RepVGG[20]作為像素級的特征提取器。給定原始數(shù)據(jù)X={x1,…,xi,…,xn},包括病毒圖像,通過以下公式提取CNN特征:Y=F(X)(1)。其中F(·)表示RepVGG-B3模型,Y表示像素級特征集合。RepVGG由5個(gè)階段組成,每個(gè)階段使用多個(gè) 卷積,不存在池化模塊。每個(gè)階段的第一層通過設(shè)置stride=2來改變圖像的大小。RepVGG的詳細(xì)信息見表1。
表1 RepVGG模型Table 1 The model of Rep VGG network
為解決內(nèi)部協(xié)變量移位問題,在每個(gè)卷積層后加入批歸一化公式:
其中xb,xb+1分別表示第b層批標(biāo)準(zhǔn)化層的輸入和輸出,ε(·)表示期望,V(·)表示方差,ε>0。
2.3 超分類圖嵌入學(xué)習(xí) 在提取CNN 特征后,將這些特征作為GCN的輸入,并結(jié)合樣本之間的關(guān)系進(jìn)行圖特征表示,最終經(jīng)過分類層預(yù)測分類結(jié)果。該模塊包括兩部分,首先計(jì)算CNN特征之間的相關(guān)性構(gòu)建鄰接矩陣,然后通過超分類GCN計(jì)算預(yù)測的概率分布。
2.3.1 圖構(gòu)建算法 為了確定CNN特征之間的關(guān)系,采用KNN算法建立一個(gè)圖結(jié)構(gòu)G(V,E),其中V表示圖的節(jié)點(diǎn),E表示圖的邊。具體來說,將每個(gè)圖像的CNN特征假設(shè)為一個(gè)節(jié)點(diǎn)。KNN算法中對于每個(gè)節(jié)點(diǎn),將其連接到最接近該節(jié)點(diǎn)的前K個(gè)節(jié)點(diǎn),計(jì)算鄰接矩陣A=(Aij):
其中Nj表示樣本j的K個(gè)近鄰點(diǎn)的集合。樣本的近鄰點(diǎn)由歐幾里得距離決定:
2.3.2 超分類圖卷積算法 設(shè)Y={y1,…,yi,…,yn}∈Rn×d是n個(gè)d維的特征向量的集合,并且利用鄰接矩陣A表示病毒樣本之間的關(guān)系。給定特征Z0=Y和圖結(jié)構(gòu)A,GCN[21]可以表示為:
其中M表示屬于每種類別的概率,G(Y)表示GCN,δ(·)表示激活函數(shù),如ReLU(·)=max(0,·)。針對每個(gè)隱含層,GCN可以用以下公式表示:
其中l(wèi){0,1,…L}并且Wl表示第l層GCN的可訓(xùn)練參數(shù)。Zl和Zl+1分別表示第l層和第l+1層輸出的GCN特征。D=diag(d1,d2,…,dn)是一個(gè)對角矩陣,且為了確定概率分布,將GCN層的輸出輸入到softmax函數(shù)中:
其中Mi表示第i個(gè)GCN特征的概率分布,表示矩陣中的第i行第c列,C表示類別數(shù)。為此,本研究建立了兩個(gè)分類器,同時(shí)優(yōu)化兩個(gè)并列的GCN:
其中Gp表示病毒形態(tài)類別預(yù)測層,Ga表示超分類病毒形態(tài)預(yù)測層,即將每個(gè)病毒類別再次隨機(jī)劃分為兩類輔助網(wǎng)絡(luò)進(jìn)一步提取特征。Mp={mp1,…,mpi,…mpn}和Ma={ma1,…,mai,…man}分別代表Gp和Ga的輸出。其中超分類網(wǎng)絡(luò)通過將一類病毒分為兩類來提高EGCN模型提取全局特征的能力。
2.4 算法優(yōu)化 假設(shè)CNN模型的可訓(xùn)練參數(shù)為Wv,超分類GCN的參數(shù)為Wg。本文通過以下?lián)p失函數(shù)優(yōu)化權(quán)重集合W={Wv,Wg}。首先,考慮到病毒圖像樣本相關(guān)關(guān)系建立方法沒有使用真實(shí)標(biāo)簽,所以GCN中的鄰接矩陣中可能會(huì)有很多噪聲。由此,本文提出一個(gè)圖校正損失來抑制圖中的噪聲:
其中H=(Hij)∈Rn×n表示一個(gè)分類矩陣,由下式?jīng)Q定:
其中Lcp表示GCN的病毒形態(tài)交叉熵分類損失,Lca表示GCN的增強(qiáng)超分類損失。和分別表示兩種分類層輸出的第i個(gè)標(biāo)簽。為了更好地控制樣本間的距離,本文對GCN增加了對比損失,即:
其中η是一個(gè)可調(diào)參數(shù),用于控制不同類別樣本的約束程度。最后,通過如下?lián)p失函數(shù)優(yōu)化:
其中λ1,λ2和λ3表示不同損失之間的平衡系數(shù)。此為構(gòu)建的EGCN。
3.1 數(shù)據(jù)來源 本文的研究數(shù)據(jù)是基于15類病毒的TEM圖像集[21],其使用兩種不同的電子顯微鏡進(jìn)行拍攝,包括一臺(tái)Tecnai10和一臺(tái)MegaViewIII相機(jī),以及一臺(tái)LEO和一臺(tái)Morada相機(jī)。該數(shù)據(jù)集使用文獻(xiàn)[22]中描述的方法從分割的對象中自動(dòng)提取樣本,每類有100個(gè)圖像(總共1 500個(gè)樣本)。每張圖片均是無損壓縮為16位PNG格式,大小為41×41。此外,從每類中隨機(jī)選擇數(shù)據(jù)作為測試集,所選圖像不用于訓(xùn)練,訓(xùn)練集與測試集的比例為3∶1。表2顯示了每個(gè)病毒類中的圖像數(shù)量以及相應(yīng)的訓(xùn)練和測試部分的圖像數(shù)量。
表2 TEM病毒數(shù)據(jù)集Table 2 TEM virus dataset.
3.2 實(shí)驗(yàn)設(shè)計(jì)和評價(jià)指標(biāo) 為了進(jìn)行公平的病毒分類效果對比,本文使用PyTorch框架在GTX2080GPU上實(shí)現(xiàn)了EGCN算法和其他相關(guān)模型。在訓(xùn)練前,EGCN將訓(xùn)練樣本的大小統(tǒng)一為70×70像素,然后將其隨機(jī)裁剪為64×64像素,并進(jìn)行隨機(jī)旋轉(zhuǎn)。測試集的大小統(tǒng)一為64×64像素。在訓(xùn)練時(shí),EGCN模型通過自適應(yīng)矩估計(jì)法(Adaptive Moment Estimation,Adam)[23]進(jìn)行優(yōu)化,其中學(xué)習(xí)率為1e-5和權(quán)重衰減率為5e-4。經(jīng)實(shí)驗(yàn)驗(yàn)證,設(shè)置最大Epoch次數(shù)為300,批處理規(guī)模為64。λ1,λ2和λ3分別為0.3、1.0和0.1。Lcom的參數(shù)η被設(shè)置為5。此外,本文算法中使用的RepVGG模型已經(jīng)在ImageNet上進(jìn)行了預(yù)訓(xùn)練,以便更好地提取病毒圖像特征。
為了定量評價(jià)病毒形態(tài)學(xué)診斷模型,本小節(jié)計(jì)算了EGCN在病毒圖像數(shù)據(jù)上的top-1錯(cuò)誤率、top-2錯(cuò)誤率、精確度和召回率作為性能指標(biāo),具體情況如下。
top-1錯(cuò)誤率:該度量計(jì)算測試圖像中與真實(shí)標(biāo)簽不同的預(yù)測標(biāo)簽的比例。
top-2錯(cuò)誤率:該度量計(jì)算測試圖像中正確標(biāo)簽不在top-2預(yù)測標(biāo)簽中的比例[24]。
精確度:該指標(biāo)表示模型預(yù)測為正確的樣本中正確預(yù)測樣本的比例。
召回率:表示測試集中的樣本被正確分類的比例。
3.3 實(shí)驗(yàn)結(jié)果 為了驗(yàn)證本文提出的EGCN模型用于病毒形態(tài)學(xué)診斷的性能,本節(jié)將EGCN算法與相關(guān)方法進(jìn)行了比較,包括 VGG-19[19],ResNet-50[25],DenseNet-101[26],RepVGG-B3[20]和殘差混合注意網(wǎng)絡(luò)(RMAN)[6]。其中,VGG-19,ResNet-50,DenseNet-101和RepVGG-B3是在具有挑戰(zhàn)性的圖像識(shí)別任務(wù)中取得最佳結(jié)果的監(jiān)督模型[27]。RMAN通過在深度網(wǎng)絡(luò)中加入改進(jìn)的注意力模型,在病毒形態(tài)識(shí)別中取得了較好的效果。
不同模型在不同評價(jià)指標(biāo)上的實(shí)驗(yàn)效果顯示:EGCN方法分別達(dá)到了3.40%的top-1錯(cuò)誤率,1.88%的top-2錯(cuò)誤率,96.65%的精確度和96.60%的召回率。由于訓(xùn)練集樣本數(shù)量較少,過深的網(wǎng)絡(luò)會(huì)因參數(shù)過多而導(dǎo)致過擬合問題。因此,在傳統(tǒng)監(jiān)督網(wǎng)絡(luò)的實(shí)驗(yàn)中,VGG-19和RepVGG模型比更深的ResNet-50和DenseNet-101算法表現(xiàn)更好。與其他方法相比,EGCN算法在top-1錯(cuò)誤率至少低1.27%,在top-2錯(cuò)誤率至少低0.64%,精確度至少提高了1.24%,召回率至少提高了1.27%。表3得到的結(jié)果表明,EGCN算法在GCN的特征提取能力基礎(chǔ)上,群體超分類挖掘了更豐富的類別信息,和樣本級分類損失的聯(lián)合優(yōu)化在病毒形態(tài)診斷任務(wù)中可以獲得更好的結(jié)果。見表3。
表3 不同模型對病毒形態(tài)分類的定量分析結(jié)果匯總(%)Table 3 Summary of quantitative analysis results of virus morphological classification by different models
每個(gè)類別中的top-1錯(cuò)誤率,橫軸表示病毒類別,縱軸表示預(yù)測結(jié)果top-1錯(cuò)誤率,結(jié)果見圖2。從圖3可以看出腺病毒、星狀病毒、剛果出血熱病毒、流感病毒、馬爾堡病毒、諾如病毒、輪狀病毒和西尼羅河病毒其各自突出的形態(tài)特征均有著較低的錯(cuò)誤率。相對而言,登革熱病毒、埃博拉病毒和拉沙病毒的形狀相似,容易混淆,導(dǎo)致錯(cuò)誤率較高。此外,與其他方法相比,EGCN模型在其他所有病毒類別中達(dá)到了最低的識(shí)別錯(cuò)誤率,證明了EGCN算法在病毒識(shí)別問題上的優(yōu)越性。
圖2 所有對比方法中每個(gè)類別的top-1錯(cuò)誤率Figure 2 Top-1 error rates of each category in comparison methods
EGCN的混淆矩陣如圖3所示,其展示了EGCN算法對不同類別樣本的識(shí)別能力,EGCN算法對腺病毒、星狀病毒、剛果出血熱病毒、牛痘病毒、流感病毒、馬爾堡病毒、諾如病毒、輪狀病毒和西尼羅河病毒的分類是100.00%正確的?;煜仃嚨慕Y(jié)果表明,EGCN模型能夠正確區(qū)分大多數(shù)病毒類別,對于形狀相似的病毒可能會(huì)產(chǎn)生少量的混淆。
圖3 混淆矩陣Figure 3 The confusion matrix
此外,本小節(jié)利用二維t-分布隨機(jī)鄰域嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)圖來可視化網(wǎng)絡(luò)學(xué)習(xí)到的特征。該方法通過對高維特征表示的降維和可視化來展示高維特征在低維空間的分布,從而驗(yàn)證了方法的特征提取能力。EGCN和對比算法的結(jié)果顯示,幾種傳統(tǒng)網(wǎng)絡(luò)的效果相對較差,RMAN模型可以清晰地分離出各種樣本,但仍然不如EGCN模型具有更好的特征分離度,見圖4。綜上,本文提出的EGCN方法在病毒形態(tài)識(shí)別問題上有很好的效果。
圖4 t-SNE可視化效果圖Figure 4 The t-SNE plots of our method and comparison algorithms
3.4 結(jié)果分析 圖5顯示了損失函數(shù)中平衡參數(shù)的影響。圖5(a)表明輔助交叉熵?fù)p失(Lca)的正則化作用可以幫助模型收斂到局部最優(yōu)。相比之下,較弱的約束會(huì)導(dǎo)致算法過分關(guān)注樣本的局部信息,影響方法的優(yōu)化效果。另外,圖修正損失對模型影響較小,當(dāng)λ2為1時(shí),top-1錯(cuò)誤率最低。最后,對比損失幫助EGCN從另一個(gè)角度提取訓(xùn)練集的樣本信息,其最優(yōu)平衡參數(shù)值為0.3。
圖5 損失函數(shù)中平衡參數(shù) 對EGCN算法的影響Figure 5 The influence of balance parameters in loss function on our EGCN algorithm
為了驗(yàn)證EGCN算法中每個(gè)模塊對病毒識(shí)別任務(wù)的貢獻(xiàn),本節(jié)設(shè)計(jì)了一系列的消融實(shí)驗(yàn),結(jié)果如表4所示。首先,本節(jié)提供了一種無數(shù)據(jù)增強(qiáng)的算法,并證明其正則化效果可以使EGCN的錯(cuò)誤率降低0.77%。之后去掉了GCN模塊,直接使用CNN特征進(jìn)行病毒識(shí)別,以驗(yàn)證EGCN中GCN部分的效果。結(jié)果表明,能夠整合樣本間信息的GCN使錯(cuò)誤率降低了8.87%。另外,去掉了超分類技巧來驗(yàn)證這部分在算法中的貢獻(xiàn)。這證明了該超分類方法提高了EGCN模型提取圖像全局表示的能力,降低了0.56%的錯(cuò)誤率。最后,本部分驗(yàn)證了圖歸一化方法,結(jié)果表明,歸一化圖有效地防止了梯度爆炸的問題,降低了29.14%的top-1錯(cuò)誤率。
表4 EGCN方法的消融實(shí)驗(yàn)結(jié)果Figure 4 Ablation experimental results of EGCN method.
本文針對多種病毒形態(tài)分類任務(wù),設(shè)計(jì)了EGCN進(jìn)行病毒TEM圖像分類特征的學(xué)習(xí)和樣本關(guān)系的挖掘,結(jié)合超分類損失提高模型的鑒別能力,達(dá)到了3.4%的top-1錯(cuò)誤率,1.88%的top-2錯(cuò)誤率,并且獲得了96.65%的精確度和96.6%的召回率。對于病毒形態(tài)分類任務(wù),已有相關(guān)文獻(xiàn)展開過研究,比如文獻(xiàn)[28]對電子圖像中的自動(dòng)病毒鑒別任務(wù)設(shè)計(jì)了深度學(xué)習(xí)算法,結(jié)合病毒的形態(tài)屬性和網(wǎng)絡(luò)的損失函數(shù)來對SRS、MERS、HIV和COVID-19四種病毒進(jìn)行分類識(shí)別;文獻(xiàn)[29]通過引入CNN來檢測和識(shí)別病毒,實(shí)現(xiàn)數(shù)據(jù)標(biāo)注、樣本成像和圖像增強(qiáng),并提高模型的運(yùn)行速度,取得了不錯(cuò)的研究進(jìn)展。與上述相關(guān)文獻(xiàn)相比,本文模型主要針對類別相似性較高的病毒種類識(shí)別,并設(shè)計(jì)了超分類損失來促進(jìn)網(wǎng)絡(luò)對類別之間差異特征的學(xué)習(xí),重點(diǎn)解決了多種病毒分類的復(fù)雜任務(wù)。
雖然本方法可以有效解決病毒類別分類問題,但在模型訓(xùn)練過程中需要大量標(biāo)注樣本,在實(shí)際應(yīng)用中TEM病毒圖像的標(biāo)注工作十分復(fù)雜,且耗時(shí)、耗力。本文提出的EGCN在無標(biāo)記數(shù)據(jù)或者標(biāo)記樣本較少的情況下效果如何有待進(jìn)一步驗(yàn)證。在未來的研究中,將重點(diǎn)研究半監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)在病毒分類問題中的應(yīng)用問題,以便能夠在無標(biāo)記樣本或標(biāo)記樣本較少的情況下達(dá)到較好的病毒形態(tài)分類的效果。
針對電子顯微鏡下的病毒形態(tài)識(shí)別,本文提出了一個(gè)改進(jìn)的EGCN來解決病毒形態(tài)分類問題。該方法首先采用CNN提取原始圖像的特征,然后采用KNN建圖方法連接相關(guān)樣本構(gòu)建圖結(jié)構(gòu)關(guān)系,最后將圖結(jié)構(gòu)與提取的CNN特征相結(jié)合,輸入超分類GCN進(jìn)行最終的病毒形態(tài)分類。實(shí)驗(yàn)結(jié)果表明,EGCN在病毒識(shí)別方面優(yōu)于所有的對比方法,提高了識(shí)別準(zhǔn)確率。從理論和實(shí)際應(yīng)用的角度均綜合驗(yàn)證了EGCN對于病毒形態(tài)識(shí)別的重要應(yīng)用價(jià)值和研究意義,對病毒傳播過程中的早期診斷具有重要的實(shí)際應(yīng)用潛力。
作者貢獻(xiàn):哈艷、孟翔杰進(jìn)行文章的構(gòu)思與設(shè)計(jì),研究的實(shí)施與可行性分析,數(shù)據(jù)整理;哈艷、田俊峰進(jìn)行數(shù)據(jù)收集,論文的修訂,結(jié)果的分析與解釋;孟翔杰進(jìn)行統(tǒng)計(jì)學(xué)處理;田俊峰撰寫論文,對文章整體負(fù)責(zé),監(jiān)督管理;哈艷負(fù)責(zé)文章的質(zhì)量控制及審校。
本文無利益沖突。