汪琳琳 施俊 韓振奇 劉立莊
乳腺癌是女性的高發(fā)疾病之一,其發(fā)病率和死亡率均占女性惡性腫瘤的首位[1]。乳腺癌的精確診斷對后續(xù)治療具有重要意義。組織病理學(xué)診斷被認(rèn)為是腫瘤診斷的“金標(biāo)準(zhǔn)”[2]。組織中的細(xì)胞結(jié)構(gòu)和空間分布存在著潛在的關(guān)系[3],發(fā)生病變的組織在形態(tài)、細(xì)胞空間分布等方面與正常組織存在明顯的區(qū)別[4]。組織結(jié)構(gòu)之間的形態(tài)變化、相鄰關(guān)系和空間分布等因素對于疾病診斷也具有重要作用[5]。在臨床診斷中,病理醫(yī)生通過觀察細(xì)胞的形態(tài)和分布進(jìn)行診斷[6]費(fèi)時(shí)、費(fèi)力,并且診斷結(jié)果容易受到病理醫(yī)生經(jīng)驗(yàn)和知識水平等主觀因素影響。使用計(jì)算機(jī)輔助診斷(computer-aided diagnosis,CAD)對病理圖像進(jìn)行分析診斷,能夠?yàn)獒t(yī)生提供更加客觀、可靠的診斷結(jié)果[6-7]。
以卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)為代表的深度學(xué)習(xí)方法廣泛應(yīng)用于病理圖像分析[8-10]。CNN通過層次化的深層結(jié)構(gòu)來學(xué)習(xí)特征,具有強(qiáng)大的抽象特征學(xué)習(xí)和表達(dá)能力[9]。由于卷積核具有局部感知和權(quán)重共享的特點(diǎn),CNN能較好地表達(dá)局部的特征[8]。目前基于CNN的病理圖像分類方法大多側(cè)重于局部特征的表達(dá)[11-15],然后組合局部特征得到圖像的全局特征。但是CNN沒有足夠的上下文感知能力,也無法有效捕捉到組織細(xì)胞間的空間關(guān)系。
圖論(graph theory)被廣泛用于表示拓?fù)浣Y(jié)構(gòu),利用圖論對病理圖像建模,可以準(zhǔn)確捕捉細(xì)胞組織間的空間關(guān)系[3,5]。圖卷積網(wǎng)絡(luò)(graph convolution network,GCN)是一種對圖結(jié)構(gòu)進(jìn)行卷積運(yùn)算的有效方法[16],在多種圖任務(wù)中取得良好性能[17]。GCN主要分為基于空域和基于頻域(譜)的方法[17-18]。前者通過定義聚合函數(shù)聚合自身節(jié)點(diǎn)與鄰節(jié)點(diǎn)信息,代表算法有GraphSAGE[19]、EdgeConv[20]等;后者基于圖譜理論在譜空間定義卷積,代表算法有ChebNet[21]、GCN[16]等。
近年來,學(xué)者們已經(jīng)開始探索GCN在病理圖像上的應(yīng)用。例如,Zhou等[22]提出一種基于GCN的細(xì)胞圖網(wǎng)絡(luò)對結(jié)直腸癌分級;Wang等[23]提出一種基于GCN的弱監(jiān)督方法對前列腺組織切片分級。上述兩個(gè)工作都是先分割出病理圖像的細(xì)胞核并提取細(xì)胞核的外觀特征,然后構(gòu)建以細(xì)胞核為節(jié)點(diǎn)、細(xì)胞核間的空間關(guān)系為邊的細(xì)胞圖[3],最后對細(xì)胞圖進(jìn)行圖像級分類。這種方法比較精細(xì),能較好地模擬組織微環(huán)境中的復(fù)雜結(jié)構(gòu),但是處理時(shí)比較復(fù)雜,并且使用大量細(xì)胞核為節(jié)點(diǎn),構(gòu)建的細(xì)胞圖規(guī)模較大,需要很大的計(jì)算開銷。
在全切片圖像(whole slide image,WSI)上,常利用圖像子塊(patch)構(gòu)建圖。Li等[24]提出一種具有注意學(xué)習(xí)機(jī)制的GCN,對肺癌和腦癌WSI進(jìn)行生存分析;Adnan等[25]提出一種GCN結(jié)合多示例學(xué)習(xí)(multiple instance learning,MIL)的方法對肺癌亞型進(jìn)行分類。上述兩個(gè)工作都從WSI中采樣具有代表性的圖像子塊,然后將子塊表示為節(jié)點(diǎn),再根據(jù)子塊節(jié)點(diǎn)之間的空間關(guān)系生成邊,構(gòu)建WSI上的圖結(jié)構(gòu),最后通過GCN對圖結(jié)構(gòu)進(jìn)行處理。這種基于子塊構(gòu)圖的方法能較好地縮小圖的規(guī)模,平衡好效率和計(jì)算開銷,但如何選擇子塊作為節(jié)點(diǎn)需要一定的先驗(yàn)知識,圖像子塊的數(shù)目和位置都會(huì)對結(jié)果產(chǎn)生一定影響。已有研究[22-25]表明通過GCN的方法可以有效利用病理圖像中細(xì)胞組織間的空間關(guān)系,為分類提供有意義的空間結(jié)構(gòu)特征,但算法性能仍有進(jìn)一步提升的空間。
針對CNN具有良好的局部特征表達(dá)能力但空間感知能力不足,而圖結(jié)構(gòu)能較好地彌補(bǔ)這種缺憾的特點(diǎn),本文提出一種結(jié)合CNN與GCN的深度神經(jīng)網(wǎng)絡(luò)框架,應(yīng)用于乳腺病理圖像分類。將病理圖像上不重疊的子塊特征表示為節(jié)點(diǎn),根據(jù)子塊特征的距離生成邊,簡單有效地實(shí)現(xiàn)圖網(wǎng)絡(luò)構(gòu)建。
本文提出一種結(jié)合CNN與GCN網(wǎng)絡(luò)的CNN-GCN-fusion融合框架,其總體流程如圖1所示,主要包含3個(gè)部分:用于提取特征的CNN模塊、用于捕捉空間結(jié)構(gòu)關(guān)系的GCN模塊、特征融合分類模塊。在該框架下,可以使用多種GCN算法,本文采用文獻(xiàn)[16]中的譜卷積(為與廣義GCN區(qū)別,記為sGCN)算法。具體步驟如下。
圖1 CNN-GCN-fusion框架總體流程Figure 1 Overview of the CNN-GCN-fusion framwork
(1) 使用CNN對乳腺病理圖像進(jìn)行特征提取及下采樣,得到一組具有抽象語義的特征圖。
(2) 將特征圖上同一個(gè)像素位置的特征向量表示為一個(gè)節(jié)點(diǎn),通過K最近鄰(k-nearest neighbor,KNN)算法[26]尋找最鄰近的其他節(jié)點(diǎn),在這些節(jié)點(diǎn)之間形成邊,將特征圖表示為圖。
(3) 通過sGCN對構(gòu)建的圖進(jìn)一步特征映射,得到圖上的空間結(jié)構(gòu)特征。
(4) 將CNN得到的特征圖進(jìn)行全局池化,與sGCN得到的空間結(jié)構(gòu)特征融合。
(5) 將融合后的特征通過分類器分類,對整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練及反饋調(diào)參,得到CNN-sGCN-fusion模型。
CNN網(wǎng)絡(luò)通常由輸入層、卷積層、池化層、全連接層組成[8]。輸入一般為RGB圖像,然后通過卷積核提取局部特征,由池化層進(jìn)行下采樣縮小特征圖的尺寸,并由激活函數(shù)增強(qiáng)網(wǎng)絡(luò)的非線性表達(dá)能力。經(jīng)過多層的卷積和池化操作后,輸入圖像由低層特征到高層特征逐步學(xué)習(xí),得到一組由多個(gè)特征映射疊加成的特征圖,在全連接層組合局部特征得到高表達(dá)能力的全局特征。CNN網(wǎng)絡(luò)經(jīng)常使用預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練。與從頭開始訓(xùn)練的模型相比,預(yù)訓(xùn)練網(wǎng)絡(luò)能更快地提取通用特征,并且在一定程度上減少過擬合,增強(qiáng)泛化能力[27]。
ResNet通過跳躍連接的方式克服了CNN網(wǎng)絡(luò)隨著網(wǎng)絡(luò)層數(shù)加深帶來的梯度消失問題[28]。本文選擇了代表性的ResNet18網(wǎng)絡(luò)進(jìn)行后續(xù)網(wǎng)絡(luò)的構(gòu)建。ResNet18網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示,共18層,由4個(gè)具有不同通道數(shù)的殘差塊(residual block)組成。隨著通道數(shù)的加深及下采樣,逐漸從低層特征中提取出高級特征。本文在預(yù)訓(xùn)練ResNet18的基礎(chǔ)上進(jìn)行微調(diào):保留4個(gè)殘差塊,去掉特定的分類任務(wù)部分(即平均池化層和全連接層)。將病理圖像輸入微調(diào)的網(wǎng)絡(luò)結(jié)構(gòu)中,得到一組由512個(gè)通道特征堆疊成的特征圖。
圖2 ResNet18網(wǎng)絡(luò)結(jié)構(gòu)Figure 2 Network structure of ResNet18
1.3.1 GCN原理
不同于CNN在二維矩陣等規(guī)則的歐氏空間中進(jìn)行卷積運(yùn)算,GCN將卷積運(yùn)算推廣到了具有圖結(jié)構(gòu)的非歐氏數(shù)據(jù)。GCN將圖結(jié)構(gòu)作為輸入,通過對圖中每個(gè)節(jié)點(diǎn)的鄰節(jié)點(diǎn)進(jìn)行圖卷積運(yùn)算得到新的節(jié)點(diǎn)表示,然后對所有節(jié)點(diǎn)進(jìn)行池化,能夠得到整個(gè)圖的表示。
空域GCN通過聚合函數(shù)從鄰節(jié)點(diǎn)聚合特征來更新當(dāng)前節(jié)點(diǎn)的特征,聚合函數(shù)可以有多種形式,如平均聚合,最大池化聚合,LSTM聚合等[19]。頻域GCN(sGCN)基于圖譜理論,利用圖傅里葉變換,先將空域上的節(jié)點(diǎn)特征和卷積核轉(zhuǎn)換到頻域,然后在頻域中相乘,再通過傅里葉反變換轉(zhuǎn)換回空域。sGCN對頻域的卷積核進(jìn)行一階切比雪夫近似,簡化了計(jì)算復(fù)雜度[16]。
將一個(gè)包含N個(gè)節(jié)點(diǎn)的無向圖定義為G=(V,E),其中vi∈V表示節(jié)點(diǎn),ei,j=(i,j)∈E表示兩個(gè)節(jié)點(diǎn)之間的邊。兩兩節(jié)點(diǎn)之間的關(guān)系用一個(gè)鄰接矩陣A∈RN×N表示,如果兩個(gè)節(jié)點(diǎn)之間存在邊連接,則Aij>0。假定每個(gè)節(jié)點(diǎn)包含D維特征,將這些特征表示為一個(gè)N×D維的矩陣X,則X∈RN×D。
譜圖卷積可以定義為式(1):
xGg=F-1[F(x)·F(g)]
(1)
式中:x表示節(jié)點(diǎn)特征;Gg表示頻域卷積核;F()表示傅里葉變換;F-1()表示傅里葉逆變換;·表示點(diǎn)乘。
拉普拉斯矩陣L可進(jìn)行譜分解:
L=UΛU-1
(2)
式中:U是特征向量組成的正交矩陣;Λ是特征值對角矩陣。將U作為圖傅里葉變換的基函數(shù),式(1)可表示為式(3):
xGg=U(UTx·UTg)
(3)
令gθ=diag(UTg),式(3)等價(jià)為式(4):
xGg=UgθUTx
(4)
為簡化計(jì)算,使用一階切比雪夫多項(xiàng)式來近似表示卷積核Gg:
(5)
(6)
一個(gè)多層的sGCN最終表示為式(7):
(7)
式中:H(l)∈RN×dl表示第l層的節(jié)點(diǎn)特征;H(l+1)∈RN×dl+1表示第l+1層更新的節(jié)點(diǎn)特征。輸入層的特征為H(0)=X。W(l)∈Rdl×dl+1是每一層中的可訓(xùn)練權(quán)重,表示激活函數(shù)σ(),本文采用ReLU函數(shù)。
因此,只要知道輸入特征X與鄰接矩陣A,就可以計(jì)算出更新的節(jié)點(diǎn)特征。實(shí)際上,譜圖卷積運(yùn)算是將每個(gè)節(jié)點(diǎn)的特征與其鄰節(jié)點(diǎn)的特征加權(quán)后傳播到下一層中。隨著層數(shù)的加深,每個(gè)節(jié)點(diǎn)能聚合到更遠(yuǎn)鄰節(jié)點(diǎn)的特征,感受野越大。但堆疊多個(gè)層會(huì)使得反向傳播過于平滑,導(dǎo)致梯度消失,sGCN一般不超過4層[29]。
1.3.2 圖構(gòu)建
經(jīng)過多層卷積后的多通道特征圖包含了高級的語義特征,多通道特征圖可以看作是輸入圖像的高維特征表示;特征圖上一個(gè)像素位置的特征向量可以表示為輸入圖像對應(yīng)子塊的特征。因此,在特征圖上構(gòu)圖并將不同像素位置的特征向量當(dāng)作節(jié)點(diǎn),實(shí)際上是對輸入圖像對應(yīng)位置的不重疊子塊之間構(gòu)圖,可以充分捕捉子塊之間的空間關(guān)系。
本研究將ResNet得到的特征圖表示為X,X上每個(gè)像素位置定義為一個(gè)節(jié)點(diǎn)Xi,其沿著通道方向的512維特征向量為該節(jié)點(diǎn)的初始特征,即Xi∈RN×512。其中N為節(jié)點(diǎn)個(gè)數(shù),512為節(jié)點(diǎn)特征維數(shù)。邊定義為兩個(gè)節(jié)點(diǎn)之間的潛在相互作用,假設(shè)距離越小的節(jié)點(diǎn)越容易產(chǎn)生相互作用。如果兩個(gè)節(jié)點(diǎn)之間的距離在一定范圍內(nèi),則在這兩個(gè)節(jié)點(diǎn)之間生成一條邊。本文采用式(8)中定義的歐氏距離,首先計(jì)算所有節(jié)點(diǎn)兩兩之間的相關(guān)性dis(Xi,Xj),得到距離矩陣Dis∈RN×N,然后根據(jù)KNN算法對Dis從小到大排序,選出每個(gè)節(jié)點(diǎn)距離其最近的K個(gè)節(jié)點(diǎn)作為鄰節(jié)點(diǎn),并在這些節(jié)點(diǎn)之間生成邊,由此得到圖的結(jié)構(gòu)。
(8)
鄰接矩陣A∈RN×N定義為式(9):
(9)
將特征圖X與鄰接矩陣A根據(jù)式(7)進(jìn)行譜圖卷積運(yùn)算,得到新的節(jié)點(diǎn)表示。本研究設(shè)置了3層圖卷積層,對每個(gè)節(jié)點(diǎn)的特征再次表達(dá),得到具有空間結(jié)構(gòu)信息的特征表示。
為了更好地利用乳腺病理圖像的信息,本研究將全局特征與空間結(jié)構(gòu)特征相融合。首先將ResNet的特征圖進(jìn)行全局平均池化,得到512維特征向量,代表了輸入圖像的全局特征。經(jīng)過3層sGCN的節(jié)點(diǎn)特征仍然保持著N個(gè)節(jié)點(diǎn)之間的連接,為了對整個(gè)圖進(jìn)行分類,本文對N個(gè)節(jié)點(diǎn)特征進(jìn)行全局平均池化,通過一個(gè)全局節(jié)點(diǎn)特征來代表整個(gè)圖的節(jié)點(diǎn)信息。然后將這個(gè)全局節(jié)點(diǎn)的特征拉伸成64維的特征向量,與512維的全局特征拼接融合,得到576維特征向量。再將融合的特征通過2個(gè)全連接層進(jìn)一步映射,通過softmax分類器計(jì)算每一類的分類概率,最后利用交叉熵?fù)p失(cross-entropy loss)函數(shù)訓(xùn)練整個(gè)網(wǎng)絡(luò)。
在訓(xùn)練過程中,通過反向傳播進(jìn)行參數(shù)的更新。在網(wǎng)絡(luò)前向傳播時(shí),對CNN模塊進(jìn)行ImageNet預(yù)訓(xùn)練參數(shù)初始化,GCN模塊隨機(jī)初始化,然后在迭代訓(xùn)練中根據(jù)損失梯度下降方向反向調(diào)整各層參數(shù),直至損失收斂。在本文的網(wǎng)絡(luò)框架中,由于直接對ResNet得到的特征圖進(jìn)行圖卷積運(yùn)算,再通過分類器進(jìn)行分類,整個(gè)過程是端到端的,因此在反饋調(diào)參時(shí),同時(shí)對CNN模塊、GCN模塊、分類模塊的參數(shù)進(jìn)行了更新。隨著參數(shù)更新,CNN的特征值得到調(diào)整,同時(shí)圖的結(jié)構(gòu)也得到微調(diào)和優(yōu)化。
為了驗(yàn)證所提出方法的有效性,本研究在2個(gè)公開數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),分別為2015生物成像挑戰(zhàn)賽(簡稱2015挑戰(zhàn)賽)公開的乳腺組織數(shù)據(jù)集[12]和Databiox公開的乳腺組織數(shù)據(jù)集[30]。
2015挑戰(zhàn)賽數(shù)據(jù)集由249張訓(xùn)練圖像和20張測試圖像組成,包含4類乳腺病理圖像:正常組織、良性病變、原位癌和浸潤癌,每一類數(shù)據(jù)是均衡的。圖像由HE染色,具有高分辨率(2 048×1 536像素)。所有圖像在相同的采集條件下數(shù)字化,尺寸為0.42 μm×0.42 μm,放大200倍。這些圖像由兩位有經(jīng)驗(yàn)的病理學(xué)專家進(jìn)行標(biāo)記,并丟棄有歧義的圖像。數(shù)據(jù)集可在https://rdm.inesctec.pt/dataset/nis-2017-003上公開獲得,每類圖像的形態(tài)如圖3所示。
圖3 2015挑戰(zhàn)賽數(shù)據(jù)集的4種乳腺癌類型Figure 3 Four types of breast cancer in Bioimaging Challenge 2015 Breast Histology Dataset
Databiox數(shù)據(jù)集共由922張圖像組成,通過對124例浸潤性導(dǎo)管癌(invasive ductal carcinomas,IDC)患者的乳腺腫瘤組織采用不同放大倍數(shù)(4×,10×,20×,40×)得到,根據(jù)分化程度分為3個(gè)級別。本研究選擇40×放大數(shù)據(jù)進(jìn)行實(shí)驗(yàn),并將圖像裁剪成2 048×1 536像素以去除周圍非組織區(qū)域。數(shù)據(jù)集在http://databiox.com上公開獲得,40×放大下的圖像形態(tài)如圖4所示。
圖4 40×浸潤性導(dǎo)管癌分級 Figure 4 Grading invasive ductal carcinomas in 40×
與自然圖像相比,病理圖像更難獲得,數(shù)據(jù)集樣本量較少,容易使網(wǎng)絡(luò)過擬合。病理圖像分類問題是旋轉(zhuǎn)不變的,病理醫(yī)生可以從不同的方向進(jìn)行診斷,而不會(huì)影響診斷結(jié)果[12]。旋轉(zhuǎn)和鏡像在不降低數(shù)據(jù)集質(zhì)量的情況下可以增加數(shù)據(jù)集的大小,讓數(shù)據(jù)集盡可能地多樣化,使得訓(xùn)練的模型具有更強(qiáng)的泛化能力。本研究對2個(gè)數(shù)據(jù)集的數(shù)據(jù)均進(jìn)行了增強(qiáng),通過旋轉(zhuǎn)不同角度(90°,180°,270°)和水平翻轉(zhuǎn)來擴(kuò)充數(shù)據(jù)。然后減去RGB 3個(gè)通道的平均值,并除以標(biāo)準(zhǔn)差,將RGB通道的值歸一化到-1~1之間[31]。
本文所提出的CNN-sGCN-fusion算法與以下4個(gè)算法進(jìn)行對比。
(1) ResNet20:在ResNet18的4個(gè)殘差塊后增加3層卷積,共包含20層卷積,將該算法作為基準(zhǔn)對比。
(2) CNN-GraphSAGE:GraphSAGE[19]是一種通用的歸納式空域GCN算法,可通過平均聚合函數(shù)聚合鄰節(jié)點(diǎn)特征。平均聚合函數(shù)求取當(dāng)前節(jié)點(diǎn)與鄰節(jié)點(diǎn)的均值來更新當(dāng)前節(jié)點(diǎn)的特征。由GraphSAGE提取圖上的空間特征分類,不進(jìn)行特征的融合。
(3) CNN-EdgeConv:EdgeConv[20]是一種通過對稱聚合鄰節(jié)點(diǎn)特征的空域GCN算法。聚合函數(shù)通過拼接當(dāng)前節(jié)點(diǎn)與鄰節(jié)點(diǎn)的差值來更新當(dāng)前節(jié)點(diǎn)的特征。由EdgeConv提取圖上的空間特征分類,不進(jìn)行特征的融合。
(4) CNN-sGCN:由sGCN[16]提取圖上的空間特征分類,不進(jìn)行特征的融合。
對所有算法使用相同的數(shù)據(jù),進(jìn)行5折交叉驗(yàn)證,最后取5次實(shí)驗(yàn)的平均值,并計(jì)算方差。由于2個(gè)數(shù)據(jù)集都是多分類問題,使用分類準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1分?jǐn)?shù)作為評價(jià)指標(biāo)。
本文提出的CNN-sGCN-fusion算法通過預(yù)訓(xùn)練ResNet18獲得特征圖,4個(gè)殘差塊輸出通道分別為64、128、256、512。鄰節(jié)點(diǎn)數(shù)從2、4、6、8、10、12中選擇,最終確定為8。設(shè)置的3個(gè)圖卷積層,輸出通道分別為256、128、64。2個(gè)全連接層的隱藏節(jié)點(diǎn)數(shù)設(shè)為576、64,為了避免過擬合,設(shè)置全連接隱藏層的droupout為0.5。本研究采用pytorch框架來實(shí)現(xiàn)模型,實(shí)驗(yàn)進(jìn)行100個(gè)epoch,設(shè)置初始學(xué)習(xí)率為0.001,每30個(gè)epoch減小為原來的0.1。將輸入圖像大小調(diào)整為1 024×1 024像素,批大小設(shè)為4,模型采用隨機(jī)梯度下降SGD進(jìn)行反向傳播。為了進(jìn)行公平對比,對其他對比算法設(shè)置相同的網(wǎng)絡(luò)層數(shù),并且超參數(shù)設(shè)置盡可能相同。
2015挑戰(zhàn)賽數(shù)據(jù)集在不同算法中的分類結(jié)果如表1所示??梢园l(fā)現(xiàn)結(jié)合了GCN的算法(CNN-GraphSAGE、CNN-EdgeConv、CNN-sGCN)相比于ResNet20在各個(gè)指標(biāo)上均有提高,這表明這種構(gòu)圖方法是有效的,利用圖的拓?fù)浣Y(jié)構(gòu)將病理圖像中的空間結(jié)構(gòu)關(guān)系考慮進(jìn)來更有利于分類。CNN-GraphSAGE與CNN-EdgeConv的性能相差不大,基于譜圖卷積的CNN-sGCN算法性能略高于兩種基于空域的GCN算法。因此在CNN-sGCN的基礎(chǔ)上再融合病理圖像的全局特征。本文提出的算法CNN-sGCN-fusion在準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)上均獲得最高的結(jié)果,分別為93.53%±1.80%、93.88%±1.78%、93.69%±1.70%、93.63%±1.83%,相比于ResNet20分別提高3.32%、3.04%、2.89%、3.10%。該結(jié)果表明將病理圖像的全局特征信息與空間結(jié)構(gòu)特征相結(jié)合可進(jìn)一步提升分類性能。
此外,本文還分析了在CNN-sGCN-fusion算法下不同鄰節(jié)點(diǎn)個(gè)數(shù)K對分類結(jié)果的影響。2015挑戰(zhàn)賽數(shù)據(jù)集中不同鄰節(jié)點(diǎn)個(gè)數(shù)下的分類結(jié)果如表2所示??梢园l(fā)現(xiàn),隨著鄰節(jié)點(diǎn)數(shù)的增長,分類準(zhǔn)確率呈先上升后下降的趨勢,當(dāng)鄰節(jié)點(diǎn)數(shù)(包括自身節(jié)點(diǎn))為8時(shí),達(dá)到最高的準(zhǔn)確率。當(dāng)鄰節(jié)點(diǎn)較少時(shí),病理圖像的空間關(guān)系還不能很好地表達(dá),當(dāng)鄰節(jié)點(diǎn)過多時(shí),造成冗余或?qū)⑾嚓P(guān)性不是特別大的節(jié)點(diǎn)特征聚合過來,導(dǎo)致準(zhǔn)確率下降。
表1 2015挑戰(zhàn)賽數(shù)據(jù)集在不同算法中的分類結(jié)果(單位:%)Table 1 Classification results of different algorithms in Bioimaging Challenge 2015 Breast Histology Dataset (unit:%)
表2 2015挑戰(zhàn)賽數(shù)據(jù)集在CNN-sGCN-fusion算法下不同鄰節(jié)點(diǎn)數(shù)的分類結(jié)果(單位:%) Table 2 Classification results of the different number of neighbor nodes in Bioimaging Challenge 2015 Breast Histology Dataset under CNN-sGCN-fusion algorithm (unit:%)
在Databiox數(shù)據(jù)集上,不同算法的分類結(jié)果如表3所示。雖然不同級別的IDC在顏色、細(xì)胞形態(tài)中具有很大的相似性,增加了分級的難度,但仍然可以發(fā)現(xiàn)結(jié)合GCN的算法在分類性能上高于ResNet20,譜圖卷積算法略高于其他兩種空域圖卷積模型。其中結(jié)合了全局特征和空間結(jié)構(gòu)特征的CNN-sGCN-fusion算法具有最高的分類性能,在準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)上分別為78.47%±5.33%、79.07%±5.28%、79.00%±4.60%、78.69%±5.17%,相比于ResNet20分別提高了2.19%、1.88%、2.15%、2.29%。
表3 Databiox數(shù)據(jù)集在不同算法中分類結(jié)果(單位:%)Table 3 Classification results of different algorithms in Databiox dataset (unit:%)
Databiox數(shù)據(jù)集在CNN-sGCN-fusion算法下由不同鄰節(jié)點(diǎn)個(gè)數(shù)K得到的分類結(jié)果如表4所示。隨著鄰節(jié)點(diǎn)數(shù)的增長,分類準(zhǔn)確率呈現(xiàn)先增長后下降的趨勢,在鄰節(jié)點(diǎn)數(shù)為8時(shí),達(dá)到最高的準(zhǔn)確率。
表4 Databiox數(shù)據(jù)集在CNN-sGCN-fusion算法下不同鄰節(jié)點(diǎn)數(shù)的分類結(jié)果(單位:%)Table 4 Cassification results of the different number of neighbor nodes in Databiox dataset under CNN-sGCN-fusion algorithm (unit:%)
針對CNN無法很好表示高分辨率乳腺病理圖像組織細(xì)胞間的空間關(guān)系問題,本文提出一種結(jié)合CNN與GCN的病理圖像分類框架,通過圖的拓?fù)浣Y(jié)構(gòu)來表示圖像子塊間的關(guān)系,從而有效提取病理圖像中隱含的空間結(jié)構(gòu)信息。在對比實(shí)驗(yàn)中,通過替換不同的GCN算法,發(fā)現(xiàn)所有結(jié)合了GCN的算法在性能上都有所提升。其中基于譜圖卷積的sGCN算法略高于兩種基于空域的GCN算法,這是由于上述兩種空域圖卷積的聚合函數(shù)采用了較為簡單的聚合方式。這在一定程度上會(huì)縮小節(jié)點(diǎn)之間的差異,使得經(jīng)過多層圖卷積后,不同節(jié)點(diǎn)的特征趨于同質(zhì)化。而譜圖卷積通過拉普拉斯算子進(jìn)行圖傅里葉變換,根據(jù)分解的特征值計(jì)算,低特征值對應(yīng)的特征向量變化比較平滑,高特征值對應(yīng)的特征向量變化比較劇烈,在一定程度上保持甚至放大了節(jié)點(diǎn)之間的差異。
相比于細(xì)胞圖方法,本文方法避免了細(xì)胞分割及細(xì)胞核特征提取等一系列復(fù)雜的操作,利用特征圖上的像素特征向量代表原始病理圖像的子塊,在一定程度上簡化了圖。相比于通過提取子塊的圖構(gòu)建方法,本文方法不需要先驗(yàn)知識,并且充分利用所有子塊位置的特征,避免了采樣不足或選取的位置不具代表性而造成的問題。本文提出的通過特征圖構(gòu)圖的方法相對簡單,并且在分類準(zhǔn)確率上比傳統(tǒng)CNN方法有所提高。對于細(xì)胞組織之間存在較強(qiáng)空間相關(guān)性的病理圖像來說,具有一定的研究意義和臨床應(yīng)用價(jià)值。
下一步工作將考慮在特征圖上加入注意力機(jī)制,選擇更有代表意義的位置作為節(jié)點(diǎn),并對鄰節(jié)點(diǎn)分配不同的權(quán)重;同時(shí)考慮對圖結(jié)構(gòu)進(jìn)行分層池化,逐步減小圖的規(guī)模,降低圖結(jié)構(gòu)信息的損失。
本文提出一種結(jié)合CNN與GCN的病理圖像分類框架,應(yīng)用于乳腺病理圖像輔助診斷。通過圖的構(gòu)建,獲得病理圖像內(nèi)部細(xì)胞組織間的空間分布關(guān)系,為分類提供有意義的特征。并進(jìn)一步將空間結(jié)構(gòu)特征與全局特征融合,使特征表達(dá)更加豐富。在兩個(gè)公開乳腺癌數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),算法分別獲得93.53%±1.80%和78.47%±5.33%的分類準(zhǔn)確率,優(yōu)于同類算法,證明了其有效性。實(shí)驗(yàn)表明,通過圖卷積網(wǎng)絡(luò)將病理圖像的空間結(jié)構(gòu)特征與全局特征融合,有利于分類結(jié)果的提升,具有一定的研究意義和臨床應(yīng)用價(jià)值。