汪 昊,孫中杰,陳 東,萬 濤,梁智勇,連國亮,董 方,龔珊珊,季君予,秦曾昌
1中國醫(yī)學科學院北京協(xié)和醫(yī)院病理科,北京 100730 2首都醫(yī)科大學附屬北京安貞醫(yī)院病理科,北京 100029 北京航空航天大學 3生物與醫(yī)學工程學院 北京航空航天大學生物醫(yī)學工程高精尖創(chuàng)新中心 4自動化科學與電器工程學院,北京 100191
胸主動脈瘤及夾層(thoracic aortic aneurysm and thoracic aortic dissection,TAA/TAD)是最復雜、最危重的心血管疾病之一[1],此類疾病的臨床表現(xiàn)特異性差,常被誤診為心肌梗死而錯失搶救時間,明確病因、及時診斷以及手術(shù)干預是提高TAA/TAD患者生存率的關(guān)鍵。結(jié)合臨床特點及術(shù)后標本病理學表現(xiàn),有利于分析此類疾病的發(fā)生機制及影響因素。因此,準確的病理診斷結(jié)果對TAA/TAD的病因?qū)W研究具有重要意義。
中膜變性(medial degeneration,MD)是TAA/TAD的主要病理改變。心血管病理學會及歐洲心血管病理協(xié)會制訂的共識(2016版)[2]對于非炎性主動脈病變提出了統(tǒng)一診斷方案,并根據(jù)MD分類及病變程度明確了分級標準。在上述診斷標準中,MD包括層內(nèi)型黏液樣細胞外基質(zhì)聚集(intralamellar mucoid extracellular matrix accumulation,MEMA-I)、穿透型黏液樣細胞外基質(zhì)聚集(translamellar mucoid extra-cellular matrix accumulation,MEMA-T)、彈力纖維斷裂和/或缺失(elastic fiber fragmentation and/or loss,EFFL)、平滑肌細胞核缺失(smooth muscle cell nuclei loss,SMCNL)、層狀中膜崩解(laminar medial collapse,LMC)5個量化指標。常規(guī)診斷方法需病理醫(yī)師于顯微鏡下觀察HE染色切片,并結(jié)合特殊染色及免疫組化染色的病灶性質(zhì)進行輔助評估(圖1),將5個量化指標進行病變程度判定并將所有病變區(qū)域綜合分析,才可得出最終診斷結(jié)果。該診斷方法不僅工作量大、耗時費力,且受主觀因素影響,診斷準確率低且結(jié)果一致性差。計算機輔助診斷(computer-aided diagnosis,CAD)可為MD的評估提供新的診斷途徑。由于LMC繼發(fā)于SMCNL,MD的診斷可進行簡化,僅針對非炎性主動脈組織中的MEMA-I、MEMA-T、EFFL及SMCNL進行分類量化。本團隊在既往研究中,基于CAD技術(shù)已實現(xiàn)了非炎性主動脈MD HE染色病理圖像4分類[3],經(jīng)反復模型調(diào)試與測試,模型整體分類準確率可達98.78%[4]。但該診斷方法在應(yīng)用時仍存在諸多挑戰(zhàn),如僅依靠單一染色圖像對病變范圍及病變間的相互關(guān)系不易把握,進而造成綜合診斷時輔助分級難度大,不利于最終分級軟件的運行與研究等。本研究對既往模型進行優(yōu)化與改進,以解決前期研究中存在的問題。
圖1 同一病變部位5種不同染色的中膜變性病理圖像(×20)
1.1.1 材料
回顧性收集2018年7—12月首都醫(yī)科大學附屬北京安貞醫(yī)院TAA/TAD患者的非炎性主動脈手術(shù)標本病理切片。納入標準:(1)按照國際共識中的標準[2],患者均診斷為TAA/TAD非炎性主動脈病變且均行手術(shù)治療;(2)每組切片均包括HE染色、特殊染色(彈力纖維/VanGieson、Masson、阿辛藍/過碘酸雪夫)及平滑肌肌動蛋白染色5種染色的病理圖像。排除標準:切片質(zhì)量不合格。
1.1.2 分組
采用3D Histech Pannoramic Scan數(shù)字玻片掃描系統(tǒng)以400倍率將病理切片掃描為全視野數(shù)字圖像(whole slide image,WSI)[5]。由2名病理科醫(yī)師依據(jù)共識[2],采用CaseViewer軟件對WSI中的病變進行標注(標注不一致時需經(jīng)另1名高級職稱醫(yī)師進行復核)。將標注后的WSI圖像按6∶1的比例隨機分為訓練集和測試集,分別用于模型訓練與評價。為避免分類偏差,隨機分組時應(yīng)保證訓練集和測試集包含相同的病變類型分布,且2個數(shù)據(jù)集不可同時包含來自同一患者的圖像。
本研究已通過首都醫(yī)科大學附屬北京安貞醫(yī)院倫理審查委員會審批(審批號:2018088X),并豁免患者知情同意。
1.2.1 數(shù)據(jù)增強
在臨床數(shù)據(jù)較為有限的情況下,所標注的圖像數(shù)據(jù)類別常出現(xiàn)不平衡現(xiàn)象。此時,可通過數(shù)據(jù)增強[4]的方式擴大樣本數(shù)據(jù)。本研究通過圖像旋轉(zhuǎn)的方法進行數(shù)據(jù)增強,即將標注后的WSI隨機裁剪后分別旋轉(zhuǎn)60°、90°、180°和270°,可產(chǎn)生5倍的圖像樣本,避免因數(shù)據(jù)過少導致模型過擬合現(xiàn)象。
1.2.2 圖像預處理
1.2.2.1 顏色歸一化
病理切片在取材、制片、圖像掃描等過程中,由于個體組織樣本的差異性、醫(yī)師經(jīng)驗和掃描儀參數(shù)設(shè)定的不同,會造成WSI圖像顯色存在差異。采用基于染色分離的歸一化法[6]可減少圖像的顏色差異,并保留圖像中的關(guān)鍵信息,盡可能保存細胞內(nèi)的結(jié)構(gòu)信息,提升模型的分類性能(圖2)。
圖2 顏色歸一化處理前后的病理圖像比較A.處理前;B.處理后
1.2.2.2 圖像分級配準
由于制片的差異及人工標注的局限性,前期處理所獲取的同一組織相同部位病變的相鄰切面病理圖像不可能完全相同,通過簡單疊加的方式并不能得到所需圖像,因此需通過可變形配準方法將多張不同染色的圖像進行配準。此外,染色病理圖像的尺寸約為9萬×18萬像素(最高分辨率水平),以現(xiàn)有計算機的性能,使用現(xiàn)有的配準算法幾乎無法直接完成圖像配準任務(wù)。因此,本研究提出一種分級配準方法,對低、高分辨率的病理圖像依次進行配準。
在低分辨率水平下,采用基于圖像特征的粗輪廓配準算法,提取基于尺度不變特征變換(scale invari-ant feature transform,SIFT)的圖像特征[7]進行圖像輪廓配準,可保證圖像內(nèi)部細節(jié)不會有較大失真?;赟IFT的算法完成輪廓配準后得到的病灶切面圖像可能存在錯位現(xiàn)象,無法滿足病理圖像信息融合的要求。基于灰度強度的配準算法具有較好的魯棒性,在處理多模態(tài)醫(yī)學圖像的配準中應(yīng)用廣泛。在得到高分辨率水平下的病灶切面圖像后,使用基于灰度強度的配準算法,可實現(xiàn)病灶切面圖像內(nèi)部位置配準。配準過程中,選取的變換模型為仿射變換,配準評價指標為互信息,迭代器為 Adam。
1.2.3 模型設(shè)計
本研究基于SE-EmbraceNet網(wǎng)絡(luò)結(jié)構(gòu),首次構(gòu)建MD多分類模型。該模型可分為3個部分:輸入層、融合層和分類層。輸入層用于提取不同染色病理圖像的特征。融合層中,使用SENet[8]進行特征重標定,并獲取不同染色病理圖像間的融合權(quán)重,實現(xiàn)特征融合。分類層中,引入Dropout機制[9]避免模型對某種染色圖像的過度學習,提高模型的泛化能力,并將最終分類結(jié)果通過Softmax模型輸出。
1.2.3.1 輸入層設(shè)計
SE-EmbraceNet為一個包含5個輸入通道的輕量級分類模型,每個通道結(jié)構(gòu)相同,均由卷積層、池化層及全連接層組成。每個通道分別輸入一種染色的主動脈病理圖像。本研究以x(k)表示第k個輸入通道的輸入向量,其中k∈{1,2,3,4,5}。第k個輸入通道i層的輸出向量可表示為公式(1):
yi(k)=wi(k)·x(k)+bi(k)
(1)
其中wi(k)和bi(k)分別為權(quán)重向量和偏置。yi(k)經(jīng)過激活函數(shù)fa(線性修正單元ReLU或Sigmoid),可得到k個輸入通道的輸出向量,見公式(2):
zi(k)=fa(yi(k))
(2)
其中zk=[z1(k),z2(k),…,z512(k)]T,所有輸出向量(z1,z2,z3,z4,z5)均為512維的向量。
融合層特征圖像的輸入尺寸為5×1×512。通過SENet模塊可進行圖像特征融合,具體算法設(shè)計參照合作單位前期研究成果[10]。在模型訓練過程中,SENet模型引入了注意力機制,可自動對染色通道進行判定,提升有診斷價值染色通道的權(quán)重,并降低對病理診斷意義不大的染色通道的權(quán)重,即“特征重標定”策略。具體過程包括三個步驟。
步驟一,為獲取某種染色病理圖像的全局特征,采用全局平均池化層進行特征圖處理,計算方法見公式(3):
(3)
其中,h和w分別為輸入通道池化層中特征圖z的長和寬,u為池化層的輸出特征圖。
步驟二,基于通道注意力機制,獲取特征通道間的依賴關(guān)系,方法見公式(4):
s=σ[w2fb(w1u)]
(4)
其中s為融合權(quán)重,σ表示激活函數(shù)Sigmoid,w1、w2分別為連接層的參數(shù),fb表示激活函數(shù)ReLU。共包含2個全連接層的結(jié)構(gòu),第1個全連接層起到降維的作用,第2個全連接層用于將特征圖恢復至原始維度。
這年學期畢業(yè)典禮上,我贏得了一個意外的獎?wù)?。校長圖什曼在頒獎時說:“這枚獎?wù)聦㈩C給對學校做出了特殊服務(wù)和重要貢獻的學生。該獎本學期的獲得者具有善良的本性和友情的力量、勇氣的力量,并以此激勵了大部分同學,他的名字叫奧古斯特!”
步驟三,將步驟二獲取的病理圖像融合權(quán)重通過加權(quán)至特征圖,實現(xiàn)對各染色通道原始特征的重新標定,從而利用各類染色圖像的特征進行更高效訓練。計算過程見公式(5):
t=fscale(Z,S)
(5)
其中,fscale表示基于通道的乘法操作,t為完成特征重組的特征圖,最終所輸出的特征圖尺寸為 5×1×512。
1.2.3.3 分類層設(shè)計
為避免模型過擬合,通過Dropout機制調(diào)控分類層輸入,以有效避免訓練階段對特定染色圖像的過度學習。全連接層緊跟Dropout層,神經(jīng)元總數(shù)為1×1×512。最后通過Softmax激活函數(shù)獲取4種MD病變類型(SMCNL、EFFL、MEMA-I以及MEMA-T)分類結(jié)果。其中SMCNL為主動脈中膜多個層狀單位內(nèi)的平滑肌細胞核不能清晰識別;EFFL為主動脈中膜廣泛的穿層狀彈力纖維斷裂和/或缺失以及層狀彈力纖維間隔增大;MEMA-I是指主動脈中膜黏液樣細胞外基質(zhì)增加,但層狀結(jié)構(gòu)無顯著改變;MEMA-T是指主動脈中膜黏液樣細胞外基質(zhì)增加且層狀結(jié)構(gòu)存在不同程度改變。
采用基于 PyTorch 的深度學習框架進行模型搭建,采用高性能計算平臺(華為 G5500 系列服務(wù)器)和 NVIDIA V100 GPU 卡進行模型訓練,采用Matlab R2018b 平臺和 Python 3.7對圖像進行預處理。
雖然MD包括4種病變,但本研究在分類結(jié)果評價時采用二分類評價方法,即在識別某一種病變類型時,其余3種病變均被歸為非同組類別。采用準確率、靈敏度、精確率、F1值(靈敏度和精確率的調(diào)和均值)對分類結(jié)果的性能進行量化,計算公式為:
(6)
(7)
(8)
(9)
其中,TP(true positive)為真陽性,F(xiàn)P(false positive)為假陽性,TN(true negative)為真陰性,F(xiàn)N(false negative)為假陰性,PRE(precision)為精確率,SEN(sensitivity)為靈敏度。
采用SPSS 23.0軟件進行統(tǒng)計學分析,采用Microsoft Excel 2016軟件繪制圖像分類結(jié)果的柱狀圖。準確率、靈敏度、精確率、F1值為計數(shù)資料,以百分數(shù)表示。
共入選符合納入和排除標準的TAA/TAD患者非炎性病變主動脈手術(shù)標本病理切片530張(手術(shù)標本106份)??偺崛?265組圖像(每組包含同一病變部位5種染色病理圖像),其中SMCNL 1153組、EFFL 2348組、MEMA-I 1559組、MEMA-T 205組。訓練集包括4513組圖像,其中SMCNL 987組、EFFL 2013組、MEMA-I 1337組、MEMA-T 176組;測試集包括752組圖像,其中SMCNL 166組、EFFL 335組、MEMA-I 222組、MEMA-T 29組。
模型對測試集4種病變圖像的識別、分類能力良好,絕大部分圖像可被正確分類,僅個別圖像分類錯誤(圖3)。其中2組SMCNL圖像被錯分為EFFL,2組被錯分為MEMA-I;4組EFFL圖像被錯分為MEMA-I,1組被錯分為MEMA-T,提示當存在MEMA-I病變時,其圖像特征會對模型識別EFFL病變有一定干擾。
圖3 模型對測試集主動脈中膜變性病理圖像的四分類結(jié)果SMCNL:平滑肌細胞核缺失;EFFL:彈力纖維斷裂和/或缺失;MEMA-I:層內(nèi)型黏液細胞樣細胞外基質(zhì)聚集;MEMA-T:穿透型黏液樣細胞外基質(zhì)聚集
此外,分別有3、3、5組MEMA-I圖像被錯分為SMCNL、EFFL、MEMA-T;6組MEMA-T圖像被錯分為MEMA-I,提示相較于MEMA-I,模型對MEMA-T病變的識別具有較高特異性,被錯分為SMCNL及EFFL的概率均為0。
除對MEMA-T分類的靈敏度、精確率和F1值均為79.31%外(由于測試數(shù)據(jù)集中包含的MEMA-T樣本較少,數(shù)據(jù)分類不平衡),SE-EmbraceNet模型識別MD 4種病變類型的準確率、靈敏度、精確率、F1值均高于90%,整體準確率為96.54%(726/752),提示模型的整體分類效果良好。其中對EFFL的識別能力最強,準確率、靈敏度、精確率和F1值均≥98.51%,其次為 SMCNL,各指標均≥97.59%,亦具有較好的分類能力。相較SMCNL和EFFL,模型對MEMA-I、MEMA-T的識別能力略差(表1)。
表1 模型在測試集中的評價結(jié)果(%)
MD病變類型的識別與評估可為TAA/TAD的診斷和早期干預提供重要參考依據(jù)。鑒于目前通過人工顯微鏡下閱片完成MD病變分類及TAA/TAD診斷的方式存在主觀性強、工作量大等局限性,本研究團隊在既往研究成果的基礎(chǔ)上,提出了基于SE-EmbraceNet網(wǎng)絡(luò)結(jié)構(gòu)的MD病變多分類模型,結(jié)果顯示該模型對4種病變類型的分類能力良好(多數(shù)評價指標高于90%),其中對EFFL的識別能力最強(各評價指標均≥98.51%),其次為 SMCNL(各評價指標均≥97.59%)。
WSI圖像蘊含豐富的表型信息,是監(jiān)測疾病進展、判斷病灶嚴重程度、研究疾病潛在機制的重要手段。人工智能已成為解析病理圖像的先進技術(shù),廣泛應(yīng)用于乳腺癌、肺癌、肝癌、宮頸癌等惡性腫瘤的分類識別與鑒別診斷[11-14]。目前,CAD在病理領(lǐng)域中的研究成果多集中于腫瘤區(qū)域,在非腫瘤性病變中的應(yīng)用較少。關(guān)于TAA/TAD,有限的相關(guān)研究主要基于影像圖像分割或分類,聚焦于根據(jù)幾何形態(tài)對主動脈腫瘤進行分類,以評估其危險程度,并對主動脈夾層進行分類與診斷[15]。探索主動脈非炎性病理改變的CAD模型有助于評估其在間質(zhì)性病變分析中的可行性,為間質(zhì)性病變相關(guān)研究提供思路。
本研究團隊在前期研究中已證實,人工智能算法在保持高準確率的前提下,對主動脈MD病變的識別具有人工閱片無法比擬的速度優(yōu)勢,可節(jié)約病理科醫(yī)生人工初判的時間。目前,本團隊已在單一染色非炎性主動脈MD病理圖像病變識別相關(guān)研究中得到了較為可觀的分類結(jié)果,課題組先后應(yīng)用ResNet模型及GoolgeNet模型對單一染色病理圖像判讀,整體準確率分別為96.32%和98.78%[3-4]。尤其GoolgeNet單一染色模型的各項指標均較理想,但單一染色模型在軟件轉(zhuǎn)化及數(shù)據(jù)整合時的適用性不高。因此,若通過軟件獨立完成最終的主動脈MD診斷分級,多種染色病理圖像分類模型的研究勢在必行。
圖像信息融合是進行多種染色病理圖像分類面臨的最大挑戰(zhàn)?;谏鲜鲅芯砍晒?,課題組首次提出了SE-EmbraceNet模型,其為輕量級神經(jīng)網(wǎng)絡(luò)模型,通過搭載SENet模塊,實現(xiàn)了多種染色病理圖像信息融合。SENet自注意力機制可對融合層各染色病理圖像的融合權(quán)重進行量化,然后將每個通道通過乘法運算加權(quán)至各染色病理圖像的特征上,最終完成多種染色病理圖像信息融合。在分類層中,引入的Dropout機制可避免模型對某種染色圖像的過度學習,提高了模型的泛化能力。多分類SE-EmbraceNet模型結(jié)合圖像分級配準的方法可有效解決多種染色病理圖像信息融合、對同一病變區(qū)域定位困難、綜合診斷時輔助分級難度大等問題,使得進行多種染色病理圖像分類成為可能,可在60 min內(nèi)完成模型訓練,并獲得穩(wěn)定結(jié)果。本研究結(jié)果顯示,該模型對測試集MD病變圖像進行多分類的整體準確率為96.54%,證明SE-EmbraceNet模型的分類效果達到了既往單一染色病理圖像分類水平,并優(yōu)于ResNet分類模型[3-4]。此外,對本研究構(gòu)建模型采用的病理圖像去除標注等信息后,經(jīng)本院初級醫(yī)師診斷,其準確率僅為91%,提示SE-EmbraceNet模型有望提升初級醫(yī)師的診斷準確率。
本研究針對非炎性TAA/TAD的間質(zhì)病變進行了人工智能識別,但由于其他疾病亦可存在相似的病變,模型僅考慮了主動脈MD病理圖像,并未對其他間質(zhì)性疾病的多種染色病理圖像的分類能力進行泛化能力測試。后續(xù)可納入多種疾病,測試模型針對不同程度MEMA、EFFL、SMCNL等病變的識別性能。
綜上,本研究提出的SE-EmbraceNet模型通過搭載SENet可實現(xiàn)TAA/TAD MD病變多種染色病理圖像分類,準確率高,耗時短,具有較好的泛化能力。將來有望將其裝載至便攜設(shè)備中,輔助醫(yī)師完成MD病變識別,提高該病的診斷效率和診斷能力。
作者貢獻:汪昊、孫中杰負責模型構(gòu)建、測試及論文撰寫;董方、陳東負責切片審閱及論文設(shè)計、修訂;梁志勇、萬濤負責論文審校;連國亮、龔珊珊負責資料收集與數(shù)據(jù)整理;季君予、秦曾昌負責技術(shù)支持。
利益沖突:所有作者均聲明不存在利益沖突