李江濤 鄭波 潘怡 王書浩 劉燦城 呂寧 孫卓 鄒霜梅
病理學(xué)通常被認(rèn)為是醫(yī)學(xué)診斷的金標(biāo)準(zhǔn),尤其是癌癥診斷。病理醫(yī)師通過顯微鏡檢查蘇木素和伊紅(hematoxylin and eosin,HE)染色的少量人體組織做出診斷。臨床快速增漲的檢查需求導(dǎo)致了全世界范圍內(nèi)病理醫(yī)師的短缺[1-2]。自動(dòng)或半自動(dòng)工具來協(xié)助病理醫(yī)師診斷成為一種需求。
近幾十年來,機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)的發(fā)展[3],在自然圖像分類的計(jì)算機(jī)視覺領(lǐng)域取得了進(jìn)展[4-5]。深度學(xué)習(xí)方法也被納入許多醫(yī)學(xué)應(yīng)用[6-7],如阿爾茨海默病診斷[8],大腦功能區(qū)劃分[9],解剖結(jié)構(gòu)和病變分割等[10-14]。在組織病理學(xué)領(lǐng)域,利用開放獲取的 TCGA[15-16]和 CAMELYON[17]數(shù)據(jù)集,各種新的卷積神經(jīng)網(wǎng)絡(luò)(CNNs)已經(jīng)被用于高分辨率的病理全切片掃描圖像(whole slide image,WSI)的診斷。在原發(fā)性乳腺癌[18-20]或淋巴結(jié)轉(zhuǎn)移[11,21]的診斷中,基于深度學(xué)習(xí)的方法已經(jīng)顯示了潛在的臨床應(yīng)用可能性。
雖然一些研究通過對數(shù)字化病理切片的深入學(xué)習(xí)建立了有意義的診斷模型,但仍存在一個(gè)值得關(guān)注的具體問題。由于不同品牌的掃描儀可能具有不同的光學(xué)特性,因此將一臺掃描儀建立的模型在應(yīng)用于其他掃描儀創(chuàng)建的圖像時(shí)可能存在偏差。一些研究表明,當(dāng)訓(xùn)練數(shù)據(jù)和應(yīng)用數(shù)據(jù)的參數(shù)不同時(shí),模型的性能可能會降低[22]。對于該問題,通常通過采集對應(yīng)的訓(xùn)練數(shù)據(jù)并重新訓(xùn)練模型以優(yōu)化在目標(biāo)掃描儀圖像上的表現(xiàn)。然而,在模型建立過程中,需要病理醫(yī)師對數(shù)字切片進(jìn)行手工標(biāo)注。同一幅圖像可能在不同的掃描儀上顯示偏差,可能需要重新標(biāo)注,這大大增加了病理醫(yī)師的工作量。在CT和MRI的研究中也關(guān)注過類似問題。許多自動(dòng)工具可以用來修正線圈內(nèi)不均勻的磁場,并用不同的參數(shù)對圖像進(jìn)行標(biāo)準(zhǔn)化,以消除不同制造商造成的圖像差異[23-24]。然而據(jù)我們所知,在數(shù)字病理學(xué)中還沒有標(biāo)準(zhǔn)化的工具可以有效地處理WSI來消除掃描儀之間的差異。
因此,本文將提出一種能夠快速、準(zhǔn)確地將病理醫(yī)師的手工標(biāo)注在不同掃描儀生成的WSI中的傳輸方法,以減少或消除重新標(biāo)注的工作量。
我們使用中國醫(yī)學(xué)科學(xué)院腫瘤醫(yī)院病理科數(shù)據(jù)庫中181張福爾馬林固定、石蠟包埋和HE染色的結(jié)直腸癌手術(shù)切除標(biāo)本切片。每張切片的厚度為4微米,用VENTANA HE600系統(tǒng)(VENTANA Medical Systems,Inc.,USA)染色。
181張切片均由兩種不同的掃描儀掃描,即KF-PRO-005-EX掃描儀(KFBIO?,中國)和EasyScan6掃描儀(Motic?,中國)。掃描格式分別為.kfb和.mdsx。共獲得362張WSI。KF-PRO-005-EX掃描儀掃描的181張切片均由病理醫(yī)師手工標(biāo)注,每張切片中的癌組織由一組閉合曲線標(biāo)注。EasyScan6掃描儀掃描的切片沒有進(jìn)行手工標(biāo)注。
因?yàn)镮m和In是同一張玻璃切片的數(shù)字圖像,我們假設(shè)它們在大小、位置和角度的差異可以通過仿射變換F彌補(bǔ)[25]。使用仿射變換F,In被映射到了Im的空間:
其中θ是仿射變換的參數(shù)集。這些參數(shù)可用仿射矩陣A表示,點(diǎn)映射計(jì)算如下:
當(dāng)圖像Im和的差異已經(jīng)最小化后,我們可以得到理想的仿射變換參數(shù):θ*=argmin loss(Im,In; θ)。
由于不同掃描儀產(chǎn)生的圖像光譜特性和顏色特性的差異,不可能直接用圖像顏色的差異來度量兩個(gè)數(shù)字切片的相似性。為了解決這個(gè)問題,我們使用互信息[26-27]作為圖像相似性的度量函數(shù)。為了避免由于WSI的高分辨率而導(dǎo)致的大量計(jì)算,我們在保證圖像匹配精度的同時(shí),在多尺度圖像金字塔上使用隨機(jī)抽樣[28]方法來減少計(jì)算量。
在計(jì)算出最佳仿射變換參數(shù)θ*及其對應(yīng)的仿射矩陣A*后,我們將圖像空間Im中的標(biāo)注曲線通過矩陣乘法遷移到圖像空間In(按公式2),在In圖像空間中得到相應(yīng)的標(biāo)注曲線。
181張HE切片的掃描結(jié)果表明,即使是同一張切片,不同掃描儀掃描的數(shù)字WSI在顏色、位置、大小等屬性上都有不同的表現(xiàn)。一些原始的WSI圖像如圖1所示。
圖1 不同掃描儀掃描的HE切片的差異說明。1A~1D:病例1~4。每個(gè)圖左側(cè)顯示來自KF-PRO-005-EX掃描儀的WSI,右側(cè)顯示來自EasyScan6掃描儀的WSI
使用181張結(jié)直腸癌HE病理切片來測試上述標(biāo)注傳遞方法。對于每一張切片,將帶標(biāo)注的WSI設(shè)置為目標(biāo)圖像Im,將對應(yīng)的標(biāo)注設(shè)置為Cm;將未標(biāo)注的WSI設(shè)置為In;在迭代計(jì)算每個(gè)圖像對的最佳參數(shù)θ*后,我們比較了根據(jù)公式3得到的目標(biāo)圖像Im與遷移圖像。我們在目標(biāo)圖像Im和仿射遷移圖像上均繪制了標(biāo)注Cn。在圖3中,我們展示了兩個(gè)示例圖像的反向映射結(jié)果。在圖4中,我們顯示了帶有手動(dòng)標(biāo)注Cm的圖像Im和帶有遷移標(biāo)注Cn的目標(biāo)圖像In。
在我們的實(shí)驗(yàn)中,181張結(jié)直腸癌切片中的179張(179/181,98.9%)得到了很好的標(biāo)注遷移,即使在第二次掃描不清楚的情況下也能很好地匹配,如第四例所示。我們發(fā)現(xiàn)只有兩張切片沒有獲得良好的圖像匹配,如圖5所示。這兩個(gè)病例失敗的原因是由于掃描儀中嵌入的預(yù)處理導(dǎo)致兩個(gè)WSI之間存在很大的空間差異。由于兩個(gè)WSI在空間上相距太遠(yuǎn),因此配準(zhǔn)所需的迭代計(jì)算步數(shù)遠(yuǎn)大于預(yù)設(shè)的參數(shù)。結(jié)果表明,雖然標(biāo)注遷移的方向正確,但其移動(dòng)量不足以匹配圖像結(jié)構(gòu)。第一個(gè)病例,目標(biāo)圖像Im顯示的是整張切片,而圖像In只顯示了整個(gè)切片的一部分(大約50%)。第二個(gè)病例,兩張切片的重疊部分很少,主要的組織部分彼此相距較遠(yuǎn)。
圖2 顯示直接將病理醫(yī)師在WSI Im(左)空間上的標(biāo)注應(yīng)用于WSI In(右)空間的結(jié)果。結(jié)果表明,直接應(yīng)用標(biāo)注會導(dǎo)致在新的WSI空間中的偏差(2A~2D:病例1~4)
圖3 最佳仿射變換遷移圖像的圖示。帶標(biāo)注的目標(biāo)圖像Im(左);帶標(biāo)注的仿射遷移圖像(右)(3A~3D:病例 1~4)
圖4 標(biāo)注遷移結(jié)果的圖示。帶標(biāo)注Cm的目標(biāo)圖像Im(左);仿射遷移標(biāo)注Cn的圖像In(右)(4A~4D:病例1~4)
圖5 實(shí)驗(yàn)中的兩個(gè)失敗案例,每一行對應(yīng)一對。左欄顯示目標(biāo)圖像Im,右欄顯示圖像In。(5A、5B:失敗病例1,5C、5D:失敗病例2 )
對于這181對結(jié)直腸癌圖像,每對的計(jì)算時(shí)間從36.69秒到106.54秒不等。從時(shí)間-成本分布來看,我們發(fā)現(xiàn)大多數(shù)對(125/181)的計(jì)算時(shí)間少于1分鐘(如圖6所示)。
圖6 每個(gè)圖像對的計(jì)算時(shí)間成本分布
由于光學(xué)設(shè)計(jì)、嵌入式圖像處理、運(yùn)動(dòng)控制系統(tǒng)和參數(shù)設(shè)置的不同,不同的掃描儀具有不同的特性。因此即使使用相同的切片,它們在尺寸、顏色、位置、比率和清晰度等特征方面也會產(chǎn)生非常不同的WSI。在數(shù)字病理學(xué)研究中,由深度學(xué)習(xí)方法創(chuàng)建的模型在訓(xùn)練數(shù)據(jù)集中使用時(shí)最有效,而在其他數(shù)據(jù)集中可能效果較差,部分原因是其他數(shù)據(jù)集是來自不同掃描儀生成的WSI。在放射學(xué)中,特別是神經(jīng)放射學(xué)研究中也存在類似的問題。一些軟件程序如 FreeSurfer[29]、FSL[30]和 SPM[31]可以部分消除大腦圖像中與設(shè)備相關(guān)的差異,從而解決這個(gè)問題。在病理學(xué)深度學(xué)習(xí)的研究中,有必要考慮掃描儀可能帶來的負(fù)面影響,但目前還沒有合適的方法來解決這個(gè)問題。
更重要的是,目前訓(xùn)練深度學(xué)習(xí)模型的方法首先需要病理醫(yī)師在WSI上手動(dòng)標(biāo)注目標(biāo)組織。因此,WSI上可以顯示出病理醫(yī)師的手動(dòng)標(biāo)注線。如果這些標(biāo)注線直接遷移到由另一個(gè)掃描儀獲得的WSI上,掃描儀的差異可能會導(dǎo)致手動(dòng)標(biāo)注區(qū)域的顯著變化。重復(fù)標(biāo)注這些WSI是不現(xiàn)實(shí)的,因?yàn)椴±砬衅腤SI尺寸很大,手工標(biāo)注需要花費(fèi)大量的時(shí)間。另外,即使是同一個(gè)病理醫(yī)師同時(shí)做兩次標(biāo)注,第二次的手工標(biāo)注也不會和第一次完全一致,這可能會影響模型訓(xùn)練。因此,一種準(zhǔn)確傳遞標(biāo)注的方法將節(jié)省大量的時(shí)間和人力成本,并確保標(biāo)注的一致性和準(zhǔn)確性。
在這項(xiàng)研究中,我們使用兩種掃描器掃描同一張病理切片,通過自動(dòng)化算法將病理醫(yī)師在其中一張WSI上的手工標(biāo)注直接映射到另一張WSI上。結(jié)果證實(shí),不同掃描儀在每個(gè)切片上產(chǎn)生的WSI存在差異。直接將手動(dòng)標(biāo)注映射到不同的掃描儀生成的WSI也會產(chǎn)生許多偏差。使用我們提出的方法,我們在98.9%的切片中成功地將標(biāo)注線與新的WSI匹配。并且計(jì)算時(shí)間較短,表明該方法在大規(guī)模應(yīng)用中是可行的。
在我們的實(shí)驗(yàn)中,我們有兩個(gè)失敗的例子,因?yàn)檫@兩個(gè)圖像中組織的初始位置非常不同。雖然圖像匹配方法是為解決位置差問題而設(shè)計(jì)的,但是當(dāng)初始點(diǎn)離實(shí)際點(diǎn)太遠(yuǎn)時(shí),這種方法可能會失敗。在這種罕見的情況下,我們首先使用手動(dòng)裁剪來粗略地從宏觀上減少空間差異,然后執(zhí)行圖像對齊時(shí),這兩幅圖像也得到了很好的匹配。下一步,我們計(jì)劃增加一個(gè)自動(dòng)預(yù)處理步驟,可以自動(dòng)解決位置差大的問題。
我們的研究有一些局限性。由于WSI圖像的分辨率極高,我們需要使用縮略圖進(jìn)行對齊。因此,得到的轉(zhuǎn)換可能具有超像素級的誤差,其中超像素的大小是縮略圖生成中使用的下采樣率。當(dāng)我們對WSI進(jìn)行抽樣時(shí),一些重要的細(xì)節(jié)可能會丟失。該方法的另一個(gè)局限性是使用場景。目前,我們只能從不同掃描儀掃描的同一切片上為WSI傳遞標(biāo)注,而不能像用于腦結(jié)構(gòu)分割的atlas方法那樣直接將標(biāo)注從不同的玻片遷移到WSI上[32]。
在本文中,我們提出了一種自動(dòng)、高效、實(shí)用的方法來實(shí)現(xiàn)來自同一物理切片的不同WSI之間的標(biāo)注傳遞。利用互信息和隨機(jī)抽樣策略,在保持高精度和高效率的前提下,避免了病理醫(yī)師對不同掃描儀圖像的重新標(biāo)注,保證了同一切片上不同掃描儀獲取的WSI標(biāo)簽的一致性。通過使用所提出的標(biāo)注傳輸方法,研究人員可以生成特定于多個(gè)掃描儀的帶標(biāo)注訓(xùn)練數(shù)據(jù)集,而不增加病理醫(yī)師的工作量,從而加快開發(fā)特定的深度學(xué)習(xí)模型。