黃文健,國鳳梅,梁連英,許海東(通訊作者)
(中國科學院大學深圳醫(yī)院<光明>醫(yī)學影像科 廣東 深圳 518106)
肺癌是世界上發(fā)病率與死亡率最高的癌癥,肺結(jié)節(jié)是肺癌早期篩查時的重要影像學表現(xiàn)[1]。隨著CT成像技術(shù)的發(fā)展與普及,胸部螺旋CT已經(jīng)成為了肺癌早期篩查的重要手段之一。各臨床指南一般針對非鈣化結(jié)節(jié)設(shè)定隨訪路徑,并分為實性結(jié)節(jié)與亞實性結(jié)節(jié)兩類,亞實性結(jié)節(jié)進一步分為純磨玻璃結(jié)節(jié)和部分實性結(jié)節(jié),是隨訪的重點關(guān)注對象[2-6]。使用計算機圖像處理技術(shù)進行肺結(jié)節(jié)檢測[7],亞實性結(jié)節(jié)的檢出難度更大[8],一直是重點課題。
近年來,由于人工智能技術(shù)尤其是深度學習技術(shù)[9]在圖像識別處理領(lǐng)域中的廣泛應(yīng)用,以肺結(jié)節(jié)檢測[10]為代表,基于深度學習的檢測算法開始廣泛進入實際臨床場景。目前,對基于深度學習的檢測算法對于亞實性結(jié)節(jié)檢出效能的研究還較少,本文以此為課題展開研究,作為基于深度學習的臨床輔助檢測算法的可行性研究之一。
病例來自2018年9月—2019年4月在我院行胸部CT檢查的病人。剔除條件:(1)圖像質(zhì)量較差,以致影響肺結(jié)節(jié)判斷的病例;(2)具有肺部間質(zhì)性病變、肺結(jié)核或其他肺部彌漫性疾病的病例。為控制無關(guān)變量,入組的胸部CT影像均來自飛利浦iCT機型,管電壓均為120 kV,管電流自適應(yīng),掃描參數(shù)均采用層厚1 mm、iDose4迭代水平2級、Y-Sharp濾波、1024重建矩陣、肺窗算法。病例數(shù)量251例,其中男154例,女97例,年齡區(qū)間12~87歲,中位年齡36歲。
根據(jù)各臨床指南[2-6],對于非鈣化結(jié)節(jié),分為實性結(jié)節(jié)與亞實性結(jié)節(jié),制定標準如下:
實性成分:CT顯示圓形或類圓形密度增高影,其密度足以掩蓋其中走行的血管和支氣管影。
磨玻璃成分:CT顯示邊界清楚或不清楚的肺內(nèi)密度增高影,但密度不足以掩蓋其中走行的血管和支氣管影。
亞實性結(jié)節(jié):含磨玻璃成分的肺結(jié)節(jié)。根據(jù)其是否含有實性成分可以進一步分為:純磨玻璃結(jié)節(jié)(圖1)及部分實性結(jié)節(jié)(圖2)。
圖1 純磨玻璃結(jié)節(jié)
圖2 部分實性結(jié)節(jié)
納入研究的所有CT圖像均由兩位影像診斷醫(yī)師進行獨立雙盲法標注。醫(yī)生首先對符合標準的影像進行肺結(jié)節(jié)檢測,記錄結(jié)節(jié)位置及類別。存在判斷不一致的情況,則交由主任醫(yī)師進行仲裁,作為醫(yī)生檢出的結(jié)果。
基于深度學習的肺結(jié)節(jié)檢測方法采用深睿醫(yī)療的Dr.Wise肺結(jié)節(jié)輔助診斷系統(tǒng),檢測算法由2D與3D深度卷積網(wǎng)絡(luò)組成,對于每個結(jié)節(jié)檢出,算法會輸出一個長方體包圍盒。由一位主任醫(yī)師判斷算法檢出的結(jié)節(jié)與之前醫(yī)生檢出是否匹配。如果不匹配,則由此醫(yī)生進行復(fù)審,判斷其具體類別(例如是否是醫(yī)生漏檢結(jié)節(jié))。
我們對0~4 mm與4~30 mm兩個范圍的肺結(jié)節(jié)分別進行算法的檢出效果評測。
0~4 mm組:臨床指南認為不需要進行隨訪。
4~30 mm組:大部分臨床指南中認為有一定隨訪價值的結(jié)節(jié)。
本次研究使用開源函數(shù)庫Scipy1.0.0進行數(shù)據(jù)處理與統(tǒng)計。采用多個樣本比較的秩和檢驗[11],對醫(yī)生檢出的肺結(jié)節(jié)數(shù)量與算法檢出的數(shù)量差異,醫(yī)生檢出的亞實性結(jié)節(jié)數(shù)量與算法檢出的數(shù)量差異分別進行顯著性分析,為差異有統(tǒng)計學意義。同時,本研究對算法檢出與醫(yī)生不一致的檢出框進行復(fù)審,對復(fù)審結(jié)果進行統(tǒng)計分析。
對基于深度學習的肺結(jié)節(jié)檢測算法檢出框與醫(yī)生檢出進行對比,然后對檢出不一致的進行復(fù)審。算法總共輸出1 047個長方體包圍,剔除部分由條索、血管等造成的假陽性,確定結(jié)節(jié)723個。與醫(yī)生檢出匹配的有198個,經(jīng)審核醫(yī)生復(fù)審最終確定525個。
如表1所示,針對醫(yī)生和算法檢出的結(jié)節(jié),進行分組,對不同的結(jié)節(jié)類型進行統(tǒng)計。算法檢出均大于醫(yī)生檢出的結(jié)節(jié)數(shù)量。對于4~30 mm組與0~4 mm組,醫(yī)生檢出的結(jié)節(jié)總數(shù)與算法檢出的結(jié)節(jié)總數(shù)之間的差異都具有統(tǒng)計學意義(P<0.05)。亞實性結(jié)節(jié)和其他結(jié)節(jié)總數(shù)差異之間的也都具有統(tǒng)計學意義(P<0.05)。其中,對于0~4 mm組,算法總共檢出了553個結(jié)節(jié),與醫(yī)生檢出匹配上的有74個,剩余的479個結(jié)節(jié)是審核醫(yī)生對與醫(yī)生不一致的檢出框進行復(fù)審后得到。
表1 醫(yī)生檢出與算法檢出的結(jié)節(jié)統(tǒng)計(例)
對醫(yī)生檢出的結(jié)節(jié)與對不一致的算法檢出框進行復(fù)審得到的結(jié)節(jié)進行分析,就亞實性結(jié)節(jié)而言,如表2所示,醫(yī)生檢出的結(jié)節(jié)中亞實性結(jié)節(jié)的數(shù)量和占比均小于復(fù)審得到的結(jié)節(jié),且差異具有統(tǒng)計學意義(P<0.05)。而0~4 mm組的結(jié)節(jié),醫(yī)生檢出結(jié)節(jié)數(shù)量和占比均明顯小于復(fù)審得到的結(jié)節(jié)。
表2 醫(yī)生檢出的結(jié)節(jié)與復(fù)審得到的結(jié)節(jié)中亞實性結(jié)節(jié)的數(shù)量與占比
本研究對基于深度學習的肺結(jié)節(jié)檢測算法在肺部CT上對亞實性結(jié)節(jié)的檢出效果進行了研究。算法檢出的亞實性結(jié)節(jié)數(shù)量、其他結(jié)節(jié)數(shù)量、結(jié)節(jié)總數(shù)均高于醫(yī)生檢出數(shù)量。將復(fù)審得到的結(jié)節(jié)中亞實性結(jié)節(jié)和0~4 mm小結(jié)節(jié)的數(shù)量和占比與醫(yī)生檢出結(jié)節(jié)對比,可以看出,復(fù)審得到的結(jié)節(jié)中亞實性結(jié)節(jié)的數(shù)量和占比都比較高,而0~4 mm小結(jié)節(jié)的數(shù)量和占比分別達到了479個和91.23%。
結(jié)節(jié)的性質(zhì)類型判斷是結(jié)節(jié)臨床診治的重要指標之一。亞實性結(jié)節(jié)的惡性的概率要顯著高于實性結(jié)節(jié)[11],而且在IA期肺癌中的發(fā)生率明顯高于良性組[12]。此外,亞實性結(jié)節(jié)的體積可以在很長一段時期不變,后開始成長,因此亞實性結(jié)節(jié)需要更長的隨訪時間[13]。亞實性結(jié)節(jié)都是肺癌篩查和隨訪的重點對象。亞實性結(jié)節(jié)的自動檢出也一直是研究的熱點,文獻[5]介紹了對亞實性結(jié)節(jié)檢出有一定作用的CAD系統(tǒng),對純磨玻璃結(jié)節(jié)的敏感性為53%,對部分實性結(jié)節(jié)的敏感性為73%。文獻[6]介紹了一種基于特征工程的CAD系統(tǒng),在平均每份CT有1個假陽的條件下對亞實性結(jié)節(jié)的敏感性達到了80%,敏感性水平較低。目前關(guān)于基于深度學習的檢測算法對亞實性結(jié)節(jié)的檢出效果的研究還較少,文獻[14]主要針對人工智能軟件對純磨玻璃結(jié)節(jié)的長短徑、最大截面積和體積等給出的定量測量值進行了定量分析。與文獻一致,我們針對醫(yī)生檢出結(jié)節(jié)計算敏感性,本文所采用的算法敏感性要遠高于之前的研究,對大于4 mm的亞實性肺結(jié)節(jié)的敏感性非常高(100%),對0~30 mm的亞實性肺結(jié)節(jié)也很高(96.55%)。符合臨床上對亞實性結(jié)節(jié)檢出的高要求。
另一方面,算法檢出與醫(yī)生檢出不一致的檢出框,在復(fù)審中被醫(yī)生確認為結(jié)節(jié)的占50.14%,與其他假陽類型相比差異有統(tǒng)計學意義(P<0.05)。剔除這部分后算法的檢出框中非結(jié)節(jié)的數(shù)量為324個,平均1.29個/CT,數(shù)量較少,對醫(yī)生提升工作效率有比較好的幫助。
對復(fù)審得到的結(jié)節(jié)進行分析,亞實性結(jié)節(jié)占比高于醫(yī)生檢出,具有統(tǒng)計學意義。顯示出算法在輔助亞實性結(jié)節(jié)檢出上有很大的潛力。另外,醫(yī)生漏檢結(jié)節(jié)中0~4 mm小結(jié)節(jié)的占比極大(91.23%),因為醫(yī)生的職業(yè)習慣對小結(jié)節(jié)關(guān)注較少。但小結(jié)節(jié)也具有一定臨床意義[15],體現(xiàn)出算法的臨床價值。
由于亞實性結(jié)節(jié)在所有結(jié)節(jié)中的占比較小,本文的研究樣本量還不夠大,且患者均為在我院進行CT掃描的病例,存在一定的選擇偏差。由于結(jié)節(jié)的性質(zhì)判定可能受到機型、層厚、管電壓等變量影響,本文入組條件對大多數(shù)變量進行了限制。未來可以進行更大數(shù)據(jù)量,更廣的數(shù)據(jù)來源,涵蓋更多變量的研究工作。因條件限制,本文僅針對一種基于深度學習的肺結(jié)節(jié)檢測系統(tǒng)進行了研究,未來可以針對不同的肺結(jié)節(jié)檢測算法進行對比,以得出更具有普遍性的結(jié)論。
綜上所述,基于深度學習的檢測算法對于亞實性結(jié)節(jié)的檢出同時具有高敏感性、低假陽性,對小結(jié)節(jié)的檢出也有較大幫助,能切實減輕醫(yī)生的工作負擔和壓力,讓醫(yī)生從冗雜低效的肺結(jié)節(jié)檢測任務(wù)中解放出來,將更多的精力放在病變的鑒別診斷、MDT及與患者的溝通交流上,提升診斷水平和整體醫(yī)療環(huán)境。