周 攀,何 苗,王丹楓,邱 蕾,雷振華,馬瑛龍
耐藥性結(jié)核是一種比較嚴(yán)重的結(jié)核病,一般治療周期需要9個月到2年[1]。中國有7.3萬名耐藥結(jié)核病患者,約占全球總數(shù)的13.1%[2]。結(jié)核病又與城鄉(xiāng)差別、東西部差別有密切關(guān)系。農(nóng)村人口肺結(jié)核的患病率大約是城市的1倍[3]。人工智能(AI)具有較為強(qiáng)大的識別能力和數(shù)據(jù)分析的能力,在多種肺部疾病如肺癌的診斷、肺結(jié)節(jié)的診斷及胸片質(zhì)量的控制等方面逐漸應(yīng)用于臨床,但必須以海量臨床影像數(shù)據(jù)為基礎(chǔ)[4]。本研究旨在建立可用于醫(yī)學(xué)影像AI產(chǎn)品訓(xùn)練或檢測的標(biāo)準(zhǔn)化數(shù)據(jù)庫,該數(shù)據(jù)庫將有助于研發(fā)基于大數(shù)據(jù)技術(shù)的耐藥性肺結(jié)核輔助診斷模型和臨床輔助診斷決策,AI 輔助診斷系統(tǒng)的研發(fā),將會提高篩檢速度、診斷精度,減輕影像工作者工作負(fù)擔(dān),對結(jié)核病防治工作具有重要的意義。同時(shí),該項(xiàng)目目標(biāo)是形成醫(yī)學(xué)影像AI模型性能評價(jià)體系,促進(jìn)AI產(chǎn)品的臨床應(yīng)用。
1.1 構(gòu)建耐藥性肺結(jié)核病多模態(tài)影像數(shù)據(jù)庫 收集750例耐藥性肺結(jié)核患者資料,本項(xiàng)目耐藥性肺結(jié)核多模態(tài)影像數(shù)據(jù)庫的數(shù)據(jù)來源將包含兩部分,一部分來源于臨床數(shù)據(jù)和樣本資源庫,另一部分來自結(jié)核病聯(lián)盟醫(yī)院的多中心多模態(tài)影像數(shù)據(jù)。本研究已獲得寧夏回族自治區(qū)第四人民醫(yī)院倫理委員會批準(zhǔn)(2022N0212)。根據(jù)行業(yè)規(guī)范及制定的影像數(shù)據(jù)采集標(biāo)準(zhǔn)、納入標(biāo)準(zhǔn)選擇入庫數(shù)據(jù),然后組建影像醫(yī)生專家共同制定肺結(jié)核影像數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn),構(gòu)建肺結(jié)核病灶區(qū)標(biāo)準(zhǔn)標(biāo)注數(shù)據(jù)集,滿足肺結(jié)核AI計(jì)算中對數(shù)據(jù)基礎(chǔ)的需求。根據(jù)標(biāo)注標(biāo)準(zhǔn),利用專用標(biāo)注軟件對原始CT影像進(jìn)行三維標(biāo)注。由2名胸部影像診斷資歷5年以上的診斷醫(yī)師進(jìn)行雙盲標(biāo)注,然后由1名胸部影像診斷資歷8年以上的高級診斷醫(yī)師進(jìn)行審核,有爭議的病例由3名以上高級診斷醫(yī)師根據(jù)標(biāo)注指南討論確定。
1.2 建立基于CT影像大數(shù)據(jù)的AI輔助診斷模型
1.2.1 耐藥性肺結(jié)核病灶自動分割模型 本研究擬采用基于CT影像的卷積神經(jīng)網(wǎng)絡(luò)U-Net為基礎(chǔ),對肺結(jié)核區(qū)域進(jìn)行檢測。網(wǎng)絡(luò)結(jié)構(gòu)包含多個編碼器、多個解碼器和一個輸出卷積器。每個編碼器的作用是實(shí)現(xiàn)下采樣。每次下采樣后,編碼器輸出的特征圖尺寸會下降,通道數(shù)會增加。每個解碼器的作用是實(shí)現(xiàn)上采樣。每次上采樣后,解碼器輸出的特征圖尺寸會增加、通道數(shù)減少。輸出卷積器包含兩個卷積層、一個隨機(jī)失活層及激活函數(shù)(Sigmoid)。此外,各個卷積層和反卷積層都含有激活函數(shù)(ReLU)來實(shí)現(xiàn)非線性運(yùn)算。輸出卷積器將之前的特征圖轉(zhuǎn)化為肺結(jié)核病灶區(qū)域的概率圖。分割模型輸出的肺結(jié)核病灶區(qū)域概率圖和人工標(biāo)注的肺結(jié)核病灶區(qū)域分布圖之間的誤差通過戴斯相似性系數(shù)進(jìn)行量化評估。①卷積層是通過若干個卷積核進(jìn)行卷積運(yùn)算后輸出圖像的特征圖,卷積核包括偏置項(xiàng)b和權(quán)重矩陣W,均是卷積層要學(xué)習(xí)的內(nèi)容。②下采樣層是一種非線性的下采樣方法,將卷積層輸出的特征圖的尺度縮小,以減少計(jì)算量。③經(jīng)過卷積等下采樣層以后,圖像的分辨率依次縮小了 2、4、8、16、32 倍。對于最后一層的輸出圖像,需要進(jìn)行 32 倍的上采樣,以得到和原圖一樣的大小。這個上采樣通常通過反卷積實(shí)現(xiàn)。通過最后一層反卷積得到原圖大小,得到的結(jié)果還是不夠精確,一些細(xì)節(jié)無法恢復(fù)。于是網(wǎng)絡(luò)中將第 4 層的輸出和第 3層的輸出也依次反卷積,分別需要 16 倍和 8 倍上采樣,這樣得到的輸出結(jié)果就更加精細(xì)。④全連接層處于網(wǎng)絡(luò)輸出層之前,存在多個連續(xù)的全連接層,其構(gòu)成了一個多層感知機(jī),起到分類器的作用。通常通過前向傳播進(jìn)行特征的學(xué)習(xí)并獲得輸出,通過反向傳播算法優(yōu)化并調(diào)整網(wǎng)絡(luò)參數(shù)。
1.2.2 耐藥性肺結(jié)核鑒別診斷模型 肺結(jié)核種類鑒別網(wǎng)絡(luò)以密集連接的卷積網(wǎng)絡(luò)為基礎(chǔ),包含5個密集卷積器和兩個全連接層。密集卷積器包含一個批量正則層、多個卷積層和一個最大池化層。最后一個密集卷積器輸出的特征圖被扁平化為一維,然后輸入到之后的全連接層。最后一個全連接層通過歸一化指數(shù)函數(shù)給出肺結(jié)核分類的概率分布,概率最高的為算法的第一預(yù)測。分類網(wǎng)絡(luò)輸出的患者肺結(jié)核診斷,與實(shí)驗(yàn)室檢驗(yàn)的結(jié)果進(jìn)行對比,以準(zhǔn)確度、特異度等指標(biāo)進(jìn)行量化評估。
1.2.3 激活函數(shù)設(shè)計(jì) 分割網(wǎng)絡(luò)中各個卷積層和反卷積層都含有激活函數(shù)(ReLU)用其來實(shí)現(xiàn)非線性運(yùn)算,同時(shí)輸出卷積器采用激活函數(shù)(Sigmoid)輸出分割特征圖。分類網(wǎng)絡(luò)中采用 Softmax輸出肺結(jié)核分類的概率分布。
Sigmoid是常用的非線性的激活函數(shù),公式如下:
f(z)=1/(1+e-z)
Relu函數(shù)的解析式如下:
Relu=max(0,x)
Softmax用于多分類過程,它將多個神經(jīng)元的輸出映射到(0,1)區(qū)間內(nèi),即為輸出概率大小,其公式如下:
1.3 研發(fā)肺結(jié)核AI臨床輔助診斷決策系統(tǒng) 收集多中心結(jié)核病確診病例的臨床資料,主要包括臨床病歷、治療前后肺部CT影像及報(bào)告、化驗(yàn)指標(biāo)、其他生物樣本檢測結(jié)果、藥物和醫(yī)療器械使用情況,以及院內(nèi)結(jié)局,初步研發(fā)臨床輔助決策支持系統(tǒng),結(jié)合肺結(jié)核CT影像數(shù)據(jù)庫,集成肺結(jié)核AI輔助診斷模型,實(shí)現(xiàn)結(jié)核病的病人列表查看、臨床信息查看及評估、影像信息查看及分析、治療決策等功能。該系統(tǒng)包含客戶端和服務(wù)器端兩部分,基于自然語言處理、OCR技術(shù),結(jié)合信息安全和生物信息學(xué)技術(shù),在規(guī)范化數(shù)據(jù)庫建設(shè)之上,做可視化描述性分析、隊(duì)列分析以及高級分析,并通過可視化的分析結(jié)果展示,查看研究分析的結(jié)果。在技術(shù)實(shí)現(xiàn)上,將展示與分析邏輯相互分離,從而在代碼層次實(shí)現(xiàn)系統(tǒng)安全。
1.4 統(tǒng)計(jì)學(xué)方法 采用受試者工作曲線(ROC)評價(jià)AI 效能。
2.1 AI產(chǎn)品評價(jià)體系對耐藥性肺結(jié)核病灶分割結(jié)果實(shí)例 AI產(chǎn)品評價(jià)體系對耐藥性肺結(jié)核病灶分割結(jié)果實(shí)例見圖1,AI 算法模型分割結(jié)果與金標(biāo)準(zhǔn)相近,具有較高的病灶分割準(zhǔn)確度。
最左列為原始圖像,中間列為 AI 算法模型分割結(jié)果,右側(cè)列為金標(biāo)準(zhǔn)
2.2 AI產(chǎn)品評價(jià)體系診斷肺結(jié)核的情況 本研究納入的750例患者中,AI產(chǎn)品評價(jià)體系診斷出肺結(jié)核的例數(shù)為726例,診斷準(zhǔn)確率為96.80%;病灶的檢出率為99.33%,誤判率為0.60%,病灶漏檢率為0.07%。
2.3 AI產(chǎn)品評價(jià)體系對抗藥性肺結(jié)核的診斷價(jià)值 ROC曲線分析顯示,AI產(chǎn)品評價(jià)體系對抗藥性肺結(jié)核的診斷的敏感度為96.80%(726/750),特異度為85.73%(643/750),準(zhǔn)確度為96.80%(726/750),曲線下面積(AUC)為0.912 (95%CI為0.865~0.956)。
肺結(jié)核是全球第九大致死疾病之一,嚴(yán)重危害人類健康,耐藥性結(jié)核是一種比較嚴(yán)重的結(jié)核病。隨著人口數(shù)量及其流動性的增加,耐藥性肺結(jié)核病例呈上升態(tài)勢,每年約增加30萬個新病例。WHO曾指出,如果不能及時(shí)控制疾病發(fā)展,將會增加今后防控的難度,甚至?xí)l(fā)展成不治之癥[1]。
目前我國診斷肺結(jié)核的常用技術(shù)有以下幾種:血清學(xué)診斷、細(xì)菌學(xué)診斷(痰培養(yǎng)和痰涂片)、影像學(xué)診斷、分子生物學(xué)診斷、病理學(xué)診斷。我國主要通過痰涂片診斷的方式發(fā)現(xiàn)結(jié)核病患者,但痰涂片陽性率不高。WHO關(guān)于肺結(jié)核診斷的“金標(biāo)準(zhǔn)”是痰培養(yǎng)技術(shù),雖然陽性率與痰涂片相比略高,但仍然存在陽性率太低的問題,而且培養(yǎng)時(shí)間太長影響診斷效率[5]。病理學(xué)診斷主要是對局部穿刺標(biāo)本或手術(shù)標(biāo)本進(jìn)行病理學(xué)檢查,起到輔助診斷的作用[6],因而在臨床上的應(yīng)用范圍受到一定限制。因此,目前結(jié)核病診斷的主要手段仍然是影像學(xué)診斷,大約60%~70%的活動性肺結(jié)核主要依據(jù)胸部影像診斷[7],特別是胸部CT的診斷。胸部CT可以發(fā)現(xiàn)微小病灶,且可以對病灶進(jìn)行三維重建,在肺結(jié)核病診斷中的應(yīng)用逐漸廣泛。肺結(jié)核的 CT 表現(xiàn)復(fù)雜,征象多而特異性差,而且隨著疾病的發(fā)展或轉(zhuǎn)歸,影像學(xué)征象不斷變化,同時(shí)肺結(jié)核與多種胸部疾病具有相似的體征和影像學(xué)表現(xiàn),因此,結(jié)核病影像學(xué)診斷需要影像科醫(yī)師具備較強(qiáng)的診斷和鑒別診斷能力。
隨著計(jì)算機(jī)軟件及硬件的技術(shù)提升,影像學(xué)診斷技術(shù)特別是影像組學(xué)的發(fā)展,數(shù)字圖像處理技術(shù)日趨成熟,AI特征識別能力及數(shù)據(jù)分析能力比較強(qiáng)大,在多種肺部疾病的診斷中的應(yīng)用逐漸受到關(guān)注,而構(gòu)建多源、大樣本的高分辨率 CT 標(biāo)注數(shù)據(jù)集是獲得高效、精準(zhǔn)疾病 AI 診斷模型的重要基石[8-10]。因此,通過建立結(jié)核病影像數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn),構(gòu)建結(jié)核病影像全量數(shù)據(jù)庫存儲平臺,發(fā)展一種基于大數(shù)據(jù)技術(shù)的輔助 CT 影像的診療系統(tǒng),用于實(shí)現(xiàn)肺結(jié)核疾病的診斷、肺結(jié)核的亞型分型以及臨床輔助診斷,是非常必要的。本研究以肺結(jié)核影像數(shù)據(jù)為核心,組織專家建立肺結(jié)核影像數(shù)據(jù)采集,規(guī)范、確定數(shù)據(jù)標(biāo)注標(biāo)準(zhǔn),建立了耐藥性肺結(jié)核多模態(tài)影像數(shù)據(jù)庫。
隨著AI算法的進(jìn)步,其在肺結(jié)核的診斷鑒別方面展現(xiàn)了巨大的希望。制定使用AI和機(jī)器學(xué)習(xí)方法來提高結(jié)核病診斷分類準(zhǔn)確性的策略方面的研究較多[11-13]。本研究中,以建立的抗藥性肺結(jié)核多模態(tài)影像數(shù)據(jù)庫作為高質(zhì)量的人工標(biāo)注數(shù)據(jù),評價(jià)AI產(chǎn)品對耐藥性肺結(jié)核的診斷價(jià)值,結(jié)果顯示,本研究納入的750例患者中,AI產(chǎn)品評價(jià)體系診斷出肺結(jié)核的例數(shù)為726例,診斷準(zhǔn)確率為96.80%,病灶的檢出率為99.33%,誤判率為0.60%,病灶漏檢率為0.07%,ROC曲線分析顯示,AI產(chǎn)品評價(jià)體系對抗藥性肺結(jié)核的診斷的敏感度為96.80%(726/750),特異度為85.73%(643/750),準(zhǔn)確度為96.80%(726/750),AUC為0.912 (95%CI為0.865~0.956)。提示該AI產(chǎn)品對耐藥性肺結(jié)核具有較高的診斷率。影像醫(yī)師通常是通過視覺對醫(yī)學(xué)圖像進(jìn)行評估以確定疾病,存在主觀性,而AI的優(yōu)勢為可識別大量成像數(shù)據(jù)中的復(fù)雜模式,并可自動進(jìn)行定量評估,診斷結(jié)果比較客觀,因此準(zhǔn)確度更高。此外,由于AI擅長大數(shù)據(jù)分析,因此還具有快速高效的特點(diǎn),該AI產(chǎn)品輔助診斷系統(tǒng)僅需2 s即可自動出具輔助診斷影響報(bào)告,而醫(yī)生需要2~3 min方可獨(dú)立完成報(bào)告,因此在AI產(chǎn)品的輔助診斷下可以顯著縮短出具影像報(bào)告的時(shí)間,明顯提高門診的診斷效率。該肺結(jié)核 AI 輔助診斷模型可以實(shí)現(xiàn)結(jié)核病患者列表查看、臨床信息查看及評估、影像信息查看及分析、治療決策等功能。
Rusdah等[14]專門討論了用于結(jié)核病診斷的不同數(shù)據(jù)挖掘方法,診斷前的原始數(shù)據(jù)必須經(jīng)過數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換等數(shù)據(jù)預(yù)處理過程。有研究[15]利用人工神經(jīng)網(wǎng)絡(luò)建立并評價(jià)了一種預(yù)測模型用于診斷涂陰肺結(jié)核,該研究只考慮了以癥狀和物理信號來設(shè)計(jì)神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)采用多層前饋方法,采用BP算法和單隱層算法實(shí)現(xiàn),其準(zhǔn)確率為 77%。有研究[16]采用具有兩個隱層的多層神經(jīng)網(wǎng)絡(luò)和遺傳算法對算法進(jìn)行訓(xùn)練,建立了含有150例患者樣本的2類數(shù)據(jù)集,一類為50例結(jié)核病患者,另一類為 100例非結(jié)核病患者,該方法的分類精度達(dá)到 94.88%?;谏疃葘W(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)也越來越多地應(yīng)用于肺結(jié)核的診斷中[17-18]。KHAN等人[19]利用 CNN 的異常檢測CXRs,在該研究中,他們分別實(shí)現(xiàn)AlexNet、VGG-16、VGG-19、ResNet-50、ResNet-101、ResNet-152等網(wǎng)絡(luò)模型,獲得肺結(jié)核檢查結(jié)果具有一定的準(zhǔn)確性。
本研究首次構(gòu)建了國內(nèi)耐藥性肺結(jié)核多模態(tài)影像數(shù)據(jù)庫,且開發(fā)的AI輔助診斷系統(tǒng)具有較高的肺結(jié)核精準(zhǔn)診斷及鑒別的價(jià)值。