于燕喬,史大卓,曲華,駱金文,李圣耀,王銘銘
冠狀動脈粥樣硬化性心臟病(冠心病,CAD)是全球最常見的心血管疾病之一。據(jù)統(tǒng)計,目前中國約有1100萬的CAD患者[1],CAD的患病率和死亡率仍在快速攀升,已成為我國重大公共衛(wèi)生問題,及時診斷并有效治療具有重大意義。
目前臨床中常將冠狀動脈(冠脈)造影(CAG)作為診斷CAD和指導后續(xù)介入治療的金標準[2]。然而,CAG依賴于醫(yī)生的主觀判斷,主觀性較強,且CAG主要關注冠脈的解剖學信息,聚焦于冠脈的狹窄程度,無法判斷心肌缺血情況。因此,臨床常在進行CAG的同時測算血流儲備分數(shù)(FFR)。FFR聚焦于血流動力學,為狹窄的冠脈供血的最大血流量與所預測的理論上無狹窄動脈的最大血流量之比,目前臨床已將FFR作為判斷是否存在功能性心肌缺血的金標準[3]。然而,作為侵入性檢查,CAG和FFR可能給患者造成一定痛苦,同時還存在檢查耗時較長、對造影劑過敏的患者不適用等缺點。冠脈CT血管成像(CTA)是一種無創(chuàng)性檢查,能夠從多角度較清晰地觀察細小冠脈分支。既往Meta分析結果證實,與FFR相比,CTA診斷CAD靈敏度約為90%~93%[4],但其特異度有限,誤診率較高,更適合作為排查疑似CAD患者的方法[5]。因此,需要一種能夠同時滿足全面、便捷、無創(chuàng)等要求的檢查新方法。
近年來,人工智能(AI)憑借其高準確性、高可靠性、高處理速度的優(yōu)勢,已成為臨床診療的得力工具。目前,AI在輔助疾病診斷方面已做出了一些貢獻[6-8],其中,AI應用于肺癌[9]、深靜脈血栓[10]等疾病領域的診斷價值已得到了初步驗證。在心血管疾病方面,AI主要應用于通過計算機視覺技術,輔助處理、分析冠脈圖像和心電圖片段[11]。但目前仍缺乏AI技術診斷CAD效能相關方面的系統(tǒng)評價。因此,本研究采用Meta方法,評價AI技術在CAD中的診斷價值,以期為臨床診療應用提供一定參考。
1.1 納排和排除標準
1.1.1 研究類型國內(nèi)外公開發(fā)表的AI診斷CAD的診斷性試驗。
1.1.2 研究對象前瞻性研究中,研究對象應為疑似CAD的患者;回顧性研究中應包含CAD患者和非CAD患者。
1.1.3 納入標準①采用AI進行冠心病診斷,具體AI方法不限;②語言限定為中英文;③文獻中應說明該項研究診斷冠心病的方法及標準;④文獻中應包含真陽性(TP)、假陽性(FP)、假陰性(FN)、真陰性(TN)的患者人數(shù),或通過計算獲得相應人數(shù)。
1.1.4 排除標準①無法獲取全文或所需要的數(shù)據(jù)不全;②重復發(fā)表的文獻。
1.2 檢索策略計算機檢索PubMed、EMbase、The Cochrane Library、萬方、知網(wǎng)和維普等數(shù)據(jù)庫,檢索其中收錄的國內(nèi)外公開發(fā)表的有關AI診斷冠心病的診斷性試驗。此外,追溯納入文獻的參考文獻,以補充獲取相關文獻。檢索時限為自建庫至2021年6月30日。采用主題詞+自由詞的檢索方式,英文檢索詞包括coronary artery disease,coronary artery stenosis, coronary heart disease,artificial intelligence,deep learning,machine learning,algorithms;中文檢索詞包括冠心病、人工智能、算法、機器學習、深度學習等。以PubMed數(shù)據(jù)庫為例,其具體檢索策略見框1。
框1 PubMed檢索策略
1.3 文獻篩選與數(shù)據(jù)提取由兩名研究者根據(jù)納排標準,獨立篩選符合條件的研究,若出現(xiàn)不一致之處,則進行協(xié)商討論,或交由第三人來裁定。首先對標題和摘要符合納入標準的文獻進行全文檢索和分析,然后篩選符合標準的文獻并采集相關資料。
從文獻中提取研究的基本信息和所關注的結局指標和結果測量數(shù)據(jù)?;拘畔ǖ谝蛔髡摺l(fā)表年限、研究地區(qū)、樣本量;結局指標和結果測量數(shù)據(jù)包括直接獲得的TP、FP、FN、TN、敏感度(Sen)、特異度(Spe)、準確度(Acc)等,或通過2×2混淆矩陣計算得出的指標[12]。
1.4 質量評價使用診斷性試驗的質量評價工具QUADAS-2來評價納入研究的質量。這一評價工具主要包括病例選擇、試驗評價、參考診斷金標準、病例流程和進展等四個方面,每個條目按“高風險”(high risk)、“低風險”(low risk)、“不清楚”(unclear)進行分級。
1.5 統(tǒng)計學分析采用 RevMan 5.4軟件和Meta-disc 1.4軟件進行統(tǒng)計分析。首先通過Spearman 相關分析檢驗有無閾值效應引起的異質性,并采用Cochran-Q檢驗及I2值檢驗是否存在非閾值效應引起的異質性。若I2<50%,認為研究結果間異質性較低,采用固定效應模型進行合并;若I2≥50%,認為研究間異質性較高,采用隨機效應模型進行合并。
根據(jù)診斷金標準,分別入選文獻中的AI診斷系統(tǒng)診斷冠心病的2×2四格表,計算合并的Sen、Spe、陽性似然比(+LR)、陰性似然比(-LR)、診斷比值比(DOR)及95%可信區(qū)間(95%CI),同時繪制綜合受試者工作特征曲線(SROC)并計算受試者工作特征曲線下面積(AUC),評價AI診斷冠心病的診斷價值。一般而言,AUC值>0.9、0.7~0.9、0.5~0.7和<0.5分表代表極高診斷價值、較高診斷價值、較低診斷價值和無診斷價值[13]。
通常而言,為建立診斷冠心病的AI模型,通常將數(shù)據(jù)集分為訓練集和測試集。其中,訓練集用于訓練診斷冠心病的AI模型,而測試集則用于檢驗最終選擇出的最優(yōu)模型的性能。本研究中僅將測試集的數(shù)據(jù)用于Meta分析。如文獻未提及具體訓練集和測試集分組情況,則記錄整個樣本集數(shù)據(jù)。本文采用診斷準確性試驗的系統(tǒng)評價/Meta分析報告規(guī)范(PRISMA-DTA)[14]來進行報告。
2.1 文獻篩選流程及結果初檢出相關文獻3985篇,經(jīng)逐層篩選后,最終納入11項研究,其中9篇英文文獻[15-23],2篇中文文獻[24,25],共2898例患者。文獻篩選流程見圖1。
圖1 文獻篩選流程
2.2 納入研究的基本特征與偏倚風險評價結果納入研究的基本特征見表1,偏倚風險評價結果見表2。
表2 納入研究的偏移風險評價結果
2.3 Meta分析結果檢驗是否存在閾值效應引起的異質性。Meta-Disc1.4軟件顯示,ROC平面散點圖不呈“肩臂狀”分布,Spearman相關系數(shù)ρ=0.018,P>0.05,說明Sen與(1-Spe)的對數(shù)不呈強正相關,不存在閾值效應引起的異質性。對其他來源的異質性進行檢驗, 結果顯示各研究結果間Sen(χ2=154.53, P<0.001,I2=93.5%)、Spe(χ2=190.89,P<0.001,I2=94.8%),DOR(χ2=89.84,P<0.001,I2=88.9%),研究間存在非閾值效應引起的異質性,故采用隨機效應模型進行Meta分析。
Meta分析結果顯示,Sen為0.82(95%CI:0.81,0.84),Spe為0.64(95%CI:0.61,0.67),+LR為4.01(95%CI:2.23,7.21),-LR為0.18(95%CI:0.13,0.27),DOR為22.52(95%CI:10.28,49.31),AUC為0.90,見圖2~7。將單項研究逐一排除,進行敏感性分析。結果顯示合并的SEN、SPE、DOR未發(fā)生明顯改變,說明本研究結果的穩(wěn)定性較好。
圖2 以患者為分析單位的人工智能診斷冠心病敏感度的Meta分析
圖3 以患者為分析單位的人工智能診斷冠心病特異度的Meta分析
圖4 以患者為分析單位的人工智能診斷冠心病陽性似然比的Meta分析
圖5 以患者為分析單位的人工智能診斷冠心病陰性似然比的Meta分析
圖6 以患者為分析單位的人工智能診斷冠心病診斷比值比的Meta分析
圖7 以患者為分析單位的人工智能診斷冠心病的SROC曲線
按照不同AI算法類型、AI提取數(shù)據(jù)類型和診斷金標準進行亞組分析。將AI算法類型分為機器學習、深度學習和其他類型算法;AI提取數(shù)據(jù)分為CTA圖像、基線及臨床數(shù)據(jù)和SPECT結果;診斷金標準分為CAG、CTA和其他進行分組。①不同AI算法類型的亞組分析結果顯示,機器學習算法診斷冠心病效能最佳(Sen=0.87,Spe=0.81,DOR=28.03),深度學習算法雖具有較高的Sen(0.86),但Spe不高(0.50)。②不同AI提取數(shù)據(jù)的亞組分析結果顯示,當AI提取的數(shù)據(jù)類型為CTA圖像時,可以獲得較高的診斷效能(Sen=0.91,Spe=0.80,DOR=29.52)。③不同金標準的亞組分析結果顯示,將CAG截斷值設置為70時,診斷效能最高(DOR=29.17),明顯優(yōu)于CAG截斷值為50組(DOR=23.54)和CTA組(DOR=16.43),表3。
表3 亞組分析結果
本Meta分析結果表明,AI診斷CAD診斷價值較高,具有較高敏感性,但特異性較低。本研究共納入11篇文獻,2898例患者。Meta分析結果顯示,AI診斷冠心病患者的Sen為0.82,Spe為0.64,說明漏診率為18%,誤診率為36%,提示AI診斷冠心病的能力相對較好,82%的冠心病可能被鑒別出來;但特異度較差,若僅依賴AI技術診斷冠心病可能會增加后續(xù)侵入性檢查的風險。雖然有研究發(fā)現(xiàn),與醫(yī)生診斷CAD相比,AI診斷CAD的診斷靈敏度更高,但這可能是一種報告偏倚[21]。+LR=4.01,-LR=0.18,AUC=0.90,DOR=22.52,說明應用AI診斷CAD準確性較高,有較高的診斷價值。本研究與Krittanawong等[26]的結果相似,評價了AI技術在心血管疾病方面的診斷價值和預后預測價值。但本研究首次聚焦于CAD領域,對AI算法技術在CAD中的診斷價值進行評價,證實AI在診斷CAD方面具有一定潛力。
本研究結果提示存在較大的異質性,而Spearman相關檢驗結果提示不存在因閾值效應造成的異質性。因此,為探討異質性的來源,我們進行了亞組分析。綜合亞組分析結果,AI算法類型、AI提取數(shù)據(jù)類型和診斷金標準解釋了一定的異質性來源。目前AI技術仍在不斷改進、創(chuàng)新,這使AI在醫(yī)療領域的應用范圍從分析傳統(tǒng)的大數(shù)據(jù)結果擴展到輔助醫(yī)生進行疾病診斷。部分研究中應用的AI模型是根據(jù)診斷需求所定制的[22],更符合CAD的病理生理特點,這可能是其診斷效能較高的原因。ML的主要原理是對已有數(shù)據(jù)進行反復學習,其在處理大量且結構復雜的圖像數(shù)據(jù)方面具有一定優(yōu)勢,是醫(yī)學影像識別、分析和診斷最常用的算法模型。在本研究中,ML診斷CAD也獲得了較高的敏感度和特異度,診斷意義較為穩(wěn)定可靠。不同的研究中金標準的界定存在差異,這可能影響對AI算法模型診斷價值的判斷。在本Meta分析中,絕大多數(shù)所研究中金標準均設為CAG≥50%。而Yoneyama等[21]的研究將CAG的截斷值設置為70%,這可能會在一定程度上增加AI算法模型的特異度。AI提取的數(shù)據(jù)類型不同也可能導致AI技術診斷性能出現(xiàn)差異。CTA是診斷CAD最重要的無創(chuàng)性輔助檢查[27],但檢查設備和不同醫(yī)生對CTA結果理解的差異,可能導致判讀CTA結果存在一定主觀性。目前,AI已應用于讀取CTA圖像信息,并進行了評估冠脈斑塊組成和特征、協(xié)助臨床診療、指導后續(xù)病情管理、判斷患者預后等嘗試[28-30]。也有研究發(fā)現(xiàn),在構建AI診斷冠心病的算法模型時,不同輔助檢查結果、人口學特征及臨床癥狀診斷價值差距較大[31]。因此,建立標準化、實用性強和可重復性佳的AI算法疾病診斷模型具有較高臨床意義。但實現(xiàn)這一技術仍需要臨床醫(yī)生和科研工作者的密切配合,培養(yǎng)交叉學科人才勢在必行。醫(yī)務工作者需要在創(chuàng)建AI算法模型時,協(xié)助解釋各類信息的臨床意義,將不同性質的臨床癥狀和定性或定量的輔助檢查結果結合起來,整合不同類型臨床數(shù)據(jù)的優(yōu)勢,減少臨床診斷價值較低信息的占比,以加快AI診斷的運算速度,最終優(yōu)化、完善算法模型。
本研究仍存在一些局限性:①雖然我們對異質性進行了分析,但本研究的高異質性可能來自于AI算法模型提取的患者來源不同、樣本數(shù)量不同等;②本研究納入的研究數(shù)量有限,且多為單中心研究。但本研究共納入2898例患者,樣本量尚可支持研究結論;③本研究僅納入了中英文文獻,存在語言偏倚;④不同的算法模型在進行性能調(diào)試時選用的測試集樣本量不同,可能會對算法模型的診斷價值產(chǎn)生一定影響。日后應擴大測試集的樣本量,選擇更穩(wěn)定的算法模型。⑤在部分研究中,AI技術通過處理、分析患者的圖像信息來診斷CAD,因此獲取到的患者圖像質量、不同的操作儀器、不同的儀器參數(shù)設置都可能影響AI的診斷價值。未來應盡量排除其他影響因素的干擾,進一步評估AI的作用。
綜上,AI作為CAD診斷手段時,具有較高的診斷價值。臨床應用時,應綜合病史與其他檢查結果后,將AI算法模型作為診斷CAD的有力工具。日后應選擇合適的AI算法模型,并進行較大樣本量的測試與訓練。