楊波,李照喜*,周璐,李文
1.華東療養(yǎng)院物理診斷科,江蘇 無錫 214065;2.華東療養(yǎng)院外科,江蘇 無錫 214065;*通信作者 李照喜doctor_lzx@163.com
甲狀腺影像數(shù)據(jù)和報告系統(tǒng)(thyroid imaging reporting and data system,TI-RADS)可以統(tǒng)一甲狀腺報告格式、便于醫(yī)師交流并規(guī)范后續(xù)處理。多個國家先后發(fā)布了多個版本的TI-RADS指南[1-4],但各指南皆立足于本國情況,而目前我國超聲檢查中存在多種TI-RADS指南混用的問題,與我國醫(yī)療實際情況存在不匹配之處,也給臨床解讀甲狀腺超聲報告造成諸多困擾。2020年我國發(fā)布了甲狀腺結節(jié)超聲惡性危險分層中國指南[5],制訂了中國甲狀腺超聲報告和數(shù)據(jù)系統(tǒng)(C-TIRADS),其分類基于超聲圖像特征的計數(shù)法,方便易行,符合我國臨床實際;但C-TIRADS對甲狀腺可疑結節(jié)的診斷效能尚未完全明確,并且診斷惡性截斷值存在爭議。人工智能(artificial intelligence,AI)輔助診斷系統(tǒng)客觀、可重復性強,已逐步應用于臨床研究中。目前,基于C-TIRADS的AI輔助診斷系統(tǒng)相關研究較少。本研究通過使用基于C-TIRADS的AI輔助診斷系統(tǒng),比較其與不同年資超聲醫(yī)師對甲狀腺可疑結節(jié)的診斷效能,評估基于C-TIRADS的AI輔助診斷系統(tǒng)在甲狀腺可疑結節(jié)良惡性診斷中的應用價值及最佳診斷惡性截斷值。
1.1 研究對象 回顧性選取2018年1月—2021年12月華東療養(yǎng)院甲狀腺可疑結節(jié)患者441例(445個結節(jié)),男190例(191個結節(jié)),女251例(254個結節(jié));年齡21~70歲,平均(45.3±9.2)歲。結節(jié)最大徑0.6~3.8 cm。納入標準:①有明確手術或細針穿刺活檢病理結果;②存在可疑結節(jié),即存在至少1項符合C-TIRADS指南的超聲惡性聲像圖特征。排除標準:①細針穿刺活檢細胞學病理Bethesda為I、Ⅲ、Ⅳ或V類且無手術組織學病理結果;②超聲檢查前進行甲狀腺有創(chuàng)檢查或治療;③超聲影像資料不全或質(zhì)量不佳。本研究經(jīng)本院倫理委員會批準(2022倫理批會第3號)。
1.2 儀器與方法
1.2.1 儀器 使用Siemens Sequoia、Esaote MyLab90、Philips iu22、Canon Aplio i900超聲診斷儀,線陣探頭,頻率3~12 MHz。
1.2.2 圖像分析 由2名從事淺表器官檢查工作15年以上的超聲科副主任醫(yī)師組成高年資組,2名工作5年以內(nèi)的超聲科住院醫(yī)師組成低年資組。各醫(yī)師均對患者檢查結果未知并獨立進行分析,根據(jù)C-TIRADS指南進行超聲特征計算并分類。結果不一致時由組內(nèi)2名醫(yī)師協(xié)商達成一致。
將能清晰顯示甲狀腺結節(jié)聲像圖特征的所有圖像導入超聲影像輔助診斷系統(tǒng)(Ten-D ACD System,SW-TH01/II,什維創(chuàng)新),手動圈定感興趣區(qū)(ROI),包括結節(jié)上下界及左右界,軟件自動分析結節(jié)超聲特征:結構、回聲、縱橫比、邊緣、局灶性強回聲,計數(shù)超聲良惡性特征并進行C-TIRADS分類(圖1),分類結果不一致時取分類最高者。
分別由低、高年資醫(yī)師組結合AI輔助診斷系統(tǒng)分析結果,逐一對照并對甲狀腺結節(jié)進行再次分類,記為低年資+AI組和高年資+AI組,比較各組分類結果。
1.2.3 C-TIRADS分類方法[5]以計數(shù)法對甲狀腺結節(jié)進行分類,實性、極低回聲、垂直位(縱橫比>1)、微鈣化及邊緣模糊/不規(guī)則或甲狀腺外侵犯為可疑惡性特征,計1分;彗星尾征偽像為良性超聲特征,計-1分。將得分相加進行分類,見表1。
表1 基于計數(shù)法的C-TIRADS分類
1.3 統(tǒng)計學分析 應用SPSS 22.0、Med Calc 18.9.1軟件。計量資料采用±s表示,計數(shù)資料采用例數(shù)或百分比表示。以病理結果為“金標準”,繪制受試者工作特征(ROC)曲線,采用Z檢驗比較各組曲線下面積(AUC)。根據(jù)不同診斷惡性截斷值,計算各組的診斷敏感度、特異度、準確度、陽性預測值、陰性預測值及約登指數(shù),并采用χ2檢驗進行比較。以P<0.05為差異有統(tǒng)計學意義。
2.1 甲狀腺結節(jié)病理結果 445個結節(jié)經(jīng)病理證實惡性結節(jié)277個,良性結節(jié)168個。所有惡性結節(jié)均經(jīng)手術病理證實,其中乳頭狀癌275個,髓樣癌2個。良性結節(jié)中,36個經(jīng)手術組織學病理明確,其中結節(jié)性甲狀腺腫25個,濾泡性腺瘤6個,慢性淋巴細胞性甲狀腺炎5個;132個經(jīng)過細針穿刺活檢細胞學病理明確,均為Bethesda Ⅱ類。
2.2 低、高年資組及AI組根據(jù)C-TIRADS分類的診斷結果 低、高年資組及AI組根據(jù)C-TIRADS各分類的良、惡性結節(jié)數(shù)量,惡性結節(jié)占比及AUC見表2。高年資組及AI組AUC均顯著大于低年資組(Z=7.977、7.763,P均<0.001),高年資組與AI組AUC相仿(Z=1.683,P>0.05)。
表2 低、高年資組及AI組根據(jù)C-TIRADS分類的良、惡性結節(jié)診斷結果
2.3 不同年資醫(yī)師聯(lián)合AI輔助診斷系統(tǒng)的診斷結果不同年資醫(yī)師聯(lián)合AI輔助診斷系統(tǒng)對甲狀腺可疑結節(jié)的C-TIRADS分類結果見表3。高年資+AI組診斷的AUC高于低年資+AI組(0.864比0.830),差異有統(tǒng)計學意義(Z=4.595,P<0.001),但差距較前縮小。低年資+AI組對甲狀腺可疑結節(jié)診斷的AUC較未聯(lián)合使用時明顯提高(0.830比0.760;Z=6.724,P<0.001),高年資+AI組對甲狀腺可疑結節(jié)診斷的AUC較前略有提高(0.864比0.858;Z=2.256,P=0.02),低年資+AI組診斷的AUC提高更明顯。
表3 不同年資醫(yī)師聯(lián)合AI輔助診斷系統(tǒng)對甲狀腺良、惡性結節(jié)C-TIRADS分類結果
2.4 不同診斷惡性截斷值診斷效能比較 不同診斷惡性截斷值比較,以TR4B為截斷值時各組對甲狀腺結節(jié)的診斷敏感度和陰性預測值最大;以TR4C為截斷值時各組的診斷準確度、約登指數(shù)及AUC最大;以TR5為截斷值時各組的診斷特異度和陽性預測值最大。以AUC最大為選取最佳截斷值的標準,診斷惡性最佳截斷值為TR4C時,各組AUC均明顯大于TR4B和TR5(均P<0.001),見表4。
表4 低、高年資組及AI組不同診斷惡性截斷值診斷效能比較
目前普通人群甲狀腺結節(jié)超聲檢出率可達19%~68%[1,6],呈增高趨勢,為甲狀腺結節(jié)特別是甲狀腺可疑結節(jié)患者提供更好的臨床決策和后續(xù)健康管理至關重要。2020年中華醫(yī)學會超聲醫(yī)學分會發(fā)布的C-TIRADS將實性、極低回聲、垂直位、微鈣化以及邊緣模糊/不規(guī)則或甲狀腺外侵犯作為甲狀腺結節(jié)超聲惡性特征,彗星尾偽像作為良性特征,并通過計數(shù)法進行分類,便于操作,易于推廣,具有很高的實用價值。
然而,對于甲狀腺結節(jié)超聲特征的認識和判斷較為主觀,受到醫(yī)師工作經(jīng)驗的影響,并且與當時客觀環(huán)境、醫(yī)師主觀狀態(tài)等有關,存在不同醫(yī)師間和相同醫(yī)師不同時間的差異[7-9]。基于深度學習和卷積神經(jīng)網(wǎng)絡的新一代AI輔助診斷系統(tǒng)可以客觀、準確地識別甲狀腺結節(jié)超聲特征,可重復性高,已得到臨床研究證實[10-13]。本研究顯示,AI輔助診斷系統(tǒng)對于甲狀腺可疑結節(jié)C-TIRADS 4B、4C及5類的惡性率分別為40.5%、84.7%、100%,均在指南參考范圍內(nèi),C-TIRADS 4A類的惡性率為11%,較低年資組更接近指南參考范圍;AI輔助診斷系統(tǒng)對于甲狀腺可疑結節(jié)的診斷AUC(0.849)與高年資組(0.858)相仿,顯著高于低年資組(0.760),與李婷婷等[14]的研究相似,可能與低年資醫(yī)師工作時間短、經(jīng)驗匱乏有關。
不同年資醫(yī)師聯(lián)合AI輔助診斷系統(tǒng)后,對甲狀腺可疑結節(jié)診斷的AUC均不同程度增大,低年資醫(yī)師從0.760升至0.830,高年資醫(yī)師從0.858升至0.864,低年資醫(yī)師聯(lián)合AI輔助診斷系統(tǒng)后增加幅度較大、受益明顯。
目前,C-TIRADS對于甲狀腺結節(jié)良惡性鑒別診斷的截斷值存在較大分歧。毛森等[15]、李潛等[16]認為使用TR4A作為截斷值較為合適,而丁思悅等[17]、李健等[18]則認為TR4B更好,喬敏等[19]、陳慶芳等[20]通過比較認為TR4C作為截斷值時診斷效能更高。以上差異可能與研究對象、方法及對C-TIRADS的認識和理解不同有關。本研究選擇對象為甲狀腺可疑結節(jié)(最低分類C-TIRADS 4A),符合臨床工作實際需要,分別比較TR4B、TR4C和TR5作為診斷惡性截斷值時的診斷效能發(fā)現(xiàn):以TR4B為診斷惡性截斷值,敏感度高而特異度低,將不可避免地導致過度穿刺和手術;以TR5為診斷惡性截斷值,特異度高而敏感度低,將會出現(xiàn)漏診較多的現(xiàn)象;而以TR4C為診斷惡性截斷值,敏感度和特異度既保持在較高的水平,又達到了兼顧的效果,很好地平衡了漏診和過度治療的問題,此時無論AI輔助診斷系統(tǒng)還是不同年資的醫(yī)師,診斷準確度、約登指數(shù)及AUC均最高。因此,本研究使用TR4C作為C-TIRADS對甲狀腺可疑結節(jié)的診斷惡性最佳截斷值,其診斷效能最佳。
本研究尚存在一些不足:①為單中心回顧性研究,后期仍需擴大樣本量進行多中心研究;②目前AI輔助診斷系統(tǒng)僅支持分析二維靜態(tài)圖像,無法將超聲造影、彈性成像等信息加入其中,仍需進一步提高。
總之,基于C-TIRADS的AI輔助診斷系統(tǒng)在甲狀腺可疑結節(jié)良惡性鑒別診斷中具有較高價值,聯(lián)合使用可提高不同年資醫(yī)師的診斷效能,尤其是低年資醫(yī)師;不同年資醫(yī)師及聯(lián)合使用AI輔助診斷系統(tǒng)后對甲狀腺可疑結節(jié)良惡性鑒別診斷的最佳截斷值均為TR4C。