徐可,石波,周春美,曾卓華,謝楊,劉家開(kāi)
成都醫(yī)學(xué)院第二附屬醫(yī)院·核工業(yè)四一六醫(yī)院 超聲醫(yī)學(xué)科,四川 成都 610057
近年來(lái)的研究表明,成年人中甲狀腺結(jié)節(jié)的患病率高達(dá)65%,其中甲狀腺癌又是一類高發(fā)的惡性腫瘤,因此對(duì)甲狀腺結(jié)節(jié)性質(zhì)的準(zhǔn)確判斷顯得尤為重要[1-2]。超聲因其簡(jiǎn)單、無(wú)創(chuàng)、快速、便攜等優(yōu)勢(shì)已廣泛應(yīng)用于甲狀腺結(jié)節(jié)的篩查與診斷中[3]。甲狀腺結(jié)節(jié)診斷指南是判斷結(jié)節(jié)良惡性的重要依據(jù)與標(biāo)準(zhǔn),結(jié)合我國(guó)國(guó)情,2020年中華醫(yī)學(xué)會(huì)超聲醫(yī)學(xué)分會(huì)淺表器官與血管小組制訂并推出《2020甲狀腺結(jié)節(jié)超聲惡性危險(xiǎn)分層中國(guó)指南:C-TIRADS》[4]。林蔚等[5]研究發(fā)現(xiàn),中國(guó)(超聲)甲狀腺影像報(bào)告和數(shù)據(jù)系統(tǒng)(Chinese Thyroid Imaging Reporting and Data System,C-TIRADS)評(píng)估甲狀腺結(jié)節(jié)時(shí)有較高的敏感性。近年來(lái)人工智能(Artificial Intelligence,AI)技術(shù)得到了快速的發(fā)展,Lee等[6]利用VGG激活模型圖開(kāi)發(fā)了一個(gè)用于定位和區(qū)分轉(zhuǎn)移性淋巴結(jié)的AI預(yù)測(cè)模型,該模型預(yù)測(cè)淋巴結(jié)轉(zhuǎn)移的靈敏度、特異性、準(zhǔn)確率分別為79.5%、87.5%、83.0%,與李盈盈等[7]研究的AI預(yù)測(cè)模型診斷效能相近。Peng等[8]研究發(fā)現(xiàn),深度學(xué)習(xí)AI模型(ThyNet)輔助策略可以顯著提高超聲科醫(yī)生的診斷能力,并有助于減少甲狀腺結(jié)節(jié)不必要的穿刺。雖然AI技術(shù)在醫(yī)學(xué)影像診斷方面已展現(xiàn)出一定優(yōu)勢(shì),但尚處于起步階段,有其自身的局限性,如產(chǎn)品性能不穩(wěn)定、容易受超聲圖像質(zhì)量及圖像采集標(biāo)準(zhǔn)化影響,從而使判讀結(jié)果的準(zhǔn)確性大大降低,因此不能直接作為參考標(biāo)準(zhǔn)[9]。本研究旨在探討AI診斷系統(tǒng)聯(lián)合醫(yī)師C-TIRADS分類對(duì)甲狀腺結(jié)節(jié)以及不同大小結(jié)節(jié)的診斷效能,以期為臨床工作中最大程度地發(fā)揮AI輔助的診斷作用提供依據(jù)。
回顧性分析2020年10月至2021年5月于我院行甲狀腺超聲檢查并有病理結(jié)果的514例患者的臨床資料。納入標(biāo)準(zhǔn):① 結(jié)節(jié)以實(shí)性或?qū)嵭圆糠譃橹鳎倚圆糠郑?5%)者;② 術(shù)前行超聲診斷且資料完整者;③ 手術(shù)或穿刺病理結(jié)果明確的甲狀腺結(jié)節(jié)者;④ 術(shù)前未行內(nèi)分泌、化療及放療、消融及同位素治療者。排除標(biāo)準(zhǔn):① 超聲圖像質(zhì)量較差,對(duì)結(jié)節(jié)特征不能充分顯示者;② 病灶過(guò)多,不能區(qū)分病理結(jié)果者。最終224例患者入組,結(jié)節(jié)共225個(gè),其中男性56例、女性168例,平均年齡(43.88±12.70)歲,結(jié)節(jié)最大長(zhǎng)徑85 mm,平均長(zhǎng)徑(21.54±16.14)mm。根據(jù)結(jié)節(jié)最大長(zhǎng)徑分組,≤10 mm結(jié)節(jié)98個(gè),>10 mm結(jié)節(jié)127個(gè)。所有患者均對(duì)本研究知情并簽署知情同意書(shū),且通過(guò)本院倫理委員會(huì)審查(2016016)。
1.2.1 超聲檢查
采用法國(guó)聲科公司的SuperSonic Aixplorer超聲診斷儀,SL15-4探頭(頻率4~15 MHz),將探頭探查條件調(diào)整為甲狀腺模式,由1名高年資醫(yī)師進(jìn)行甲狀腺超聲掃查,囑患者取仰臥位,充分暴露頸部,橫切、縱切動(dòng)態(tài)掃查甲狀腺腺體,詳細(xì)記錄結(jié)節(jié)的大小、位置、形態(tài)、邊界、內(nèi)部回聲、形狀、縱橫比、有無(wú)鈣化等。結(jié)果判讀:由另外1名高年資醫(yī)師對(duì)結(jié)果進(jìn)行判讀,當(dāng)結(jié)果不一致時(shí)進(jìn)行討論,以討論一致的結(jié)果作為最終診斷結(jié)果。嚴(yán)格按照《2020甲狀腺結(jié)節(jié)超聲惡性危險(xiǎn)分層中國(guó)指南:C-TIRADS》[4]對(duì)結(jié)節(jié)進(jìn)行分類,指南中對(duì)滿足垂直位、不規(guī)則、模糊、甲狀腺外侵犯、實(shí)性、極低回聲、微鈣化的結(jié)節(jié)各加1分,對(duì)伴有彗星尾征象的減1分,對(duì)1個(gè)結(jié)節(jié)全面評(píng)估后進(jìn)行計(jì)數(shù)。-1分為2類結(jié)節(jié)(惡性風(fēng)險(xiǎn)0),0分為3類結(jié)節(jié)(惡性風(fēng)險(xiǎn)<2%),1分為4A類結(jié)節(jié)(惡性風(fēng)險(xiǎn)2%~10%),2分為4B類結(jié)節(jié)(惡性風(fēng)險(xiǎn)10%~50%),3~4分為4C類結(jié)節(jié)(惡性風(fēng)險(xiǎn)50%~90%),5分為5類結(jié)節(jié)(惡性風(fēng)險(xiǎn)>90%),6類結(jié)節(jié)為經(jīng)活檢證實(shí)為惡性結(jié)節(jié)。將≤4A類定義為良性,≥4B類定義為惡性[10]。
1.2.2 AI甲狀腺輔助診斷系統(tǒng)
AI甲狀腺輔助診斷系統(tǒng)由浙江德尚韻興公司研發(fā),該系統(tǒng)采用自主研發(fā)的深度學(xué)習(xí)框架DE-Light,只檢測(cè)灰階二維超聲圖,不檢測(cè)血流圖、彈性圖。由進(jìn)行超聲掃查的同1名高年資醫(yī)師操作,操作前已經(jīng)過(guò)系統(tǒng)的AI操作培訓(xùn),分別于甲狀腺橫切面、縱切面采集圖像,該AI輔助診斷系統(tǒng)直接與采集卡對(duì)接,圖片實(shí)時(shí)進(jìn)行傳輸,AI根據(jù)算法自動(dòng)識(shí)別病灶,并圈畫(huà)出該結(jié)節(jié),同時(shí)給出結(jié)節(jié)良、惡性概率值,若發(fā)現(xiàn)AI無(wú)法自動(dòng)識(shí)別結(jié)節(jié),醫(yī)師手動(dòng)在輔助診斷系統(tǒng)勾畫(huà)靶區(qū)結(jié)節(jié),切忌隨意勾畫(huà),必須沿著毛刺邊緣進(jìn)行勾畫(huà),不同切面系統(tǒng)給出的概率值不同,測(cè)量3次,取最高數(shù)值作為AI最終診斷結(jié)果,定義<0.6為偏良性,≥0.6為偏惡性。
1.2.3 聯(lián)合診斷
以C-TIRADS分類診斷結(jié)果為基礎(chǔ),若AI診斷為惡性則上調(diào)一個(gè)類別,但5類不再上調(diào);若AI診斷為良性,則C-TIRADS分類下降一個(gè)類別,但2類不再下調(diào)。
采用SPSS 23.0和MedCalc 18.2.1軟件進(jìn)行統(tǒng)計(jì)分析。以病理結(jié)果為金標(biāo)準(zhǔn),繪制受試者工作特征(Receiver Operating Characteristic,ROC)曲線,計(jì)算各指標(biāo)的靈敏度[即真陽(yáng)性率=a/(a+c)]、特異性[即真陰性率=d/(b+d)],其中a代表真陽(yáng)性,即病例組內(nèi)陽(yáng)性的例數(shù);b代表假陽(yáng)性,即對(duì)照組內(nèi)陽(yáng)性的例數(shù);c代表假陰性,即病例組內(nèi)陰性的例數(shù);d為真陰性,為對(duì)照組內(nèi)陰性的例數(shù)。并計(jì)算約登指數(shù)(即正確指數(shù)=靈敏度+特異性-1)。ROC曲線下面積(Area Under Curve,AUC)>0.8表示指標(biāo)具有良好的診斷效果,采用Z檢驗(yàn)進(jìn)行C-TIRADS分類、AI、AI+C-TIRADS分類的各評(píng)價(jià)指標(biāo)的差異比較,以P<0.05為差異具有統(tǒng)計(jì)學(xué)意義。
225個(gè)結(jié)節(jié)中惡性結(jié)節(jié)占比58.2%,良性結(jié)節(jié)占比41.7%,良惡性結(jié)節(jié)病理類型及分布數(shù)量如表1所示。
表1 225個(gè)結(jié)節(jié)病理結(jié)果[n(%)]
225個(gè)結(jié)節(jié)中,醫(yī)師C-TIRADS診斷良惡性結(jié)節(jié)準(zhǔn)確度為91.1%,AI診斷良惡性結(jié)節(jié)準(zhǔn)確度為82.7%,AI+CTIRADS分類診斷良性結(jié)節(jié)準(zhǔn)確度為95.1%,聯(lián)合診斷的準(zhǔn)確度優(yōu)于2種方法單獨(dú)診斷,見(jiàn)表2。
表2 C-TIRADS分類、AI、AI+C-TIRADS分類的診斷結(jié)果及與病理對(duì)照
對(duì)于≤10 mm結(jié)節(jié),醫(yī)師C-TIRADS分類診斷良惡性結(jié)節(jié)準(zhǔn)確度為81.6%,AI診斷良惡性結(jié)節(jié)準(zhǔn)確度為89.8%,AI+C-TIRADS分類診斷良惡性結(jié)節(jié)準(zhǔn)確度為98.0%,聯(lián)合診斷的準(zhǔn)確度優(yōu)于2種方法單獨(dú)診斷,見(jiàn)表3。
表3 醫(yī)師C-TIRADS分類、AI、AI+C-TIRADS分類對(duì)≤10 mm結(jié)節(jié)的診斷結(jié)果與病理對(duì)照
對(duì)于>10 mm結(jié)節(jié),醫(yī)師C-TIRADS分類診斷良惡性結(jié)節(jié)準(zhǔn)確度為98.4%,AI診斷良惡性結(jié)節(jié)準(zhǔn)確度為77.2%,AI+C-TIRADS分類診斷良惡性結(jié)節(jié)準(zhǔn)確度為92.9%,醫(yī)師C-TIRADS分類診斷的準(zhǔn)確度優(yōu)于其余2種診斷方法,見(jiàn)表4。
表4 醫(yī)師C-TIRADS分類、AI、AI+C-TIRADS分類對(duì)>10 mm結(jié)節(jié)診斷結(jié)果與病理對(duì)照
AI+C-TIRADS分類診斷特異性(95.74%)、約登指數(shù)(0.9040)、AUC(0.952)均高于醫(yī)師C-TIRADS分類診斷(Z=2.085,P=0.037)及 AI診斷(Z=5.547,P<0.001);醫(yī)師C-TIRADS分類診斷靈敏度(96.95%)及AUC(0.900)高于AI單獨(dú)診斷(Z=2.054,P=0.040),差異有統(tǒng)計(jì)學(xué)意義(P<0.05),見(jiàn)表5和圖1。
圖1 3種診斷方法對(duì)總體ROC曲線
表5 醫(yī)師C-TIRADS、AI、AI+C-TIRADS分類對(duì)總體診斷效能比較
對(duì)于≤10 mm結(jié)節(jié),AI+C-TIRADS分類診斷靈敏度(98.36%)、特異性(97.3%)、約登指數(shù)(0.9566)、AUC(0.978)均高于AI(Z=2.828,P=0.005)及醫(yī)師C-TIRADS分類診斷(Z=4.185,P<0.001);AI診斷的特異度(89.19%)、約登指數(shù)(0.7940)、AUC(0.897)高于醫(yī)師C-TIRADS分類診斷(Z=1.993,P=0.046,差異有統(tǒng)計(jì)學(xué)意義(P<0.05),見(jiàn)表6和圖2~3。
圖2 3種診斷方法對(duì)≤10 mm結(jié)節(jié)ROC曲線
圖3 二維超聲甲狀腺左側(cè)葉≤10 mm結(jié)節(jié)超聲聲像圖及AI識(shí)別圖像
表6 醫(yī)師C-TIRADS分類、AI、AI+C-TIRADS分類對(duì)≤10 mm結(jié)節(jié)診斷效能比較
對(duì)于>10 mm結(jié)節(jié),C-TIRADS分類診斷的靈敏度(100%)、特異性(96.49%)、約登指數(shù)(0.9649)、AUC(0.982)均高于聯(lián)合診斷(Z=2.269,P=0.023)及AI診斷(Z=5.464,P<0.001);AI診斷的靈敏度(74.29%)、特異度(80.70%)、約登指數(shù)(0.5499)、AUC(0.775)不及聯(lián)合診斷(Z=4.803,P=0.001),差異有統(tǒng)計(jì)學(xué)意義(P<0.05),見(jiàn)表7和圖4~5。
表7 醫(yī)師C-TIRADS、AI、AI+C-TIRADS分類對(duì)>10 mm結(jié)節(jié)診斷效能比較
圖4 3種診斷方法對(duì)>10 mm結(jié)節(jié)ROC曲線
圖5 二維超聲甲狀腺左側(cè)葉>10 mm結(jié)節(jié)超聲聲像圖及AI識(shí)別圖像
目前甲狀腺結(jié)節(jié)的檢出率逐年增加,臨床用于甲狀腺超聲檢查的指南也在不斷更新,從2011年韓國(guó)學(xué)者Kawk在Radiology發(fā)表的Kawk-TIRADS(甲狀腺影像及數(shù)據(jù)報(bào)告系統(tǒng))[11]、2016年韓國(guó)放射學(xué)會(huì)和甲狀腺放射學(xué)會(huì)發(fā)表的Korean-TIRADS指南[12],再到2017年美國(guó)放射學(xué)會(huì)發(fā)布的ACR-TIRADS[13],每一種指南都有其優(yōu)勢(shì)和局限性,且各個(gè)醫(yī)院對(duì)指南的使用并不統(tǒng)一,會(huì)給患者和臨床醫(yī)生帶來(lái)困惑?!?020甲狀腺結(jié)節(jié)超聲惡性危險(xiǎn)分層中國(guó)指南:C-TIRADS》[4],從我國(guó)的實(shí)際出發(fā),是一種全新的計(jì)數(shù)分類的方法,指南中通過(guò)回歸方程篩選出5個(gè)可疑惡性征象并對(duì)其賦值進(jìn)而計(jì)數(shù)分類,使用簡(jiǎn)便快捷,可操作性強(qiáng)。Zhu等[14]對(duì)2309個(gè)甲狀腺結(jié)節(jié)分別用美國(guó)放射學(xué)會(huì)ACRTIRADS指南、中國(guó)版C-TIRADS指南、韓國(guó)版Kawk-TIRADS指南及美國(guó)甲狀腺協(xié)會(huì)ATA指南對(duì)甲狀腺結(jié)節(jié)進(jìn)行良惡性診斷,發(fā)現(xiàn)C-TIRADS指南的準(zhǔn)確性為84.71%,高于其他3種指南,并且AUC最大為0.905,進(jìn)一步說(shuō)明C-TIRADS相比其他3種指南有較高的診斷效能。本研究發(fā)現(xiàn)醫(yī)師C-TIRADS分類對(duì)總體樣本診斷的靈敏度高于聯(lián)合診斷及AI單獨(dú)診斷,即可篩出較多的惡性結(jié)節(jié),差異有統(tǒng)計(jì)學(xué)意義(P<0.05)。李潛等[15]研究發(fā)現(xiàn),應(yīng)用C-TIRADS指南診斷比AI診斷技術(shù)S-detect聯(lián)合醫(yī)師C-TIRADS診斷有更高的靈敏度(97.37%vs.96.21%),與本研究結(jié)果相近。本研究認(rèn)為醫(yī)師C-TIRADS分類診斷靈敏度高而特異性偏低的原因?yàn)榱紣盒越Y(jié)節(jié)在超聲征象上有重疊,且C-TIRADS指南是通過(guò)對(duì)可疑惡性征象進(jìn)行計(jì)數(shù)進(jìn)而分類,這可能會(huì)導(dǎo)致部分良性結(jié)節(jié)如腺瘤、結(jié)節(jié)性甲狀腺腫、炎性病變等分類過(guò)高,假陽(yáng)性率上升。
AI技術(shù)可對(duì)復(fù)雜的醫(yī)學(xué)圖像特征進(jìn)行定量評(píng)估,已經(jīng)被越來(lái)越多地應(yīng)用于甲狀腺結(jié)節(jié)的診斷中[16]。本研究發(fā)現(xiàn)AI單獨(dú)診斷的AUC及約登指數(shù)低于聯(lián)合診斷及C-TIRADS單獨(dú)診斷,與方明娣等[10]的研究結(jié)果一致。Wildman-Tobriner等[17]研究發(fā)現(xiàn),運(yùn)用AI輔助診斷系統(tǒng)來(lái)修正ACR-TIRADS分級(jí)后,相比醫(yī)師ACR-TIRADS分級(jí),AUC由0.91提高至0.93,特異性也由47%提高至65%,本研究中AI單獨(dú)診斷及AI聯(lián)合醫(yī)師C-TIRADS診斷特異性較醫(yī)師C-TIRADS單獨(dú)診斷特異性高,與Verburg等[18]的研究結(jié)果一致。本研究采用的德尚韻興公司研發(fā)的AI輔助診斷系統(tǒng)是基于算法的學(xué)習(xí)來(lái)自主識(shí)別結(jié)節(jié),繼而得出結(jié)節(jié)的良惡性概率值,與傳統(tǒng)的通過(guò)識(shí)別結(jié)節(jié)惡性征象而判讀結(jié)節(jié)良惡性有所不同,其診斷的過(guò)程不依賴人的主觀性。
對(duì)于≤10 mm的甲狀腺腫瘤,其被定義為甲狀腺微小癌,其中絕大多數(shù)為甲狀腺乳頭狀癌,鑒于其病灶微小,惡性征象表現(xiàn)不顯著,且部分患者甲狀腺腺體內(nèi)常出現(xiàn)良惡性病灶并存的表現(xiàn),常規(guī)超聲常出現(xiàn)漏診、誤診的情況,因此探尋一種新的可靠的診斷方法顯得尤為重要[19-20]。本研究將甲狀腺腺結(jié)節(jié)按最大長(zhǎng)徑分為≤10 mm組及>10 mm組,發(fā)現(xiàn)AI、AI+C-TIRADS分類對(duì)≤10 mm結(jié)節(jié)診斷的特異性、約登指數(shù)及AUC均大于醫(yī)師C-TIRADS分類單獨(dú)診斷,差異有統(tǒng)計(jì)學(xué)意義(P<0.05)。本研究中部分甲狀腺小結(jié)節(jié)在早期并不會(huì)出現(xiàn)典型的惡性征象,即沙礫樣鈣化,且向周?chē)M織浸潤(rùn)性生長(zhǎng)也不明顯,纖維化改變不顯著,所以醫(yī)師主觀上可能會(huì)出現(xiàn)誤判的情況。AI是對(duì)10萬(wàn)余例有病理結(jié)果的結(jié)節(jié)進(jìn)行深度學(xué)習(xí)繼而研發(fā)所得,所以其能快速對(duì)異常區(qū)域進(jìn)行標(biāo)記,進(jìn)而量化分析得出良惡性概率值,降低了誤判的概率[21-22]。
本研究發(fā)現(xiàn)對(duì)于>10 mm結(jié)節(jié),AI及聯(lián)合診斷的診斷效能低于醫(yī)師C-TIRADS分類診斷。方貞燕[21]的研究發(fā)現(xiàn),隨著結(jié)節(jié)體積增大,AI診斷的靈敏度及準(zhǔn)確性呈下降趨勢(shì),且AI診斷的準(zhǔn)確性與該系統(tǒng)的技術(shù)原理和系統(tǒng)的穩(wěn)定性密切相關(guān),不同品牌的AI診斷系統(tǒng)在臨床實(shí)踐中的表現(xiàn)可能會(huì)出現(xiàn)較大的差異,因此醫(yī)師需要對(duì)所使用的AI系統(tǒng)的優(yōu)勢(shì)充分了解,最大程度地發(fā)揮AI的輔助作用。
本研究存在的局限性:① 樣本量過(guò)少,在今后研究中進(jìn)一步將>10 mm結(jié)節(jié)按照大小進(jìn)行分組,探討AI診斷系統(tǒng)聯(lián)合醫(yī)師C-TIRADS分類對(duì)其的診斷效能;② 樣本中惡性結(jié)節(jié)偏多,絕大部分是乳頭狀癌,對(duì)分類診斷準(zhǔn)確性有一定影響。
AI診斷系統(tǒng)聯(lián)合醫(yī)師C-TIRADS分類可提高對(duì)良惡性結(jié)節(jié)診斷的準(zhǔn)確度、特異性,尤其對(duì)于≤10 mm結(jié)節(jié),其整體診斷效能更優(yōu);對(duì)于>10 mm結(jié)節(jié),醫(yī)師C-TIRADS分類診斷的準(zhǔn)確度、靈敏度、特異性更好。