孫芳 石巖 劉菲菲 鄒穎 崔廣和 夏爽
甲狀腺結(jié)節(jié)是臨床上最常見的內(nèi)分泌系統(tǒng)疾病之一,發(fā)病率逐年增加,以超聲檢查統(tǒng)計的甲狀腺結(jié)節(jié)患病率為20%~76%[1]。甲狀腺結(jié)節(jié)包括良性結(jié)節(jié)和惡性結(jié)節(jié),兩者治療方式及預(yù)后不盡相同,大部分良性結(jié)節(jié)僅需要長期隨訪和監(jiān)測,不需要干預(yù),預(yù)后良好;而惡性結(jié)節(jié)最常見的治療方式為手術(shù)治療,且發(fā)生頸部淋巴結(jié)轉(zhuǎn)移的概率為50%~80%[2]。因此,甲狀腺結(jié)節(jié)良惡性的鑒別對其治療尤為重要。
2015 年美國甲狀腺協(xié)會(American Thyroid Association,ATA)發(fā)布的甲狀腺結(jié)節(jié)診治指南中,推薦超聲作為篩查甲狀腺結(jié)節(jié)的首選方法[3]。但是,部分結(jié)節(jié)超聲特征不典型,常規(guī)超聲對其良惡性的鑒別較困難。機器學(xué)習(xí)是人工智能的主分支之一,主要包括支持向量機(support vector machines,SVM)、Logistic 回歸分析、分類回歸樹(classification and regression tree,C&R)、決策樹(decision tree,C5.0)、貝葉斯網(wǎng)絡(luò)和類神經(jīng)網(wǎng)絡(luò)等模型[4],可以利用大型復(fù)雜數(shù)據(jù)集建立預(yù)測模型,從而消除觀測者主觀判斷差異,正在越來越多地被用于醫(yī)學(xué)領(lǐng)域[4-5]。目前采用機器學(xué)習(xí)模型預(yù)測甲狀腺結(jié)節(jié)良惡性的研究較少,本研究旨在基于超聲影像特征構(gòu)建機器學(xué)習(xí)模型,選擇最佳模型以準確預(yù)測甲狀腺結(jié)節(jié)的良惡性。
1.1 一般資料 回顧性納入2017 年1 月—2019年12 月于濱州醫(yī)學(xué)院附屬醫(yī)院甲狀腺外科就診的甲狀腺結(jié)節(jié)病人2 410 例,其中男566 例(23.5%),女 1 844 例(76.5%);年齡 18~87 歲,平均(45.11±10.35)歲。共計 2 516 個結(jié)節(jié),結(jié)節(jié)大小 0.4~7.5 cm,平均(1.23±0.77)cm。其中,良性結(jié)節(jié) 929 個(36.9%),包括亞急性甲狀腺炎、甲狀腺腺瘤、結(jié)節(jié)性甲狀腺腫;惡性結(jié)節(jié)1 587 個(63.1%),包括乳頭狀癌、髓樣癌、濾泡狀癌、未分化癌。納入標準:①行穿刺活檢或手術(shù)治療;②術(shù)前1 周行常規(guī)超聲檢查,影像清晰;③一般資料、超聲影像及病理資料完整。排除標準:①超聲影像中結(jié)節(jié)顯示不完整,周圍甲狀腺組織不清晰;②既往有甲狀腺手術(shù)史或頸部放射治療史。
1.2 設(shè)備與方法 使用 LOGIQ E9、SuperSonic Imagine AixPlorer、Mylab Twice 及 RS80A 等彩色多普勒超聲診斷儀進行超聲檢查,選擇L4-15 線陣探頭,頻率為4~15 MHz。由2 名具有5 年以上診斷經(jīng)驗的超聲醫(yī)師分析二維超聲影像,意見不一致時,與更高年資醫(yī)師討論后確定最終結(jié)果。記錄病人的年齡、性別、是否伴有橋本氏甲狀腺炎(Hashimoto’s thyroiditis,HT)。分析結(jié)節(jié)生長特征:單發(fā)/多發(fā)、最大結(jié)節(jié)大小(<1.0 cm、≥1.0 cm)、結(jié)節(jié)部位(上極、中部、下極、峽部)。根據(jù)2017 版美國放射學(xué)會甲狀腺影像報告與數(shù)據(jù)系統(tǒng)(Thyroid Imaging Reporting and Data System,TI-RADS)分析超聲影像特征(圖 1),包括結(jié)構(gòu)(囊實性、實性)、回聲(極低回聲、低回聲、高回聲或等回聲)、形狀(縱橫比>1 或≤1)、邊緣(平滑、不清晰、不規(guī)則)、有無微鈣化、是否伴有甲狀腺包膜外侵犯(extra-thyroidal extension,EXE)等。
圖1 甲狀腺結(jié)節(jié)超聲特征。A 圖,可見多發(fā)結(jié)節(jié)(白箭),較大者位于右葉上極,最大直徑2.8 cm,為囊實性回聲,邊緣平滑,縱橫比<1,無微鈣化,無EXE。B 圖,可見單發(fā)結(jié)節(jié)(白箭),位于左葉中部,最大直徑1.5 cm,實性低回聲,邊緣不規(guī)則,縱橫比>1,微鈣化,有EXE。
1.3 模型建立與驗證 使用SPSS Modeler18.0 統(tǒng)計軟件構(gòu)建機器學(xué)習(xí)模型。所有結(jié)節(jié)由軟件隨機分為訓(xùn)練隊列和驗證隊列,訓(xùn)練隊列包括1 992 個結(jié)節(jié)(80%),驗證隊列包括524 個結(jié)節(jié)(20%)。在訓(xùn)練隊列和驗證隊列,分別使用SVM、Logistc 回歸分析、分類回歸樹(C&R)、決策樹(C5.0)、貝葉斯網(wǎng)絡(luò)和類神經(jīng)網(wǎng)絡(luò)6 個分類器構(gòu)建機器學(xué)習(xí)模型。在模型構(gòu)架節(jié)點的分析選項卡中選擇計算原始傾向評分,并分析不同模型的預(yù)測能力。根據(jù)受試者操作特征(ROC)曲線下面積(AUC)選擇預(yù)測能力最高的機器學(xué)習(xí)模型,通過軟件對各變量所占重要性比例進行評估,篩選出預(yù)測重要變量?;谟?xùn)練隊列數(shù)據(jù)繪制列線圖,并基于訓(xùn)練隊列及驗證隊列數(shù)據(jù)繪制校準曲線對列線圖進行驗證。
1.4 統(tǒng)計學(xué)方法 采用SPSS 25.0 軟件對數(shù)據(jù)進行分析。計數(shù)資料以個(%)表示,2 組間比較采用χ2檢驗。應(yīng)用MedCalc 軟件,采用ROC AUC 對模型的原始傾向評分進行評估,分析6 種模型在訓(xùn)練隊列和驗證隊列的預(yù)測能力,并使用DeLong 檢驗比較6 種模型的預(yù)測能力。使用R 軟件(4.0.2 版本)繪制列線圖及校準曲線。P<0.05 為差異有統(tǒng)計學(xué)意義。
2.1 2 個隊列的臨床及超聲特征比較 訓(xùn)練隊列和驗證隊列的臨床及超聲特征的差異均無統(tǒng)計學(xué)意義(均P>0.05),見表 1。
表1 訓(xùn)練和驗證隊列的臨床和超聲特征比較 個(%)
2.2 2 個隊列中6 種機器學(xué)習(xí)模型的預(yù)測能力 在訓(xùn)練隊列和驗證隊列中,SVM、Logistic 回歸分析、C&R、C5.0、貝葉斯網(wǎng)絡(luò)和類神經(jīng)網(wǎng)絡(luò)預(yù)測能力的AUC 分析見表 2,Delong 檢驗表明SVM 模型的預(yù)測能力最佳,均高于其他5 種模型(均P<0.05),因此SVM 為最佳模型。訓(xùn)練隊列和驗證隊列采用6 種機器學(xué)習(xí)模型對甲狀腺結(jié)節(jié)良惡性預(yù)測能力的ROC曲線分析見圖2。
圖2 6 種模型對甲狀腺結(jié)節(jié)良惡性預(yù)測能力的ROC 曲線。A、B 圖分別為訓(xùn)練隊列和驗證隊列。
表2 6 種模型在訓(xùn)練和驗證隊列中預(yù)測能力的AUC 分析
2.3 預(yù)測重要變量的列線圖分析 選取SVM 篩選的6 個預(yù)測重要變量繪制列線圖(圖3),結(jié)果顯示縱橫比>1、微鈣化、EXE 評分最高,其次為邊緣、HT及回聲水平;訓(xùn)練隊列及驗證隊列的校準曲線均顯示,該列線圖的預(yù)測結(jié)果與實際結(jié)果有良好的一致性(圖 4)。
圖3 SVM 模型篩選的預(yù)測變量繪制的列線圖。每一個變量對應(yīng)的線段上都標注了刻度,代表了該變量的可取值范圍,而線段的長度則反映了該因素對甲狀腺惡性概率的貢獻大小。
圖4 驗證列線圖的校準曲線。A、B 圖分別為訓(xùn)練隊列和驗證隊列。Y 軸為實際的甲狀腺結(jié)節(jié)惡性概率,X 軸為模型預(yù)測的惡性概率,對角虛線表示理想模型的預(yù)測,黑色實線表示列線圖的性能,其中與對角虛線越接近則表示預(yù)測效能越好。
常規(guī)超聲作為診斷甲狀腺結(jié)節(jié)的首選方法,其敏感度只有27%~63%[6]。目前臨床上主要通過甲狀腺細針穿刺活檢(fine-needled aspiration,F(xiàn)NA)檢查確診結(jié)節(jié)良惡性,但敏感度為54%~90%,特異度為60%~98%[7]。而FNA 為有創(chuàng)檢查,因此需要一種無創(chuàng)性且更準確的檢查方法預(yù)測甲狀腺結(jié)節(jié)的良惡性,以指導(dǎo)臨床進行下一步治療。目前機器學(xué)習(xí)在醫(yī)學(xué)方面的應(yīng)用越來越多[8-9],既往臨床研究使用機器學(xué)習(xí)模型研究疾病的診斷及治療策略[10-11],結(jié)果表明,機器學(xué)習(xí)可為臨床診斷及治療提供指導(dǎo)意義。本研究比較了6 種機器學(xué)習(xí)模型預(yù)測甲狀腺結(jié)節(jié)的良惡性,得出SVM 具有最高的預(yù)測能力。
3.1 機器學(xué)習(xí)模型分析 本研究選取了SVM、Logistic 回歸分析、C&R、C5.0、貝葉斯網(wǎng)絡(luò)和類神經(jīng)網(wǎng)絡(luò)6 種機器學(xué)習(xí)模型預(yù)測甲狀腺結(jié)節(jié)的良惡性。結(jié)果顯示,在訓(xùn)練隊列和驗證隊列中SVM 對甲狀腺結(jié)節(jié)均有最高的預(yù)測能力。既往研究評估甲狀腺結(jié)節(jié)及其他結(jié)節(jié)如肺結(jié)節(jié)良惡性程度的研究主要基于Logistic 回歸分析[12-13]。SVM 分析方法與Logistic 回歸分析完全不同,Logistic 回歸分析使用加權(quán)最小二乘算法,而SVM 基于結(jié)構(gòu)風(fēng)險最小化準則和Vapnik-Chervonenkis 概念,不管因變量的實際概率如何,可直接找到最佳劃分超平面,可以最大程度地減少一般的分類錯誤[9,14]。對于其他模型,C5.0 模型通過“是”與“否”來分類數(shù)據(jù),但僅適用于小規(guī)模數(shù)據(jù)集;類神經(jīng)網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)模型主要用于處理非線性關(guān)系的臨床數(shù)據(jù),且需要大量的參數(shù)[15];分類回歸樹模型不能有效反映高度線性關(guān)系的數(shù)據(jù)結(jié)構(gòu),尤其是對于某一因素單獨作用效應(yīng)的定量解釋不及SVM 模型準確[16]。由于SVM 能夠通過對大量數(shù)據(jù)集的訓(xùn)練最終轉(zhuǎn)化為凸優(yōu)化問題,保證算法的全局最優(yōu)性,可避免上述模型的局限性。本研究樣本量大,且甲狀腺結(jié)節(jié)超聲特征參數(shù)多,因此在本研究中,SVM 較其他模型具有較高的預(yù)測甲狀腺結(jié)節(jié)良惡性的能力。
3.2 預(yù)測重要變量分析 通過SVM 模型篩選重要變量并繪制列線圖,結(jié)果顯示縱橫比>1、微鈣化、EXE 評分最高。2017 版TI-RADS 將不同的超聲征象賦予不同的積分值,通過總積分判斷結(jié)節(jié)的惡性風(fēng)險,積分值越高則提示結(jié)節(jié)惡性風(fēng)險越大,其中微鈣化、縱橫比>1、EXE 均被賦值為最高分 3 分[17]。同樣,本研究顯示縱橫比>1、微鈣化、EXE 評分最高。許多研究證實縱橫比可以作為預(yù)測甲狀腺結(jié)節(jié)良惡性的獨立或聯(lián)合判斷變量[18]。目前國內(nèi)外關(guān)于超聲評估甲狀腺結(jié)節(jié)良惡性風(fēng)險的指南中,均將縱橫比作為一項重要的評估指標[19]。鈣化也是鑒別甲狀腺結(jié)節(jié)良惡性的重要指標,由于甲狀腺惡性結(jié)節(jié)生長迅速,血管及纖維增生可導(dǎo)致鈣鹽沉積,從而產(chǎn)生微鈣化(長徑<1 mm 的鈣化),因此微鈣化與甲狀腺癌密切相關(guān);其與其他超聲特征相比較,敏感度最高[20]。2017 版 TI-RADS 將 EXE 賦值為 3 分,將其作為高度可疑的惡性指標之一[17]。甲狀腺惡性結(jié)節(jié)的侵襲性生長及直立生長,易突破包膜,因而伴有EXE 是甲狀腺良惡性的重要鑒別指標,也是發(fā)生中央?yún)^(qū)淋巴結(jié)轉(zhuǎn)移的獨立危險因素[21]。
列線圖分析發(fā)現(xiàn),縱橫比>1、微鈣化、伴有EXE這3 個變量中任意2 個變量聯(lián)合其他變量預(yù)測甲狀腺結(jié)節(jié)惡性概率較高。在臨床工作中,選擇具備其中2 個變量特征的結(jié)節(jié)進行細針抽吸術(shù),可避免不必要的有創(chuàng)性檢查。同時,本研究篩選的重要變量及繪制的列線圖,均將HT 納入危險因素。HT 對甲狀腺乳頭狀癌的生物學(xué)特征是否存在影響尚不明確[22],其對結(jié)節(jié)的邊緣、內(nèi)部回聲及微鈣化可能存在影響,因此對于患有HT 的甲狀腺結(jié)節(jié),在進行診斷時應(yīng)結(jié)合多個超聲特征綜合分析。
3.3 小結(jié) 本研究結(jié)果顯示機器學(xué)習(xí)模型可用來預(yù)測甲狀腺結(jié)節(jié)的良惡性,SVM 具有最高的預(yù)測性能,可為臨床治療提供指導(dǎo)意義。本研究尚存在一定的局限性,所選取的病人為單中心沿海地區(qū)的住院病人,有一定的選擇偏倚,下一步需擴大樣本量,納入門診病人,同時進行多中心研究。其次,本研究的超聲特征由超聲醫(yī)師讀取,而不是直接從超聲影像中捕獲,未來的研究可使用機器學(xué)習(xí)模型直接從超聲影像中提取特征進行研究。