胡艷,劉洋,鄭伊能,,肖智博,陳麗平,張劍,戴夢(mèng)瑩,李光輝,鐘雨晴,馬斯,呂發(fā)金*
作者單位:1.重慶醫(yī)科大學(xué)超聲醫(yī)學(xué)工程國(guó)家重點(diǎn)實(shí)驗(yàn)室生物醫(yī)學(xué)工程學(xué)院,重慶400016;2.重慶醫(yī)科大學(xué)附屬第一醫(yī)院放射科,重慶400016
卵巢上皮性腫瘤是卵巢腫瘤中最常見(jiàn)的類(lèi)型,可根據(jù)其是否具有異常增殖分化與侵襲性分為良性、交界性和惡性三種類(lèi)型[1],患者的治療及預(yù)后方案都與腫瘤類(lèi)型有關(guān)[2-6],因此,三者的術(shù)前鑒別對(duì)患者的治療和預(yù)后具有重要意義。MRI 因其無(wú)創(chuàng)、軟組織的分辨率高的優(yōu)點(diǎn),對(duì)卵巢腫瘤組織病理學(xué)類(lèi)型的鑒別有很大的幫助,目前已被廣泛應(yīng)用于卵巢腫瘤的鑒別診斷和預(yù)后評(píng)估中[7-10],有報(bào)道稱(chēng)MRI 在良、惡性卵巢上皮性腫瘤鑒別中的準(zhǔn)確度可高達(dá)90%[11],但也有研究表明,在常規(guī)MRI上交界性與惡性卵巢上皮性腫瘤有許多相似的形態(tài)學(xué)特征,這使得鑒別診斷變得困難[12]。此外,傳統(tǒng)的影像診斷大多依賴(lài)于影像醫(yī)生主觀(guān)判斷,個(gè)人經(jīng)驗(yàn)在其中起著較為重要的作用,主觀(guān)影響較大[13]。
影像組學(xué)不但可以通過(guò)分析病變形狀和紋理特征從而識(shí)別肉眼無(wú)法觀(guān)測(cè)到的反映腫瘤特異性的影像學(xué)特征[14-17],且相較于傳統(tǒng)的影像學(xué)評(píng)估方法具有更高的診斷效能和可重復(fù)性[18-20]。目前已有研究將影像組學(xué)方法應(yīng)用于卵巢腫瘤類(lèi)型的鑒別診斷上,但以良性與惡性、交界性與惡性的二分類(lèi)鑒別研究居多[21-25]。Song 等[26]進(jìn)行了良性、交界性和惡性卵巢腫瘤三分類(lèi)的鑒別研究,但僅采用了一種機(jī)器學(xué)習(xí)算法用于建模,且病例數(shù)較少(82例)。本研究在更多數(shù)據(jù)量(300 例)的基礎(chǔ)上,采用多種機(jī)器學(xué)習(xí)分類(lèi)器與多種特征篩選方法來(lái)建立影像組學(xué)分類(lèi)模型,對(duì)影像組學(xué)方法在良性、交界性和惡性卵巢上皮性腫瘤鑒別問(wèn)題上的可行性做進(jìn)一步探索。此外,大量研究表明,不同的影像組學(xué)模型會(huì)對(duì)疾病的診斷效能產(chǎn)生一定的影響[27-30],因此本研究擬基于MRI 常規(guī)T2WI 序列,評(píng)估不同影像組學(xué)模型在卵巢上皮性腫瘤術(shù)前三分類(lèi)鑒別中的診斷效能。
回顧性分析重慶醫(yī)科大學(xué)附屬第一醫(yī)院2013年1月至2020年12月術(shù)前行常規(guī)MRI檢查的300例卵巢上皮性腫瘤患者,年齡17~83 (47.95±14.02)歲。其中良性、交界性和惡性卵巢上皮性腫瘤患者各100例。
納入標(biāo)準(zhǔn):術(shù)后經(jīng)組織病理檢查確診為卵巢上皮性腫瘤的患者;既往無(wú)盆腔手術(shù)史和放化療史;術(shù)前有包含完整卵巢腫瘤的MRI圖像。
排除標(biāo)準(zhǔn):卵巢上皮性腫瘤復(fù)發(fā)患者;伴有妊娠患者。本研究經(jīng)過(guò)重慶醫(yī)科大學(xué)附屬第一醫(yī)院倫理委員會(huì)批準(zhǔn)(批準(zhǔn)文號(hào):2021-338),免除受試者知情同意。
使用GE Signa HDxt 1.5 T 和3.0 T MR 掃描儀,所有患者取仰臥位,采用8 通道腹部線(xiàn)圈進(jìn)行掃描,圖像掃描參數(shù)見(jiàn)表1。MR掃描圖像通過(guò)影像歸檔和通信系統(tǒng)以DICOM格式導(dǎo)出,并抹除患者信息。
表1 T2WⅠ序列掃描參數(shù)Tab.1 Scanning parameters of T2WⅠsequence
1.3.1 圖像預(yù)處理與感興趣區(qū)域勾畫(huà)
首先對(duì)原圖像進(jìn)行預(yù)處理,包括重采樣、標(biāo)準(zhǔn)化和N4 偏置場(chǎng)校正(N4 Bias Field Correction),以減少圖像間的偏差,其中重采樣使用雙線(xiàn)性插值法,以保證圖像體素大小的均一性和各向同性;標(biāo)準(zhǔn)化采用的是Z-score Normalization,以加快模型訓(xùn)練的收斂速度。再對(duì)圖像進(jìn)行N4 偏置場(chǎng)校正,以解決磁共振圖像采集過(guò)程中因設(shè)備抖動(dòng)或患者身體的輕微活動(dòng)造成的磁場(chǎng)分布不均勻問(wèn)題。將T2WI序列上的整個(gè)腫瘤區(qū)域作為ROI,由兩名具有6 年以上閱片經(jīng)驗(yàn)的影像診斷醫(yī)師采用雙盲法在ITK-SNAP(3.8 版本)上沿腫瘤邊緣手動(dòng)逐層勾畫(huà),獲取三維感興趣區(qū)域(volume of interest,VOI),對(duì)有爭(zhēng)議的病例,兩人協(xié)商后達(dá)成共識(shí)。
1.3.2 影像組學(xué)特征提取
使用python 3.7.6 的影像組學(xué)包(PyRadiomics 3.0)提取圖像特征,共提取7 個(gè)影像組學(xué)特征簇的1288 個(gè)特征,包括14 個(gè)形狀特征,252 個(gè)直方圖特征,308 個(gè)灰度共生矩陣(gray level co-occurence matrix,GLCM)特征,224個(gè)灰度游程矩陣(gray level run length matrix,GLRLM)特征,224 個(gè)灰度區(qū)域大小矩陣(gray level size zone matrix,GLSZM)特征,70 個(gè)鄰域灰度差矩陣(neighbouring gray tone difference matrix,NGTDM)特征和196 個(gè)灰度相關(guān)矩陣(gray level dependence matrix,GLDM)特征。
1.3.3 數(shù)據(jù)預(yù)處理與特征篩選
將以上經(jīng)特征提取所獲得的全部原始數(shù)據(jù)進(jìn)行分組標(biāo)記,良性組記為“0”,交界性組記為“1”,惡性組記為“2”,采用標(biāo)準(zhǔn)化對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,并對(duì)缺失值進(jìn)行填充,對(duì)異常值進(jìn)行平衡。以最小絕對(duì)收縮選擇算子(least absolute shrinkage and selection operator,LASSO)、遞歸特征消除法(recursive feature elimination,RFE)、單變量特征選擇法(univariate feature selection,UFS)和互信息特征選擇法(mutual information,MI)為特征篩選方法,各從1288 個(gè)特征中篩選出與分類(lèi)相關(guān)性最高的前10個(gè)特征。
1.4.1 建立影像組學(xué)分類(lèi)模型
選用7 種有監(jiān)督機(jī)器學(xué)習(xí)分類(lèi)算法:邏輯回歸(logistic regression,LR)、支持向量機(jī)(support vector machine,SVM)、隨機(jī)森林(random forest,RF)、K 近鄰(K nearest neighbor,KNN)、決策樹(shù)(decision tree,DT)、高斯樸素貝葉斯(GaussianNB,GNB)和Adaboost集成分類(lèi)器(Adaptive Boosting,AB)。將上述7種機(jī)器學(xué)習(xí)算法所對(duì)應(yīng)的分類(lèi)器與1.3.3 中的4 種特征選擇方法兩兩組合,共建立28 (4×7=28)個(gè)分類(lèi)預(yù)測(cè)模型,并以“特征選擇方法-機(jī)器學(xué)習(xí)分類(lèi)器”的模式對(duì)其進(jìn)行命名,如結(jié)合RFE 特征選擇法和KNN 分類(lèi)器所建立的模型,則命名為“RFE-KNN”。將所有病例數(shù)按8∶2.隨機(jī)劃分為訓(xùn)練集和測(cè)試集,利用3 次10 折交叉驗(yàn)證對(duì)模型進(jìn)行訓(xùn)練,并在測(cè)試集上進(jìn)行驗(yàn)證,獲取測(cè)試集的ROC曲線(xiàn)和分類(lèi)混淆矩陣。
1.4.2 模型評(píng)價(jià)
采用AUC 和準(zhǔn)確度對(duì)各模型的分類(lèi)預(yù)測(cè)效能進(jìn)行綜合評(píng)價(jià)。
表2 各組腫瘤病理構(gòu)成情況(例)Tab.2 Pathological composition of tumors in each group(cases)
圖1 為測(cè)試集上各分類(lèi)模型的宏平均AUC 和準(zhǔn)確度熱圖,圖中橫坐標(biāo)代表7種不同的機(jī)器學(xué)習(xí)分類(lèi)器,縱坐標(biāo)代表4 種不同的特征選擇方法,顏色越深代表數(shù)值越大。圖1A 顯示的是28 個(gè)分類(lèi)模型在測(cè)試集上的宏平均AUC,AUC 評(píng)分范圍為0.79 到0.94。其中AUC 大于等于0.90 的分類(lèi)模型有6 個(gè),按AUC 從高到低排序分別是RFE-KNN、UFS-KNN、RFE-SVM、RFE-RF、RFE-DT 和LASSO-KNN,它們的AUC 分別為0.94、0.92、0.91、0.91、0.90 和0.90。圖1B 顯示的是28 個(gè)分類(lèi)模型在測(cè)試集上的準(zhǔn)確度,準(zhǔn)確度評(píng)分范圍為0.63 到0.83,其中準(zhǔn)確度大于0.80 的分類(lèi)模型有3個(gè),按準(zhǔn)確度從高到低分別是RFE-KNN、RFE-DT和UFS-KNN,準(zhǔn)確度分別為0.83、0.80 和0.80。結(jié)合各分類(lèi)模型在測(cè)試集上的AUC 和準(zhǔn)確度,可以看出RFE-KNN模型的分類(lèi)性能優(yōu)于其他模型。RFE-KNN模型在測(cè)試集上的宏平均AUC 和準(zhǔn)確度分別為0.94和0.83。
圖1 測(cè)試集上各分類(lèi)模型的宏平均AUC 和準(zhǔn)確度熱圖。A:測(cè)試集上各模型的宏平均AUC;B:測(cè)試集上各模型的準(zhǔn)確度;LASSO:最小絕對(duì)收縮選擇算子;RFE:遞歸特征消除法;UFS:?jiǎn)巫兞刻卣鬟x擇法;MⅠ:互信息特征選擇法;LR:邏輯回歸分類(lèi)器;DT:決策樹(shù)分類(lèi)器;RF:隨機(jī)森林分類(lèi)器;AB:Adaboost 集成分類(lèi)器;SVM:支持向量機(jī)分類(lèi)器;KNN:K 近鄰分類(lèi)器;GNB:高斯樸素貝葉斯分類(lèi)器 圖2 遞歸特征消除法(recursive feature elimination,RFE)-K 近鄰(K nearest neighbor,KNN)分類(lèi)器模型在測(cè)試集上的ROC曲線(xiàn)和混淆矩陣圖。A:RFE-KNN模型在測(cè)試集上的ROC曲線(xiàn)圖;B:RFE-KNN模型在測(cè)試集上的分類(lèi)混淆矩陣Fig. 1 Macro-average AUC and accuracy heat map of each classification model in the testing sets. A: Macro-average AUC of each classification model in the testing sets. B:Accuracy of each classification model in the testing sets. Fig. 2 ROC curve and confusion matrix of RFE-KNN model in the testing sets.A: ROC curve of RFE-KNN model in the testing sets;B:Classification confusion matrix of RFE-KNN model in the testing sets.注:LASSO:最小絕對(duì)收縮選擇算子;RFE:遞歸特征消除法;UFS:?jiǎn)巫兞刻卣鬟x擇法;MⅠ:互信息特征選擇法;LR:邏輯回歸分類(lèi)器;DT:決策樹(shù)分類(lèi)器;RF:隨機(jī)森林分類(lèi)器;AB:Adaboost集成分類(lèi)器;SVM:支持向量機(jī)分類(lèi)器;KNN:K近鄰分類(lèi)器;GNB:高斯樸素貝葉斯分類(lèi)器。
表3 為測(cè)試集上4 種特征選擇方法中的每一種方法單獨(dú)與7 種分類(lèi)器相結(jié)合所構(gòu)建的7 個(gè)分類(lèi)模型的AUC和準(zhǔn)確度均值,以比較單一特征選擇方法在本數(shù)據(jù)集上的分類(lèi)預(yù)測(cè)性能??梢?jiàn),4 種特征選擇方法中表現(xiàn)最優(yōu)的為RFE,AUC 均值和準(zhǔn)確度均值分別為0.899和0.760。
表3 測(cè)試集上4種特征選擇方法對(duì)應(yīng)模型的AUC均值和準(zhǔn)確度均值Tab.3 AUC mean and accuracy mean of the models corresponding to the four feature selection methods in the testing sets
表5 為7 種機(jī)器學(xué)習(xí)分類(lèi)器中的每一種分類(lèi)器單獨(dú)與4 種特征選擇方法相結(jié)合所構(gòu)建的4 個(gè)分類(lèi)模型的AUC均值和準(zhǔn)確度均值,以比較單一機(jī)器學(xué)習(xí)分類(lèi)器在本數(shù)據(jù)集上的分類(lèi)預(yù)測(cè)性能??梢?jiàn),7 種機(jī)器學(xué)習(xí)分類(lèi)器中表現(xiàn)最優(yōu)的為KNN,AUC 均值和準(zhǔn)確度均值分別為0.903和0.783。
表5 測(cè)試集上7種機(jī)器學(xué)習(xí)分類(lèi)器對(duì)應(yīng)模型的AUC均值和準(zhǔn)確度均值Tab.5 AUC mean and accuracy mean of the corresponding models of the seven machine learning classifiers in the testing sets
表4 為RFE-KNN 模型在訓(xùn)練集和測(cè)試集上各項(xiàng)評(píng)價(jià)指標(biāo)的得分情況,圖中標(biāo)簽0 代表良性腫瘤,標(biāo)簽1 代表交界性腫瘤,標(biāo)簽2 代表惡性腫瘤。訓(xùn)練集上良性組、交界性組和惡性組的AUC 分別為0.97、0.91和0.96,測(cè)試集上良性組、交界性組和惡性組的AUC分別為0.94、0.93和0.96。
表4 遞歸特征消除法-K近鄰分類(lèi)器模型在訓(xùn)練集和測(cè)試集中的評(píng)價(jià)結(jié)果Tab.4 Evaluation results of RFE-KNN model in the training and testing sets
圖2是RFE-KNN模型在測(cè)試集上的ROC曲線(xiàn)和混淆矩陣,圖中標(biāo)簽0 代表良性腫瘤,標(biāo)簽1 代表交界性腫瘤,標(biāo)簽2代表惡性腫瘤。圖2A是RFE-KNN模型在測(cè)試集上的ROC 曲線(xiàn)圖,圖中展示了良性組、交界性組和惡性組的ROC 曲線(xiàn),及AUC 分別為0.94、0.93 和0.96,此外三組的宏平均AUC 和微平均AUC,均為0.94。圖2B 是RFE-KNN 模型在測(cè)試集上的分類(lèi)混淆矩陣,橫坐標(biāo)代表預(yù)測(cè)類(lèi)別,縱坐標(biāo)代表真實(shí)類(lèi)別,由混淆矩陣我們可以看出良性組、交界性組和惡性組發(fā)生誤判的百分比分別為10.5% (2/19);25.0%(6/24),11.8% (2/17)。通過(guò)分析RFE-KNN 模型在測(cè)試集上的ROC曲線(xiàn)和混淆矩陣,可以看出發(fā)生誤判情況最多的是交界性組。
本研究針對(duì)卵巢上皮性腫瘤三分類(lèi)問(wèn)題,建立和驗(yàn)證了一種基于MRI常規(guī)T2WI序列的影像組學(xué)模型,用于鑒別良性、交界性和惡性卵巢上皮性腫瘤。在我們的研究中,28個(gè)分類(lèi)模型對(duì)卵巢上皮性腫瘤類(lèi)型的預(yù)測(cè)性能各不相同,AUC 范圍從0.79 到0.94 不等,整體預(yù)測(cè)性能表現(xiàn)良好,證明了影像組學(xué)模型在卵巢腫瘤三分類(lèi)研究中具有一定的可行性,同時(shí)也驗(yàn)證了不同影像組學(xué)模型對(duì)同一疾病的診斷效能是有影響的。從我們的結(jié)果來(lái)看,所采用的特征選擇方法中表現(xiàn)最好的是RFE。在既往的文獻(xiàn)中,RFE 在疾病分類(lèi)和預(yù)后預(yù)測(cè)上的有效性已得到了廣泛認(rèn)可[31-33],在不同特征選擇方法的比較方面,Wang 等[34]認(rèn)為,在肺部良惡性病變鑒別診斷中,RFE 的表現(xiàn)優(yōu)于t檢驗(yàn)和LASSO,基于我們的數(shù)據(jù)集,我們發(fā)現(xiàn)RFE特征選擇方法在卵巢上皮性腫瘤三分類(lèi)中的表現(xiàn)優(yōu)于LASSO、UFS和MI。同時(shí),我們所選用的分類(lèi)器中表現(xiàn)最好的是KNN,它是機(jī)器學(xué)習(xí)中最簡(jiǎn)單最常見(jiàn)的分類(lèi)器之一,該分類(lèi)器的核心主要是度量測(cè)試集和訓(xùn)練集樣本之間的距離或相似性,因?yàn)橛兄己玫倪m應(yīng)性,KNN被廣泛用于大數(shù)據(jù)的分類(lèi)中[35-38]。在我們的實(shí)驗(yàn)中,KNN 的表現(xiàn)優(yōu)于其他6種分類(lèi)器,證明了其在卵巢上皮性腫瘤術(shù)前三分類(lèi)中的有效性和優(yōu)越性。
基于我們的數(shù)據(jù)集,以RFE為特征篩選方法,KNN為分類(lèi)器的RFE-KNN 模型在卵巢上皮性腫瘤三分類(lèi)中表現(xiàn)最好。Song 等[26]曾采用影像組學(xué)方法來(lái)鑒別良性、交界性和惡性卵巢腫瘤,他們的研究共納入82個(gè)病例,104個(gè)病灶,建立了一種基于動(dòng)態(tài)對(duì)比增強(qiáng)磁共振成像(dynamic contrast-enhanced magnetic resonance imaging,DCE-MRI)的藥物代謝動(dòng)力學(xué)模型,他們的測(cè)試結(jié)果顯示,良性組、交界性組和惡性組的AUC 值分別為0.893、0.944 和0.891。與他們的研究不同的是,我們的研究基于MRI 常規(guī)序列T2WI,共納入300 個(gè)病例,351 個(gè)病灶,采用4 種特征選擇方法和7 種機(jī)器學(xué)習(xí)分類(lèi)器,兩兩組合建立了28 個(gè)影像組學(xué)分類(lèi)模型,比較了各模型的分類(lèi)預(yù)測(cè)性能,其中預(yù)測(cè)性能最好的是RFE-KNN 模型。由圖2A RFE-KNN 模型在測(cè)試集上的ROC 曲線(xiàn)圖可見(jiàn),在我們的模型中良性組(標(biāo)簽0)、交界性組(標(biāo)簽1)和惡性組(標(biāo)簽2)的AUC 值分別為0.94、0.93 和0.96,整體略?xún)?yōu)于Song等的研究。
根據(jù)我們的研究結(jié)果,交界性組發(fā)生誤判的比例高于良性組和惡性組,這與臨床經(jīng)驗(yàn)是一致的。以往的研究表明,與良惡性腫瘤相比,交界性腫瘤在影像學(xué)診斷中最易發(fā)生誤診,這與腫瘤的影像表現(xiàn)有直接的聯(lián)系,由于卵巢腫瘤的影像表現(xiàn)通常是重疊和非特異性的,且交界性腫瘤在影像上的宏觀(guān)特征可能與良性和惡性卵巢腫瘤相似或重疊[39-40],導(dǎo)致交界性腫瘤在傳統(tǒng)影像學(xué)診斷中不易鑒別。我們的組學(xué)模型也有誤判的情況,但總體來(lái)說(shuō)發(fā)生誤判的比例在可接受范圍內(nèi),相較于傳統(tǒng)影像學(xué)診斷,影像組學(xué)在卵巢腫瘤診斷方面仍是一個(gè)更加客觀(guān)、可重復(fù)性更高的診斷方法。
我們的研究有以下幾個(gè)局限,首先這是一個(gè)回顧性研究,在圖像數(shù)據(jù)選擇方面由于時(shí)間跨度大難免出現(xiàn)偏差,雖然相對(duì)以往的研究在數(shù)據(jù)量上有所提升,但總體數(shù)據(jù)量依然比較小。其次,我們的數(shù)據(jù)來(lái)源是單中心的,往后的研究還需要多中心數(shù)據(jù)來(lái)驗(yàn)證該方法的普適性。在未來(lái),基于大數(shù)據(jù)的前瞻性、多中心、多序列研究將會(huì)有更廣闊的應(yīng)用前景。
綜上所述,我們所建立的影像組學(xué)模型在良性、交界性和惡性卵巢上皮性腫瘤鑒別診斷上具有可行性?;谖覀兊臄?shù)據(jù)集,RFE-KNN 模型在卵巢上皮性腫瘤三分類(lèi)鑒別診斷上表現(xiàn)最好,可為臨床診斷卵巢上皮性腫瘤類(lèi)型提供決策支持。
作者利益沖突聲明:全部作者均聲明無(wú)利益沖突。