徐剛,陳鵬,李宇龍,朱蕓,謝宗玉*
作者單位 1.安徽理工大學附屬淮南新華醫(yī)院醫(yī)學影像科,淮南 232000;2.湖州市中心醫(yī)院放射科,湖州 313000;3.安徽理工大學附屬淮南新華醫(yī)院脊柱骨科,淮南 232000;4.蚌埠醫(yī)科大學第一附屬醫(yī)院放射科,蚌埠 233000
脊髓型頸椎?。╟ervical spondylotic myelopathy,CSM)是由于脊柱退行性改變或周圍結(jié)構受力情況發(fā)生變化而產(chǎn)生脊髓壓迫或缺血的一種神經(jīng)系統(tǒng)疾病,常導致肢體殘疾及嚴重的神經(jīng)功能損傷,是成人脊髓損傷最常見的病因[1-3]。MRI是診斷CMS最有效的影像學方法,可以清晰地觀察脊髓、椎間盤及周圍軟組織等結(jié)構及信號,進一步對CSM 進行診斷和危險度評估[4-5]。由于早期脊髓受壓或缺血并不會出現(xiàn)明顯信號異常,從而導致MRI 對CMS 診斷及危險度分級敏感性往往不高[6-7],因此,準確、客觀且有效地診斷CMS對臨床術前診斷和術后療效評價具有重要的意義。放射組學(radiomics)和機器學習(machine learning, ML)是一種通過量化和分析肉眼看不到的圖像信息進行診斷和分類的新技術,近年來受到學界廣泛關注[8-10]。有學者[11]開發(fā)了基于T2WI 圖像的影像組學模型,該模型很好地預測了CSM 術后恢復情況,HOPKINS 等[12]通過構建ML 模型很好的預測CSM 的嚴重程度,深度學習也可以用于CSM 的評估[13],因此ML 和影像組學在CSM 具有良好的應用前景。ML 中常用分類器方法包括邏輯回歸(logistic regression, LR)、自適應增強機(adabosst, AB)、貝葉斯算法(native bayes, NB)及支持向量機(support vector machine, SVM),其中LR 為常用的線性模型,在ML和影像組學應用中最為廣泛,各種增強機算法及SVM 算法也多用于ML模型,而NB類似于傳統(tǒng)的決策樹和神經(jīng)網(wǎng)絡,但是算法卻更為簡單和快速[14]。WANG 等[15]通過SVM 和NB 來預測CSM 的嚴重程度,ZHANG 等[16]通過14 個二元分類器構建最佳ML模型來預測CSM 患者的術后脊髓功能,均取得較好的預測效能。但是既往的研究多集中于評估術后療效,較少關注臨床表現(xiàn)和放射組學特征之間潛在聯(lián)系,并且對開發(fā)的機器模型缺乏一定的解釋,因此,本研究基于MRI 影像組學提取特征并建立不同ML模型對CSM 進行危險度分級,并分析特征與臨床表現(xiàn)之間的聯(lián)系,從而為臨床術前診斷提供參考。
回顧性分析2019 年9 月至2022 年5 月安徽理工大學附屬淮南新華醫(yī)院經(jīng)臨床診斷為CSM并行頸椎MRI 檢查的患者病例。納入標準:(1)臨床診斷符合CSM 診斷標準;(2)MRI 圖像清晰,臨床資料完善;(3)頸部無放化療及手術等病史。排除標準:(1)患者有除CSM外其他神經(jīng)系統(tǒng)疾病;(2)患者自主意識差等原因影響評分結(jié)果。通過日本骨科協(xié)會(Japanese Orthopaedic Association, JOA)評估治療分數(shù)[17]對可疑的CSM 患者進行評估,通過上肢運動功能、下肢運動功能、肢體感覺及膀胱功能四個方面來進行評估,根據(jù)JOA分數(shù)將CSM分為輕癥組(JOA分數(shù)13~16 分)和中重度組(JOA 分數(shù)5~12 分)。采用完全隨機方法將所有患者按7∶3 比例分為訓練組和驗證組。本研究遵守《赫爾辛基宣言》,經(jīng)安徽理工大學附屬淮南新華醫(yī)院倫理委員會批準,免除受試者知情同意,批準文號:新醫(yī)倫審(2019)3號。
采用1.5 T Achieva、3.0 T Ingenia DNA 磁共振掃描儀,16 通道高分辨頸胸腰一體化脊柱相控陣線圈(1.5 T Achieva 為獨立線圈,3.0 T Ingenia DNA 為掃描床一體線圈)進行頸椎常規(guī)軸位T2WI掃描。掃描范圍:C2/3~C6/7椎間盤。掃描序列參數(shù)見表1。
表1 不同磁共振掃描儀掃描序列參數(shù)Tab.1 Scanning sequence parameters of different magnetic resonance scanners
從影像存儲及傳輸系統(tǒng)(picture archiving and communication system, PACS)系統(tǒng)中以DICOM 格式導出病例圖像,使用Python(版本3.10.2,https://www.python.org)軟件將導出的DICOM 格式圖像轉(zhuǎn)化為NRRD 格式并導入ITK-SNAP 軟件(版本3.6.0,https://www.itksnap.org)。由2 名分別具有5 年以上和15 年以上診斷經(jīng)驗的主治醫(yī)師和副主任醫(yī)師在雙盲情況下手動勾畫橫軸位T2WI 脊髓受壓最嚴重節(jié)段感興趣區(qū)域(region of interest, ROI),在勾畫時避開椎間盤、硬膜囊及腦脊液(圖1)。將數(shù)據(jù)導入FAE(FAE,V0.5.2, https://github.com/salan668/FAE)軟件進行放射組學特征提取和圖像特征轉(zhuǎn)化,提取特征類型包括一階特征、二階特征及高階特征,圖像轉(zhuǎn)化包括小波變化、對數(shù)濾波及三維局部二值等。FAE軟件將所有提取的特征進行數(shù)據(jù)清洗,檢查數(shù)據(jù)中的空白信息,無效信息、文本信息及空數(shù)據(jù),并自動去除這些無效特征,保留有計算意義的特征,從而提升運算效率。
圖1 感興趣區(qū)勾畫。1A為頸椎橫軸位圖像;1B為勾畫后圖像,紅色為勾畫的脊髓感興趣區(qū)域。Fig.1 Delineation of the region of interest.1A is the transverse axis image of the cervical spine; 1B is the drawn image, and red is the drawn region of interest of the spinal cord.
為了保證操作者勾畫ROI 的可重復性和特征提取的一致性,進行組內(nèi)/間相關系數(shù)(intra-/inter- class correlation coefficient, ICC)評價。兩名醫(yī)師對所有患者圖像進行ROI 勾畫并進行放射組學特征提取,形成數(shù)據(jù)集(data set, DS)DS1、DS2,8 周后其中一名醫(yī)生對所有病例進行再次ROI 勾畫并提取放射組學特征,形成數(shù)據(jù)集DS3。將DS1 和DS2 的所有特征進行觀察者間一致性評價,將DS1 和DS3 的所有特征進行觀察內(nèi)一致性評價。認為兩次評價中ICC>0.8的特征具有良好的可重復性及一致性。
對訓練組所有患者放射組學特征使用人工少數(shù)類過采樣法(synthetic minority over-sampling technique,SMOTE)進行數(shù)據(jù)平衡,Z-score Normalization進行數(shù)據(jù)標準化,使得所有特征值統(tǒng)一度量,皮爾遜相關系數(shù)(Pearson correlation coefficient, PCC)進行維數(shù)縮減(設定PCC=0.80),遞歸特征消除(recursive feature elimination, RFE)進行特征篩選。對篩選后的特征分別使用LR、AB、NB 及SVM 四種分類器模型來構建ML模型,并進行10折交叉驗證。
采用SPSS 26.0 軟件和R 軟件(版本4.2.1)進行統(tǒng)計學分析。通過Kolmogorov-Smirnov 檢驗對計量資料進行正態(tài)性檢驗,正態(tài)分布使用(xˉ±s)標準差表示,組間比較采用獨立樣本t檢驗,不滿足正態(tài)分布使用中位數(shù)(四分位數(shù))表示,組間比較采用Mann-WhitneyU檢驗,計數(shù)資料比較采用皮爾森卡方檢驗。采用多因素logistic 回歸分析構建預測模型,通過受試者工作特征(receiver operating curve,ROC)曲線下面積(area under the curve, AUC)評價模型效能,DeLong檢驗用于比較兩個ROC曲線的性能,檢驗AUC的顯著性。P<0.05為差異有統(tǒng)計學意義。
最終入組病例317 例,其中男168 例,女149 例,年齡27~89(61.2±10.9)歲。使用JOA 評分將所有病例分為輕癥組和中重癥組,其中輕癥組193 例,男99 例,女94 例,年齡34~86(61.2±10.8)歲,中重癥組124 例,男69 例,女55 例,年齡27~89(61.2±11.0)歲。所有病例按7∶3 比例分為訓練組222 例和驗證組95 例。訓練組和驗證組病例的年齡、性別差異無統(tǒng)計學意義(P>0.05)(表2)。
表2 患者基本資料Tab.2 Basic information of patients
從CSM 輕癥組和中重癥組病例中各隨機抽取5 例作為小樣本進行聚類分析,經(jīng)數(shù)據(jù)標準化、數(shù)據(jù)降維后,選取前50個放射組學特征進行分析,結(jié)果顯示,輕癥組和中重癥組在聚類分析中分類效果明顯,放射組學特征之間具有一定相關性(輕癥組:F=34.891,P<0.001;中重癥組:F=90.353,P<0.001),對CSM風險具有一定的分級能力(圖2)。
圖2 放射組學特征聚類分析結(jié)果。2A:放射組學特征樹形圖;2B:放射組學特征熱圖。Fig.2 Cluster analysis results of radiomics characteristics.2A: Radiomics characteristics tree; 2B: Radiomics characteristics heat map.
FAE 軟件共提取1633 個放射組學特征,刪除無效特征和ICC<0.80 的特征后剩余758 個放射特征,經(jīng)數(shù)據(jù)標準化、降維及特征篩選后,剩余15個放射組學特征用來進行模型構建(表3)。使用SVM、AB、LR及NB四種分類器模型進行ML模型構建,結(jié)果顯示,SVM 及LR 在模型構建中效能較好(兩種模型訓練組AUC 為0.833 和0.831,驗證組AUC 為0.813 和0.812),AB 在訓練組中分類效果明顯(AUC=0.984),但是驗證組欠佳(AUC=0.725),模型穩(wěn)定性較SVM和LR 兩種分類器略差(表4、圖3)。通過DeLong 檢驗來比較各分類器ROC 曲線性能,檢驗AUC 的一致性,結(jié)果表明,SVM 和LR 兩種分類器之間差異無統(tǒng)計學意義(表5)。
圖3 各分類器的分類效果。3A:訓練組ROC 曲線;3B:驗證組ROC 曲線;3C:四種分類器的分類效果柱狀圖。ROC:受試者工作特征;LR:邏輯回歸;NB:貝葉斯算法;SVM:支持向量機;AB:自適應增強機;AUC:曲線下面積。Fig.3 Classification effect of each classifier.3A: ROC curve of the training group; 3B: ROC curve of the verification group; 3C: Histogram of classification effect of the four classifiers.ROC: receiver operating characteristic;LR: logistic regression; NB: native Bayes; SVM: support vector machine; AB: adaboost; AUC: area under the curve.
表3 經(jīng)RFE篩選的放射組學特征Tab.3 Radiomic characteristics screened by RFE
表4 不同分類器機器學習模型效能比較Tab.4 Effectiveness comparison of machine learning models for different classifiers
表5 不同模型AUC值的DeLong檢驗結(jié)果Tab.5 DeLong test results for AUC value of different models
本研究首次應用基于MRI 放射組學特征的ML模型對CSM 進行危險度分級,結(jié)果表明ML 模型能夠較為準確地對CSM 進行危險度分級,SVM 和LR模型的分級效果最佳(兩種模型訓練組AUC 為0.833 和0.831,驗證組AUC 為0.813 和0.812),模型穩(wěn)定性也較高,對臨床決策具有一定的參考價值。
CSM 已經(jīng)成為軀體疼痛和殘疾的重要病因[18]。目前多數(shù)研究認為,CSM 的直接病因是脊髓受壓缺血導致一部分神經(jīng)功能障礙,從而產(chǎn)生臨床癥狀,但是,在病理生理學上,CSM 臨床癥狀的直接病因還未完全了解清楚[19]。本研究中,對患者一般資料分析發(fā)現(xiàn),輕癥組和中重癥組之間年齡的性別的差異無統(tǒng)計學意義,說明CSM 疾病的危險度與年齡和性別無關。目前研究普遍認為CSM 是一種退行性疾病,本研究中最年輕患者為27歲,并且是中重癥組患者,可能的原因是椎管骨性結(jié)構的改變或獲得性損傷導致CSM 患者癥狀加重,而并非完全由椎間盤的退變導致,這與既往研究結(jié)果相符[20]。既往有研究表明,脊髓受壓嚴重患者臨床癥狀很輕,而脊髓輕度受壓患者其臨床癥狀卻很重,這可能與壓迫位置、神經(jīng)纖維束走向、腦脊液壓力及椎管狀態(tài)等因素有關[21]。因此,在臨床證據(jù)不明確時,影像學檢查對CSM的診斷有一定的價值,但目前日本和歐美等地區(qū)仍然以臨床表現(xiàn)作為首要的診斷因素,而影像學檢查僅作為一種支持診斷的依據(jù)[22-23]。
通過提取醫(yī)學圖像中高通量特征參數(shù)進行計算、分析和學習并進行分類處理的ML是近些年熱度較高的研究方法,因為信息量化明顯,可操作性和可分析性較強,因此被廣泛應用于病灶良惡性鑒別、病理類型鑒別、預測生物學行為及風險等級判定等方面[24-25]。ZHANG 等[11]利用MRI 影像組學模型來預測CSM 術后恢復情況,聯(lián)合臨床特征的影像組學模型AUC達到0.81,預測效能較好。ZHANG等[16]利用影像組學聯(lián)合ML來預測CSM患者預后效果,結(jié)果顯示SVM模型預測效果優(yōu)于常規(guī)放射模型,其AUC 為0.74±0.08。MERALI 等[26]通過MRI 建立深度學習模型評估CSM脊髓受壓情況,發(fā)現(xiàn)有助于幫助診斷醫(yī)師準確識別CSM 患者脊髓受壓狀態(tài)及預后評估。WANG 等[15]通過擴散張量成像(diffusion tensor imaging, DTI)聯(lián)合ML 尋找CSM 脊髓MRI 信號差異,從而得出基于小樣本頸椎DTI 圖像的ML 模型可以很好預測CSM 并且可以推斷出脊髓病變節(jié)段,而本研究中,通過提取最嚴重節(jié)段脊髓的放射組學特征,并且使用小樣本聚類分析也可得出CSM輕癥組和中重癥組之間特征具有一定的差異性,這與WANG 等研究結(jié)論相符。由此不難推斷,對于人眼未能發(fā)現(xiàn)的圖像和信號差異,影像組學能夠很好地尋找其差異性,并從具有差異的特征中尋找差異原因,可能為今后治療方案的臨床干預提供一定思路。其次,既往研究[11,16]多數(shù)提取的特征數(shù)較少,且圖像轉(zhuǎn)化形式較少,本研究中,提取了大量的高階放射組學特征,并且通過三維局部二值、小波變換、平方濾波和對數(shù)濾波等方式進行圖像轉(zhuǎn)化,從而發(fā)掘出更多的特征用于尋找差異,并用于常見的機器模型構建,四種ML 模型的AUC 均大于0.75,能夠很好對CSM 進行危險度分級。因此,利用ML 模型對CSM 患者進行術前診斷和術前分級均具有一定的優(yōu)勢和潛力。
本研究在進行特征提取時,使用FAE 獲得了大量的放射組學特征,為了提升ML 的效率,采用了PCC 來進行數(shù)據(jù)降維,獲得了理想的效果。PCC 是一種線性相關系數(shù),在ML中通常用來計算特征與類別間的相似度,從而快速降低數(shù)據(jù)維度,減少數(shù)據(jù)計算量,進而提升結(jié)果的穩(wěn)健性,使得ML 過程變得高效[27-28]。在特征篩選方面,RFE 共篩選出6 類放射組學特征,在這6 個方面,CSM 患者輕癥和中重癥之間存在一定差異。形狀特征和一階特征存在差異性的原因可能是因為脊髓受壓后,中重癥組脊髓形態(tài)較輕癥組形態(tài)更加不規(guī)則,多樣性增加,而灰度類特征存在差異性可能是因為在脊髓受壓后,盡管脊髓在肉眼上難以觀察其信號改變,但是其細微結(jié)構已經(jīng)出現(xiàn)差異,功能已經(jīng)出現(xiàn)變化,這與既往研究大致相符[29-31]。在進行ML 分類器的選取時,選取常見的AB、NB、LR 和SVM 四種分類器對CSM 進行危險度分級,從各個分類器結(jié)果看,SVM 和LR 分類器效果最佳,在訓練組和驗證組中分級效能均較好,AB 模型在訓練組中分類效果最好(AUC 達到0.984),但是在驗證組中卻表現(xiàn)不佳,NB 模型分類效果劣于其他分類器模型。SVM 是一種監(jiān)督式學習方法,其優(yōu)點是分類思想簡單,并可以通過核函數(shù)向高維空間映射,從而得到更好的分類效果,目前在ML 中應用廣泛[32]。LR 是常用的分類方法,與SVM 有異曲同工之妙,但是對于大樣本,LR 的分類能力優(yōu)于SVM,并且LR對遠點敏感[33]。AB是一種迭代算法,通過多種弱分類器來集合成強分類器,對數(shù)據(jù)分類精度較高,但是隨著迭代次數(shù)增加,其分類誤差也越來越大,模型的穩(wěn)定性不高,這也是導致本研究驗證組分類效果較訓練組變差的原因[34]。NB是一種概率框架下的分類器,即基于概率選取分類標準從而完成分類,目的是降低總體化風險,當樣本量較大時,其概率計算也較準確,其算法的分類效果也越好,但是對于小樣本,其分類效果則劣于其他類別的分類器[35]。在本研究中,通過數(shù)據(jù)降維和特征篩選,使得最終選取的特征數(shù)為15 個,其優(yōu)點是在運行分類器進行分類時計算次數(shù)少,時間短、效率高,可以快速計算出結(jié)果,但是卻喪失了從圖像中提取出的大部分數(shù)據(jù),這可能會導致運算結(jié)果片面化和特征的利用率低,這也可能是導致本研究中NB和AB這種依賴大量數(shù)據(jù)的分類器效果欠佳的原因。對于臨床研究,通常樣本量不大,因此,對于ML 模型的選擇來說,SVM 和LR 模型的分類效果優(yōu)于NB和AB。
本研究具有一定的局限性:(1)本研究為回顧性分析,樣本量較少且為單中心研究,模型在其他中心的適用性有待驗證;(2)本研究模型選擇較少,只選用了4 種ML 模型,可能會導致存在分類效果更佳的分類器,在今后研究中將增加分類器數(shù)量,以期尋找到效果更好的分類器;(3)本研究只選取T2WI 橫軸位圖像,且僅勾畫壓迫最嚴重的椎間盤節(jié)段脊髓,可能導致脊髓信息不夠全面,今后將采用多種勾畫方法進行對比研究。
綜上所述,基于MRI影像組學的ML模型能夠在術前較為準確地預測CSM 的危險度分級,有效指導臨床設計對CSM 患者的治療方案,并提供了客觀的數(shù)據(jù)分析,可以為臨床精準化醫(yī)療提供新的思路。
作者利益沖突聲明:全體作者均聲明無利益沖突。
作者貢獻聲明:謝宗玉設計本研究的方案,對稿件重要內(nèi)容進行了修改,獲得了安徽省重點研究與開發(fā)計劃資助;徐剛起草和撰寫稿件,獲取、分析及解釋本研究的數(shù)據(jù);陳鵬、李宇龍、朱蕓獲取、分析或解釋本研究的數(shù)據(jù),對稿件重要的內(nèi)容進行了修改,朱蕓獲得了安徽省高等學校自然科學研究項目資助;全體作者都同意發(fā)表最后的修改稿,同意對本研究的所有方面負責,確保本研究的準確性和誠信。