劉淵,程玉玉,賀睿敏,周衛(wèi)兵,賀秋冬,肖若冰,賀陽,謝常軍,謝海輝,文洪永,陳娟,何堯林
1.中南大學湘雅醫(yī)院腫瘤科,湖南長沙410008;2.郴州市第一人民醫(yī)院核醫(yī)學科,湖南郴州423000;3.南華大學船山學院,湖南衡陽421001;4.南華大學附屬第二醫(yī)院放射治療科,湖南衡陽421001
鼻咽癌作為一種常見的頭頸部惡性腫瘤,有地方聚集的特點,在我國華南地區(qū)發(fā)病率較高[1],臨床表現(xiàn)為早期無特異性癥狀、淋巴結(jié)轉(zhuǎn)移率高等[2]。目前放射治療聯(lián)合化療、靶向藥物等綜合治療手段已經(jīng)取得比較理想的治療效果[3]。除治療方式外,患者病情的個體差異(原發(fā)灶外侵范圍、乏氧狀態(tài)、淋巴結(jié)轉(zhuǎn)移和是否有遠處轉(zhuǎn)移等)也是影響治療效果的重要原因[4]。其中淋巴結(jié)轉(zhuǎn)移狀況對遠處轉(zhuǎn)移發(fā)生率有重要影響[5],對引流區(qū)所有的淋巴結(jié)施行均勻的高劑量照射將會導致較高的并發(fā)癥[6],所以能否準確地識別轉(zhuǎn)移淋巴結(jié)是提高鼻咽癌療效的關(guān)鍵因素之一。通常情況下,經(jīng)過影像手段的人工識別可以較為準確地判斷患者淋巴結(jié)轉(zhuǎn)移情況,但由于使用的判斷標準為基于CT、MRI圖像中淋巴結(jié)形態(tài)學的差異,對影像醫(yī)師的經(jīng)驗要求較高,不利于快速鑒別診斷[7-9]。隨著圖像處理技術(shù)的發(fā)展,以影像組學為基礎(chǔ)的機器學習方法在鑒別轉(zhuǎn)移淋巴結(jié)方面展現(xiàn)較強的潛力[10-11],其可以通過挖掘圖像中包含的高通量數(shù)據(jù)信息進行深層次、多維度的分析,為臨床實踐中的計算機輔助診斷提供可能。
本研究針對鼻咽癌轉(zhuǎn)移淋巴結(jié)進行分析,結(jié)合PET鑒別結(jié)果與現(xiàn)行鑒別標準對其中轉(zhuǎn)移淋巴結(jié)識別進行研究。希望構(gòu)建一個自動、量化鑒別轉(zhuǎn)移淋巴結(jié)的模型,為臨床快速診斷或輔助診斷研究提供一種新思路。
選擇2017年7月~2018年6月于郴州市第一人民醫(yī)院和中南大學湘雅醫(yī)院收治的50例鼻咽癌患者治療前CT、PET/CT圖像作為研究材料進行回顧性分析。患者平均年齡53歲(18~74歲),男39例,女11例。納入研究中的患者均經(jīng)過活檢病理學、影像學檢查確診為鼻咽癌伴有局部淋巴結(jié)轉(zhuǎn)移,無遠處轉(zhuǎn)移發(fā)生,無多發(fā)腫瘤存在。病理分型明確鼻咽癌原發(fā)灶T分期:T1期7例,T2期19例,T3期17例,T4期7例。研究中CT及PET檢查前患者均未接受放療、化療及其他治療方式,兩種檢查間隔不超過15 d。
CT圖像為TOSHIBA Aquilion 16型和GE 64排LightSpeed CT平掃及靜脈灌注增強掃描獲得的平掃及動、靜脈時相的增強圖像,掃描條件120 kV,110 mA,層厚3 mm,掃描范圍包括顱頂至鎖骨下2 cm。PET掃描設(shè)備為飛利浦Ingenuity TF PET/CT,掃描范圍包含CT檢查所掃描部位。研究中所使用示蹤劑放射化學純度>99%,pH=7.0,患者由體質(zhì)量計算靜脈注射劑量18F-FGD,通常為0.10~0.12 MCi/kg。
研究中將體積>1 cm3的淋巴結(jié)作為感興趣區(qū)域(Regions of Interest,ROI)。主要選擇咽后淋巴結(jié)、頸部II區(qū)、Ⅲ區(qū)淋巴結(jié)等轉(zhuǎn)移概率較高的區(qū)域進行勾畫。圖像勾畫使用MIM Maestro軟件(MIM software,Cleveland,OH),由2名腫瘤放療專業(yè)醫(yī)師分別進行手動勾畫,勾畫結(jié)果由第3位高年資醫(yī)師進行檢查,手動勾畫完成后統(tǒng)一對所有ROI邊緣進行平滑處理。淋巴結(jié)分類使用2種方法:(1)使用PET圖像中SUVmax>2.5;(2)2013年鼻咽癌轉(zhuǎn)移淋巴結(jié)鑒別專家共識中CT圖像最大橫截面短軸長度對淋巴結(jié)進行是否轉(zhuǎn)移的分類[7],任意滿足上述2條件的淋巴結(jié)認為為轉(zhuǎn)移結(jié)節(jié),均不滿足上述2條件的淋巴結(jié)認為是良性結(jié)節(jié)。
使用IBEX[12]進行影像特征的提取,提取出的特征大體分為4類:(1)灰度強度(Intensity direct);(2)強度直方圖(Intensity histogram);(3)形狀特征(Shape-based);(4)紋理特征(Textrue-based)。先后獲得病變部位特征共50個,其中的非相關(guān)性特征和冗余特征會造成數(shù)據(jù)過擬合并且影響模型精確度,因此必須對所有特征進行篩選,使用R語言中的最小冗余最大相關(guān)性算法去除冗余特征和不相關(guān)特征,并對所有特征數(shù)據(jù)進行線性歸一處理,最后篩選出18個特征分組。
1.5.1 數(shù)據(jù)分割本研究共獲得143枚淋巴結(jié),經(jīng)檢驗得出的轉(zhuǎn)移淋巴結(jié)103枚,機器學習模型中使用100枚淋巴結(jié)特征作為訓練組,43枚淋巴結(jié)作為測試組,訓練集與測試集數(shù)據(jù)量對比為7:3,使用K-fold 5折交叉驗證進行模型的交叉驗證評估,算法選擇邏輯回歸(圖1)。
1.5.2 懲罰項系數(shù)C和閾值選取為了使得模型不出現(xiàn)過擬合的現(xiàn)象,采用L1正則化規(guī)則,如式(1)所示:
圖1 預(yù)測模型流程圖Fig.1 Flow chart of prediction model
式中,前半部分為正則化項(包含w的范數(shù)),后半部分為損失函數(shù),C為正則化系數(shù)λ的倒數(shù),其控制了兩者在最終的損失函數(shù)中所占的比重,C值過小說明模型復(fù)雜度小,會出現(xiàn)欠擬合,C值過大會導致模型泛化能力過強,導致過擬合。因此須選擇一個使模型獲得最佳泛化能力的C值。
在邏輯回歸模型求解過程中,分類器將樣本輸出結(jié)果映射到取值為(0,1)的范圍內(nèi),評估模型精確性時,可以進行自定義分類閾值使得模型獲得更好的分類效果:
特征提取使用Embedded嵌入法,首先使用隨機森林算法對數(shù)據(jù)進行驗證,得到各個特征的權(quán)重系數(shù),去除權(quán)重值排名前五的特征,對剩余的特征使用單變量統(tǒng)計檢驗,再以一個特定的打分函數(shù)如式(3)返還特征的得分值,最終統(tǒng)計出各個特征對預(yù)測目標的相關(guān)性系數(shù):
其中,P_value為去除某項特征后的假設(shè)檢驗P值。
使用5折交叉驗證分別經(jīng)過5次迭代計算得出的模型平均得分(表1),當C值為10時,模型的得分均值達到飽和值0.68,故懲罰項系數(shù)C的最佳取值為10。
通過設(shè)置不同閾值來判斷模型分類精度(圖2),不同閾值的模型測試結(jié)果如表2所示。如圖2所示,當閾值為[Threshold(閾值)>0.3,Predict(預(yù)測值)=1]時,模型的綜合效果最佳。當閾值為0.3時模型的測試結(jié)果如表3所示,經(jīng)計算,模型敏感度為90.0%(27/30),特異性為76.9%(10/13),精確度為86.0%(37/43)。
表1 不同C值的模型平均得分Tab.1 Mean score of model for different C values
經(jīng)過特征提取后所得特征相關(guān)系數(shù)如圖3所示,圖3所示以下特征可作為預(yù)測淋巴結(jié)轉(zhuǎn)移的重要特征:(1)最大橫截面直徑(Diameter);(2)平均寬度(Mean Breadth);(3)灰度強度能量(Intensity Direct Energy);(4)像素數(shù)量(Number of Voxel);(5)頻度(Busyness);(6)形態(tài)密實度(Shape-Compactness)。
初診鼻咽癌患者中,頸部淋巴結(jié)轉(zhuǎn)移發(fā)生率超過80%[2,13]。由于轉(zhuǎn)移淋巴結(jié)的存在,鼻咽癌患者發(fā)生遠處轉(zhuǎn)移的概率也會隨之提升[5]。通過以放射治療為主的綜合治療方案,可以取得較好的療效。在鼻咽癌病例的靶區(qū)勾畫過程中,需要將淋巴結(jié)引流區(qū)(GTVnd)納入照射區(qū)域。常用的放療方案有全頸部照射和選擇性頸部照射。研究證明選擇性頸部照射在療效方面與全頸部照射無明顯差異,并且在保護敏感器官方面具有一定的優(yōu)勢,例如選擇性頸部照射幾乎不會出現(xiàn)顱后神經(jīng)損傷[6,14]。此外,對部分轉(zhuǎn)移概率極低的淋巴結(jié)分區(qū)納入臨床靶區(qū)也會增加(如口癥、放射性皮炎、顱神經(jīng)損傷等)并發(fā)癥的發(fā)生率[15-17]。所以,根據(jù)淋巴結(jié)轉(zhuǎn)移情況施行針對性的個體化放療方案,將有利于治療方案的選擇和改善患者預(yù)后。
現(xiàn)行轉(zhuǎn)移淋巴結(jié)鑒別中依據(jù)為CT、MRI圖像中最大橫截面短軸長度和中央壞死、包膜外侵犯或不均勻強化的表現(xiàn)情況等形態(tài)學判斷標準,而本文未采用MRI圖像,是因為MRI圖像與CT圖像所使用的特征集不同,多種特征集合的結(jié)合產(chǎn)生的多模態(tài)結(jié)構(gòu)數(shù)據(jù)可能會帶來一些不確定因素。相對于現(xiàn)行影像學判斷標準,影像組學可以通過分析圖像中所包含的高通量數(shù)據(jù)信息來判斷淋巴結(jié)轉(zhuǎn)移情況。很多研究說明了影像組學與機器學習方法結(jié)合在鑒別轉(zhuǎn)移淋巴結(jié)方面具有一定的潛力[18-20]。
圖2 不同閾值的真實值與預(yù)測值混淆矩陣圖Fig.2 Confusion matrix diagrams of actual and predicted values with different thresholds
表2 不同閾值測試結(jié)果Tab.2 Test results of different thresholds
本研究在構(gòu)建分類模型時,適當使用正則化懲罰系數(shù)和模型鑒別閾值等優(yōu)化方案,在不使用任何方案的前提下,模型的初始精度為68.5%,而經(jīng)過優(yōu)化后的模型精度為86.0%,因此,在模型構(gòu)建過程中針對性地使用一些優(yōu)化方案對提高模型精度很有幫助。
圖3 特征相關(guān)性系數(shù)柱狀圖Fig.3 Histograms of feature correlation coefficients
研究中也存在一些不足。首先為了減少創(chuàng)傷,抑制轉(zhuǎn)移,本文未采用淋巴結(jié)穿刺行病理檢查。其次對淋巴結(jié)進行判斷時依據(jù)PET中的SUVmax>2.5與CT中最大橫截面短軸長度,而PET對直徑小于10 mm的ROI具有較高的假陽性率[21-22],雖然兩種判斷方式的結(jié)合可以一定程度上提高對轉(zhuǎn)移淋巴結(jié)分類的準確率,但是對僅滿足某一標準的淋巴結(jié)認為轉(zhuǎn)移可能對機器學習中獲得的特征集合有一定的干擾。另外,受限于短期內(nèi)接受CT與PET檢查的患者數(shù)量較少,研究中獲得的嚴格滿足轉(zhuǎn)移與良性的淋巴結(jié)數(shù)量較少,后續(xù)希望能夠通過多中心聯(lián)合搜集更多滿足要求的病例資料或前瞻性研究,提高研究中鑒別的準確性。
本研究通過使用機器學習方法構(gòu)建轉(zhuǎn)移淋巴結(jié)鑒別模型,可以初步實現(xiàn)對轉(zhuǎn)移淋巴結(jié)的鑒別。這一模型對臨床中快速判斷鼻咽癌淋巴結(jié)轉(zhuǎn)移情況,為放射治療中計算機輔助靶區(qū)勾畫提供一種淺顯的新思路。