卜菊,聶生東,魏瓏
1.上海理工大學(xué)醫(yī)療器械與食品學(xué)院,上海 200093; 2.山東建筑大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,濟(jì)南 250101
根據(jù)世界衛(wèi)生組織發(fā)布的2020年全球最新癌癥負(fù)擔(dān)數(shù)據(jù)顯示,肺癌的發(fā)病率和死亡率在中國仍居首位(Wild等,2020)。在所有肺癌類型中,非小細(xì)胞肺癌(non-small cell lung cancer,NSCLC)占比約80%~85%,且多數(shù)患者一經(jīng)確診即為中晚期并多發(fā)轉(zhuǎn)移。由于NSCLC具有易轉(zhuǎn)移的特性,晚期NSCLC患者的預(yù)后效果極差,直接導(dǎo)致該型肺癌患者5年生存率低下,即使在新的治療方法下也僅為所有癌癥的一半(Zeng等,2018)。
在NSCLC中,基因突變狀態(tài)在臨床決策中起著舉足輕重的作用。自美國食品藥品監(jiān)督管理局(Food and Drug Administration,F(xiàn)DA)批準(zhǔn)在NSCLC治療中使用靶向藥物后(Sun等,2018),肺癌靶向藥物接連面世。分子醫(yī)學(xué)的高速高質(zhì)量發(fā)展使肺癌的治療手段進(jìn)入了針對驅(qū)動(dòng)基因的個(gè)體化分子靶向精準(zhǔn)治療時(shí)代。靶向治療因其顯著的療效與良好的安全性,逐漸成為治療晚期NSCLC的標(biāo)準(zhǔn)方法(韓志萍 等,2019)。活檢作為腫瘤基因突變狀態(tài)檢測的金標(biāo)準(zhǔn),最常用的分析技術(shù)包括直接測序法、聚合酶鏈反應(yīng)(polymerase chain reaction,PCR)、高通量測序技術(shù)(next generation sequencing,NGS)、熒光原位雜交(fluorescence in situ hybridization,F(xiàn)ISH)和免疫組化(immunohistochemistry,IHC)。直接測序法因容易產(chǎn)生假陰性結(jié)果而被淘汰,PCR技術(shù)僅能測試預(yù)先定義的突變,無法檢測到新的突變,其他檢測方法對各種突變狀態(tài)檢測的敏感性各有偏重(Garinet等,2018)。事實(shí)上,基于腫瘤的異質(zhì)性,其病變的病理特征很難從活檢取得的病理標(biāo)本中完全反映出來。另外,活檢存在有創(chuàng)性、基因檢測耗時(shí)長及價(jià)格昂貴等弊端,不宜多次用于晚期肺癌患者,此時(shí)計(jì)算機(jī)斷層掃描(computed tomography, CT)顯示出優(yōu)勢。
CT掃描時(shí)間短、分辨率高且價(jià)格相對低廉,是監(jiān)測NSCLC患者療效的最常用手段。由于CT成像技術(shù)對腫瘤的整體性評估在一定程度上降低了腫瘤異質(zhì)性對診斷結(jié)果的影響,美國國家癌癥研究所(National Cancer Institute,NCI)在研討會(huì)中提出將已知的基因表型及生物標(biāo)記物和成像表型聯(lián)系起來,尋找一種有可能取代重復(fù)活檢的新方法,并將肺部CT置于數(shù)據(jù)收集優(yōu)先列表之首(Colen等,2014)。由此,探尋與NSCLC驅(qū)動(dòng)基因突變相關(guān)的CT影像標(biāo)志物成為新的研究方向,亟需確定相關(guān)標(biāo)志物從而進(jìn)一步通過影像學(xué)手段預(yù)測腫瘤的基因表型。
此前,針對驅(qū)動(dòng)基因的研究多集中于腺癌、無吸煙史或輕度吸煙的患者,對NSCLC其他類型的基因突變研究滯后,導(dǎo)致基于CT圖像的肺癌分子分型研究也多在腺癌中進(jìn)行。
本文使用PubMed和Web of Science數(shù)據(jù)庫對2021年4月之前發(fā)表的相關(guān)論文進(jìn)行檢索,搜索關(guān)鍵詞包括lung cancer、NSCLC、CT、PET(positron emission computed comography)/CT以及相關(guān)的突變基因,以識(shí)別與肺腺癌CT影像分子分型研究方法相關(guān)的文獻(xiàn)。
首先介紹常見的肺腺癌分子分型,隨后根據(jù)文獻(xiàn)檢索結(jié)果對國內(nèi)外肺腺癌CT影像分子分型研究現(xiàn)狀進(jìn)行綜述,依據(jù)主要的技術(shù)路線將這些方法劃分為基于CT語義特征的相關(guān)性分析和基于機(jī)器學(xué)習(xí)構(gòu)建預(yù)測模型,最后總結(jié)該領(lǐng)域現(xiàn)階段面臨的問題,并對未來研究方向做出展望,以期為癌癥分子分型領(lǐng)域的研究提供有益參考。
表皮生長因子受體(epidermal growth factorreceptor,EGFR)是中國最常見的肺腺癌驅(qū)動(dòng)基因。自2003年其抑制劑(tyrosine kinase inhibitor,TKI)吉非替尼被發(fā)現(xiàn)開始,經(jīng)過不斷研究與臨床實(shí)踐,肺癌的分子靶向藥物治療得到飛速發(fā)展,成為近年來肺癌治療研究的熱點(diǎn)之一。EGFR-TKI一線治療EGFR基因敏感突變患者的成功推動(dòng)了肺癌個(gè)體化治療進(jìn)程,之后針對間變性淋巴瘤激酶(anaplastic lymphoma kinase,ALK)融合基因NSCLC靶向治療的成功極大激發(fā)了研究者對肺癌驅(qū)動(dòng)基因的研究熱情(Gandhi和J?nne,2012)。
肺腺癌突變總陽性率達(dá)85%以上,其中僅EGFR的占比就超過60%,鼠類肉瘤病毒癌基因(kirsten rat sarcoma viral oncogene,KRAS)和間變性淋巴瘤激酶(anaplastic lymphoma kinase,ALK)占比位居其次,其他驅(qū)動(dòng)基因,如ROS1(proto-oncogene receptor tyrosine kinase)、BRAF(v-raf murine sarcoma viral oncogene homolog B1)、HER2(human epidermal growth factor receptor-2)等在肺腺癌中占比較低(陳靈鋒 等,2019)。美國國立綜合癌癥網(wǎng)絡(luò)(National Comprehensive Cancer Network,NCCN)非小細(xì)胞肺癌治療指南(Ettinger等,2018)表明EGFR突變、ALK融合、ROS1重排、BRAF突變及NTRK(neurotrophin receptor kinase)融合型肺腺癌都已有相應(yīng)的靶向藥物獲得FDA批準(zhǔn)在治療中使用,而KRAS突變雖然常見,但幾次確定KRAS特異性抑制劑的研究都未成功。除此之外,指南中建議進(jìn)行基礎(chǔ)廣泛的分子檢測,以評估可能存在有效藥物的罕見驅(qū)動(dòng)突變。即不僅將EGFR、KRAS、ALK、BRAF和ROS1等常見驅(qū)動(dòng)突變基因納入常規(guī)檢測,對RET(rearranged during transfection)、HER2(同ERBB2(erythroblastic leukemia viral oncogene homolog 2))和MET(mesenchymal-epithelial transition)等新出現(xiàn)的罕見驅(qū)動(dòng)突變基因也進(jìn)行檢測。
早期的肺腺癌分子分型研究著重于分析腫瘤肺腺癌分子亞型與CT語義特征(腫瘤位置及大小、分葉征、毛刺征、空洞、鈣化等)之間的關(guān)系。CT征象由多位醫(yī)生共同定義,并使用組內(nèi)相關(guān)系數(shù)(interobserver correlation coefficient,ICC)、kappa系數(shù)等進(jìn)行一致性評估。所有特征先后進(jìn)行單因素分析和多因素分析,研究各突變狀態(tài)產(chǎn)生的潛在因素,構(gòu)建多元邏輯回歸模型等。
EGFR突變型肺癌在不吸煙的亞洲女性中發(fā)生率較高,研究表明,其與多種CT語義特征有一定關(guān)聯(lián)。特別地,研究(Zhang等,2019)表明,磨玻璃結(jié)節(jié)密度影(ground glass opacity,GGO)、空氣支氣管征、胸膜凹陷征及血管集束征為引發(fā)EGFR突變的重要危險(xiǎn)因素。另有研究(Shi等,2017;Suh等,2018)表明,EGFR 19號(hào)外顯子(exon)突變型腫瘤較小,多存在胸膜凹陷征而無纖維化,而21號(hào)外顯子突變型則更易存在毛刺征且GGO含量較高。但是,Han等人(2020)認(rèn)為,EGFR突變型肺腺癌(包括多發(fā)性原發(fā)肺腺癌)多表現(xiàn)為存在部分GGO,而與其他CT特征相關(guān)性較低。
ALK重排型肺癌多在無吸煙史或輕度吸煙的年輕病人中產(chǎn)生,因其只占肺癌的3%~5%,關(guān)于ALK重排與其CT征象相關(guān)性的報(bào)道相對較少,綜合文獻(xiàn)初步研究認(rèn)為,ALK重排型肺癌與一些語義特征相關(guān)。還有少量研究在KRAS、ROS1、HER2以及BRAF中進(jìn)行,但這些研究皆為樣本量偏小的回顧性分析,后續(xù)需要進(jìn)一步擴(kuò)大研究樣本并進(jìn)行系統(tǒng)綜合分析。
EGFR和ALK的相關(guān)特征及與肺腺癌各分子亞型相關(guān)的CT語義特征如表1所示。
綜上所述,統(tǒng)計(jì)分析的方法可以初步研究出EGFR突變型肺癌與其CT語義特征之間的相關(guān)性。但由于樣本量較小,且腫瘤的異質(zhì)性不只是CT語義特征上存在差異,更多表現(xiàn)為肉眼無法識(shí)別的紋理差異,因此,基于傳統(tǒng)CT語義特征的相關(guān)性分析并未在其他分子亞型的影像學(xué)研究中得出更具說服力的結(jié)論。另外,對發(fā)生率較低的分子亞型,擴(kuò)充數(shù)據(jù)無疑是十分困難的。為了充分利用僅有的樣本數(shù)據(jù),從有限數(shù)據(jù)中挖掘出更多更客觀的信息,基于機(jī)器學(xué)習(xí)的分子分型研究方法應(yīng)運(yùn)而生。
表1 與肺腺癌各分子亞型相關(guān)的CT語義特征Table 1 CT semantic features related to molecular subtypes of lung adenocarcinoma
影像組學(xué)這一概念由荷蘭學(xué)者Lambin于2012年提出(Lambin等,2012),作為醫(yī)工交叉的產(chǎn)物,它能夠有效解決腫瘤異質(zhì)性難以定量評估的問題,在腫瘤診斷、治療和預(yù)后分析等方面表現(xiàn)出巨大優(yōu)勢。與傳統(tǒng)的相關(guān)性分析方法中將醫(yī)生主觀評估的CT語義特征輸入模型不同,基于影像組學(xué)的肺腺癌分子分型研究方法首先手動(dòng)或半自動(dòng)地分割出感興趣區(qū)域(即腫瘤區(qū)域),然后使用軟件或自定義算法自動(dòng)提取腫瘤圖像的一階統(tǒng)計(jì)量、形狀和紋理等特征,經(jīng)相關(guān)性分析、秩和檢驗(yàn)以及其他特征選擇算法篩選后,構(gòu)建傳統(tǒng)機(jī)器學(xué)習(xí)預(yù)測模型并評價(jià)其性能。
肺癌分子分型的影像組學(xué)研究起初的樣本量較小,Weiss等人(2014)僅對48例肺腺癌患者的CT圖像進(jìn)行定量紋理分析并構(gòu)建決策樹(decision tree,DT)模型,發(fā)現(xiàn)低峰度和正偏度與KRAS突變顯著相關(guān)。之后Velazquez等人(2017)和Pinheiro等人(2020)也使用了樹算法且擴(kuò)大了研究樣本,但在鑒別KRAS突變型與泛野生型肺腺癌時(shí)并未得到好的結(jié)果。此外,大量的國內(nèi)外研究在預(yù)測肺癌EGFR突變狀態(tài)中展開。大部分文獻(xiàn)中使用邏輯回歸(logistic regression,LR)構(gòu)建預(yù)測模型,其中Hong等人(2020)在CT平掃和增強(qiáng)圖像中分別提取了影像組學(xué)特征,Lasso算法篩選后構(gòu)建了樸素貝葉斯分類器(naive bayesian classifier,NBC)、K近鄰 (k-nearest neighbor,KNN)、隨機(jī)森林(radom forest,RF)和支持向量機(jī)(support vector machine,SVM)、DT和LR等6種預(yù)測模型,比較每個(gè)模型的接收者操作特征曲線(receiver operating characteristic curve,ROC)下面積(area under curve,AUC)后,選擇最佳模型LR做進(jìn)一步研究,最終得出結(jié)論:CT增強(qiáng)圖像中提取的影像組學(xué)特征對EGFR突變型肺腺癌的預(yù)測性能較平掃圖像中提取的更為優(yōu)越。這些研究在鑒別EGFR突變型與泛野生型時(shí)獲得了良好的結(jié)果,且普遍認(rèn)為臨床特征、CT語義特征與組學(xué)特征融合將對模型性能有顯著提升,但在鑒別EGFR 19號(hào)、21號(hào)外顯子及L858R型突變時(shí),AUC最高僅有0.793。肺腺癌分子分型影像組學(xué)研究文獻(xiàn)如表2所示。其中,PCA(principal components analysis)表示主成分分析,mRMR(max-relevance and min-redundancy)表示最大相關(guān)最小冗余,t-SNE(t-distributed stochastic neighbor embedding)表示t分布隨機(jī)鄰域嵌入,LASSO(least absolute shrinkage and selection operator)表示最小絕對收縮與選擇算子,ICC(intraclass correlation coefficient)表示組內(nèi)相關(guān)系數(shù),RFE(recursive feature elimination)表示遞歸特征消除;DBSCAN(density-cased spatial clustering of applications with noise)表示具有噪聲的基于密度的聚類方法,DT表示決策樹;RF表示隨機(jī)森林,XGBoost(extreme gradient boosting)表示分布式梯度增強(qiáng),LR表示邏輯回歸,ACC(accuracy)表示準(zhǔn)確率,SEN(sensitivity)表示敏感性。
表2 肺腺癌分子分型影像組學(xué)研究文獻(xiàn)綜述Table 2 Literature review of molecular typing of lung adenocarcinoma based on radiomics
此外,一些預(yù)測肺腺癌EGFR突變的影像組學(xué)研究基于PET/CT進(jìn)行(Zhang等,2020;Liu等,2020b;Yang等,2020),構(gòu)建的模型同時(shí)包含從患者CT和PET影像上提取的組學(xué)特征,能夠?yàn)榉中脱芯刻峁┕δ艹上裥畔?,在一定程度上提高了模型的預(yù)測可靠性,但預(yù)測能力與基于CT影像的影像組學(xué)模型相似,AUC為0.82~0.87。
結(jié)合文獻(xiàn)內(nèi)容發(fā)現(xiàn),基于醫(yī)學(xué)影像的肺腺癌分子分型影像組學(xué)研究的關(guān)鍵在于特征的提取與篩選。各研究提取的影像組學(xué)特征雖多屬于一階統(tǒng)計(jì)量、形狀和紋理特征這3大類,但具體的特征數(shù)量卻千差萬別。如Yang等人(2019)中僅對原圖提取這3類特征,而Velazquez等人(2017)對原圖進(jìn)行小波變換和高斯濾波,而后在3種圖像上提取特征。這種特征數(shù)量的差異導(dǎo)致兩者之間特征篩選方法不同,前者直接使用所有特征構(gòu)建RF模型,獲得每個(gè)特征的重要性分?jǐn)?shù),僅選擇分?jǐn)?shù)大于0.01的特征構(gòu)建最終的預(yù)測模型;后者則復(fù)雜得多,首先設(shè)計(jì)一種無監(jiān)督的兩步特征選擇算法,而后通過最小冗余最大相關(guān)性(maximum relevance and minimum redundancy,mRMR)算法選擇排名前20的特征構(gòu)建RF模型??傊卣鞴こ淌欠蜗侔┓肿臃中陀跋窠M學(xué)研究工作的重點(diǎn),提取并篩選出來的特征的好壞幾乎決定了最終模型預(yù)測結(jié)果的優(yōu)劣。因此當(dāng)人為設(shè)定的可解釋特征無法滿足預(yù)測需要時(shí),能夠更深層次挖掘圖像信息的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的優(yōu)勢逐漸凸顯。
深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的另一分支,能夠模擬人腦分析學(xué)習(xí)的機(jī)制,高度自動(dòng)化地學(xué)習(xí)圖像深層次的特征,達(dá)到預(yù)測識(shí)別的最終目標(biāo)。深度學(xué)習(xí)方法在圖像識(shí)別等領(lǐng)域已趨于成熟,但在肺腺癌分子分型的應(yīng)用研究尚處于起步階段。
基于深度學(xué)習(xí)的預(yù)測模型多為基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的全監(jiān)督學(xué)習(xí)。Li等人(2018a)構(gòu)建了包含3個(gè)殘差網(wǎng)絡(luò)的多級殘差卷積神經(jīng)網(wǎng)絡(luò)(multi-level residual convolutional neural networks,MCNNs)模型,輸入為3種不同尺寸的3D圖像塊。研究還將MCNNs與影像組學(xué)模型、臨床信息模型以及三者的融合模型進(jìn)行比較,發(fā)現(xiàn)MCNNs(CNN1)對EGFR突變的檢測能力明顯優(yōu)于影像組學(xué)模型(radiomics1),AUCCNN1= 0.81 > AUCradiomics1= 0.74(AUCCNN1為CNN1的AUC,余同),且無論是影像組學(xué)模型還是臨床信息模型,與MCNNs融合后的檢測性能都未有顯著提升(p> 0.05)。Zhao等人(2019)得到了相似的結(jié)論,研究構(gòu)建了3D DenseNets模型,在數(shù)據(jù)增強(qiáng)環(huán)節(jié)引入了mixup算法,且使用TCIA(the cancer imaging archive)公共數(shù)據(jù)集的數(shù)據(jù)作為驗(yàn)證集,使模型的魯棒性更強(qiáng)。結(jié)果證明,深度學(xué)習(xí)模型(CNN2)檢測EGFR突變的能力較影像組學(xué)模型(radiomics2)更優(yōu),AUCCNN2= 0.750 > AUCradiomics2= 0.687。但有些文獻(xiàn)的結(jié)論則不同。Mahajan等人(2010)使用223個(gè)病例構(gòu)建深度學(xué)習(xí)模型(CNN3)和影像組學(xué)模型(radiomics3),認(rèn)為影像組學(xué)模型更能鑒別出EGFR突變,AUCradiomics3= 0.940 > AUCCNN3= 0.720;Qin等人(2020)創(chuàng)建了一種長短期記憶(long short-term memory,LSTM)循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型,將篩選后的臨床特征與CNN提取的特征(CNN-features)融合,發(fā)現(xiàn)融合特征(fusion-features)能夠顯著提升模型的預(yù)測性能。AUCfusion-features= 0.78 > AUCCNN-features= 0.69;而Song等人(2021b)將臨床信息模型與修改后的3D ResNet10模型融合,融合模型對ALK重排的檢測能力較僅使用深度學(xué)習(xí)模型有極大提高,AUC從0.775 提高到 0.848。
除此之外,Wang等人(2019)構(gòu)建基于密集連接的2D CNN模型,如圖1所示,使用ImageNet自然數(shù)據(jù)集圖像預(yù)先訓(xùn)練模型前20層,該模型對EGFR突變也有良好的預(yù)測能力,AUC = 0.81。
圖1 Wang等人(2019)的神經(jīng)網(wǎng)絡(luò)模型Fig.1 The structure of neural network model in Wang et al. (2019)((a)the structure of neural network model in Wang et al. (2019);(b) the structure of block 1 and block 2 in (a))
由于構(gòu)建模型的策略不同,深度學(xué)習(xí)模型的檢測結(jié)果相差較大。Xiong等人(2019)研究了基于ResNet101的神經(jīng)網(wǎng)絡(luò)模型在不同策略(輸入維度、輸入尺寸、切片方法及訓(xùn)練方法)對EGFR突變的鑒別能力,認(rèn)為采用融合輸入尺寸、多視圖切片方法及遷移學(xué)習(xí)建立的2D CNN模型性能最佳,AUC = 0.838,但在不使用遷移學(xué)習(xí)時(shí),3D模型普遍優(yōu)于2D模型?;谏疃葘W(xué)習(xí)的肺腺癌分子分型研究基本流程如圖2所示。
上述研究皆采用端到端的CNN模型,即2D或3D圖像輸入網(wǎng)絡(luò)后直接輸出最終的預(yù)測結(jié)果,也有研究僅在部分流程中使用深度學(xué)習(xí)模型。Yu等人(2017)用6層CNN模型提取特征,而在預(yù)測階段使用SVM模型。Zhang等人(2021)在患者CT影像上提取并篩選了784個(gè)影像組學(xué)特征,根據(jù)重要性評分將其排列成一個(gè)28 × 28的2D特征矩陣,隨后將其輸入到基于通道注意力網(wǎng)絡(luò)(squeeze-and-sxcitation network,SENet)的CNN模型中進(jìn)行訓(xùn)練,即僅在最終的預(yù)測階段使用深度學(xué)習(xí)模型。
與全監(jiān)督學(xué)習(xí)不同,任雪婷等人(2020)設(shè)計(jì)了一種基于聯(lián)合成對學(xué)習(xí)和圖像聚類的無監(jiān)督深度學(xué)習(xí)分類模型(unsupervised classification combined with paired learning and image clustering,UC-CPLIC)用于識(shí)別肺腺癌亞型。通過無監(jiān)督卷積特征融合網(wǎng)絡(luò)(unsupervised convolutional feature fusion network,UCFFN)深度提取圖像特征,將獲得的特征層次聚類后進(jìn)行聯(lián)合配對學(xué)習(xí),根據(jù)配對信息更新圖像聚類標(biāo)簽和UCFFN參數(shù),迭代循環(huán)直到聚類結(jié)果收斂到一個(gè)穩(wěn)定點(diǎn),最終訓(xùn)練出的模型在合作醫(yī)院及TCGA-LUAD(the cancer genome atlas-lung adenocarcinoma)兩個(gè)數(shù)據(jù)集上的平均識(shí)別準(zhǔn)確率達(dá)到了0.93。
圖2 基于機(jī)器學(xué)習(xí)的肺腺癌分子分型研究實(shí)驗(yàn)流程Fig.2 The experimental process of molecular typing of lung adenocarcinoma based on machine learning
綜上所述,深度學(xué)習(xí)預(yù)測研究需要較大樣本的支持,若樣本較小,預(yù)測能力可能比影像組學(xué)模型差;3D CNN模型可以反映腫瘤的總體狀態(tài),對突變的預(yù)測能力更強(qiáng),但是將遷移學(xué)習(xí)應(yīng)用到2D CNN模型中,可能得到更好結(jié)果;深度學(xué)習(xí)模型不需要對腫瘤進(jìn)行精細(xì)分割,僅需要大致框取腫瘤區(qū)域,在數(shù)據(jù)預(yù)處理階段較影像組學(xué)方法節(jié)省了大量的時(shí)間和人力??傮w上,基于深度學(xué)習(xí)的肺腺癌分子亞型預(yù)測研究雖然處于起步階段,但已經(jīng)獲得了很好的結(jié)果,且隨著公共數(shù)據(jù)庫的逐步完善,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型具有極大的研究前景。
本文探討了近年來肺腺癌CT影像分子分型研究的幾種方法,從最初利用統(tǒng)計(jì)分析研究CT征象與基因表達(dá)間的關(guān)聯(lián),到如今建立深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)自動(dòng)化地預(yù)測肺腺癌分子分型,影像基因組學(xué)在肺癌診斷領(lǐng)域取得了突破,但仍具有一定局限性,尚不能完全滿足實(shí)際臨床應(yīng)用需求,主要體現(xiàn)在以下3個(gè)方面:1)肺腺癌基因突變狀態(tài)復(fù)雜,很多病例為雙基因甚至多基因突變,而多數(shù)研究只專注于其中的一種基因突變狀態(tài),忽略了其他位點(diǎn)突變帶來的影響。此外,大部分研究在探尋EGFR突變的影像學(xué)表型中展開,其他分子亞型的相關(guān)研究極少。以上問題限制了此類研究的泛化能力。2)相關(guān)的公用數(shù)據(jù)集不完備,同時(shí)具有基因表達(dá)和醫(yī)學(xué)圖像數(shù)據(jù)的數(shù)據(jù)集較少,甚至因長時(shí)間未更新導(dǎo)致一部分圖像數(shù)據(jù)質(zhì)量差,很難與當(dāng)前醫(yī)院獲取的數(shù)據(jù)融合。這顯然無法滿足當(dāng)前使用大數(shù)據(jù)建立深度神經(jīng)網(wǎng)絡(luò)模型以實(shí)現(xiàn)分子分型預(yù)測的需要。3)單一的CT圖像不能完全展現(xiàn)腫瘤狀態(tài),需要其他醫(yī)學(xué)圖像補(bǔ)充腫瘤其他信息。
未來,應(yīng)進(jìn)一步將神經(jīng)網(wǎng)絡(luò)模型用于肺癌分子分型預(yù)測研究,優(yōu)化特征提取與篩選算法,以達(dá)到提高預(yù)測結(jié)果準(zhǔn)確性的目的。同時(shí),根據(jù)基于機(jī)器學(xué)習(xí)的相關(guān)研究,將神經(jīng)網(wǎng)絡(luò)模型與臨床信息、語義特征、影像組學(xué)特征構(gòu)建的模型結(jié)合,能夠顯著提高模型預(yù)測能力。因此,基于語義特征的相關(guān)性分析以及基于影像組學(xué)的預(yù)測模型研究應(yīng)擴(kuò)大研究范圍,考慮不同人種之間的差異,形成更為系統(tǒng)化的綜合性研究,明確與各突變基因顯著相關(guān)的可解釋特征,從而為預(yù)測模型的建立提供重要依據(jù)。此外,可以考慮結(jié)合多視角的CT影像或其他醫(yī)學(xué)圖像(如PET圖像)進(jìn)行研究,多方面信息能夠得到更精確的預(yù)測結(jié)果。然而,這些研究都需要有力的數(shù)據(jù)支持,通過建立規(guī)范統(tǒng)一的肺癌分子分型標(biāo)準(zhǔn),以及包含腫瘤解剖圖像和功能成像的標(biāo)準(zhǔn)化分子分型數(shù)據(jù)庫,能夠顯著改善當(dāng)前研究數(shù)據(jù)差異過大的現(xiàn)狀,使研究人員將目光更多地集中在提高算法性能上,也使肺癌分子分型的影像學(xué)研究能夠具有更好的臨床應(yīng)用前景。