張雨綺 林勇
摘? 要: 腫瘤免疫治療應(yīng)答的預(yù)測(cè)對(duì)腫瘤治療方案設(shè)計(jì)及治療有著重要的意義。本文引入基于隨機(jī)森林的機(jī)器學(xué)習(xí)方法,將病人黑色素瘤組織轉(zhuǎn)錄組RNA-seq的基因表達(dá)譜作為特征,對(duì)免疫檢查點(diǎn)阻斷治療的結(jié)果進(jìn)行預(yù)測(cè)研究。對(duì)病人的基因表達(dá)譜使用隨機(jī)森林算法來構(gòu)建預(yù)測(cè)模型,并與Logistic回歸模型和XGBoost模型進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,隨機(jī)森林模型對(duì)免疫檢查點(diǎn)阻斷治療的應(yīng)答能夠進(jìn)行較準(zhǔn)確的預(yù)測(cè),并且較Logistic回歸模型和XGBoost模型預(yù)測(cè)效果更好。
關(guān)鍵詞: 黑色素瘤;免疫檢查點(diǎn)阻斷;機(jī)器學(xué)習(xí);隨機(jī)森林;分類預(yù)測(cè)
中圖分類號(hào): Q789? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? DOI:10.3969/j.issn.1003-6970.2019.01.021
【Abstract】: Prediction of the response to tumor immunotherapy is of great significance to the design of tumor treatment and treatment. In this paper, random forest machine learning method is introduced, and gene expression profile of patientsmelanoma RNA-seq was taken as characteristics to predict the response to immune checkpoint blockade.Random forest algorithm was used to construct the prediction model for the gene expression profile of patients, and compared with Logistic regression analysis and XGBoost algorithm. The experimental results show that random forest model had a great prediction accuracy to the response to immune checkpoint blockade and was better than Logistic regression model and XGBoost model.
【Key words】: Melanoma; Immune checkpoint blockade; Machine learning; Random forest; Classification prediction
0? 引言
近年來,腫瘤免疫治療已經(jīng)被公認(rèn)為是一種安全的腫瘤治療方法,而免疫檢查點(diǎn)阻斷(Immune Checkpoint Blockade,ICB)就是一種新型的免疫治療方法[1]。免疫檢查點(diǎn)是一類可以起激活或抑制作用的分子,腫瘤細(xì)胞表面的配體與免疫細(xì)胞表面的受體進(jìn)行結(jié)合時(shí),腫瘤細(xì)胞會(huì)通過免疫檢查點(diǎn)傳遞抑制信號(hào)給免疫細(xì)胞,使免疫細(xì)胞失去活性,從而形成免疫逃逸[2]。ICB就是對(duì)腫瘤細(xì)胞傳遞出的免疫檢查點(diǎn)進(jìn)行阻斷,使免疫細(xì)胞恢復(fù)活性,利用自身免疫系統(tǒng)來消除腫瘤細(xì)胞。它與傳統(tǒng)的腫瘤治療方法相比,更加容易產(chǎn)生療效,尤其是在中晚期的黑色素瘤中[3-4]。雖然臨床治療中明確了ICB的可行性, 但約有70%以上的患者仍會(huì)治療失敗,而未能從中獲益[5]。Ke Chen[6]等人在基于計(jì)算機(jī)預(yù)測(cè)ICB應(yīng)答的研究一文中指出,研究影響ICB治療能否成功的因素,構(gòu)建ICB治療應(yīng)答的預(yù)測(cè)模型,如何有效地在ICB治療前進(jìn)行病例篩選,從而為患者設(shè)計(jì)更為適合的個(gè)性化治療方案就顯得尤為重要,文中將可預(yù)測(cè)ICB治療效果的特征分為五大類,其中一類就是轉(zhuǎn)錄組水平RNA-seq特征。比如,Galon J[7]等人使用基因表達(dá)譜計(jì)算出來的特征來對(duì)結(jié)直腸癌的病人進(jìn)行免疫治療臨床結(jié)果的預(yù)測(cè),Pornpimol Charoentong[8]等人使用基因表達(dá)譜構(gòu)建了一個(gè)對(duì)多種癌癥免疫治療結(jié)果進(jìn)行預(yù)測(cè)打分的工具。隨著近年來第二代測(cè)序技術(shù)的不斷成熟和發(fā)展,以及對(duì)基因的研究越來越深入,人們發(fā)現(xiàn)許多疾病的發(fā)展與治療都和基因的表達(dá)密切相關(guān)[9],根據(jù)基因表達(dá)譜對(duì)于腫瘤免疫治療的預(yù)測(cè)亟待研究。
本文研究病人轉(zhuǎn)錄組水平RNA-seq數(shù)據(jù)對(duì)ICB治療黑色素瘤效果的預(yù)測(cè)作用,引入隨機(jī)森林算法來構(gòu)建預(yù)測(cè)模型。隨機(jī)森林算法是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的經(jīng)典機(jī)器學(xué)習(xí)算法,它將bootstrap重抽樣方法和決策樹算法相結(jié)合,并能在構(gòu)建模型的同時(shí)對(duì)特征的重要性進(jìn)行評(píng)估,具有較好的性能[10-12]。本文對(duì)病人的基因表達(dá)譜數(shù)據(jù),使用隨機(jī)森林構(gòu)建ICB治療預(yù)測(cè)模型,引入模擬數(shù)據(jù)來對(duì)模型進(jìn)行評(píng)估。同時(shí)也使用了Logistic回歸和XGBoost方法,來對(duì)不同算法構(gòu)建出的模型進(jìn)行比較。
1? 基于機(jī)器學(xué)習(xí)的免疫檢查點(diǎn)阻斷治療預(yù)測(cè)方法
本文對(duì)免疫檢查點(diǎn)阻斷治療分類預(yù)測(cè)的整體流程包括特征篩選、特征降維、隨機(jī)森林建模和實(shí)驗(yàn)驗(yàn)證四個(gè)部分,如圖1所示。下面對(duì)圖中的每一個(gè)流程的實(shí)現(xiàn)以及實(shí)驗(yàn)數(shù)據(jù)的處理進(jìn)行詳細(xì)的描述。
1.1? 特征基因的篩選
在構(gòu)建預(yù)測(cè)模型時(shí),選取的特征基因越多,計(jì)算量越大。為了降低模型計(jì)算的復(fù)雜度,同時(shí)又保證預(yù)測(cè)的準(zhǔn)確性,對(duì)特征基因的篩選起著重要的作用。本研究篩選出與免疫相關(guān)的基因。根據(jù)收集到的文獻(xiàn),得知免疫治療與人體中與免疫相關(guān)的通路都有著緊密聯(lián)系[13],所以本研究首先對(duì)60例病人基因表達(dá)譜的20250個(gè)基因進(jìn)行了匹配篩選。從KEGG(Kyoto Encyclopedia of Genes and Genomes)京都基因與基因組百科全書數(shù)據(jù)庫中收集了與免疫相關(guān)的通路,這些通路中共有619個(gè)基因。將60例病人基因表達(dá)譜中的基因與這619個(gè)免疫相關(guān)通路的基因取交集,最后得到了602個(gè)共有基因。
1.2? 特征基因的降維
在初步的特征篩選之后,特征基因已經(jīng)從20250個(gè)精簡(jiǎn)到了602個(gè),但特征數(shù)量仍舊過多。本研究使用R語言中randomForest包中importance()函數(shù)來實(shí)現(xiàn)特征基因的降維。隨機(jī)森林算法相對(duì)于其他機(jī)器學(xué)習(xí)算法的一大優(yōu)勢(shì)就在于它可以通過評(píng)估所有變量的重要性,從而對(duì)特征進(jìn)行篩選。在建模的過程中,隨機(jī)森林算法會(huì)為每個(gè)特征計(jì)算出Mean DecreaseAccuracy準(zhǔn)確度平均降低量和MeanDecrease Gini基尼指數(shù)平均降低量?jī)蓚€(gè)值,這兩個(gè)值都是對(duì)特征重要性的評(píng)估指標(biāo),本文篩選時(shí)主要參考的是MeanDecreaseGini。如果一個(gè)樣本有K個(gè)分類,假設(shè)樣本的某一個(gè)特征a有n個(gè)取值,其某一個(gè)節(jié)點(diǎn)取到不同樣本的概率為:
基尼指數(shù)表示節(jié)點(diǎn)的純度,基尼指數(shù)越大純度越低。將變量數(shù)據(jù)打亂,基尼指數(shù)變化量的均值可以作為變量的重要程度度量。MeanDecreaseGini通過基尼指數(shù)計(jì)算每個(gè)變量對(duì)分類樹每個(gè)節(jié)點(diǎn)上觀測(cè)值的異質(zhì)性的影響,從而對(duì)變量的重要性進(jìn)行比較,該值越大表示該變量的重要性越大[14]。本研究通過多次迭代來對(duì)特征基因進(jìn)行篩選:首先使用待篩選的基因,在R語言中構(gòu)建隨機(jī)森林分類模型;接著使用importance()函數(shù)來查看每個(gè)特征的MeanDecreaseGini,并根據(jù)MeanDecreaseGini進(jìn)行排序,篩選出排名靠前的特征來再次建模。重復(fù)以上步驟,我們最終從602個(gè)特征基因最終篩選出16個(gè)來當(dāng)作特征基因。
1.3? 基于隨機(jī)森林的ICB預(yù)測(cè)方法
隨機(jī)森林是一個(gè)監(jiān)督模型,由若干棵決策樹組成,每一棵決策樹的葉子節(jié)點(diǎn)都是具有同一種類別的數(shù)據(jù)。對(duì)每一顆輸入待分類的樣本數(shù)據(jù),決策樹都會(huì)根據(jù)內(nèi)部選擇的最優(yōu)的分裂節(jié)點(diǎn)來生成一條從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的唯一路徑,該葉子節(jié)點(diǎn)就是這個(gè)待分類樣本的分類結(jié)果[15-16]。隨機(jī)森林算法構(gòu)建模型的流程如圖2所示。
整個(gè)建模過程是在R語言(3.4.4)中使用randomForest包來實(shí)現(xiàn)的,具體的步驟如下:首先將病人數(shù)據(jù)按照80%做訓(xùn)練集,20%做測(cè)試集的比例隨機(jī)抽取樣本分成兩組,每組數(shù)據(jù)包括每個(gè)樣本篩選出的16個(gè)特征基因和每個(gè)樣本的分類。接著將隨機(jī)森林算法設(shè)置為構(gòu)建分類器模式,使用訓(xùn)練集進(jìn)行模型的構(gòu)建。然后使用訓(xùn)練出的預(yù)測(cè)模型,來對(duì)測(cè)試集進(jìn)行預(yù)測(cè),并統(tǒng)計(jì)每個(gè)樣本分類的概率以及分類結(jié)果。最后使用預(yù)測(cè)出的分類概率來繪制ROC便于模型之間的比較,使用預(yù)測(cè)分類正確的樣本占訓(xùn)練集樣本總數(shù)的比例,計(jì)算模型預(yù)測(cè)的準(zhǔn)確率。
1.4? 實(shí)驗(yàn)數(shù)據(jù)處理
本研究對(duì)象包括兩組共60例病人數(shù)據(jù),他們由互不相關(guān)且相互獨(dú)立的病人組成,這些數(shù)據(jù)均是從GEO(Gene Expression Omnibus)公共數(shù)據(jù)庫中收集的公共數(shù)據(jù),數(shù)據(jù)全部經(jīng)過數(shù)據(jù)庫審核,合法、準(zhǔn)確且可以直接使用。這60例病人數(shù)據(jù),分別從GSE91061(33例)和GSE78220(27例)兩組研究中收集。其中,GSE91061包括23例PD(progressive disease)無療效病人和10例PRCR(partial response、complete response)有療效病人;GSE78220包括12例PD病人和15例PRCR有療效病人。病人數(shù)據(jù)包括病人ICB治療前的黑色素瘤腫瘤組織轉(zhuǎn)錄組RNA-seq測(cè)序數(shù)據(jù),以及這60例病人接受ICB治療后的療效情況,共計(jì)有35例PD無療效病人與25例PRCR有明顯療效病人兩種分類[5,17]。
考慮到真實(shí)的病人數(shù)據(jù)樣本量較小,為了評(píng)估本研究的準(zhǔn)確性,本研究還額外從癌癥和腫瘤基因圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫中收集了相似的黑色素瘤腫瘤組織的轉(zhuǎn)錄組RNA-seq測(cè)序數(shù)據(jù),經(jīng)過質(zhì)控篩選后共收集到471例病人樣本,獲得了處理后的病人基因表達(dá)譜[18]。將GEO數(shù)據(jù)庫收集到的兩組以及TCGA數(shù)據(jù)庫收集到的一組數(shù)據(jù)的基因表達(dá)譜進(jìn)行了整合,三組數(shù)據(jù)共有的基因數(shù)量為20250個(gè)。因?yàn)檫@些病人并沒有接受到ICB治療,所以我們需要對(duì)這些病人數(shù)據(jù)進(jìn)行模擬響應(yīng)變量,模擬出他們經(jīng)過治療后是否有療效。本研究模擬響應(yīng)變量分為三步:
(1)根據(jù)已知響應(yīng)變量的數(shù)據(jù)計(jì)算聚類中? ?心[19,20]。整理60例已知治療結(jié)果的病人數(shù)據(jù),根據(jù)病人基因表達(dá)譜FPKM(Fragments Per Kilobase Million)值,分別求出兩類病人每個(gè)基因FPKM值的平均值,將每類病人所有基因的FPKM值平均值構(gòu)成的高維向量,視為該類別的聚類中心。
(2)計(jì)算模擬數(shù)據(jù)的歐式距離。將收集的471例病人的基因表達(dá)譜文件進(jìn)行整理,根據(jù)(1)中算出的聚類中心,使用如下公式分別計(jì)算每個(gè)病人與PD和PRCR兩種類型的歐式距離:
(3)模擬響應(yīng)變量。比較471個(gè)病人與PD和PRCR兩種類型聚類中心的歐式距離,將該病人的響應(yīng)變量模擬為歐式距離更小的類型。最終471個(gè)病人的響應(yīng)變量模擬為363個(gè)PD(約77%)和108個(gè)PRCR(約23%),與實(shí)際治療中ICB治療大部分病人沒有療效的情況相吻合。
2? 實(shí)驗(yàn)驗(yàn)證與結(jié)果分析
2.1? 實(shí)驗(yàn)驗(yàn)證方法
2.2? 實(shí)驗(yàn)結(jié)果與分析
2.2.1? 真實(shí)數(shù)據(jù)結(jié)果
為了驗(yàn)證本文模型的有效性,將隨機(jī)森林模型與將Logistic回歸分析和XGBoost兩種方法的分類效果進(jìn)行比較。隨機(jī)將60例病人樣本分為48個(gè)訓(xùn)練集樣本和12個(gè)測(cè)試機(jī)樣本,分別使用隨機(jī)森林、Logistic回歸分析和XGBoost三種方法進(jìn)行建模,重復(fù)上述方法五次,并對(duì)相同分組得到的三種模型,進(jìn)行準(zhǔn)確率和ROC曲線曲線下面積比較。三種模型的準(zhǔn)確率的比較如表1所示,三種模型的ROC曲線及AUC的比較如圖3中(a)(b)(c)(d)(e)所示,隨機(jī)森林算法五次建模的ROC及平均的AUC如圖3中(f) 所示。從圖3和表1中可以發(fā)現(xiàn),隨機(jī)森林算法在
本研究中明顯優(yōu)于Logistic回歸和XGBoost方法,隨機(jī)森林算法構(gòu)建出的模型預(yù)測(cè)平均準(zhǔn)確率達(dá)到84.9%,優(yōu)于XGBoost的61%和Logistic回歸的60%;隨機(jī)森林模型的平均ROC曲線下面積也達(dá)到0.914,明顯大于XGBoost和Logistic回歸。
2.2.2? 模擬數(shù)據(jù)結(jié)果
為了測(cè)試本研究中隨機(jī)森林模型的準(zhǔn)確度,同時(shí)對(duì)額外收集到的471個(gè)模擬數(shù)據(jù)做了三種模型的構(gòu)建與比較,構(gòu)建模型時(shí)仍是使用篩選出的16個(gè)特征基因作為特征。三種模型的準(zhǔn)確率比較如表2所示,三種模型的ROC曲線及AUC的比較如圖4中(a)~(e)所示,隨機(jī)森林算法五次建模的ROC及平均的AUC如圖4中(f)所示??梢悦黠@看出,隨著樣本量的增加,三種模型準(zhǔn)確率之間的差距也在逐漸縮小,但是隨機(jī)森林模型的預(yù)測(cè)準(zhǔn)確率仍是略高于XGBoost和Logistic回歸,達(dá)到了93.2%;同時(shí)三種模型的ROC曲線也十分接近,但是隨機(jī)森林模型的ROC曲線下面積也是略大于其他兩種模型,平均AUC達(dá)到了0.985,也從側(cè)面表明了數(shù)據(jù)量越大,模型會(huì)越準(zhǔn)確。
3? 總結(jié)與展望
本文創(chuàng)新的使用病人的基因表達(dá)譜,基于機(jī)器學(xué)習(xí)理論中的隨機(jī)森林算法,實(shí)現(xiàn)對(duì)ICB治療的療效預(yù)測(cè)。首先,提出了基于機(jī)器學(xué)習(xí)理論的隨機(jī)森林算法篩選特征的方法與模型構(gòu)建的過程,同時(shí)通過文獻(xiàn)調(diào)研,縮小了待選基因的范圍;其次,為了彌補(bǔ)數(shù)據(jù)的不足,引入了相似的病人數(shù)據(jù),并根據(jù)與聚類中心之間的歐式距離,對(duì)響應(yīng)變量進(jìn)行了模擬;最后,使用了隨機(jī)森林、Logistic回歸和XGBoost三種方法分別對(duì)篩選出的特征基因進(jìn)行訓(xùn)練,并通過準(zhǔn)確率和ROC曲線來對(duì)三種模型在真實(shí)數(shù)據(jù)和模擬數(shù)據(jù)測(cè)試集上的預(yù)測(cè)效果進(jìn)行比較和評(píng)估,驗(yàn)證了本文構(gòu)建隨機(jī)森林模型的準(zhǔn)確性。ICB治療的預(yù)測(cè)研究有助于醫(yī)生在為病人設(shè)計(jì)治療方法時(shí),可以選擇更為有效的治療手段,也為病人的康復(fù)增加一份希望。
在研究的過程中,本人嘗試使用更少的特征基因來對(duì)研究數(shù)據(jù)進(jìn)行訓(xùn)練并預(yù)測(cè),由于本研究的訓(xùn)練樣本較少,繼續(xù)減少特征數(shù)量反而會(huì)使模型的準(zhǔn)確率下降。因?yàn)镮CB治療還屬于比較新型的治療方式,國內(nèi)外的研究中并未有過多的數(shù)據(jù)和相關(guān)的預(yù)測(cè)研究,本研究只收集到了兩組病人數(shù)據(jù)。在其中一組病人數(shù)據(jù)中發(fā)現(xiàn)除了本文中提及的PD和PRCR兩類治療結(jié)果外,還有第三類治療結(jié)果SD(stable disease),但是因?yàn)閿?shù)據(jù)量過少且另一組病人數(shù)據(jù)中并未提及此類,所以本文沒有對(duì)SD這類病人進(jìn)行研究。隨著ICB治療研究的不斷深入和不斷推廣,會(huì)有越來越多的病人數(shù)據(jù)可供研究,在未來的研究中,我們將收集除了基因以外的特征加入模型之中,繼續(xù)對(duì)三種治療結(jié)果的分類預(yù)測(cè)進(jìn)行? 研究。
參考文獻(xiàn)
[1] Stambrook PJ, Maher J, Farzaneh F. Cancer Immunotherapy: Whence and Whither[J]. Mol Cancer Res. 2017 Jun; 15(6): 635-650.
[2] 盧伸, 蘇丹. 免疫檢查點(diǎn)阻斷用于腫瘤治療的研究進(jìn)展[J]. 實(shí)用腫瘤雜志. 2016; 31(1): 19-23.
[3] Topalian SL, et al. Mechanism-driven biomarkers to guide immune checkpoint blockade in cancer therapy[J]. Nat.Rev. Cancer. 2016 May; 16(5): 275-87.
[4] Liu XS, Mardis ER.Applications of immunogenomics to cancer[J]. Cell. 2017 Feb 9; 168(4): 600-612.
[5] Hugo W, Zaretsky JM, et al. Genomic and Transcriptomic Features of Response to Anti-PD-1 Therapy in Metastatic Melanoma[J]. Cell. 2016 Mar 24; 165(1): 35-44.
Liu Q, et al. Towards In Silico Prediction of the Immune- Checkpoint Blockade Response.[J]. Trends Pharmacol Sci. 2017 Dec; 38(12): 1041-1051.
Galon J, et al. Type, density, and location of immune cells within human colorectal tumors predict clinical outcome.[J]. Science. 2006 Sep 29; 313(5795): 1960-4.
Charoentong P, et al. Pan-cancer Immunogenomic Analyses Reveal Genotype-Immunophenotype Relationships and Predictors of Response to Checkpoint Blockade. Cell Rep. 2017 Jan 3; 18(1): 248-262.
Cogdill AP, Andrews MC, Wargo JA. Hallmarks of response to immune checkpoint blockade[J]. Br J Cancer. 2017 Jun 27; 117(1): 1-7.
李慧, 李正, 佘堃. 一種基于綜合不放回抽樣的隨機(jī)森林算法改進(jìn)[J]. 計(jì)算機(jī)工程與科學(xué). 2015;7
全雪峰. 基于奇異熵和隨機(jī)森林的人臉識(shí)別[J]. 軟件, 2016, 37(02): 35-38
蘇志同, 汪武珺. 基于隨機(jī)森林的煅燒工藝參數(shù)的研究和分析[J]. 軟件, 2018, 39(4): 148-150
Li Y, et al. A Mini-Review for Cancer Immunotherapy: Molecular Understanding of PD-1/PD-L1 Pathway Translational Blockade of Immune Checkpoints[J]. Int J Mol Sci. 2016 Jul 18; 17(7). pii: E1151.
董師師, 黃哲學(xué). 隨機(jī)森林理論淺析[J]. 集成技術(shù). 2013. 1; 2(1): 1-7.
李欣海. 隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J]. 應(yīng)用昆蟲學(xué)報(bào). 2013, 50(4): 1190-1197.
李玲, 李晉宏. 基于隨機(jī)森林修正的加權(quán)二部圖推薦算法[J]. 軟件, 2018, 39(1): 110-115.
Riaz N, et al. Tumor and Microenvironment Evolution during Immunotherapy with Nivolumab[J]. Cell. 2017 Nov 2; 171(4): 934-949.e16.
Tomczak K, Czerwińska P, Wiznerowicz M. The Cancer Genome Atlas (TCGA): an immeasurable source of knowledge[J]. Contemp Oncol (Pozn). 2015; 19(1A): A68-77.
吳榮強(qiáng), 李晉宏. 基于聚類分析的鋁電解槽陽極壓降的分類[J]. 軟件, 2018, 39(3): 166-169.
蒲杰方, 盧熒玲. 基于聚類算法和神經(jīng)網(wǎng)絡(luò)的客戶分類模型構(gòu)建[J]. 軟件, 2018, 39(4): 130-136.