劉梓劍
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
近年來,人類日益增長的物質(zhì)文化需求使得地球生態(tài)環(huán)境遭受了巨大的破壞,熬夜、飲食不規(guī)律、久坐缺乏運(yùn)動等行為在年輕人生活中的常態(tài)。癌癥是一種基因疾病,通常由于基因的突變、細(xì)胞微環(huán)境改變等原因隨之產(chǎn)生。而熬夜、飲食習(xí)慣等正是導(dǎo)致患病的重要原因之一。乳腺癌,女性疾病中的頭號殺手,快速的生活節(jié)奏、加班、子女教育加重等使得女性體檢的頻率逐漸降低,而癌癥的常規(guī)檢測預(yù)防手段需要長期體檢,使得很多女性診斷概率降低。第三代測序用低廉的價(jià)格結(jié)合機(jī)器學(xué)習(xí)高效的分類算法,為癌癥診斷提供了新思路。
轉(zhuǎn)錄組數(shù)據(jù)中,mRNA(message RNA,信使核糖核苷酸),通過DNA轉(zhuǎn)錄獲得,帶著大量的遺傳信息,通過翻譯得到氨基酸,最終合成蛋白質(zhì)實(shí)現(xiàn)基因的表達(dá)。miRNA(micro RNA,小分子核苷酸)通過與mRNA結(jié)合抑制基因表達(dá)。mRNA點(diǎn)位共有6w多個(gè),其中包含了大量冗余無關(guān)的點(diǎn)位。冗余信息常常會降低分類器的準(zhǔn)確度,傳統(tǒng)的機(jī)器學(xué)習(xí)無法承載能力有限。近年來,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNNs)的發(fā)展取得了巨大的成功,尤其是在視覺和語音識別方面[1,2]。受深度神經(jīng)網(wǎng)絡(luò)的啟發(fā),人們提出了許多利用深度學(xué)習(xí)方法的變體來預(yù)測癌癥亞型的方法[3,4]。然而,一些缺陷可能會限制深度神經(jīng)網(wǎng)絡(luò)在癌癥基因組數(shù)據(jù)中的應(yīng)用。一方面,DNN較為復(fù)雜,需要大量訓(xùn)練樣本進(jìn)行學(xué)習(xí)[1],而乳腺癌樣本較少,無法滿足大規(guī)模的訓(xùn)練要求。然而,目前大多數(shù)癌癥基因轉(zhuǎn)錄組數(shù)據(jù)的數(shù)據(jù)規(guī)模無法達(dá)到神經(jīng)網(wǎng)絡(luò)的要求。另一方面,超參數(shù)的選取是DNN中至關(guān)重要的步驟之一,算法的性能很大程度上由超參數(shù)決定。這使得在實(shí)際應(yīng)用中,特別是在小規(guī)模的生物數(shù)據(jù)集上,利用深度神經(jīng)網(wǎng)絡(luò)來獲得預(yù)期的分類性能是很困難的。
深度森林模型(Deep Forest,DF)是由周志華等人[1]于2017年結(jié)合深度神經(jīng)網(wǎng)絡(luò)及隨機(jī)森林所提出的模型。該模型由深度級聯(lián)森林結(jié)構(gòu)和多粒度掃描兩部分組成。深度森林算法中采用層次結(jié)構(gòu)的處理方法。在級聯(lián)層中,將每層模型輸出的預(yù)測概率值作為該層特征提取的新特征,并將上一層產(chǎn)生的特征作為下一級的輸入,進(jìn)行特征的重復(fù)提取和訓(xùn)練過程。基因、轉(zhuǎn)錄組數(shù)據(jù)通常具有三個(gè)特點(diǎn):①高維度;②數(shù)據(jù)類不平衡;③高噪聲。
本文針對乳腺癌轉(zhuǎn)錄組數(shù)據(jù)以上特點(diǎn),在傳統(tǒng)DF模型的基礎(chǔ)上,提出多源深度森林模型(Multi-Source Deep Forest),使其更加貼合乳腺癌轉(zhuǎn)錄組數(shù)據(jù)模型,讓分類更加準(zhǔn)確。
本文研究中使用的TCGA數(shù)據(jù)庫和自建數(shù)據(jù)庫中的mRNA與miRNA測序數(shù)據(jù)的癌癥亞型樣本分布極度不平衡,會導(dǎo)致假陰率的增加。因此,在DNA甲基化測序數(shù)據(jù)送入模型訓(xùn)練前,需要對數(shù)據(jù)集進(jìn)行平衡化預(yù)處理,獲得正、負(fù)樣本相對平衡的數(shù)據(jù)集。此外,針對轉(zhuǎn)錄組測序數(shù)據(jù)維度高、噪聲多等特點(diǎn),本文在模型訓(xùn)練前對樣本數(shù)據(jù)進(jìn)行特征選擇和降維,縮短算法的訓(xùn)練時(shí)間,提高算法的泛化能力:對mRNA與miR?NA進(jìn)行中心化、去零值處理等操作。最后,本文使用十倍交叉驗(yàn)證方法來劃分?jǐn)?shù)據(jù)集的測試與驗(yàn)證。
本文中的數(shù)據(jù)集選取來自TCGA數(shù)據(jù)庫,由于早期的測序價(jià)格高昂,病例測序數(shù)據(jù)多來自于官方機(jī)構(gòu),并且數(shù)量有限,在1064個(gè)乳腺癌樣本中,數(shù)據(jù)類平衡度低于1/10,嚴(yán)重影響算法的分類準(zhǔn)確度。因此需要多轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行預(yù)處理,以此提升算法泛化能力。預(yù)處理步驟中,分別對數(shù)據(jù)進(jìn)行了去中心化,去零值等操作,然后對數(shù)據(jù)集中進(jìn)行過采樣與欠采樣,提升類的平衡度。通過上述預(yù)處理過后,特征降低了4/5。訓(xùn)練與測試數(shù)據(jù)集通過十折交叉驗(yàn)證的方法進(jìn)行劃分。
特征選擇的過程就是尋找具有顯著差異mRNA、miRNA的過程,這些在正常樣本和癌癥樣本中具有顯著差異的mRNA、miRNA極有可能和癌癥亞型的產(chǎn)生密切相關(guān)。mRNA和非編碼RNA表達(dá)譜大多具有高維特點(diǎn),高維數(shù)據(jù)給預(yù)測帶來維度災(zāi)難。一方面,很多mRNA點(diǎn)位、miRNA與癌癥的產(chǎn)生發(fā)展不相關(guān),同時(shí)會給算法帶來錯(cuò)誤的訓(xùn)練,需要進(jìn)行處理;另一方面,致癌的mRNA、非編碼RNA之間的相關(guān)性很高,即他們可能承載了相同或類似的信息,這些特征是冗余的,會增加模型建構(gòu)的時(shí)間復(fù)雜度,需要剔除;為了解決冗余特征對算法的負(fù)面影響,同時(shí)提高分類預(yù)測的準(zhǔn)確度、降低計(jì)算時(shí)間,特征選擇是重要的環(huán)節(jié)。
為了解決癌癥轉(zhuǎn)錄組數(shù)據(jù)中信息密度低,高維度的問題。多源多粒度掃描原始輸入特征如圖1所示。
假設(shè)mRNA與miRNA原始特征維度均為400,滑動采樣窗口的大小設(shè)置為100,滑動步長為1,滑動完畢之后就可獲得401個(gè)100維的向量。將向量輸入到由隨機(jī)森林和完全隨機(jī)森林組成的森林群中,選擇兩種不同的隨機(jī)森林是為了提升算法的多樣性,提升分類泛化能力。
圖1 MSGMS結(jié)構(gòu)
級聯(lián)森林啟發(fā)于DNN,DNN中的對特征的學(xué)習(xí)主要依賴于對基礎(chǔ)特征的疊加處理。級聯(lián)森林中的級聯(lián)結(jié)構(gòu)由前一層處理的特征信息輸入,并將結(jié)果輸入到下一層。級聯(lián)森林是隨機(jī)森林的組合。森林的多樣性對于算法集成效果至關(guān)重要[5]。為簡單起見,假設(shè)使用四個(gè)隨機(jī)森林,一半為完全隨機(jī)的樹林和剩下一部分為普通隨機(jī)森林[5]。每個(gè)完全隨機(jī)的森林包含500個(gè)完全隨機(jī)的樹[6],在樹的每個(gè)節(jié)點(diǎn)隨機(jī)選擇一個(gè)特征進(jìn)行分割,當(dāng)葉子節(jié)點(diǎn)的分類相同為止。同樣,每個(gè)隨機(jī)森林包含500棵樹,隨機(jī)挑選個(gè)特征作為候選(t是原始輸入特征的規(guī)模),挑選基尼系數(shù)最好的一個(gè)進(jìn)行分割。超參數(shù)不僅僅包括深林的規(guī)模。
每個(gè)森林會產(chǎn)生估計(jì)類分布,通過計(jì)算不同類型的訓(xùn)練例子的比例在葉子節(jié)點(diǎn)相關(guān)的實(shí)例,然后平均所有相同的森林,如圖2所示,紅色強(qiáng)調(diào)實(shí)例遍歷路徑沿著葉節(jié)點(diǎn)。
圖2
過擬合的風(fēng)向可以通過各森林得出的類向量由kfold交叉驗(yàn)證來減少。簡而言之,各樣本將被當(dāng)做k-1次的訓(xùn)練樣本,得到k-1次的類概率向量,然后對類向量求平均值,每一層產(chǎn)生的特征類向量都會作為后層的輸入。每次得出的分類準(zhǔn)確度都會與之前的進(jìn)行對比,如果有提升,則會將當(dāng)前特征向量繼續(xù)輸入到下一層,以此反復(fù),直到某一層的分類準(zhǔn)確度不再提升為止。因此,級聯(lián)深林的層數(shù)是自適應(yīng)確定的。不需要再作為超參數(shù)進(jìn)行確定。
強(qiáng)化級聯(lián)森林中,選取每個(gè)森林中最重要的前k個(gè)特征,利用k個(gè)特征的標(biāo)準(zhǔn)差組成新的特征。然后,我們將新的方差特征與輸出類分布向量結(jié)合起來,增強(qiáng)其在下一層串聯(lián)的輸入向量中的類分布,從而降低下一傳播層的估計(jì)錯(cuò)誤發(fā)現(xiàn)率。使用top-k特征的標(biāo)準(zhǔn)差而不是直接使用top-k特征的原因是:①為了降低模型對k參數(shù)的敏感性;②方差在一定程度上可以體現(xiàn)top-k特征實(shí)例的差異性。同時(shí)對原有的多余特征進(jìn)行剔除整理成為新的屬性向量,如圖3所示。
本文的實(shí)驗(yàn)數(shù)據(jù)來自于TCGA的Brest數(shù)據(jù)集。為了驗(yàn)證算法的高效性,進(jìn)行了兩組對比實(shí)驗(yàn)。如k近鄰(KNN),深度森林(gcForest)算法,并從分類準(zhǔn)確度(Precision),召回率(Recall),F(xiàn)1 分?jǐn)?shù)(F1-Score)等不同的度量指標(biāo)來評估MSMGS-RCF模型的性能。分類準(zhǔn)確度如圖 4所示,KNN、gcForest、MSMGS-RCF 分別為80.1%、82.3%、88.1%,本文提出的MSMGS-RCF模型的分類性能最佳。
圖3 強(qiáng)化級聯(lián)森林
圖4
本文針對當(dāng)前乳腺癌診斷中所存在的缺陷,提出了一種基于轉(zhuǎn)錄組測序數(shù)據(jù)的分類模型,通過真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)室表明,算法模型具有一定的可靠性。針對轉(zhuǎn)錄組數(shù)據(jù)具有的三個(gè)特點(diǎn):①高維度;②數(shù)據(jù)類不平衡;③高噪聲;提出的基于mRNA與miRNA不平衡數(shù)據(jù)的分類模型MSMGS-RCF,提高了乳腺癌分類模型的學(xué)習(xí)效率,降低了實(shí)驗(yàn)成本。本文雖然乳腺癌的整體分類準(zhǔn)確度有了一定的提升,但依然存在一些不足與待改進(jìn):算法的訓(xùn)練的時(shí)間復(fù)雜的較高,少數(shù)類分類準(zhǔn)確度較低。可以通過結(jié)合SMOTE等采樣算法對特征進(jìn)行降維處理,提高少數(shù)類的分類準(zhǔn)確度,縮短時(shí)間開銷。