田夫蓉,白新宇
(貴州師范大學(xué)大數(shù)據(jù)與計算機科學(xué)學(xué)院,貴陽 550000)
近年來,我國腫瘤的發(fā)病率和死亡率不斷走高,有效的篩查技術(shù)較少,診斷水平不高使得腫瘤在早期不能被及時發(fā)現(xiàn),現(xiàn)已成為世界上死亡率最高的疾病之一。如果能夠提高早診率、正確識別癌癥的類型,將有助于提高癌癥的治愈率。為了更好地研究癌癥的病發(fā),部分科學(xué)家轉(zhuǎn)向?qū)δ[瘤的免疫亞型研究。腫瘤的免疫亞型分類一直都是“癌癥基因組學(xué)”研究的重要課題之一。對腫瘤免疫亞型的精準(zhǔn)分類,將對腫瘤的早期診斷、預(yù)測與后期療效評價等多個方面起到重要作用。
解決腫瘤免疫亞型的分類問題,目前使用最多的方式是將基因測序數(shù)據(jù)與機器學(xué)習(xí)算法相結(jié)合來進行分類。腫瘤免疫亞型數(shù)據(jù)集(也稱為“樣本集”)存在樣本不平衡的問題,直接在原樣本集上進行分類會導(dǎo)致效果不理想。針對樣本分布不均衡問題,提出了一種新樣本合成方法,來平衡各類別的數(shù)量分布。首次將該方法應(yīng)用在腫瘤免疫亞型分類問題中,增加分類中少數(shù)類樣本的數(shù)量,實現(xiàn)樣本均衡。
隨著大數(shù)據(jù)時代的到來,樣本類別分布不均衡的分類問題在疾病監(jiān)測、欺詐偵查等領(lǐng)域均受到了廣泛關(guān)注,這類問題的主要特征是不同類別間的樣本數(shù)量規(guī)模差異較大。Weiss通過多次分類實驗,明確指出樣本不平衡的樣本集會使分類結(jié)果不佳。醫(yī)療領(lǐng)域中,對少數(shù)類的誤分可能造成嚴(yán)重的損失。因此,保證樣本集中各類別數(shù)量均衡,可以使分類器分類性能得到顯著的提高。傳統(tǒng)的分類算法在處理不平衡樣本分類問題上效果表現(xiàn)較差,其主要原因是,在分類模型的訓(xùn)練過程中,樣本的不平衡分布會導(dǎo)致不同類別的樣本被使用的機會不均等。如:多數(shù)類(樣本數(shù)量較多的一類)被使用的機會較多。而少數(shù)類(樣本數(shù)量較少的一類)被使用的機會較少。這將使得分類器對多數(shù)類樣本特征更敏感,所以面對新樣本時,更容易將其劃分為樣本數(shù)量較多的一類。
解決樣本分布不平衡分類問題的方法,可分為降采樣法和過采樣法。降采樣通過減少多數(shù)類樣本數(shù)量,在原始數(shù)據(jù)集上創(chuàng)建平衡子集。文獻[10]中指出,增加訓(xùn)練集的數(shù)據(jù)量可以在一定程度可以減少錯誤率。因此,在小樣本的分類問題中,降采樣方法很少使用。過采樣通過增加少數(shù)類樣本來保證各類別樣本的規(guī)模相近,常用于樣本規(guī)模較小的分類任務(wù)中。常用的過采樣方法包括隨機采樣法、SMOTE(synthetic minority oversampling technique)、Borderline-SMOTE和ADASYN。
最簡單處理樣本不均衡問題的方法是隨機采樣。隨機采樣方法雖然可以均衡樣本,但也存在一些問題。比如,過采樣只是簡單地對少數(shù)類樣本進行復(fù)制,擴大了樣本數(shù)據(jù)的規(guī)模,增加了模型的訓(xùn)練復(fù)雜度,嚴(yán)重的會造成過擬合。SMOTE選擇少數(shù)類樣本作為種子,找到離種子最近的個樣本S,并為每個S賦予隨機權(quán)重,將S加權(quán)求和得到新的偽樣本。SMOTE為原始數(shù)據(jù)集引入了新的樣本,但是該方法需要人工選擇超參數(shù)。由于未考慮S樣本類別信息,容易使得新生成的偽樣本中包含其他類別樣本的特征。Border-line SMOTE是對SMOTE方法的一種改進,該算法使用各類別交匯邊界上的少數(shù)類樣本來合成新樣本,從而改善樣本各類別分布混淆的問題。ADASYN對SMOTE的采樣過程進行改進,采用一種自適應(yīng)機制決定每個少數(shù)類樣本需要合成多少偽樣本,但該方法受離群點的影響較大。
Hulse在文獻[15]中指出,在樣本類別分布不平衡的分類問題中,類內(nèi)的樣本分布也會影響最終的分類結(jié)果,且少數(shù)類內(nèi)部樣本分布越不平衡,對分類結(jié)果的影響就越大。
以上方法僅考慮了類間樣本數(shù)量不平衡的問題,并未涉及少數(shù)類內(nèi)部分布對分類結(jié)果的影響。本文提出了一種利用少數(shù)類的核心特征來合成新樣本的方法,用于解決類間樣本規(guī)模不平衡問題和少數(shù)類內(nèi)部分布不均衡問題。為了方便描述,將該方法簡記為“聚類-過采樣法”(clustering minority over-sampling technique,CMOT)。
為了解決腫瘤免疫亞型樣本分布不均勻的問題,使用CMOT法產(chǎn)生少數(shù)類的偽樣本,來保證六種腫瘤免疫亞型樣本數(shù)量規(guī)模相近,并通過使用隨機森林分類器來驗證該過采樣方法的有效性。
癌癥基因圖譜(the cancer genome atlas,TCGA)計劃是美國國家癌癥研究所和美國人類基因組研究所共同監(jiān)督的一個項目,同時TCGA也是目前最大的癌癥基因信息數(shù)據(jù)庫之一。本實驗使用的數(shù)據(jù)集源于TCGA平臺,由Veste?inn Thorsson針對TCGA平臺33種癌癥樣本進行研究,結(jié)合6種分子平臺數(shù)據(jù)來計算160種免疫特征間的相關(guān)系數(shù),通過聚類分析最終得到5個免疫表達特征。根據(jù)這五種免疫表達特征,將所有非血液腫瘤聚類分為6種免疫亞型(傷口愈合型、IFN-γ主導(dǎo)型、炎癥型,淋巴細(xì)胞殆盡型、免疫靜默型和TGF-β主導(dǎo)型)。為了方便描述將六種免疫類型記為:C1、C2、C3、C4、C5、C6,六種免疫類型的數(shù)量分布如表1所示。
表1 六種免疫類型數(shù)量統(tǒng)計
聚類是按照某種特定標(biāo)準(zhǔn)把樣本集分割成不同類簇的一種方法,是搭建一個正確數(shù)據(jù)模型的重要步驟。為了保證少數(shù)類內(nèi)部樣本分布更加均衡,本文使用聚類的方法將少數(shù)類劃分為幾個小的類簇,找到代表類簇核心特征的聚類中心點,將聚類中心點加權(quán)求和產(chǎn)生新的偽樣本來增加少數(shù)類的樣本數(shù)量。在同一數(shù)據(jù)集上,不同的聚類方法有不同的表現(xiàn)。因此,以TGF-β主導(dǎo)型腫瘤樣本集為例,通過使用六種常見的聚類方法(Agglomerative Clustering、KMeans、DBSCA、Birch、Spectral Clustering、Mean shift)進行聚類,選擇適用于該樣本集的聚類方法。
圖1為六種聚類方法在C6樣本集上的聚類結(jié)果。觀察可知,使用DBSCA、Birch、Spec?tral Clustering、Mean Shift等方法進行聚類,聚類結(jié)果均出現(xiàn)不同程度的不平衡情況。Agglom?erative Clustering和KMeans方法聚類效果相對較好,但Agglomerative Clustering方法中出現(xiàn)了類簇邊界混淆的情況(如圖中綠色類簇穿插到了黃色類簇與藍(lán)色類簇之間)。因此,最終選擇KMeans方法的進行聚類,該方法可以保證每個小的類簇規(guī)模相近,且類簇間的分布相互獨立。
圖1 六種方法的聚類結(jié)果對比
KMeans是一種較為常見的聚類方法,因為其簡單實用的特性被廣泛地應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域,但這種方法需要人為確定聚類的個數(shù)。實際上,我們希望能夠找到一些可行值的估計方法。但是,值的選擇一般基于經(jīng)驗和多次試驗結(jié)果。因此,我們嘗試用不同的值進行聚類,以輪廓系數(shù)(silhouette coefficient)作為評價指標(biāo)來度量聚類結(jié)果的優(yōu)劣,輪廓系數(shù)公式如(1)所示。
其中()是樣本到同簇其他點距離的平均值,體現(xiàn)了同一類簇的凝聚度。()是樣本到其他類簇樣本的平均距離,代表了各個類簇間的分離程度。所以,輪廓系數(shù)值越大,表示聚類結(jié)果的類內(nèi)凝聚度越強、各類簇間的分散程度越大、聚類的總體效果越好。
圖2展示了值取3,4,5,6的聚類效果和輪廓系數(shù)。以值取3的結(jié)果為例,右側(cè)圖是聚類的可視化結(jié)果,左圖的橫軸表示當(dāng)前的值對應(yīng)的輪廓系數(shù),縱軸表示聚類標(biāo)簽,每個標(biāo)簽的面積體現(xiàn)了該類簇所占比例。觀察可知,當(dāng)聚類個數(shù)為3和4的時候,輪廓系數(shù)值最大。但當(dāng)聚類個數(shù)為4的時候,各個類簇的數(shù)量分布更加均衡,所以本實驗值定為4。
圖2 選取不同K值的輪廓系數(shù)和聚類結(jié)果對比
CMOT方法通過聚類的方式找到類簇核心特征,并對核心特征點加權(quán)求和得到新的偽樣本。這是一種通過合成偽樣本,來增加樣本點的方法,其主要優(yōu)點是可以合成獨立于原始樣本集的新樣本,可用于提升分類模型的泛化性。下面詳細(xì)敘述CMOT方法步驟:
(1)通過KMeans聚類方法,將少數(shù)類聚類為四個小的類簇并找到聚類中心點,如圖3(a)所示,紅色“×”表示該類簇的核心特征。
(2)由(1)中的聚類中心點,結(jié)合公式(3)加權(quán)組合生成新的偽樣本,來擴充少數(shù)類的樣本數(shù)量(其中w表示為第個聚類中心分配的權(quán)重,(0,1)表示0~1之間的一個隨機數(shù),[]表示第個聚類中心點,為新生成的少數(shù)類樣本)。
(3)重復(fù)執(zhí)行(2),直到少數(shù)類樣本數(shù)量和多數(shù)類樣本規(guī)模相近為止。
圖3為CMOT在C6樣本集上的表現(xiàn),(a)(b)兩圖展示了采樣前后各類別的分布情況,新生成的偽樣本不僅在每個類簇上分布均衡,而且很好的保證了少數(shù)類中樣本的原始分布。
圖3 CMOT采樣前后對比
由于新樣本是由聚類中心點加權(quán)求和產(chǎn)生的,通過該方法合成的樣本不會有離群點出現(xiàn)。因此,在一定程度上減少了類內(nèi)數(shù)據(jù)不平衡的現(xiàn)象。
(1)Micro。Micro是一項宏觀的評價指標(biāo),通過統(tǒng)計總體數(shù)據(jù)來計算,即把所有的類的TruePositive(TP)除以所有類別的TP與False?Positive(FP)的加和。因此Micro方法下的pre?cision和recall都等于accuracy。
(2)Macro。Macro是一項微觀的評價指標(biāo),通過統(tǒng)計各個類別數(shù)據(jù)來計算,即把分別求出每一個類別的precision再求其算數(shù)平均。公式(4)中為總類別數(shù)。
(3)Weighted。Weighted是一項綜合的評價指標(biāo),Macro算法是對各類的precision和取算術(shù)平均,Weighted算法是對Macro算法的一種改進,Weighted算法以每個類別的占比為權(quán)重,重新計算得到加權(quán)precision。
其中,表示正樣本被正確的預(yù)測為正;表示正樣本被錯誤的預(yù)測為負(fù);表示負(fù)樣本被錯誤的預(yù)測為正;表示負(fù)樣本被正確的預(yù)測為負(fù)。
本實驗所使用的樣本集公開于Github。實驗中將原始樣本集按照訓(xùn)練集比測試集為4∶1的比例進行劃分。為了保證實驗效果的真實性,僅對訓(xùn)練集樣本使用CMOT方法進行過采樣,用于模型訓(xùn)練,其余部分用于模型測試。過采樣后訓(xùn)練集中各類別數(shù)量分布如表2所示。為了增加分類器的泛化能力、節(jié)省訓(xùn)練時間、平衡數(shù)據(jù)誤差,本實驗選擇以隨機森林作為分類器,表2中的每一個指標(biāo)的取值均是五次重復(fù)試驗得到的平均結(jié)果。
表2 訓(xùn)練集過采樣后免疫亞型的數(shù)量分布
表3為使用多種過采樣方法進行分類的結(jié)果對比,分別采用隨機采樣法、SMOTE、Borderline-SMOTE、CMOTE等四種方法并使用隨機森林算法做分類器,由圖4可以看出,與未經(jīng)過過采樣的結(jié)果對比,CMOT對分類的性能提升最大,Borderline-SMOTE和SMOTE次之,隨機采樣性能提升效果最差。
表3 基于過采樣分類結(jié)果對比
圖4 多種采樣方法分類結(jié)果對比
該結(jié)果表明:COMT采樣法,在腫瘤免疫亞型分類任務(wù)中具有更好的表現(xiàn)。究其原因,總結(jié)為兩點:①本文提出的CMOT方法,增加了少數(shù)類樣本數(shù)量,實現(xiàn)了訓(xùn)練集類間樣本數(shù)量均衡。②使用CMOT方法生成的偽樣本,既保留了原始樣本的重要特征,也合成了新的特征,增加了訓(xùn)練集樣本的多樣性。
針對樣本不平衡的腫瘤免疫亞型分類問題,本文提出了一種合成偽樣本的方法,通過向少數(shù)類中增加偽樣本,使得訓(xùn)練集中各類別樣本量更加均衡,同時也使得腫瘤免疫亞型分類的準(zhǔn)確率大幅提高。但本文的研究工作還可以從以下兩個方面探究:①本實驗的樣本數(shù)量較少,因此選擇的過采樣的方法使得數(shù)據(jù)達到平衡,面對數(shù)據(jù)規(guī)模較大的數(shù)據(jù)集,可能需要尋找更好方法來進行下采樣。②本實驗提出的方法在解決腫瘤免疫亞型分類問題取得了較好的效果,但未在其他領(lǐng)域進行驗證,因此可考慮將其用于不同任務(wù)中。