張錕濱,陳玉明,吳克壽,侯賢宇
廈門理工學(xué)院 計(jì)算機(jī)與信息工程學(xué)院,福建 廈門 361024
1979年,美國科學(xué)家Zadeh首次提出并討論了模糊信息粒度化問題[1]。這一概念的提出,引發(fā)了不同領(lǐng)域的學(xué)者對信息粒化的探索與研究。1988年,Lin提出了鄰域系統(tǒng)并研究了其與關(guān)系數(shù)據(jù)庫的關(guān)系[2],1996 年,Lin 第一次提出了粒計(jì)算(granular computing)的概念,他給出了信息處理中一種新的概念與計(jì)算范式,并在數(shù)據(jù)挖掘領(lǐng)域進(jìn)行應(yīng)用實(shí)踐[3]。在Lin的研究基礎(chǔ)上,Yao定義了一種鄰域關(guān)系[4],進(jìn)而提出了鄰域粒計(jì)算[5],并將其應(yīng)用于數(shù)據(jù)挖掘等領(lǐng)域。2000年后,隨著粒計(jì)算熱度不斷提高,國內(nèi)學(xué)者也加大了對粒計(jì)算的研究力度。苗奪謙等人對知識的粒計(jì)算進(jìn)行研究,給出了屬性重要度啟發(fā)式的屬性最小約簡算法,及基于協(xié)調(diào)度的決策樹構(gòu)造方法[6]。胡清華等人分析了鄰域的約簡,在文獻(xiàn)[7]中提出了一種基于鄰域關(guān)系的粒化方式,從而實(shí)現(xiàn)了實(shí)數(shù)空間中的粒計(jì)算,并在此基礎(chǔ)上設(shè)計(jì)了鄰域分類器[8-9]。Chen在文獻(xiàn)[10-12]中提出了基于單特征模糊?;Y(jié)合卷積的分類模型和基于信息粒的隨機(jī)模糊粒度決策樹算法,將模糊?;c機(jī)器學(xué)習(xí)算法結(jié)合,進(jìn)行聚類與分類,并分析了粒的不確定性和距離度量。從信息粒度的角度分析,不難發(fā)現(xiàn)聚類和分類有很大的相通之處:聚類是在一個(gè)統(tǒng)一的粒度下進(jìn)行計(jì)算,而分類是在不同的粒度之下進(jìn)行計(jì)算[13-14]。粒和?;欠先祟愓J(rèn)知特性的范式,在大數(shù)據(jù)、數(shù)據(jù)挖掘以及復(fù)雜數(shù)據(jù)建模中有著重要作用,并廣泛應(yīng)用于諸多領(lǐng)域[15-17]。
隨機(jī)森林(random forest,RF)[18]是一種集成分類算法,其核心思想是通過建立多個(gè)決策樹來降低單個(gè)決策樹的過擬合風(fēng)險(xiǎn)。每個(gè)決策樹都是在不同的樣本和特征集上訓(xùn)練,這種隨機(jī)性可以減少算法的方差,并提高模型的泛化能力。這些決策樹可以并行訓(xùn)練。在隨機(jī)森林中,每個(gè)決策樹的輸出被視為一個(gè)投票。在分類問題中,隨機(jī)森林會將實(shí)例分配給獲得最多投票的類別,具有高穩(wěn)定性、模型泛化能力強(qiáng),易并行化等優(yōu)點(diǎn),并且由于其在分類任務(wù)上相比于其他算法具有更好的表現(xiàn),因此廣泛應(yīng)用于檢測系統(tǒng)[19]、推薦系統(tǒng)[20]、診斷系統(tǒng)[21]。隨機(jī)森林的起始性能往往比較差,特別是只有一個(gè)基學(xué)習(xí)器時(shí),這是因?yàn)榛鶎W(xué)習(xí)器的訓(xùn)練過程中加入了屬性擾動,導(dǎo)致基學(xué)習(xí)器的性能降低[22]。但是,隨著基學(xué)習(xí)器的個(gè)數(shù)增加,隨機(jī)森林產(chǎn)生的集成學(xué)習(xí)器的性能會得到很大的提升,即最終泛化誤差會收斂到最小。根據(jù)文獻(xiàn)[18],當(dāng)樹的數(shù)目足夠大時(shí),隨機(jī)森林的泛化誤差的上界收斂于下面的表達(dá)式:
其中,是樹之間的平均相關(guān)系數(shù),s是度量樹型分類器強(qiáng)度的量。通過分析式(1)可知,隨機(jī)森林的過擬合風(fēng)險(xiǎn)可以通過Bagging 和特征隨機(jī)選擇來控制,但仍然存在一定的過擬合風(fēng)險(xiǎn)。相關(guān)性的存在使得隨機(jī)森林的泛化誤差略高于獨(dú)立決策樹的誤差。此外,決策樹和隨機(jī)森林本身也有一定的偏差,特別是在復(fù)雜模式或特定樣本分布的情況下。針對以上問題,本文在隨機(jī)森林分類算法中引入粒向量,提出了基于粒向量的隨機(jī)森林分類算法,該算法主要有以下優(yōu)勢:
(1)高維特征表示:粒向量引入了高維特征表示,將數(shù)據(jù)點(diǎn)映射到一個(gè)更大的特征空間。這有助于捕捉更多的數(shù)據(jù)關(guān)系和模式,尤其在處理復(fù)雜的非線性關(guān)系時(shí)效果更好。
(2)參照樣本選擇的隨機(jī)性:隨機(jī)森林算法在每棵決策樹構(gòu)建時(shí)隨機(jī)選擇特征,而粒向量每個(gè)維度都對應(yīng)多個(gè)隨機(jī)選擇的參照樣本特征。這種隨機(jī)性有助于減少過擬合,增加模型的泛化能力。
(3)模型多樣性:隨機(jī)森林通過集成多棵決策樹來進(jìn)行預(yù)測,每棵決策樹都是使用不同的數(shù)據(jù)子集和特征子集構(gòu)建的。引入粒向量后,每棵決策樹的特征子集也是隨機(jī)選擇的。這樣可以增加模型的多樣性,減少模型的方差,提高模型的魯棒性。
在下文將首先詳細(xì)介紹粒向量的定義和算法,以及其在隨機(jī)森林中的應(yīng)用。隨后,提出基于粒向量的隨機(jī)森林分類算法。最后,使用UCI數(shù)據(jù)集對基于粒向量的隨機(jī)森林分類算法與傳統(tǒng)隨機(jī)森林算法和其他方法進(jìn)行性能對比,驗(yàn)證粒向量算法的正確性和有效性,為隨機(jī)森林算法的優(yōu)化探索了一個(gè)新方向。
傳統(tǒng)隨機(jī)森林算法的輸入對象為樣本,在粒計(jì)算理論中,輸入則為一個(gè)由粒子組成的粒向量。文獻(xiàn)[23]提出了粒的構(gòu)造方法,可在列(屬性)上進(jìn)行?;?;文獻(xiàn)[17]提出了在單特征上?;癁榱W樱嗵卣魃狭;瘶?gòu)造粒向量的具體方法,并進(jìn)一步給出了粒的結(jié)構(gòu)、距離度量等定義。
設(shè)數(shù)據(jù)集為U=(X?P,C),其中X={x1,x2,…,xn}為訓(xùn)練樣本集;P={p1,p2,…,pk}?X為隨機(jī)抽取的局部樣本作為?;瘏⒄諛颖?;m維特征集合為C={c1,c2,…,cm} 。給定單樣本x∈X,對于單特征c∈C,v(x,c)∈[0,1]表示樣本x在特征c上歸一化后的值。則x與p在單特征c上的相似度為:
定義1給定數(shù)據(jù)集U=(X?P,C),對于任一樣本x∈X和參照樣本集P={p1,p2,…,pk},以及任一單特征c∈C,則x在參照樣本p中的特征c上進(jìn)行粒化,形成的粒子定義為:
其中,rj=sc(x,pj)表示樣本x以pj為參考,在單特征c上的相似度。易知sc(x,pj)∈[0,1],因此rj∈[0,1]。粒子由粒核組成,gc(x)稱為粒子,則gc(x)j稱為第j個(gè)粒核。若?rj=1,則為1-粒子,簡寫為1;若?rj=0,則為0-粒子,簡寫為0。
定義2設(shè)為數(shù)據(jù)集U=(X?P,C),對于任一樣本x∈X,任一特征子集A?C,設(shè)A={a1,a2,…,am},則在特征子集A上的粒向量x定義為:
其中,gam(x)是樣本x在特征am上的粒子。為方便計(jì),特征集A={a1,a2,…,am}用整數(shù)標(biāo)記,則粒向量表示為GA(x)=(g1(x),g2(x),…,gm(x))T。
粒向量由粒子組成,粒子又由粒核構(gòu)成。因此,粒向量可以是一個(gè)粒核矩陣的形式,表示為:
與原數(shù)據(jù)集相比,粒核矩陣的大小受參照樣本數(shù)量的影響:參照樣本越多,粒核矩陣越大;參照樣本越小,則粒核矩陣越小。粒向量也可以用另外一種形式表示為:
其中,g(x)j=(g1(x)j,g2(x)j,…,gm(x)j)T。粒向量由粒子組成,而粒子是一個(gè)集合的形式。因此,粒向量的元素是集合,與傳統(tǒng)向量不一樣,傳統(tǒng)向量的元素是一個(gè)實(shí)數(shù)。
上節(jié)主要闡述隨機(jī)抽取部分樣本作為參照樣本,然后對訓(xùn)練集樣本在參照樣本中進(jìn)行粒化后,構(gòu)造出粒子與粒向量。這一小節(jié)定義粒的相關(guān)運(yùn)算與距離度量,建立基于粒向量的隨機(jī)森林運(yùn)算基礎(chǔ).
定義3設(shè)粒子為,其大小定義為:
由粒子的定義可知rj∈[0,1],因此0 ≤| |
gc(x) ≤k。
定義4設(shè)為樣本x在特征a,b上的兩個(gè)粒子,則兩個(gè)粒子的加、減、乘、除運(yùn)算定義為:
定義5設(shè)為樣本x,y在特征a上的兩個(gè)粒子,則兩個(gè)粒子的加、減、乘、除運(yùn)算定義為:
兩個(gè)粒子的加減乘除運(yùn)算結(jié)果為一個(gè)粒子。定義4是針對同一個(gè)樣本在不同特征集合上?;蟛煌W拥倪\(yùn)算,而定義5則是應(yīng)用在不同樣本在同一特征集合上?;罅W由系倪\(yùn)算。
定義6設(shè)為兩個(gè)粒子,則粒子的歐氏距離度量為:
定義7設(shè)GC(x)=(g1(x),g2(x),…,gm(x))T,GC(y)=(g1(y),g2(y),…,gm(y))T為兩個(gè)粒向量,則粒向量的歐氏距離度量為:
其中,o(gi(x),gi(y))為粒子的歐氏距離。
本節(jié)進(jìn)一步定義粒范數(shù)。粒范數(shù)可用于衡量特征的重要性和稀疏性。通過引入粒范數(shù)作為正則化項(xiàng),可以促使模型選擇具有較大權(quán)重的特征,同時(shí)抑制那些具有較小權(quán)重或冗余的特征。這有助于降低模型的復(fù)雜性,避免過擬合,并提高泛化能力。
定義8設(shè)為粒子,則粒子的范數(shù)定義為:
(1)粒子-1范數(shù)
(2)粒子-2范數(shù)
(3)粒子-p范數(shù)
(4)粒子-max范數(shù)
(5)粒子-min范數(shù)
定義9設(shè)m維粒向量為,則粒向量范粒子定義為:
(1)粒向量-1范粒子
(2)粒向量-2范粒子
(3)粒向量-p范粒子
粒向量的范粒子運(yùn)算結(jié)果為粒子,提供了一條由粒向量轉(zhuǎn)化為粒子的途徑。
定義10設(shè)m維粒向量為,則粒向量的范數(shù)定義為:
(1)粒向量-11范數(shù)
(2)粒向量-12范數(shù)
(3)粒向量-21范數(shù)
(4)粒向量-22范數(shù)
粒向量的范數(shù)運(yùn)算結(jié)果為實(shí)數(shù),粒子的范數(shù)運(yùn)算結(jié)果也為實(shí)數(shù),這些運(yùn)算提供了粒向量與粒子轉(zhuǎn)化為實(shí)數(shù)的途徑。
基于粒向量的隨機(jī)森林分類算法是有監(jiān)督分類算法,它結(jié)合粒計(jì)算理論以及隨機(jī)森林思想,將可并行的粒與集成學(xué)習(xí)融合,對多特征描述下的粒向量進(jìn)行分類,以提高隨機(jī)森林的性能。為了設(shè)計(jì)基于粒向量的隨機(jī)森林分類算法,需先定義基于粒向量的隨機(jī)森林結(jié)構(gòu),闡述基于粒向量的隨機(jī)森林分類算法的原理。
根據(jù)定義1 和定義2,數(shù)據(jù)集將以粒矩陣的形式輸入隨機(jī)森林。經(jīng)相似度?;碾S機(jī)森林算法隨機(jī)選出的粒向量和粒子,參照文獻(xiàn)[16]的思想構(gòu)造粒決策樹。本文根據(jù)公式(2)進(jìn)行相似度粒化,原數(shù)據(jù)通過?;傻牧O蛄恳跃植繀⒄諛颖具M(jìn)行?;梢酝ㄟ^局部信息構(gòu)造相關(guān)系數(shù)較低的相似度粒核矩陣;在所有樣本上進(jìn)行粒化,所以算法能夠把握全局信息進(jìn)行決策,進(jìn)而能夠有效提高算法的準(zhǔn)確率。通過公式(1)分析傳統(tǒng)隨機(jī)森林存在的問題,本文提出的基于粒向量的隨機(jī)森林算法具有以下優(yōu)勢:
(1)GvRF 可構(gòu)造的決策樹數(shù)量是RF 算法中的|g(x) |倍,能快速提高基學(xué)習(xí)器數(shù)量,以提高隨機(jī)森林的收斂速度。
(2)由于參照樣本的選取具有隨機(jī)性,生成的粒矩陣能夠提供多個(gè)相關(guān)性較弱的分類器,能有效降低相關(guān)系數(shù)ρˉ。
(3)用于構(gòu)建粒向量的參照樣本均來自原始數(shù)據(jù),通過隨機(jī)選取可以更好擬合原始數(shù)據(jù)分布,以提高算法在復(fù)雜模式或不同分布的數(shù)據(jù)集中的性能。
參考隨機(jī)森林的結(jié)構(gòu),基于粒向量的隨機(jī)森林模型分為五個(gè)部分:輸入層、粒化層、抽樣層、并行層、決策層、輸出層,其模型結(jié)構(gòu)如圖1所示。
圖1 基于粒向量的隨機(jī)森林模型結(jié)構(gòu)Fig.1 Granule vector based random forest model structure
首先,輸入信息空間IS=(U,F),其中樣本集為U={x1,x2,…,xn},屬性集為F={f1,f2,…,fm},對樣本集進(jìn)行歸一化操作。GvRF模型的?;瘜与S機(jī)選取參照樣本構(gòu)成參照樣本集P={p1,p2,…,pk},并使用公式(2)在所有屬性下進(jìn)行?;瑢⒃瓟?shù)據(jù)集?;蔀橐粋€(gè)粒核矩陣GT={G(x1),G(x2),…,G(xn)},粒核矩陣的大小由參照樣本的多少決定。?;^后的相似粒矩陣GT通過隨機(jī)抽取粒向量用于構(gòu)造決策樹根節(jié)點(diǎn)的訓(xùn)練數(shù)據(jù),隨機(jī)抽取粒子進(jìn)行節(jié)點(diǎn)的分裂。在并行層,粒核矩陣GT將被處理成多個(gè)新的粒核矩陣GTk},其中k為樣本的個(gè)數(shù)。每個(gè)粒核矩陣用于構(gòu)造粒決策樹,構(gòu)造好的粒決策樹可進(jìn)行并行運(yùn)算。最后通過預(yù)測層得出每棵樹決策的類別,形成決策集,最后通過投票在輸出層確定該樣本的輸出類別。
2.2 節(jié)主要分層具體描述GvRF 算法模型結(jié)構(gòu)。本節(jié)主要闡述基于粒向量的隨機(jī)森林算法流程。
算法1基于粒向量的隨機(jī)森林算法
根據(jù)算法1,GvRF 算法中N和k共同決定了隨機(jī)森林中基學(xué)習(xí)器的數(shù)量。與傳統(tǒng)隨機(jī)森林算法相同,基于粒向量的隨機(jī)森林算法的時(shí)間復(fù)雜度主要包括基學(xué)習(xí)器的訓(xùn)練和預(yù)測階段。在訓(xùn)練階段,需要構(gòu)建多個(gè)決策樹。每個(gè)決策樹的構(gòu)建時(shí)間復(fù)雜度通常為,其中m是屬性數(shù)量,n是樣本數(shù)量。粒具有可并行化的特性,對于基學(xué)習(xí)器的個(gè)數(shù)N和參照集大小k,算法采用并行化處理,總體時(shí)間復(fù)雜度約為。在預(yù)測階段,隨機(jī)森林中的每棵決策樹都需要遍歷,時(shí)間復(fù)雜度為。因此,GvRF 算法的總體時(shí)間復(fù)雜度約為。對于每棵決策樹,存儲的空間復(fù)雜度為O(m)。而基學(xué)習(xí)器的個(gè)數(shù)N和參照集大小k也會增加存儲開銷。因此,GvRF 算法的總體空間復(fù)雜度約為O(Nkm)。通過以上分析,GvRF 算法相比于傳統(tǒng)隨機(jī)森林算法而言,由于其粒的特性,在增加模型輸入信息的同時(shí),沒有增加模型的時(shí)間復(fù)雜度,這也是將粒向量引入隨機(jī)森林算法的優(yōu)勢之一。
傳統(tǒng)隨機(jī)森林算法中每個(gè)基學(xué)習(xí)器只使用部分樣本和特征進(jìn)行訓(xùn)練。這樣可以增加樣本和特征之間的差異性,減少模型對于訓(xùn)練集的過擬合。通過集成多個(gè)基學(xué)習(xí)器的預(yù)測結(jié)果,可以降低方差并提高模型的穩(wěn)定性和泛化能力。由于引入了參照集選擇的隨機(jī)性,GvRF 算法在傳統(tǒng)隨機(jī)森林算法的基礎(chǔ)上,進(jìn)一步提供了多個(gè)高差異性的基學(xué)習(xí)器,這使得GvRF算法相比于傳統(tǒng)隨機(jī)森林算法具有快速收斂的性質(zhì),同時(shí)也進(jìn)一步提高了模型的泛化能力。
分析算法1可知,相比于傳統(tǒng)隨機(jī)森林算法,GvRF算法需要額外指定參照集大小k,即算法所需的超參數(shù)有:基學(xué)習(xí)器的個(gè)數(shù)N和參照集大小k。它們共同決定了模型的學(xué)習(xí)器大小,以及算法時(shí)間與儲存開銷。參數(shù)的變化對算法的分類結(jié)果和運(yùn)行性能有很大的影響,因此需要選擇合適的數(shù)值。通過實(shí)驗(yàn)結(jié)果表明,綜合考慮分類效果以及算法成本,GvRF 算法中基學(xué)習(xí)器的個(gè)數(shù)N的合理取值范圍為0~50,參照集大小k的合理取值范圍為4~10。
為驗(yàn)證所設(shè)計(jì)基于粒向量的隨機(jī)森林算法(GvRF)的綜合有效性,本文采用了UCI中的多個(gè)高維小樣本數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),所有數(shù)據(jù)集的描述性信息如表1所示。
表1 實(shí)驗(yàn)采用的UCI數(shù)據(jù)集Table 1 UCI dataset used in experiment
由于每個(gè)數(shù)據(jù)集中特征量綱不同,所以需要對每個(gè)數(shù)據(jù)集進(jìn)行最大最小值歸一化處理,將每個(gè)特征數(shù)據(jù)變換到[0,1]的區(qū)間之中。歸一化公式如下:
預(yù)處理結(jié)束后,對預(yù)處理的數(shù)據(jù)進(jìn)行相似度?;瑔翁卣魃闲纬闪W?,多特征上形成粒向量,GvRF算法的輸入即為多個(gè)粒向量組成的相似粒矩陣。本文使用GvRF算法與RF算法在UCI數(shù)據(jù)集上,將算法分類效果作為評價(jià)指標(biāo)進(jìn)行對比。本文還討論了兩個(gè)超參數(shù):基學(xué)習(xí)器個(gè)數(shù)N,參照集大小k對提出算法的影響。
對于表1 中的8 個(gè)UCI 數(shù)據(jù)集,實(shí)驗(yàn)采用提出的基于粒向量的隨機(jī)森林算法(GvRF)和隨機(jī)森林算法(RF)進(jìn)行分類效果的比較。對比實(shí)驗(yàn)中包含準(zhǔn)確率、召回率和F1 分?jǐn)?shù)三種評估指標(biāo),每個(gè)指標(biāo)的值都是均值(Mean)加上標(biāo)準(zhǔn)差(Std)。數(shù)據(jù)集首先通過公式(16)進(jìn)行歸一化,輸入RF 算法的為歸一化后的數(shù)據(jù),輸入GvRF 算法的數(shù)據(jù)則還需要經(jīng)過公式(2)的?;僮鬓D(zhuǎn)換成粒核矩陣。本次實(shí)驗(yàn)的超參數(shù)設(shè)置如下:基學(xué)習(xí)器數(shù)量N設(shè)定為25,參照集大小k設(shè)定為5,其他條件均保持一致,所有實(shí)驗(yàn)均采用十折交叉驗(yàn)證。結(jié)果如表2所示。可以看出,在7 個(gè)數(shù)據(jù)集上,GvRF 方法在準(zhǔn)確率、召回率和F1 分?jǐn)?shù)三個(gè)評價(jià)指標(biāo)上均優(yōu)于RF 方法。具體來看,在準(zhǔn)確率方面,GvRF 方法的提高范圍在0.56%到2.62%之間。在召回率方面,GvRF方法的提高范圍在1.92%到3.86%之間,平均提高2.80%。在F1 分?jǐn)?shù)方面,GvRF 方法的提高范圍在1.54%到3.35%之間,平均提高2.34%。這表明GvRF 對比于RF 在提高模型分類性能的廣度和深度上都取得了較好效果。
表2 GvRF與RF在不同數(shù)據(jù)集中的性能對比(Mean±Std)Table 2 Performance comparison of GvRF and RF across different datasets(Mean±Std) 單位:%
但是,GvRF 方法的提高幅度在不同數(shù)據(jù)集的評價(jià)指標(biāo)之間也存在差異。例如,GvRF與RF的提高幅度在數(shù)據(jù)集Heart 與數(shù)據(jù)集Iris 上存在明顯差異。在數(shù)據(jù)集Heart 上,GvRF 方法的召回率提高2.87%,F(xiàn)1 分?jǐn)?shù)提高3.04%,而在數(shù)據(jù)集Iris上,這兩個(gè)指標(biāo)的提高幅度僅為0.43%和0.01%。這表明GvRF 方法在高維數(shù)據(jù)集上表現(xiàn)出更強(qiáng)的優(yōu)勢,這主要是因?yàn)楦呔S數(shù)據(jù)集可以結(jié)合相似度粒化方法提供更豐富的信息以供其進(jìn)行決策。
綜上,表2結(jié)果顯示GvRF方法相比RF方法在高維小樣本數(shù)據(jù)分類性能上獲得了較為全面和穩(wěn)定的提高。同時(shí),也應(yīng)注意到算法性能的提高在不同數(shù)據(jù)集和評價(jià)指標(biāo)之間的差異,這需要在算法比較和選擇時(shí)綜合考慮其他因素包括參照樣本數(shù)量k、基學(xué)習(xí)器數(shù)量N以及對不同數(shù)據(jù)集采用不同的策略,以做出更加準(zhǔn)確的決策。
對于GvRF 和RF 算法,不同基學(xué)習(xí)器的數(shù)量同樣影響算法的分類效果。本文提出的GvRF 算法主要由基學(xué)習(xí)器數(shù)量N和參照樣本數(shù)量k兩個(gè)超參數(shù)共同作用,本節(jié)通過實(shí)驗(yàn)討論這兩個(gè)參數(shù)對GvRF算法的具體影響。
3.2.1 基學(xué)習(xí)器數(shù)量N
為探索不同大小的基學(xué)習(xí)器數(shù)量N對算法的影響,本小節(jié)在每個(gè)數(shù)據(jù)集上以不同的基學(xué)習(xí)器數(shù)量進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)以[2,100]為區(qū)間,2為步長確定基學(xué)習(xí)器數(shù)量N,參照樣本數(shù)量k為固定值5 進(jìn)行,其余條件均保持不變,每組實(shí)驗(yàn)均進(jìn)行十折交叉驗(yàn)證。圖2 為GvRF在不同數(shù)據(jù)集中不同基學(xué)習(xí)器數(shù)量N的實(shí)驗(yàn)結(jié)果。
圖2 GvRF在不同基學(xué)習(xí)器數(shù)量N 的準(zhǔn)確率Fig.2 Accuracy of GvRF with different N
根據(jù)圖2可知,在所有數(shù)據(jù)集的實(shí)驗(yàn)中,GvRF對于RF 算法在不同基學(xué)習(xí)器數(shù)量下準(zhǔn)確率均有一定的提升。從收斂速度看,由于GvRF算法采用相似度?;箶?shù)據(jù)集以粒向量形式擴(kuò)充基學(xué)習(xí)器,其收斂速度在各數(shù)據(jù)集上均優(yōu)于RF 算法,尤其在Heart 數(shù)據(jù)集上較為明顯,Iris 數(shù)據(jù)集由于樣本數(shù)與特征數(shù)都相對較小,GvRF算法最開始就處于最優(yōu)值,并在之后小幅震蕩。從收斂趨勢來看,除了Glass數(shù)據(jù)集仍然處于上升趨勢,其他數(shù)據(jù)集均趨于收斂。可以觀察到,多數(shù)情況下,GvRF算法收斂結(jié)果要高于傳統(tǒng)RF算法,但在基學(xué)習(xí)器數(shù)量N的值超過50 后,部分?jǐn)?shù)據(jù)集上的指標(biāo)也出現(xiàn)了小幅下降的趨勢,但總體指標(biāo)仍然高于RF。這說明基學(xué)習(xí)器數(shù)量N的變化并沒有明顯影響GvRF算法對于RF算法的性能提升。
3.2.2 參照樣本數(shù)量k
在不同參照樣本數(shù)量的實(shí)驗(yàn)中,將基學(xué)習(xí)器數(shù)量N設(shè)定為固定值25,參照樣本數(shù)量設(shè)定在[1,20]區(qū)間內(nèi),步長為1,其他條件均保持不變,每個(gè)實(shí)驗(yàn)均進(jìn)行十折交叉驗(yàn)證,結(jié)果如圖3所示。
圖3 GvRF在不同參照樣本數(shù)量k 的準(zhǔn)確率Fig.3 Accuracy of GvRF with different k
對圖3 分析可知,在所有數(shù)據(jù)集上,GvRF 相對于RF 在準(zhǔn)確率指標(biāo)上均有出不同程度的提升,其中在Glass 和Heart 數(shù)據(jù)集上提升幅度尤為明顯,在Iris 和Diabetes 上提升幅度較小,且不同數(shù)量的參照樣本對同一數(shù)據(jù)的決策準(zhǔn)確率有著較大幅度的影響。從趨勢上分析,隨著參照樣本個(gè)數(shù)的不斷提升,GvRF算法性能在初期(k∈[4,10])可以快速提升,在出現(xiàn)峰值數(shù)據(jù)后,部分?jǐn)?shù)據(jù)集例如Seed 和Diabetes 數(shù)據(jù)集的準(zhǔn)確率趨于穩(wěn)定,在其他數(shù)據(jù)集上的準(zhǔn)確率呈下降趨勢。
結(jié)合圖2 和圖3 實(shí)驗(yàn)內(nèi)容可以看出,基學(xué)習(xí)器數(shù)量N和參照樣本數(shù)量k兩個(gè)超參數(shù)共同決定了GvRF 算法的分類精度,并且由于參照樣本的選擇具有隨機(jī)性,參數(shù)k對提出的算法具有更大的影響。根據(jù)泛化誤差公式(5),本文提出的GvRF算法的優(yōu)勢在于:可以隨機(jī)選擇參照樣本并通過相似度?;姆绞娇焖贅?gòu)造出多個(gè)相關(guān)系數(shù)較低的基學(xué)習(xí)器,在減少了泛化誤差的同時(shí)提高了其收斂速度。值得注意的是,當(dāng)N和k的值相對偏大時(shí),GvRF的性能出現(xiàn)下降的趨勢,這個(gè)現(xiàn)象在變化參數(shù)樣本數(shù)量k時(shí)尤為明顯。綜合以上分析,本文提出的GvRF 算法在所實(shí)驗(yàn)的數(shù)據(jù)集中均有不同程度的提升,主要受到基學(xué)習(xí)器數(shù)量N和參照樣本數(shù)量k兩個(gè)超參數(shù)的影響。其中對于高維小樣本數(shù)據(jù)的提升幅度更大,這充分說明了GvRF 算法的正確性和有效性。考慮算法效率等因素,推薦在高維小樣本數(shù)據(jù)集中,參數(shù)k的值選擇較小的參數(shù),例如[4,10]。參數(shù)N的值則由于其收斂后具有較穩(wěn)定的分類表現(xiàn),可以根據(jù)不同數(shù)據(jù)集進(jìn)行范圍較大的自由選擇。
本節(jié)主要對比了提出的基于粒向量的隨機(jī)森林分類算法和以下對比算法:
(1)傳統(tǒng)隨機(jī)森林(random forest):建立多個(gè)決策樹來降低單個(gè)決策樹的過擬合風(fēng)險(xiǎn)。每個(gè)決策樹都是在不同的樣本和特征集上訓(xùn)練。
(2)極限隨機(jī)樹[24(]extra-trees):極限隨機(jī)樹是一種對傳統(tǒng)隨機(jī)森林的改進(jìn),其在構(gòu)建決策樹時(shí),會隨機(jī)選擇特征和切分點(diǎn),而不是使用最優(yōu)的選擇。不同樣本實(shí)驗(yàn)中統(tǒng)一設(shè)置特征采樣數(shù)為總特征數(shù)的平方根個(gè)特征。
(3)旋轉(zhuǎn)森林[25(]rotation forest):旋轉(zhuǎn)森林是一種利用特征旋轉(zhuǎn)增加模型多樣性的方法,每棵樹都在經(jīng)過特征旋轉(zhuǎn)變換后的特征空間上構(gòu)建,旋轉(zhuǎn)變換通過主成分分析(PCA)等方法實(shí)現(xiàn)。不同樣本實(shí)驗(yàn)中統(tǒng)一設(shè)置旋轉(zhuǎn)次數(shù)為3,隨機(jī)旋轉(zhuǎn)的角度范圍。
(4)XGBoost[26](extreme gradient boosting):XGBoost是一種基于梯度提升樹的集成學(xué)習(xí)算法,在梯度提升樹的基礎(chǔ)上引入了正則化項(xiàng),通過控制模型的復(fù)雜度來防止過擬合。不同樣本實(shí)驗(yàn)中統(tǒng)一設(shè)置學(xué)習(xí)率為0.1,采用L2正則化。
本次實(shí)驗(yàn)中,GvRF 將基學(xué)習(xí)器數(shù)量設(shè)置為25,參照樣本數(shù)量設(shè)置為4。除了不同算法特有的超參數(shù),決策樹部分超參數(shù)統(tǒng)一設(shè)置如下:基學(xué)習(xí)器數(shù)量為25,最小分割樣本數(shù)為2,最小葉子節(jié)點(diǎn)樣本數(shù)為1,樹的最大深度為3,分裂標(biāo)準(zhǔn)為基尼系數(shù)(gini) 。表3 比較了GvRF算法和其他4種算法:RF、ET(文獻(xiàn)[24]方法)、RoF(文獻(xiàn)[25]方法)、XGBoost(文獻(xiàn)[26]方法)在8個(gè)不同數(shù)據(jù)集上的分類準(zhǔn)確率。
表3 GvRF與其他算法在不同數(shù)據(jù)集上的對比分類準(zhǔn)確率Table 3 Accuracy comparison of GvRF and other algorithms on different datasets 單位:%
從表3 數(shù)據(jù)可知,GvRF 算法在大多數(shù)數(shù)據(jù)集上表現(xiàn)較好,特別是在Wine、Glass、Column3C數(shù)據(jù)集上的準(zhǔn)確率最高,分別為98.89%、77.46%、84.19%。在Seed 和Diabetes 數(shù)據(jù)集上,GvRF 算法的準(zhǔn)確率與XGBoost 相等。在Heart數(shù)據(jù)集上,XGBoost略優(yōu)于GvRF。另一方面,綜合數(shù)據(jù)集數(shù)據(jù),可以看出GvRF 算法在小樣本數(shù)據(jù)集(如Iris)和大樣本數(shù)據(jù)集(如Diabetes)上表現(xiàn)都比較好,同時(shí)也能處理特征數(shù)相對較多的問題(如Breast cancer),這表明GvRF 算法具有較強(qiáng)的泛化能力,對樣本量和特征數(shù)量較不敏感,能夠較好地?cái)U(kuò)展到不同規(guī)模和結(jié)構(gòu)的數(shù)據(jù)集。與XGBoost 相比,GvRF 處理小樣本數(shù)據(jù)集的能力更強(qiáng),XGBoost則在高維特征數(shù)據(jù)集上表現(xiàn)較好,因此GvRF更適合樣本量不足的場景。綜合來看,GvRF算法相比其他算法有更好的泛化能力,能夠在不同類型的數(shù)據(jù)集上都獲得較高的分類準(zhǔn)確率。
為了進(jìn)一步驗(yàn)證GvRF 算法的泛化性能,分別以Heart和Breast cancer兩個(gè)數(shù)據(jù)集為例,比較了GvRF與其他算法在不同基學(xué)習(xí)器數(shù)量N下的分類準(zhǔn)確率,如圖4展示。結(jié)果表明:在Heart數(shù)據(jù)集中,當(dāng)基學(xué)習(xí)器數(shù)量較小時(shí),各算法的分類準(zhǔn)確率較低,都在0.80~0.82,但GvRF略高于其他算法。隨著N的增加,所有算法的準(zhǔn)確率均有提升。當(dāng)N達(dá)到100時(shí),GvRF算法的準(zhǔn)確率為0.85,高于XGBoost與其他算法。這表明隨著基學(xué)習(xí)器數(shù)量的增加,GvRF 算法的優(yōu)勢逐漸增加。在Breast cancer 數(shù)據(jù)集中,各算法的分類準(zhǔn)確率維持在0.94~0.96的較高水平,GvRF僅比RF略高0.52個(gè)百分點(diǎn)。隨著N的增加,GvRF的準(zhǔn)確率穩(wěn)步提升,在N=100 時(shí)GvRF 的準(zhǔn)確率高于傳統(tǒng)隨機(jī)森林與旋轉(zhuǎn)森林,低于XGBoost算法。這也說明在此類數(shù)據(jù)集中,基學(xué)習(xí)器數(shù)量的增加對GvRF 準(zhǔn)確率提升具有一定的幫助。值得注意的是,提升GvRF的基學(xué)習(xí)器數(shù)量在提高準(zhǔn)確率的同時(shí)也相應(yīng)增加了算法開銷,在具體應(yīng)用時(shí)需要針對不同數(shù)據(jù)集進(jìn)行參數(shù)尋優(yōu)。綜上,增加基學(xué)習(xí)器數(shù)量N,可以一定程度上提升GvRF算法的分類準(zhǔn)確率,在較小基學(xué)習(xí)器數(shù)量時(shí),快速增加模型的收斂速度,但在某些數(shù)據(jù)集中其收斂速度明顯小于XGBoost等算法。
圖4 不同基學(xué)習(xí)器數(shù)量下的性能對比Fig.4 Performance comparison of different N
本文通過分析隨機(jī)森林算法,結(jié)合相似度粒化理論,在單特征上構(gòu)造粒子,在多特征上由粒子形成粒向量,定義粒子與粒向量的大小、距離和運(yùn)算方法。將相似度?;夹g(shù)引入隨機(jī)森林算法中,設(shè)計(jì)基于粒向量的隨機(jī)森林算法。由于粒子具有多角度、可并行的特點(diǎn),通過隨機(jī)選取參照樣本構(gòu)造多個(gè)相關(guān)系數(shù)較低的基學(xué)習(xí)器,可以提高隨機(jī)森林算法的性能。最后在多個(gè)不同類型數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),充分驗(yàn)證了文章所提出算法的正確性與有效性。未來階段將重點(diǎn)針對以下幾個(gè)問題展開研究:
(1)現(xiàn)階段?;碚摯嬖谝欢ǖ碾S機(jī)性,下一階段將深入研究更具魯棒性的粒化算法,構(gòu)建包含更豐富的約束條件和先驗(yàn)知識的算法框架,采用非監(jiān)督學(xué)習(xí)等方法,增強(qiáng)算法的泛化能力和魯棒性。
(2)現(xiàn)階段?;碚撚?jì)算成本相對較高,下一步將采用分布式計(jì)算等方法降低算法的計(jì)算復(fù)雜度,探索更合適的數(shù)據(jù)結(jié)構(gòu)和搜索策略來優(yōu)化算法的時(shí)間和空間復(fù)雜度。
(3)未來需要進(jìn)一步提升提出的算法對基學(xué)習(xí)器的適應(yīng)性,以拓寬其應(yīng)用場景。后續(xù)研究將繼續(xù)深入研究,提出算法的理論框架,豐富算法的理論基礎(chǔ)。同時(shí)在更廣泛的數(shù)據(jù)集和應(yīng)用場景上驗(yàn)證算法效果,發(fā)現(xiàn)算法的潛在問題,不斷改進(jìn)算法,提高算法的精度、泛化能力,豐富算法的功能。