夏 恒, 湯 健, 喬俊飛
(1.北京工業(yè)大學(xué)信息學(xué)部, 北京 100124; 2.計算智能與智能系統(tǒng)北京市重點實驗室, 北京 100124)
深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)以強大的學(xué)習(xí)能力成為當(dāng)前研究熱點[1-2]. DNN通過對初始樣本的逐層變換將初始特征轉(zhuǎn)換到新的特征空間,最終獲得層次化的深層特征表示. 目前DNN在Alphago[3]、關(guān)系推理[4]和視覺互動網(wǎng)絡(luò)(visual interaction network,VIN)[5]等許多單應(yīng)用場景中的認知能力已超越人類,但其黑箱模型的本質(zhì)、對訓(xùn)練數(shù)據(jù)的要求和大量超參數(shù)的調(diào)整等因素限制了在理論和可解釋性分析等方面的深入研究,以及在小樣本數(shù)據(jù)應(yīng)用場景的推廣.
近年來,在計算機視覺等領(lǐng)域中,先采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)[6-7]提取深度特征,再采用隨機森林(random forest, RF)作為分類器的模型結(jié)構(gòu)被稱為深度森林(deep forest,DF)[8-9],但這類方法在本質(zhì)上并不具有完全非神經(jīng)網(wǎng)絡(luò)模式的深度結(jié)構(gòu). 基于DNN存在的上述問題,文獻[10]首次提出了由多粒度掃描和級聯(lián)森林組成的DF算法,初步探索了基于非微分基學(xué)習(xí)器集成的深度學(xué)習(xí)模型,開啟了非神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的深度學(xué)習(xí)模式. 與此同時,文獻[11]提出了采用決策樹(decision tree, DT)替換DNN中神經(jīng)元的前瞻性深層隨機森林(forward thinking deep random forest, FTDRF)算法,降低了級聯(lián)森林模型的算法復(fù)雜度. 上述這些研究工作表明,基于DT的深度集成模型能在無反向傳播策略的情況下進行有效學(xué)習(xí),并取得令人滿意的預(yù)測性能.
目前,對DF結(jié)構(gòu)的改進主要集中在其2個組成部分,即多粒度掃描和級聯(lián)森林. 一部分的本質(zhì)是數(shù)據(jù)預(yù)處理,主要任務(wù)是將原始數(shù)據(jù)信息轉(zhuǎn)換成可供級聯(lián)森林模型學(xué)習(xí)的有效信息. 基于建模數(shù)據(jù)特點進行改進的典型方式包括采用主成分分析(principal component analysis,PCA)預(yù)處理原始光譜數(shù)據(jù)[12]和采用深度玻爾茲曼機(deep Boltzmann machine, DBM)預(yù)處理工業(yè)過程變量[13]等. 另一部分的本質(zhì)是構(gòu)建學(xué)習(xí)模型,其主要任務(wù)是利用預(yù)處理后的數(shù)據(jù)構(gòu)建深度集成預(yù)測模型,典型改進方式包括增加實例權(quán)重的提升級聯(lián)深度森林(boosting cascade deep forest, BCDForest)[14]、基于子森林權(quán)重分配的加權(quán)深度森林(weight deep forest, WDF)[15]和基于密集連接網(wǎng)絡(luò)DenseNet思想[16]的密度自適應(yīng)級聯(lián)森林(dense adaptive cascade forest, daForest)[17]等.
此外,DF作為集成學(xué)習(xí)家族的深度結(jié)構(gòu)模式,增加其基學(xué)習(xí)器的多樣性也是研究學(xué)者熱衷的方向之一. 面向?qū)W習(xí)器數(shù)量所表征的差異性,文獻[18]采用XGBoost和RF作為基學(xué)習(xí)器;文獻[19]采用柔性神經(jīng)樹(flexible neural tree, FNT)[20]構(gòu)建級聯(lián)森林層等. 面向?qū)W習(xí)器類型所表征的差異性,文獻[21]采用多示例RF和多示例極限隨機樹[22]構(gòu)建級聯(lián)森林層模塊;文獻[23]在每一級聯(lián)層中采用4個旋轉(zhuǎn)森林等. 上述改進的DF算法主要是從基學(xué)習(xí)器組合設(shè)計的角度增加深度集成模型內(nèi)部的多樣性,同時也促進了深度集成模型結(jié)構(gòu)的多元化研究.
與此同時,針對DF所固有的高內(nèi)存消耗和時間成本等問題,眾多學(xué)者從不同角度進行了研究. 例如:文獻[24]基于分布式并行平臺實現(xiàn)了級聯(lián)森林模塊的并行計算;文獻[25]利用特征貢獻率對DT進行剪枝,并通過簡化基學(xué)習(xí)器降低DF模型的復(fù)雜度;文獻[26]通過在DF的框架中引入置信度篩選機制減少級聯(lián)層森林模塊的訓(xùn)練和測試時間. 此外,針對級聯(lián)森林的結(jié)構(gòu)設(shè)計,文獻[27]將初始DF中每層4個森林(4×1)拆分成2個子層(2×2)以獲得改進結(jié)構(gòu)的DF.
基于上述DF研究進展,本文首先介紹DF的基本結(jié)構(gòu)及其性質(zhì),然后將其現(xiàn)狀分為引入特征工程、改進表征學(xué)習(xí)、修改基學(xué)習(xí)器、修改層級結(jié)構(gòu)和引入權(quán)重配置等方向并進行綜述和分析,接著介紹DF的應(yīng)用領(lǐng)域并指出主要面臨的挑戰(zhàn)及未來研究方向,最后總結(jié)本文工作.
DF算法由多粒度掃描和級聯(lián)森林2個模塊構(gòu)成,其針對三分類任務(wù)的結(jié)構(gòu)如圖1所示.
圖1中各模塊的主要功能如下.
1) 多粒度掃描模塊:以滑動窗口尺寸s為例,首先,用尺寸為s的滑動窗口將M維原始特征向量變換成大小為(M-s)+1維的特征向量;然后,利用RF和完全隨機森林(completely random forest, CRF)進行特征轉(zhuǎn)換以獲得類分布向量;最后,將其串聯(lián)以獲得增強特征向量. 重復(fù)上述步驟,獲得多個增強特征向量. 在初始DF算法中,多粒度掃描的次數(shù)一般設(shè)置為3.
2) 級聯(lián)森林模塊:每個級聯(lián)層采用CRF和RF兩種類型的森林算法作為基學(xué)習(xí)器進行建模,然后采用Stack策略[28]實現(xiàn)逐層訓(xùn)練. 為了防止特征在逐層傳遞中造成過擬合現(xiàn)象,級聯(lián)層間利用轉(zhuǎn)換特征向量與原始特征向量串聯(lián)作為下一級聯(lián)層模型的訓(xùn)練數(shù)據(jù). 同時,級聯(lián)森林模塊采用交叉驗證的方式進行級聯(lián)層數(shù)(即深度)的自適應(yīng)調(diào)整.
基于非微分基學(xué)習(xí)器的DF算法具有良好的表征學(xué)習(xí)能力,在訓(xùn)練數(shù)據(jù)較少時也具有良好的泛化性能,其主要優(yōu)點如下:1) 級聯(lián)層數(shù)隨訓(xùn)練過程自適應(yīng)調(diào)節(jié);2) 超參數(shù)少且對超參數(shù)的調(diào)節(jié)不敏感,一組超參數(shù)甚至可用在不同數(shù)據(jù)集上;3) 具有并行處理的結(jié)構(gòu);4) 相對于DNN的黑箱模型,DF更易進行理論分析.
目前DF主要應(yīng)用在分類領(lǐng)域,本文將其研究方向分為5個子方向,即引入特征工程、改進表征學(xué)習(xí)、修改基學(xué)習(xí)器、修改層級結(jié)構(gòu)和引入權(quán)重配置,如圖2所示. 其中,在引入特征工程子方向主要綜述以多粒度掃描為代表的數(shù)據(jù)預(yù)處理;在改進表征學(xué)習(xí)子方向綜述增加類分布向量、類分布向量降維和特征優(yōu)化3個方面;在修改基學(xué)習(xí)器子方向綜述改變基學(xué)習(xí)器種類以及種類與數(shù)量均改變2個方面;在修改層級結(jié)構(gòu)子方向綜述改變級聯(lián)層排列;在引入權(quán)重配置子方向綜述賦予實例和學(xué)習(xí)器權(quán)重2個方面.
圖2 DF研究方向分類Fig.2 Classification of DF research directions
由基于不同領(lǐng)域數(shù)據(jù)的特征空間和樣本空間假設(shè)的差異以及“沒有免費的午餐”理論[29]可知,難以構(gòu)建在不同情況下均獲得較佳泛化性能的模型,這使得特征工程成為建模前的必要步驟. 因此,多粒度掃描模塊作為一類特征工程方法,在很大程度上決定著DF模型的泛化性能. 目前,特征提取或樣本采樣等預(yù)處理方法在DF中的研究策略包括:直接替代多粒度掃描模塊、將預(yù)處理后的數(shù)據(jù)輸入至多粒度掃描模塊和在多粒度掃描模塊后進行特征處理等.
在實際應(yīng)用場景中獲取的原始數(shù)據(jù)普遍存在異常值、噪聲和類分布不平衡性等問題. 因此,研究人員基于數(shù)據(jù)特性采用預(yù)處理方式取代DF中的多粒度掃描模塊. 在圖像識別領(lǐng)域,文獻[15]采用PCA預(yù)處理原始光譜數(shù)據(jù),如圖3所示. 圖中,其原始光譜數(shù)據(jù)的特征空間T(m×h)×b被壓縮成R(m×h)×n以獲得特征向量X1D,然后訓(xùn)練級聯(lián)森林模型以實現(xiàn)衛(wèi)星遙感圖像分類.
圖3 PCA處理光譜數(shù)據(jù)流程圖[15]Fig.3 Flow chart of PCA processing spectral data[15]
隨后,文獻[30]在此基礎(chǔ)上采用t分布隨機相鄰嵌入方法(t-distributed stochastic neighbor embedding,t-SNE)對高維光譜數(shù)據(jù)進行預(yù)處理,將其映射到低維空間中并保持在原始特征空間的概率分布不變,最終應(yīng)用于水稻種子凍害程度的識別.
針對軟件缺陷中的源數(shù)據(jù)由抽象邏輯符號組成的特殊性,文獻[31]通過Z-Score標(biāo)準(zhǔn)化策略獲取特征信息,其過程如圖4所示.
圖4 基于Z-Score標(biāo)準(zhǔn)化的DF結(jié)構(gòu)[31]Fig.4 DF structure based on Z-Score standardization[31]
在圖4中,N維標(biāo)準(zhǔn)缺陷特征被Z-Score標(biāo)準(zhǔn)化處理后得到N維轉(zhuǎn)換特征,接著將其作為級聯(lián)森林輸入構(gòu)建軟件缺陷檢測模型.
此外,也有研究學(xué)者采用先預(yù)處理原始數(shù)據(jù),再采用多粒度掃描模塊,最后訓(xùn)練級聯(lián)森林模型的策略. 文獻[32]采用基于帶通濾波器和局部顏色迭代矯正的連通域提取圖片文字信息特征,然后通過使用隨機蕨[33]構(gòu)建的多粒度掃描模塊生成轉(zhuǎn)換特征向量,最后構(gòu)建級聯(lián)森林模型. 為了從復(fù)雜背景中提取船舶的形狀和結(jié)構(gòu),文獻[34]設(shè)計了基于梯度特征向量訓(xùn)練的區(qū)域建議網(wǎng)絡(luò)并用于提取熱遙感圖像中的船舶區(qū)域特征,其過程如圖5所示.
圖5 船舶的形狀和結(jié)構(gòu)特征提取過程[34]Fig.5 Shape and structure feature extraction process of the ship[34]
圖5所示處理過程可簡述為:首先定義8個用于檢測不同方向的船舶濾波器,其中每個濾波器由線性支持向量機訓(xùn)練且對應(yīng)某個方向;然后通過卷積操作進行模板匹配,進而對梯度金字塔中的子窗口進行評分;如果任意一個濾波分數(shù)大于閾值η,則被作為后續(xù)判別的候選區(qū)域,否則當(dāng)前窗口被識別為海洋背景;重復(fù)多次運行后得到候選區(qū)域數(shù)據(jù),最后構(gòu)建DF模型以實現(xiàn)船舶識別.
針對工業(yè)過程分布式控制系統(tǒng)(distributed control system, DCS)采集和存儲的工業(yè)大數(shù)據(jù),文獻[16]在多粒度掃描前引入深度玻爾茲曼機(deep Boltzman machine,DBM)將過程數(shù)據(jù)轉(zhuǎn)換成二進制向量,如圖6所示.
圖6 DBM特征提取[16]Fig.6 Feature extraction process of DBM[16]
圖6所示的處理過程可描述為:原始400維輸入特征向量被DBN模型轉(zhuǎn)換為不同維度大小的二進制向量,實現(xiàn)了利用二進制特征向量替代原始特征向量,進而極大地減小了DT處理連續(xù)屬性數(shù)據(jù)的計算困難;然后,二進制特征向量被多粒度掃描模塊轉(zhuǎn)換成2 400維的轉(zhuǎn)換特征向量,進而用于訓(xùn)練級聯(lián)森林模塊以獲得故障診斷模型. 該模型在田納西州伊士曼化工過程的故障診斷實驗結(jié)果表明,其分類精度優(yōu)于傳統(tǒng)的DBN方法.
在處理幼兒注意缺陷多動障礙樣本中的類不平衡問題中,文獻[35]采用合成少數(shù)過采樣技術(shù)(synthetic minority over-sampling technique, SMOTE)[36]和最近鄰編輯器(edited-nearest neighbor, ENN)[37]的策略進行數(shù)據(jù)預(yù)處理,構(gòu)建基于DF的幼兒多動障礙診斷模型. 隨后,針對癌癥基因組圖譜數(shù)據(jù)的樣本類不平衡問題,文獻[38]首先采用SMOTE策略對癌癥基因組圖譜數(shù)據(jù)中的少數(shù)不平衡類樣本進行擴充,然后采用Tomek Link方法[39]剔除樣本擴充過程中所引入的噪聲以實現(xiàn)原始樣本的類間相對平衡,最后構(gòu)建DF模型.
不同于上述的數(shù)據(jù)預(yù)處理方式,文獻[40]在文獻[12]的基礎(chǔ)上,通過引入平均池化層實現(xiàn)轉(zhuǎn)換特征向量的維數(shù)約簡,其過程如圖7所示.
圖7所示處理過程可描述為:首先采用PCA處理光譜數(shù)據(jù)獲得(2w-1)×(2w-1)×p維的特征空間,接著利用多粒度掃描生成2類尺寸為w×w×c的特征空間,然后在平均池化層中進行約簡以獲得(w/2)×(w/2)×c的新特征空間,扁平層疊后作為級聯(lián)森林的輸入.
圖7 基于平均池化的光譜數(shù)據(jù)處理過程[40]Fig.7 Spectral data processing process based on average pooling[40]
研究表明,上述特征工程方法均能提升DF模型性能,但無法確定哪種特征工程方法適用于所有領(lǐng)域的實際問題. 未來研究中,特征工程方法的選取存在3種策略:基于實際數(shù)據(jù)特性、基于實驗判斷和基于經(jīng)驗確定.
級聯(lián)森林模型以多粒度掃描或特征工程預(yù)處理后的轉(zhuǎn)換特征向量為輸入進行逐層訓(xùn)練,級聯(lián)森林層與層之間利用類分布概率信息實現(xiàn)表征學(xué)習(xí). 本文將其分為增加類分布向量、類分布向量降維和特征優(yōu)化3個子方向.
1) 增加類分布向量. 在不采用自適應(yīng)層數(shù)調(diào)整策略時,級聯(lián)層誤差隨著深度的不斷增加會出現(xiàn)劇烈跳變的現(xiàn)象. 文獻[41]認為,級聯(lián)層的稀疏連通性導(dǎo)致特征向量所攜帶信息不斷退化,為消除這一現(xiàn)象,提出daForest算法. 其創(chuàng)新性體現(xiàn)在:當(dāng)前級聯(lián)層的表征特征中包含之前所有層的表征特征信息,主要特點是在級聯(lián)層中增加了類似DenseNet[42]的連接方式,研究表明該結(jié)構(gòu)針對高維稀疏數(shù)據(jù)和低維數(shù)據(jù)均能有效防止級聯(lián)層間的信息流削弱. 與此同時,文獻[43]根據(jù)Wolpert的堆疊泛化思想[44],提出了深度堆疊森林結(jié)構(gòu)(deep stacking forest, DSF),其結(jié)構(gòu)如圖8所示.
圖8 基于堆疊泛化的級聯(lián)層結(jié)構(gòu)[43]Fig.8 Cascade layer structure based on stacked generalized[43]
由圖8可知,該結(jié)構(gòu)與原始DF的明顯區(qū)別是:將級聯(lián)森林中已構(gòu)建級聯(lián)層的輸出和原始特征向量組合作為新級聯(lián)森林層的輸入.
上述研究雖然從不同思想獲得靈感,但最終級聯(lián)層森林模型的結(jié)構(gòu)卻具有一致性.
2) 類分布向量降維. 由于堆疊級聯(lián)模型的表征特征向量維度隨著級聯(lián)層深度的增加而逐漸變大,進而增加了模型的時間復(fù)雜度. 為了解決上述問題,文獻[45-46]提出一種降低類分布向量堆疊的方法,其結(jié)構(gòu)如圖9所示.
由圖9可知,該方法將原始特征向量與之前每級聯(lián)層輸出的類分布向量的平均值進行重組,進而獲得增強特征向量以訓(xùn)練下層模型.
圖9 基于增強特征向量的級聯(lián)層結(jié)構(gòu)[45]Fig.9 Cascade layer structure based on augmented feature vector[45]
為降低DF的空間復(fù)雜度和提高其收斂速度與運行效率,文獻[47]以同類森林模型輸出的同類分布概率結(jié)果的均值作為輸入,以達到對類分布向量進行降維的目的.
3) 特征優(yōu)化. 以降低級聯(lián)森林模型時間消耗為目的,文獻[48]在級聯(lián)層中加入特征優(yōu)化模塊,其結(jié)構(gòu)如圖10所示.
圖10 加入特征優(yōu)化模塊的級聯(lián)層結(jié)構(gòu)[48]Fig.10 Cascade layer structure with feature optimization module[48]
由圖10可知,級聯(lián)層中的4 024維的增強層向量通過特征優(yōu)化模塊后再輸入至下一層. 該特征優(yōu)化模塊依據(jù)預(yù)測誤差度量原始特征向量和類分布向量的重要性,選取最具區(qū)別性的特征進行逐層訓(xùn)練以實現(xiàn)刪除不重要特征的目的,進而降低計算時間成本.
DF作為一種深度集成結(jié)構(gòu),其性能取決于作為基學(xué)習(xí)器的森林算法之間的差異性和自身精度[49]. 目前,已有眾多研究學(xué)者對基學(xué)習(xí)器的種類和數(shù)量進行了研究,以提高其多樣性.
1) 改變級聯(lián)層中基學(xué)習(xí)器種類. 考慮到基學(xué)習(xí)器間的差異性,文獻[21]在級聯(lián)森林模塊中采用多示例RF和多示例極限隨機樹[22]取代RF和CRF. 針對遙感圖像分類中RF與CRF性能相似而導(dǎo)致多樣性較弱的問題,文獻[50-51]采用旋轉(zhuǎn)森林[52]與RF構(gòu)建級聯(lián)層模型. 隨后,文獻[53]為提高建模精度,在級聯(lián)森林層采用4個旋轉(zhuǎn)森林. 與此同時,采用不同基學(xué)習(xí)器組合的策略相繼被提出,例如,基于邏輯回歸[54-55]、XGBoost[56]、Extratrees和LightGBM[57]等,其一般性結(jié)構(gòu)如圖11所示.
圖11 改變基學(xué)習(xí)器種類的一般性結(jié)構(gòu)[57]Fig.11 General structure of changing the type of base learner[57]
由圖11可知,級聯(lián)森林中每層均由不同類型的基學(xué)習(xí)器組成,共包含了LightGBM、RF、XGBoost和Extratrees四種類型.
2) 改變級聯(lián)層中基學(xué)習(xí)器數(shù)量和類型. 該研究主題主要包括2種相反的研究方向. 其中一個研究方向是減少基學(xué)習(xí)器數(shù)量或類型. 針對網(wǎng)格結(jié)構(gòu)化數(shù)據(jù)分類問題,文獻[18]僅采用XGBoost和RF作為基學(xué)習(xí)器構(gòu)建級聯(lián)層. 在工業(yè)過程故障檢測中,文獻[58]采用XGBoost、RF和Extratrees共3種類型的基學(xué)習(xí)器構(gòu)建級聯(lián)層. 在癌癥亞型分類中,文獻[19]采用6個FNT構(gòu)建級聯(lián)森林層. 上述研究結(jié)果表明,基學(xué)習(xí)器數(shù)量或類型的減少并未導(dǎo)致模型性能下降. 另一個研究方向是增加基學(xué)習(xí)器數(shù)量或類型. 在電力系統(tǒng)暫態(tài)評估中,文獻[59]采用基于信息增益比RF、基于基尼指數(shù)的RF、基于信息增益比的CRF、基于基尼指數(shù)的完全隨機樹森林和極端隨機樹共5種不同類型的基學(xué)習(xí)器. 在雷達高分辨率距離剖面自動目標(biāo)識別中,文獻[60]所提方法的級聯(lián)森林層包含RF、Extratrees、XGBoost和梯度提升樹(gradient boosted decision trees,GBDT)[61]各2個基學(xué)習(xí)器,共8個基學(xué)習(xí)器. 上述這些研究表明,基學(xué)習(xí)器類型或數(shù)量的增加能明顯提高模型的泛化性能,其一般性結(jié)構(gòu)如圖12所示.
圖12 改變基學(xué)習(xí)器種類和數(shù)量的一般性結(jié)構(gòu)[60]Fig.12 General structure of changing the type and quantity of base learners[60]
由圖12可知,每層級聯(lián)森林均由不同類型和數(shù)量的基學(xué)習(xí)器組成,其包含2個RF、2個Extratrees、2個Xgboost和2個GBDT學(xué)習(xí)器.
以上研究雖然對基學(xué)習(xí)器的多樣性進行了不同程度的探索,但還存在以下問題有待深入研究:1) 由于增加級聯(lián)層子森林數(shù)量(寬度)會增加模型的訓(xùn)練成本,故級聯(lián)層寬度與深度的動態(tài)調(diào)整需進一步研究. 2) 對如何增加基學(xué)習(xí)器種類的研究缺乏相關(guān)性分析. 因此,對如何分析基學(xué)習(xí)器的貢獻以及避免其增加的主觀隨意性均有待于深入研究.
DF作為深度學(xué)習(xí)領(lǐng)域的新成員,如何對其深度結(jié)構(gòu)進行設(shè)計是減少模型冗余以提高運行效率的主要手段之一. 目前,針對級聯(lián)層的結(jié)構(gòu)設(shè)計的研究僅限于文獻[30,62]提出的層級調(diào)整策略,其結(jié)構(gòu)如圖13所示. 由圖13可知,其策略為將每一級聯(lián)森林層中的4個森林模型(2RF+2CRF,4×1)拆分成2個子層(2×2). 筆者認為,圖13所示結(jié)構(gòu)的改進動機源于DNN框架中的“層數(shù)比神經(jīng)元數(shù)量更重要”的思想. 本質(zhì)上,雖然通過局部結(jié)構(gòu)調(diào)整提高了整體模型的性能,但從表征學(xué)習(xí)的視角出發(fā)可將上述結(jié)構(gòu)歸類為局部密度連接.
圖13 修改層級結(jié)構(gòu)的級聯(lián)森林[30]Fig.13 Cascading forest of modification of the hierarchical structure[30]
一般來說,數(shù)據(jù)空間潛在的不平衡性和基學(xué)習(xí)器的差異性是降低集成模型性能的主要原因之一. 針對上述問題,引入權(quán)重配置是廣為認可的解決策略. 在面向DF的權(quán)重配置研究中,主要集中在面向?qū)嵗蛯W(xué)習(xí)器2個子方向.
1) 賦予實例權(quán)重
針對DF算法擬合性能弱和多樣性缺失等問題,文獻[14]根據(jù)Boosting思想提出了提升深度森林(boosting cascade deep forest, BCDForest). 其依據(jù)多粒度掃描模塊中森林算法的袋外誤差(out-of-bagging)[64-65]獲得權(quán)重系數(shù)W=(ω1,ω2,…,ωn),再以所產(chǎn)生的類分布向量X=(x1,x2,…,xn)為實例分配權(quán)重,公式為
(1)
針對級聯(lián)結(jié)構(gòu)逐層傳遞所有實例導(dǎo)致模型時間復(fù)雜度增大的問題,文獻[66]利用置信篩選機制[26]為實例xi分配權(quán)重ωi,策略是:當(dāng)ωi≠0時,實例xi進入下層訓(xùn)練;反之,實例xi停留在當(dāng)前層. 因此,根據(jù)第i個實例在前一級聯(lián)層森林中生成的類分布向量的平均值vi為實例xi分配權(quán)重
ωi=f(d(vi,oi))
(2)
式中:oi表示標(biāo)簽向量;d(vi,oi)表示vi向量與oi之間的距離.
針對實例中特征對模型性能的影響,文獻[45]根據(jù)特征對模型的貢獻度提出了自適應(yīng)DF算法,主要通過引入AdaBoost思想為特征賦予權(quán)重,進而減小對分類結(jié)果影響較大的特征權(quán)重,其特點是在訓(xùn)練過程中重點關(guān)注對訓(xùn)練效果影響較小的特征.
2) 賦予學(xué)習(xí)器權(quán)重
針對建模樣本的類間不平衡問題,文獻[67-68]基于DT模型引入權(quán)重概念,以縮小相同類實例間的距離和擴大不同類實例間的距離為準(zhǔn)則,定義損失函數(shù)
(3)
式中:zij表示xi向量與xj向量是否屬于同一類,若屬于同一類,則zij=0,否則zij=1;d(xi,xj)表示xi向量與xj向量之間的距離;τ為微調(diào)系數(shù);λ‖w‖2表示正則項,其中λ是控制正則化強度的系數(shù).
為提高DF模型性能,文獻[69]利用Pari-mutuel模型[70]對類概率分布向量進行權(quán)重配置,即
(4)
式中:pt表示子森林類分布向量;pk,t表示決策時的類分布向量;ωj表示DT權(quán)重.
針對級聯(lián)層數(shù)逐漸增大導(dǎo)致DT的錯誤預(yù)測降低模型泛化性能的問題,文獻[15]提出加權(quán)平均策略,其步驟為:首先,依據(jù)
ak=Acc(Predict(·),Y(·))
(5)
計算DT的準(zhǔn)確率. 式中ak表示針對訓(xùn)練樣本集的預(yù)測準(zhǔn)確率.
然后,根據(jù)每棵DT的預(yù)測精度計算其權(quán)重
(6)
最后,對DT的預(yù)測概率向量進行加權(quán)求和以提高預(yù)測精度和降低級聯(lián)層數(shù).
為進一步提高DF在具有小樣本、高維和類不平衡等特性數(shù)據(jù)中的適用性,文獻[71]提出利用森林算法對預(yù)測貢獻度進行權(quán)重配置,進而改進DF模型,其步驟為:首先,通過采用Wilcoxon-Mann-Whitney Statistic[72]計算接收者操作特征(receiver operating characteristic,ROC)曲線下方的面積[73]A來評價森林算法的性能,且
(7)
式中:xi表示分類器輸出為正類,1≤i≤m;yi表示輸出為負類,1≤j≤n.
然后,采用標(biāo)準(zhǔn)化的A值計算權(quán)重
(8)
(9)
式中:α1表示RF的權(quán)重;α2表示CRF的權(quán)重.
研究表明,基于實例和學(xué)習(xí)器的權(quán)重配置在提高DF算法性能同時也導(dǎo)致模型超參數(shù)和算法復(fù)雜度的增加. 模型復(fù)雜度過高容易出現(xiàn)過擬合,進而導(dǎo)致泛化誤差偏大,反之則會欠擬合導(dǎo)致泛化誤差減小. 顯然,這需要結(jié)合實際應(yīng)用領(lǐng)域進行均衡.
DF相較于DNN具有明顯的獨特性,目前在很多領(lǐng)域都已涌現(xiàn)出大量相關(guān)研究.
在文獻[10]提出DF之初,其就在圖像分類、人臉識別、語音識別和情感分類等領(lǐng)域與CNN、深度信念網(wǎng)絡(luò)[74]、ResNet[75]和AlexNet[76]等深度學(xué)習(xí)方法進行對比,并取得了不弱于或優(yōu)于這些方法的結(jié)果. 此外該模型克服了目前深度學(xué)習(xí)需要大量訓(xùn)練樣本的缺點,進而減少了樣本真值標(biāo)注的成本. 隨后,眾多研究者在計算機視覺領(lǐng)域?qū)F進行了廣泛應(yīng)用.
文獻[12]針對高光譜圖像分類問題,采用PCA降低維數(shù)后利用DF構(gòu)建分類模型,實驗結(jié)果表明,該模型與CNN相比具有更少的超參數(shù)和更快的訓(xùn)練速度. 在此基礎(chǔ)上,文獻[77]提出基于CNN的遷移學(xué)習(xí)方法,利用在最后一個卷積層中提取的特征訓(xùn)練DF模型,基于遙感圖像數(shù)據(jù)集的結(jié)果表明,與全層訓(xùn)練、微調(diào)和最先進CNN等方法相比該模型在預(yù)測精度和訓(xùn)練時間方面均具有優(yōu)越性.
針對火焰檢測問題,文獻[78]建立了基于雙視角和深層多粒度掃描的DF模型,通過采用幀頻提升的高斯混合模型構(gòu)建圖片背景,減少了火焰自身光亮變化以及周圍環(huán)境對目標(biāo)檢測和識別的干擾,其在不同場景的平均火焰檢測率達到95.99%.
針對車輛行為分析問題,文獻[79]提出將DF和結(jié)構(gòu)化標(biāo)簽融合的結(jié)構(gòu)化深度森林(structured deep forest, StruDF),結(jié)果表明其具有與傳統(tǒng)方法相媲美的識別精度.
針對工業(yè)過程故障診斷問題,文獻[13]提出了基于DBM和DF的模型,其采用DBM獲取數(shù)據(jù)與潛在故障之間的復(fù)雜映射,先將特征轉(zhuǎn)換成二進制數(shù)據(jù)后建立DF診斷模型,在不同實驗條件下的實驗結(jié)果表明其分類準(zhǔn)確率優(yōu)于主流深度學(xué)習(xí)算法. 理論上,DNN的不可解釋性是其在實際智能診斷應(yīng)用中的主要難題. 對此,文獻[80]提出應(yīng)用于滾動軸承故障診斷的DF模型,結(jié)果表明該模型具有高準(zhǔn)確率的故障識別性能. 隨后,針對鐵路道岔系統(tǒng)故障識別問題,文獻[81]通過分析故障類型的結(jié)構(gòu)和輸出功率曲線,提出了基于DF的診斷模型,其充分考慮了鐵路道岔系統(tǒng)的強時序性、有限故障數(shù)據(jù)量等數(shù)據(jù)特點,最終故障診斷準(zhǔn)確率達到97%.
在面向醫(yī)療健康領(lǐng)域中,文獻[82]提出基于無監(jiān)督特征提取與DF結(jié)合的方法,首先采用無監(jiān)督特征選擇策略去除冗余特征,然后引入k-means算法獲取退化過程的階段知識以實現(xiàn)有監(jiān)督學(xué)習(xí),最后采用DF構(gòu)建在線診斷監(jiān)測模型,在美國航空航天局(National Aeronautics and Space Administration,NASA)數(shù)據(jù)集中的測試結(jié)果表明了該策略的有效性和可行性.
面向軟件檢測領(lǐng)域,文獻[83]提出基于DF的惡意軟件行為檢測機制,其首先提取惡意及良性樣本中的敏感權(quán)限、服務(wù)和應(yīng)用程序接口(application programming interface,API)調(diào)用特征等數(shù)據(jù),然后確定惡意軟件行為,最后訓(xùn)練DF模型進行檢測,通過與其他深度學(xué)習(xí)方法的對比證明DF方法具有明顯的優(yōu)越性.
其他相關(guān)領(lǐng)域的應(yīng)用還包括慢性胃炎中醫(yī)問診證候診斷[84]、竊電行為檢測[85]和衛(wèi)星姿態(tài)控制系統(tǒng)的執(zhí)行機構(gòu)與傳感器故障診斷[86]等.
針對電力系統(tǒng)短期負荷預(yù)測,文獻[87]提出了基于DF的預(yù)測模型,其首先對缺失數(shù)據(jù)利用線性插值法進行填補,然后以連續(xù)N天的負荷數(shù)據(jù)、氣象因素數(shù)據(jù)以及日期類型數(shù)據(jù)作為輸入,以次日的實際負荷數(shù)據(jù)作為輸出構(gòu)建DF模型,結(jié)果表明其具有最低預(yù)測誤差.
針對人腦注意力識別問題,文獻[88]建立基于DF的腦電注意力識別模型,其利用小波分析法對原始腦電信號進行去噪處理,然后采用DF進行分類識別. 在注意和非注意2種狀態(tài)下的測試結(jié)果表明識別準(zhǔn)確率達到95%以上.
為預(yù)測糖尿病患者住院率,文獻[89]提出了基于小波變換和DF的模型,其首先利用小波變換從10萬例糖尿病患者中提取55個特征屬性,再訓(xùn)練基于DF的分類模型,實驗結(jié)果與RF相比在ROC指標(biāo)上提高了5%.
綜合上述研究可知,DF正以不可估量的速度在不同領(lǐng)域得到應(yīng)用. 本文雖然僅對常用領(lǐng)域的DF典型應(yīng)用進行了介紹,但這些結(jié)果在一定程度上表明DF具有獨特的優(yōu)勢和適應(yīng)不同數(shù)據(jù)集的良好性能.
作為深度學(xué)習(xí)領(lǐng)域中的新成員,近幾年DF在眾多分類識別領(lǐng)域取得了優(yōu)異成績. 本質(zhì)上,DF靈感源于DNN,是由非微分基學(xué)習(xí)器深度集成的一種深度學(xué)習(xí)方法,開啟了非神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的深度學(xué)習(xí)模式的先河. 筆者認為,DF在未來研究中存在如下4個挑戰(zhàn)和潛在研究方向:
1) 面向小樣本的高精度DF建模. 一般來說,大量標(biāo)注樣本仍然是DF實現(xiàn)高精度識別的有效手段. 然而,在實際問題中,尤其在工業(yè)應(yīng)用中,時間、人力和經(jīng)濟成本等因素導(dǎo)致標(biāo)記樣本的獲取難度大,這使得小樣本數(shù)據(jù)成為主要建模對象. 若在現(xiàn)有DF級聯(lián)結(jié)構(gòu)中采用更好的算法進行特征表征,例如森林自編碼器[90],則可以大大提高DF模型的預(yù)測精度,同時避免DF模型出現(xiàn)過擬合現(xiàn)象.
2) DF深度結(jié)構(gòu)設(shè)計. 作為初步探索的非微分性質(zhì)的深度學(xué)習(xí)結(jié)構(gòu),其框架具有良好的伸縮性. 現(xiàn)有研究中,級聯(lián)層的寬度拉伸與層結(jié)構(gòu)拆分等結(jié)構(gòu)設(shè)計均能有效提高DF模型的性能. 與此同時,研究表明,利用剪枝策略進行結(jié)構(gòu)設(shè)計也能顯著提升集成模型的泛化性能. 筆者認為,基于非微分基學(xué)習(xí)器深度集成的結(jié)構(gòu)設(shè)計,若要獲得良好性能需要從集成泛化的角度出發(fā)設(shè)計更為緊湊且高效的DF結(jié)構(gòu).
3) 深度集成結(jié)構(gòu)中的多樣性. 集成多樣性,即基學(xué)習(xí)器個體之間的差異性,是集成學(xué)習(xí)領(lǐng)域的基本問題. 一般而言,期望每個基學(xué)習(xí)器都是準(zhǔn)確的且多樣化的. 然而,僅集成強基學(xué)習(xí)器的模型性能往往不如既存在準(zhǔn)確又存在較弱基學(xué)習(xí)器的集成模型,因此,集成模型中基學(xué)習(xí)器的互補性成為關(guān)鍵. 此外,單一領(lǐng)域的集成策略往往存在一定的局限性,如何融合其他領(lǐng)域方法提升DF模型多樣性是深度集成學(xué)習(xí)未來的研究方向之一.
4) 縮減DF結(jié)構(gòu)的時間成本. 在實際建模過程中,更深更寬的DF結(jié)構(gòu)能夠獲得更好的泛化性能. 然而,訓(xùn)練更大的DF模型,則使得計算性能成為至關(guān)重要的因素. 實際上,DNN的成功很大程度上歸功于圖形處理器(graphics processing unit, GPU)的加速,但DF結(jié)構(gòu)卻并不適合當(dāng)前主流的GPU加速. 因此,針對如何加速和減少DF結(jié)構(gòu)的內(nèi)存消耗是未來需要解決的重要問題和主要挑戰(zhàn). 目前,以分布式計算實現(xiàn)高性能DF加速運算[91]的研究已經(jīng)實現(xiàn),這為后續(xù)縮減DF結(jié)構(gòu)的時間成本提供了很好的借鑒意義.