• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      環(huán)狀掃描的強(qiáng)深度森林

      2021-04-23 04:31:40周博文
      計算機(jī)工程與應(yīng)用 2021年8期
      關(guān)鍵詞:級聯(lián)子集準(zhǔn)確率

      周博文,皋 軍,,邵 星

      1.江蘇科技大學(xué) 計算機(jī)學(xué)院,江蘇 鎮(zhèn)江212003

      2.鹽城工學(xué)院 信息工程學(xué)院,江蘇 鹽城224002

      神經(jīng)網(wǎng)絡(luò)算法因其強(qiáng)大的泛化能力和非線性映射能力而被人們所青睞,同時也存在著明顯的不足,比如需要大量調(diào)參,才得以找到最合適的參數(shù)來發(fā)揮最大性能,而且需要大量的數(shù)據(jù)來訓(xùn)練模型。近年來,周志華老師提出的深度森林模型一定程度上避免了以上問題[1]。文獻(xiàn)[1]的實(shí)驗(yàn)結(jié)果已經(jīng)說明了深度森林的優(yōu)越性能。

      但是深度森林模型也存在不足:(1)在多粒度掃描階段,每個特征子集是按照滑動窗口選取的,假設(shè)數(shù)據(jù)集總的特征維數(shù)為n,窗口大小為m,m>2,則窗口第一次滑動生成的特征子集是從第1維到第m維,窗口第二次滑動生成的特征子集是從第2 維到第m+1 維,顯然,第一維的特征只被掃描了一次,第二維的特征被掃描了兩次……最后一維同理僅被掃描到一次。只有第m維到第n-m+1 維,每一維的特征才可被充分掃描到。由此可以看出,原始模型的多粒度掃描階段不能充分得到特征子集,忽略了數(shù)據(jù)兩端子集所攜帶的信息,若被忽略的子集經(jīng)轉(zhuǎn)換后生成的新特征的重要度非常大,那么就勢必會影響后續(xù)的級聯(lián)階段,隨著級數(shù)的增加,這種影響會逐漸變大,最終降低深度森林模型的預(yù)測準(zhǔn)確率。(2)在級聯(lián)階段,僅僅是把前一層級生成的類分布向量作為增強(qiáng)特征,沒有重視之前級聯(lián)層的類分布向量,會降低收斂速度,從而降低算法的效率。而且,每層概率攜帶的信息是逐層遞減的,只將前一層的類概率向量拼接,模型的準(zhǔn)確率提高有限。

      對于以上問題,本文做出兩點(diǎn)改進(jìn),一是針對原始深度森林模型在多粒度掃描階段不能充分得到每個特征子集的問題,提出一種較全面的環(huán)狀掃描的方法,此方法對數(shù)據(jù)兩端的信息加以重視,可得到每個特征子集,進(jìn)而進(jìn)行充分的特征轉(zhuǎn)換;二是對于級聯(lián)階段不能充分重視之前級聯(lián)層輸出類向量的問題,在文獻(xiàn)[2]的基礎(chǔ)上進(jìn)一步改進(jìn),即對將要堆疊的類向量做個判斷,若屬于有效表征,則將其并入原始特征,反之則舍去。

      1 相關(guān)工作

      深度森林模型因其優(yōu)越的性能和便捷性,被應(yīng)用在多個領(lǐng)域。文獻(xiàn)[2]提出一種深度堆疊森林模型,先在掃描階段采用隨機(jī)抽樣的方法得到特征子集進(jìn)行特征轉(zhuǎn)換,然后在級聯(lián)階段拼接每一層的類向量,加強(qiáng)級聯(lián)結(jié)構(gòu)的表征學(xué)習(xí)能力,將新模型用于軟件缺陷檢測任務(wù);但是也無法全面提取特征子集,不能進(jìn)行充分的特征轉(zhuǎn)換,而且級聯(lián)階段也導(dǎo)致了特征維度增加,只是無選擇的拼接,會使時間和空間開銷增大。文獻(xiàn)[3]構(gòu)建了一種具有雙視角、深層多粒度掃描的模型,將其用于火焰檢測,此模型適用性有限。文獻(xiàn)[4]在文獻(xiàn)[5]的基礎(chǔ)上進(jìn)一步改進(jìn)級聯(lián)森林的輸入,即對之前每一層生成的類向量求和取平均值,然后拼接,從而提升性能,應(yīng)用在情感分類任務(wù)上,但取平均會改變生成類向量的原始信息。文獻(xiàn)[6-10]在圖像和火焰識別上有較好應(yīng)用。文獻(xiàn)[11]通過調(diào)整子樹權(quán)重來提高性能。本文在兩個階段分別做出改進(jìn),首先通過環(huán)狀掃描,重視數(shù)據(jù)邊緣的信息,充分得到特征子集,然后在級聯(lián)階段加入一個有效特征選擇過程,從兩方面來提高模型性能。

      2 深度森林

      2.1 多粒度掃描森林

      深度森林模型是通過多級多層結(jié)構(gòu)來增強(qiáng)表征學(xué)習(xí)能力的,和深度神經(jīng)網(wǎng)絡(luò)類似,以此提升學(xué)習(xí)能力。深度森林主要由兩部分組成,第一部分是多粒度掃描森林,第二部分是級聯(lián)森林。多粒度掃描過程是為了進(jìn)行特征轉(zhuǎn)換,來構(gòu)建更加有效的特征,從而提高級聯(lián)森林結(jié)構(gòu)的分類能力。原始數(shù)據(jù)經(jīng)過不同尺度窗口的掃描,對原始的特征進(jìn)行一系列的轉(zhuǎn)換,可以得到更加豐富、更加具有差異性的特征子集,特征子集作為輸入進(jìn)入分類器,會產(chǎn)生對應(yīng)的類概率向量,并將其作為新的特征成為級聯(lián)森林的輸入,特征轉(zhuǎn)換過程到此結(jié)束。多粒度掃描圖像數(shù)據(jù)的過程如圖1所示。

      對于n×n的圖像數(shù)據(jù),模型首先以大小為m×m的窗口進(jìn)行滑動,會生成(n-m+1)2個窗口,把這些窗口分別送入一個隨機(jī)森林和一個完全隨機(jī)森林,假設(shè)是c分類的話,每個窗口都會生成一個c維類概率向量,共生成2(n-m+1)2個類向量,在將向量拼接,成為一個1×2c(n-m+1)2的輸入,把n×n的圖像數(shù)據(jù)用1×2c(n-m+1)2的序列數(shù)據(jù)來表示。多粒度掃描序列數(shù)據(jù)的過程如圖2所示。

      同樣,對于1×n的序列數(shù)據(jù),以大小為1×m的窗口進(jìn)行滑動,產(chǎn)生n-m+1 個窗口,產(chǎn)生2(n-m+1)個類概率向量,把它們拼接成為一個1×2c(n-m+1)的序列數(shù)據(jù)作為級聯(lián)森林的輸入。

      圖1 多粒度掃描圖像數(shù)據(jù)

      圖2 多粒度掃描序列數(shù)據(jù)

      圖3 級聯(lián)森林

      圖4 流程圖

      2.2 級聯(lián)森林

      級聯(lián)部分將多粒度掃描結(jié)構(gòu)的輸出作為輸入,用轉(zhuǎn)換后的特征向量作為級聯(lián)部分的輸入特征,進(jìn)入每一層訓(xùn)練層,并經(jīng)過交叉驗(yàn)證來避免過擬合現(xiàn)象,每層都會驗(yàn)證當(dāng)前層的分類準(zhǔn)確率,如果性能在設(shè)定的層數(shù)閾值內(nèi)沒有提升,則停止生成下一層,此層成為最后一層,在對真實(shí)數(shù)據(jù)預(yù)測時,會級聯(lián)到此層停止,根據(jù)最后一層的預(yù)測概率,把每個分類器生成的類分布向量求和,然后取平均值來作為最終的預(yù)測結(jié)果。假設(shè)多粒度森林輸出了n維向量,且是c分類任務(wù),首先經(jīng)過四個隨機(jī)森林生成4c維類概率向量,之后每層的輸入都為n+4c維,直至級聯(lián)到最后一層,模型停止。級聯(lián)森林的部分如圖3所示。

      3 環(huán)狀掃描的強(qiáng)級聯(lián)深度森林

      從上述模型可以發(fā)現(xiàn),傳統(tǒng)的方法在多粒度掃描過程中對邊緣數(shù)據(jù)不夠重視,若總的特征維數(shù)為n,窗口大小為m,m>2,則第一個窗口生成的特征子集是從第1維到第m維,第二個窗口生成的特征子集是從第2維到第m+1 維……顯然,第一維的特征只被掃描了一次,第二維的特征被掃描了兩次,最后一維也是如此。只有從第m維到第n-m+1 維,每一維的特征才被充分掃描到;級聯(lián)森林每一層得到的新特征有限,故表征學(xué)習(xí)能力得不到有效提高,降低了模型的收斂速度。CSDF 分別從這兩方面做出改進(jìn),首先通過環(huán)狀掃描重視邊緣數(shù)據(jù),繼而通過有效特征選擇來提高表征學(xué)習(xí)能力??傮w流程如圖4所示。

      3.1 環(huán)狀掃描森林

      原始的深度森林模型在多粒度掃描階段不能充分得到每個特征子集,會導(dǎo)致兩端的信息特征轉(zhuǎn)換不夠充分,換言之,有一部分子集未被轉(zhuǎn)換,倘若被忽略的子集可以轉(zhuǎn)換成有效特征的話,那么這種忽略必定會對轉(zhuǎn)換后產(chǎn)生的新向量產(chǎn)生一定影響,最終導(dǎo)致分類結(jié)果的偏差,使分類器的準(zhǔn)確度下降。假設(shè)圖像數(shù)據(jù)大小為n×n,窗口大小為m×m,會忽略圖像四周的信息,只有從第m行、列到第n-m+1 行、列才能被充分掃描。序列數(shù)據(jù)同理,若窗口大小是1×m,那么第一維和最后一維特征只被掃描一次,從第m維到第n-m+1 維才能被充分掃描。文獻(xiàn)[2]通過隨機(jī)抽樣來解決這一問題,但是也不能充分得到每個特征子集,所以本文提出了一種環(huán)狀掃描的方法來解決此問題,如圖5、圖6所示。

      圖5 環(huán)狀掃描圖像數(shù)據(jù)

      圖6 環(huán)狀掃描序列數(shù)據(jù)

      對于圖像數(shù)據(jù),假設(shè)滑動窗口大小為W_x×W_y,僅以寬度為第一行到第W_y行的數(shù)據(jù)為例說明,傳統(tǒng)方法掃描每張圖片會得到n-W_x+1 個子窗口,每個窗口又會被轉(zhuǎn)換成一個類概率向量,但是轉(zhuǎn)換不夠充分,分析可知后端的W_x-1 維數(shù)據(jù)和前端的第一維數(shù)據(jù)也可以作為一個窗口,同樣后端的W_x-2 維數(shù)據(jù)和前端的前兩維數(shù)據(jù)也可以作為一個窗口,故為了使模型充分將邊緣數(shù)據(jù)所攜帶的信息也轉(zhuǎn)換成類概率向量,可將圖像改進(jìn)成為一個左右相接,上下相連的圖像,使其成為一個球狀數(shù)據(jù)面,把尾部的W_x-1 列拼接到首部,把下部的W_y-1 行拼接到上部,同時將右下角的數(shù)據(jù)拼到左上方,顯然,變換后數(shù)據(jù)的每個子窗口都可以被充分提取到,進(jìn)而轉(zhuǎn)換成類概率向量,更充分、更全面地構(gòu)建級聯(lián)森林的輸入特征向量。寬度為第n行到第n+W_y-1 行的數(shù)據(jù)不再贅述。

      序列數(shù)據(jù)同理,假設(shè)掃描的窗口大小為1×W_x,傳統(tǒng)方法掃描每條數(shù)據(jù)會得到m-W_x+1 個子特征集,每個特征集被轉(zhuǎn)換成一個類概率向量,轉(zhuǎn)換同樣欠充分,后端的W_x-1 維數(shù)據(jù)和前端的第一維數(shù)據(jù)可作為一個子集,后端的W_x-2 維數(shù)據(jù)和前端的前兩維數(shù)據(jù)也可作為一個子集,故將尾部的W_x-1 維特征拼接到首部,使得原始信息成為一個環(huán)狀數(shù)據(jù)帶,改動之后,可以使兩端的特征和中間部分的特征被同等重視,即可被掃描同樣的次數(shù),從而使模型把每個數(shù)據(jù)子集都轉(zhuǎn)換為對應(yīng)的類概率,將其聚合為較全面的特征向量。

      3.2 強(qiáng)級聯(lián)森林

      在級聯(lián)階段,僅把前一級生成的類向量作為增強(qiáng)特征,每層只得到較少的增強(qiáng)特征,而且沒有重視之層級的類向量,使準(zhǔn)確率不穩(wěn)定,文獻(xiàn)[5]稱此為疏通連貫性,為防止信息削弱,把之前每層向量拼接,但會引發(fā)兩個問題,一是必定會引起更大的空間復(fù)雜度,降低效率;二是不能選擇有效表征,若加入冗余特征,既增大了空間和時間復(fù)雜度,又降低準(zhǔn)確率。為解決此問題,提出一種強(qiáng)級聯(lián)森林,在拼接類向量前,先通過前層準(zhǔn)確率判斷一下此概率向量是否會提高模型的準(zhǔn)確率,若可提高,則將其加入初始的特征向量,使其成為特征向量的一部分,反之,初始特征不變。此方法既不會增加維度,又對每層生成的類向量做一個選擇,挑選有效表征。第0層的輸入是多粒度森林的輸出,第1層的輸入是第0層的輸出和原始向量的拼接,從第2 層開始,在每次拼接之前都會先判斷增強(qiáng)向量是否會提高模型的準(zhǔn)確率。假設(shè)模型此時準(zhǔn)備進(jìn)入第2 層,首先比較0 層和1 層的準(zhǔn)確率,若后者較大,則說明0層的輸出類向量有效,將其并入原始特征向量,特征向量得到更新,反之,特征向量不做任何改變。在之后的層級時,更新特征向量的判別條件會自動更改為與當(dāng)前層級中準(zhǔn)確率最高的作比較,以此來決定更新特征向量與否。直到模型的準(zhǔn)確率不再提升,或者達(dá)到設(shè)定的閾值時,訓(xùn)練終止。在測試數(shù)據(jù)時,通過置位標(biāo)志來決定增強(qiáng)向量的取舍。理論上來說,當(dāng)類別越多,即c越大時,類概率向量的維數(shù)就會越多,故增強(qiáng)向量的維數(shù)隨之越多,進(jìn)而在分類任務(wù)中的影響就會越大;c越少時,影響就會越少。僅以二分類問題為例,假如級聯(lián)森林由兩個隨機(jī)森林和兩個完全隨機(jī)森林組成,那么增強(qiáng)特征只是一個8 維特征,而經(jīng)過掃描階段轉(zhuǎn)換出的特征維數(shù)通常會遠(yuǎn)遠(yuǎn)大于這個數(shù)字,只有當(dāng)面對多分類問題時,增強(qiáng)特征才會一定程度上起到更大的作用。強(qiáng)級聯(lián)森林如圖7 所示。級聯(lián)森林選擇增強(qiáng)特征向量的算法1 如下所示。其中X為待輸入的特征向量,X'為更新后的特征向量。

      算法1 特征選擇

      輸入:X

      輸出:X'

      1. 進(jìn)入到i層

      2. 置位標(biāo)志=No

      3. ifi==0

      X'=多粒度掃描森林的輸出

      elifi==1

      X'=(X原+類向量0)

      else

      if 準(zhǔn)確率i-1 >準(zhǔn)確率i-2

      X'=(X原+類向量i-2)

      置位標(biāo)志=Yes

      else

      X'=X原

      4. end

      綜上,整個模型完整的過程如算法2所示。

      算法2 CSDF

      輸入:訓(xùn)練集T,測試集S

      輸出:預(yù)測結(jié)果的準(zhǔn)確率H

      1. ifT是高維數(shù)據(jù)

      X'=環(huán)狀掃描(T)

      2.H=強(qiáng)級聯(lián)森林(X')

      3. if沒有到達(dá)停止條件

      調(diào)用算法1,訓(xùn)練決策樹

      4. 輸出H,訓(xùn)練結(jié)束。

      5. ifS是高維數(shù)據(jù)

      X'=環(huán)狀掃描(S)

      圖7 強(qiáng)級聯(lián)森林

      6.H=強(qiáng)級聯(lián)森林(X')

      7. 根據(jù)訓(xùn)練時的置位標(biāo)志,來決定生成類向量的取舍

      if 置位標(biāo)志=Yes

      X'=(X原+類向量i-2)

      else

      X'=X原

      8. 到達(dá)停止條件時,輸出預(yù)測結(jié)果。

      3.3 時間和空間復(fù)雜度分析

      通過環(huán)狀掃描,數(shù)據(jù)的邊界部分也會掃描出特征子集,因此會比原始的深度森林模型得到更多的特征子集,從而降低模型的訓(xùn)練效率。深度森林模型的滑動窗口大小是一個超參數(shù),對于原始模型來說,窗口設(shè)置得越大,那么生成的窗口數(shù)量就會越少,被忽略的信息會越多,掃描后聚合特征的維數(shù)會越少。窗口大小設(shè)置成和原始數(shù)據(jù)同樣大時,達(dá)到極端情況,即子窗口就是原數(shù)據(jù)的特征集,那么多粒度掃描階段將毫無意義,僅僅用一個類概率向量作為原數(shù)據(jù)集的特征,此時就可以根據(jù)類概率大小直接判斷類別,無需后續(xù)的級聯(lián)森林再次分類。窗口設(shè)置得過小,那么生成的窗口數(shù)量會增多,雖然被忽略的信息會越少,但是由于每個窗口掃描出的子集都會作為一條數(shù)據(jù)通過隨機(jī)森林和完全隨機(jī)森林產(chǎn)生類概率向量,故窗口變多顯然會加大時間和空間復(fù)雜度。窗口大小設(shè)置為1 時,達(dá)到另一個極端情況,每一維特征都會產(chǎn)生一個類概率向量,若是一個c分類任務(wù),一方面由于每個窗口都會作為一條數(shù)據(jù),掃描時相當(dāng)于將原始數(shù)據(jù)集擴(kuò)大了c倍,導(dǎo)致特征轉(zhuǎn)換時加大了訓(xùn)練量,另一方面會使聚合特征的維數(shù)也擴(kuò)大c倍,降低級聯(lián)森林的特征篩選效率,從而會帶來額外的時間和空間開銷。假設(shè)對于n×n的圖像數(shù)據(jù),原始模型以大小為m×m的窗口進(jìn)行滑動,會生成(n-m+1)2個子窗口,環(huán)狀掃描模型會生成n2個子窗口,從而充分將每個子集都轉(zhuǎn)換成對應(yīng)的類概率向量。對于1×d的序列數(shù)據(jù),窗口設(shè)置為x,那么傳統(tǒng)模型會生成(d-x)+1 個特征子集,本文的模型重視每一維特征,生成d個特征子集,充分進(jìn)行特征轉(zhuǎn)換。

      以上轉(zhuǎn)換方法之所以會一定程度上帶來空間和時間復(fù)雜度的增大,是因?yàn)槊繌垐D片或每條數(shù)據(jù)都會生成多個特征子集,每個特征子集作為一條新的數(shù)據(jù),輸入分類器中,得到類概率向量,原本一條數(shù)據(jù),擴(kuò)充成了多條數(shù)據(jù),無疑加大了時間和空間復(fù)雜度。以上分析可知,特征子集過多是根本問題所在。故通過調(diào)節(jié)窗口滑動的步長來減少子集的數(shù)量,從而弱化此問題。對于圖像數(shù)據(jù),選定第1行到第m行,首先橫向掃描窗口,若設(shè)置步長為p,那么第一個窗口是第1維到第m維,第二個窗口是第1+p維到第1+p+m維,則共生成n/p個特征子集,接著會選定第1+p行到第1+p+m行開始橫向掃描,同樣生成n/p個特征子集,直到最后共掃描得到(n/p)2個子集,子集數(shù)量變?yōu)樵瓉淼?/p2;對于序列數(shù)據(jù),若設(shè)置步長為p,第一個窗口是第1 維到第x維,第二個窗口是第1+p維到第1+p+x維,則共生成d/p個特征子集,子集數(shù)量變?yōu)樵瓉淼?/p,這無疑降低了算法的時間和空間復(fù)雜度。此方法在重視每一維的特征向量的同時又減少了子集數(shù)量。

      其次,當(dāng)進(jìn)入強(qiáng)級聯(lián)階段時,傳統(tǒng)模型經(jīng)過窗口滑動生成的類概率,送入兩個隨機(jī)森林,圖像數(shù)據(jù)經(jīng)轉(zhuǎn)換后的特征維數(shù)為[(n-m+1)2]×2c維,序列數(shù)據(jù)為[(d-x)+1]×2c維,而環(huán)狀掃描后,特征維數(shù)分別為2cn2、2cd維,若設(shè)置步長為p時,轉(zhuǎn)換后的特征維數(shù)分別為2cn2/p2、2cd/p維,所以很大程度上減少了級聯(lián)森林的輸入維數(shù),由于兩種隨機(jī)森林訓(xùn)練時會對特征進(jìn)行篩選,選擇可以使劃分后基尼指數(shù)最小的特征作為劃分點(diǎn),所以特征維數(shù)減少會一定程度上降低時間和空間復(fù)雜度。理論上來說雖然準(zhǔn)確率和特征維數(shù)之間有一定的聯(lián)系,但是這并不意味著維數(shù)越多,準(zhǔn)確率就越高,若特征足夠好的話,維數(shù)較少時也可以達(dá)到一個比較理想的準(zhǔn)確率。

      文獻(xiàn)[2]的算法是在掃描階段隨機(jī)抽取特征進(jìn)行轉(zhuǎn)換,同樣面臨著特征轉(zhuǎn)換不充分的問題,抽取到的特征向量若恰好可轉(zhuǎn)換出有效特征的話,那么就會提高準(zhǔn)確率,反之,則不會有明顯的優(yōu)勢。其次因?yàn)槭怯蟹呕氐某槿。怨狡鹨?,抽取次?shù)應(yīng)該和傳統(tǒng)模型生成的窗口數(shù)相同,所以有很小的概率會抽到同樣的特征,假如抽到,就會減少此特征轉(zhuǎn)換成類概率的時間,從而減小少量的運(yùn)算復(fù)雜度。綜上,文獻(xiàn)[2]的算法一定程度上存在著不穩(wěn)定性。文獻(xiàn)[4]算法是在級聯(lián)階段將每層的概率求和取平均得到的,所以維數(shù)不會改變,僅僅是多了一個類概率求平均的步驟,即時間和空間復(fù)雜度基本持平。文獻(xiàn)[2]和文獻(xiàn)[5]的算法在級聯(lián)階段做出的改進(jìn)相同,都是聚合了每一層的類概率,特征維數(shù)逐層遞增,換言之,層數(shù)越深,特征維數(shù)越大,時間和空間復(fù)雜度越大。通過上述分析,理論上來說,掃描階段時,本文方法通過設(shè)定合適的步長來減少空間和時間開銷,使模型效率均優(yōu)于傳統(tǒng)算法和文獻(xiàn)[2]的算法;級聯(lián)階段時,文獻(xiàn)[5]的算法效率最低,其他幾種方法的效率基本持平,傳統(tǒng)方法效率最高。

      4 實(shí)驗(yàn)

      4.1 數(shù)據(jù)集和算法選擇

      4.1.1 參與實(shí)驗(yàn)的數(shù)據(jù)集

      實(shí)驗(yàn)的圖像數(shù)據(jù)集選擇手寫數(shù)字識別Mnist[12],十分類,分別為數(shù)字0到9;人臉識別Olivettiface[13],四十分類,四十張不同的人臉;下面列舉出了部分圖像數(shù)據(jù),如圖8、圖9所示。高維數(shù)據(jù)集選擇手部運(yùn)動數(shù)據(jù)Semg[14],六分類;影評數(shù)據(jù)Imdb[15],二分類。低維數(shù)據(jù)集選擇收入預(yù)測數(shù)據(jù)Adult[16],二分類;字母識別數(shù)據(jù)Letter[17],二十六分類;酵母菌種類預(yù)測數(shù)據(jù)Yeast[18],十分類。其中Semg 數(shù) 據(jù) 集 選 取Database 2 中 的male_day_1.mat、male_day_2.mat 進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集和測試集以0.8 的比例來劃分;Mnist、Imdb數(shù)據(jù)集均選取原數(shù)據(jù)集的一萬條數(shù)據(jù)進(jìn)行訓(xùn)練,兩千條數(shù)據(jù)進(jìn)行測試。本文數(shù)據(jù)集的具體描述如表1所示。

      表1 數(shù)據(jù)集具體描述

      4.1.2 參與實(shí)驗(yàn)的算法

      目前深度森林的改進(jìn)算法已有多種,其中文獻(xiàn)[2]和文獻(xiàn)[3]對多粒度掃描部分改進(jìn),但是后者只針對于圖像數(shù)據(jù)做出了改進(jìn),適用性較小,故選擇文獻(xiàn)[2]的算法參與實(shí)驗(yàn),和CSDF滑步值分別取1、2、3時的CSDF-1、CSDF-2、CSDF-3 的算法,文獻(xiàn)[4]和文獻(xiàn)[5]的算法對于級聯(lián)部分做出改進(jìn),故也將其加入對比實(shí)驗(yàn),共7 種算法,分別是DF 算法、文獻(xiàn)[2]、文獻(xiàn)[4]、文獻(xiàn)[5]的算法以及CSDF 的3 種算法。低維數(shù)據(jù)由于特征數(shù)量較少,則沒有必要進(jìn)行環(huán)狀多粒度掃描。文獻(xiàn)[2]和文獻(xiàn)[5]的算法在級聯(lián)階段改進(jìn)方法是相同的,故低維數(shù)據(jù)集上的實(shí)驗(yàn)算法共4 種,分別是DF 算法、文獻(xiàn)[4]、文獻(xiàn)[5]的算法以及CSDF算法。所有實(shí)驗(yàn)結(jié)果均為平均結(jié)果。

      4.2 實(shí)驗(yàn)參數(shù)

      每個森林包括100棵子樹,隨機(jī)森林隨機(jī)選取高維數(shù)據(jù)的特征數(shù)為(d為特征數(shù)量),為了公平起見,實(shí)驗(yàn)采用和傳統(tǒng)模型同樣的窗口設(shè)置,Mnist 數(shù)據(jù)集的窗口大小分別為13×13、10×10、7×7,Olivettiface數(shù)據(jù)集的窗口大小分別為32×32、16×16、8×8,其他數(shù)據(jù)集的窗口大小分別為d/4、d/8、d/16,并且文獻(xiàn)[2]模型每次抽取的窗口大小和抽取窗口次數(shù)都應(yīng)與傳統(tǒng)深度森林模型相同。級聯(lián)森林中,每層包含2 個隨機(jī)森林和2 個完全隨機(jī)森林,高維數(shù)據(jù)實(shí)驗(yàn)均采用3 折交叉驗(yàn)證,低維數(shù)據(jù)實(shí)驗(yàn)均采用5 折交叉驗(yàn)證。實(shí)驗(yàn)的窗口大小如表2所示。

      表2 數(shù)據(jù)集窗口大小設(shè)置

      4.3 實(shí)驗(yàn)平臺

      計算機(jī)配置如下:Intel?CoreTMi7-6700,3.40 GHz處理器,16 GB內(nèi)存,8核CPU。軟件環(huán)境為Windows 7系統(tǒng)下的Python3.5。

      4.4 實(shí)驗(yàn)結(jié)果

      4.4.1 高維數(shù)據(jù)結(jié)果及分析

      圖8 Mnist數(shù)據(jù)集部分?jǐn)?shù)據(jù)

      圖9 Olivettiface數(shù)據(jù)集部分?jǐn)?shù)據(jù)

      圖10 圖像數(shù)據(jù)的準(zhǔn)確率對比

      圖11 圖像數(shù)據(jù)的運(yùn)行時間對比

      圖12 序列數(shù)據(jù)的準(zhǔn)確率對比

      圖13 序列數(shù)據(jù)的運(yùn)行時間對比

      從圖10~圖13 可看出,對Mnist 數(shù)據(jù),文獻(xiàn)[2]算法準(zhǔn)確率在93.00%左右,而另外幾種算法的準(zhǔn)確率在96.90%左右;對于Olivettiface 數(shù)據(jù)集,文獻(xiàn)[2]算法準(zhǔn)確率在92.50%左右,另外幾種算法的準(zhǔn)確率在96.25%左右,文獻(xiàn)[2]較低的原因是處理維數(shù)較多的數(shù)據(jù)時,由于特征是隨機(jī)抽取,無法判斷轉(zhuǎn)換后特征的有效程度,故維數(shù)越多時,不確定性越大,對準(zhǔn)確率的影響也會越大。本文算法對高維數(shù)據(jù)中的圖像數(shù)據(jù)集的準(zhǔn)確率提升幅度較小,究其原因,一是圖像數(shù)據(jù)的特征之間有關(guān)聯(lián),二是邊緣部分所攜帶的信息基本相同,非冗余信息大部分位于圖像中間,所以轉(zhuǎn)換出的特征不夠有效,導(dǎo)致算法準(zhǔn)確率的提升有限。對于序列數(shù)據(jù),Semg 數(shù)據(jù)集在傳統(tǒng)模型上約為71.25%,文獻(xiàn)[2]模型上有所降低,66.00%左右,其他模型的結(jié)果基本與原模型持平,本文算法最高可達(dá)到73.54%左右。Imdb 數(shù)據(jù)集在傳統(tǒng)模型上約為54.10%,在文獻(xiàn)[2]模型上52.00%左右,其他模型的結(jié)果同樣基本與原模型持平,本文算法最高可達(dá)到57.85%左右。由于充分關(guān)注了每一維的特征,并轉(zhuǎn)換出對應(yīng)的概率向量,所以提升比較樂觀,文獻(xiàn)[4]、文獻(xiàn)[5]的算法基本持平的原因在于二者在掃描階段時方法是相同的,故轉(zhuǎn)換的特征向量也基本相同。運(yùn)行時間方面,以圖像數(shù)據(jù)Minst 為例,當(dāng)步長取值為1時,原模型運(yùn)行時間為2.3 h左右,文獻(xiàn)[2]的模型由于產(chǎn)生的特征子集數(shù)量和原模型相同,故時間也大致相同,本文算法由于重視了邊緣數(shù)據(jù),所以產(chǎn)生了更多的特征子集,時間達(dá)到了4 h 左右。當(dāng)步長取值設(shè)置為2 時,雖然準(zhǔn)確率較前者有所降低,但仍高于原始模型,而且時間僅需1.1 h。究其原因,步長為2 的新模型生成的特征子集數(shù)量少于原模型,只是原來的1/4,這大大降低了送入級聯(lián)森林的特征維數(shù)。當(dāng)步長為3時,準(zhǔn)確率已較為接近原始模型。高維數(shù)據(jù)僅以Semg為例,步長為1 時,原始模型運(yùn)行時間為9.5 h 左右,文獻(xiàn)[2]的模型是隨機(jī)抽取子集,時間為6.5 h 左右,本文算法產(chǎn)生了更多的特征子集,時間達(dá)到了13 h 左右。當(dāng)步長取值設(shè)置為2 時,時間為3.6 h。充分說明了當(dāng)數(shù)據(jù)的維數(shù)越多時,本文的算法優(yōu)勢越明顯,時間復(fù)雜度越低。綜合考慮,步長為2 的模型更優(yōu)越,既通過重視每一維特征提高了準(zhǔn)確率,又減少了時間和空間復(fù)雜度,而且當(dāng)特征維數(shù)越多、數(shù)據(jù)量越大時,這種優(yōu)勢越為明顯。

      4.4.2 低維數(shù)據(jù)結(jié)果及分析

      圖14~圖17 的結(jié)果表明,Adult 數(shù)據(jù)集在四種算法上的準(zhǔn)確度基本持平,分別為86.26%、86.23%、86.32%、86.37%左右;Letter 數(shù)據(jù)集在四種算法上的準(zhǔn)確度約為97.31%、97.45%、97.38%、97.43%左右;Yeast 數(shù)據(jù)集在四種算法上的準(zhǔn)確度約為61.62%、61.28%、61.58%、61.55%左右,并且波動較大,主要原因是此數(shù)據(jù)集的特征維數(shù)較少,并且訓(xùn)練樣本不夠多;總體來說,低維數(shù)據(jù)自身的維數(shù)較少,特征不夠有效,對于相似的數(shù)據(jù),不能達(dá)到準(zhǔn)確的分類,故四種算法的性能相當(dāng)。模型的收斂速度大致可以用模型進(jìn)入的層數(shù)判斷,進(jìn)入的層數(shù)越少,也就意味著模型的收斂速度越快,可以盡早停止不必要的訓(xùn)練。從實(shí)驗(yàn)結(jié)果可以看出,傳統(tǒng)的深度森林模型平均進(jìn)入5 層,文獻(xiàn)[5]的模型平均進(jìn)入6 層,其他兩種模型都平均進(jìn)入5.3層。由此可知,對于低維數(shù)據(jù),四種改進(jìn)模型都有著相當(dāng)?shù)男阅?,而且后兩種算法收斂速度略快于第二種算法。具體的實(shí)驗(yàn)結(jié)果準(zhǔn)確率對比數(shù)據(jù)如表3、表4所示。

      圖14 Adult數(shù)據(jù)的準(zhǔn)確率對比

      圖15 Letter數(shù)據(jù)的準(zhǔn)確率對比

      圖16 Yeast數(shù)據(jù)的準(zhǔn)確率對比

      圖17 低維數(shù)據(jù)的層數(shù)對比

      表3 高維數(shù)據(jù)實(shí)驗(yàn)結(jié)果對比 %

      表4 低維數(shù)據(jù)實(shí)驗(yàn)結(jié)果對比 %

      5 結(jié)束語

      本文針對深度森林算法在多粒度掃描階段不能充分將樣本兩端數(shù)據(jù)的信息轉(zhuǎn)換成對應(yīng)的特征以及在級聯(lián)森林階段每層獲得增強(qiáng)特征較少的問題,提出了一種環(huán)狀多粒度掃描的算法,通過此方法在一定程度上充分轉(zhuǎn)換特征向量,構(gòu)造出較完備的特征,并在不同數(shù)據(jù)集上的實(shí)驗(yàn),驗(yàn)證了此方法可以提高深度森林模型的性能。但這種方法也存在著不足,首先CSDF方法若對原始數(shù)據(jù)進(jìn)行充分轉(zhuǎn)換,就會生成更多特征子集,一定程度上提高時間和空間復(fù)雜度;其次級聯(lián)部分的表征階段雖然選擇了較為有效的特征,但是也不能對模型起到較大程度的影響,算法的性能仍然提高幅度有限。下一步將圍繞如何兼顧掃描階段的效率和準(zhǔn)確率以及更有效、更全面地選擇級聯(lián)層的有效表征的問題來展開研究。

      猜你喜歡
      級聯(lián)子集準(zhǔn)確率
      由一道有關(guān)集合的子集個數(shù)題引發(fā)的思考
      拓?fù)淇臻g中緊致子集的性質(zhì)研究
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      關(guān)于奇數(shù)階二元子集的分離序列
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
      級聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
      電子制作(2016年15期)2017-01-15 13:39:09
      基于級聯(lián)MUSIC的面陣中的二維DOA估計算法
      每一次愛情都只是愛情的子集
      都市麗人(2015年4期)2015-03-20 13:33:22
      浦江县| 宁晋县| 江川县| 敖汉旗| 眉山市| 通河县| 湘阴县| 开化县| 瓦房店市| 丹寨县| 新疆| 尤溪县| 福泉市| 香格里拉县| 莱阳市| 南溪县| 尼玛县| 高清| 开原市| 新巴尔虎左旗| 获嘉县| 淅川县| 蕉岭县| 永登县| 阿克苏市| 葵青区| 晋中市| 喀喇| 张掖市| 开化县| 瓦房店市| 池州市| 广灵县| 高雄县| 富顺县| 江达县| 克拉玛依市| 张掖市| 夏河县| 民权县| 龙井市|