葉璇, 何玉林, 張曼靜, 黃哲學
1.人工智能與數(shù)字經(jīng)濟廣東省實驗室(深圳),廣東 深圳 518107;2.深圳大學 計算機與軟件學院,廣東 深圳 518060
隨機向量函數(shù)鏈接網(wǎng)絡(random vector functional link network,RVFL)作為最早的隨機權網(wǎng)絡模型[1]于1992年在文獻[2]里提出,文獻[3]在此基礎上進行了總結完善. 作為隨機權網(wǎng)絡代表,RVFL的輸入層權重和隱含層偏置的初始值為隨機生成,求解隱含層節(jié)點與輸入層節(jié)點所構成的結合矩陣的偽逆并直接得到輸出層權重,進而實現(xiàn)模型訓練. 因此,RVFL具有極快的訓練速度,且在文獻[4]中的實驗證明了其具有良好的泛化能力,能處理分類和回歸任務,具有很多真實應用場景. 如何有效提升RVFL的穩(wěn)定性和泛化性,具有重要研究意義.
由于RVFL的結構簡單化以及模型隨機化,因此當前其改進方向主要集中在改善網(wǎng)絡結構和結合集成學習兩方面:
1) 改善網(wǎng)絡結構的代表性工作. 在網(wǎng)絡參數(shù)選擇方面,文獻[5]提出了有效節(jié)點選擇的RVFL改進模型,簡記為I-OI-RVFLNs. 該模型首先引入正交化方法對隱含層輸出矩陣進行正交化,顯著提升模型的收斂速度;其次預先設置隱含層節(jié)點個數(shù)并迭代更新輸出層權重,裁剪冗余節(jié)點以實現(xiàn)網(wǎng)絡精簡化,提升模型的計算效率. 文獻[6]于2017年提出了一種基于貝葉斯法則的RVFL改進模型,其在訓練階段獲取額外先驗知識得到最優(yōu)權重的概率分布,并在測試階段線性搜索出合適的正則化因子,進而構造網(wǎng)絡模型并使其獲得更好的預測性能. 在網(wǎng)絡層數(shù)方面,文獻[7]基于RVFL網(wǎng)絡框架以及自編碼器概念,首次提出了深度RVFL網(wǎng)絡,簡記為sdRVFL. sdRVFL引入了去噪準則,即不同的正則化法則,先對數(shù)據(jù)特征進行深層次的提取,然后將該部分特征輸入到原始的RVFL進行預測,從而實現(xiàn)網(wǎng)絡結構的深度化. 在sdRVFL的基礎上,文獻[8]于2021年提出了另一種深度RVFL網(wǎng)絡,簡記為dRVFL. dRVFL將網(wǎng)絡中每一層所提取到的數(shù)據(jù)特征,進行橫向拼接構成拼接矩陣,并利用最小二乘直接計算輸出層權重,從而完成dRVFL的訓練. dRVFL充分利用每層網(wǎng)絡所提取的信息,有效提升了RVFL的泛化能力. 此外,文獻[9]提出了另一種新型的深度RVFL網(wǎng)絡,簡記為FAF-DRVFL. FAF-DRVFL結合遷移學習來進行數(shù)據(jù)預處理工作,并使用模糊激活函數(shù)代替常用的Sigmoid激活函數(shù)來計算隱含層輸出,有效提高了模型的穩(wěn)定性以及計算效率.
2) 結合集成學習的代表性工作. 文獻[10]于2020年提出了一種基于自適應機制的集成RVFL模型. 該模型根據(jù)RVFL的預測準確率來分配不同權重,若樣本被錯誤分類則在下一次訓練中給予更大的權重,以此完成模型的集成優(yōu)化. 文獻[11]基于殘差網(wǎng)絡機制,對數(shù)據(jù)特征進行有效提取,同時在每個基模型dRVFL的輸出層參數(shù)中添加噪聲擾動,增加集成多樣性,從而實現(xiàn)對集成dRVFL(edRVFL)網(wǎng)絡模型泛化能力的改進.
若在RVFL網(wǎng)絡結構上進行改進,會改變其簡單的模型結構,增加過擬合的風險;若結合集成方法對RVFL進行改進,又因無法增大基學習器差異性導致無法提升模型的穩(wěn)定性和泛化性. 為了在不改變RVFL簡單結構的條件下有效提升RVFL的穩(wěn)定性和泛化性,本文提出了一種加權子空間的隨機向量函數(shù)鏈接網(wǎng)絡集成方法(weighted attribute bagging-based random vector functional link network,WAB-RVFL),為優(yōu)化所選屬性子空間使其更適應于RVFL的網(wǎng)絡結構,提出屬性優(yōu)化的思想,引入屬性加權矩陣概念,提出加權子空間選擇策略,搜索得到更優(yōu)的加權子空間,使其能在RVFL的線性映射與非線性映射之間找到平衡點. 為尋找最優(yōu)的屬性加權矩陣,本文利用訓練集和驗證集信息構建目標函數(shù),并采取粒子群優(yōu)化算法迭代及最小化目標函數(shù),從而搜索得到最優(yōu)屬性加權矩陣. 本文在8個分類數(shù)據(jù)集上展開有說服力的實驗,分別驗證WAB-RVFL的可行性、 合理性和有效性. 實驗結果表明,WAB-RVFL具有更優(yōu)的泛化能力.
本文的組織結構如下: 第1節(jié)對RVFL和貝葉斯子空間選擇策略的原理進行介紹和分析;第2節(jié)對本文提出的WAB-RVFL進行詳細介紹;第3節(jié)對WAB-RVFL的性能進行實驗驗證;第4節(jié)進行總結并給出未來研究工作.
傳統(tǒng)神經(jīng)網(wǎng)絡基于誤差反向傳播算法進行權重的迭代更新,雖然能夠較好地實現(xiàn)復雜的非線性映射關系并完成表征學習任務,但卻具有訓練時間長、 易陷入局部極小值等缺點. RVFL是一種特殊的單隱含層前饋神經(jīng)網(wǎng)絡,其結構特點是輸入層同時與隱含層、 輸出層進行直接連接,具體如圖1所示. 由于避免了權重的迭代更新,因此RVFL具有極快的訓練速度、 良好的函數(shù)擬合能力.
圖1 RVFL的網(wǎng)絡結構
RVFL的訓練步驟主要分為3個階段: 隨機初始化階段、 隱含層和輸入層結合矩陣計算階段、 目標輸出層權重計算階段. 首先是隨機初始化生成并固定輸入層權重和隱含層偏置,然后通過將數(shù)據(jù)樣本進行非線性映射得到隱含層輸出矩陣,最后通過最小二乘法直接解析求得目標輸出層權重.
假設有一個分類數(shù)據(jù)集容量大小為N,其具有D維屬性以及M個類標:
S={(xn,tn)|xn=(xn1,xn2,…,xnD),tn=(tn1,tn2,…,tnM)}
(1)
1) 隨機初始化階段. 首先按照一定分布隨機初始化RVFL的輸入層權重和隱含層偏置,分別表示為
(2)
和
(3)
2) 隱含層和輸入層結合矩陣計算階段. 數(shù)據(jù)樣本經(jīng)過輸入層權重和隱含層偏置轉換后,進行非線性映射得到隱含層輸出矩陣:
(4)
其中
(5)
g(·)表示激活函數(shù),通常使用Sigmoid函數(shù):
(6)
因此,隱含層和輸入層結合矩陣表示為
GN×(L+D)=[HN×L,XN×D]N×(L+D)
(7)
其中X=(xnd)N×D是樣本輸入值. RVFL的整個計算過程可以表示為
GN×(L+D)β(L+D)×M=YN×M
(8)
其中:β(L+D)×M是目標輸出層權重,YN×M是樣本預測值.
3) 目標輸出層權重計算階段. 輸出層權重是整個RVFL訓練求解的核心部分.T是樣本真實值,為使樣本預測值和樣本真實值盡可能接近,需最小化以下目標函數(shù):
(9)
通過最小二乘法解析求解,得到輸出層權重為
(10)
為了更好平衡經(jīng)驗風險和結構風險,往往在求解過程中加入正則化因子進行計算,此時輸出層權重計算表示為
(11)
由RVFL訓練過程可知,RVFL不進行權重迭代調整,從而獲得了極快的訓練速度. 已有實驗結果表明,RVFL具有良好的泛化性能[4],萬能逼近能力理論也證明了RVFL的收斂性[12].
隨機子空間方法是一種常用的有效降低數(shù)據(jù)集維度的策略,能夠減小數(shù)據(jù)訓練復雜度,提升模型測試精度. 隨機子空間方法基于集成學習策略實現(xiàn),通過獲取多個隨機屬性子空間,用于多個基學習器訓練并對預測進行融合,從而得到更穩(wěn)定、 更精確的最終模型.
貝葉斯子空間選擇(bayesian attribute bagging,BAB)策略,是文獻[13]在貝葉斯法則的基礎上所提出的一種有效的子空間選擇策略. 基于貝葉斯法則計算條件屬性與決策屬性之間的屬性決策度(decision-making degree,DMD);根據(jù)最大DMD來生成最優(yōu)的條件屬性組(condition attribute group,CAG);對得到的CAG按一定比例進行抽樣,生成多個Bagging屬性組(bagging attribute group,BAG),此時BAG即為得到的目標屬性子空間.
不同于傳統(tǒng)的屬性Bagging策略對條件屬性進行隨機抽樣,BAB充分考慮條件屬性與決策屬性之間的影響程度,得到的屬性子空間更均衡、 更穩(wěn)定,在后續(xù)的基學習器訓練中會取得更佳的性能.
BAB策略能夠有效獲得更均衡、 更穩(wěn)定的屬性子空間,但由于RVFL網(wǎng)絡結構具有輸入層和輸出層直連的特點,因此在訓練過程中,輸入屬性具有線性映射和非線性映射兩部分性質. 若簡單將BAB和RVFL進行結合,則會忽略掉該線性映射部分的特性. 為了更好結合BAB策略與RVFL的網(wǎng)絡結構特點,本文在BAB的基礎上提出了加權子空間選擇(weighted attribute bagging,WAB)策略,用以構造加權子空間的隨機向量函數(shù)鏈接網(wǎng)絡集成模型(weighted attribute bagging-based RVFL,WAB-RVFL).
2.1.1 屬性加權矩陣
RVFL的網(wǎng)絡結構具有輸入層到輸出層、 隱含層到輸出層兩部分目標輸出權重,因此其同時具有線性映射和非線性映射的特性. 對于BAB所得到的屬性子空間,并不完全適合RVFL模型訓練,為更貼合這兩部分特性,應該采取有效的策略進行屬性子空間的優(yōu)化轉換. 對適合線性映射部分的屬性進行加權放大增強,對不適合線性映射部分的屬性進行加權減小抑制,從而實現(xiàn)更優(yōu)模型的訓練.
為了得到用于集成模型訓練的更有效的屬性子空間,本文引入屬性優(yōu)化思想,提出屬性加權矩陣的概念,用于屬性子空間的加權轉化,其形式為
(12)
其中D為子空間屬性個數(shù). 對于子空間輸入樣本X,利用屬性加權矩陣對其進行屬性加權,轉化后的加權子空間可以表示為:
(13)
屬性加權矩陣是一個對角陣,其對角線上的元素為子空間輸入樣本各個屬性的加權. 在屬性加權矩陣的作用下,針對于RVFL特有的兩部分結構,若某些屬性適合線性映射,則其屬性加權應該增大;若某些屬性適合非線性映射,則其屬性加權應該減小. 如何找到合適的屬性加權矩陣是加權子空間選擇策略的核心.
2.1.2 目標函數(shù)設計
在機器學習任務中,目標函數(shù)是一個用來衡量模型擬合程度的函數(shù),通常如果函數(shù)值越小則表示模型的擬合效果越好. 如何有效最小化目標函數(shù)非常關鍵.
在屬性加權矩陣的搜索過程中,本文利用訓練集和驗證集信息來構建目標函數(shù),具體形式為:
(14)
為搜索最優(yōu)的屬性加權矩陣,本文選取粒子群優(yōu)化(particle swarm optimization,PSO)算法[14]進行迭代優(yōu)化,利用搜索得到屬性加權矩陣Q,使其對子空間的屬性進行加權轉化,起到增強或抑制的作用,從而獲得加權后更優(yōu)質、 更適合RVFL網(wǎng)絡結構的屬性子空間.
WAB-RVFL算法的核心是利用PSO迭代優(yōu)化搜索得到最優(yōu)的屬性加權矩陣,為更好地展示W(wǎng)AB-RVFL算法,具體的流程如算法1所示.
算法1: WAB-RVFL算法1 基于貝葉斯子空間選擇(BAB)策略, 得到K個屬性子空間BAGs; 2 基于加權子空間選擇(WAB)策略, 對K個BAGs進行加權優(yōu)化: 3 fork=1 to Kdo4 基于屬性子空間BAGk, 進行PSO迭代更新搜索得到屬性加權矩陣Qk; 5 利用屬性加權矩陣Qk, 對BAGk進行加權得到優(yōu)化后的BAG k. 6 end for7 基于優(yōu)化后的加權子空間, 進行RVFL集成訓練和預測: 8 基于K個BAG k, 構建K個RVFL模型; 9 fork=1 to Kdo10 利用訓練好的RVFLk, 對新樣本進行預測得到y(tǒng)(k). 11 end for12 對于K個RVFL的預測y(1),y(2),…,y(K), 計算信息量權重v1,v2,…,vK并進行加權融合輸出[13]: y=∑Kk=1vky(k)
本次實驗在8個高維分類數(shù)據(jù)集中開展,數(shù)據(jù)集信息如表1所示[15]. 本文對數(shù)據(jù)集進行清洗,并為減少訓練時間采取隨機抽樣方式得到小規(guī)模數(shù)據(jù)集,用于模型的訓練和測試. 數(shù)據(jù)被劃分成了80%訓練集和20%測試集,并采用最大最小歸一化方法,將屬性區(qū)間縮放到[0, 1]. 本實驗采取準確率(Accuracy)作為模型的衡量標準,且所有實驗均是重復5次試驗的平均結果.
表1 數(shù)據(jù)集信息
PSO算法的實驗參數(shù)設置如下: 種群迭代次數(shù)為200,種群大小為50,個體值區(qū)間為[0, 2],速度值區(qū)間為[-0.2, 0.2],慣性因子為0.729 8,學習因子均為1.494 45. 將訓練集以0.5的比例劃分得到驗證集用于目標函數(shù)的迭代優(yōu)化. 通過10次重復試驗遍歷RVFL得到最優(yōu)精度對應的節(jié)點個數(shù). 在WAB-RVFL實驗中將BAB策略的特征抽樣比例參數(shù)設置為0.8.
在WAB-RVFL中,如何有效最小化該目標函數(shù)非常關鍵. 本文采取PSO優(yōu)化算法對目標函數(shù)進行迭代最小化,從而實現(xiàn)最優(yōu)屬性加權矩陣的搜索,優(yōu)化屬性子空間而進一步提升模型性能. 本文選取了4個數(shù)據(jù)集進行迭代優(yōu)化展示,具體如圖2所示.
從圖2可以看出,隨著迭代次數(shù)的增加,目標函數(shù)值逐漸優(yōu)化減?。辉诘螖?shù)為150之后,圖像基本上趨于收斂狀態(tài). 這表明WAB-RVFL所構造的目標函數(shù)是有效的,其隨著PSO的優(yōu)化迭代而不斷減小,驗證了WAB-RVFL算法的可行性.
圖2 在PSO優(yōu)化下目標函數(shù)值的迭代展示
為了驗證WAB-RVFL的合理性,本節(jié)對3種基模型進行了比較,即Single RVFL模型、 Single BAB-RVFL模型和Single WAB-RVFL模型,其分別是基于投票策略的RVFL(Voting-RVFL)、 基于貝葉斯子空間的RVFL(BAB-RVFL)和基于加權子空間的RVFL(WAB-RVFL)3種集成模型的基學習器. 具體的實驗結果如圖3所示.
圖3 3種基模型在8個分類數(shù)據(jù)集下的比較
由圖3可知,在訓練部分,Single RVFL和Single BAB-RVFL在5個數(shù)據(jù)集上的精度達到100%,Single WAB-RVFL的訓練精度普遍較低,只有在Musk(version 2)數(shù)據(jù)集中表現(xiàn)比其他兩個模型高;在測試部分,Single WAB-RVFL則在多個數(shù)據(jù)集下普遍表現(xiàn)比其他兩個基模型的要好,即精度更高. 在Musk(version 2),Urban Land Cover和Gisette 3個數(shù)據(jù)集中,雖然Single WAB-RVFL測試精度不是最高,但與Single RVFL相比較為相近.
總結分析得,WAB-RVFL的基模型Single WAB-RVFL經(jīng)過屬性加權矩陣的優(yōu)化之后,在8個數(shù)據(jù)集的測試集上有5個表現(xiàn)要比Single RVFL和Single BAB-RVFL好,其中3個數(shù)據(jù)集上表現(xiàn)均與Single RVFL相差不大. 這說明本文提出的屬性加權矩陣和WAB-RVFL模型具有合理性,屬性加權矩陣能夠較好地對子空間進行加權優(yōu)化,從而提升模型的測試精度. 這為下一小節(jié)中驗證最終集成模型的性能提供了合理性依據(jù).
在上一小節(jié)中的WAB-RVFL合理性實驗,分析得到Single WAB-RVFL在大多數(shù)數(shù)據(jù)集上比Single RVFL和Single BAB-RVFL性能更佳. 本小節(jié)將通過豐富的模型對比實驗,驗證WAB-RVFL的有效性.
本文搭建實驗平臺,將WAB-RVFL與以下6個模型: RVFL,Voting-RVFL,Bagging-RVFL,dRVFL,edRVFL以及BAB-RVFL進行比較,其中dRVFL和edRVFL的隱含層層數(shù)設置為10,具體的實驗結果如圖4所示.
圖4 在分類任務中WAB-RVFL與其他RVFL模型的比較
由圖4可知,隨著基學習器的增加,所有RVFL集成算法均趨于收斂,表明RVFL結合集成方法的應用是可行的,模型精度能夠不斷提升并趨于穩(wěn)定狀態(tài). 本文提出的WAB-RVFL在8個高維分類數(shù)據(jù)集下,與其他RVFL模型相比,均能取得更高的預測精度. 實驗結果表明,加權子空間選擇策略能有效緩解模型過擬合現(xiàn)象,WAB-RVFL具有更佳的泛化性能,驗證了WAB-RVFL的有效性.
本文還使用Nemenyi檢驗方法[16]來進行多個模型之間的統(tǒng)計檢驗分析,顯著性水平設置為0.1,CD值表示為臨界差值區(qū)間,固定基學習器為50,取測試集精度進行模型比較. 由圖5可知,在測試過程中,WAB-RVFL和BAB-RVFL共處同一臨界差值區(qū)間,且WAB-RVFL的平均秩值更小,其他模型則分別與WAB-RVFL處于不同的臨界差值區(qū)間,這表明WAB-RVFL的預測性能優(yōu)于BAB-RVFL;與其他5種模型的差異較大,且均優(yōu)于這5種模型. 因此,本文提出的WAB-RVFL具有更穩(wěn)定且更優(yōu)的預測性能.
圖5 模型測試精度的統(tǒng)計檢驗結果
本文基于RVFL輸入層和輸出層直連的結構特點,提出了一種有效的、 魯棒性更強的加權子空間的隨機向量函數(shù)鏈接網(wǎng)絡集成方法(weighted attribute bagging-based random vector functional link network,WAB-RVFL). 首先,基于貝葉斯子空間選擇策略,對RVFL結構進行分析并提出合適的加權子空間選擇策略,引入屬性加權矩陣概念,構造有效的目標函數(shù)并利用PSO算法迭代優(yōu)化;其次,設置3個實驗驗證了WAB-RVFL的可行性、 合理性和有效性. 實驗結果表明,PSO對目標函數(shù)迭代優(yōu)化收斂證明了WAB-RVFL的可行性;在多個數(shù)據(jù)集下,3種基學習器的對比實驗中Single WAB-RVFL預測性能更好,體現(xiàn)了WAB-RVFL的合理性;在7種RVFL模型的對比實驗中,WAB-RVFL具有更高測試精度,驗證了WAB-RVFL的有效性.
在本文中仍有部分內容值得進一步地探究,未來的工作展望主要有以下兩點:
1) 其他智能算法的使用. 針對WAB-RVFL模型中使用到的經(jīng)典PSO優(yōu)化算法,探究是否能使用其他更優(yōu)的智能算法進行模型的迭代優(yōu)化,減少實驗的開銷,提升模型的性能;
2) 大規(guī)模數(shù)據(jù)的處理. WAB-RVFL模型具有并行運算的潛力,而目前在大數(shù)據(jù)時代下對模型精度以及運算效率要求都特別高,因此接下來將考慮是否能將本文提出的兩種模型,在大數(shù)據(jù)框架下進行分布式計算,處理真實的大數(shù)據(jù)問題.