基于自編碼器和超圖的半監(jiān)督寬度學習系統(tǒng)

2022-05-11 08:26:56王雪松張翰林程玉虎

電子學報 2022年3期

王雪松，張翰林，程玉虎

1 引言

Chen 等［1］提出的寬度學習系統(tǒng)（Broad Learning System，BLS），亦稱寬度網絡，是一種由輸入層、中間層（包括映射特征和增強節(jié)點兩個部分）和輸出層構成的前饋神經網絡. 因其簡潔靈活的網絡結構、高效的學習過程等優(yōu)點，而被廣泛應用于眾多領域. Sui 等［2］使用BLS識別動力學未知的不確定系統(tǒng)，提出了一種隨機有限時間量化控制方法.Chu等［3］使用懲罰系數來約束每個樣本對模型的貢獻，提出了一種加權BLS 并將其用以解決工業(yè)過程中的噪聲和離群值問題.Han等［4］提出了一種用于大規(guī)模混沌時間序列建模的寬度學習系統(tǒng)，解決了動力學系統(tǒng)建模中利用混沌系統(tǒng)演化信息進行時間序列預測的問題.

然而，上述方法均為監(jiān)督型寬度學習方法，在標記樣本有限的情況下，往往存在泛化性不足的問題. 半監(jiān)督學習是一種可以同時使用少量標記樣本和大量無標記樣本進行學習的方法. 因此，半監(jiān)督寬度學習的研究引起了學者的廣泛關注.Kong等［5］將常規(guī)BLS進行半監(jiān)督拓展，提出了一種基于類別概率框架［6］的半監(jiān)督BLS（Semi-supervised BLS，SBLS），用于解決標記樣本較少情況下的高光譜圖像分類問題. 但是，SBLS非常依賴偽標簽的質量，被錯誤標記的樣本將嚴重影響算法的性能.Zhao 等［7］將BLS 和流形正則化框架［8］相結合，提出了一種基于圖的半監(jiān)督BLS（ss-BLS）. ss-BLS 通過構造標記樣本和無標記樣本的拉普拉斯矩陣，將流形正則化項加入BLS的目標函數中，并使用嶺回歸算法求解構造的目標函數. 傳統(tǒng)的圖模型［9］雖然可以在低維空間中保持數據原有的流形結構，但是該模型僅考慮了兩個數據間的成對關系，無法準確地表達數據間的復雜高階流形關系. 為此，本文引入超圖模型［10］，提出一種基于超圖的半監(jiān)督寬度學習系統(tǒng). 此外，常規(guī)BLS中通常采用的線性稀疏特征提取方法難以挖掘數據的本質特征，從而限制了BLS性能的發(fā)揮. 自編碼器［11］因其在無監(jiān)督情況下，仍能夠學習到數據的復雜非線性特征而被廣泛應用于入侵檢測［12］、目標檢測［13］和輻射源識別［14］等領域. 眾所周知，良好的特征提取方法對于提高模型的性能至關重要. 為此，本文將自編碼器與BLS相結合，用以提高BLS對復雜非線性特征的提取能力.

綜上，本文提出了一種基于自編碼器和超圖的半監(jiān)督寬度學習系統(tǒng)（Autoencoder and Hypergraph-based Semi-supervised Broad Learning System，AH-SBLS），主要工作包括：（1）將超圖模型引入到常規(guī)監(jiān)督型BLS中，以充分挖掘包括標記樣本和未標記樣本在內的所有樣本之間的復雜流形關系；（2）利用多層自編碼器提取數據的復雜非線性特征，從而進一步提升AH-SBLS的泛化性能.

2 基于自編碼器和超圖的半監(jiān)督寬度學習系統(tǒng)

如圖1 所示，AH-SBLS 主要包括4 個部分：（1）基于自編碼器的特征提取. 首先，使用含標記樣本和無標記樣本在內的全部樣本訓練自編碼器；然后，將自編碼器特征層中的特征作為AH-SBLS 的特征節(jié)點；（2）特征增強. 對特征節(jié)點進行非線性映射以實現寬度拓展，并將得到的增強節(jié)點與特征節(jié)點進行堆疊；（3）超圖構造.同樣利用全部樣本構造半監(jiān)督超圖，并計算超圖的拉普拉斯矩陣；（4）目標函數構造. 根據得到的拉普拉斯矩陣進一步構造超圖正則項，并與常規(guī)BLS 的目標函數相結合. 通過對該目標函數進行求解，可以得到輸出層權重，進而實現對無標記樣本的類別預測.

圖1 AH-SBLS模型結構圖

2.1 基于自編碼器的特征提取

圖1中的自編碼器由編碼器fEN(?)和解碼器fDE(?)兩部分組成，其中，編碼器旨在將全部樣本映射到特征層以得到編碼特征Z，解碼器的目標為對編碼特征進行重構. 給定輸入樣本矩陣X，則編碼器的計算過程為：

Z=fEN(X)=ζ(XWEN+bEN) （1）

其中，ζ(?)為編碼器的激活函數，WEN和bEN分別為編碼器的權重和偏置. 類似地，令解碼器的權重和偏置分別為WDE和bDE，激活函數為δ(?)，則解碼器的輸出可以表示為：

一般而言，自編碼器的損失函數通常為均方誤差損失. 均方誤差損失函數可以表示為：

其中，參數W，b可以使用梯度下降法［15］來更新，其更新規(guī)則為：

其中，α為學習率，用來控制參數更新的步長. 梯度下降法常用的優(yōu)化算法有SGD（Stochastic Gradient De?scent）、RMSprop（Root Mean Square prop）和Adam（Adaptive moment estimation）［16］等，鑒于Adam 具有較快的收斂速度，這里將其用于自編碼器參數的更新. 在完成自編碼器參數的更新后，將自編碼器的編碼特征Z作為AH-SBLS模型的特征節(jié)點.

2.2 特征增強

AH-SBLS 的第II 部分為特征增強，旨在利用隨機生成的權重對特征節(jié)點進行映射，實現快速非線性寬度拓展，其計算過程為：

d=ξ(Zwd+bd) （7）

其中，ξ(?)為tansig 激活函數，wd為隨機的線性稀疏權重，bd為增強節(jié)點的偏置. 設共有m組增強節(jié)點，則D=[d1,…,dm]，將特征節(jié)點和增強節(jié)點堆疊，得到輸入樣本的特征矩陣A=[Z|D].

2.3 超圖構造

在半監(jiān)督學習中，雖然無標記的樣本沒有標記信息，但是無標記樣本與標記樣本包含相同的數據分布信息，所以利用無標記樣本能夠幫助建立更具泛化性的分類模型. 為了利用無標記樣本，必須假設無標記樣本與類別標記之間的聯系. 基于光滑度假設，圖模型被提出用于解決半監(jiān)督學習問題. 然而，常規(guī)圖模型只能描述數據之間簡單的二元關聯關系，無法描述數據中復雜的單對多或多對多的多元關聯關系，從而難以對數據的復雜流形結構進行充分描述.

相對于常規(guī)圖，超圖可以更加準確地描述存在多元關聯的對象之間的關系. 在常規(guī)圖中，一條邊包含兩個頂點，而在超圖中，一條超邊可以包含多個頂點，從而對多個數據點之間的關系進行描述. 給定N個輸入樣本，則輸入樣本矩陣可以表示為X=[x1,x2,…,xN].AH-SBLS 將每個樣本x作為超圖頂點和一條超邊的中心，使該超邊連接該樣本最近鄰的k個樣本，以此來構造樣本超圖模型. 將超圖模型表示為三元組G=其中，V={v1,v2,…,vN}為頂點的集合，E={e1,e2,…,eN}為超邊的集合，w為超邊的權重集合. 超圖模型可以通過構造點邊關聯矩陣Hve?RN×N來建立頂點和超邊的關系，Hve中的元素可通過下式計算：

樣本之間的距離度量函數通過下式計算：

其中，是控制函數S(i,j)徑向作用范圍的超參數. 定義超邊權重向量為，則每條超邊的權重可以通過下式來計算：

定義頂點的度向量為dv?R1×N，用于描述每個頂點的超邊權重. 則頂點的度的計算公式為：

定義超邊的度向量δe?R1×N，用于描述每條超邊包含的頂點個數. 則超邊的度計算公式如下：

通過上述討論，可以定義超邊的權重矩陣We=diag(we)?RN×N，頂點的度矩陣Dv=diag(dv)?RN×N和超邊的度矩陣De=diag(δe)?RN×N三個對角矩陣. 根據光滑度假設，距離接近的樣本應該擁有相同的標簽，亦即同一條超邊應連接相同標簽的樣本. 構造超圖損失函數：?為模型的預測樣本標簽. 將式（13）表示為矩陣形式：

其中

其中，超圖拉普拉斯矩陣Lhyper的計算公式為：

2.4 目標函數構造及求解

給定l個標記樣本X(l)?Rl×r和u個無標記樣本X(u)?Ru×r，則全部樣本為X(l+u)?R(l+u)×r. 其中，r為樣本的維數. 將標記樣本的標簽表示為矩陣形式Y(l)，模型的預測標簽矩陣記為Y?，標記樣本的特征矩陣記為A(l)，全部樣本的特征矩陣記為A(l+u). 常規(guī)BLS模型的目標函數為：其中，Wo為輸出層權重，λ?[0,1]為結構風險項系數.將式（14）作為超圖正則項與式（16）相結合，得到AHSBLS的目標函數：其中，ρ?[0,1]為超圖正則項的縮放因子. 令0，即可求解式（17），得到AH-SBLS 模型輸出層權重的計算公式：

Wo=(A(l)TA(l)+λI+ρA(l+u)TLhyperA(l+u))-1A(l)TY(l)（18）

2.5 算法流程

所提AH-SBLS的流程如算法1所示：

3 實驗與分析

3.1 數據集

為驗證AH-SBLS 的性能，選擇人手寫數字數據集MNIST（Mixed National Institute of Standards and Tech?nology）和三維玩具模型數據集NORB（New York Uni?versity Object Recognition Benchmark）進行實驗.MNIST數據集［17］由來自250 位不同的人手寫的0~9 共十個數字70000 幅圖像構成，每張均為28×28 像素的灰度圖像. NORB 數據集［18］是一個比MNIST 特征更為多樣的數據集，它包含50 種玩具模型的圖像，共5 類：四足動物、人物、飛機、卡車和汽車. NORB 數據集中的所有48600 幅圖像是用兩個攝像機在6 個光照條件，9 個仰角和18 個方位角對玩具模型拍攝的灰度圖像，由2×32×32個像素組成.

3.2 實驗結果及分析

為分別考查自編碼器和超圖對AH-SBLS 性能的影響，將AH-SBLS 及其3個特例包括A-BLS1（僅使用單層自編碼器進行特征提取的監(jiān)督型學習）、A-BLS（僅使用多層自編碼器進行特征提取的監(jiān)督型學習）、AHSBLS1（使用單層自編碼器進行特征提取且利用超圖實現半監(jiān)督學習）與下述6種方法進行對比，包括：堆棧自編碼器（SAE）［11］、抗噪堆棧自編碼器（SDA）［19］、深度置信網絡（DBN）［20］、深度玻爾茲曼機（DBM）［21］、BLS［1］和ss-BLS［7］. 實驗設置：（1）對于監(jiān)督型方法，分別從MNIST和NORB數據集中選擇6000個和4860個樣本作為訓練樣本，剩余樣本用于測試；（2）對于半監(jiān)督型方法，從MNIST數據集中每類選擇100個標記樣本和900個無標記樣本，從NORB 數據集中每類選擇600 個標記樣本和4260個無標記樣本，其余樣本用于測試；（3）SAE、SDA、DBN、DBM 和BLS 的超參數及實驗結果直接取自文獻［1］. 所有寬度學習系統(tǒng)的超參數均采用網格搜索法確定，具體設置情況如表1、表2所示，其中“-”表示該參數不取值. 在AH-SBLS 中，參數λ和ρ分別控制嶺回歸正則項和超圖正則項在目標函數中的權重. 如果λ=0，嶺回歸方法就退化為了最小二乘. 如果ρ=0，超圖正則項就失去了作用.k為超圖的最近鄰樣本數. A-BLS 和AH-SBLS 均采用一個5 層自編碼器，在MNIST 和NORB數據集上每層的節(jié)點個數分別為600-500-50-500-600、1800-550-300-550-1800；（4）所有實驗均在配備有Inteli7 2.4 GHz CPU，GTX1080Ti GPU 的計算機上進行. 為消除隨機因素的影響，所有實驗重復5次并取平均值.

表1 寬度學習系統(tǒng)的超參數設置（MNIST數據集）

表2 寬度學習系統(tǒng)的超參數設置（NORB數據集）

表3、表4 給出了各方法在MNIST 和NORB 數據集上的圖像分類實驗結果對比，可以看出：

（1）在所有監(jiān)督型寬度學習方法中，A-BLS 的分類精度最高，A-BLS1 次之. 這印證了BLS 線性稀疏特征提取方法存在表征瓶頸，并且由自編碼器提取的非線性特征要比線性稀疏特征更能反映出樣本在特征空間中的真實分布. 在所有監(jiān)督型學習方法中，A-BLS 同樣取得了最高的分類精度. 這是因為多層的自編碼器可以學習到樣本不同層次的特征表示，通過組合不同層次的特征，A-BLS能夠實現特征空間與標記空間之間更準確的映射；

（2）從時間上分析，在所有監(jiān)督型寬度學習方法中，BLS、A-BLS1 和A-BLS 的耗時均相對較少. 這是因為寬度網絡的輸出層參數可以直接通過廣義逆矩陣的計算得到，且模型的結構較為簡潔. 同為寬度學習方法，BLS在MNIST數據集上的耗時最短，其次為A-BLS1. 這是因為訓練自編碼器比直接提取線性稀疏特征需要更多的時間. 在NORB 數據集上，A-BLS1 為最快速的模型，比BLS 耗時更少. 這是因為A-BLS1 使用了更少的特征節(jié)點和增強節(jié)點.

表3 圖像分類結果對比（MNIST數據集）

表4 圖像分類結果對比（NORB數據集）

（3）同為半監(jiān)督寬度學習方法，相較于ss-BLS，AHSBLS1（特征節(jié)點數與增強節(jié)點數與ss-BLS 相同）能夠以很少的訓練時間為代價，取得更高的分類精度. 同時，AH-SBLS 模型仍是精度最高的模型，這一結果充分說明了超圖模型比常規(guī)圖模型更能反映樣本之間的真實聯系.

為分析標記樣本的數量對AH-SBLS 分類精度的影響，通過設置不同標記樣本個數進行實驗，并選擇ss-BLS 和AH-SBLS1 作為對比方法. 在MNIST 數據集中，標記樣本的數量由每類10逐漸遞增為100. 在NORB數據集中標記樣本的數量由每類100 逐漸遞增為600. 實驗結果如圖2所示，由圖可知：

（1）在兩個數據集上，隨著標記訓練樣本量的增加，ss-BLS、AH-SBLS1 和AH-SBLS 的分類精度均逐漸提高. 這是因為對于半監(jiān)督學習方法來說，利用更多的標記樣本能夠幫助學習到泛化能力更強的分類模型；

（2）標記訓練樣本數量相同的情況下，AH-SBLS 能夠取得最高的分類精度，而且擁有相同特征節(jié)點和增強節(jié)點數的AH-SBLS1 的分類精度仍高于ss-BLS. 這印證了相比于常規(guī)圖，超圖能夠通過對標記樣本和無標記樣本之間的復雜流形關系的建模，幫助獲取更高的分類精度.

3.3 特征t-SNE可視化

為了直觀地展示AH-SBLS 模型中自編碼器的特征提取效果，在MNIST 和NORB 兩個數據集上使用t-SNE方法［22］對自編碼器提取的特征進行了可視化. 該實驗在兩個數據集上每類均隨機選取200 個樣本. 對于擁有多層特征層的AH-SBLS 模型，只顯示中間維數最少的特征層的可視化結果. 實驗結果如圖3、圖4所示.

圖2 標記樣本數量對分類精度的影響

可以通過比較原始圖像的分布和模型提取特征的分布來評價模型的特征提取效果. 由圖3、圖4 可知：（1）在MNIST 數據集上，雖然大多數數字都可以被AH-SBLS 模型準確地區(qū)分開，但無論是原始數據還是模型提取的特征，數字“4”和“9”在圖中的分布均非常接近，說明這兩個數字具有非常相似的特征，將它們區(qū)分開來的難度較大. 同樣在圖4 中，汽車和卡車的分布也具有這樣的特點. 汽車和卡車均屬于“車”，擁有較多的相似特征，將它們區(qū)分開來的難度較大也是符合直覺的；（2）相較于原始數據和BLS 提取的特征，AH-SBLS 提取得到的特征不同類別之間有了更大的間距，同類特征分布地更加密集，并且離群的數據點較少. 這說明利用AH-SBLS 提取的多層非線性特征具有更強的可分性，進而幫助寬度學習系統(tǒng)實現更加準確的類別預測.

圖3 特征t-SNE可視化（MNIST數據集）

圖4 特征t-SNE可視化（NORB數據集）

4 結論

隨著計算機技術的迅猛發(fā)展，人們將獲取越來越多的無標記數據，而有標記樣本需要人工對樣本進行標記，因而有標記樣本的獲取相對比較困難而且代價昂貴. 在標記樣本極少的情況下，常規(guī)的寬度學習系統(tǒng)難以取得良好的表現，很容易陷入對少量樣本的過擬合或者及對目標任務的欠擬合. 因此，將少量的標記樣本信息和大量的無標記樣本信息加以綜合利用的半監(jiān)督學習有著廣泛的需求. 本文提出的AH-SBLS 模型將超圖結構引入到常規(guī)監(jiān)督型BLS 中，不僅能夠實現半監(jiān)督學習，而且充分考慮了數據之間的復雜多元關系.此外，多層自編碼器的使用有助于提取到輸入數據的本征特征，從而進一步提升半監(jiān)督BLS 的泛化性能.MNIST 和NORB 兩個數據集上的實驗結果驗證了AHSBLS的可行性和有效性.