李曉萌代永瀟范麗亞
(聊城大學 數(shù)學科學學院,山東 聊城 252059)
近年來,由Huang等人[1,2]提出的終端學習機(Extreme Learning Machine,ELM)受到學者們的廣泛關注并不斷加以改進。2017 年,受孿生支持向量機(Twin Support Vector Machine,TSVM)[3]的啟發(fā),Wan等人[4]提出了優(yōu)化約束較少分類性能較好的孿生ELM(Twin Extreme Learning Machine,TELM)。2020年,Yang等人[5]提出了正則化ELM 套袋模型用于南海熱帶氣旋軌道預測。2021年,Yang等人[6]提出了用于網絡釣魚檢測的非逆矩陣在線序列ELM,該算法避免了矩陣的反演操作,并引入了在線序列ELM 的思想來更新訓練模型。同年,Li等人[7]提出了混合數(shù)據(jù)徑向基函數(shù)ELM 算法,實現(xiàn)了對混合數(shù)據(jù)直接、快速、有效的分類,Ouyang[8]提出了基于ELM 的改進自動編碼器結構,通過利用低秩矩陣分解來學習最優(yōu)低秩特征,Subudhi等人[9]提出了利用ELM 結合優(yōu)化技術對電力功率質量自動分類。
針對數(shù)據(jù)分類,極大極小概率機(Minimax Probability Machine,MPM)[10]是指將最大錯分率的概率最小化,是利用樣本的均值和方差來尋找分類超曲(平)面。MPM 模型常被表述為一個二階錐規(guī)劃(SOCPs),通過內點算法進行求解,如SeDu Mi[11]。近年來,MPM 得到了廣泛的應用,2014年,Yoshiyama等人[12]提出了拉普拉斯MPM(Laplacian MPM),將MPM 拓展到了半監(jiān)督問題。2019年,Maldonado等人[13]提出了正則化MPM(Regularized MPM),降低了獲得不穩(wěn)定估計量的風險,提高了算法的泛化能力。2020年,He等人[14]提出了基于加權增量MPM 的汽油混合過程質量預測方法,Song等人[15]利用最小誤差MPM 提出了新的奇偶校驗空間故障隔離方法,Maldonado等人[16]提出了利用MPM 預測利潤流失的方法,該方法最大限度地提高目標函數(shù)中的保留活動的利潤。
2019年,Yang等人[17]將ELM 與MPM 結合,提出了極小極大概率終端學習機(Minimax Probability Extreme Learning Machine,MPME)框架用于模式識別,2020 年又提出了孿生MPM(Twin MPM,TWMPM)[18]用于模式分類。同年,Ma等人[19]也提出了孿生極小極大概率分類機(Twin Minimax Probability Machine Classification,TMPMC)。2020 年,Ma等人[20]還提出了孿生極小極大概率終端學習機(Twin Minimax Probability Extreme Learning Machine,TMPELM)用于模式識別。
由于在求解二階錐規(guī)劃問題的內點算法中,初始點要受到嚴格可行的限制,而在實際的問題中有時候難以找到嚴格可行點。本文在文獻[10,13,17,20]的基礎上,改進了MPM,MPME和TMPELM 算法的理論推導方法,將算法模型從二階錐規(guī)劃轉化為凸二次規(guī)劃,避免了初始點嚴格可行的限制,提出了改進的TMPELM,MPM 和MPELM 算法,并進行了對比實驗。本文針對線性不可分數(shù)據(jù)集Rd×{±1},其中正類樣本m1個,負類樣本m2個,且m =m1+m2。用I1={i∈{1,…,m}:y i =1} 和I2={i∈{1,…,m}:y i =-1} 分別表示正負類樣本的下標集。利用核函數(shù)k:Rd ×Rd→R(H是其RKHS,φ:Rd→H是對應的特征映射)可將數(shù)據(jù)集T轉化為映射數(shù)據(jù)集
本節(jié)簡要回顧非線性RELM 算法和非線性TELM 算法,詳細內容見文獻[2,4]。為表述方便,設l=dim(H)(即H=Rl),其中l(wèi)為充分大的正整數(shù)。將特征映射φ(·)表示為φ(·)=(φ1(·),…,φl(·))T。其中φt(·):Rd→R,記φtk:R→R。
取隱層神經元個數(shù)為l,并設βt∈R是第t個隱層神經元到輸出層(只有1個神經元)的權向量。和y i分別表示樣本x i的網絡輸出和真實輸出。記,則XTβ∈Rm??紤]下面的二次規(guī)劃模型
式中c>0為調節(jié)參數(shù)。由于H=span{φ(x1),…,φ(x m)}且β=[β1,…,βl]T∈Rl,故存在系數(shù)向量α∈Rm使得β=χα,于是,模型(1)可轉化為
式中K =XTX∈Rm×m為核陣。令dF(α)/dα =0,可得
下面給出具體算法。
算法1(RELM)
步2 選擇適當?shù)暮撕瘮?shù)和核參數(shù);
步3 利用(3)式,計算系數(shù)向量α*;
步4 對任一輸入樣本∈Rd,其RELM 輸出為*∈R,其中x m)]。
設輸出層有2個神經元,一個是正類神經元,一個是負類神經元,并設β1t,β2t∈R分別是第t個隱層神經元到正類神經元和負類神經元的權向量。TELM 是通過考慮下面兩個二次規(guī)劃模型
來尋找一對非線性超曲面f1(x)=h(x)Tβ1=0和f2(x)=h(x)Tβ2=0,使得一個超曲面距離一類樣本盡可能近,同時排斥另一類樣本盡可能遠,其中c1,c2>0是模型參數(shù),h(x)是隱層神經元的輸出向量。
記β1=[β11,…,β1l]T,β2=[β21,…,β2l]T∈Rl,則存在系 數(shù)向量θ1=(θ11,…,θ1m)T,θ2=(θ21,…,θ2m)T∈Rm,使得β1=Xθ1,β2=Xθ2,其中K x =[k(x,x1),…,k(x,x m)]∈R1×m,于是,模型(4)和(5)可分別轉化為
考慮模型(6)和(7)的Lagrange函數(shù)
并令?L1/?θ1=?L1/?ξ =0和?L2/?θ2=?L2/?η =0,可得
于是,模型(6)和(7)的Wolfe對偶形式分別為
式中P=K(B,X)[K(A,X)TK(A,X)]-1K(B,X)T,Q=K(A,X)[K(B,X)TK(B,X)]-1K(A,X)T,α1∈Rm2,α2∈Rm1為Lagrange乘子向量。下面給出具體算法。
算法2(TELM)
步1 給定數(shù)據(jù)集T ={(x i,y i)}mi=1∈Rd×{±1},選擇合適的模型參數(shù)c1,c2>0和正則化參數(shù);
步2 擇適當?shù)暮撕瘮?shù)和核參數(shù);
步3 分別求解對偶模型(9)和(10),得最優(yōu)解α*1∈Rm2,α*2∈Rm1;
步4 利用(8)式計算系數(shù)向量θ*1,θ*2,其中α1=α*1,α2=α*2;
步5 構造分類決策函數(shù)f1(x)=K xθ*1和f2(x)=K xθ*2;
步6 對任一輸入樣本~x∈Rd,其類標簽可判斷為
本節(jié)利用凸二次規(guī)劃的Wolfe形式對原始MPM 算法進行改進,并提出新的MPM 算法。
設φ(x+)~(μ1,Σ1)∈Rl,φ(x-)~(μ2,Σ2)∈Rl是兩個隨機向量,其樣本取值分別為φ(x+)∈Rl和φ(x-)∈Rl。記
來尋找分類超曲面f(x)=wTφ(x)+b=0,使得兩個隨機向量的樣本取值分列超曲面兩側的最小概率(用概率的下確界表示)越大越好,其中w∈Rl,b∈R,α∈(0,1)。
引理1[21]設x ~(μ,Σx)是隨機向量。給定w∈Rd{0},b∈R和α∈(0,1)使得wTμ≤b,則
推論1[21]設x ~(μ,Σx)是隨機向量。若存在w∈Rd{0},b∈R和α∈[0,1)使得wTμ +b≥0,則,其中k(α)= α/(1-α)>0。
由引理1和推論1,模型(11)可轉化為
模型(12)可用SeDu Mi算法進行求解,詳細內容見[10]。本文提供另一種思路和新的算法。
首先,將模型(12)等價地轉化為
由于w∈Rl,故存在系數(shù)向量β=[β1,…,βm]T∈Rm使得w =Xβ。記
則分類超曲面和模型(13)可分別轉化為f(x)=K xβ+b=0和
式中K x =[k(x,x1),…,k(x,x m)]∈R1×m??紤]模型(14)的Lagrange函數(shù)
并令?L/?β=?L/?b=0,可得Qβ+(U1-U2)T(α-γ)T=0,其中,α=α1=α2。不妨設矩陣Q非奇異(否則,將其正則化),則有
根據(jù)模型(14)的約束,可取
于是,模型(14)的Wolfe對偶形式為
下面給出具體算法。
算法3(MPM)
步1 給定數(shù)據(jù)集T ={(x i,y i)}im=1∈Rd×{±1} ,選擇合適的正則化參數(shù)t>0;
步2 選擇適當?shù)暮撕瘮?shù)和核參數(shù);
步3 計算均值向量(μ1,μ2)和協(xié)方差矩陣(Σ1,Σ2);
步4 求解模型(17),得最優(yōu)解u*∈R;
步5 分別利用(15)式和(16)式計算系數(shù)向量β*∈Rm和閾值b*∈R,其中u=u*;
步6 構造分類決策函數(shù)f(x)=K xβ*+b*;
步7 對任一輸入樣本∈Rd,其類標簽可判斷為
類似于第2節(jié),本節(jié)利用凸二次規(guī)劃的Wolfe形式對原始MPLEM 算法進行改進,并提出新的MPLEM 算法。本文縮寫符號均同第2節(jié)。不同于MPM,原始MPLEM 算法是通過下面的優(yōu)化模型來尋找分類超曲面f(x)=wTX=0使得兩類樣本分列其兩側的最小概率越大越好,且真實輸出與網絡輸出的誤差越小越好,其中X=[φ1(x),…,φl(x)]T∈Rl,α∈(0,1),c>0是模型參數(shù)。由引理1和推論1,模型(18)可轉化為
模型(19)可用SeDu Mi算法進行求解,詳細內容見[15]。本文提供另一種思路和新的算法。
首先,將模型(19)等價地轉化為
式中y=Xw為網絡輸出。由于w∈Rl,故存在系數(shù)向量β=[β1,…,βm]T∈Rm使得w=Xβ。則分類超曲面和模型(20)可分別轉化為f(x)=K xβ=0和
式中K x =[k(x,x1),…,k(x,x m)]∈R1×m。記
考慮模型(21)的Lagrange函數(shù)
令?L/?β=0,可得
通過求解模型(21)的Wolfe對偶模型
可得最優(yōu)解u*,代入(22)式可得β*,下面給出具體算法。
算法4(MPELM)
步1 給定數(shù)據(jù)集T ={(x i,y i)}im=1∈Rd×{±1},選擇合適的正則化參數(shù)t>0;
步2 選擇適當?shù)暮撕瘮?shù)和核參數(shù);
步3 計算均值向量(μ1,μ2)和協(xié)方差矩陣(Σ1,Σ2);
步4 求解模型(23),得最優(yōu)解u*∈R3;
步5 利用(22)式計算系數(shù)向量β*,其中u=u*;
步6 構造分類決策函數(shù)f(x)=K xβ*;
步7 對任意一輸入樣本∈Rd,其類標簽可判斷為
本節(jié)在第3節(jié)的基礎上進一步改進原始TMPLEM 算法,并提出新的TMPLEM 算法。
原始TMPELM 算法是通過如下優(yōu)化模型
來尋找正類超曲面f1(x)=wT1φ(x)=0和負類超曲面f2(x)=wT2φ(x)=0,其中w1,w2∈Rl表示超曲面的法向量,c1,c2>0是模型參數(shù),使得正類(負類)樣本位于正類(負類)超平面之上(下)的最小概率越大越好,同時排斥負類(正類)樣本越遠越好。同第2節(jié)相似,類似于第3節(jié),模型(24)和模型(25)可用Se-Du Mi算法進行求解。詳細內容見[20]。本文提供另一種思路和新的算法。
根據(jù)引理1和推論1,可將模型(26)和模型(27)分別轉化為
其次,采用第3節(jié)的方法,將模型(28)和模型(29)轉化為凸二次規(guī)劃模型
由于w1,w2∈H,存在系數(shù)向量θ1=[θ11,…,θ1m]T,θ2=[θ21,…,θ2m]T∈Rm使得w1=φ(X)θ1,w2=φ(X)θ2。于是,分類超曲面,模型(30)和模型(31)可分別轉化為f1(x)=K xθ1=0,f2(x)=K xθ2=0和
式中K x =[k(x,x1),…,k(x,x m)]∈R1×m,Q1=m-11K(A,X)TP1K(A,X),Q2=m-12K(B,X)TP2K(B,X)。記
式中,I m1∈Rm1×m1,I m2∈Rm2×m2為單位矩陣。分別考慮模型(32)和模型(33)的Lagrange函數(shù)
并分別令?L1/?θ1=0和?L2/?θ2=0可得
進而得模型(32)和模型(33)的Wolfe對偶形式
下面給出具體算法。
算法5(TMPELM)
步2 選擇適當?shù)暮撕瘮?shù)和核參數(shù);
步3 計算均值向量(μ1,μ2),協(xié)方差矩陣(Σ1,Σ2)和矩陣G1,G2,D1,D2;
步4 求解模型(35)和模型(36),分別得最優(yōu)解u*1∈Rm2+1,u*2∈Rm1+1;
步5 利用(34)式計算系數(shù)向量θ*1,θ*2,其中u1=u*1,u2=u*2;
步6 構造分類決策函數(shù)f1(x)=K xθ*1和f2(x)=K xθ*2;
步7 對任一輸入樣本~x∈Rd,其類標簽可判斷為
本節(jié)將文中提出的MPM 算法,MPELM 算法和TMPELM 算法分別與原始的MPM 算法[10,13],MPELM 算法[17]和TMPELM 算法[20]進行準確度、標準差和運行時間的對比實驗。采用的部分數(shù)據(jù)集與運算開銷同原始算法,使用十折交叉驗證法并重復五次,分別取線性核和RBF核。所涉及的參數(shù)均使用網格搜索并取最優(yōu)結果,搜索范圍為10-3~103。實驗結果分別見表1~3,其中ACC,S和T分別表示分類準確度,標準差和運行時間。為直觀起見,同時提供了準確度對比柱狀圖。
表1 MPM 算法準確度對比實驗結果(原始MPM 算法只提供了準確度實驗結果)
圖1 MPM 算法準確度對比柱狀圖
從表1中可以看出,本文算法在線性核下有六個優(yōu)于原始算法,在RBF核下有六個優(yōu)于原始算法。
圖2 MPELM 算法準確度對比柱狀圖
從表2中可以看出,本文算法有五個優(yōu)于原始算法,尤其在數(shù)據(jù)集Pima,Spam 和Australian上準確度有顯著提升,較原始算法分別提高了15.18%,11.59%和17.79%。
表2 MPELM 算法準確度對比實驗結果(原始MPELM算法只提供了線性核下的準確度實驗結果)
圖3 TMPELM 算法準確度對比柱狀圖
從表3中可以看出,本文算法在線性核和RBF 核下均有七個優(yōu)于原始算法,其中在數(shù)據(jù)集Banknote和Diabetes上準確度有顯著提升,線性核下提升了11.25%和17.10%,RBF核下提升了9.87%和8.15%。綜上所述,本文所提算法是有效的且具有可競爭性。
表3 TMPELM 算法準確度、標準差、運行時間對比實驗結果
針對二分類問題,MPELM 具有MPM 和ELM 的優(yōu)點,但與之不同的是,MPELM 可以提供泛化誤差的明確上界,這提供了一個分類精度的可靠性度量,且決策變量比MPM 和SVM 少。目前,MPM 算法,MPELM 算法和TMPELM 算法主要是通過求解二階錐規(guī)劃模型的內點算法實現(xiàn),該算法初始點要受到嚴格可行的限制,在實際問題中有時難以找到嚴格可行點。本文利用支持向量機思想和凸二次規(guī)劃的Wolfe對偶形式,對已有的MPM 算法,MPELM 算法和TMPELM 算法進行了改進,避免了尋找嚴格可行點,并提出了三個新算法。實驗結果表明,本文所提算法是有效和可競爭的。在本文的基礎上,可進一研究MPM 算法與其他形式的ELM 算法的有效結合,以期提高數(shù)據(jù)集的分類準確度,并將研究成果應用于信息的加密與解密領域。