新疆農(nóng)業(yè)大學(xué)交通與物流工程學(xué)院 董丹華 吐爾遜·買買提
投影尋蹤回歸對(duì)復(fù)雜系統(tǒng)的原始數(shù)據(jù)進(jìn)行建模分析與預(yù)測具有重要意義。以經(jīng)過簡化處理的波士頓房價(jià)數(shù)據(jù)集作為建模和預(yù)留檢驗(yàn)的樣本數(shù)據(jù),對(duì)自變量因子采用了線性降維技術(shù)、非線性擬合技術(shù)、迭代尋優(yōu)方法,分別應(yīng)用投影尋蹤回歸算法和神經(jīng)網(wǎng)絡(luò)回歸算法創(chuàng)建房價(jià)趨勢(shì)預(yù)測模型,對(duì)波士頓房價(jià)進(jìn)行預(yù)測。預(yù)測結(jié)果表明:投影尋蹤回歸算法具有較高的準(zhǔn)確度,且投影尋蹤回歸算法具有較強(qiáng)的穩(wěn)健性、抗干擾性,為回歸預(yù)測模型計(jì)算預(yù)測值,并對(duì)預(yù)測值進(jìn)行綜合分析提供思路和方法。
投影尋蹤(Projection Pursuit)簡稱PP,是國際統(tǒng)計(jì)界于20世紀(jì)70年代中期發(fā)展起來的[1],是應(yīng)用數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)技術(shù)的交叉學(xué)科,主要用于處理、分析高維觀測數(shù)據(jù),是非正態(tài)、非線性高維數(shù)據(jù)的一種新興統(tǒng)計(jì)方法[2],是將高維數(shù)據(jù)投影至低維子空間,并尋找出能反映原高維數(shù)據(jù)的結(jié)構(gòu)、特征的投影,達(dá)到分析、研究原高維數(shù)據(jù)的目的。投影尋蹤統(tǒng)計(jì)方法具有抗干擾性、穩(wěn)健性、準(zhǔn)確度高等特點(diǎn),因而被廣泛應(yīng)用于很多領(lǐng)域[3]。
投影尋蹤統(tǒng)計(jì)方法主要涉及三方面內(nèi)容,即聚類分析、回歸、學(xué)習(xí)網(wǎng)絡(luò)[4]。其中投影尋蹤回歸算法原理解決了傳統(tǒng)間隔方法(PCA等)的不足,通過極值化來選定投影指標(biāo),尋找最能反映數(shù)據(jù)特征的投影方向,將高維數(shù)據(jù)投影到低維空間,進(jìn)行分析[5]。
本文所述的神經(jīng)網(wǎng)絡(luò)是最傳統(tǒng)的BP(Back-propagation)神經(jīng)網(wǎng)絡(luò),即反向傳播神經(jīng)網(wǎng)絡(luò)。反向傳播是指在模擬過程中收集系統(tǒng)所產(chǎn)生的誤差,并且返回這些誤差到輸出值,從而調(diào)整神經(jīng)元的權(quán)重,此過程不斷重復(fù),最終生成一個(gè)可以模擬出原始問題的人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)[6]。人工神經(jīng)網(wǎng)絡(luò)(ANN,Artificial Neural Network)也叫多層感知機(jī)(MLP,Multilayer Perceptron),除了輸入輸出層,它中間可以有多個(gè)隱層,最簡單的MLP只含一個(gè)隱層,即三層結(jié)構(gòu)[7]。
本文依據(jù)波士頓房價(jià)預(yù)測問題,采用了上述兩種回歸算法進(jìn)行建模,對(duì)模型進(jìn)行訓(xùn)練和測試,通過對(duì)模型表現(xiàn)以及訓(xùn)練過程的總結(jié),探究神經(jīng)網(wǎng)絡(luò)回歸算法和投影尋蹤回歸算法在這一具體問題中的應(yīng)用。
投影尋蹤回歸算法(PPR)與神經(jīng)網(wǎng)絡(luò)回歸算法(MLPR),都是對(duì)自變量因子采用了線性降維技術(shù)和非線性擬合技術(shù),并進(jìn)而通過迭代尋優(yōu)的方法,創(chuàng)建回歸模型的[8]。
PPR技術(shù)是將投影尋蹤(PP)與回歸分析(RA)方法相結(jié)合的多因子建模技術(shù),對(duì)統(tǒng)計(jì)數(shù)據(jù)不作任何假定和變換等人為干預(yù),對(duì)數(shù)據(jù)的降維優(yōu)化是借助計(jì)算機(jī)進(jìn)行處理[9]。數(shù)據(jù)結(jié)構(gòu)的審視較客觀,并以數(shù)值函數(shù)描述后再用于預(yù)測,非正態(tài)、非線性的有用信息獲取充分,其數(shù)學(xué)表達(dá)式描述如式(1)所示:
式(1)中:f(x)回歸方程可用嶺函數(shù),進(jìn)行逼近;
αjm第j個(gè)自變量因子的權(quán)重系數(shù),或稱投影方向,自變量因子的維度=P;
βim第m個(gè)嶺函數(shù)的權(quán)重系數(shù);
權(quán)重系數(shù)是按自變量因子x與目標(biāo)y的相關(guān)程度計(jì)算出來的。
其算法流程如下:
(1)對(duì)y進(jìn)行標(biāo)準(zhǔn)化處理→R(中間變量);
(2)循環(huán)創(chuàng)建最多M個(gè)嶺函數(shù),步驟如下:
1)按(R,x)的主成分方向設(shè)置第一個(gè)嶺函數(shù)的投影方向數(shù)組A;
2)計(jì)算嶺函數(shù)的水平坐標(biāo)值A(chǔ)×X→T;
3)用超級(jí)濾波器求解嶺函數(shù)值→F;
4)計(jì)算剩余值Y[j]-F[j]→R;
5)計(jì)算β系數(shù)=R[i,j]×F[j]/(F[j])×(F[j]),計(jì)算下一輪建模數(shù)據(jù)R=R[i,j]-B[LM-1,i]×F[LM-1,j];
6)檢查循環(huán)條件,創(chuàng)建下一個(gè)嶺函數(shù);
(3)如果所建模型個(gè)數(shù)>MU,需進(jìn)行全局優(yōu)化,以保證模型個(gè)數(shù)≤MU。MU、M都是模型參數(shù),通常為3,8;
(4)輸出回歸模型的結(jié)果數(shù)據(jù)。
神經(jīng)網(wǎng)絡(luò)回歸(MLPR)是多隱層BP神經(jīng)網(wǎng)絡(luò)(四層以上網(wǎng)絡(luò)),由輸入層、隱藏層、輸出層、節(jié)點(diǎn)(每一個(gè)節(jié)點(diǎn)就是一個(gè)神經(jīng)元)組成,輸入層神經(jīng)元個(gè)數(shù)與輸入數(shù)據(jù)的維數(shù)相同,輸出層神經(jīng)元個(gè)數(shù)與需要擬合的數(shù)據(jù)個(gè)數(shù)相同,隱含層神經(jīng)元個(gè)數(shù)與層數(shù)需要根據(jù)具體規(guī)則和目標(biāo)設(shè)定[10]。如圖1、圖2所示分別是單隱藏層和多隱藏層模型。
圖1 單隱藏層模型Fig.1 Single hidden layer model
圖2 多隱藏層模型Fig.2 Multiple hidden layer models
其數(shù)學(xué)表達(dá)式描述如式(2)所示:
式(2)中:a是激活函數(shù),w是權(quán)值,b是偏移量(截距)
其數(shù)學(xué)表達(dá)式描述如式(3)所示:
式(3)中:w1,w2,w3,w4和b1,b2,b3,b4為 權(quán)重和截距數(shù)組。
x→為訓(xùn)練因子數(shù)組(X[N,P],N=27,P=4),w1為訓(xùn)練因子權(quán)重,相當(dāng)于PPR中的自變量因子的權(quán)重系數(shù),在神經(jīng)網(wǎng)絡(luò)算法中,它的初始值是隨機(jī)設(shè)定的。
f( )為神經(jīng)元激活函數(shù),相當(dāng)于PPR中的嶺函數(shù),在神經(jīng)網(wǎng)絡(luò)算法中是按指定函數(shù)設(shè)定的。
其算法流程如下:
(1)當(dāng)模型參數(shù)設(shè)定為hidden_layer_sizes=(10,5),activation= 'relu', solver='lbfgs',alpha = 0.01,max_iter = 200)時(shí),用隨機(jī)數(shù)初始化權(quán)重矩陣W[w1[4,10],w2[10,5],w3[5,1]]和截距矩陣B[b1[10],b2[5],b3[1]];
(2)按最大迭代次數(shù)200,對(duì)權(quán)重矩陣和截距矩陣共111個(gè)數(shù)據(jù)進(jìn)行殘差最小化尋優(yōu)。每次迭代過程的流程如下:
1)按當(dāng)前的權(quán)重和截距計(jì)算各層神經(jīng)元數(shù)組;
2)計(jì)算回歸方程與目標(biāo)Y的平均平方差(loss);
3)按loss反向計(jì)算權(quán)重和截距的更新值;
4)迭代循環(huán)1)~3)直到結(jié)束。
(3)輸出回歸模型。
部分實(shí)現(xiàn)核心代碼如下:
為了深入了解MLPR算法流程,并便于與PPR進(jìn)行比較,本文使用經(jīng)過簡化處理的波士頓房價(jià)數(shù)據(jù)集作為建模和預(yù)留檢驗(yàn)的樣本數(shù)據(jù),其值如表1所示。
表1 簡化處理的波士頓房價(jià)數(shù)據(jù)集Tab.1 A simplified Boston house price dataset
PPR模型是通過計(jì)算機(jī)程序運(yùn)算不斷尋優(yōu)的過程,使其滿足如下極小化準(zhǔn)則,即按PPR(P4,N27,NN3,M4;MU2)建模,預(yù)報(bào)結(jié)果如圖3所示。
圖3 PPR模型回歸結(jié)果及預(yù)報(bào)檢驗(yàn)Fig.3 PPR model regression results and forecast verification
按MLPR(P4,N27,NN3,(10,5))建模預(yù)報(bào)處理的結(jié)果數(shù)據(jù)與PPR對(duì)比如表2所示。
表2 MLPR與PPR建模處理預(yù)報(bào)結(jié)果數(shù)據(jù)對(duì)比Tab.2 Comparison of MLPR and PPR modeling and processing forecast data
表2數(shù)據(jù)用圖形表示如圖4所示。
圖4 PPR與MLPR預(yù)報(bào)結(jié)果比較Fig.4 Comparison of PPR and MLPR forecast results
預(yù)測結(jié)果驗(yàn)證了回歸模型的可行性。同時(shí),對(duì)投影尋蹤回歸算法和神經(jīng)網(wǎng)絡(luò)回歸算法進(jìn)行對(duì)比,結(jié)果表明兩者算法非常類似,都是通過對(duì)P維訓(xùn)練因子,進(jìn)行坐標(biāo)轉(zhuǎn)換,構(gòu)建回歸模型,再按回歸模型的殘差,對(duì)回歸模型參數(shù)進(jìn)行迭代尋優(yōu)處理。兩者的區(qū)別是回歸模型參數(shù)個(gè)數(shù)不同,投影尋蹤回歸算法的回歸模型參數(shù)個(gè)數(shù)=P訓(xùn)練因子維數(shù)×MU+MU嶺函數(shù)最終個(gè)數(shù)。神經(jīng)網(wǎng)絡(luò)回歸算法的回歸模型參數(shù)個(gè)數(shù)=P訓(xùn)練因子維數(shù)×第1隱藏層節(jié)點(diǎn)數(shù)+……+第(n-1)隱藏層節(jié)點(diǎn)數(shù)×第n隱藏層節(jié)點(diǎn)數(shù)+輸出層節(jié)點(diǎn)數(shù)(即目標(biāo)Y的維數(shù))。當(dāng)使用同一個(gè)樣本數(shù)據(jù)(波士頓房價(jià)數(shù)據(jù)集)進(jìn)行建模預(yù)報(bào)比較時(shí),PPR最后3個(gè)預(yù)留檢驗(yàn)點(diǎn)的預(yù)報(bào)誤差比MLPR低。投影尋蹤回歸算法具有較強(qiáng)的穩(wěn)健性和抗干擾性,神經(jīng)網(wǎng)絡(luò)回歸算法的結(jié)果是不穩(wěn)定的,原因是神經(jīng)網(wǎng)絡(luò)回歸模型的初始參數(shù)是隨機(jī)的,導(dǎo)致模型不穩(wěn)定。
引用
[1] 宋曉濤,孫海龍.基于神經(jīng)網(wǎng)絡(luò)的自動(dòng)源代碼摘要技術(shù)綜述[J].軟件學(xué)報(bào),2022,33(01):55-77.
[2] 劉方愛,王倩倩,郝建華.基于深度神經(jīng)網(wǎng)絡(luò)的推薦系統(tǒng)研究綜述[J].山東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,36(4):325-336.
[3] 白祉旭,王衡軍,郭可翔.基于深度神經(jīng)網(wǎng)絡(luò)的對(duì)抗樣本技術(shù)綜述[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(23):61-70.
[4] 李舵,董超群,司品超,等.神經(jīng)網(wǎng)絡(luò)驗(yàn)證和測試技術(shù)研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(22):53-67.
[5] 李炳臻,劉克,顧佼佼,等.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)時(shí)代,2021(4):8-12+17.
[6] 張馳,郭媛,黎明.人工神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用綜述[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(11):57-69.
[7] 梁苗.基于粒子群優(yōu)化投影尋蹤模型的大型商場火災(zāi)風(fēng)險(xiǎn)評(píng)價(jià)[D].武漢:武漢理工大學(xué),2020.
[8] 李貝貝.基于投影尋蹤法的股權(quán)激勵(lì)對(duì)公司績效的影響研究[D].徐州:中國礦業(yè)大學(xué),2019.
[9] 顧婷.基于RAGA的投影尋蹤模型的廣西資源環(huán)境承載力評(píng)價(jià)[D].武漢:武漢大學(xué),2018.
[10] 蘇屹,姜雪松,張成功.投影尋蹤法在企業(yè)評(píng)價(jià)體系中的應(yīng)用綜述[J].科技和產(chǎn)業(yè),2013,13(11):104-107.