劉 云,鄭文鳳,張 軼
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500)
E-mail:2867328528@qq.com
在數(shù)據(jù)分析中常存在偏離目標(biāo)數(shù)據(jù)的離群點(diǎn),降低了數(shù)據(jù)的可用性,嚴(yán)重影響回歸模型的擬合精度,使氣象預(yù)測(cè),醫(yī)療挖掘,企業(yè)決策等應(yīng)用的數(shù)據(jù)分析結(jié)果存在較大偏差[1-3].隨著海量和高維數(shù)據(jù)的增多,離群點(diǎn)數(shù)據(jù)的不確定性提高,因此,推動(dòng)了一般回歸分析到模糊回歸分析的擴(kuò)展,通過模糊集理論解決了數(shù)據(jù)的不確定性,并且適當(dāng)模糊化能夠提高模型的靈活性[4].
Zhang等人基于模糊C回歸模型方法,提出魯棒T-S模糊(RTS-L1,Robust Takagi Sugeno-L1)算法,使用L1范數(shù)損失函數(shù)代替?zhèn)鹘y(tǒng)最小二乘(LS,Least Squares)估計(jì)法中的L2范數(shù)損失,克服了LS對(duì)離群點(diǎn)的敏感問題,有效降低離群點(diǎn)數(shù)據(jù)對(duì)模型精度的影響[5].Zeng等人引入了一種新的三角模糊數(shù)之間的距離,提出最小絕對(duì)模糊線性回歸(FLAR,Fuzzy Least Absolute Linear Regression)算法,用三角形模糊數(shù)的相似度測(cè)量方法評(píng)估觀察值和估計(jì)值之間的擬合度,適用于處理模糊不確定的離群點(diǎn)數(shù)據(jù),模型魯棒性與普通模糊LS算法相比更優(yōu)[6].
為了減少可能的離群點(diǎn)數(shù)據(jù)對(duì)回歸模型造成的干擾,提高數(shù)據(jù)擬合精度,提出基于魯棒策略的模糊殘差(FR,F(xiàn)uzzy Residual)算法.首先,根據(jù)模糊回歸建模方法,在模糊域中構(gòu)建模糊回歸模型;其次,計(jì)算模糊數(shù)殘差并確定了隨殘差迭代變化的權(quán)重;再通過新的加權(quán)LS目標(biāo)函數(shù)估計(jì)模型參數(shù),得到魯棒模糊回歸模型,新的模型根據(jù)不同的權(quán)重快速識(shí)別離群點(diǎn)數(shù)據(jù)并減少其對(duì)目標(biāo)數(shù)據(jù)擬合的影響.仿真結(jié)果表明,FR算法比其他現(xiàn)有算法更有效的消除了不確定性離群點(diǎn)的破壞作用,使回歸模型更準(zhǔn)確的擬合數(shù)據(jù),適用于進(jìn)行高效的多維數(shù)據(jù)分析.
(1)
(2)
(3)
圖1 三角模糊隸屬函數(shù)的幾何表示Fig.1 Geometric representation of triangular fuzzy membership function
(4)
(5)
離群點(diǎn)數(shù)據(jù)會(huì)降低算法的估計(jì)性能,通過模糊回歸方法給不確定性問題提供了解決方案,比傳統(tǒng)回歸方法更適合處理大量和多維數(shù)據(jù)的離群點(diǎn)問題[11].首先根據(jù)這種建模方法構(gòu)建模糊回歸模型,通過優(yōu)化模型估計(jì)參數(shù)提高異常離群點(diǎn)識(shí)別精度,使模型準(zhǔn)確擬合目標(biāo)數(shù)據(jù),排除離群點(diǎn)數(shù)據(jù)的干擾.
圖2 模糊回歸模型擬合數(shù)據(jù)的主要流程Fig.2 Main process of fuzzy regression model fitting data
(6)
得到:
(7)
(8)
在模糊回歸模型中,參數(shù)估計(jì)的優(yōu)劣直接影響了模型擬合數(shù)據(jù)的精度.通?;诩訖?quán)函數(shù)直接構(gòu)造魯棒模糊回歸模型,便于實(shí)現(xiàn)更加精確的數(shù)據(jù)回歸效果[13].
(9)
(10)
式(10)中wi(i=1,…,n)表示第i個(gè)觀測(cè)值的權(quán)重,該加權(quán)LS目標(biāo)函數(shù)不僅降低了異常離群點(diǎn)對(duì)插值過程的影響,且計(jì)算復(fù)雜度較低,算法收斂時(shí)間更快.
輸入一組觀測(cè)數(shù)據(jù)集后,F(xiàn)R算法使用迭代重加權(quán)LS估計(jì)輸出最優(yōu)參數(shù)和相應(yīng)的權(quán)重向量,主要執(zhí)行過程見算法1.
算法1.模糊殘差算法(FR)
輸入:
2)n×(k+1)階的預(yù)測(cè)矩陣X.
主要步驟:
1.Begin
4.計(jì)算模型擬合的殘差,記為e.
5.迭代計(jì)算t=t+1
6.計(jì)算新的權(quán)重
10.End
算法1中,計(jì)算第i次觀測(cè)值初始化權(quán)重的hii是投影矩陣H=X(XTX)-1XT對(duì)角線上的第i個(gè)元素.得到初始權(quán)重后,先在第0次迭代中得到模型初始參數(shù),再根據(jù)估計(jì)值計(jì)算殘差,并由步驟6計(jì)算新的權(quán)重;直到第t次迭代滿足算法停止準(zhǔn)則時(shí)輸出最優(yōu)參數(shù)和對(duì)應(yīng)權(quán)重,否則,轉(zhuǎn)回步驟4計(jì)算新的殘差,重新估計(jì)最優(yōu)參數(shù).
(11)
通過FR算法優(yōu)化的魯棒模糊回歸模型,可以估計(jì)出帶有明顯區(qū)分度的權(quán)重的數(shù)據(jù)點(diǎn).見算法1,初始權(quán)重與偏離最大的離群點(diǎn)(hii)相關(guān),逐步迭代計(jì)算的權(quán)重則由殘差決定.模糊數(shù)的殘差計(jì)算公式為:
(12)
根據(jù)該殘差公式可以得到n個(gè)數(shù)據(jù)點(diǎn)在第t次迭代時(shí)的權(quán)重:
(13)
由此可見,影響力較大的點(diǎn)或者說殘差較大的點(diǎn)獲得了更低的權(quán)重,使這類模糊離群點(diǎn)以最小隸屬度被識(shí)別,并降低了其對(duì)目標(biāo)數(shù)據(jù)擬合的干擾作用.因此,F(xiàn)R算法在保證收斂速度的同時(shí)具有較好的魯棒性,可以精確估計(jì)存在離群點(diǎn)的數(shù)據(jù)集.
(14)
結(jié)合式(11)可以得到三角模糊數(shù)的魯棒模糊回歸模型,在求解模型時(shí),讓g(·)=h(·)=Ln(·).
與類似算法仿真一致,表1中的一組模糊數(shù)據(jù)集來自于Zeng等人[6]使用過的通用數(shù)據(jù)源,并且受到表2中不同數(shù)量的離群點(diǎn)數(shù)據(jù)的影響,該數(shù)據(jù)源對(duì)模糊離群點(diǎn)研究具有一定的針對(duì)性.
表1 一組三角模糊觀測(cè)數(shù)據(jù)集Table 1 A set of triangular fuzzy observation data sets
為了利于研究,表2中離群數(shù)據(jù)是根據(jù)離群點(diǎn)的定義有意生成的.分別針對(duì)的第11,12和16個(gè)觀測(cè)值,并分為3組不同的情況進(jìn)行對(duì)比.
表2 3組不同情況下的離群點(diǎn)數(shù)據(jù)Table 2 Three groups of outlier data under different conditions
分別對(duì)存在不同數(shù)量的離群點(diǎn)的數(shù)據(jù)集進(jìn)行回歸分析,對(duì)比FR算法與其他算法的性能.為了形成明顯的對(duì)比,選擇的離群點(diǎn)都是偏離在目標(biāo)數(shù)據(jù)上方的值,如果繼續(xù)考慮其他位置的離群點(diǎn),分析的結(jié)果相似.
為了評(píng)估模型對(duì)觀測(cè)值的擬合程度,在擬合優(yōu)度標(biāo)準(zhǔn)中采用3個(gè)被廣泛用來評(píng)估模糊回歸模型的標(biāo)準(zhǔn),分別是相似性度量均值(MSE)[7],絕對(duì)誤差均值(MAE1)和擴(kuò)展的絕對(duì)誤差均值(MAE2)[16].
(15)
(16)
(17)
表3 離群點(diǎn)數(shù)據(jù)影響下和模型的擬合優(yōu)度標(biāo)準(zhǔn)Table 3 Goodness of fit criteria of the and under the influence of outlier data
表4 刪除離群點(diǎn)后和模模型的擬合優(yōu)度標(biāo)準(zhǔn)Table goodness of fit criteria after removing outliers
在忽略離群點(diǎn)后,F(xiàn)R算法更快得到了數(shù)據(jù)擬合模型,在表4中計(jì)算了兩種模型在的擬合優(yōu)度標(biāo)準(zhǔn),通過比較表3和表4的結(jié)果可得出結(jié)論,當(dāng)離群點(diǎn)數(shù)據(jù)被忽略時(shí),基于殘差加權(quán)的模糊回歸模型與其他方法的擬合誤差沒有太大差距,但計(jì)算時(shí)間復(fù)雜度更低,證明了FR算法的適用性.
根據(jù)結(jié)果得出,F(xiàn)R算法比現(xiàn)有模糊算法具有更優(yōu)的模型擬合度,算法估計(jì)精度明顯提高,可以得到可靠的數(shù)據(jù)估計(jì)結(jié)果.同時(shí),F(xiàn)R算法在用于清理后的數(shù)據(jù)集時(shí)更快收斂.
圖3 情況2中3種算法的模型擬合結(jié)果Fig.3 Model fitting results of the three algorithms in case 2
圖4 情況3中3種算法的模型擬合結(jié)果Fig.4 Model fitting results of the three algorithms in case 3
在第3種情況下,魯棒模糊回歸模型的擬合效果更加明顯,成功地降低了3個(gè)模糊的離群點(diǎn)的影響,說明FR算法有更好的魯棒性,估計(jì)性能優(yōu).
RTS-L1算法容易受到左右分布的或中心的模糊離群值的影響,特別是兩種情況同時(shí)出現(xiàn)(見圖3),F(xiàn)LAR算法則在處理多離群點(diǎn)數(shù)據(jù)時(shí)的魯棒性效果較低.相比之下,F(xiàn)R算法具有很好的魯棒性,不管是受到哪個(gè)模糊離群點(diǎn)數(shù)據(jù)的污染,優(yōu)化的模型都可以得到可靠的數(shù)據(jù)擬合效果.
當(dāng)大量和高維數(shù)據(jù)集被離群點(diǎn)數(shù)據(jù)污染時(shí),傳統(tǒng)LS算法的性能都不理想,因此,具有魯棒性的FR算法可以更好地解決離群點(diǎn)數(shù)據(jù)的不確定性.在模糊域中構(gòu)建模糊回歸模型后,根據(jù)FR算法進(jìn)行殘差迭代計(jì)算權(quán)重并結(jié)合LS法估計(jì)模型最優(yōu)參數(shù),得到基于加權(quán)優(yōu)化的魯棒模糊回歸模型,為離群點(diǎn)數(shù)據(jù)確定了更低權(quán)重.仿真結(jié)果表明,所提算法能夠很好地處理被離群點(diǎn)污染的數(shù)據(jù)集,精確識(shí)別離群點(diǎn)數(shù)據(jù)并擬合目標(biāo)數(shù)據(jù),具有更高的魯棒性.實(shí)際數(shù)據(jù)中離群點(diǎn)產(chǎn)生的原因是多方面的,人為誤差造成的可直接刪除,具有研究意義的離群點(diǎn)應(yīng)進(jìn)行深入挖掘,下步將深入研究如何確定是否將離群點(diǎn)數(shù)據(jù)留在模型中或?qū)⑵湟瞥?