胡清華,汪 運(yùn)
(天津大學(xué) 智能與計(jì)算學(xué)部,天津 300350)
回歸就是從給定的數(shù)據(jù)中學(xué)習(xí)到一個(gè)函數(shù)表達(dá),即從數(shù)據(jù)中提取出隱含的數(shù)據(jù)規(guī)則[1],從而可以利用學(xué)習(xí)到的規(guī)則來預(yù)測未來事件以及輔助決策人員做出合理的決策。當(dāng)前,回歸分析已被廣泛地應(yīng)用于各個(gè)領(lǐng)域,包括醫(yī)學(xué)[2]、經(jīng)濟(jì)學(xué)[3]、能源[1]、氣象環(huán)境[4]等領(lǐng)域。然而,在開放環(huán)境下,由于數(shù)據(jù)采集環(huán)境的復(fù)雜性、采集設(shè)備性能的限制以及人為因素的影響[5],使得收集到的數(shù)據(jù)中含有大量的不確定性,如數(shù)據(jù)噪聲、缺失數(shù)據(jù)以及非一致樣本等,極大地降低了數(shù)據(jù)的可用性。國外權(quán)威機(jī)構(gòu)的統(tǒng)計(jì)表明,美國企業(yè)信息系統(tǒng)中1%~30%的數(shù)據(jù)存在各種錯(cuò)誤和誤差[6],美國醫(yī)療信息系統(tǒng)中有13.6%~81%的關(guān)鍵數(shù)據(jù)不完整或陳舊[7]。國際著名科技咨詢機(jī)構(gòu)Gartner的調(diào)查顯示,全球財(cái)富1000強(qiáng)企業(yè)中超過25%的企業(yè)信息系統(tǒng)中的數(shù)據(jù)不正確或不準(zhǔn)確[8]。數(shù)據(jù)的不確定性嚴(yán)重影響研究人員利用回歸建模的方法準(zhǔn)確地從數(shù)據(jù)中挖掘出隱含的數(shù)據(jù)規(guī)則,進(jìn)而導(dǎo)致做出錯(cuò)誤決策。在AAAI 2016 年會(huì)上,大會(huì)主席Thomas G. Dietterich做了題為“Steps Toward Robust Artificial Intelligence”的演講,他認(rèn)為,“現(xiàn)階段智能系統(tǒng)需要在開放環(huán)境下具有自適應(yīng)性、對噪聲具有魯棒性”。因此,如何在復(fù)雜環(huán)境下構(gòu)建出魯棒的回歸模型是一個(gè)重要且具有挑戰(zhàn)性的研究問題。
為了構(gòu)建魯棒回歸模型,通常需要考慮以下3個(gè)要素:模型結(jié)構(gòu)、目標(biāo)函數(shù)和相應(yīng)的優(yōu)化方法[1]。根據(jù)模型結(jié)構(gòu),可以將回歸模型分為線性回歸模型和非線性回歸模型。目標(biāo)函數(shù)對回歸模型的性能的影響非常大。通常,可以根據(jù)噪聲的類型來選擇合適的損失函數(shù)[1,9]。如當(dāng)噪聲是高斯噪聲時(shí),最小二乘損失(也稱l2損失)比較好[1]。在決定了模型的結(jié)構(gòu)和損失函數(shù)以后,就可以采用合適的優(yōu)化方法對模型參數(shù)進(jìn)行優(yōu)化。傳統(tǒng)的回歸模型如高斯過程回歸、最小二乘支持向量機(jī)以及神經(jīng)網(wǎng)絡(luò)等都假定噪聲服從高斯分布或采用最小二乘損失函數(shù)。然而,在現(xiàn)實(shí)中,由于噪聲的復(fù)雜性,通常噪聲的分布為非高斯分布。因此,此時(shí)就會(huì)出現(xiàn)復(fù)雜的噪聲分布與所使用的回歸模型中的損失函數(shù)或噪聲分布假設(shè)不一致的情況。
為了解決上述問題,在當(dāng)前的文獻(xiàn)中主要有兩種解決方案[11-12]。第一種解決方案是通過數(shù)據(jù)預(yù)處理的方法將復(fù)雜的噪聲分布轉(zhuǎn)化成簡單的噪聲分布,如高斯分布,然后再用現(xiàn)有的回歸模型進(jìn)行數(shù)據(jù)分析;第二種解決方案是根據(jù)不同的魯棒策略,直接構(gòu)造出魯棒模型來降低復(fù)雜噪聲對模型性能的影響。
從以上兩種解決方案可以看出,基于數(shù)據(jù)預(yù)處理的魯棒回歸建模是針對數(shù)據(jù)端進(jìn)行處理,降低數(shù)據(jù)中的噪聲或者異常點(diǎn)等對回歸建模的影響,并沒有對回歸模型有任何改變,而是直接利用現(xiàn)有的回歸模型進(jìn)行回歸建模?;隰敯舨呗缘聂敯艋貧w建模方法并沒有對原始數(shù)據(jù)進(jìn)行處理,而是根據(jù)噪聲特性改變了回歸模型,從而實(shí)現(xiàn)了在回歸模型學(xué)習(xí)的過程中自動(dòng)實(shí)現(xiàn)了對噪聲或異常點(diǎn)等的魯棒效果。
在基于數(shù)據(jù)預(yù)處理的魯棒回歸建模中,主要采用兩類數(shù)據(jù)預(yù)處理的方法,即異常點(diǎn)檢測方法和信號(hào)處理方法。當(dāng)前的異常點(diǎn)檢測方法大體可分為以下4類[13]:基于統(tǒng)計(jì)的異常點(diǎn)檢測法、基于距離的異常點(diǎn)檢測法、基于密度的異常點(diǎn)檢測法以及軟計(jì)算的方法。當(dāng)數(shù)據(jù)中存在少量異常點(diǎn)時(shí),在異常點(diǎn)處的回歸誤差與在正常點(diǎn)處的回歸誤差存在明顯的差異,前者離0點(diǎn)更遠(yuǎn),從而使得總體回歸誤差分布并不滿足高斯分布,而呈現(xiàn)出重尾特性,如圖1所示。
圖1 存在異常點(diǎn)時(shí)回歸誤差的重尾概率分布示意圖Fig.1 Heavy-tailed error distribution of regression model with outliers
利用上述異常點(diǎn)檢測方法可以識(shí)別出異常點(diǎn),進(jìn)而可以去除異常點(diǎn)或?qū)Ξ惓|c(diǎn)進(jìn)行重新賦值,最后使得在該異常點(diǎn)處的回歸誤差與在正常點(diǎn)處的回歸誤差不存在明顯差異,消除重尾誤差分布中的重尾部分,并將其轉(zhuǎn)化為近似高斯分布。因此,基于異常點(diǎn)檢測的魯棒回歸建模就是利用異常點(diǎn)檢測法消除數(shù)據(jù)中的異常點(diǎn),降低異常點(diǎn)對回歸建模的影響,進(jìn)而直接利用現(xiàn)有的回歸模型實(shí)現(xiàn)魯棒建模。
除了異常點(diǎn)檢測方法以外,也可以利用信號(hào)處理方法對數(shù)據(jù)進(jìn)行事先去噪處理,降低數(shù)據(jù)中的整體噪聲對回歸建模的影響。該類方法通常被用來對時(shí)間序列進(jìn)行去噪處理,提高數(shù)據(jù)的可預(yù)測性,然后利用處理后的數(shù)據(jù)訓(xùn)練現(xiàn)有的回歸模型,從而達(dá)到回歸模型對數(shù)據(jù)噪聲的魯棒效果。常用的用來對時(shí)間序列進(jìn)行去噪的信號(hào)處理方法包括小波分解、小波包分解、經(jīng)驗(yàn)小波分解、經(jīng)驗(yàn)?zāi)B(tài)分解、集合經(jīng)驗(yàn)?zāi)B(tài)分解以及快速集成經(jīng)驗(yàn)?zāi)B(tài)分解等[12]。基于信號(hào)處理方法的魯棒建模策略通常被廣泛應(yīng)用于經(jīng)濟(jì)[3]、管理[14]及能源[15]等領(lǐng)域。
與基于數(shù)據(jù)預(yù)處理的魯棒回歸建模不同,基于魯棒策略的魯棒回歸建模方法是直接構(gòu)建對噪聲魯棒的回歸模型。在當(dāng)前的文獻(xiàn)中,為了構(gòu)建魯棒的回歸模型,通常有以下3種策略:構(gòu)造加權(quán)函數(shù)、構(gòu)造魯棒損失函數(shù)以及采用合適的噪聲分布先驗(yàn)。
最簡單的構(gòu)造魯棒回歸模型的方法就是對不同的樣本添加不同的權(quán)重。Brunsdon等人[16]以及Wen等人[17]認(rèn)為與其他樣本距離較遠(yuǎn)的樣本應(yīng)給予較小的權(quán)重,從而構(gòu)建出基于距離的加權(quán)函數(shù)。而Chatterjee等人[18]以及Suykens等人[19]認(rèn)為具有較大誤差的樣本應(yīng)給予較小的權(quán)重。因此,很多學(xué)者采用Hampel加權(quán)函數(shù)來構(gòu)造魯棒回歸模型[19-21]。Brabanter等人也根據(jù)上述加權(quán)規(guī)則對比了4種不同加權(quán)函數(shù)(Huber、Hampel、Logistic和Myriad)的魯棒效果,對比結(jié)果顯示在絕大多數(shù)的情況下Logistic和Myriad加權(quán)函數(shù)能夠使得模型更加魯棒[21]。張和郭等人也提出了一種軟剔除權(quán)重函數(shù),從而構(gòu)建了加權(quán)魯棒支持向量回歸方法[22]。在最小二乘支持向量回歸的框架下,Yang等人也討論了7種不同的加權(quán)函數(shù)[20]。與上述兩種加權(quán)思路不同,顧等人根據(jù)樣本密度,提出了基于樣本局部異常因子的直接加權(quán)最小二乘支持向量機(jī)魯棒回歸算法[23]。然而,對于特定的任務(wù),最優(yōu)的加權(quán)函數(shù)可能有所不同。如何在大量的加權(quán)函數(shù)中找到適合特定任務(wù)的加權(quán)函數(shù)是一件非常有挑戰(zhàn)的事[24]。表1中展示的是常見的加權(quán)函數(shù),其中e表示的是回歸誤差。
表1 常見的加權(quán)函數(shù)Tab.1 Common weighting functions
基于加權(quán)函數(shù)的魯棒回歸建模方法的算法實(shí)現(xiàn)步驟如下:
步驟1設(shè)定模型參數(shù)以及初始化權(quán)重向量值;
步驟2在給定權(quán)重值條件下求解模型最優(yōu)參數(shù);
步驟3如果滿足算法停止條件,則算法終止且輸出模型最優(yōu)參數(shù);否則轉(zhuǎn)到步驟4;
步驟4根據(jù)步驟2計(jì)算的模型最優(yōu)參數(shù)重新計(jì)算每個(gè)訓(xùn)練樣本的誤差,并根據(jù)誤差以及加權(quán)函數(shù)重新計(jì)算每個(gè)訓(xùn)練樣本上的權(quán)重值,然后轉(zhuǎn)到步驟2。
大體上,基于加權(quán)函數(shù)的魯棒回歸模型的優(yōu)化過程其實(shí)就是迭代重加權(quán)的過程。
當(dāng)前,也有很多學(xué)者通過構(gòu)造魯棒的損失函數(shù)來構(gòu)建魯棒回歸模型。在回歸建模中,常用的損失函數(shù)為最小二乘損失。隨著誤差的增大,相應(yīng)的損失呈平方增加[25]。當(dāng)訓(xùn)練數(shù)據(jù)中存在異常點(diǎn)時(shí),異常點(diǎn)處的回歸誤差將主導(dǎo)整個(gè)損失函數(shù)值的增加或減小,從而導(dǎo)致此時(shí)訓(xùn)練得到的模型偏向于異常樣本。因此,采用l2損失的回歸模型對異常點(diǎn)比較敏感,缺乏一定的魯棒性[5]。為了解決上述問題,一些學(xué)者采用最小絕對偏差損失,也稱l1損失,來代替原來的l損失?;趌1損失,Wang等人提出了魯棒Lasso方法,即LAD-Lasso來實(shí)現(xiàn)特征選擇[26]。Chen等人將最小二乘支持向量機(jī)中的l2損失替換成了l1損失,從而構(gòu)建了魯棒支持向量回歸模型[5]。l1損失要比l2損失魯棒的原因在于,當(dāng)誤差增加時(shí),l1損失的值呈線性增加,要比呈平方增加的l2損失的值增加的慢且少[27]。已有很多文獻(xiàn)證明了l1損失要比l2損失魯棒[27-29]。
通常,由于l1損失是非平滑函數(shù),在0處不可導(dǎo),從而導(dǎo)致基于l1損失的回歸模型的優(yōu)化比較困難。因此,可用Huber損失來近似l1損失[30]。盡管當(dāng)對Huber損失求一階導(dǎo)并令其為0時(shí)沒有閉合解,但是可以采用梯度下降的方法對模型求解[31]。Huber損失可以看成是由l2損失和l1損失(或ε不敏感損失)所構(gòu)成的一種組合損失函數(shù)[32]。對于Huber損失來說,在誤差較小時(shí)采用平方損失,當(dāng)誤差較大時(shí)采用l1損失。因此,Huber損失也比傳統(tǒng)的l2損失魯棒[33]。目前,很多文獻(xiàn)通過利用Huber損失來提升回歸模型的魯棒性[34-37]。Mangasarian等人構(gòu)建了魯棒Huber回歸,推導(dǎo)了其對偶形式,并通過凸二次規(guī)劃有效求解[34]。Naseem等人構(gòu)建了基于Huber損失的魯棒線性回歸模型,并將其應(yīng)用到人臉識(shí)別當(dāng)中[35]。Jianke等人通過利用Huber-ε不敏感損失函數(shù)構(gòu)造了魯棒核回歸模型,結(jié)果顯示優(yōu)化其原問題和對偶問題時(shí)回歸性能相仿,但是通過對原問題求解更有效且更簡單[32]。類似于Jianke等人的工作,張等人也提出了結(jié)合類似Huber-ε不敏感損失的魯棒支持向量機(jī),并設(shè)計(jì)了相應(yīng)的局部梯度優(yōu)化方法[36]。Lambert等人將LAD-Lasso[26]中的l1損失換成Huber損失,并結(jié)合自適應(yīng)BerHu懲罰項(xiàng)構(gòu)建了魯棒回歸模型來實(shí)現(xiàn)特征選擇[37]。Wei等人提出了一種統(tǒng)一的損失函數(shù)來構(gòu)建支持向量機(jī),該損失函數(shù)可以退化成Huber、ε不敏感、l1和l2損失[38]。
在噪聲類型已知時(shí),根據(jù)貝葉斯理論以及極大似然估計(jì)法,可推導(dǎo)出對這一類噪聲魯棒的損失函數(shù)[1,9,24,39]。如,在風(fēng)電預(yù)測中,研究發(fā)現(xiàn)風(fēng)電預(yù)測誤差通常是滿足Beta分布的,根據(jù)Beta誤差分布可以推導(dǎo)出相應(yīng)的損失函數(shù),從而構(gòu)造出基于Beta噪聲的支持向量機(jī)(Beta-SVM)和基于Beta噪聲的核嶺回歸模型(Beta-KRR)[1,39]。實(shí)驗(yàn)結(jié)果顯示當(dāng)數(shù)據(jù)中存在Beta噪聲時(shí),與傳統(tǒng)的SVM和KRR模型相比,采用考慮Beta噪聲分布的回歸模型能獲得更加精確的回歸結(jié)果[1,39]。當(dāng)噪聲分布滿足ε-不敏感的雙曲正割分布時(shí),采用lncosh損失函數(shù)最為合適[24]。然而,在現(xiàn)實(shí)中,噪聲分布未知且相對比較復(fù)雜,單個(gè)分布無法很好地描述噪聲分布,因此基于單個(gè)噪聲分布假設(shè)推導(dǎo)的魯棒回歸模型的魯棒性能有限,且方法不具有普適性。上述討論的損失函數(shù)均為凸損失函數(shù),一些典型的凸損失函數(shù)如表2所示。
近年來,由于非凸損失函數(shù)在泛化性能和魯棒性方面均優(yōu)于凸損失函數(shù),因此提出了各種基于非凸損失函數(shù)的魯棒回歸方法[30-31,40-41]。在上述討論的魯棒損失函數(shù)中,隨著誤差的增加,損失值也是逐漸增加的。而對于非凸損失函數(shù)來說,隨著誤差的增加,損失值增加到一定程度時(shí)變成了一個(gè)定值,即不再隨誤差的增加而增加。
表2 典型的凸損失函數(shù)Tab.2 Typical convex loss functions
Chen等人通過利用非凸的tanh損失函數(shù)來構(gòu)建魯棒支持向量回歸模型[42]。Zhao和Sun通過兩個(gè)Huber-ε不敏感損失函數(shù)構(gòu)建了一個(gè)光滑非凸的損失函數(shù),并利用其構(gòu)建了魯棒的支持向量回歸模型[31]。采用此魯棒損失函數(shù)既可以保留支持向量回歸模型解的稀疏性,又可以實(shí)現(xiàn)對訓(xùn)練樣本中異常點(diǎn)的魯棒效果[31]。與Zhao和Sun提出的方法類似,Zhong等人也通過兩個(gè)Huber-ε不敏感損失函數(shù)構(gòu)建了一個(gè)光滑非凸的損失函數(shù),并構(gòu)建了魯棒支持向量回歸模型[30]。Zhao等人利用截?cái)嗟摩挪幻舾袚p失函數(shù)(非光滑非凸損失函數(shù))構(gòu)建了魯棒的截?cái)嘀С窒蛄炕貧w模型[43]。Chang等人將傳統(tǒng)的Lasso模型中的l2損失換成非凸的Biweight損失,從而構(gòu)建了比傳統(tǒng)Lasso以及LAD-Lasso[26]等更加魯棒且性能更優(yōu)的魯棒Lasso回歸模型[44]。Wang和Zhong[40]以及Yang等人[20]分別構(gòu)建了非光滑和光滑的非凸最小二乘損失來提升傳統(tǒng)最小二乘支持向量機(jī)的魯棒性。Li和Zhou根據(jù)熵懲罰函數(shù)提出了光滑非凸最小二乘損失,從而構(gòu)建了魯棒最小二乘支持向量模型[45]。王等人提出了一種基于非凸Ramp損失函數(shù)的魯棒最小二乘支持向量機(jī),并采用凹凸過程對非凸優(yōu)化問題進(jìn)行優(yōu)化[46]。孫等人兼顧稀疏性和魯棒性,設(shè)計(jì)了一種新穎的魯棒非凸損失函數(shù),并基于這種損失提出了一種新的支持向量回歸機(jī),即魯棒雙子支持向量回歸[47]。Chen等人認(rèn)為當(dāng)誤差較大時(shí),損失值變?yōu)?,從而提出一種完全對異常點(diǎn)魯棒的損失函數(shù),即修剪的Huber損失函數(shù),并根據(jù)該損失函數(shù)構(gòu)造了魯棒的支持向量回歸模型[48]。一些典型的非凸損失函數(shù)如表3所示。
表3 非凸損失函數(shù)Tab.3 Non-convex loss functions
上述討論的絕大多數(shù)損失函數(shù),其中包括凸損失函數(shù)和非凸損失函數(shù),都是對稱的損失函數(shù)。然而,在一些特定的任務(wù)下,如能源領(lǐng)域[49]和經(jīng)濟(jì)學(xué)領(lǐng)域[50],噪聲分布具有非對稱的特性。因此,用上述對稱的損失函數(shù)并不能很好地描述這一特性。因此,很多學(xué)者提出了基于非對稱損失的魯棒回歸模型。
最常見的基于非對稱損失構(gòu)建的回歸模型是由Koenker和Bassett提出的分位數(shù)回歸模型,它使用的損失為非對稱Laplace損失,也稱為Pinball損失[51]。在傳統(tǒng)的分位數(shù)回歸的基礎(chǔ)上,很多學(xué)者基于Pinball損失提出了許多新的分位數(shù)回歸方法[52-53]。然而,上述分位數(shù)回歸模型是線性模型。因此,一些學(xué)者提出了非線性分位數(shù)回歸,如分位數(shù)神經(jīng)網(wǎng)絡(luò)[54]和分位數(shù)支持向量回歸模型[55-57]。Takeuchi和Furuhashi[55]認(rèn)為非對稱損失函數(shù)中都包含了一個(gè)關(guān)于0左右對稱的不敏感帶。然而,Seok等人認(rèn)為不敏感帶也是非對稱的,從而構(gòu)建了非對稱支持向量回歸模型[58]。受Pinball損失的啟發(fā),Newey和Powell等人提出了非對稱最小二乘損失,從而構(gòu)建了Expectile回歸模型[59]。在此基礎(chǔ)上,很多學(xué)者根據(jù)非對稱最小二乘損失提出了不同的回歸模型[60-62]。Farooq和Steinwart[62]以及Wang等人[61]提出了基于非對稱最小二乘損失的支持向量回歸模型,而Choi等人[63]以及Huang等人[64]提出了基于非對稱最小二乘損失的最小二乘支持向量機(jī)。此外,Balasundaram和Meena提出利用非對稱Huber損失和非對稱Huber-ε不敏感損失來構(gòu)建支持向量機(jī)[65]。Stockman等人提出了只有單邊不敏感帶的非對稱支持向量回歸模型[66]。一些典型的非對稱損失函數(shù)如表4所示。
表4 非對稱損失函數(shù)
除了通過構(gòu)造損失函數(shù)來構(gòu)建魯棒模型外,也可以通過合適的貝葉斯噪聲先驗(yàn)來構(gòu)建魯棒回歸模型。通常,為了方便計(jì)算,給定噪聲高斯分布先驗(yàn),并假定每個(gè)樣本獨(dú)立同分布,如高斯過程[67],貝葉斯Lasso[68]以及貝葉斯線性回歸[69]等。然而,在開放環(huán)境下,由于數(shù)據(jù)噪聲或者異常數(shù)據(jù)等原因,真實(shí)的噪聲分布并不滿足高斯分布。
當(dāng)存在異常點(diǎn)時(shí),由于此處的回歸誤差較大,使得總體的誤差分布呈現(xiàn)出重尾特性。因此,給定噪聲重尾分布先驗(yàn),包括學(xué)生t分布和Laplace分布,可以增強(qiáng)回歸模型的魯棒性[70]。Tipping假定噪聲服從學(xué)生t分布,從而提出了魯棒的相關(guān)向量機(jī)模型[71];Jylanki等人將高斯過程中高斯噪聲分布假設(shè)替換為學(xué)生t分布,從而構(gòu)建了魯棒的高斯過程回歸模型[72];李等人也假定數(shù)據(jù)中的噪聲不服從高斯分布而服從學(xué)生t分布[73];Ning等人將貝葉斯極限學(xué)習(xí)機(jī)中的高斯誤差分布假設(shè)替換為兩個(gè)重尾噪聲分布,即Laplace和學(xué)生t分布,從而構(gòu)建了兩個(gè)貝葉斯魯棒極限學(xué)習(xí)機(jī)模型[74]。除了對稱的重尾噪聲分布以外,也有一些學(xué)者假定噪聲分布是非對稱的分布,包括非對稱Laplace分布[75]、非對稱的指數(shù)冪分布[76],非對稱的學(xué)生t分布[77]等。另外,為了刻畫現(xiàn)實(shí)當(dāng)中的復(fù)雜噪聲特性,也有很多學(xué)者提出使用混合概率分布的噪聲假設(shè)來構(gòu)建魯棒模型,如混合高斯分布[10,78]、混合學(xué)生t分布[79]、混合非對稱指數(shù)冪分布[80]以及混合非對Laplace分布[81]等。
根據(jù)貝葉斯定理,我們可以推導(dǎo)出噪聲分布和損失函數(shù)之間的一一對應(yīng)的關(guān)系[1,39]。因此,基于噪聲分布先驗(yàn)的魯棒策略在一定程度上與基于魯棒損失函數(shù)的魯棒策略等價(jià)。Hu等人也根據(jù)噪聲分布和損失函數(shù)之間的關(guān)系推導(dǎo)出了噪聲服從異方差高斯分布時(shí)相應(yīng)的損失函數(shù),該損失函數(shù)相當(dāng)于在原有的l2損失函數(shù)前加了一個(gè)權(quán)重[9]。因此,基于異方差噪聲分布假設(shè)的魯棒建模方法與基于加權(quán)函數(shù)的魯棒建模方法在一定程度上是等價(jià)的。綜上所述,根據(jù)貝葉斯定理,基于合適的噪聲分布先驗(yàn)的魯棒策略在一定程度上與其他兩種魯棒建模策略是關(guān)聯(lián)的。
基于數(shù)據(jù)預(yù)處理的魯棒回歸建模方法基本都是利用現(xiàn)有的方法構(gòu)建魯棒模型,建模思路簡單。該類方法是兩步魯棒建模方法。因此,最終的預(yù)測結(jié)果會(huì)受到第一步處理后的數(shù)據(jù)質(zhì)量的影響。此外,任意數(shù)據(jù)預(yù)處理的方法都可能存在誤差,并不能保證異常點(diǎn)或數(shù)據(jù)噪聲都被去除。因此處理后的數(shù)據(jù)中還有一定的概率包含有異常點(diǎn)或噪聲。當(dāng)直接用現(xiàn)有的回歸模型對處理后的數(shù)據(jù)進(jìn)行回歸分析時(shí),仍然存在真實(shí)噪聲分布與回歸模型中的噪聲分布假設(shè)不一致的風(fēng)險(xiǎn)。
基于魯棒策略的魯棒回歸建模方法的主要思想是通過構(gòu)建新的魯棒回歸方法來自動(dòng)地實(shí)現(xiàn)對異常點(diǎn)或噪聲的魯棒效果,無需利用數(shù)據(jù)預(yù)處理的方法。此種方法從實(shí)現(xiàn)的角度來說較基于數(shù)據(jù)預(yù)處理的魯棒回歸建模方法簡單,因?yàn)榍罢呤且徊綄?shí)現(xiàn)魯棒效果,不存在第一步數(shù)據(jù)處理結(jié)果對后面回歸結(jié)果的影響。然而,不論是通過構(gòu)造加權(quán)函數(shù),還是構(gòu)造魯棒損失函數(shù)以及采用合適的噪聲分布先驗(yàn)的方法來構(gòu)建魯棒回歸模型,復(fù)雜的模型形式會(huì)導(dǎo)致模型優(yōu)化起來相對困難,且模型的復(fù)雜度變高,模型的訓(xùn)練時(shí)間一般會(huì)比初始回歸模型長。
第一類魯棒回歸建模的策略中并沒有考慮數(shù)據(jù)中的噪聲特性,從而也沒有考慮使用數(shù)據(jù)預(yù)處理方法的合理性以及使用現(xiàn)有回歸模型進(jìn)行直接回歸分析的合理性。第二類魯棒回歸建模的策略中盡管考慮了噪聲的特性構(gòu)建了魯棒回歸模型,但是在實(shí)際中噪聲未知且相對復(fù)雜,現(xiàn)有的方法并未考慮了噪聲的全部特性,而只是根據(jù)噪聲的某些特性(如對稱性以及重尾特性)構(gòu)建了魯棒回歸模型,并沒有刻畫出現(xiàn)實(shí)當(dāng)中復(fù)雜噪聲的全部特性。
開放環(huán)境下所收集到的數(shù)據(jù)中會(huì)包含很多的不確定性,這給傳統(tǒng)的回歸建模帶來了很大的挑戰(zhàn)。通過本文的綜述發(fā)現(xiàn)當(dāng)前存在兩大類魯棒回歸建模的方法:基于數(shù)據(jù)預(yù)處理的魯棒回歸建模方法和基于魯棒策略的魯棒回歸建模方法。前者直接利用現(xiàn)有的數(shù)據(jù)預(yù)處理方法去除數(shù)據(jù)中的噪聲或異常點(diǎn)對回歸建模的影響。而后者是通過考慮數(shù)據(jù)中存在噪聲或異常點(diǎn)時(shí)回歸模型中原有假設(shè)的相應(yīng)變化,從而構(gòu)建出直接對數(shù)據(jù)噪聲或異常點(diǎn)魯棒的回歸模型。上述兩類回歸建模方法也各有優(yōu)劣。前者魯棒建模思路簡單,但預(yù)處理數(shù)據(jù)的質(zhì)量會(huì)影響后面的回歸分析結(jié)果。后者可以在學(xué)習(xí)的過程中自適應(yīng)地實(shí)現(xiàn)對噪聲或異常點(diǎn)的魯棒,但模型本身往往比較復(fù)雜。
在復(fù)雜環(huán)境下,可將上述兩種策略相結(jié)合來進(jìn)一步提升回歸模型對復(fù)雜噪聲和異常點(diǎn)的魯棒性。另外,在數(shù)據(jù)預(yù)處理的方法中也可以將數(shù)據(jù)的噪聲特性考慮進(jìn)來,從而進(jìn)一步提高數(shù)據(jù)預(yù)處理模型對真實(shí)數(shù)據(jù)噪聲的適應(yīng)能力,進(jìn)而實(shí)現(xiàn)較好的去噪效果。針對基于魯棒策略的魯棒回歸建模方法,當(dāng)前的一些噪聲假設(shè)可能無法描述現(xiàn)實(shí)當(dāng)中的復(fù)雜噪聲分布形式,為了解決上述問題,①可提出更加復(fù)雜的混合噪聲分布假設(shè)以及復(fù)雜的分層的混合噪聲分布假設(shè)來解決上述問題;②將復(fù)雜噪聲分布通過映射的方式將其轉(zhuǎn)化為簡單噪聲,然后采用簡單的回歸建模方法進(jìn)行回歸分析。