李勝男,楊聯(lián)強,潘東輝,沈 燕
(安徽大學 數(shù)學科學學院,合肥 230601 )
經(jīng)典的均值回歸、中位數(shù)回歸和分位數(shù)回歸模型分別估計條件分布的期望、中位數(shù)和分位數(shù)這些數(shù)字特征。但是,當數(shù)據(jù)的分布是多峰、重尾、有偏或存在離群值的情況下,這些模型的表現(xiàn)往往不夠讓使用者滿意,尤其在穩(wěn)健性方面表現(xiàn)不足。當今大數(shù)據(jù)時代,數(shù)據(jù)結(jié)構(gòu)日益復雜,噪聲源也形式多樣,其分布往往遠離經(jīng)典情形下的正態(tài)性假定,此時,模型的穩(wěn)健性就非常重要。因此,近年來流行的眾數(shù)回歸模型因其穩(wěn)健性而被人們所關(guān)注,并且被成功的應用到實際問題研究中,例如溫度數(shù)據(jù)的分析和預測[1],交通工程的速度流分析[2],阿爾茨海默癥[3]的預測等。
而關(guān)于眾數(shù)估計的理論研究,最早可以追溯到20世紀60年代 Parzen[4]的開創(chuàng)性工作,該方法給出的帕森窗方法為核密度估計和眾數(shù)估計拉開了帷幕。而關(guān)于眾數(shù)回歸方法的研究,由Sager和Thisted[5]首次提出參數(shù)眾數(shù)回歸模型,然后Collomb[6]得到該估計量的一致收斂性質(zhì);Lee[7]用0-1損失函數(shù)得到了眾數(shù)回歸估計量并證明了其強一致性;Wharton[8]等人提出了估計局部條件眾數(shù)的方法;Herrmann和Ziegler[9]通過核密度估計研究了密度函數(shù)眾數(shù)的非參數(shù)估計問題;Einbeck和Tutz[10]給出了一種改進的MS(Mean Shift)算法來進行眾數(shù)回歸模型的估計;Yao[11]提出了一種非參數(shù)回歸模型中回歸函數(shù)的局部眾數(shù)估計方法;Yao和Li[12]則研究了局部線性眾數(shù)回歸模型的理論性質(zhì);Sasaki[13]應用MS算法提出了通過直接估計對數(shù)密度梯度來尋找眾數(shù)實現(xiàn)聚類;Chen[14]則對非參數(shù)眾數(shù)回歸模型的解在流形意義下給出了深刻的研究;Chen[15]也對眾數(shù)估計及眾數(shù)回歸模型的研究歷史和現(xiàn)狀進行了全面的總結(jié)。
上述這些解法大都依賴于核密度估計,通常是借助核密度估計得到聯(lián)合或條件密度函數(shù),然后使用只有在核函數(shù)取高斯核時才可以得到的梯度上升迭代解法。但是,正如Sasaki[16]指出,這些方法將囿于核密度估計的原理,存在邊界效應差、非全局最優(yōu)、效率低等缺陷,而且一個效果好的密度估計方法并不一定是效果好的密度導數(shù)估計方法等。于是他們提出了一種直接估計對數(shù)密度導數(shù)進而估計條件眾數(shù)的方法。本文則提出一種完全由數(shù)據(jù)驅(qū)動的眾數(shù)回歸模型估計方法,該方法從眾數(shù)的本質(zhì)特征出發(fā),通過搜索最優(yōu)覆蓋區(qū)間,來確定條件眾數(shù)。整個過程不依賴于核密度估計,也不依賴于梯度上升算法。在模擬和實際應用中,該方法表現(xiàn)良好,計算過程簡潔,估計效果優(yōu)良。本文內(nèi)容結(jié)構(gòu)如下:第一節(jié)給出眾數(shù)回歸模型理論及PMS算法簡介,第二節(jié)提出一種新的完全由數(shù)據(jù)驅(qū)動的眾數(shù)回歸模型估計方法,第三節(jié)和第四節(jié)將分別給出模擬實驗和真實數(shù)據(jù)應用結(jié)果,第五節(jié)對該方法進行總結(jié)。
設(shè)有隨機向量(X,Y),其密度函數(shù)為p(x,y)。眾數(shù)回歸模型是估計在給定輸入變量X的條件下輸出變量Y的密度函數(shù)p(y|x)的眾數(shù),即回歸函數(shù)M(x)=Mode(Y|X=x),假設(shè)M(x)存在且唯一,等價的,
進一步,在X=x固定時,也等價于
給定觀測值(xi,yi),i=1,...,n.眾數(shù)回歸函數(shù)估計流行的PMS(Partial Mean Shift)算法[2]是基于核密度估計和梯度上升的一種方法,本質(zhì)上是MS算法在條件眾數(shù)估計上的推廣,具體實現(xiàn)可分成兩個步驟:首先,用核密度估計表示聯(lián)合密度:
這里m表示歸一化常數(shù),K表示核函數(shù),hx和hy為帶寬。其次,將核函數(shù)取為高斯核,‖?‖表示歐式范數(shù),則由上式關(guān)于y的一階條件可以得到如下迭代關(guān)系式:
(1)
由上述過程可知,PMS算法的原理是基于核密度估計以及梯度上升迭代法得到條件眾數(shù)的估計量。因此,該方法必然蘊含上節(jié)所述的源于核密度估計和梯度上升迭代法的缺陷。
從眾數(shù)的本質(zhì)屬性出發(fā)來解釋本文給出的眾數(shù)回歸函數(shù)的估計方法。眾數(shù)回歸函數(shù)刻畫的是在給定X=x時,隨機變量Y的密度函數(shù)的最大值點M(x),也就是說,此時,隨機變量Y以最大的概率取值M(x)。因此,從實驗觀察的角度來看,此時應該有最多頻數(shù)的Y觀測點出現(xiàn)在M(x)附近。直觀上來刻畫這種現(xiàn)象,就是在X=x附近,如果將一個恰當?shù)墓潭ㄩL度的小區(qū)間,沿著平行于Y取值的方向移動,當小區(qū)間中心位置移動到M(x)時,該小區(qū)間對觀測值Yi有最大的覆蓋率。根據(jù)這種眾數(shù)回歸函數(shù)的本質(zhì)屬性的直觀解釋,我們構(gòu)造完全由數(shù)據(jù)驅(qū)動的眾數(shù)回歸模型的解法如下。
在給定的x處,首先,我們選定一個帶寬hx,并以區(qū)間[x-hx,x+hx]來刻畫x附近,再選定一個帶寬hy,構(gòu)造d個長度為2hy的區(qū)間Dj=[mj-hy,mj+hy],其中
(2)
(3)
這里I(·)是示性函數(shù)。
(4)
現(xiàn)給出以上過程中超參數(shù)的選取法則。理論上,通過多重交叉驗證法則來進行超參數(shù)選取,可以取得更令人滿意的估計效果,但在實際應用中,特別是數(shù)據(jù)量較大和超參數(shù)個數(shù)較多時,交叉驗證選取法則要付出巨大的計算成本。因此,所謂的經(jīng)驗法則(拇指法則)在實際應用中被頻繁使用。本文方法所用到的超參數(shù)hx,hy和d選取經(jīng)驗法則如下:
(5)
其中[?]表示取整函數(shù)。
至此,將完全數(shù)據(jù)驅(qū)動的眾數(shù)回歸函數(shù)估計方法總結(jié)如下,
step1. 按(5)計算超參數(shù)hx,hy和d的取值;
step2. 按(2)計算mj,j=1,...,d;
首先,通過三個模擬來展現(xiàn)完全數(shù)據(jù)驅(qū)動的眾數(shù)回歸模型估計方法的擬合效果,并與PMS算法擬合效果進行比較,在每個例子中超參數(shù)選擇按照上一節(jié)介紹的準則來進行,擬合效果圖分別見圖1、2、3。
例1根據(jù)函數(shù)yi=5sin(20xi)+εi生成數(shù)據(jù),樣本xi從均勻分布(1,1.5)中抽取,樣本容量為200,εi從均值為0,方差為0.5的正態(tài)分布中抽70%的樣本點,從均值為-3,方差為0.5的正態(tài)分布中抽30%的樣本點,估計效果圖見圖1。
(a)
例2根據(jù)函數(shù)yi=sin(πxi)/xi+εi生成數(shù)據(jù),樣本xi從均勻分布(-3,3)中抽取,樣本容量為200,εi從均值為0,方差為0.5的正態(tài)分布中抽取90%的樣本點,剩下10%從均值為1,方差為1.5的正態(tài)分布中抽取,作為混入的離群點,估計效果圖見圖2。
(a)
例3 根據(jù)函數(shù)yi=-20xi4(xi2-1)exp(xi)+εi生成數(shù)據(jù),樣本xi從均勻分布(-1,1)中抽取,樣本容量為200,εi從自由度為4的t分布中抽90%,剩下10%從自由度為1的t分布中抽取,作為混入的離群點,估計效果圖見圖3。
(a)
從圖3中可以看出,本文提出的完全數(shù)據(jù)驅(qū)動的眾數(shù)回歸模型估計方法可以很好的刻畫出數(shù)據(jù)的原本特征,估計效果良好。本文還將PMS算法與完全數(shù)據(jù)驅(qū)動的眾數(shù)回歸模型估計方法做了簡單對比,發(fā)現(xiàn)兩者所用時間在參數(shù)選取適當?shù)臅r候并沒有太大差別,效果也并無太大差別,因此在只利用樣本點,不借助任何工具的條件下完全數(shù)據(jù)驅(qū)動的眾數(shù)回歸模型估計方法更有優(yōu)勢。另外,見例2和例3,分別在數(shù)據(jù)中隨機混入離群點。此時,我們知道通常的均值回歸模型的表現(xiàn)會較差,受離群點影響很大,但由圖2和圖3中的(b)、(c)可以看出,眾數(shù)回歸模型依舊可以擬合出貼近真實圖像的曲線,由此也驗證了眾數(shù)回歸模型確實具有較好的穩(wěn)健性。
本節(jié)將完全數(shù)據(jù)驅(qū)動的眾數(shù)回歸模型估計方法應用于真實數(shù)據(jù):加利福尼亞州不間斷高速公路3車道速度流(數(shù)據(jù)來源見參考文獻[2])。數(shù)據(jù)中包含1 318個樣本,以流量作為自變量,速度作為響應變量,估計結(jié)果見圖4,由圖4可以看出完全數(shù)據(jù)驅(qū)動的眾數(shù)回歸模型估計方法擬合效果良好。
圖4 加利福尼亞州不間斷高速公路3車道速度流散點圖.完全數(shù)據(jù)驅(qū)動的眾數(shù)回歸模型估計方法擬合函數(shù)(實線),PMS算法擬合結(jié)果(加號).
基于對PMS算法的新理解,提出了完全數(shù)據(jù)驅(qū)動的眾數(shù)回歸模型估計方法,從數(shù)據(jù)本身出發(fā),充分利用所給樣本數(shù)據(jù),不借助核密度或任何外部條件來進行擬合估計,做到完全由數(shù)據(jù)驅(qū)動。從上面的三個模擬實驗以及真實應用中也可以看出這種算法擬合出來的曲線跟真實曲線差別并不大,表現(xiàn)良好。希望在后續(xù)的研究中可以繼續(xù)挖掘這種方法的其他優(yōu)點并且推廣到實際應用中。