黃收友,伍自浩
(湖北師范大學 數(shù)學與統(tǒng)計學院,湖北 黃石 435002)
其中H是假設(shè)空間,L(yi,f(xi))為損失函數(shù),在統(tǒng)計學習理論中,通常選擇平方損失函數(shù),則有
fz是未知真實函數(shù)的逼近。經(jīng)驗目標函數(shù)fz的泛化誤差可以表示為
ε(f)=EL(Y,f(X))
同樣選擇平方損失函數(shù),我們可以得到
其中ρ是X×Y上的未知概率分布。fz的泛化能力通常運用過度泛化誤差來刻畫,過度泛化誤差可以表示為
ε(fz)-ε(fφ)
其中fφ是可測函數(shù)空間φ上的最小泛化誤差,即
備注1 在溫和條件下,fφ將很好地逼近未知的真實函數(shù),如果假設(shè)空間φ足夠大,則過度泛化誤差將任意小,在統(tǒng)計學習理論中,通常選用連續(xù)空間的緊子集。
顯然,僅有過度泛化誤差不足以刻畫問題,我們不妨假設(shè)可加線性模型[1]如下
Y=f*(X)+ε
其中ε為噪聲,且當滿足E(ε|x)=0時,可加線性模型中的未知真實函數(shù)就是條件均值函數(shù),換句話說,f*(X)=E(Y|X).
在統(tǒng)計學習理論框架中,回歸問題已被廣泛研究[2]。在學習過程中,通常需要面對面風險損失,尤其是經(jīng)驗風險。為了取得更好的學習率,常常為考慮經(jīng)驗風險最小化[3,4]。而進行經(jīng)驗風險最小化過程中,又很容易出現(xiàn)過擬合現(xiàn)象,為更好刻畫誤差,通常會結(jié)合正則化的方法來處理問題,這也是我們常說的結(jié)構(gòu)風險最小化[5]。
然而,在處理現(xiàn)實問題中,常常遇到異常值點或離異值點,會成為研究中的棘手問題,為此不得不采用穩(wěn)健估計的方法,目前已經(jīng)有許多這方面的研究[6~10]。
在本文中,我們定義穩(wěn)健最小經(jīng)驗風險函數(shù)為
其中σ是正尺度參數(shù),損失函數(shù)為
類似的,我們可以得到
ε(f)=EL(y,f(x);y′,f(x′))
其中(x,y)∈,(x′,y′)∈.
在這一部分中,我們將闡述過度泛化誤差與預測誤差間的關(guān)系,并證得一個比較定理,有效地刻畫了學習問題中泛化能力與預測能力,以及它們間的上界。
假設(shè)1 存在一個常數(shù)α>0, 使得下述不等式成立
E|Y|1+α<+∞
(1)
備注2 需要特別指出的是:在統(tǒng)計學習理論框架下,常見的矩估計條件至少是二階或者更高階的,即:E|Y|q<+∞,其中q≥2,本文將該條件弱化到1+α階。接下來,我們將闡述穩(wěn)健經(jīng)驗風險最小化的泛化能力與其預測能力之間的關(guān)系,也就是本文主要結(jié)論。
定理1 設(shè)f*∶τ→是條件均值函數(shù)f*(X)=E(Y|X),以M為界。假設(shè)矩條件(1)成立,若σ>1,對于任何可測量的函數(shù)f*∶τ→以及‖f‖∞≤M,則有
(2)
其中,對于任何正數(shù)α,θα的取值為
θα=min{α,2}
且常數(shù)CH,α為
CH,α=8M[(M+1)E|Y|1+α+12M3]
證明 對于任何σ>1,不失一般性,假設(shè)兩個事件ⅠY和ⅡY如下:
ⅠY={y-y′∶|y-y′|≥σ}
以及
ⅡY={y-y′∶|y-y′|<σ}
注意到
從而可得
由于Pr(ⅠY)可以通過運用馬爾可夫不等式求得有界,即
(3)
進而可得
另一方面
(4)
結(jié)合Holder不等式和不等式(3),則有
從而可得
(5)
接下來,我們將刻畫第二部分的界,即
為此,我們不妨設(shè)
Fσ(s)=Lσ(s)-s2
從而上式可表示為
一方面,運用均值定理,則有
Fσ((y-y′)-(f(x)-f(x′)))-Fσ((y-y′)-(f*(x)-f*(x′)))
另一方面,根據(jù)定義可知
進而利用均值定理,可得
從而可得
(6)
結(jié)合(4),(5)和(6),我們可得
其中θα=min{2,α}且CH,α=8M[(M+1)E|Y|1+α+12M3]
本文研究了最小風險的誤差估計。不僅將矩估計條件弱化到1+α階,而且刻畫了過度泛化誤差與預測誤差間的關(guān)系,運用比較定理闡明了它們間的上界,并為進一步研究學習率提供必要的理論準備。