吳 昊,趙培信*,2,黃海霞
(1.重慶工商大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院;2.經(jīng)濟(jì)社會(huì)應(yīng)用統(tǒng)計(jì)重慶市重點(diǎn)實(shí)驗(yàn)室,重慶 南岸 400067)
隨著科學(xué)技術(shù)的發(fā)展和數(shù)據(jù)采集技術(shù)的提高,在生物醫(yī)學(xué)、環(huán)境工程等領(lǐng)域常常出現(xiàn)以函數(shù)曲線形式的函數(shù)型數(shù)據(jù).關(guān)于函數(shù)型數(shù)據(jù)的統(tǒng)計(jì)推斷越來(lái)越受到關(guān)注,并且已有大量文獻(xiàn)進(jìn)行研究.Yao等[1]研究了函數(shù)型線性模型的估計(jì)方法,Müller和Stadtmüller[2]研究了函數(shù)型廣義線性模型的估計(jì)問題,Sentürk和Müller[3]研究了函數(shù)型變系數(shù)模型的估計(jì)問題.關(guān)于函數(shù)型部分線性模型的統(tǒng)計(jì)推斷問題,Shin[4]對(duì)模型的參數(shù)提出了一種估計(jì)方法,Lu等[5]則推廣了文獻(xiàn)[4]的估計(jì)方法,并提出了一種分位數(shù)回歸方法.另外,Kong等[6]則利用懲罰最小二乘方法研究了函數(shù)型部分線性模型的變量選擇問題.
注意到在統(tǒng)計(jì)建模過(guò)程中,如果忽略某些重要變量或者引入過(guò)多的冗余變量都會(huì)導(dǎo)致估計(jì)和預(yù)測(cè)的精度下降,因此變量選擇問題是統(tǒng)計(jì)建模過(guò)程的一個(gè)重要組成部分.盡管Kong等[6]研究了函數(shù)型部分線性模型的變量選擇問題,但其所用的懲罰最小二乘方法對(duì)異常點(diǎn)較敏感,各別異常值則會(huì)帶來(lái)較大的估計(jì)偏差,從而影響變量選擇的精度.為此,本文對(duì)函數(shù)型部分線性模型的變量選擇問題,提出了一種基于懲罰絕對(duì)偏差的變量選擇方法,并且模擬結(jié)果表明該方法具有較好的穩(wěn)健性.
記X(t)為來(lái)自半度量函數(shù)型空間(H,d)的函數(shù)型協(xié)變量,Z=(Z1,…,Zp)T為來(lái)自p維歐氏空間Rp的p維協(xié)變量,Y為對(duì)應(yīng)的響應(yīng)變量,那么函數(shù)型部分線性模型具有如下結(jié)構(gòu):
(1)
其中β=(β1,...,βp)T為未知參數(shù)向量,m(·)表示H→R的一個(gè)光滑算子,ε為模型誤差,且滿足E(ε|Z,X(t))=0.對(duì)模型(1)兩邊在給定X(t)的條件下取條件期望得:
E(Y|X(t))=E(Z|X(t))Tβ+m(X(t))
(2)
結(jié)合(1)和(2)式可得
Y-E(Y|X(t))=(Z-E(Z|X(t)))Tβ+ε
(3)
(4)
其中K(·)是核函數(shù),h是帶寬,d(·,·)表示半度量空間?上的半度量距離.進(jìn)而E(Y|X(t))和E(Z|X(t))的非參數(shù)核估計(jì)可定義為
(5)
(6)
注意到目標(biāo)函數(shù)Q(β)關(guān)于β在0點(diǎn)不可導(dǎo),經(jīng)典的梯度方法不能用于目標(biāo)函數(shù)Q(β)的求解.為此,接下來(lái)我們討論最小化目標(biāo)函數(shù)Q(β)的計(jì)算方法.結(jié)合Zou和Li[10]提出的線性逼近方法,(6)式中的懲罰函數(shù)pλ(|βk|)可以漸近表示為
(7)
(8)
其中ξk=(0,…,1,…0)T為第k個(gè)元素為1,其他元素均為0的p維單位向量.那么(8)式可寫為
(9)
注意到(9)式為經(jīng)典的最小一乘估計(jì)目標(biāo)函數(shù),因此可以通過(guò)已有的統(tǒng)計(jì)軟件(如R軟件、SPSS軟件等)進(jìn)行求解.另外在求解(9)式的過(guò)程中,調(diào)整參數(shù)λ需要指定,并且參數(shù)向量β需要給出一個(gè)初始估計(jì).首先我們可以通過(guò)最小化如下不帶懲罰項(xiàng)的絕對(duì)偏差目標(biāo)函數(shù)來(lái)得到β的一個(gè)初始估計(jì)
(10)
另外類似Wang等[11],本文通過(guò)最小化如下BIC準(zhǔn)則函數(shù)來(lái)得到λ的估計(jì).
為實(shí)施模擬,我們從如下模型產(chǎn)生數(shù)據(jù)
(11)
其中β=(2,1,0.5,0,…,0)T為10維參數(shù)向量,對(duì)應(yīng)的協(xié)變量Zk~N(1,1.5),k=1,…,10.由β的前三個(gè)元素非零,其他元素均為零可知Z1,Z2和Z3為三個(gè)重要的協(xié)變量,而Z4,…,Z10均為不重要的協(xié)變量.非參數(shù)算子m(x(t))取為
關(guān)于重要協(xié)變量的變量選擇模擬結(jié)果見表1和表2,其中“C”表示基于1000次重復(fù)實(shí)驗(yàn)把真實(shí)不重要協(xié)變量正確估計(jì)為不重要協(xié)變變量的平均個(gè)數(shù),“I”表示基于1000次重復(fù)實(shí)驗(yàn)把真正重要協(xié)變變量錯(cuò)誤估計(jì)為不重要協(xié)變量的平均個(gè)數(shù).另外,表1和表2還給出了選擇重要協(xié)變量的錯(cuò)誤選擇率(FSR),其定義為FSR=IN/TN,其中IN表示基于1000次重復(fù)實(shí)驗(yàn)把不重要協(xié)變量估計(jì)為重要協(xié)變量的平均個(gè)數(shù),TN表示基于1000次重復(fù)實(shí)驗(yàn)所有選擇為重要協(xié)變量的平均個(gè)數(shù).由表1和表2,我們可以得到如下結(jié)論:
(1)隨著樣本量n的增加,基于三種懲罰方法的重要協(xié)變量錯(cuò)誤識(shí)別率均逐漸趨于0,并且對(duì)不重要協(xié)變量的識(shí)別也逐漸趨于不重要協(xié)變量的實(shí)際個(gè)數(shù)7.這表明本文提出的重要協(xié)變量的選擇方法是行之有效的.
(2)對(duì)任意給定的樣本量n,在不同異常值數(shù)量下的模擬結(jié)果是類似的,即異常值對(duì)模擬結(jié)果沒有明顯的影響.這表明本文提出的變量選擇方法具有較好的穩(wěn)健性.
(3)當(dāng)樣本量較小時(shí),基于Adaptive- Lasso和SCAD給出的模擬結(jié)果優(yōu)于基于Lasso給出的模擬結(jié)果.但當(dāng)樣本量增大時(shí),基于三種懲罰方法給出的模擬結(jié)果是類似的.
表1 異常值占5%時(shí),基于不同懲罰函數(shù)的變量選擇模擬結(jié)果
表2 異常值占10%時(shí),基于不同懲罰函數(shù)的變量選擇模擬結(jié)果
接下來(lái)我們給出關(guān)于模型參數(shù)β估計(jì)精度的模擬結(jié)果.注意到在任意給定的樣本量下,基于不同的懲罰函數(shù)識(shí)別重要協(xié)變量的模擬結(jié)果是類似的.因此在接下來(lái)的模擬過(guò)程中,我們用Lasso懲罰選擇重要協(xié)變量.另外作為比較,我們還給出了關(guān)于β的懲罰最小二乘估計(jì)模擬結(jié)果,即通過(guò)最小化如下帶懲罰項(xiàng)的最小二乘目標(biāo)函數(shù)QLS(β)來(lái)得到β的估計(jì).
圖1 異常值占5%時(shí),模型參數(shù)β估計(jì)量GMSE的箱線圖
基于1000次重復(fù)實(shí)驗(yàn),圖1和圖2給出了GMSE在各種樣本量情況下的箱線圖(Box-plot),其中LAD表示本文提出的基于懲罰絕對(duì)偏差估計(jì)方法所給出的模擬結(jié)果,LS表示基于懲罰最小二乘估計(jì)方法所給出的模擬結(jié)果.由圖1和圖2可以看出,隨著樣本量的增加,基于本文提出的方法所給出的GMSE逐漸減小,而基于懲罰最小二乘估計(jì)方法給出的GMSE即使n增加時(shí)仍相對(duì)較大.這就表明本文提出的懲罰絕對(duì)偏差的估計(jì)過(guò)程可以有效地消除異常點(diǎn)的影響,從而對(duì)模型參數(shù)的估計(jì)具有相對(duì)較高的精度.另外,我們還可以看出對(duì)任意給定的樣本量n,在不同異常值數(shù)量下,基于本文提出方法的模擬結(jié)果是類似的.這表明本文提出的估計(jì)方法對(duì)模型參數(shù)的估計(jì)具有較好的穩(wěn)健性.
圖2 異常值占10%時(shí),模型參數(shù)β估計(jì)量GMSE的箱線圖
四川文理學(xué)院學(xué)報(bào)2022年2期