吳修平
(重慶師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,重慶 401331)
Hansen[1-3]和Wan[4]對頻率模型平均(Frequency model average,FMA)的發(fā)展做出了巨大貢獻(xiàn).FMA方法一定程度上解決了模型的不確定性帶來的一些問題,但是大部分FMA文獻(xiàn)其對子模型的估計(jì)是不穩(wěn)健的.分位數(shù)回歸(Quantile Regression, QR)[5-6]是解決估計(jì)不穩(wěn)定的有效工具.在現(xiàn)有的FMA研究中,Lu[7]通過刪除交叉驗(yàn)證方法給QR模型分配權(quán)值,并證明了該方法的漸近最優(yōu)性.Wang[8]將分位數(shù)回歸的刀切模型拓展到高維協(xié)變量的情況.Zou[9]提出的復(fù)合分位數(shù)回歸(CQR)方法是對傳統(tǒng)分位數(shù)回歸方法的有效擴(kuò)展.最近許多論文考慮了CQR方法的應(yīng)用.Jiang[10]將CQR方法擴(kuò)展到單指標(biāo)模型,Jiang[11]采用加權(quán)CQR方法研究了非線性模型的模型選擇,并分別討論了其方法的理論性質(zhì).Zhao[12]通過CQR構(gòu)建回歸模型的有效估計(jì)器,并證明所提出的估計(jì)器的漸近方差在適當(dāng)條件下接近克拉默-拉奧下界.Guo[13]考慮一種平均邊際回歸的懲罰復(fù)合分位數(shù)模型,提出了一種魯棒的超高維半?yún)?shù)模型平均方法,并證明其漸近最優(yōu)性.然而,針對所有子模型都可能是錯(cuò)誤指定的情況,在文獻(xiàn)中少有考慮將CQR擴(kuò)展到模型的平均模型方法.受上述文獻(xiàn)啟發(fā),本文使用復(fù)合分位數(shù)回歸估計(jì)子模型,用最小二乘來選擇各子模型的權(quán)重.
本文對模型設(shè)置的描述遵循了Hansen[1]的符號.在適當(dāng)?shù)那闆r下,本文將指出這兩種設(shè)置的差異.令{yi}i∈n∈R和{xi|xi=(xi1,xi1,…)}是可數(shù)無限的,真實(shí)數(shù)據(jù)生成過程遵循(Hansen[1]和Wan[4])的設(shè)定,
(1)
其中ei~N(0,σ2)且獨(dú)立于xi.
本文考慮一系列近似模型m=1,2,…,M,其中第一個(gè)子模型使用屬于xi的任意一個(gè)回歸變量,第m個(gè)子模型的回歸變量選用前(m-1)個(gè)子模型所用的回歸變量加上屬于x的任意一個(gè)回歸變量,則第m個(gè)近似模型為
其中xi1(m),xi2(m),…是第m個(gè)近似模型中回歸變量,θmj是相應(yīng)的回歸系數(shù).
不同于mallows模型平均(Mallows Model Averaging,MMA)中對近似模型用最小二乘去估計(jì)子模型回歸系數(shù).考慮候選模型可能都是錯(cuò)誤指定的,用最小二乘去估計(jì)子模型,預(yù)測可能不夠穩(wěn)健,所以本文先用復(fù)合分位數(shù)回歸去獲得第m個(gè)近似模型的回歸系數(shù).這里與MMA嵌套模型中需要對回歸變量顯式排序不同的是,該方法可以不用考慮引用回歸變量的排列順序,具體原因之后會討論.CQMA的第m個(gè)近似模型中對回歸系數(shù)θmj的估計(jì)為
(2)
CQMA的第m個(gè)近似模型中,對u的估計(jì)為
(3)
不同于MMA中近似模型的權(quán)重被指定為
(4)
對于CQMA,本文指定其權(quán)重為
Hn={wm∈RM,∑wm=1},
(5)
其中w=(w1,w2,…,wM)′是M×1階矩陣,wm是對應(yīng)CQMA的第m個(gè)近似模型的所賦權(quán)重.u的CQMA估計(jì)為
(6)
CQMA的參數(shù)Θ估計(jì)為
(7)
(8)
(9)
(10)
引理1意味著
(11)
引理1也意味著{Ln(w(1))|{yi}i∈n∈R,x}?{Ln(w)|{yi}i∈n∈R,x}.則有如下關(guān)系成立:
(12)
這說明理論上用CQMA能達(dá)到的真實(shí)均方誤差不輸于MMA.
記MMA的權(quán)重選擇標(biāo)準(zhǔn)為
(13)
不同于用加懲罰的最小二乘和分位數(shù)損失函數(shù)去選擇權(quán)重,本文用最小二乘去選擇權(quán)重.針對所有候選模型都可能是錯(cuò)誤指定的情況,本文要去預(yù)測預(yù)測對象的均值,用分位數(shù)損失函數(shù)有效性弱于最小二乘,記CQMA的權(quán)重選擇標(biāo)準(zhǔn)為
(14)
其中可以證明EWn(w)=ELn(w)+nσ2,Wn(w)是模型平均真實(shí)均方誤差的期望加上一個(gè)常數(shù)的無偏估計(jì).在實(shí)踐中,對于MMA方法,σ2是未知的,MMA需要使用樣本去估計(jì)σ2的值,而且為了模型實(shí)現(xiàn)的方便性,MMA采用最大模型去估計(jì)σ2的值.而本文所提方法不用去估計(jì)σ2的值.可以證明EWn(w)=ELn(w)+nσ2,證明如下:
(15)
CQMA權(quán)重向量w的估計(jì)為
(16)
這是一個(gè)經(jīng)典的關(guān)于w的二次規(guī)劃問題,其數(shù)值算法很容易得到.可以利用R語言中的標(biāo)準(zhǔn)軟件包(如R語言中的quadprog包)來解決.
(17)
這里xm記為第m個(gè)近似模型中新引入的變量.記矩陣A為
(18)
(19)
對?b∈B,令
定理2由(12)、(13)、引理1可以推出使用CQMA方法得到的實(shí)際預(yù)測方差理論上不輸于使用MMA方法實(shí)際預(yù)測方差.
由Hansen[1]的引理1可知
結(jié)合引理1,容易推出
則有SnMMA>SnCQMA.
定理3當(dāng)n→∞,若?G(1≤G<∞),使得
(20)
(21)
則有
(22)
證明
由文獻(xiàn)[4]中定理1可知
(23)
(24)
再由關(guān)系(11)等式成立,推出
(25)
定理3證明了基于CQMA的估計(jì)的均方誤差依概率漸近等價(jià)于均方誤差的下確界,即CQMA估計(jì)是漸近最優(yōu)的.
本文運(yùn)用蒙特卡羅模擬研究了本文方法的有限樣本性能,并與現(xiàn)有方法進(jìn)行了比較.支撐信息包含了蒙特卡羅模擬的結(jié)果.
因?yàn)镠ansen[1]將MMA方法與AIC model selection (AIC), smoothed AIC (S-AIC)、smoothed BIC (S-BIC)等方法進(jìn)行了蒙特卡洛實(shí)驗(yàn)?zāi)M,結(jié)果表明MMA方法較好,且通過Hansen的模擬實(shí)驗(yàn)表明JMA與MMA方法在同方差問題中效果差距不大,所以本文僅考慮如下兩個(gè)估計(jì):
(1) Mallows模型平均(MMA);
(2)本文所提方法.
圖1 a=0.5,ei~N(0,1),n、M不同時(shí),CQMA、MMA方法的風(fēng)險(xiǎn)對比圖
圖1表明,當(dāng)樣本容量增大,候選模型增多時(shí)CQMA方法與MMA方法的預(yù)測精度差距縮小.總體而言CQMA方法優(yōu)于MMA方法.
當(dāng)所有預(yù)測候選模型都可能是錯(cuò)誤指定的情況,使用復(fù)合分位數(shù)方法估計(jì)子模型,用最小二乘來選擇各子模型的權(quán)重.嵌套模型中回歸變量的不同排序會影響估計(jì)效果,本文采用的方法在一定條件下優(yōu)化了估計(jì)效果,并在一定正則條件下,證明了該方法具有漸近最優(yōu)性.最后的數(shù)值實(shí)驗(yàn)結(jié)果驗(yàn)證了模型的優(yōu)良性.