楊 清,張 奕
(浙江大學 數(shù)學科學學院,浙江杭州 310027)
結構變化廣泛存在于時間序列模型中,它的存在往往影響著模型擬合的精確度.如果已知變化的時間(變點),可以把整個時間段分成平穩(wěn)的小區(qū)間段,然后在每個平穩(wěn)區(qū)間上運用成熟的平穩(wěn)時間序列建模方法去更好地擬合模型.然而,實際應用中變點位置往往是未知.因此,變點估計成為一個重要的研究領域,很多學者在這方面作出了卓越貢獻,相關介紹參見Truong等人的綜述[1]及其中的參考文獻.
在非參回歸領域,一些學者已經(jīng)研究過均值變點問題,具體地,設是一個時間序列,且可表示為
其中未知函數(shù)g1≠g2,εt是誤差項.若εt滿足E[εt|Xt]=0,則k是條件均值函數(shù)由g1變?yōu)間2的時間點,稱為變點,即
為了估計變點k,Yang等人在文[2]中提出了一種基于對比的CUSUM(累計和)方法去檢測并估計變點位置;Mohr等人在文[3]中則利用了一種基于殘差的CUSUM方法來估計變點.然而,僅考慮條件均值去刻畫X對Y的影響是遠遠不夠的,特別是當誤差項呈現(xiàn)非對稱的重尾時.常見的重尾分布有Pareto分布,Weibull分布以及對數(shù)正態(tài)分布等.當處理這種數(shù)據(jù)時,模型的結構變化往往集中在尾部的變化,而均值卻變化不大.所以,均值變化不足以捕捉到實際模型的變化,這進一步導致根據(jù)均值變化去估計模型結構的變點是不可行的.
據(jù)此本文用非對稱的二次損失函數(shù)替代均值回歸中的對稱二次損失函數(shù),考慮在給定X=x的情況下Y的τ-expectile回歸(0<τ <1)
其中非對稱二次損失函數(shù)
根據(jù)Newey和Powell在文[4]的論證,expectile函數(shù)族{mτ(x):0<τ <1}能夠唯一確定一個條件分布,所以expectile回歸能更全面地刻畫X對Y的影響.特別是尾部的影響,譬如可取某些較極端的τ值,τ=0.95或者0.05.當τ=0.5時,Qτ變成一個對稱的二次損失函數(shù),此時E[Y|X=x]=m0.5(x).
綜上所述,本文通過expectile的變化來估計變點位置.為了保證模型的可識別性,在理論模型中,規(guī)定mτ(εt|Xt)=0(此時并沒有要求條件期望為零).根據(jù)expectile的平移可加性,可知Yt的條件τ-expectile為
本文假設已知Y的條件τ-expectile存在變化,目標是估計結構變化(2)中變點的位置k.§2首先表明了在結構變化(2) 下相應τ-expectile估計量的漸近正態(tài)性,并利用基于對比的CUSUM方法對變點進行了估計,最后得到了變點估計的相合性.§3的數(shù)值模擬表明,當通過均值變化不能很好地估計變點時,expectile能夠很好地捕捉到結構變化并準確估計結構變點.所有的證明放在§4.
要估計Yt的條件expectile的變點位置,首先需要對其條件expectile進行估計.采用一種簡單方便的估計方法,即Yao和Tong在文[5]中提出的局部線性方法:倘若無結構變化,設mτ(Yt|Xt=z)≡g(z),將g(z)在x的鄰域內(nèi)泰勒展開,然后獲得一個相應的逼近,即g(z)≈g(x)+q(x)(z ?x),其中q是g的一階導數(shù).因此可以通過最優(yōu)化如下的損失函數(shù)去估計(g(x),q(x))′
其中Qτ定義在式(1)中,K是一個核函數(shù),h是帶寬.
條件2.1當n趨于無窮時,帶寬h→0,logn/(nh)→0.變點,其中0<δ1≤s1≤δ2<1,s1,δ1,δ2是3個常數(shù).記s2=1?s1.
條件2.2是分段嚴平穩(wěn)序列,且是嚴平穩(wěn)的,其密度函數(shù)為p(x).設(i=1或2)(j=1或2),其中φj(y|x)(j=1,2)分別是變點前后給定X=x時Y的條件密度.規(guī)定p(x),(x)有連續(xù)導數(shù),聯(lián)合密度f(Xt,Yt,Xs,Ys)是有界的,且界不依賴于時間間隔|t ?s|.其中1≤t,s ≤n.
條件2.3假設是ρ-混合序列,即
條件2.4K是一個對稱的有界密度函數(shù),其支撐有界.此外令.
注2.1條件2.1是非參和變點文獻中常用的假設.條件2.2的分段平穩(wěn)和有界性能方便漸近性質的證明.由于g的變化,這個假設仍能夠允許誤差項的非平穩(wěn)性.條件2.3是為了使用文[6]的泛函中心極限定理.很多核函數(shù)能夠滿足條件2.4,譬如數(shù)值模擬小節(jié)中的Epanechnikov函數(shù).
當樣本存在變點時,接下來的定理表明了由公式(3)所得估計量的漸近正態(tài)性(在后文中,用表示任意函數(shù)f在x處的導數(shù)).
定理2.1記qi(x)(i=1,2)是gi(x)的導數(shù),(x)=s1g1(x) +s2g2(x),(x)=s1q1(x) +s2q2(x).在結構變化(2) 下,假設條件2.1-2.4成立,則對任意x ∈{u:p(u)>0},有
注2.2在做變點估計時,使用的樣本使用的可能包含有變點,此時需要定理2.1的幫助來表明變點估計的相合性.expectile函數(shù)在有限個格點上的差值的平方和可以方便地量化expectile變化的程度.格點的選取沒有嚴格限制,理論上只要它們能盡可能地分散在X的整個支撐上,就能很好地捕捉函數(shù)的變化.數(shù)值模擬選取了的最大值和最小值之間的50個等分點作為格點.權重t(n ?t)/n2的引進是為了緩解時間邊界效應:譬如,當t靠近1時,估計量使用的樣本是很少的,這就帶來了較大的估計偏差,進一步地影響了對T(t)最大值點的判斷.可以看到的是,權重t(n ?t)/n2對時間邊界處的統(tǒng)計量的值做了縮小處理.同理,為了避免這種時間邊界影響,理論分析時還會假設變點存在于非邊界區(qū)域,即δ1n ≤k ≤δ2n,0<δ1<δ2<1.
利用定理2.1中的收斂階,可以進一步表明變點估計的相合性,見如下的定理2.2.
定理2.2記?k是定義在式(4)中的變點估計.假設條件2.1-2.4成立,則
這一節(jié)首先考慮最優(yōu)問題(3)的迭代計算方法,然后進行數(shù)值模擬,說明當條件均值不變時,通過expectile能夠很好地估計結構變點.
通過解(5),可得如下的迭代算法.
假設上一步迭代的結果為a,b,設
通過式(5)可知,新的一步迭代結果為
所以最終的迭代結果應該滿足
根據(jù)文[5]的建議,模擬選取普通的最小二乘估計作為迭代的初始值.
這一子節(jié),為方便起見,始終獨立地生成簡單樣本Xt~N(0,0.12)和νt~N(0,1),并用如下方式生成Yt:Yt=Xt+0.01νt,1≤t ≤k;Yt=Xt ?e1/2+eνt,k 其中g1(x)=x+0.01mτ(νt),g2(x)=x ?e1/2+mτ(eνt),εt=0.01(νt ?mτ(νt))I(t≤k)+(eνt ?mτ(eνt))I(t>k).當τ≠0.5時,g1≠g2(即有一個常數(shù)漂移項).s1的不同取值能幫助分析變點在不同位置時估計方法的精確度.取式(4)中的時間左右端點δ1=0.2,δ2=0.8.核函數(shù)為Epanechnikov函數(shù),即 對于帶寬h的選擇,采用留一交叉驗證方法:假設是刪除第t個樣本后采用帶寬h′得到的條件τ-expectile估計,則帶寬選取為 對于格點,選取樣本最大小值之間的50個等分點.每種情況重復200次實驗.記200次重復試驗中的第j次試驗的變點估計為,定義變點估計的絕對偏差 記式(4)利用條件expectile估計變點的方法為M1,文[2]和文[3]利用條件均值估計變點的方法分別為M2,M3.文[2]和式(4)的估計方法類似,不同點在于對比的是條件期望而不是條件expectile.文[3]使用了累計殘差的方法去估計變點.具體的做法參見各自文獻. 在上述基本設定下,選擇不同參數(shù)進行試驗,并計算相應的ABias,見表1.由表1可知,若只用條件均值的變化去估計變點,這三種方法的估計偏差都很大.這是因為條件均值并未發(fā)生變化.但方法M1的好處在于,它還可以通過τ-expectile的變化進一步考慮Yt在尾部的變化,從而找到變點.由于相似性,僅取了τ=0.05,0.95的情況.可以看到,M1的估計精度有著明顯提高,當樣本量達到200且變點位于時間中心時,絕對偏差甚至能夠不足1%.而且,雖然通過均值估計變點時三種方法的偏差都很大,但M1的偏差要明顯小于M2,M3. 表1 在各種情況下三種變點估計方法的ABias 首先在條件2.1-2.4下,介紹一些需要使用的引理.在不影響理解的情況下,總是用c去記某一常數(shù),它在不同地方可能有不同的取值. 引理4.1(見[5,引理1,2]) (1)對于任意θ ∈R2有 引理4.2對任意θ ∈Ω ?R2,τ ∈(0,1)以及x ∈R,有Rn(θ)≡Rn(θ;τ,x)P→0. 證想要利用切比雪夫不等式去證明此結果,為此先討論Rn(θ)方差的極限. 由Rn(θ)和Gn(θ)的定義,可將Rn(θ)表示為如下形式 利用引理4.1(2),根據(jù)積分換元以及條件4.4可知 同樣由積分換元以及引理4.1(1),可知公式(6)第三項的通項的階為O(1/(n2h)),則滿足s ?t ≤logn的通項的和的階為O(nlogn/(n2h))=O(logn/(nh))=o(1).由混合假設可知 因此Var{Rn(θ)}=o(1). 由引理4.1(1)可知,ERn(θ)=o(1).所以對任意?,當n充分大時,有|ERn(θ)| ≤?/2.由切比雪夫不等式可知 引理4.3(見[5],引理4) 當n→∞,對j=1或者j=k+1, 其中是核函數(shù)K的二階矩,π=1I(j=1)+2I(j=k+1),γπ,的定義見定理2.1. 引理4.4當n→∞,有 對于上述方差分解式的第一項,根據(jù)引理4.3可知 對于第二項,由于Cov(Ut,Us)=E[UtUs]?EUtEUs,使用積分換元以及公式(7),不難看出Cov(Ut,Us)=O(h),所以上述方差分解式的第二項和的階為O(nh?1/2·h)=o(n).根據(jù)混合假設以及公式(8),對第三項求和放縮有 上述等式右端的漸近正態(tài)性可在引理4.3和4.4中分別令θ=(1,0)′和(0,1)′得到,即可進一步證明該定理. 定理2.2的證明當t=k時,由定理2.1可知 對于任意的?>0,根據(jù)漸近正態(tài)性可知 所以在δ1n ≤t ≤k ?n?上關于t一致地有T2(t)=op(1),同理可對3到5項有同樣結論.注意到格點數(shù)l的有限性. 因此 同理對右側k+n?≤t ≤δ2n部分有P(≥k+n?)→0. 綜上有§4 證明