汪 文, 凌能祥
(合肥工業(yè)大學 數學學院,合肥230601)
在過去的二十年中,函數型數據分析(FDA)受到了廣泛的研究,并成為統(tǒng)計研究中最重要的領域之一.文獻[1]首次將函數型數據引入到線性模型中.為了更好的擬合效果,文獻[2]首次引入了半函數部分線性回歸(SFPLR)模型
其中Xj(j=1,2,…,p)是解釋變量,βT=(β1,β2,…,βp)是一列未知參數,利用核方法構造了參數分量和非參數的估計值,并給出了參數分量的漸近正態(tài)性和非參數分量的收斂速度.文獻[3]進一步考慮了在響應變量隨機缺失時相關分量的研究結果,并給出了實驗模擬和真實數據分析.文獻[4]利用k近鄰方法研究了SFPLR模型.文獻[5-6]提出了在參數置信域構造上優(yōu)于正態(tài)逼近的經驗似然方法.文獻[7]分別將經驗似然方法應用于響應變量缺失下的半函數線性模型和SFPLR模型.文獻[9]和文獻[10]分別利用k近鄰進行時間序列分析,和研究函數型數據.本文利用經驗似然方法研究了SFPLR模型,通過k近鄰方法構造了模型中參數分量的經驗似然比統(tǒng)計量,并得出該統(tǒng)計量具有漸近χ2分布,并同時給出了非參數分量的估計值及其收斂速度.
(1)
定義權函數
令
且
的kNN估計分別是
顯然E[Zi(β)]=0.利用此信息定義β的經驗對數似然比函數為
利用Lagrange乘子法,可得
其中λ(β)為Lagrange乘子,滿足
定義空間SH上 Kolmogorov’sε-熵為ψSH(ε)=log(Nε(SH)),其中Nε(SH)為在空間H上必須覆蓋SH的開球半徑ε的最小值.并給出以下具體假設:
(A2) 存在函數φ(·)≥0,f(·)>0,對α>0,常數τ>0,有
(ii) ?C>0,η0>0,對?0<η<η0,φ′(η) (iv) ?C<∞使得?(u,v)∈SF×SF, ?f∈{m,g11,…,g1p}, |f(u)-f(v)|≤Cd(u,v)α; (A3) 核函數K(·)滿足: (i)K(u)是非增函數且在支集[0,1)上Lipschitz連續(xù), (ii) 若K(1)=0,則-∞ (A4)SH的 Kolmogorov’sε-熵滿足: (A5)k=kn是正實數序列且滿足: 注 文獻[9]中的定理2在證明本文的漸近結果中起到了重要作用,因此需要假設條件(A1)-(A5),具體原因見文獻[9],(A6)是研究SFPLR模型的常見條件[2]. 定理1假設(A1)-(A6)成立,如果n→∞時,有 Iα(β)={β∈Rp|-2R(β)≤Cα}. 定理3在定理1的條件下 有 證具體的證明過程見文獻[3]. 引理2假設定理1中的條件成立,若β是參數的真值,那么 (2) 據文獻[4]的(7.7-7.8)和(7.15-7.16)有 根據文獻[4]的(7.9)-(7.11),得到 根據以上對公式(2)的分解,可以得到 由于ε與(X,χ)相互獨立,根據引理1可得 引理4在定理1的條件下,若β是參數的真值 證具體的證明過程分別見文獻[6]中的引理3和文獻[5]中的定理1. 定理1的證明令 根據引理4可得 根據引理2和引理3 其中‖·‖代表歐幾里得范數,由文獻[9]的定理1和定理2可得證明成立. 圖1 曲線i(t),i=1,…,100,t∈[0,1] 核函數 表1 β的95%置信區(qū)間覆蓋率 分析 經驗似然方法能取得很不錯的實驗結果,即獲得比較大的置信區(qū)間覆蓋率.隨著樣本量的增加和誤差的減小都會使置信區(qū)間覆蓋率增大. SFPLR模型綜合了參數回歸和非參數回歸模型的特點,具有更大的適用性,而經驗似然方法在構造置信域方面有許多突出的優(yōu)點.本文創(chuàng)新性的用kNN方法取代了N-W核方法,解決了用經驗似然方法處理SFPLR模型的問題,分別給出了關于參數和非參數部分的估計值和漸近正態(tài)性.之后利用所得結果構造參數的置信域,并通過模擬研究說明了經驗似然方法在參數的覆蓋概率大小上表現優(yōu)異. 致謝作者非常感謝相關文獻對本文的啟發(fā)以及審稿專家提出的寶貴意見.4 定理證明
5 模擬研究
6 結 論