• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      左截斷數(shù)據(jù)下非線性模型的加權(quán)分位數(shù)回歸

      2020-01-10 05:49:28馮海林羅倩倩
      應(yīng)用數(shù)學(xué) 2020年1期
      關(guān)鍵詞:位數(shù)參數(shù)估計線性

      馮海林,羅倩倩

      (西安電子科技大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院,陜西 西安710071)

      1.引言

      分位數(shù)回歸由Koenker和Bassett于1978年首次提出[1],是對線性回歸模型的進(jìn)一步拓展.隨著協(xié)變量的變化,線性回歸模型描述的是因變量條件均值的變化,而分位數(shù)回歸模型描述的是因變量條件分位數(shù)的變化.因此,分位數(shù)回歸可以比線性回歸更好的展示因變量分布隨協(xié)變量變化.與線性回歸模型常用的最小二乘估計相比,分位數(shù)估計具有更好的穩(wěn)健性(對離群值和誤差分布不敏感).在誤差含有異常值或者誤差分布為重尾分布時,仍然可以利用分位數(shù)回歸進(jìn)行擬合估計.而且隨著計算機(jī)的快速發(fā)展和統(tǒng)計軟件的廣泛應(yīng)用,擬合分位數(shù)回歸模型變得簡單快捷.正是由于分位數(shù)回歸具有諸多優(yōu)點,近年來被廣泛使用和發(fā)展.例如,YU和Jones[2]利用局部線性加權(quán)方法研究了非參數(shù)模型的分位數(shù)估計; YU和LU[3]利用相同線性加權(quán)方法討論了可加模型的分位數(shù)估計; Honda[4]考慮了變系數(shù)模型的分位數(shù)估計;LV等[5?6]分別討論了單指標(biāo)模型和部分線性單指標(biāo)模型的分位數(shù)估計等; 更多相關(guān)的研究和發(fā)展內(nèi)容在YU和LU[7]對分位數(shù)回歸方法的分析中可見.

      上述提及的模型和方法以及結(jié)果均是基于完整數(shù)據(jù)的工作.而在很多領(lǐng)域的統(tǒng)計分析過程中,由于各種原因易導(dǎo)致缺失數(shù)據(jù)的產(chǎn)生.例如,在可靠性工程、生存分析、生物學(xué)和經(jīng)濟(jì)學(xué)等領(lǐng)域中常常出現(xiàn)左截斷數(shù)據(jù).左截斷數(shù)據(jù)具有相同的數(shù)據(jù)結(jié)構(gòu),當(dāng)研究變量小于固定的閾值或截斷變量時,會造成數(shù)據(jù)缺失,無法觀測到相應(yīng)樣本.如文[8-9]中具體給出的左截斷數(shù)據(jù)實例.近年來,已經(jīng)有諸多學(xué)者開始關(guān)注并研究左截斷數(shù)據(jù)的統(tǒng)計推斷問題,并取得一些成果.基于左截斷數(shù)據(jù),Bhattacharya[10]討論了線性回歸模型中斜率的非參數(shù)估計; Lynden-Bell[11]推導(dǎo)了截斷模型下分布函數(shù)的非參數(shù)最大似然Product-Limit(PL)估計;Stute[12?13]證明了PL估計的幾乎處處收斂性及中心極限定理; HE和YANG[14]討論了隨機(jī)截斷模型下截斷率的有效估計; HE和YANG[15]提出了左截斷數(shù)據(jù)下線性回歸模型的加權(quán)最小二乘估計,其中采用截斷變量分布函數(shù)的PL估計定義權(quán)重.有關(guān)左截斷數(shù)據(jù)的其他研究成果也可參考文[16-18]等.但是,到目前為止,只有極少部分學(xué)者利用分位數(shù)回歸方法研究左截斷數(shù)據(jù).例如,ZHOU[19]研究了左截斷數(shù)據(jù)下線性回歸模型的加權(quán)分位數(shù)估計,其中采用與文[15]相同的權(quán)重定義方式; XU等[20]研究了左截斷數(shù)據(jù)下部分線性模型的加權(quán)分位數(shù)估計.對于左截斷數(shù)據(jù)下非線性模型的分位數(shù)估計,至今幾乎沒有研究結(jié)果.

      本文的主要工作是拓展了文[19-20]針對左截斷數(shù)據(jù)的分位數(shù)回歸的相關(guān)工作.即針對左截斷數(shù)據(jù),建立了非線性模型的加權(quán)分位數(shù)估計,其中權(quán)重定義方式與文[15]保持一致.并在一定的假設(shè)條件下,給出了估計的大樣本性質(zhì)及其相關(guān)結(jié)論的理論證明.進(jìn)一步,使用蒙特卡羅方法驗證所提估計的有效性和真實性.

      2.分位數(shù)估計及主要定理

      對任意分位點τ ∈[0,1],本文考慮左截斷數(shù)據(jù)下非線性回歸模型:

      其中,Y為因變量,X為協(xié)變量,f(·,β(τ))為p維參數(shù)向量β(τ)的已知函數(shù),ε(τ)為滿足等式P(ε(τ)≤0| X)=τ的隨機(jī)誤差.需要注意的是ε(τ)可能存在異方差.在左截斷模型下,變量(Y,X)被隨機(jī)變量T截斷.當(dāng)且僅當(dāng)Y ≥T時,才可以觀察到(Y,X,T)的樣本,若Y < T,則無法觀察到任何樣本值.

      記 {(Yi,Xi,Ti),1≤i ≤N}為獨立同分布于變量(Y,X,T)的完整樣本.在截斷變量T影響下,僅僅可觀察到變量(Y,X,T)的部分樣本:

      令P和E分別表示N-樣本下的概率測度和期望,P和E表示n-樣本下的概率測度和期望.α=P(Y ≥T)表示隨機(jī)變量Y可觀察的概率,又稱為截斷率.當(dāng)α=0 時無法觀察到變量(Y,X,T)的任何樣本,所以本文通篇假設(shè)α>0.

      Ⅰ非參數(shù)估計

      定義

      其中分布函數(shù)F(y)的定義域記為(aF,bF):aF=inf {y:F(y)>0},bF=sup {y:F(y)<1},可類比定義分布函數(shù)G(t)的定義域(aG,bG).

      這里,將分布函數(shù)右上角標(biāo)*表示n-樣本下的分布函數(shù),由文[15]可知

      相應(yīng)經(jīng)驗估計函數(shù)為

      若Y和T的樣本無節(jié)點,上述估計式可簡化為

      實際上,當(dāng)樣本沒有被截斷時,PL估計就退化為經(jīng)驗分布估計.又由C(y)=α?1G(y)[1?F(y?)],可得α的非參數(shù)估計式為

      由文[15]可知,αn的取值與y無關(guān),可以由任意一個滿足條件Cn(y)=0的y計算取值.因此,從上述一系列的推導(dǎo)中可得到F(y,x)的非參數(shù)估計式

      Ⅱ加權(quán)分位數(shù)估計

      對于任意分位點τ ∈(0,1),非線性回歸模型(2.1)的分位數(shù)估計定義為

      其中QY(τ|X)=inf {y:P(Y ≤y|X)≥τ}表示Y在特定X取值下第τ條件分位數(shù),隨機(jī)誤差滿足條件P(ε(τ)≤0|X)=τ.

      在完整數(shù)據(jù)N-樣本下,上述分位數(shù)估計損失函數(shù)為

      其中ρτ(u)=u(τ?I(u <0)),也可以寫為為(Y,X)的經(jīng)驗估計函數(shù).在左截斷模型下,利用前面推導(dǎo)的F(y,x)的非參數(shù)估計式Fn(y,x)代替(y,x),得到

      當(dāng)樣本不存在截斷時,對于任意的i,Gn(Yi)=1,上式即為一般分位數(shù)回歸的損失函數(shù).

      Ⅲ一致性與漸近正態(tài)性

      在給出所提估計的大樣本性質(zhì)之前,需要做如下假設(shè):

      (A1)分布函數(shù)F和G連續(xù)且滿足aG

      (A2)隨機(jī)誤差ε在給定X取值時具有條件分布函數(shù)Fε(·|X)和條件密度函數(shù)fε(·|X).其中對于任意的X,Fε(0|X)=τ,fε(e|X)在零領(lǐng)域(?δ,δ)內(nèi)連續(xù);

      (A3)E[(?f(Xi,β?))?2]=Γn,其中0<Γn <∞,E[(?f(Xi,β?))?2]=E[?f(Xi,β?)?f(Xi,β?)T];

      假設(shè)(A1)是為了保證F(y)=P(Y ≤y|Y ≥aG)和G(t)=P(T ≤t|T ≤bF)成立.(A2)使得隨機(jī)誤差滿足分位數(shù)回歸模型假設(shè)條件P(ε(τ)≤0|X)=τ.假設(shè)(A3)-(A4)為定理證明需要.

      定理1(一致性)在假設(shè)(A1)-(A4)成立的條件下,令β?(τ)為β(τ)的真實值,則有

      定理2(漸近正態(tài)性)在假設(shè)(A1)-(A4)成立的條件下,則有

      其中Σ的定義見第四節(jié)中定理證明過程.

      3.數(shù)值仿真

      為了驗證所提出方法的有限樣本性質(zhì),利用蒙特卡羅方法考慮如下指數(shù)回歸模型

      其中參數(shù)β0=1,β1=2,協(xié)變量X~U(0,1),截斷變量T服從均值為c,方差為d的正態(tài)分布,ε為隨機(jī)誤差.通過調(diào)整c和d的取值確定不同樣本截斷率.為了檢驗方法的穩(wěn)健性,考慮了三種不同的誤差分布,并以偏差和標(biāo)準(zhǔn)差作為衡量方法優(yōu)劣的主要指標(biāo).

      例1ε~N(0,1).

      例2ε=X?e,其中e服從均值為0,方差為2∧2的正態(tài)分布.

      例3ε~t(3).

      由前面加權(quán)分位數(shù)估計的定義可知,權(quán)重在最小化目標(biāo)函數(shù)中占有重要的作用,其非參數(shù)估計主要取決于分布函數(shù)F(y)和G(t)的PL估計Fn(y)和Gn(t).因此在進(jìn)行參數(shù)估計之前,首先對Fn(y)和Gn(t)的擬合效果進(jìn)行檢驗.針對分布函數(shù)F(y)和G(t),現(xiàn)將τ=0.5 時左截斷數(shù)據(jù)(截斷率25%)下的PL估計(PL)和完整數(shù)據(jù)下的經(jīng)驗估計(ECDF)展示于圖1-3.

      圖1 N(0,1)

      圖2 X?e

      圖3 t(3)

      可以看出,PL估計與ECDF估計分布相一致且不受誤差影響,這一結(jié)果對于后續(xù)的參數(shù)估計至關(guān)重要.

      注3.1分布函數(shù)F(y)和G(t)的PL估計主要取決于Cn(·).但在隨機(jī)截斷模型下,Cn(·)的取值有可能趨于0,這將會導(dǎo)致Fn(y)和Gn(t)估計的不合理性.因此在仿真計算中,采用C?n(y)代替Cn(·):

      該方法由Woodroofet[8]首次提出,并且Stute和WANG[13]證明了基于C?n(y)的估計與基于Cn(·)的估計相比,估計結(jié)果等價.

      注3.2為了滿足分位數(shù)回歸假設(shè)條件P(ε(τ)≤0|X)=τ,在計算中對隨機(jī)誤差進(jìn)行略微調(diào)整,令εi?Qε(τ)→εi,其中Qε(τ)表示誤差ε的第τ分位數(shù).

      現(xiàn)在進(jìn)行參數(shù)估計.首先從變量(Y,X,T)中隨機(jī)產(chǎn)生300組樣本量均為100的隨機(jī)樣本.通過調(diào)整c和d的取值考慮約10%,25%,60%三種樣本截斷率.同時在每種截斷率下,分別考慮τ=0.25,0.5,0.75三種分位點下的加權(quán)分位數(shù)估計.各誤差分布下的回歸參數(shù)估計結(jié)果見表1-3.

      表1 β0,β1估計結(jié)果, ε~N(0,1)

      表2 β0,β1估計結(jié)果, ε=Xe, e~N(0,4)

      表3 β0,β1估計結(jié)果, ε~t(3)

      表4 OMNI,WQR和LS三種估計方法對比

      從表1-3中可以看出,在指數(shù)回歸模型的三種誤差分布下,加權(quán)分位數(shù)估計均具有較小的偏差和標(biāo)準(zhǔn)差.且隨著截斷率的增加,加權(quán)分位數(shù)估計的偏差和標(biāo)準(zhǔn)差呈現(xiàn)遞增趨勢.同時,為體現(xiàn)方法的優(yōu)越性,在τ=0.5分位點時,將完整數(shù)據(jù)下分位數(shù)估計(OMNI)、左截斷數(shù)據(jù)下加權(quán)分位數(shù)估計(WQR)、左截斷數(shù)據(jù)下最小二乘估計(LS)三種估計方法進(jìn)行對比并將結(jié)果展示在表4中.

      當(dāng)隨機(jī)誤差服從正態(tài)分布時,LS的估計效果優(yōu)于WQR,僅次于OMNI估計.但當(dāng)誤差服從其他分布時,WQR 估計的偏差,標(biāo)準(zhǔn)差均小于相應(yīng)的LS 估計,WQR估計效果明顯優(yōu)于LS 估計.上述現(xiàn)象源于,最小二乘估計穩(wěn)健性較差,在隨機(jī)誤差服從異方差和分布時,最小二乘估計不再具有好的性質(zhì).而分位數(shù)估計具有強(qiáng)穩(wěn)健型,對異常值不敏感,因而具有更強(qiáng)的優(yōu)越性.

      4.定理的證明

      引理1[13]如果分布函數(shù)F和G連續(xù)且滿足

      對于x ∈(aG,bF),則有

      其中Wi(x)=為均值為0,方差為的獨立同分布隨機(jī)變量.

      定理1,2的證明令un=則un最小化下列等式

      由fXi,β?(τ)+n?1/2un在處的泰勒展開式

      及等式ρτ(r?s)?ρτ(r)=s[I(r <0)?τ]+0s[I(r ≤x)?I(r ≤0)]dx,

      其中?f(Xi,β?(τ))=[?f(Xi,β(τ))/?β(τ)]|β(τ)=β?(τ),

      首先計算In1,定義zn1=則

      由Cramér-Wald定理和中心極限定理,則有

      其中W1為均值為0的p維正態(tài)隨機(jī)向量.接下來計算In2.

      相似的可以計算Var(In2)=op(1),從而有

      最后計算In3,由引理1可知

      定義

      由鞅的中心極限定理,可以證明zn2→W2,其中W2為均值為0的p維正態(tài)隨機(jī)向量,因此

      結(jié)合(5.1),(5.2)和(5.3)可得

      當(dāng)||un||足夠大時,由(W1+W2)Tun=Op(||un||),則Qn主要由正則項決定.因此對任意的δ >0,存在常數(shù)C,當(dāng)n充分大時,有

      又由最小化Qn的un應(yīng)滿足

      5.結(jié)語

      本文主要研究了左截斷數(shù)據(jù)下非線性模型的加權(quán)分位數(shù)回歸,采用截斷變量T的PL估計定義權(quán)重.并在一定假設(shè)條件下,給出了加權(quán)分位數(shù)估計的大樣本性質(zhì).利用數(shù)值模擬展示了方法的有效性,并將方法與最小二乘回歸進(jìn)行對比.對比結(jié)果顯示,當(dāng)隨機(jī)誤差不服從正態(tài)分布時,所提方法與最小二乘估計相比可以更準(zhǔn)確的估計模型參數(shù).

      猜你喜歡
      位數(shù)參數(shù)估計線性
      漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
      基于新型DFrFT的LFM信號參數(shù)估計算法
      線性回歸方程的求解與應(yīng)用
      五次完全冪的少位數(shù)三進(jìn)制展開
      二階線性微分方程的解法
      Logistic回歸模型的幾乎無偏兩參數(shù)估計
      基于向前方程的平穩(wěn)分布參數(shù)估計
      基于競爭失效數(shù)據(jù)的Lindley分布參數(shù)估計
      遙感衛(wèi)星CCD相機(jī)量化位數(shù)的選擇
      “判斷整數(shù)的位數(shù)”的算法分析
      河南科技(2014年11期)2014-02-27 14:09:41
      长寿区| 阿图什市| 秦皇岛市| 当涂县| 新密市| 金溪县| 甘肃省| 通州市| 曲靖市| 友谊县| 钦州市| 伽师县| 阿拉善右旗| 都江堰市| 富川| 北安市| 博爱县| 镇远县| 邢台市| 宝清县| 青铜峡市| 彩票| 乐亭县| 长沙县| 遂宁市| 林芝县| 贵南县| 宁强县| 兰州市| 浦江县| 泸溪县| 罗田县| 弋阳县| 海阳市| 阜新市| 桃园市| 波密县| 南召县| 丰台区| 宜兰市| 城口县|