摘要:針對海量數(shù)據(jù)下高維分位回歸模型,首先,構(gòu)造基于去相關(guān)得分函數(shù)的子抽樣算法,以估計感興趣的低維參數(shù);其次,推導(dǎo)所提估計的極限分布,并根據(jù)漸近協(xié)方差矩陣求出L-最優(yōu)準(zhǔn)則下的子抽樣概率,給出高效的兩步算法.模擬和實證分析結(jié)果表明,最優(yōu)子抽樣方法顯著優(yōu)于均勻子抽樣方法.
關(guān)鍵詞:去相關(guān)得分;高維;海量數(shù)據(jù);分位回歸;子抽樣
中圖分類號:O212.2文獻(xiàn)標(biāo)志碼:A文章編號:1671-5489(2024)05-1102-11
Subsampling Algorithm for Quantile Regression Based on Optimal Decorrelation Score
HUANG Xiaofeng,ZOUYuhao,YUAN Xiaohui
(School of Mathematics and Statistics,Changchun University of Technology,Changchun 130012,China)
Abstract:For the high-dimensional quantile regression model with massive data,firstly,a subsampling algorithm based on the decorrelation score function was constructed to estimate the low-dimensional parameters of interest.Secondly,we derived the limit distribution of the proposed estimates and calculated the subsampling probability under the L-optimal criterion according to the asymptotic covariance matrix,giving an efficient two-step algorithm.The simulation and empirical analysis results show that the optimal subsampling method is significantly superior to the uniform subsampling method.
Keywords:decorrelationscore;high-dimensional;massivedata;quantileregression;subsampling
目前海量數(shù)據(jù)的處理方式主要有三類方法:分布式計算[1-3]、子抽樣算法[47]和數(shù)據(jù)流估計[8-0],其中子抽樣方法可減少資源消耗,提高處理速度,降低成本,保持?jǐn)?shù)據(jù)代表性,因而受到廣泛關(guān)注,并已取得了許多研究結(jié)果.例如:Fithian等[4]將子抽樣方法推廣到邏輯回歸中;Ma等[0]探討了子抽樣算法在線性回歸中參數(shù)估計的統(tǒng)計特性;Ai等和Fan等[2]分別將子抽樣算法應(yīng)用到廣義線性模型和線性分位回歸中,并在一般抽樣方法下建立了估計量漸近正態(tài)性的理論基礎(chǔ);袁曉惠等[基于D-最優(yōu)準(zhǔn)則構(gòu)造了分位回歸中信息陣的最優(yōu)子抽樣方法;Wang等4構(gòu)造了基于L-最優(yōu)準(zhǔn)則下分位回歸模型的最優(yōu)子抽樣方法.雖然子抽樣算法在研究低維參數(shù)估計問題方面取得了一些成果,但對高維海量數(shù)據(jù)分析方法的研究目前仍處于探索階段,例如,Gao等5]研究了廣義線性模型中在干擾參數(shù)影響下對關(guān)注的低維參數(shù)實施最優(yōu)子抽樣估計及推斷的統(tǒng)一框架,但其研究主要集中在廣義線性模型參數(shù)的估計,并未涉及其他類型的模型.
在眾多數(shù)據(jù)分析模型中,分位回歸6]因其能揭示響應(yīng)變量的全方位特征并從中獲取豐富信息而備受關(guān)注.它通常采用加權(quán)最小絕對差方法進(jìn)行估計,因而對離群點不敏感,能提供更穩(wěn)健的結(jié)果,從而得到廣泛關(guān)注.例如,Wang等]分析了縱向數(shù)據(jù)中部分線性變系數(shù)模型的分位估計;袁曉惠等在部分協(xié)變量隨機(jī)缺失機(jī)制下的分位回歸模型中,提出了回歸參數(shù)的誘導(dǎo)光滑加權(quán)估計及其漸近協(xié)方差估計;Wang等[s]針對刪失分位回歸提出了一種新的基于多重穩(wěn)健傾向得分的估計方法;Cheng等[20]提出了正則化的投影評分方法,以解決高維混雜協(xié)變量存在下分位回歸的參數(shù)估計問題.但在高維海量數(shù)據(jù)下進(jìn)行分位回歸模型參數(shù)估計的研究目前文獻(xiàn)報道較少。鑒于此,本文考慮將去相關(guān)得分方程推廣到高維分位回歸最優(yōu)子抽樣中,對感興趣的低維參數(shù)進(jìn)行估計,并利用子抽樣方法提升計算效率,同時降低因干擾參數(shù)導(dǎo)致精度下降的問題。
1方法
1.1高維分位回歸模型的去相關(guān)得分估計
在高維回歸模型中,參數(shù)的維度通常較高,但與響應(yīng)變量相關(guān)的協(xié)變量可能很少.那些非顯著影響響應(yīng)變量的協(xié)變量可視為混雜協(xié)變量.如何在高維回歸模型中有效地估計低維參數(shù),是近年來統(tǒng)計學(xué)領(lǐng)域的研究熱點.Zhang等[21]提出了一種半?yún)?shù)有效得分方法,用于構(gòu)建高維線性模型中低維系數(shù)的估計和置信區(qū)間;Ning等[22]提出了一種可用于稀疏高維模型中假設(shè)檢驗和置信區(qū)間的去相關(guān)得分估計方法;Cheng等[20]提出了一種正則化投影得分方法,在存在高維混雜協(xié)變量的情況下,用于估計高維分位回歸中的低維感興趣參數(shù).
假設(shè)響應(yīng)變量為y,協(xié)變量為x=(uT,zT)T,其中u是已知的維數(shù)為d的低維感興趣協(xié)變量,z是維數(shù)為p的在預(yù)測響應(yīng)變量時可能產(chǎn)生干擾的高維混雜協(xié)變量.觀測數(shù)據(jù)為Fn={y1,u1,z}=1.本文考慮分位回歸模型:
其中Q(y|u1,z1)表示在給定協(xié)變量u和z1時y的r條件分位數(shù),0表示感興趣的低維系數(shù),γ表示干擾參數(shù).Cheng等[20]基于投影法構(gòu)造了0的去相關(guān)得分估計方程.與經(jīng)典的分位回歸方程不同,去相關(guān)得分方法可有效處理高維干擾參數(shù)的影響,得分方程為
其中函數(shù)ゅ(t)=I(lt;0)為p2(t)=ーI(lt;0)}關(guān)于t的導(dǎo)數(shù).通過求解V(Hp,p6)=0,可得未知參數(shù)0的估計0g.
當(dāng)z的維數(shù)p較小時,矩陣H,可由下式得到:
未知參數(shù)γ的估計?F由下式得到:
當(dāng)z的維數(shù)p非常大時,可使用Lasso擬合多響應(yīng)線性回歸得到矩陣H的估計:
其中參數(shù)h,表示矩陣H∈Rd的第j列.未知參數(shù)γ的估計由如下懲罰估計算法得到:
計算過程的關(guān)鍵是求解式(1)中的和Hp.在低維情形下,通過迭代求解Ψ(Hg,7,0)=0計算.該算法僅在低維情形下有理想的估計效果,但對于高維情形,該方法性能欠佳.針對高維情形,Cheng等[20]引入了一步估計法對式(1)進(jìn)行修正,得到如下去相關(guān)得分函數(shù):
其中表示基于方程(2)得到的初始估計.設(shè)y=y-(Hz)T0-zr,則求解關(guān)鍵問題n(HF,p,0)=0即等價于求解
估計0的漸近正態(tài)分布為
其中Q1=E[f(0|u,z)(u-Hoz)uT],f(·|u,z)是ε=y-uT0o-zTYo的密度函數(shù),D1=r(1-r)×E[(u-Hz)(u-H)].修正得分函數(shù)后由一步算法得到的估計6n的淅近正態(tài)分布為
其中Q2=E[f(0|uz)(u-Hz)(u-H)].
1.2基于去相關(guān)得分函數(shù)的一般子抽樣算法
在海量數(shù)據(jù)情形下,傳統(tǒng)子抽樣算法不能直接應(yīng)用于得分方程中.Gao等[5]將去相關(guān)得分方法推廣到海量數(shù)據(jù)下的高維廣義線性模型中,構(gòu)造了關(guān)于感興趣低維參數(shù)的最優(yōu)子抽樣估計,提出了基于去相關(guān)得分函數(shù)的子抽樣算法.受此啟發(fā),本文考慮海量數(shù)據(jù)下高維分位回歸模型參數(shù)的估計問題,利用去相關(guān)得分函數(shù)降低不精確的干擾參數(shù)估計帶來的影響,并通過子抽樣算法提升收斂速率.以概率(滿足=1)抽取樣本容量為的子樣本集合相應(yīng)的概率為在去相關(guān)得分函數(shù)構(gòu)造中,如何尋找基于子樣本的投影矩陣H是關(guān)鍵,從理論上保證基于子樣本的參數(shù)估計的相合性和漸近正態(tài)性是一個難點.對于z的維數(shù)p較小的情形,H*的估計*可由下式得到:
未知參數(shù)γ的估計?可由下式計算得到:
得到基于子樣本的初始分位回歸系數(shù)?*和投影矩陣H后,0的子抽樣去相關(guān)得分函數(shù)定義為
最后,根據(jù)式(4)求解方程(H,y,0)=0,得到未知參數(shù)0的估計0.
假設(shè):
定理1假設(shè)條件(H1)~(H5)成立,則當(dāng)n→∞且r→∞時,在給定數(shù)據(jù)F的條件下,有
其中
證明:首先證明給定完全數(shù)據(jù)Fn時,H-H=O(r-1V2).令
則可得E(H“Fn)=Hm,E(H2”Fn)=H2.將矩陣-的第j行第k列元素記為△,A,則E(△1.|Fn)=0.下面計算條件二階矩:
根據(jù)Chebyshev不等式可知,△,k=Op(r-12),從而-m=O(r-12).類似地,可證明2-H2=O(r-12).由于
因此可得
根據(jù)文獻(xiàn)[23]中定理1可知,0-0=O(r-12),y2-=O(r-2).
令
下面證明:給定全數(shù)據(jù)Fn時,(H,2,02)=O(r-12).計算可得
根據(jù)Chebyshev不等式可知,(H,Y0,0P)=O(r-2).同理可證明
因此(H,7,02)=O(r-12).下面證明(H,,0)的漸近正態(tài)性.記
則rn在給定全數(shù)據(jù)的條件下(1……)立同分布且E(n1|Fn)=Op(n-1/2),Var(n;|Fn)=D-o(1).下面驗證Lindeberg-Feller條件,對某個δgt;0及任意的gt;0,有
由Lindeberg-Feller中心極限定理可知,D-12(H,,0)→N(0,1).根據(jù)式(5)和Slutsky定理可知,D-2(H,7F,0P)→N(0,I).用重期望公式可得
因此
從而可得(Q-1DQ-T)-12(0-0)→N(0,1).證畢.
當(dāng)p非常大時,H的估計效果可能會較差.可使用Lasso擬合多響應(yīng)線性回歸模型,估計投影矩陣H.對任何H*∈Rd,用h;表示其第j列,并通過下式估計H:
類似地,可通過懲罰估計γ:
在得到基于子樣本的初始分位回歸系數(shù)”和投影矩陣后,基于子樣本的一步估計方法得到,其漸近性質(zhì)如下.
定理2假設(shè)條件(H1)~(H4),(H。)成立,則當(dāng)n→∞且r→∞,并給定數(shù)據(jù)F。時,有
其中=l)
定理2的證明類似定理1,故略.
由于去相關(guān)得分函數(shù)得到修正,所以定理2中的0與Q有差異.可將修改去相關(guān)得分函數(shù)后得到的估計量0me視為從初始估計θ的一步更新.
1.3最優(yōu)去相關(guān)得分子抽樣概率
下面討論最優(yōu)子抽樣概率的計算方法.首先,基于L-最優(yōu)性準(zhǔn)則提出一種子抽樣概率的確定方法;其次,討論該方法的實現(xiàn)策略;最后,總結(jié)一種兩步算法.
由于定理1和定理2中的漸近協(xié)方差矩陣依賴于子抽樣概率,因此下面通過選擇最優(yōu)子抽樣概率,提出一種有效的子抽樣方法.通過最小化估計量0的漸近均方誤差獲取最優(yōu)子抽樣概率,即在定理1中min‖Var(0)‖=mintr(Q-1DQ-T),由于Q-1DQ-T中只有D與抽樣概率π,有關(guān),所以argmin tr()argmin tr(D).,等,因此考慮通過最小化tr(D)尋求最優(yōu)子抽樣概率,即L-最優(yōu)性準(zhǔn)則,旨在優(yōu)化子抽樣概率以提高估計效率.下面根據(jù)L-最優(yōu)性準(zhǔn)則確定最優(yōu)子抽樣概率.
定理3假設(shè)定理1的條件成立,則在L-最優(yōu)準(zhǔn)則下,抽樣概率形式為
證明:在L-最優(yōu)準(zhǔn)則下,通過最小化tr(D)計算最優(yōu)的子抽樣概率,
其中,最后一步源于Cauchy-Schwarz不等式,當(dāng)且僅當(dāng)πc|u一Hpz,時等號成立.證畢.
1.4兩步算法
根據(jù)定理3可知,最優(yōu)子抽樣概率元是基于協(xié)變量的信息計算得出的,與響應(yīng)變量y,無關(guān).該最優(yōu)概率不僅適用于低維情形,也適用于高維情形.式(7)中,最優(yōu)抽樣概率依賴于感興趣協(xié)變量u、干擾協(xié)變量z;及投影矩陣Hp.由于該抽樣概率不能直接得到,因此本文提出如下兩步算法解決該問題.
算法1最優(yōu)去相關(guān)得分子抽樣算法.
步驟1)執(zhí)行均勻子抽樣以獲取r。個子樣本,基于該r。個樣本估計式(7)中的子抽樣概率,對于子抽樣概率中未知的Hr,由式(3)或式(6)計算得到.替換原定理3中的H,為H\",計算L-最優(yōu)性準(zhǔn)則下的近似最優(yōu)子抽樣概率.
步驟2)根據(jù)步驟1)中計算得到的子抽樣概率,選取r個子樣本(y;u;,zi)-1,基于上述子樣本用式(4)求解方程;(H\",y,0)=0估計參數(shù)0.
2模擬研究
下面利用數(shù)值模擬評估本文估計方法在有限樣本容量下的性能,以驗證去相關(guān)得分子抽樣算法在實際應(yīng)用中的可行性和準(zhǔn)確性.本文主要考察干擾參數(shù)的影響,分為低維(p=10)和高維(p=700)兩種情形討論.
由下式生成大小為n=105的數(shù)據(jù)樣本:
其中u;表示低維感興趣協(xié)變量,z稱為干擾協(xié)變量,二者皆源自多元正態(tài)分布,(6,62,θ3)=(3,3,3)T和y分別為感興趣低維參數(shù)和干擾參數(shù),p表示干擾維數(shù),對式(8)的隨機(jī)誤差項e,,考慮以下3種分布類型:
誤差1)ε;服從正態(tài)分布,ε;~N(0,1);
誤差2)ε;服從自由度為3的t分布,ε~t(3);
誤差3)e;服從異方差正態(tài)分布,e,=(1+2Z2)Za,其中Za~N(0,1),Z2~Bernoulli(0.5),且Zn和Z,2相互獨立.
在產(chǎn)生隨機(jī)數(shù)前,先對未知干擾參數(shù)向量y設(shè)定一個真值,在低維情形下令(y1,y2,y3,.,y,)=(3,3,3,0,……,0),在高維情形下令(y1,Y2,Ya,……,Y,-1)=(0,0,0,……,0).
下面運行本文提出的兩步算法,在兩種干擾情形下算法1的步驟1)中,均先選取子樣本r。=200,以估計在L-最優(yōu)準(zhǔn)則下的近似最優(yōu)子抽樣概率,再執(zhí)行步驟2),分別考慮抽取r=200,400,600,800,1 000個樣本,完成抽樣后,利用算法1對參數(shù)進(jìn)行估計,并重復(fù)實驗M=500次,計算參數(shù)估計的平均值.表1和表2分別列出了低維和高維情形下基于最優(yōu)抽樣所得估計參數(shù)的偏差(Bias)和標(biāo)準(zhǔn)差(SD)(本文只列出了r=0.3時的結(jié)果,且保留四位小數(shù)).圖1~圖6分別為不同分位點處估計參數(shù)在兩種干情形和3種不同差下的總均方誤M中MSE-表示第m個子抽樣估計,0表示參數(shù)的真值.
在兩種不同干擾情形下,由表1和表2及圖1~圖6可見:本文提出的最優(yōu)子抽樣方法得到的每個估計參數(shù)的SD均隨子樣本量的增加而不斷減小,說明該方法的估計性能隨樣本量的增加而變得更好,且估計結(jié)果是無偏的;在不同分位點r=0.3,0.5,0.7時,所估計參數(shù)的MSE均隨子樣本的增加而逐漸減小,且本文提出的最優(yōu)抽樣方法得到估計的MSE均比基于均勻子抽樣得到的MSE小,這與定理3最小化估計量0的MSE理論結(jié)果一致.模擬結(jié)果表明,本文提出的最優(yōu)子抽樣策略顯著優(yōu)于均勻子抽樣.
3實證分析
下面將本文提出的子抽樣算法應(yīng)用于來自UCI存儲庫的博客反饋數(shù)據(jù)集(https:/archive.ics.uci.edu/ml/datasets/BlogFeedback).該數(shù)據(jù)集收錄了2010-2011年期間的博客數(shù)據(jù),其中包含n=52397個樣本和p=280個協(xié)變量.目標(biāo)是預(yù)測給定博客的反饋數(shù)量與280個協(xié)變量之間的關(guān)系.
Wang等3分析該數(shù)據(jù)集的結(jié)果表明,博客的評論數(shù)(y)主要受3個特定協(xié)變量(在過去24h內(nèi)對消息來源評論數(shù)量的中位數(shù)x1;消息來源在過去48~24h內(nèi)的評論數(shù)與在過去24h內(nèi)的評論數(shù)之間的平均差異x2;在過去24h內(nèi)對消息來源的評論數(shù)x3)的顯著影響.本文在Wang等[23]實證分析的基礎(chǔ)上,在分位回歸模型中添加23個對響應(yīng)變量預(yù)測精準(zhǔn)度較低的協(xié)變量作為干擾協(xié)變量,在進(jìn)行數(shù)據(jù)分析前,先對響應(yīng)變量和所有協(xié)變量進(jìn)行標(biāo)準(zhǔn)化處理.
在r=0.5分位點處,采用本文提出的算法對博客數(shù)據(jù)集進(jìn)行建模分析.設(shè)r=400,r=200,400,600,800,重復(fù)計算500次并取均值.由于在真實的數(shù)據(jù)場景中,通常無法直接獲得模型參數(shù)的真實值,因此本文采取一種實用的替代方法:利用從全數(shù)據(jù)中得到的參數(shù)估計值替代未知的真實值.考察上述3個特定的協(xié)變量,并在全數(shù)據(jù)的基礎(chǔ)上對它們進(jìn)行參數(shù)估計.根據(jù)全數(shù)據(jù)下的分析,這3個協(xié)變量在全數(shù)據(jù)下的參數(shù)估計值分別為0.0307,0.0582,0.2249.該結(jié)果表明,響應(yīng)變量y與這3個協(xié)變量之間均存在正向的關(guān)聯(lián)性.即這些協(xié)變量的增加傾向于與響應(yīng)變量y的增加相關(guān)聯(lián),從而得到了對數(shù)據(jù)內(nèi)在關(guān)系更深刻的理解.表3列出了最優(yōu)子抽樣方法針對3個低維感興趣協(xié)變量參數(shù)估計的Bias和SD值.圖7為這些協(xié)變量參數(shù)估計的MSE隨子樣本大小變化的趨勢.由表3可見,隨著子樣本量的增加,基于最優(yōu)子抽樣方法參數(shù)估計的標(biāo)準(zhǔn)差逐漸降低,該結(jié)果證實了所推導(dǎo)的漸近協(xié)方差矩陣在實際應(yīng)用中的有效性.由圖7可見,無論哪種抽樣方法,估計值的MSE均隨子樣本量的增加而減少.此外,本文提出的最優(yōu)子抽樣策略得到的MSE始終低于均勻子抽樣方法得到的MSE,該結(jié)果進(jìn)一步驗證了最優(yōu)子抽樣策略在實際應(yīng)用中的顯著優(yōu)勢.
綜上,本文將去相關(guān)得分方程推廣到了高維分位回歸模型的子抽樣中,該方法可估計高維分位回歸模型子抽樣中的低維預(yù)測參數(shù).首先推導(dǎo)了一般去相關(guān)得分子樣本估計量的漸近性質(zhì),然后根據(jù) L-最優(yōu)準(zhǔn)則給出了最優(yōu)子抽樣概率,并提出了一種兩步算法來近似最優(yōu)的去相關(guān)得分子抽樣概率.為節(jié)約計算成本,在模擬實驗中先固定算法第一步的較小子樣本量r0,再逐步增加算法第二步的子樣本量r.模擬研究結(jié)果表明,相比于均勻子抽樣方法, 本文方法優(yōu)勢顯著.最后,將本文方法應(yīng)用于真實的博客數(shù)據(jù)集,實證結(jié)果表明,本文提出的最優(yōu)子抽樣策略可很好地在真實情形下估計感興趣低維參數(shù).在實際應(yīng)用中,推薦采用一步估計法,因為它能顯著提高海量高維數(shù)據(jù)分析的計算效率,能更有效地處理大規(guī)模數(shù)據(jù)集.
參考文獻(xiàn)
[1]LIN N,XI R B.Aggregated Estimating Equation Estimation[J].Statistics and Its Interface,2011,4(1):73-83.
[2] CHEN X Y.XIE M G.A Split-and-Conquer Approach for Analysis of Extraordinarily Large Data[J].Statistica Sinica,2014,24(4):1655-1684.
[3]XU Q F,CAI C,JIANG C X,etal.Block Average Quantile Regression for Massive Dataset[J].Statistical Papers,2020,61(1):141-165.
[4] FITHIAN W,HASTIET.Local Case-Control Sampling:Efficient Subsampling in Imbalanced Data Sets[J].The Annals of Statistics,2014,42(5):1693-1724.
[5]WANG Y,ZHU R,MA P.Optimal Subsampling for Large Sample Logistic Regression[J].Journal of the American Statistical Association,2018,113:829-844.
[6]YUAN X H,LIY,DONG X G,etal.Optimal Subsampling for Composite Quantile Regression in Big Data[J].Statistical Papers,2022,63(5):1649-1676.
[7]JONES L.H.Investigating the Properties of a Sample Mean by Employing Random Subsample Means[J].Journal of the American Statistical Association,1956,51:54-83.
[8]SCHIFANO E D.WU J,WANG C,etal.Online Updating of Statistical Inference in the Big Data Setting[J].Technometrics,2016,58(3):393-403.
[9]LUO L,ZHOU L.SONG P X K.Real-Time Regression Analysis of Streaming Clustered Data with Possible Abnormal Data Batches[J].Journal of the American Statistical Association,2023,118:2029-2044.
[10]MA P.MAHONEY W M,YU B.A Statistical Perspective on Algorithmic Leveraging[J].Journal of Machine Learning Research,2015,16:861-911.
[11]AI M,YU J,ZHANG H,etal.Optimal Subsampling Algorithms for Big Data Regessions[J].Statistica Sinica,2021,31(2):749-772.
[12]FAN Y.LIU Y K,ZHU L X.Optimal Subsampling for Linear Quantile Regression Models[J].Canadian Journal of Statistics,2021,49(4):1039-1057.
[13]袁曉惠,郭偉,王純杰.大數(shù)據(jù)分位數(shù)回歸下基于信息陣的最優(yōu)子抽樣[J].東北師大學(xué)報(自然科學(xué)版),202355(3):30-36.(YUAN XH,GUO W,WANG C J.Information Matrix Based Optimal Subsampling for Big Data Quantile Regression[J].Journal of Northeast Normal University(Natural Science Edition),2023,55(3):30-36.)
[14]WANG H Y,MA Y Y.Optimal Subsampling for Quantile Regression in Big Data[J].Biometrika,2021.108(1):99-112.
[15]GAO J Z,WANG L W,LIAN H.Optimal Decorrelated Score Subsampling for Generalized Linear Models with Massive Data[J].Science China Mathematics,2024,67(2):405-430.
[16]KOENKER R,BASSETT G,Jr.Regression Quantiles[J].Econometrica,1978,46(1):33-50.
[17]WANG J H,MENDEL F.Inference for Censored Quantile Regression Models in Longitudinal Studies[J].The Annals of Statistics,2009,37(2):756-781.
[18]袁曉惠,劉天慶。協(xié)變量缺失下基于誘導(dǎo)光滑方法的加權(quán)分位數(shù)回歸[J].,2016,54(6):1314-1322.(YUAN X H,LIU T Q.Weighted Quantile Regression Based on Induced Smoothing Method with Missing Covariates[J].Journal of Jilin University(Science Edition),2016,54(6):1314-1322.)
[19]WANG X R,QIN G Y,SONG X Y,etal.Censored Quantile Regression Based on Multiply Robust Propensity Scores[J].Statistical Methods in Medical Research,2022,31(3):475-487.
[20]CHENG C,F(xiàn)ENG X D,HUANG J,etal.Regularized Projection Score Estimation of Treatment Effects in High-Dimensional Quantile Regression[J].Statistica Sinica,2022,32(1):23-41.
[21]ZHANG C H,ZHANG SS.Confidence Intervals for Low Dimensional Parameters in High Dimensional Linear Models[J].Journal of the Royal Statistical Society:Series B(Statistical Methodology),2014,76(1):217-242.
[22]NING Y,LIU H.A General Theory of Hypothesis Tests and Confidence Regions for Sparse High Dimensional Models[J].The Annals of Statistics,2017,45(1):158-195.
[23]WANG L,ELMSTEDT J,WONG W K,etal.Orthogonal Subsampling for Big Data Linear Regression[J].The Annals of Applied Statistics,2021,15(3):1273-1290.
(責(zé)任編輯:李琦)