付漫俠 周水生
分位數(shù)回歸[1]是一種用于估計感興趣的條件分位數(shù)的魯棒方法,對重尾分布具有天然的魯棒性,可正確擬合異方差關(guān)系,為響應(yīng)的條件分布提供全面的分析,其稀疏度水平可隨分位數(shù)變化而變化.因此,分位數(shù)回歸在研究收入分配、股票價格波動、疾病治療效果和教育等方面應(yīng)用廣泛.
加性模型的優(yōu)勢在于它可捕捉數(shù)據(jù)中的復(fù)雜關(guān)系,如非線性關(guān)系.此外,可避免維數(shù)困擾的問題.維數(shù)困擾是指在高維數(shù)據(jù)中建立全局模型時,參數(shù)估計變得困難或不可靠.通過將模型分解為可加組件,加性模型可更好地處理高維數(shù)據(jù),使參數(shù)估計更穩(wěn)定、可靠.
受加性模型和廣義加性模型工作的啟發(fā),de Gooijer等[2]提出基于核方法建模以估計加性非線性條件分位數(shù)模型,證明對于固定維數(shù)p,加性分位數(shù)回歸達(dá)到與加性均值回歸相同的收斂速度,從而在理論上減輕維數(shù)困擾,但是方法需要對維數(shù)p≥5的情況進(jìn)行偏差校正.Gaillard等[3]通過B樣條擬合廣義加性分位數(shù)模型生成溫度情景,將其插入概率預(yù)測負(fù)荷模型,得到電力負(fù)荷預(yù)測的最佳效果.然而,此方法需要研究者手動選擇平滑參數(shù).Fasiolo等[4]使用樣條基展開擬合響應(yīng)和感興趣的分位數(shù)之間的平滑關(guān)系,給出條件分位數(shù)校準(zhǔn)公式,快速自動估計平滑參數(shù).模型結(jié)構(gòu)類似于廣義加性模型,只在維數(shù)較低時進(jìn)行,都是使用B樣條基函數(shù)逼近分量,樣條函數(shù)的性能很大程度上取決于節(jié)點(diǎn)的選擇.Sherwood等[5]提出QA-SCAD,利用組懲罰實(shí)現(xiàn)超高維加性分位數(shù)回歸問題估計和變量選擇的同時進(jìn)行.雖然將加性分位數(shù)回歸模型擴(kuò)展到超高維問題,但仍基于B樣條函數(shù),隨著維數(shù)增加,計算速度越來越慢.此外,樣條函數(shù)的性能很大程度上取決于節(jié)點(diǎn)的選擇.然而,節(jié)點(diǎn)的選擇是主觀的,可能因為選擇的不同導(dǎo)致擬合結(jié)果的不同.
現(xiàn)有的均值回歸模型在理論和計算上的結(jié)論無法直接應(yīng)用在分位數(shù)回歸上,因此,在理論方面,Padilla等[6]給出分位數(shù)回歸預(yù)測一致性的損失函數(shù).Ye等[7]在此基礎(chǔ)上研究分位數(shù)K-NN Fused Lasso,證明K-NN Fused Lasso接近極小極大收斂速度.在計算方面,Pietrosanu等[8]研究高維分位數(shù)回歸問題,使用ADMM(Alternating Direction Method of Multipliers)[9]、MM(Majorize-Minimize) Algorithm[10]以及Coordinate Descent Algorithm[11]進(jìn)行變量選擇,獲得估計量.Hochbaum等[12]開發(fā)O(nlogn)次的分位數(shù)融合Lasso快速算法.Brantle等[13]提出Parallelizable ADMM Algorithm,計算一維數(shù)據(jù)的k階分位數(shù)趨勢濾波估計量.
本文提出基于融合Lasso的非參數(shù)加性分位數(shù)回歸模型(Nonparametric Additive Quantile Regre-ssion Model Based on Fused Lasso, AQFL),是在融合Lasso罰和l2罰之間折衷的可對加性分位數(shù)回歸模型進(jìn)行估計和變量選擇的模型.融合Lasso罰使模型能快速計算,并在局部進(jìn)行自適應(yīng),實(shí)現(xiàn)對所需分位數(shù)甚至極端分位數(shù)的預(yù)測.同時結(jié)合l2罰,在高維數(shù)據(jù)中將對響應(yīng)影響較小的協(xié)變量函數(shù)值壓縮為0,實(shí)現(xiàn)變量的選擇.此外,本文給出保證收斂到全局最優(yōu)的塊坐標(biāo)ADMM算法(Block Coordinate Alter-nating Direction Method of Multipliers, BCADMM),證明AQFL的預(yù)測一致性.最后,在合成數(shù)據(jù)和碎豬肉數(shù)據(jù)上的實(shí)驗表明AQFL在預(yù)測準(zhǔn)確性和魯棒性等方面較優(yōu).
傳統(tǒng)的回歸分析只關(guān)注因變量的條件均值,未充分考慮因變量條件分布的完整特征.相比之下,分位數(shù)回歸能分析因變量條件分布的完整特征.因此,本文希望將一些在均值回歸中有效的研究方法推廣到加性分位數(shù)回歸中.
在均值回歸模型中,學(xué)者們采用不同的方法構(gòu)建復(fù)雜模型,其中一種方法是使用協(xié)變量的多項式或樣條函數(shù)引入非線性關(guān)系.使用非參數(shù)建模的方法擬合均值回歸模型也是常見的,此方法可以更靈活地適應(yīng)數(shù)據(jù)的特征,不需要對模型做出具體的函數(shù)形式假設(shè).Tibshirani等[14]提出的非參數(shù)融合Lasso罰模型,通過響應(yīng)向量y和有序的單變量x估計向量
θ=(θ1,θ2,…,θn),
其中
θi=E[yi|xi]=f(xi) , 具體模型表達(dá)式如下: 其中,λ>0為調(diào)優(yōu)參數(shù),差分矩陣 上述方法將部分系數(shù)和系數(shù)之間的差收縮為0,得到模型系數(shù)的稀疏解和系數(shù)差分的稀疏解,使相鄰系數(shù)之間更平滑. Kim等[15]將討論擴(kuò)展到單變量非參數(shù)趨勢濾波罰模型,并將趨勢濾波罰函數(shù)定義為輸入數(shù)據(jù)上的k+ 1階差分算子,將融合Lasso歸納為k= 0的情況.之后,Tibshirani[16]將趨勢濾波罰與樣條方法進(jìn)行詳細(xì)對比.研究發(fā)現(xiàn),相比平滑樣條方法,非參數(shù)趨勢濾波方法在模型的擴(kuò)展性、理論分析、算法實(shí)現(xiàn)、局部自適應(yīng)等方面都具有優(yōu)勢. xi=(xi1,xi2,…,xip)∈Rp 為p維向量.給定分位數(shù)τ∈(0,1).加性分位數(shù)回歸模型有如下形式: 令 省略τ,則估計的加性分位數(shù)回歸模型: 其中 F(yi|xi)表示xi條件下yi的累積分布函數(shù),隨機(jī)誤差εi滿足 P(εi≤0|xi)=τ. 此外,令 可提升模型的可識別性. 令 其中,損失函數(shù) 非對稱絕對偏差函數(shù) ρτ(t)=(τ-1{t≤0})t. 相比傳統(tǒng)的均值回歸,加性分位數(shù)回歸通過對不同分位數(shù)的目標(biāo)函數(shù)進(jìn)行建模,捕捉協(xié)變量在不同分位數(shù)上的非對稱性,有利于處理偏態(tài)數(shù)據(jù)和非線性關(guān)系.加性分位數(shù)回歸可靈活適應(yīng)于不同的數(shù)據(jù)分布和模型假設(shè),不需要對數(shù)據(jù)的正態(tài)分布和模型的線性關(guān)系進(jìn)行假設(shè),對異常值和離群點(diǎn)具有較好的魯棒性,適用于各種類型的數(shù)據(jù)和問題.此外,加性分位數(shù)回歸還可用于構(gòu)造預(yù)測區(qū)間,而均值回歸只能提供不同位置的點(diǎn)估計. 擬合加性分位數(shù)模型的方法通常使用樣條函數(shù)逼近分量.但樣條函數(shù)的性能很大程度上取決于預(yù)先選定的節(jié)點(diǎn),如果節(jié)點(diǎn)數(shù)量過多或位置選擇不當(dāng),可能會出現(xiàn)過擬合現(xiàn)象.此外,樣條函數(shù)的計算復(fù)雜度相對較高,特別是在高維數(shù)據(jù)或復(fù)雜形狀下,這可能導(dǎo)致計算時間較長或需要更高的計算資源,因此本文提出基于融合Lasso的非參數(shù)加性分位數(shù)回歸模型(AQFL). 融合Lasso罰是一種用于變量選擇和估計的統(tǒng)計方法,本文將其應(yīng)用于非參數(shù)加性分位數(shù)回歸,提出如下模型: (1) 其中, λ≥0,Xj=(x1j,x2j,…,xnj)T, Pj表示將向量Xj從小到大排序的置換矩陣.可將DPj作為一個整體,若DPj的第q行元素 則DPjθj的第q個元素 (DPjθj)q=θlj-θkj. 此外,融合Lasso罰函數(shù)通過對模型參數(shù)施加稀疏性懲罰,自動選擇對目標(biāo)函數(shù)具有重要影響的變量,從而提高模型的解釋能力和泛化能力.這種方法將模型參數(shù)推向0附近,有效減少過擬合的風(fēng)險.通過稀疏性懲罰,還可減少異常值和噪聲對估計結(jié)果的影響,提高模型的魯棒性. 在高維數(shù)據(jù)中,本文希望對響應(yīng)影響較小的協(xié)變量函數(shù)值為0,進(jìn)而添加一個l2罰,并在兩個罰項間折衷.由此得到如下優(yōu)化問題: (2) 其中0≤α≤1.α在鼓勵θj成為分段常數(shù)和在整個向量θj上使用組Lasso誘導(dǎo)稀疏性之間提供一種權(quán)衡[17],從而實(shí)現(xiàn)模型擬合和變量選擇的同時進(jìn)行.本文稱式(2)為AQFL. 首先考慮單個變量時如何求解估計器.當(dāng)p= 1時,式(2)改為 (3) 使用ADMM求解,將式(3)重寫為 上式的增廣拉格朗日表達(dá)式為 (4) 其中R為更新中控制步長的懲罰參數(shù).通過迭代更新下式以求解式(4): (5) (6) u←u+θ-z, (7) 其中u為拉格朗日乘子.式(5)有如下形式的閉式解: (8) 式(6)有如下估計[18]: (9) 上式可使用現(xiàn)有的求解器,如R語言中的glmgen包進(jìn)行計算. 當(dāng)p>1時,使用塊坐標(biāo)下降法得到全局最優(yōu)解,步驟如算法1所示. 算法1BC-ADMM step 2 循環(huán) j= 1,2,…,p,1,2,…,p,1,2,…,p,… step 2.1 計算殘差 step 2.2 由ADMM求解式(3): step 2.1.1 初始化 step 2.1.2 循環(huán)k=1,2,…,直至 或達(dá)到最大迭代次數(shù)Niter. step 2.3 計算截距: 并居中 step 3 重復(fù)step 2,直至式(2)收斂. 調(diào)優(yōu)參數(shù)λ的選擇至關(guān)重要,本節(jié)討論AQFL的解不全為0的充分條件,從而得到參數(shù)λ的取值范圍,并給出選擇最優(yōu)模型的兩種方法. 在α= 0,1時,分別研究如何選擇變量λ的值,使AQFL的解 成立,從而得到λ的取值范圍. 引理1定義 λ≥‖VTγ(0)‖∞; 當(dāng)α= 0時,式(2)的解全為0當(dāng)且僅當(dāng) λ≥‖γ(0)‖2. 其中 證明若 為 (10) 當(dāng)α= 1時,令 βj=DPjθj, 則有 令 得到式(10)的最優(yōu)性條件 -VTγ(β)+λs(β)=0, 其中 γ(β)=(τ-1{y1<(Vβ)1}, τ-1{y2<(Vβ)2},…,τ-1{yn<(Vβ)n})T. 當(dāng)βj≠0時, s(βj)=sign(βj); 當(dāng)βj=0時, s(βj)∈[-1,1]. 若β=0,有 -VTγ(0)+λs(0)=0 成立當(dāng)且僅當(dāng) λ≥‖VTγ(0)‖∞. 當(dāng)α= 0時,式(2)的最優(yōu)性條件 -γ(θj)+λs(θj)=0,j= 1,2,…,p. 當(dāng)θj≠0時, 當(dāng)θj=0時, s(θj)∈{g∶‖g‖2≤1}. 若θj=0,j= 1,2,…,p, -γ(0)+λs(0)=0 成立當(dāng)且僅當(dāng) λ≥‖γ(0)‖2. 由引理1可得AQFL的解不全為0的充分條件. 推論1?α∈[0,1],若式(2)的解不完全為0,則 推論1的結(jié)果給出參數(shù)λ的合適范圍.根據(jù)推論1的計算結(jié)果,最大值記為λmax,這意味著當(dāng)λ值超過λmax時,整體擬合將達(dá)到完全稀疏性(即式(2)的解全為0). 因此,本文將λ設(shè)置在0.01×λmax到λmax之間,在這個范圍內(nèi)選擇合適的稀疏性水平. 調(diào)優(yōu)參數(shù)λ的選擇是模型估計中一個重要的實(shí)際問題,控制估計器的平滑程度.AQFL的λ值可通過K折交叉驗證或基于貝葉斯信息準(zhǔn)則(Bayesian Information Criterion, BIC)選擇.分位數(shù)回歸的BIC[19]計算公式如下: 其中,σ>0,可經(jīng)驗地選擇為 v等于罰項的非零元素的個數(shù)[20]. 從而將均值回歸上的評估指標(biāo)推廣到分位數(shù)回歸.它類似于Huber損失函數(shù),在最小二乘代價函數(shù)和l1范數(shù)代價函數(shù)之間折衷,因此對數(shù)據(jù)中的異常值不太敏感.本文利用這一損失函數(shù)證明AQFL存在風(fēng)險上界,具有較快的收斂速率. 為了簡單起見,假設(shè)y在本節(jié)中的均值為0.令{an}?R,{bn}?R為2個正序列.如果存在常數(shù)C>0和n0>0,使得對n≥n0有an≤Cbn,記 an=O(bn). 若對于?ε>0,存在C>0,使得 P(an≥Cbn)<ε 成立,記 an=OP(bn); 若 an=OP(bn),bn=OP(an), 則記 an=Θ(bn). 首先為加性分位數(shù)回歸的理論分析做出如下假設(shè)1. 假設(shè)1令 則 假設(shè)2[6]若存在一個常數(shù)L>0,使得 ‖δ‖∞≤L, 其中fyi|xi為給定xi時yi的條件概率密度. 假設(shè)2確保yi對應(yīng)的分位數(shù)是唯一的,并且累積分布函數(shù)在分位數(shù)的鄰域周圍呈一致的線性增長.這是對yi分布的一個普遍假設(shè),適用于大多數(shù)常見的分布序列.通過上述假設(shè),有如下定理1成立. 成立.特別地,當(dāng)α= 1時,若 至少有1-ε/2的概率使得 成立. 定理1表明,當(dāng)α= 1時,模型(2)至少有n-1/2的收斂速率(忽略對數(shù)因子).隨著α的減小,收斂速率越來越慢,但模型仍是收斂的.為了證明定理1,首先引入定義1. 定義1[6]定義經(jīng)驗損失函數(shù): 其中 令 使用定義1中的符號,考慮M-估計量: 且 假設(shè) θ*∈S?Rnp, 其中S表示貫穿本節(jié)的一般約束集. 定義2[7]對集合S?Rnp,S的次高斯寬度定義為 其中s1,s2,…,snp為獨(dú)立的1-次高斯隨機(jī)變量. 令 Dj∶=DPj,j=1,2,…,p, 將式(2)改寫為 其中 因此,構(gòu)造矩陣 D=diag{D1,D2,…,Dp}(n-1)p×np, 其廣義逆 Ξ=diag{Π1,Π2,…,Πp}np×np, Πj表示Ker(Dj)上的投影矩陣,則 D?D=Inp-Ξ. 引理2若假設(shè)1和假設(shè)2成立,令δ∈Rnp,滿足 Δ2(Wδ)≤t2, 則 SGW({δ∶δ∈S,Δ2(Wδ)≤t2})≤ 有了上述定義和引理作為基礎(chǔ),現(xiàn)可給出定理1的證明. 證明固定μ∈[0,1],令 (11) 其中, 因此 其中, (12) 式(12)可由文獻(xiàn)[7]中引理20得到,c為正常數(shù).由文獻(xiàn)[21]知,至少有1-2ε的概率使得 其中c1、c2均為正常數(shù).因此,令λ=2R2,存在常數(shù)C> 0,使得 (13) 成立的概率至少為1-2ε. 令 設(shè)函數(shù) 顯然,g為連續(xù)函數(shù),且 g(0)=0,g(1)=q2. 有 由不等式(11)可知, 因此 故 (14) 令ε∈(0,1),假設(shè)事件 發(fā)生的概率至少為1-ε/2,則 因此根據(jù)式(14)、 馬爾可夫不等式和三角不等式, 定義 H(η)={δ∈A∶Δ(Wδ)≤η}. 若δ∈H(η)且I成立,則由式(13)可定義 則由文獻(xiàn)[7]的引理15、引理16和本文引理2可知, 成立,其中常數(shù)cγ>1.根據(jù)文中的符號定義, 特別地,當(dāng)α=1時,選擇λ=2R1,取 有 1)均方誤差(Mean Square Error, MSE): 2)平均絕對誤差(Mean Absolute Error, MAE): 3)平均檢驗誤差(Mean Check Error, MCE): 4)真變量(True Vector, TV):正確包含在模型中的非零協(xié)變量的數(shù)目. 6)最小比(Proportion Smaller, PS):測試集上響應(yīng)真實(shí)值的最小值和其預(yù)測值的比例,PS的值應(yīng)接近τ. 本節(jié)選擇如下對比方法:QGAM(Quantile Gene- ralized Additive Models)[4]、QA-SCAD[5]和FLAM(Fu- sed Lasso Additive Model)[18],驗證AQFL的優(yōu)越性.QGAM基于秩為30的三次回歸樣條基數(shù),利用qgam包實(shí)現(xiàn).QA-SCAD使用rqPen包實(shí)現(xiàn),參數(shù)設(shè)置為a= 3.7,罰函數(shù)為SCAD(Smoothly Clipped Absolute Deviation)罰,算法選擇QICD(Quantile Iterative Coordinate Descent).FLAM使用flam包實(shí)現(xiàn),采用K折交叉驗證選取參數(shù)λ. σjk=0.5|j-k|. 其次,在向量a=(a1,a2,…,ap)T∈Rp上定義 Φ(a)={Φ(a1),Φ(a2),…,Φ(ap)}T∈Rp, 5.2.1 低維合成數(shù)據(jù)實(shí)驗 從如下3種問題的模型中分別生成500個訓(xùn)練樣本,并從同一模型生成1 000個測試樣本. 1)問題1: 2)問題2: 3)問題3: 其中, 圖1為數(shù)據(jù)的生成圖,其中fj為分段常數(shù)函數(shù)或在定義域的某些區(qū)域恒定其它區(qū)域高度可變的函數(shù),用于說明AQFL的局部自適應(yīng)性.進(jìn)而由問題1~問題3得到服從正態(tài)分布、重尾分布和具有異方差性質(zhì)的數(shù)據(jù),說明AQFL可靈活適應(yīng)于不同的數(shù)據(jù)分布和模型假設(shè).將問題1~問題3稱為低維設(shè)置.問題1和問題2是同方差的,第τ分位數(shù) Q(yi|xi)(τ)=f1(xi1)+f2(xi2)+f3(xi3)+f4(xi4)+Φ-1(τ), 主要關(guān)注中位數(shù)τ= 0.5的情況.問題3是異方差的,第τ條件分位數(shù) Q(yi|xi)(τ)=f1(xi1)+f2(xi2)+f3(xi3)+f4(xi4)Φ-1(τ), 主要關(guān)注分位數(shù)τ= 0.9,0.1的情況. 分位數(shù)回歸方法可直接對分位數(shù)進(jìn)行建模,但均值回歸方法不能提供非中位數(shù)的估計值,所以對于問題3生成的數(shù)據(jù),本文只對比分位數(shù)估計器. (a)f1(b)f2 (c)f3(d)f4 為了全面評估AQFL的性能,本文對3種不同的問題下生成的數(shù)據(jù)進(jìn)行模擬實(shí)驗.在實(shí)驗中,使用測試集MSE最小時對應(yīng)的調(diào)優(yōu)參數(shù)λ評估AQFL.依據(jù)定理1結(jié)論,取參數(shù)α= 0.5,0.75,1,用于提升模型的收斂性.由于QGAM只適用于低維情況,所以在低維數(shù)據(jù)上計算測試集的MSE、MCE和PS值,對比AQFL、QGAM和FLAM的性能.在對中位數(shù)建模時,MAE是MCE的2倍.因此,FLAM通過MAE值除以2得到MCE值.為了可靠評估3個模型的性能,對每個模型的模擬實(shí)驗重復(fù)運(yùn)行50次. 在低維情況下,3個模型在問題1~問題3上的擬合結(jié)果如表1所示.由表可知,在低維數(shù)據(jù)上,QFAL在α=1時效果最優(yōu),因此本節(jié)主要對比α=1時的實(shí)驗結(jié)果.在問題1中,FLAM擬合效果更優(yōu)的原因是它擬合均值模型,而AQFL(τ=0.5)擬合中位數(shù)模型.因為正態(tài)分布的均值是其位置參數(shù),均值回歸在正態(tài)分布的數(shù)據(jù)上通常能夠更好地捕捉數(shù)據(jù)的整體趨勢,從而產(chǎn)生較小的MSE.問題2中AQFL的各指標(biāo)值都優(yōu)于其它兩個模型,充分說明相比均值回歸模型,分位數(shù)模型更適合具有重尾分布的數(shù)據(jù).在問題3的異方差特征的數(shù)據(jù)中,相比QGAM,AQFL在不同分位數(shù)水平上的擬合效果更優(yōu).因此,AQFL在預(yù)測方面做得更優(yōu).此外,在區(qū)域的一個部分快速變化而在另一個部分恒定的數(shù)據(jù)上,AQFL比QGAM擬合效果更優(yōu),說明AQFL具有局部自適應(yīng)性. 表1 低維情況下各模型在3個問題上的擬合結(jié)果 本文使用問題1中的響應(yīng)生成方式,即使用參數(shù)α= 1和MSE最小時對應(yīng)的λ值繪制圖2,對比FLAM、AQFL(τ=0.5)和QGAM(τ=0.5)在4個函數(shù)上的預(yù)測曲線以及它們重復(fù)50次后的標(biāo)準(zhǔn)誤差,其中,AQFL和FLAM使用自舉法,逐點(diǎn)計算標(biāo)準(zhǔn)誤差. (a1)FLAM (a2)QGAM (a3)AQFL (b1)FLAM (b2)QGAM (b3)AQFL (c1)FLAM (c2)QGAM (c3)AQFL (d1)FLAM (d2)QGAM (d3)AQFL 5.2.2 高維合成數(shù)據(jù)實(shí)驗 本節(jié)考慮在5.2.1節(jié)的問題1~問題3上添加96個噪聲函數(shù)(即f5=0,f6=0,…,f100=0)的高維設(shè)置.為簡單起見,仍記為問題1~問題3,參數(shù)α和λ等其它設(shè)置與5.2.1節(jié)一致,并在高維數(shù)據(jù)的計算中增加TV和NZ兩個評估標(biāo)準(zhǔn),以評估AQFL、QA-SCAD和FLAM預(yù)測和變量選擇的性能.為了可靠評估3個模型的性能,對每個模型的模擬實(shí)驗重復(fù)運(yùn)行50次. 在高維情況下,3個模型在問題1~問題3上的擬合結(jié)果如表2所示.由表可見,在具有噪聲函數(shù)的高維數(shù)據(jù)上,AQFL在α= 0.75時的指標(biāo)值最優(yōu).當(dāng)α= 1時,AQFL只能將模型參數(shù)推向0附近,無法實(shí)現(xiàn)與α< 1的AQFL相當(dāng)?shù)南∈栊?這充分說明模型添加l2罰對變量選擇的重要性.而在α= 0.5時,l2罰函數(shù)作用增加,可能會過度懲罰一些模型參數(shù),使原本非零的變量整體為0. 因此,本節(jié)主要對比α= 0.75時的實(shí)驗結(jié)果.FLAM在問題1上擬合效果更優(yōu),這與低維設(shè)置中的原因一致. 下面重點(diǎn)關(guān)注TV和NZ兩個反映模型能否正確進(jìn)行變量選擇的指標(biāo).在問題1和問題2中,AQFL、FLAM和QA-SCAD都包含真正的協(xié)變量.因為只有4%的變量是真正的非零變量,而AQFL選擇很多實(shí)際為0的無關(guān)變量,所以QA-SCAD的NZ值略優(yōu)于AQFL.可通過類比最小二乘設(shè)置中的Lasso來理解這種現(xiàn)象.當(dāng)使用預(yù)測精度MSE選擇Lasso的調(diào)優(yōu)參數(shù)時,Lasso在模型預(yù)測和變量選擇上實(shí)現(xiàn)的效果通常是不一致的[22],故本節(jié)選擇的調(diào)優(yōu)參數(shù)有利于預(yù)測,但不利于變量選擇.在異方差數(shù)據(jù)的問題3中,對于TV標(biāo)準(zhǔn),AQFL效果更優(yōu),可正確選擇非零變量,而QA-SCAD會導(dǎo)致系數(shù)過度收縮,不能正確選擇非零的變量,因此AQFL更適合在有維數(shù)噪聲的高維數(shù)據(jù)上實(shí)現(xiàn)極端分位數(shù)的預(yù)測和變量選擇. 表2 高維情況下各模型在3個問題上的擬合結(jié)果 在高維情況下,AQFL、FLAM和QA-SCAD在不同問題上生成響應(yīng)數(shù)據(jù),共計訓(xùn)練50次,并對訓(xùn)練時間取平均值,結(jié)果如圖3所示.針對問題3的異方差數(shù)據(jù),FLAM不能提供非中位數(shù)的估計值,因此只對比AQFL和QA-SCAD的訓(xùn)練時間.由圖可見,AQFL在訓(xùn)練時間上處于中等水平.這是因為FLAM只能處理均值回歸模型,而AQFL基于分位數(shù)損失函數(shù),需要更多的迭代步驟找到全局最優(yōu)解,導(dǎo)致訓(xùn)練時間增加.在處理加性分位數(shù)回歸問題時,相比QA-SCAD,AQFL在3個問題上都具有更高的訓(xùn)練效率.因此,AQFL在實(shí)際應(yīng)用中仍具有一定的優(yōu)勢. 圖3 高維情況下各模型在不同問題上的訓(xùn)練時間對比 為了體現(xiàn)AQFL優(yōu)勢,在一組真實(shí)數(shù)據(jù)上進(jìn)行實(shí)驗,并與QA-SCAD[5]進(jìn)行對比.本文分析來自faraway包中通過測量240個碎豬肉樣品的脂肪含量和100通道吸收光譜獲得的215個樣本,刪除5個具有離群值的觀測值,留下210個樣本,從中隨機(jī)抽取200個樣本作為訓(xùn)練數(shù)據(jù),另外10個樣本作為測試數(shù)據(jù).由于信道頻譜數(shù)據(jù)高度相關(guān),所以使用前30個主成分轉(zhuǎn)換預(yù)測因子.主成分居中并按比例排列,使其平均值為0,標(biāo)準(zhǔn)差為1.使用30個主成分作為協(xié)變量對脂肪含量的對數(shù)進(jìn)行擬合. 擬合分位數(shù)回歸模型需要選擇τ.2個τ值可用于創(chuàng)建一個不需要對誤差進(jìn)行參數(shù)假設(shè)的預(yù)測區(qū)間.例如,τ= 0.1,0.9的模型可用于創(chuàng)建80%的預(yù)測區(qū)間.如果對整個條件分布感興趣,可使用更大范圍的τ值.為了估計整個條件分布,定義多個τ值檢驗AQFL,取 τ∈Τ= {0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9}. 參數(shù)λ選擇如5.2節(jié)所述,計算過程重復(fù)100次. 使用MSE(τ= 0.5)、MAE(τ= 0.5)、MCE(τ∈Τ)和QB(τ∈Τ)這4個標(biāo)準(zhǔn)評估模型.從5.2.2節(jié)實(shí)驗知α= 0.75時效果最優(yōu),所以表3對比AQFL(α= 0.75)和QA-SCAD的平均值,由此說明AQFL能夠適應(yīng)不同的數(shù)據(jù)類型. 表3 AQFL和QA-SCAD在對碎豬肉數(shù)據(jù)的指標(biāo)值平均值 分段型數(shù)據(jù)在實(shí)際數(shù)據(jù)中很常見,因此準(zhǔn)確估計具有這種結(jié)構(gòu)的數(shù)據(jù)是一個重要的研究課題,然而在多元情況下,缺乏關(guān)于分段數(shù)據(jù)的穩(wěn)健估計.因此,本文提出基于融合Lasso的非參數(shù)加性分位數(shù)回歸模型(AQFL),并給出相應(yīng)算法,有效計算優(yōu)化問題的解,從理論角度證明模型的預(yù)測一致性.在合成數(shù)據(jù)和真實(shí)數(shù)據(jù)上的實(shí)驗評估AQFL的性能,實(shí)驗表明,AQFL具有較優(yōu)的魯棒性和局部適應(yīng)性,并且研究結(jié)果具有一定的推廣價值.
x11.2 加性分位數(shù)回歸
2 基于融合Lasso的非參數(shù)加性分位數(shù)回歸模型
2.1 模型建立
2.2 求解算法
3 參數(shù)分析
3.1 λ的取值范圍
3.2 λ的選擇
4 理論分析
5 實(shí)驗及結(jié)果分析
5.1 評估標(biāo)準(zhǔn)
5.2 合成數(shù)據(jù)實(shí)驗
5.3 碎豬肉數(shù)據(jù)實(shí)驗
6 結(jié) 束 語