韓耀風(fēng) 覃文峰 陳 煒 李博涵 滕伯剛 方 亞△
adaptive LASSO logistic回歸模型應(yīng)用于老年人養(yǎng)老意愿影響因素研究的探討*
韓耀風(fēng)1,2覃文峰1,2陳 煒1,2李博涵1,2滕伯剛1,2方 亞1,2△
目的 探討adaptive LASSO logistic回歸模型在老年人養(yǎng)老意愿影響因素研究中的應(yīng)用。方法 基于廈門市60歲及以上老年人口的多階段整群抽樣調(diào)查數(shù)據(jù),建立老年人養(yǎng)老意愿影響因素的adaptive LASSO logistic回歸模型,通過交叉驗(yàn)證法選擇模型中的調(diào)和參數(shù)λ;通過與全變量和逐步logistic回歸結(jié)果的比較,探討adaptive LASSO logistic回歸模型的優(yōu)勢。結(jié)果 共納入1244名老年人,其養(yǎng)老意愿為家庭養(yǎng)老、社區(qū)居家養(yǎng)老和機(jī)構(gòu)養(yǎng)老的比例分別為70.0%、21.1%和8.9%。交叉驗(yàn)證法選擇的λ 為0.018;此時(shí)adaptive LASSO logistic回歸模型納入的自變量為居住地、年齡、婚姻狀況、文化程度、子女?dāng)?shù)、每月退休金收入、公費(fèi)醫(yī)療和住院情況;BIC和AIC分別為1931、1888,均低于全變量logistic回歸(2077、1923)和逐步logistic回歸(2025、1912)。結(jié)論 adaptive LASSO logistic 回歸模型可用于老年人養(yǎng)老意愿影響因素研究。老年人的養(yǎng)老意愿受多個(gè)因素影響。
adaptive LASSO logistic 回歸模型 養(yǎng)老模式 影響因素
2010 年第六次全國人口普查結(jié)果顯示,中國60 歲及以上老齡人口已達(dá)到 1.78億,所占比例從 2000 年的 10.2%增至 13.3%[1]。隨著老齡化速度的不斷加快,在經(jīng)濟(jì)發(fā)展與社會結(jié)構(gòu)轉(zhuǎn)型的過程中,傳統(tǒng)家庭養(yǎng)老和單純的機(jī)構(gòu)養(yǎng)老遠(yuǎn)遠(yuǎn)不能滿足當(dāng)今社會的養(yǎng)老需求。在此背景下社區(qū)居家養(yǎng)老應(yīng)運(yùn)而生,形成了多種養(yǎng)老方式并存的多元化養(yǎng)老模式。老年人養(yǎng)老意愿的影響因素復(fù)雜,如何選擇自變量是研究的關(guān)鍵點(diǎn)。本研究擬基于對廈門市老年人養(yǎng)老意愿的調(diào)查數(shù)據(jù),探討adaptive LASSO logistic回歸模型在老年人養(yǎng)老意愿影響因素分析研究中的應(yīng)用,分析老年人養(yǎng)老意愿的影響因素,為完善多元化養(yǎng)老模式提供依據(jù)。
1.LASSO logistic回歸模型
對于多變量logistic回歸問題,一般常使用變量子集選擇的方法來選擇變量。Zou等人[2]提出變量子集選擇有兩點(diǎn)限制:首先,當(dāng)變量的個(gè)數(shù)較多時(shí),子集選擇的運(yùn)算量龐大,甚至可能無法運(yùn)算;其次,因?yàn)樽蛹x擇方法存在內(nèi)在離散性[3],子集選擇的結(jié)果是不穩(wěn)定的[4]。
作為變量子集選擇的替代方案,逐步回歸克服了變量較多時(shí)的運(yùn)算量問題,但是得到的結(jié)果仍具有內(nèi)在離散性和不穩(wěn)定性[3-4]。同時(shí)逐步回歸得到的結(jié)果一般為局部最優(yōu)解而不是全局最優(yōu)解[2],且忽略了變量選擇過程中的隨機(jī)誤差和不確定性[5-6]。
LASSO方法[6-8]用模型的絕對系數(shù)函數(shù)作為懲罰項(xiàng)來壓縮模型的系數(shù),使絕對值較小的系數(shù)為0,達(dá)到同時(shí)進(jìn)行變量選擇和參數(shù)估計(jì)的目的,而傳統(tǒng)方法變量選擇和參數(shù)估計(jì)是分開進(jìn)行的。LASSO方法很好地克服了逐步回歸變量選擇方法的局限性,同時(shí)又保留了子集選擇和嶺回歸的優(yōu)良性質(zhì)。采用LASSO方法選擇自變量而建立的logistic回歸模型即為LASSO logistic回歸模型。
假設(shè)有獨(dú)立同分布的觀測值(Xi,yi),i=1,2,…,n,其中Xi(xi1,…,xip)和yi是模型的自變量和因變量。logistic回歸模型的條件概率如式(1)所示。
(1)
其中
(2)
(3)
其中λ是一個(gè)非負(fù)的正則化參數(shù),它決定了LASSO logistic回歸模型系數(shù)的壓縮程度,稱為調(diào)和參數(shù)。隨著λ 的增大,各個(gè)變量系數(shù)估計(jì)值逐漸被壓縮,當(dāng)λ足夠大時(shí),一些變量系數(shù)被壓縮為0。研究表明,LASSO方法具有優(yōu)良的理論性質(zhì),適合于稀疏的多變量回歸問題[9-11]。選擇λ的常用方法有自助法、交叉驗(yàn)證法、廣義交叉驗(yàn)證法等。在交叉驗(yàn)證法中,每個(gè)子樣本驗(yàn)證一次,交叉重復(fù)n次,得到n次的模型擬合情況,從中選擇最優(yōu)λ。
2.adaptive LASSO logistic回歸模型
LASSO logistic 模型雖然可以較好地進(jìn)行多變量的選擇,但得到的結(jié)果是有偏估計(jì),且不具有模型的相合性和參數(shù)估計(jì)漸進(jìn)正態(tài)性,即不具有Oracle Property(哲人性質(zhì))[2,4]。Zou等人于2006年提出了一個(gè)改進(jìn)的LASSO方法,被稱為adaptive LASSO方法[2]。adaptive LASSO logistic回歸模型既具有LASSO logistic回歸模型的優(yōu)點(diǎn),同時(shí)估計(jì)結(jié)果具有漸進(jìn)無偏性和Oracle Property。
(4)
(5)
1.資料來源
采用橫斷面調(diào)查的方法,調(diào)查廈門市60歲及以上常住老年人,調(diào)查內(nèi)容包括個(gè)人信息(性別、年齡、子女?dāng)?shù)、婚姻情況、文化程度、居住地)、生活基本情況(每月退休金、城鎮(zhèn)職工基本醫(yī)療保險(xiǎn)、城鎮(zhèn)居民基本醫(yī)療保險(xiǎn)、公費(fèi)醫(yī)療)、健康狀況(健康自評、是否曾住院)和養(yǎng)老意愿(家庭養(yǎng)老、社區(qū)居家養(yǎng)老、機(jī)構(gòu)養(yǎng)老)等信息。
2.統(tǒng)計(jì)分析
采用Epidata 3.1軟件進(jìn)行雙人雙錄入資料,使用 R 3.2.0 進(jìn)行統(tǒng)計(jì)分析。本研究使用卡方檢驗(yàn)分析分類變量與養(yǎng)老意愿的關(guān)系,通過建立adaptive LASSO logistic回歸模型分析老年人養(yǎng)老意愿的影響因素,其中λ 的選擇使用交叉驗(yàn)證法。將adaptive LASSO logistic模型與全變量logistic回歸、逐步logistic回歸進(jìn)行比較,采用AIC和BIC準(zhǔn)則評估adaptive LASSO logistic回歸模型的擬合效果。檢驗(yàn)水準(zhǔn)取α=0.05。
1.基本情況
本次調(diào)查共發(fā)放問卷1328份,回收有效問卷1244份,有效應(yīng)答率為93.67%。1244名老年人的年齡60~100歲,中位年齡71 歲;其養(yǎng)老方式選擇意愿的分布分別為家庭養(yǎng)老(70.0%)、社區(qū)居家養(yǎng)老(21.1%)、機(jī)構(gòu)養(yǎng)老(8.9%)。各分析變量及養(yǎng)老方式意愿情況見表1。
2.老年人養(yǎng)老方式選擇的單因素分析
對各分類變量與養(yǎng)老方式選擇進(jìn)行單因素卡方檢驗(yàn),結(jié)果見表1。其中居住地、文化程度、每月退休金、城鎮(zhèn)職工基本醫(yī)療保險(xiǎn)、城鎮(zhèn)居民基本醫(yī)療保險(xiǎn)、公費(fèi)醫(yī)療、是否曾住院等因素有統(tǒng)計(jì)學(xué)意義(P<0.05)。
3.老年人養(yǎng)老方式選擇的多因素分析
(1)變量選擇與模型估計(jì)
在單因素分析的基礎(chǔ)上,以居住地、年齡、子女?dāng)?shù)、文化程度、每月退休金、城鎮(zhèn)職工基本醫(yī)療保險(xiǎn)、城鎮(zhèn)居民基本醫(yī)療保險(xiǎn)、公費(fèi)醫(yī)療、是否曾住院等因素作為自變量,建立logistic回歸模型,分析它們對養(yǎng)老方式選擇的影響,各變量的賦值情況見表2。
以家庭養(yǎng)老為參照,利用R軟件包glmnet[12]進(jìn)行adaptive LASSO logistic回歸模型分析。通過交叉驗(yàn)證得到模型誤差與λ的關(guān)系,折疊次數(shù)為10次,結(jié)果如圖1示。由圖1可見,模型誤差最小時(shí)對應(yīng)的λ為0.018,此時(shí)入選的變量有居住地、年齡、婚姻狀況、文化程度、子女?dāng)?shù)、每月退休金、參加公費(fèi)醫(yī)療和住院情況,即這些因素為老年人養(yǎng)老方式選擇的影響因素。
表1 各分析變量的養(yǎng)老方式意愿情況
表2 變量賦值表
圖1 Lambda與模型誤差
*:上方的數(shù)字為模型變量選擇數(shù);橫坐標(biāo)()內(nèi)的數(shù)字為λ
圖2為隨著λ 值的變化模型變量的篩選情況??梢姡S著λ 增大,模型壓縮程度增大,模型中包含的自變量個(gè)數(shù)減少,模型選擇主要變量的功能增強(qiáng)。
(2)模型的參數(shù)估計(jì)
為了對比LASSO變量選擇的結(jié)果,本研究還建立了全變量logistic回歸模型和逐步logistic回歸模型。各模型的參數(shù)估計(jì)及AIC和BIC結(jié)果見表3,其中adaptive LASSO logistic回歸模型的AIC和BIC均為最小,而全變量logistic回歸的AIC和BIC均為最大。
表3 不同回歸模型參數(shù)估計(jì)結(jié)果
*:P<0.1,**:P<0.05,***:P<0.01。
對于多變量選擇問題,子集選擇具有運(yùn)算量大和變量選擇結(jié)果不穩(wěn)定的缺點(diǎn)。逐步回歸克服了較多變量時(shí)子集選擇的運(yùn)算量問題,但是變量子集選擇具有內(nèi)在的不連續(xù)性,從而導(dǎo)致變量子集選擇的結(jié)果不穩(wěn)定,逐步回歸方法得到的變量選擇結(jié)果并不一定是最佳子集[6]。逐步回歸方法還忽略了變量選擇過程中的隨機(jī)誤差和不確定性。adaptive LASSO logistic模型使用絕對系數(shù)函數(shù)作為懲罰項(xiàng)來壓縮模型的系數(shù),同時(shí)在參數(shù)估計(jì)時(shí)對于不同的系數(shù)分配了不同的權(quán)重。它既具有LASSO logistic回歸模型的優(yōu)點(diǎn),同時(shí)參數(shù)的估計(jì)結(jié)果具有漸進(jìn)無偏性和Oracle Property。adaptive LASSO logistic回歸模型很好地克服了傳統(tǒng)變量選擇方法在選擇模型方面的不足,同時(shí)又保留了子集選擇和嶺回歸的優(yōu)良性質(zhì),適合于多個(gè)影響因素研究中的變量選擇問題。本研究以廈門市60歲及以上常住老年人的養(yǎng)老意愿數(shù)據(jù)為基礎(chǔ),擬合全變量logistic回歸、逐步logistic回歸和adaptive LASSO logistic回歸模型。結(jié)果發(fā)現(xiàn),adaptive LASSO logistic回歸模型的AIC值和BIC值均小于全變量logistic回歸、逐步logistic回歸,說明adaptive LASSO logistic回歸模型對數(shù)據(jù)的擬合效果最好。
老年人養(yǎng)老方式選擇的影響因素較為復(fù)雜,往往受多種因素的影響。本研究的單因素分析、adaptive LASSO logistic回歸模型、全變量logistic回歸模型和逐步logistic回歸模型均顯示,居住地、年齡、文化程度、公費(fèi)醫(yī)療和住院情況與養(yǎng)老方式的選擇有關(guān)聯(lián)。在本次調(diào)查中,城市老年人選擇家庭養(yǎng)老的比例高于農(nóng)村,而農(nóng)村老年人選擇機(jī)構(gòu)養(yǎng)老的比例低于城鎮(zhèn);趙海林等人對淮安市的研究和譚小林等對重慶市老年人的調(diào)查也發(fā)現(xiàn)這樣的差異性[13-14]。本研究發(fā)現(xiàn)隨著年齡的增長,老年人選擇家庭養(yǎng)老的可能性降低。劉小春等人對江西省的研究發(fā)現(xiàn),年齡越長者越傾向于選擇機(jī)構(gòu)養(yǎng)老模式,年齡越小者越傾向于選擇家庭養(yǎng)老模式或社區(qū)居家養(yǎng)老模式[15]。但陳玉蘭等的研究發(fā)現(xiàn),老年人的年齡越小,越傾向選擇機(jī)構(gòu)養(yǎng)老和社區(qū)居家養(yǎng)老[19]。國內(nèi)多數(shù)學(xué)者均發(fā)現(xiàn),文化程度是老年人養(yǎng)老意愿的影響因素,文化程度越高,選擇機(jī)構(gòu)養(yǎng)老和社區(qū)居家養(yǎng)老的比例越高,而文化程度越低,選擇家庭養(yǎng)老的比例越高[15-17]。本研究還發(fā)現(xiàn)享有公費(fèi)醫(yī)療的老年人選擇機(jī)構(gòu)養(yǎng)老和社區(qū)居家養(yǎng)老的比例高于未享有公費(fèi)醫(yī)療的,而后者選擇家庭養(yǎng)老的比例高于前者;曾住院的老年人選擇機(jī)構(gòu)養(yǎng)老和社區(qū)居家養(yǎng)老的比例高于未曾住院的,而后者選擇家庭養(yǎng)老的比例高于前者。目前很少有學(xué)者關(guān)注公費(fèi)醫(yī)療、住院情況與養(yǎng)老意愿的關(guān)系。本研究的adaptive LASSO logistic回歸模型、全變量logistic回歸和逐步logistic回歸模型結(jié)果顯示婚姻狀況與老年人的養(yǎng)老方式選擇有關(guān),在婚的老年人選擇社區(qū)居家養(yǎng)老的比例較高,而非在婚的老年人選擇家庭養(yǎng)老和機(jī)構(gòu)養(yǎng)老的比例較高。國內(nèi)多項(xiàng)研究發(fā)現(xiàn),婚姻狀況與老年人的養(yǎng)老意愿有關(guān)[15,17]。
子女?dāng)?shù)、每月退休金收入僅在adaptive LASSO logistic回歸模型中顯示出與老年人養(yǎng)老意愿的相關(guān)性。隨著老年人的子女?dāng)?shù)增多,與社區(qū)居家養(yǎng)老、機(jī)構(gòu)養(yǎng)老相比,老人更有可能選擇家庭養(yǎng)老,說明子女對于老年人的撫養(yǎng)對老年人養(yǎng)老方式的選擇有一定的影響。顧永紅等人對全國9個(gè)省份27個(gè)地級市進(jìn)行的研究和劉小春等人的研究均顯示子女?dāng)?shù)與老年人養(yǎng)老意愿之間的這種關(guān)系[15,18]。選擇機(jī)構(gòu)養(yǎng)老意味著老年人需要定期給養(yǎng)老機(jī)構(gòu)支付一定數(shù)額的資金,需要一定的經(jīng)濟(jì)基礎(chǔ)。本研究發(fā)現(xiàn),每月養(yǎng)老金收入高于2000元的老年人,更有可能選擇機(jī)構(gòu)養(yǎng)老或社區(qū)居家養(yǎng)老。覃丹等人以湖南省某市開展的研究[19]和趙海林等人的研究[13]也得出了類似的結(jié)論,研究發(fā)現(xiàn)經(jīng)濟(jì)有保障和社會地位較高老年人群,退休金一般在2000元以上,對生活質(zhì)量和精神文化生活要求較高,在生活方面比較獨(dú)立,能夠自費(fèi)購買老年服務(wù)或者選擇入住養(yǎng)老機(jī)構(gòu),在對養(yǎng)老模式的選擇上更具有主動性[19]。
綜上所述,adaptive LASSO logistic回歸模型可用于老年人養(yǎng)老方式選擇影響因素分析,得到的模型具有更好的解釋性。老年人養(yǎng)老意愿受多個(gè)因素的影響,應(yīng)加強(qiáng)農(nóng)村、高齡、在婚、低文化程度、子女?dāng)?shù)較多、低收入、未享有公費(fèi)醫(yī)療和未曾住院老年人的養(yǎng)老保障的覆蓋及社會養(yǎng)老的宣傳教育,開發(fā)有針對性的養(yǎng)老方式。
[1]中華人民共和國國家統(tǒng)計(jì)局.2010年第六次全國人口普查主要數(shù)據(jù)公報(bào)(第1號).中國計(jì)劃生育學(xué)雜志,2011,54(8):511-512.
[2]Zou H.The adaptive lasso and its oracle properties.Journal of the American statistical association,2006,101(476):1418-1429.
[3]Breiman L.Better subset regression using the nonnegative garrote.Technometrics,1995,37(4):373-384.
[4]Fan J,Li R.Variable selection via nonconcave penalized likelihood and its oracle properties.Journal of the American statistical Association,2001,96(456):1348-1360.
[5]Shen X,Ye J.Adaptive model selection.Journal of the American Statistical Association,2002,97(457):210-221.
[6]張秀秀,王慧,田雙雙,等.高維數(shù)據(jù)回歸分析中基于LASSO的自變量選擇.中國衛(wèi)生統(tǒng)計(jì),2013,30(6):922-926.
[7]Tibshirani R.Regression shrinkage and selection via the lasso.Journal of the Royal Statistical Society,1996,58(1):267-288.
[8]陳江鵬,彭斌,文雯,等.微陣列數(shù)據(jù)中的先驗(yàn)信息對基于LASSO變量選擇方法影響的模擬研究.中國衛(wèi)生統(tǒng)計(jì),2015,32(3):407-409.
[9]Meinshausen N,Bühlmann P.High-dimensional graphs and variable selection with the lasso.The annals of statistics,2006,34(3):1436-1462.
[10]Donoho DL,Elad M.Optimally sparse representation in general(nonorthogonal) dictionaries via l1 minimization.Proceedings of the National Academy of Sciences,2003,100(5):2197-2202.
[11]Donoho DL,Huo X.Uncertainty principles and ideal atomic decomposition.Information Theory,IEEE Transactions on,2001,47(7):2845-2862.
[12]Friedman J,Hastie T,Tibshirani R.Regularization paths for generalized linear models via coordinate descent.Journal of statistical software,2010,33(1):1.
[13]趙海林.淮安市老年人養(yǎng)老模式選擇意愿實(shí)證分析.南京人口管理干部學(xué)院學(xué)報(bào),2012,28(2):9-12.
[14]方匡南,章貴軍,張惠穎.基于Lasso-logistic模型的個(gè)人信用風(fēng)險(xiǎn)預(yù)警方法.數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2014(2):125-136.
[15]劉小春,李嬋.中部欠發(fā)達(dá)地區(qū)城鎮(zhèn)居民養(yǎng)老模式選擇行為實(shí)證分析——基于江西省的調(diào)查數(shù)據(jù).社會保障研究,2014(2):24-31.
[16]陶濤,叢聰.老年人養(yǎng)老方式選擇的影響因素分析——以北京市西城區(qū)為例.人口與經(jīng)濟(jì),2014,(3):15-22.
[17]扈映,楊康,舒泰.農(nóng)村居民養(yǎng)老居住意愿選擇的實(shí)證研究.調(diào)研世界,2014,(8):24-29.
[18]顧永紅.農(nóng)村老年人養(yǎng)老模式選擇意愿的影響因素分析.華中師范大學(xué)學(xué)報(bào)(人文社會科學(xué)版),2014,53(3):9-15.
[19]覃丹.城市老年人養(yǎng)老需求及養(yǎng)老模式選擇研究.華中師范大學(xué),2015.
(責(zé)任編輯:郭海強(qiáng))
Influencing Factors on Elder’s Preference for Supporting:Application of an adaptive LASSO logistic Model
Han Yaofeng,Qin Wenfeng,Chen Wei,et al
(SchoolofPublicHealth,XiamenUniversity(361102),Xiamen)
Objective This study was aimed to analyze influencing factors on elder’s preference for supporting in case to provide evidence for diversified elderly supporting.Methods This article applied an adaptive LASSO logistic model to the multi-stage cluster sampling data of the population aged 60 or older in Xiamen to analyze influencing factors on elder’s preference for supporting.Cross validation method was used to choose λ for adaptive LASSO logistic model.In addition,we evaluated the model fitting of adaptive LASSO logistic model by comparing the BIC and AIC with full logistic model and stepwise logistic model.Results The cross validation method resulted in λ=0.018 for adaptive LASSO logistic model,in which variables retained were residence,age,marital status,education level,number of children,the monthly pension income,medical insurance and hospitalization.BIC of adaptive LASSO logistic model,full logistic model and stepwise logistic model were 1931,2077and 2025 respectively.And AIC of the three models were 1888,1923 and 1912 respectively.Conclusion Compared to full logistic model and stepwise logistic model,adaptive LASSO logistic model was the best fitting model for influencing factors on elder’s preference for supporting.Adaptive LASSO logistic model could be used to analyze influencing factors on elder’s preference for supporting.There were multiple factors which influenced elder’s preference for supporting.
Adaptive LASSO logistic model;Elderly supporting;Influencing factors
廈門大學(xué)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(2015Y0827)
1.廈門大學(xué)公共衛(wèi)生學(xué)院(361102)
2.衛(wèi)生技術(shù)評估福建省高校重點(diǎn)實(shí)驗(yàn)室
△通信作者:fangya@xmu.edu.cn