李海超,王開軍,胡 淼,陳黎飛
(1.福建師范大學(xué) 數(shù)學(xué)與信息學(xué)院, 福州 350007; 2.福建省網(wǎng)絡(luò)安全與密碼技術(shù)重點(diǎn)實(shí)驗(yàn)室(福建師范大學(xué)), 福州 350007)
回歸模型中啞變量的相對重要性指數(shù)
李海超1,2*,王開軍1,2,胡 淼1,2,陳黎飛1,2
(1.福建師范大學(xué) 數(shù)學(xué)與信息學(xué)院, 福州 350007; 2.福建省網(wǎng)絡(luò)安全與密碼技術(shù)重點(diǎn)實(shí)驗(yàn)室(福建師范大學(xué)), 福州 350007)
為在回歸模型中描述定性屬性,通常需要引入啞變量。對含啞變量的回歸方程,提出描述不同啞變量在回歸方程中不同重要程度的方法。該方法分解出含啞變量的回歸方程中啞變量部分和非啞變量部分的回歸平方和,計(jì)算這兩部分在該回歸方程中所起作用的占比,將該占比設(shè)計(jì)為各啞變量在回歸方程中的相對重要程度指數(shù)。在近10萬筆的Lending Club和Prosper網(wǎng)絡(luò)借貸數(shù)據(jù)集上,所進(jìn)行的挖掘借款用途對借款成功率、信用等級對借款利率的影響程度的實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)回歸方程僅提供啞變量前的系數(shù)卻不能展現(xiàn)其重要程度相比,所提方法展現(xiàn)出不同啞變量的不同重要程度,為定量分析回歸方程中定性自變量對因變量的影響程度提供了重要的手段。
定性屬性;回歸方程;啞變量;指數(shù)
對于回歸分析模型,在許多場合下,因變量除了受到那些定量自變量的影響外,也會(huì)受到定性變量的影響。例如,對于一些如性別、種族、婚姻狀況等這些無法定量度量或者無法直接觀測的一類自變量,稱為定性變量,也稱為啞變量。引入啞變量會(huì)使得線性回歸模型變得更復(fù)雜,但能對問題的描述簡單明了,一個(gè)方程能達(dá)到多個(gè)方程的作用,而且更接近現(xiàn)實(shí),使得模型更完美[1-2]。一般情況下,在啞變量的設(shè)置中,肯定類型通常取值為1,否定類型則取值為0;類似的,若是這種定性變量含有多種變量取值時(shí),可以引入多個(gè)啞變量來處理。涉及線性回歸模型的一種典型任務(wù)就是分析自變量對因變量的影響程度,這通常是通過分析自變量前的系數(shù)來解釋影響程度。對于含有啞變量的回歸模型,分析不同啞變量的重要程度也是一類重要的任務(wù)?,F(xiàn)有的相關(guān)文獻(xiàn)主要都是直接通過模型的回歸系數(shù)(即,啞變量前的回歸參數(shù))來比較各啞變量在回歸方程中的重要性程度,其中:吳小英等[3]直接用啞變量前回歸系數(shù)分析了借款用途對借款成功率的影響; Leistritz[4]在回歸分析中使用啞變量,研究分析了啞變量的系數(shù)對各因子影響;Hardy[5]對啞變量系數(shù)的解釋是給定相同x值的多個(gè)類別之間的y的差異;Grotenhuis等[6]研究認(rèn)為所有啞變量前估計(jì)參數(shù)是與原始參考類別的偏差,進(jìn)而用系數(shù)直接來分析各案例;Usman等[7]構(gòu)建啞變量模型,直接用系數(shù)得出job_logistics和discipline_ECE這兩項(xiàng)因素對畢業(yè)生的薪酬影響最?。籊ürtler等[8]通過引入虛擬變量回歸系數(shù)研究結(jié)果表明,交易復(fù)雜性、評級和再保險(xiǎn)周期是巨災(zāi)債券保護(hù)(Catastrophe Bonds, CAT)的重要驅(qū)動(dòng)因素;文獻(xiàn)[9-12]都僅僅圍繞啞變量前的系數(shù)來對各啞變量的重要性進(jìn)行探究分析,得出的結(jié)論不是很明確;楊希等[13]在多元回歸分析中引入啞變量,用回歸系數(shù)僅僅發(fā)現(xiàn)各啞變量是否具有顯著性,且僅得出正負(fù)影響;徐衛(wèi)華等[14]引入控制變量和啞變量,構(gòu)建產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化升級的3個(gè)動(dòng)態(tài)面板模型,直接利用回歸系數(shù)分析其是否有顯著性影響,而不能得出具體的結(jié)論。因此,當(dāng)啞變量較多、回歸方程較復(fù)雜時(shí),這種用人眼觀察的系數(shù)對比法則很難實(shí)施,啞變量回歸系數(shù)的解釋及其意義往往不正確或不能得出準(zhǔn)確結(jié)論[15]。為了用客觀方法代替這種人眼觀察對比法,本文提出一種判定不同啞變量的相對重要性指數(shù)方法,用來衡量各啞變量對因變量的影響程度。
在回歸分析當(dāng)中,常見的有解釋變量(因變量)和被解釋變量(自變量),而被解釋變量的影響因素包含定量變量的因素外,還可以包含定性變量的因素。為了將定性變量引入回歸模型,在模型中引入一種特殊的變量,即“啞變量”。使用啞變量可以使得我們在模型中引入定性回歸元,使得模型更精確[16]。
當(dāng)在研究一個(gè)因變量與多個(gè)自變量之間的相關(guān)關(guān)系時(shí),影響因變量的因素有很多,包括定量自變量,也包括定性自變量; 而這種定性自變量通??梢砸雴∽兞縼硖幚?,常取0、1等,這些編碼值并不代表著具體數(shù)量的大小,它們沒有數(shù)量大小關(guān)系,僅僅是用來表示啞變量中各個(gè)不同的分類類別。假設(shè)一個(gè)影響因素的定性自變量有k個(gè)分類類別(k個(gè)水平),為避免出現(xiàn)共線性,則通常需定義k-1個(gè)啞變量來表示這些分類類別[17]。設(shè)影響因變量Y的定量自變量為X,啞變量為D;D有k個(gè)分類類別,這里Xi=(X1i,X2i,…,Xmi)T、Dji=(D1i,D2i,…,D(k-1)i)T(其中i=1,2,…,n,j=1,2,…,k-1,Dj為第j個(gè)啞變量)和Yi分別是第i個(gè)觀測值對應(yīng)的定量自變量、啞變量和因變量,通??梢詫⒑袉∽兞康幕貧w模型寫成:
Yi=α0+α1X1i+…+αmXmi+β1D1i+…+βk-1D(k-1)i+
γ1D1iX1i+…+γk-1D(k-1)iXmi+εi
(1)
式中:k代表啞變量中有k個(gè)分類類別;α1,α2,…,αm為m個(gè)定量自變量的回歸系數(shù);α0,β1,…,βk-1為各啞變量的回歸系數(shù);γ1,γ2,…,γk-1為啞變量與各定量變量之間的交互影響回歸系數(shù),分別反映了各啞變量對因變量Y的平均影響程度,根據(jù)這些系數(shù)的t值檢驗(yàn)來判斷啞變量是否對因變量Y存在顯著性影響;εi代表隨機(jī)誤差,通常假設(shè)εi是服從均值為0、方差為δ2的高斯分布,即εi~N(0,δ2),由此可以利用觀測值來進(jìn)行參數(shù)的估計(jì)。
對含啞變量部分的回歸平方和SSRDj(其中j=1,2,…,k-1,Dj為第j個(gè)啞變量),求解出它占總平方和SSTDj的比例,于是啞變量重要性指數(shù)設(shè)計(jì)如下:
(2)
實(shí)驗(yàn)數(shù)據(jù)是美國網(wǎng)貸平臺Lending Club在2012年里49 737筆有效借貸數(shù)據(jù),每筆借貸樣本屬性主要包括借款金額、借款用途、借標(biāo)人數(shù)、利息率、年利率、借款時(shí)長、資助金額(成功募集)、信用評級、FICO(Finance Controlling)評分、總信用額度、房屋所有權(quán)、月收入、債務(wù)對收入比率、循環(huán)信貸余額、循環(huán)信貸利用率、教育程度、地址、工作年限等信息。直觀上看,借款用途說明了借款人借款的目的,其必定是作為投資人重要的考量標(biāo)準(zhǔn),所以借款用途對借款成功率必有一定的影響。為了探究借款用途對借款成功率的重要性影響程度,本文引入7個(gè)啞變量0~6。本文將以Lending Club平臺數(shù)據(jù)為基礎(chǔ),通過其近年來的數(shù)據(jù)分析研究借款用途對借款成功率的影響。
在進(jìn)行回歸分析前,一些屬性如借款金額、資助金額、月收入等與利息率或債務(wù)收入比率之間具有不同的量綱和量綱單位,為了消除不同量綱對實(shí)驗(yàn)結(jié)果的影響,把每個(gè)變量的數(shù)據(jù)標(biāo)準(zhǔn)化為均值為0、標(biāo)準(zhǔn)差為1的數(shù)據(jù),使得這些屬性變量值的數(shù)量級相同,且無量綱,這樣獲得的標(biāo)準(zhǔn)化的回歸系數(shù)可以解決數(shù)據(jù)中各變量之間的可比性。另外,信用評級A、B、C設(shè)為高信譽(yù),賦值為1;信用評級D、E、F為低信譽(yù),賦值為0。房屋所有權(quán)情況,租房賦值為0,抵押賦值為1,已有賦值為2;FICO評分區(qū)間取其平均數(shù),如FICO值為“679~713”,則取平均值696;借款用途共分為7種,先用0~6這7個(gè)數(shù)值代表各借款用途。
對上述Lending Club實(shí)驗(yàn)數(shù)據(jù),由于原始數(shù)據(jù)不免存在或多或少的多重共線性,故先對原始數(shù)據(jù)通過Lasso回歸[18]、MallowsCp統(tǒng)計(jì)量方法[19],能夠把無關(guān)的自變量進(jìn)行剔除。最后,選取借款用途、資金需求、資助金額、借標(biāo)人數(shù)等變量。利用上述變量,構(gòu)建含有啞變量的回歸模型(1),評估模型中各啞變量對因變量的重要性影響程度。其中選用資金需求、資助金額、借標(biāo)人數(shù)等屬性作為模型中的X,啞變量借款用途用Di表示(i取值:0為其他債務(wù),1為債務(wù)鞏固,2為汽車債務(wù),3為信用卡,4為小額商業(yè),5為家庭改善,6為大宗購買),以借款成功率為因變量Y。其中,其他債務(wù)作為基礎(chǔ)啞變量,其他借款用途則作為對比類型。然后,利用上述各變量構(gòu)建含有啞變量的回歸模型(1),評估模型中各啞變量對因變量的重要性影響程度。通過t值顯著性檢驗(yàn),剔除顯著性不強(qiáng)的部分,可以得到債務(wù)鞏固、汽車債務(wù)、信用卡債務(wù)、小額商業(yè)、家庭改善、大宗購買、其他債務(wù)等7種借款用途的最終的含啞變量的回歸方程,如下所示。
基礎(chǔ)類型:
E(Yi|Xi,D0=0)=0.429 6-0.523 3x1+0.603 6x2+
0.099 6x3
債務(wù)鞏固:
E(Yi|Xi,D1=1)=0.429 6-0.523 3x1+0.603 6x2+
0.099 6x3+0.065 4D1
汽車債務(wù):
E(Yi|Xi,D2=1)=0.429 6-(0.523 3-0.404 4D2)x1+
(0.603 6+0.322 4D2)x2+0.099 6x3+0.058 7D2
信用卡:
E(Yi|Xi,D3=1)=0.429 6-0.523 3x1+0.603 6x2+
0.099 6x3+0.088 1D3
小額商業(yè):
E(Yi|Xi,D4=1)=0.429 6-0.523 3x1+(0.603 6-
0.168 9D4)x2+0.099 6x3+0.096 4D4
家庭改善:
E(Yi|Xi,D5=1)=0.429 6-0.523 3x1+0.603 6x2+
0.099 6x3+0.049 9D5
大宗購買:
E(Yi|Xi,D6=1)=0.429 6-(0.523 3-0.654 6D6)x1+
(0.603 6+0.490 6D6)x2+0.099 6x3+0.122 9D6
表1 各借款用途回歸參數(shù)與相對重要程度指數(shù)分析比較Tab. 1 Comparison and analysis of regression parameters and relative importance indices of each loan purpose
針對Prosper平臺2005年11月— 2012年2月的 49 992筆有效借貸數(shù)據(jù)(Loans數(shù)據(jù))進(jìn)行研究分析,每筆借貸樣本的屬性主要包括借款利率、貸款利率、從起始日算起的月數(shù)、借款金額、債務(wù)與收入比率、借款月數(shù)、信用等級、貸款狀態(tài)等。直觀上看,信用等級是Prosper平臺是對不同信用級別的借款人設(shè)置借款利率的參考標(biāo)準(zhǔn),所以信用等級對借款利率有一定的影響。本文將以此平臺數(shù)據(jù)為基礎(chǔ),通過其近年來的數(shù)據(jù)分析研究借款人的信用等級對其借款利率的影響。因此,本文選取因變量借款利率(Borrower Rate)Y;自變量屬性借款金額(Amount Borrowed)X1、債務(wù)與收入比率(Debt ToIncome Ratio)X2、借款月數(shù)(Term)X3作為定量變量。首先為了解決量綱問題,把數(shù)據(jù)標(biāo)準(zhǔn)化、歸一化。自變量屬性W(信用等級(CreditGrade)),為定性變量,設(shè)置成啞變量Di(i取值為:0表示未評級NC;1表示信用為HR等級,風(fēng)險(xiǎn)極高;2表示信用為E等級;3表示信用為D等級;4表示信用為C等級;5表示信用為B等級;6表示信用為A等級;7表示信用為最高AA等級),這樣的分類有助于迅速分析出各啞變量對借款人的借款利率的不同影響程度。其中,未評級NC作為基礎(chǔ)啞變量,其他信用等級作為對比類型。利用上述各變量構(gòu)建含有啞變量的回歸模型(1),評估模型中各啞變量對因變量的重要性影響程度。
于是本文通過t值顯著性檢驗(yàn),剔除顯著性不強(qiáng)的部分,最終得到含啞變量的回歸方程,如下所示。
基礎(chǔ)類型NC:
E(Yi|Xi,D0=0)=0.845 9+0.079 0x1+0.006 8x2+
0.171 4x3
信用等級HR:
E(Yi|Xi,D1=1)=0.845 9+0.079 0x1+0.006 8x2+
0.171 4x3+0.272 1D1
信用等級E:
E(Yi|Xi,D2=1)=0.845 9+0.079 0x1+0.006 8x2+
0.171 4x3+0.269 1D2
信用等級D:
E(Yi|Xi,D3=1)=0.845 9+0.079 0x1+0.006 8x2+
0.171 4x3+0.029 6D3
信用等級C:
E(Yi|Xi,D4=1)=0.845 9+0.079 0x1+0.006 8x2+
0.171 4x3-0.213 0D4
信用等級B:
E(Yi|Xi,D5=1)=0.845 9+0.079 0x1+0.006 8x2+
0.171 4x3-0.376 7D5
信用等級A:
E(Yi|Xi,D6=1)=0.845 9+0.079 0x1+0.006 8x2+
0.171 4x3-0.559 5D6
信用等級AA:
E(Yi|Xi,D7=1)=0.845 9+0.079 0x1+0.006 8x2+
0.171 4x3-0.672 7D7
表2 各信用等級回歸參數(shù)與相對重要程度指數(shù)分析比較Tab. 2 Comparison and analysis of regression parameters and relative importance indices of each credit grade
含啞變量的回歸模型作為一種特殊的回歸分析模型,而傳統(tǒng)的判定各啞變量對因變量Y影響的重要性程度方法是直接通過啞變量的回歸參數(shù),當(dāng)部分啞變量的回歸系數(shù)差別較小,或者回歸系數(shù)的值較小時(shí),這種用人眼觀察的系數(shù)對比法則不易得出明確的結(jié)論,甚至有時(shí)候使用回歸得到的系數(shù)不能直接作為重要性程度的標(biāo)準(zhǔn)。為了用客觀方法代替這種人眼觀察對比法,本文提出新的不同啞變量在回歸方程中的相對重要性指數(shù)的方法,將用它來度量各啞變量對回歸方程的重要性影響程度,得到了比較好的效果。與傳統(tǒng)回歸方程僅提供啞變量前的系數(shù)卻未展現(xiàn)其重要程度相比,本方法展現(xiàn)了不同啞變量的不同重要性,為定量分析回歸方程中定性自變量對因變量的影響程度提供了可靠的工具。
References)
[1] 張曉峒.計(jì)量經(jīng)濟(jì)分析[M].北京: 經(jīng)濟(jì)科學(xué)出版社,2000:242-271.(ZHANG X T. Econometric Analysis[M]. Beijing: Economic Science Press, 2000:242-271.)
[2] 章曉英.虛擬變量在線性回歸模型中的應(yīng)用[J].重慶工業(yè)管理學(xué)院學(xué)報(bào),1998(2):84-88.(ZHANG X Y. Application of dummy variable in linear regression model[J]. Journal of Chongqing Institute of Technology Management, 1998(2):84-88.)
[3] 吳小英,鞠穎. 基于最小二乘法的網(wǎng)絡(luò)借貸模型[J].廈門大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,51(6):980-984.(WU X Y, JU Y. Network borrowing model based on least squares method[J]. Journal of Xiamen University (Natural Science), 2012,51(6):980-984.)
[4] LEISTRITZ F L. Use of dummy variables in regression analysis[J]. Agricultural Economic Miscellaneous Report Technical, Agricultural Experiment Station, North Dakota State University, 1973, 4(43):434-442.
[5] HARDY M A. Regression with Dummy Variables[M]. Thousand Oaks, CA: SAGE Publications, 1993: 96.
[6] GROTENHUIS M T, THIJS P. Dummy variables and their interactions in regression analysis: examples from research on body mass index[EB/OL].[2016- 11- 20]. http://www.ru.nl/publish/pages/780171/table1-4.pdf.
[7] USMAN A U, ABDULKADIR H S, TUKUR K. Application of dummy variables in multiple regression analysis[J].Recent Scientific Research, 2015,7(11): 7440-7442.
[8] GüRTLER M, HIBBELN M, WINKELVOS C. The impact of the financial crisis and natural catastrophes on CAT bonds[J]. Journal of Risk and Insurance, 2016, 83(3): 579-612.
[9] SKRIVANEK S. The use of dummy variables in regression analysis[EB/OL].[2016- 11- 20]. https://www.moresteam.com/WhitePapers/download/dummy-variables.pdf.
[10] SUITS D B. Use of dummy variables in regression equations[J]. Journal of the American Statistical Association, 1957, 52(280): 548-551.
[11] HELLMANN T F, SCHURE P, VO D. Angels and venture capitalists: substitutes or complements?[J]. Social Science Electronic Publishing, 2015,11(7): 1301-1307.
[12] SEARLE S R, UDELL J R. The use of regression on dummy variables in management research[J]. Management Science, 1970, 16(6): 397-409.
[13] 楊希, 王蘇生. 政府背景風(fēng)險(xiǎn)投資對創(chuàng)業(yè)企業(yè)經(jīng)營績效的影響[J]. 大連海事大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2016, 15(5):52-58.(YANG X, WANG S S. Influence of government background venture capital on the performance of startup enterprises[J]. Journal of Dalian Maritime University (Social Science Edition), 2016, 15(5):52-58.)
[14] 徐衛(wèi)華, 何宜慶, 鐘慧安. 金融深化、科技創(chuàng)新與產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化升級——基于我國30個(gè)省市1997~2014年面板數(shù)據(jù)分析[J]. 金融與經(jīng)濟(jì), 2017,15(3):54-64.(XU W H, HE Y Q, ZHONG H A. Financial deepening, technological innovation and industrial structure optimization and upgrading-based on panel data analysis of 30 provinces in China from 1997 to 2014[J]. Finance ans Economy, 2017,15(3): 54-64.)
[15] POLISSAR L, DIEHR P. Regression analysis in health services research: the use of dummy variables[J]. Medical Care, 1982,20(9): 959-966.
[16] 龐浩.計(jì)量經(jīng)濟(jì)學(xué)[M].北京:科學(xué)出版社,2015: 190-199.(PANG H. Econometric Analysis[M]. Beijing: Science Press, 2015: 190-199.)
[17] 高鐵梅.計(jì)量經(jīng)濟(jì)分析方法與建模[M].北京:清華大學(xué)出版社,2009: 76-79.(GAO T M. Econometric Analysis Method and Modeling[M].Beijing: Tsinghua University Press, 2009: 76-79.)
[18] TIBSHIRANI R. Regression shrinkage and selection via the Lasso: a retrospective[J]. Journal of the Royal Statistical Society, 2011,73(3): 273-282.
[19] MALLOWS C L. Some comments on CP[J]. Technometrics, 2000,42(1): 87-94.
This work is partially supported by the National Natural Science Foundation of China (61672157), the Project of Network and Information Security Key Theory and Technological Innovation Team in Fujian Normal University (IRTL1207).
LIHaichao, born in 1990, M. S. candidate. His research interests include machine learning, financial data mining.
WANGKaijun, born in 1965, Ph. D., associate professor. His research interests include machine learning, intelligent learning and reasoning, data mining, pattern recognition.
HUMiao, born in 1994, M. S. candidate. His research interests include machine learning, data mining.
CHENLifei, born in 1972, Ph. D., professor. His research interests include statistical machine learning, data mining, pattern recognition.
Relativeimportanceindexofdummyvariablesinregressionmodel
LI Haichao1,2*, WANG Kaijun1,2, HU Miao1,2, CHEN Lifei1,2
(1.CollegeofMathematicsandInformatics,FujianNormalUniversity,FuzhouFujian350007,China;2.FujianProvinceNetworkSecurityandCryptographyLaboratory(FujianNormalUniversity),FuzhouFujian350007,China)
To describe the qualitative attributes in the regression model, it is usually necessary to introduce dummy variables. For the regression equation with dummy variables, a method was proposed to describe the different importance of the different dummy variables in the regression equation. The sums of square due to regression with dummy variables were descomposed, including the sum of the dummy variable part and that of non-dummy variable part, and the proportions of the two parts was calculated in the regression equation, and the proportion was taken as the index of relative importance of every dummy variable in regression equations. In sets of Lending Club and Prosper network with nearly 100 thousand lending data, the experimental results about the influence of the purpose of loan on the borrowing success rate and the influence of credit grade on the borrowing rate show that compared with the traditional regression equation which only provides a dummy variable coefficient and cannot shows its importance, the proposed method can show the importance of different dummy variables, and provide an important means to quantitatively analyze the influence degree of qualitative independent variables on the dependent variable in the regression equation.
qualitative attribute; regression equation; dummy variable; index
2017- 05- 16;
2017- 06- 05。
國家自然科學(xué)基金資助項(xiàng)目(61672157); 福建師范大學(xué)網(wǎng)絡(luò)與信息安全關(guān)鍵理論和技術(shù)創(chuàng)新團(tuán)隊(duì)項(xiàng)目(IRTL1207)。
李海超(1990—),男,湖南臨武人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、金融數(shù)據(jù)挖掘; 王開軍(1965—),男,福建福州人,副教授,博士,主要研究方向:機(jī)器學(xué)習(xí)、智能學(xué)習(xí)與推理、數(shù)據(jù)挖掘、模式識別; 胡淼(1994—),男,安徽太和人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘; 陳黎飛(1972—),男,福建福州人,教授,博士生導(dǎo)師,博士,主要研究方向:統(tǒng)計(jì)機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、模式識別。
1001- 9081(2017)11- 3048- 05
10.11772/j.issn.1001- 9081.2017.11.3048
(*通信作者電子郵箱wkjwang@qq.com)
TP181
A