郭向紅
(內(nèi)蒙古移動(dòng)公司 內(nèi)蒙古 呼和浩特 010000)
基于邏輯回歸的流失預(yù)警模型
郭向紅
(內(nèi)蒙古移動(dòng)公司 內(nèi)蒙古 呼和浩特 010000)
當(dāng)輸入變量過多時(shí),邏輯回歸模型訓(xùn)練的時(shí)間會(huì)很長(zhǎng),而且更重要的是往往因?yàn)檫\(yùn)算量過大而無法進(jìn)行。因此,本文討論了利用主成分分析進(jìn)行變量降維,介紹了邏輯回歸的基本理論和流失預(yù)警模型的開發(fā)過程。
邏輯回歸;流失預(yù)警模型
回歸分析在諸多行業(yè)和領(lǐng)域的數(shù)據(jù)分析應(yīng)用中發(fā)揮著極為重要的作用,盡管如此,在運(yùn)用回歸分析方法時(shí)仍不該忽略方法應(yīng)用的前提假設(shè)條件。違背了某些關(guān)鍵假設(shè),則得到的分析結(jié)論很可能是不合理的。比如,利用多元回歸分析變量之間關(guān)系或者進(jìn)行預(yù)測(cè)時(shí)的一個(gè)基本要求就是:因變量均是連續(xù)型變量。然而實(shí)際應(yīng)用中這種要求未必都能得到較好的滿足,如本文所討論的根據(jù)通信用戶近期的消費(fèi)行為和通話行為特征,建立通信用戶的是否有流失傾向的回歸分析模型,來判斷用戶是否有潛在的流失意愿。這個(gè)模型中的因變量設(shè)為是否有可能流失,這是個(gè)純粹的二值品質(zhì)型變量,顯然不滿足上面的要求。對(duì)于這類問題,我們通常采用邏輯回歸進(jìn)行解決。
當(dāng)輸入變量過多時(shí),邏輯回歸模型訓(xùn)練的時(shí)間會(huì)很長(zhǎng),而且更重要的是往往因?yàn)檫\(yùn)算量過大而無法進(jìn)行。因此,本文首先討論了利用主成分分析進(jìn)行變量降維,然后介紹了邏輯回歸的基本理論和流失預(yù)警模型的開發(fā)過程。
(一)使用主成分分析進(jìn)行數(shù)據(jù)預(yù)處理
在許多實(shí)際問題中,我們經(jīng)常用多個(gè)變量來刻畫某一事物,但由于這些變量之間往往具有相關(guān)性,很多變量帶有重復(fù)信息,這樣就給分析問題帶來了很多不便,同時(shí)也使分析結(jié)論不具有真實(shí)性和可靠性,因此,人們希望尋找到少量幾個(gè)綜合變量來代替原來較多的變量,使這幾個(gè)綜合變量能較全面地反映原來多項(xiàng)變量的信息,同時(shí)相互之間不相關(guān)。主成分分析是滿足上述要求的一種處理多變量問題的方法。
1.基本思想
主成分分析就是設(shè)法將原來的p個(gè)指標(biāo)重新組合成一組相互無關(guān)的新指標(biāo)的過程。通常數(shù)學(xué)上的處理就是將原來的p個(gè)指標(biāo)做線性組合。為了能更清晰的解釋主成分的基本思想,我們從用兩個(gè)指標(biāo)來衡量n個(gè)樣本點(diǎn)的二維空間入手。
推而廣之,第一主成分y1的方差達(dá)到最大,其方差越大,表示其所包含的信息越多。如果第一主成分還不能反映原指標(biāo)的全部信息,再考慮選取第二主成分y2,y2在剩余的線性組合中方差最大,并且與y1不相關(guān),如若第一、第二主成分仍然不能反映原變量的全部信息,再考慮選取第三主成分y3,y3在剩余的線性組合中方差最大,并且與y1、y2不相關(guān),依此可求出全部p個(gè)主成分,它們的方差是依次遞減的。在實(shí)際工作中,在不損失較多信息的情況下,通常選取前幾個(gè)主成分來進(jìn)行分析,達(dá)到簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)的目的。
2.數(shù)學(xué)模型
主成分分析可以針對(duì)總體,也可以針對(duì)樣本,但在許多問題中所涉及的總體都是未知的,所以我們主要討論樣本的主成分。仍從二維空間入手,設(shè)有兩個(gè)變量的信息如圖所示,大部分的樣本點(diǎn)集中在橢圓范圍內(nèi):
兩個(gè)變量的信息分布
如果我們?nèi)E圓的長(zhǎng)軸y1、短軸y2作為樣本點(diǎn)新的坐標(biāo)軸,容易看出y1坐標(biāo)變化程度大,即y1的方差最大,而y2的變化程度相對(duì)較小,即y2的方差較小。于是可以說變量(x1,x2)的信息大部分集中在新變量y1上,而小部分集中在新變量y2上。上圖中的新坐標(biāo)y1,y2是x1,x2經(jīng)過坐標(biāo)旋轉(zhuǎn)而得到的,其旋轉(zhuǎn)公式為:
y1=cosθx1+sinθx2
y2=-sinθx1+cosθx2
系數(shù)滿足的要求是:
(cosθ)2+(sinθ)2=1;(-sinθ)2+(cosθ)2=1;cosθ(-sinθ)+sinθcosθ=0
我們可以稱y1為它們的第一主成分,y2為它們的第二主成分,坐標(biāo)的正交變換為主成分變換。推廣開來,設(shè)有n個(gè)樣本點(diǎn),每個(gè)樣本點(diǎn)都有p項(xiàng)變量x1,x2,…,xp,其原始數(shù)據(jù)矩陣表示為:
其中xij是第i個(gè)樣本點(diǎn)第j個(gè)指標(biāo)的觀測(cè)值。如前所述,通過主成分變換得到的線性組合可以表示為x1,x2,…,xp的線性組合:
y1=u11x1+u12x2+……+u1pxp
y2=u21x1+u22x2+……+u2pxp
…………
yp=up1x1+up2x2+……+uppxp
3.模型求解
為了求出主成分,只需求樣本協(xié)方差矩陣S或相關(guān)系數(shù)矩陣R的特征根和特征向量就可以。設(shè)R的特征根λ1≥λ2≥…≥λp>0, 相應(yīng)的單位特征向量為:(ui1ui2… uip)’,那么相應(yīng)的主成分就是:yi=ui1zx1+ui2zx2+……+uipzxp。
4.實(shí)驗(yàn)結(jié)果
采用TWM軟件中的主成分分析模塊,對(duì)有400多個(gè)變量字段的數(shù)據(jù)挖掘?qū)挶磉M(jìn)行降維操作。發(fā)現(xiàn)前30個(gè)主成分變量的累計(jì)方差貢獻(xiàn)為61.8%,提取這些變量,作為邏輯回歸模型的輸入變量。
(一)邏輯回歸模型
邏輯回歸是根據(jù)輸入字段值對(duì)記錄進(jìn)行分類的一種統(tǒng)計(jì)技術(shù)。當(dāng)被解釋變量為0/1二值變量時(shí),稱為二項(xiàng)邏輯回歸。二項(xiàng)邏輯回歸雖然不能直接采用一般線性多元回歸模型建模,但仍然可以充分利用線性回歸模型建立的理論和思路進(jìn)行建模。
1.若采用簡(jiǎn)單線性回歸模型,即Yi=β0+βixi+εi,當(dāng)Yi只取0,1兩值時(shí),由ε~N(0,σ2),E(ε)=0,
有E(Yi)=β0+βixi=1×P+0×(1-P)=P,即E(Yi)為xi時(shí)yi=1的概率值。因此,可以利用一般線性多元回歸模型對(duì)因變量為1的概率P進(jìn)行建模,此時(shí)模型因變量的取值范圍就是0到1之間,即Py=1=β0+βixi。
2.由于概率P的取值范圍為[0,1],而一般線性回歸模型要求因變量取值為(-∞,+∞),因此可以對(duì)概率P做轉(zhuǎn)換處理。而一般線性模型建立關(guān)于因變量取值為1時(shí)的概率的回歸模型時(shí),模型中自變量與概率值之間的關(guān)系是線性的。在實(shí)際應(yīng)用中,這個(gè)概率與自變量之間往往是一種非線性關(guān)系。因此,對(duì)概率P的轉(zhuǎn)換處理采用非線性轉(zhuǎn)換(Logit變換),具體如下:
(1)第一步,將P轉(zhuǎn)換成Ω,即Ω=P/(1-P),其中Ω成為發(fā)生比,是事件發(fā)生的概率與不發(fā)生的概率的比值??傻忙甘荘的單調(diào)增函數(shù),從而保證了P與Ω增長(zhǎng)的一致性,由此得出Ω的取值范圍為(0,+∞)。
(2)第二步,將Ω轉(zhuǎn)換成lnΩ,即lnΩ=ln(P/(1-P)),式中l(wèi)nΩ稱為L(zhǎng)ogit P,經(jīng)過變換后的Ω與Logit P之間的增長(zhǎng)性一致,且Logit P取值為(-∞,+∞)。經(jīng)過Logit變換后,可以利用一般線性回歸模型建立自變量與因變量之間的關(guān)系模型,即邏輯回歸模型LogitP=β0+βixi轉(zhuǎn)換為ln(P/(1-P))=β0+βixi,于是有P/(1-P)=exp(β0+βixi),從而有:
此式即為邏輯回歸函數(shù),它是典型的增長(zhǎng)函數(shù),能很好的體現(xiàn)概率P和自變量間的非線性關(guān)系。
(二)邏輯回歸方程中回歸系數(shù)的含義
邏輯回歸模型采用極大似然估計(jì)法對(duì)模型的參數(shù)進(jìn)行估計(jì)。極大似然估計(jì)法是一種在總體分布密度函數(shù)和樣本信息的基礎(chǔ)上,求解模型中未知參數(shù)估計(jì)值的方法。它基于總體的分布密度函數(shù)構(gòu)造一個(gè)包含未知參數(shù)的似然函數(shù),并求解在似然函數(shù)值最大下的未知參數(shù)值。因?yàn)樵谛问缴希壿嫽貧w模型與一般線性回歸模型相同,所以可以以類似的方法理解和解釋邏輯回歸模型系數(shù)的含義。即當(dāng)其他自變量保持不變時(shí),自變量xi每增加一個(gè)單位,將引起Logit P增加(或減少)βi個(gè)單位。但是Logit P無法直接觀察且測(cè)量單位也無法確定,因此通常以邏輯回歸函數(shù)的標(biāo)準(zhǔn)差作為L(zhǎng)ogit P的測(cè)度單位。在現(xiàn)實(shí)應(yīng)用中,大家通常更為關(guān)心的是自變量變化引起概率P變化的程度,因?yàn)樗鼈冎g的關(guān)系是非線性的。因此,人們將注意力集中在自變量給Ω帶來的變化。
當(dāng)邏輯回歸模型的回歸系數(shù)確定后,將其代入Ω的函數(shù),即Ω=exp(β0+βixi)。當(dāng)其他的自變量保持不變,xi增加一個(gè)單位時(shí),可將新的發(fā)生比設(shè)為Ω′,則有Ω′=Ωexp(βi)。由此可知,當(dāng)xi增加一個(gè)單位時(shí)將引起發(fā)生比擴(kuò)大exp(βi)倍,當(dāng)回歸系數(shù)為負(fù)時(shí)發(fā)生比縮小。
(三)邏輯回歸方程的檢驗(yàn)
1.回歸方程的顯著性校驗(yàn)
邏輯回歸方程顯著性檢驗(yàn)的目的是檢驗(yàn)自變量全體與Logit P的線性關(guān)系是否顯著,是否可以用線性模型擬合?;舅悸肥牵喝舴匠讨械闹T多變量對(duì)Logit P的線性解釋有顯著意義,則會(huì)使得回歸方程對(duì)樣本的擬合得到顯著提高,可采用對(duì)數(shù)似然比測(cè)度擬合程度是否有了提高。其零假設(shè)為H0:各回歸系數(shù)同時(shí)為0,自變量全體與Logit P的線性關(guān)系不顯著。
2.回歸系數(shù)的顯著性校驗(yàn)
邏輯回歸系數(shù)顯著性檢驗(yàn)的目的是逐個(gè)檢驗(yàn)?zāi)P椭懈髯宰兞渴欠衽cLogit P有顯著的線性關(guān)系,以解釋Logit P是否有重要貢獻(xiàn)。其零假設(shè)為H0:βi=0,即某回歸系數(shù)與零無顯著性差異,相應(yīng)的自變量與Logit P的線性關(guān)系不顯著?;貧w系數(shù)的顯著性檢驗(yàn)采用的是檢驗(yàn)統(tǒng)計(jì)量為Wald檢驗(yàn)統(tǒng)計(jì)量,數(shù)學(xué)定義為Wald=(βi/Sβi)2。其中βi是回歸系數(shù),Sβi是回歸系數(shù)標(biāo)準(zhǔn)誤差,Wald檢驗(yàn)統(tǒng)計(jì)量服從χ2(1)分布。
3.回歸方程的擬合優(yōu)度校驗(yàn)
在邏輯回歸分析中,擬合優(yōu)度可以從兩方面考察:一方面是回歸方程能夠解釋因變量的變差的程度,如果方程可以解釋因變量較大部分的變差,則說明擬合優(yōu)度高,反之說明擬合優(yōu)度低;另一方面,由回歸方程計(jì)算出的預(yù)測(cè)值與實(shí)際值之間吻合的程度,即方程的總體錯(cuò)判率是低還是高,如果錯(cuò)判率低,說明擬合優(yōu)度高,否則說明擬合優(yōu)度低。擬合優(yōu)度檢驗(yàn)的常用指標(biāo)有Cox & SnellR2統(tǒng)計(jì)量,Nagel ker keR2統(tǒng)計(jì)量,錯(cuò)判矩陣,殘差分析等。
4.模型訓(xùn)練過程和結(jié)果
利用得到的前30個(gè)主成分變量,采用TWM工具中的邏輯回歸模型進(jìn)行訓(xùn)練。然后將訓(xùn)練后的模型作為評(píng)分模型,對(duì)用戶信息進(jìn)行評(píng)分,從而分析出可能流失的客戶。