習(xí) 勤,米帥軍
(華東交通大學(xué) 經(jīng)濟(jì)管理學(xué)院,南昌 330013)
指標(biāo)篩選技術(shù)在神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘模型中的應(yīng)用
習(xí) 勤,米帥軍
(華東交通大學(xué) 經(jīng)濟(jì)管理學(xué)院,南昌 330013)
文章以分類神經(jīng)網(wǎng)絡(luò)中的RBF網(wǎng)絡(luò)為例,討論了神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘模型中指標(biāo)篩選的重要性,并以信用卡欺詐檢測(cè)神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘模型為實(shí)證案例,演示了指標(biāo)篩選方法能有效地提高神經(jīng)網(wǎng)絡(luò)模型的分類效率與收斂速度,同時(shí),討論如何針對(duì)數(shù)據(jù)挖掘主題與數(shù)據(jù)特點(diǎn)選擇合適的指標(biāo)篩選技術(shù)。
數(shù)據(jù)挖掘;神經(jīng)網(wǎng)絡(luò);指標(biāo)篩選;信息增益
根據(jù)Universal Approximation Theore[1],即神經(jīng)網(wǎng)絡(luò)具有對(duì)任何復(fù)雜函數(shù)的模擬逼近功能,這為神經(jīng)網(wǎng)大規(guī)模應(yīng)用提供了強(qiáng)有力的理論依據(jù)。由于神經(jīng)網(wǎng)絡(luò)是基于生物神經(jīng)網(wǎng)絡(luò)的模擬,通過(guò)不斷學(xué)習(xí)來(lái)認(rèn)識(shí)事物潛在的規(guī)律。同時(shí),由于神經(jīng)網(wǎng)絡(luò)沒有對(duì)數(shù)據(jù)分布進(jìn)行相應(yīng)的假設(shè),這使神經(jīng)網(wǎng)絡(luò)在各行業(yè)中的應(yīng)用具有廣泛的適用性。另一方面,由于沒有對(duì)數(shù)據(jù)分布進(jìn)行假定,使神經(jīng)網(wǎng)絡(luò)對(duì)噪聲數(shù)據(jù)具有相當(dāng)?shù)娜嵝裕@進(jìn)一步使人們?cè)诿鎸?duì)高維空間與海量數(shù)據(jù)時(shí),更偏向于采用基于生物模擬的神經(jīng)網(wǎng)絡(luò),而非基于傳統(tǒng)的統(tǒng)計(jì)分析與計(jì)量方法,如多元統(tǒng)計(jì)分析等。但是,神經(jīng)網(wǎng)絡(luò)的柔性與通用逼近性在實(shí)踐中有時(shí)并未給研究分析帶來(lái)理想的效果,其根本原因在于,直接導(dǎo)入高維空間數(shù)據(jù)致使神經(jīng)網(wǎng)絡(luò)的效率急劇下降,也使得神經(jīng)網(wǎng)絡(luò)很難滿足實(shí)時(shí)響應(yīng)的要求,如實(shí)時(shí)欺詐監(jiān)控、實(shí)時(shí)風(fēng)險(xiǎn)評(píng)級(jí)、工業(yè)實(shí)時(shí)控制等。因此,本文針對(duì)神經(jīng)網(wǎng)絡(luò)的應(yīng)用,提出了高維空間的預(yù)處理,即指標(biāo)篩選。
人工神經(jīng)網(wǎng)絡(luò)(Neural Networks)是對(duì)生物神經(jīng)網(wǎng)絡(luò)進(jìn)行仿真研究的結(jié)果。它通過(guò)采集樣本數(shù)據(jù)進(jìn)行學(xué)習(xí)的方法來(lái)建立數(shù)據(jù)模型,系統(tǒng)通過(guò)樣本不斷學(xué)習(xí),在此基礎(chǔ)上建立計(jì)算模型,從而建立神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[2]。神經(jīng)網(wǎng)絡(luò)通過(guò)訓(xùn)練后可以執(zhí)行復(fù)雜函數(shù)的功能,能對(duì)所有函數(shù)進(jìn)行逼近,即Universal Approximation Theorem。這就是說(shuō),如果一個(gè)網(wǎng)絡(luò)通過(guò)訓(xùn)練后呈收斂狀態(tài),那么神經(jīng)網(wǎng)絡(luò)就具備了執(zhí)行輸入到輸出這種線性或非線性的函數(shù)功能。當(dāng)然,這種函數(shù)不是基于理論或經(jīng)驗(yàn)的假設(shè),而是基于對(duì)樣本的有監(jiān)督的訓(xùn)練,使神經(jīng)網(wǎng)絡(luò)具備了模擬復(fù)雜系統(tǒng)的功能。根據(jù)數(shù)據(jù)挖掘主題的類型,神經(jīng)網(wǎng)絡(luò)可分為分類神經(jīng)網(wǎng)絡(luò)(含預(yù)測(cè))與聚類神經(jīng)網(wǎng)絡(luò)。本文實(shí)證分析部分采用神經(jīng)網(wǎng)絡(luò)中的RBF網(wǎng)絡(luò),RBF網(wǎng)絡(luò)屬于分類神經(jīng)網(wǎng)絡(luò),其拓?fù)鋱D與學(xué)習(xí)原理可參閱相應(yīng)文獻(xiàn)[3]。RBF神經(jīng)網(wǎng)絡(luò)除了具有神經(jīng)網(wǎng)絡(luò)的相應(yīng)優(yōu)點(diǎn)外,還有兩大缺陷,一是網(wǎng)絡(luò)的訓(xùn)練時(shí)間較長(zhǎng),或需要高性機(jī)能計(jì)算機(jī)設(shè)備,當(dāng)然,除非工業(yè)級(jí)的實(shí)時(shí)監(jiān)控上的應(yīng)用,對(duì)一般的經(jīng)濟(jì)分析而言,這點(diǎn)不足為慮。另一個(gè)不足是研究者不能得到一個(gè)基于樣本訓(xùn)練出來(lái)的分類函數(shù),也即不能對(duì)輸入輸出進(jìn)行結(jié)構(gòu)分析,這也是所有神經(jīng)網(wǎng)絡(luò)模型的一大缺憾。
數(shù)據(jù)挖掘需要處理的是海量的數(shù)據(jù)集,且變量(或指標(biāo))非常多(一般都在50個(gè)以上,稱為高維空間),由于不知道相應(yīng)的規(guī)則或模式,收集更多的樣品指標(biāo)以防止遺漏重要解釋變量,但是這不等于把所的指標(biāo)都應(yīng)用數(shù)據(jù)挖掘建模,這樣會(huì)嚴(yán)重影響建模的效率與對(duì)挖掘結(jié)果的解釋,少量的指標(biāo)有利于模型的結(jié)構(gòu)解釋。因此,在建模之前必須對(duì)指標(biāo)進(jìn)行篩選,以挑選出對(duì)目標(biāo)變量或模式有重要影響的變量。
指標(biāo)篩選即指標(biāo)歸約,是指用部分指標(biāo)來(lái)代替原有的指標(biāo)體系,即進(jìn)行適當(dāng)降維。降維的方法主要有兩類,一是選擇指標(biāo)的子集來(lái)代替原有的指標(biāo)體系,如相關(guān)分析、回歸分析、信息增益與模糊集等。二是對(duì)原有指標(biāo)進(jìn)行變換,轉(zhuǎn)化成新的綜合性指標(biāo),如主成分分析。本文所述的指標(biāo)篩選是子集的選擇。
指標(biāo)選取的方法有多種,常用的是相關(guān)分析,基于Pearson相關(guān)定理。本節(jié)重點(diǎn)介紹基于回歸分析與信息增益的指標(biāo)篩選方法。
與相關(guān)分析不同,基于回歸分析篩選方法試圖從線性因果關(guān)系來(lái)說(shuō)明各個(gè)自變量對(duì)因變量的影響程度與方向。基于信息增益的指標(biāo)篩選方法與上述兩種方法完全不同。信息增益方法源于熵理論,即熱力學(xué)第二定律,目前在社會(huì)學(xué)科、管理科學(xué)以及空間科學(xué)上取得了相當(dāng)多的成功應(yīng)用,其基本思想是以指標(biāo)的信息含量來(lái)評(píng)價(jià)指標(biāo)的重性,進(jìn)而篩選指標(biāo)。
回歸分析有線性與非線性之分。線性回歸分析適用于取值范圍不大的指標(biāo),以防止個(gè)別指標(biāo)值對(duì)回歸線產(chǎn)生較大的拉近作用,使回歸線過(guò)分?jǐn)M合異常值(或端點(diǎn)值)?;貧w分析指標(biāo)篩選方法有:前進(jìn)法(Forward)、后退法(Backward)以及步進(jìn)法(Stepwise)。其基本原理如下:
Forward是在回歸模型中逐步加入指標(biāo),直到?jīng)]有滿足一定顯著性要求的指標(biāo)為止。對(duì)已入選擇的指標(biāo)在有新的指標(biāo)加入后,其顯著性是否符合要求不再進(jìn)行檢測(cè),即“只進(jìn)不出”。顯著性檢測(cè)一般采用Fj偏檢驗(yàn)。
Backward是先把所有的指標(biāo)納入到回歸模型中,然后根據(jù)顯著性水平,剔除顯著性水平最低的指標(biāo)(即T值絕對(duì)值最小的,且不顯著性),再由剩下的指標(biāo)重新擬合回歸模型,并剔除T值最小的指標(biāo),如此循環(huán),直到所有指標(biāo)都達(dá)到一定的顯著性要求為止。Backward最大的特點(diǎn),也即缺點(diǎn)是對(duì)已剔除的指標(biāo)不再有機(jī)會(huì)入選回歸模型,即“只出不進(jìn)”。
Stepwise是Forward與Backward的結(jié)合,也是最為常的回歸篩選指標(biāo)的方法。其基本過(guò)程與Forward類似,不同之處在于對(duì)已剔除的指標(biāo)還有機(jī)會(huì)重新選入模型,即 “有進(jìn)有出”。最為關(guān)鍵的是分別對(duì)剔除與選入設(shè)定了不同的顯著性水平,且剔除的顯著性水平αout小于進(jìn)入的顯著性水平αin,即所謂的“寬進(jìn)嚴(yán)出”,否則會(huì)產(chǎn)生引進(jìn)后再剔除這樣的循環(huán)過(guò)程。
基于回歸分析的指標(biāo)篩選應(yīng)用的關(guān)鍵在于對(duì)回歸函數(shù)形式的假設(shè)是否與實(shí)際相符,同時(shí)指標(biāo)的顯著性檢驗(yàn)需要對(duì)數(shù)據(jù)分布作相應(yīng)的的假設(shè)。其優(yōu)點(diǎn)是可以從結(jié)構(gòu)上說(shuō)明各指標(biāo)的重要性。
在進(jìn)行數(shù)據(jù)挖掘時(shí),要確定使用哪些指標(biāo),除了基于成功的經(jīng)驗(yàn)與先驗(yàn)理論外,一般比較困難,況且數(shù)據(jù)挖掘的目標(biāo)是發(fā)現(xiàn)潛在的有興趣的模式與規(guī)律。也就是說(shuō),事先沒有一定的理論認(rèn)識(shí),如有相當(dāng)?shù)恼J(rèn)識(shí),則可以采用其它統(tǒng)計(jì)手段進(jìn)行分析。如果采用的指標(biāo)太少,會(huì)降低數(shù)據(jù)挖掘的效果。如果選用的指標(biāo)太多,會(huì)產(chǎn)生指標(biāo)間的共線性,導(dǎo)致挖掘主題被“淹沒”,如在判別分析中不能得到判別函數(shù),同時(shí)參數(shù)的標(biāo)準(zhǔn)差將增大,顯著性檢驗(yàn)失效。因而,指標(biāo)篩選成了數(shù)據(jù)挖掘的關(guān)鍵之一。
在介紹信息增益方法前,先對(duì)熵(entropy)的概念做相應(yīng)解釋。熵是對(duì)數(shù)據(jù)集的隨機(jī)性的一種度量,是一種量化信息的概念。愛因斯坦曾指出熱力學(xué)的第二定律(熵理論)是聯(lián)系自然界與人類社會(huì)的橋梁,由此可見熵理論的重要性。熵理論目前已廣泛應(yīng)用于信息科學(xué)、管理科學(xué)與環(huán)境空間科學(xué)等。熵表達(dá)了一種物質(zhì)狀態(tài)所能提供的信息,如果熵小,則物質(zhì)呈現(xiàn)出一種相對(duì)有序的狀況,這就意味著所包括的信息量較少。對(duì)統(tǒng)計(jì)分析而言,如果一個(gè)數(shù)據(jù)集中的所有數(shù)據(jù)都屬于同一類,概率取值為1,則沒有不確定性,此時(shí)的熵取值為0。
假設(shè)有一個(gè)數(shù)據(jù)集S(一個(gè)樣本),被解釋變量(指標(biāo))為0,有 r個(gè)指標(biāo)值(o1,o2,…,or),根據(jù) o的取值可以把數(shù)據(jù)集 S劃成 r個(gè)子集(s1,s2,…,sr),顯然有 S=(s1∪s2∪…∪sr),s1∩s2∩…∩sr=φ。任一樣品屬于si概率為pi,則對(duì)樣本S分成r類所需要的信息為:
采用以2為底的對(duì)數(shù)log2pi,是因?yàn)樾畔⒕幋a采用二進(jìn)制方式。
解釋變量(評(píng)價(jià)指標(biāo))為 Ai(i=1,2,…,n),任取一個(gè)指標(biāo)Ai,Ai有 m 個(gè)取值(a1,a2,…,am),根據(jù)指標(biāo) Ai的取值可能把數(shù)據(jù)集 S 劃成 m 個(gè)子集(sa1,sa2,…,sam),顯然有 S=sa1∪sa2∪…∪sam,S=sa1∩sa2∩…∩sar=φ, 則 sk與 sal交集為 Ckl=sk∩sal。令 nkl為 Ckl中的樣品數(shù)目,其中(k=1,2,…,r,l=1,2,…,m)則根據(jù)指標(biāo)Ai對(duì)樣本S進(jìn)行分類所需要的信息稱作Ai的熵,記為E(Ai)
則Ai上該劃分所獲得的“信息增益”定義為:
通過(guò)上述方法,可以計(jì)算每個(gè)n指標(biāo)的信息增益,按信息增益從大到小的順序選取部分指標(biāo)作為評(píng)價(jià)指標(biāo)。
比較回歸分析指標(biāo)篩選技術(shù)與信息增益指標(biāo)篩選技術(shù)的原理,可以發(fā)現(xiàn),除離散化之外,基于熵理論的信息增益方法對(duì)數(shù)據(jù)分布沒有相應(yīng)的假設(shè),同時(shí)信息增益技術(shù)在決策樹ID3與C4.5算法中起著支撐作用。一般而言,在沒有數(shù)據(jù)的分布信息的情況下,使信息增益進(jìn)行指標(biāo)篩選更為合理。
基于指標(biāo)篩選的RBF神經(jīng)網(wǎng)絡(luò)信用卡評(píng)級(jí)分析所用的數(shù)據(jù)集為DMAGECR與DMAGESCR,由SAS公司提供,分別用于模型的訓(xùn)練、測(cè)試。記錄數(shù)分別為1000、75條,共有21個(gè)指標(biāo)。目標(biāo)變量為risk,“1”表示欺詐,“0”表示正常。
分析工具采用SAS/STAT,SAS/EM4.3。SAS/STAT主要是用于一般的統(tǒng)計(jì)分析,SAS/EM4.3主要用于決策樹。
RBF神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘流程如圖1所示。
由于目標(biāo)變量risk為二值型,采用Logistic回歸分析進(jìn)行指標(biāo)篩選,方法為Stepwise。指標(biāo)篩選結(jié)果,按顯著性依高到 低 為 :CHECKING、INSTALLP、SAVING、PURPOSE、MARTIAL、DURATION、AMOUNT。
根據(jù)信息增益理論可得各指標(biāo)的信息增益比,前六個(gè)指標(biāo)值分別為:CHECKING=0.052,HISTORY=0.026,DURATION=0.022,AMOUNT=0.020,SAVING=0.015、PURPOSE=0.012
綜合回歸分析指標(biāo)篩選結(jié)果與信息增益指標(biāo)篩選結(jié)果,可以發(fā)現(xiàn),衡量客戶是否存在欺詐與社會(huì)人口信息類指標(biāo)相關(guān)性不強(qiáng)(只有MARTIAL,即婚姻狀況),而與客戶的消費(fèi)儲(chǔ)蓄行為較為密切。兩類指標(biāo)篩選結(jié)論基本一致,但是在具體指標(biāo)選擇上還是有較大差別,其原因主要是兩者的原理不同,判斷指標(biāo)重要性的標(biāo)準(zhǔn)不同。
上述指標(biāo)篩選結(jié)論說(shuō)明兩個(gè)問(wèn)題:一是對(duì)于信用卡欺詐建模,客戶的社會(huì)人口方面的信息并不重要,是否存在欺詐與客戶行為密切相關(guān),這種簡(jiǎn)化的數(shù)據(jù)結(jié)構(gòu)給經(jīng)濟(jì)行為結(jié)構(gòu)分析帶來(lái)了便利。二是在進(jìn)行數(shù)據(jù)挖掘時(shí),如果把所有的相關(guān)性不明顯的指標(biāo)納入分析模型,有可能導(dǎo)致模型的挖掘性能大為下降,同時(shí)也會(huì)給后續(xù)的結(jié)構(gòu)分析帶來(lái)困難。對(duì)于一些不具有伸縮性(Flexible)的挖掘模型(如回歸分析等),過(guò)多的指標(biāo)不利于提取數(shù)據(jù)結(jié)構(gòu)信息,即使是對(duì)一些伸縮能力很強(qiáng)的挖掘模型(如神經(jīng)網(wǎng)絡(luò)),指標(biāo)太多也會(huì)降低挖掘模型的性能,使模型的泛化能力下降。
信用卡欺詐分析RBF神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘,分別采用所有原始指標(biāo)、基于回歸分析的指標(biāo)子集與基于信息增益的指標(biāo)子集作為輸入數(shù)據(jù)結(jié)構(gòu),以便比較其對(duì)應(yīng)的準(zhǔn)確率。
建模流程如圖2所示。
表1 RBF神經(jīng)網(wǎng)絡(luò)模型分類效率對(duì)比表
圖2中SAMPSIO.DMAGECR功能為選取數(shù)據(jù)集,Data Partition功能為抽取樣本,Neural Network功能為建立RBF神經(jīng)網(wǎng)絡(luò)模型。
分析結(jié)果對(duì)比如表1所示。
從表1可以發(fā)現(xiàn),C模型的分類錯(cuò)誤率較低 (0.017),且訓(xùn)練誤判率(0.017)高于驗(yàn)證誤判率(0.013),說(shuō)明C模型具有較強(qiáng)的泛化能力。A模型采用原始所有指標(biāo),分類誤判率較高(0.29),訓(xùn)練誤判率(0.29)低于驗(yàn)證誤判率(0.32),模型泛化能力較弱。對(duì)比B模型與C模型的分類誤判率,可以發(fā)現(xiàn),基于信息增益的指標(biāo)選擇,使RBF神經(jīng)網(wǎng)絡(luò)的誤判率明顯下降。其根本原本在于,基于回歸分析的指標(biāo)篩選對(duì)數(shù)據(jù)分布有一定的假定;而基于信息增益的指標(biāo)篩選,除離散化外,對(duì)數(shù)據(jù)基本無(wú)要求。從RBF網(wǎng)絡(luò)收斂速度來(lái)看,通過(guò)指標(biāo)篩選能有效提高運(yùn)行速度。由于本次實(shí)證只有1000條數(shù)據(jù),采用指標(biāo)篩選后,收斂速度提高3-4倍。經(jīng)測(cè)試,對(duì)于20000條,指標(biāo)87個(gè)的海量數(shù)據(jù)集,神經(jīng)網(wǎng)絡(luò)收斂時(shí)需1-2小時(shí)(運(yùn)行于普通臺(tái)式電腦),可見指標(biāo)篩選對(duì)神經(jīng)網(wǎng)絡(luò)收斂速度有很大的影響。
本文首先簡(jiǎn)要介紹了神經(jīng)網(wǎng)絡(luò)的基本原理與其在實(shí)踐中的應(yīng)用,指出了神經(jīng)網(wǎng)絡(luò)模型的高度柔性和處理高維空間數(shù)據(jù)的能力。其次,介紹了神經(jīng)網(wǎng)絡(luò)模型中指標(biāo)篩選的必要性。再次,介紹幾類常用的指標(biāo)篩選技術(shù),并著重介紹了回歸分析指標(biāo)篩選技術(shù)與信息增益指標(biāo)篩選技術(shù)。最后,基于RBF神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘模型(信用卡欺詐檢測(cè)分析),比較了采用原始所有指標(biāo)、回歸分析子標(biāo)集與信息增益指標(biāo)集三種情況下,RBF模型的分類效率與收斂速度,進(jìn)一步展示了指標(biāo)篩選技術(shù)在神經(jīng)網(wǎng)絡(luò)模型中應(yīng)用的必要性與可行性。事實(shí)上,本文所介紹的指標(biāo)篩選技術(shù)適合于所有高維空間的降維處理與建模分析。
[1]Simon Haykin.Neural Networks:A Comprehensive Foundation (2ndEdition)[M].北京:清華大學(xué)出版社,2001.
[2]張?jiān)茲徚?,?shù)據(jù)挖掘,電子工業(yè)出版社,2004
[3]張德豐,《MATLAB神經(jīng)網(wǎng)絡(luò)應(yīng)用設(shè)計(jì)》[M].北京:機(jī)械工業(yè)出版社,2009.
[4]Jiawei Han,Micheline Kamber.Data Mining Concepts and Techniques[M].北京:機(jī)械工業(yè)出版社,2006.
[5]Mehmed Kantardzic.Data Mining Concepts,Models,Methodsand Algorithms[M].北京:清華大學(xué)出版社,2003.
O236
A
1002-6487(2011)10-0163-03
習(xí) 勤(1956-),男,江西南昌人,教授,研究方向:統(tǒng)計(jì)理論與方法。
米帥軍(1974-),男,湖南長(zhǎng)沙人,碩士,研究方向:統(tǒng)計(jì)方法與數(shù)據(jù)挖掘。
(責(zé)任編輯/亦 民)