趙雪艷,徐新華
(南昌大學(xué) 經(jīng)濟(jì)管理學(xué)院,江西 南昌 330031)
數(shù)量化理論是由日本學(xué)者林知己夫教授在1940年提出,他先后提出了六類數(shù)量化理論,其中數(shù)量化Ⅰ—Ⅳ類已被國內(nèi)外廣泛使用。菅民郎等對定性數(shù)據(jù)進(jìn)行判別的數(shù)量化Ⅱ類方法及應(yīng)用進(jìn)行了梳理[1]53;巖坪秀一對數(shù)量化理論進(jìn)行了研究[2]63。在日本最常用的定性數(shù)據(jù)判別分析方法是數(shù)量化Ⅱ類,在法國是Disqual法,對應(yīng)分析法是研究定性變量構(gòu)成的交互匯總表揭示變量之間的聯(lián)系,出現(xiàn)了“弓形效應(yīng)”。Ter Bcjf提出對應(yīng)分析法存在一個弊端,第二排序軸在許多情況下是第一軸的二次變形,把這種現(xiàn)象稱為“弓形效應(yīng)”[3]168。為修正“弓形效應(yīng)”,避免可能導(dǎo)致錯誤分析結(jié)果,Hill和Gauch在對應(yīng)分析法的基礎(chǔ)上提出了除趨勢對應(yīng)分析(Detrended Correspondence Analysis,DCA)[4]49,Braak提出了除趨勢典范對應(yīng)分析(Detrended Canonical Correspond Analysis,DCCA)[5]18,Saito和Otsu提出了OSMOD MODEL[6]8;足立浩平提出了等質(zhì)性分析[7]489;Aoki和Sato提出了Hermitian多項式的修正法[8]6。
據(jù)調(diào)查,國內(nèi)關(guān)于對應(yīng)分析法弓形效應(yīng)修正方法的研究較少,主要在修正方法的應(yīng)用上,提出典型相關(guān)分析的增量建模方法,通過協(xié)方差分解,實現(xiàn)對典型相關(guān)性的精確計算,在保證計算準(zhǔn)確性的前提下,提高了運(yùn)算效率。賈曉妮對DCA、典型相關(guān)分析(Canonical Correlation Analysis,CCA)和DCCA三種排序方法進(jìn)行了總結(jié),討論了它們在中國草地植被群落中的應(yīng)用現(xiàn)狀,并且提出由于DCCA考慮了“弓形效應(yīng)”修正,因此DCCA的使用效果最佳[9]392。李鎮(zhèn)清用描述群落最小剩余碼的平均碼長L(S)測度群落總復(fù)雜性,用Renyi熵測度非組織復(fù)雜性,并將它們之差(S)作為組織復(fù)雜性或群落結(jié)構(gòu)復(fù)雜性的測度,以CCA和剩余分析RA為基礎(chǔ),發(fā)展一種包括環(huán)境、空間格局和物種相互作用三個方面因素的植物群落數(shù)量分析方法,并在數(shù)據(jù)變化中分離出了這幾個方面的變化[10]320。
人們越來越多地意識到數(shù)據(jù)的重要性,對大數(shù)據(jù)分析方法進(jìn)行了大量的研究。何育朋提出大規(guī)模數(shù)據(jù)庫中的海量數(shù)據(jù)多具有混合屬性,傳統(tǒng)算法往往忽視多種屬性之間的關(guān)聯(lián)性,算法復(fù)雜,聚類速度慢,效果差,對此提出一種基于劃分聚類的混合大規(guī)模數(shù)據(jù)庫中數(shù)值型數(shù)據(jù)聚類算法,實現(xiàn)了混合大規(guī)模數(shù)據(jù)庫中數(shù)值型數(shù)據(jù)的聚類[11]120。劉超等為了解決混合型數(shù)據(jù)的聚類問題,將聚類方法K-prototypes與ClustMD進(jìn)行比較,改進(jìn)了關(guān)鍵參數(shù)選擇方法。結(jié)果表明,當(dāng)數(shù)據(jù)相關(guān)關(guān)系強(qiáng)、數(shù)據(jù)缺失嚴(yán)重或非連續(xù)變量較多時,建議使用K-prototypes[12]65。李鑫、白亮將基聚類與原數(shù)據(jù)看作一個混合型數(shù)據(jù),提出了一種基于混合型數(shù)據(jù)表示的聚類集成算法,該算法通過不斷迭代更新獲得更好的基聚類,且結(jié)果保持了對原數(shù)據(jù)類結(jié)構(gòu)和基聚類的一致性,與其他聚類集成算法進(jìn)行了比較,基于混合型數(shù)據(jù)表示的聚類集成算法是有效的[13]91。
關(guān)于信用評級方法研究,目前最常用的方法有判別分析法、神經(jīng)網(wǎng)絡(luò)、Logistic模型。在國外,Wiginton將Logistic模型與判別分析法對比,認(rèn)為Logistic模型比判別分析法效果更好[14]759。West認(rèn)為神經(jīng)網(wǎng)絡(luò)模型并不比Logistic預(yù)測效果好[15]1133。Myers和Forgy采用判別分析法建立了信用評分模型對特定領(lǐng)域作了實證分析[16]780。在國內(nèi),方匡南等運(yùn)用判別分析法構(gòu)建樣本評分模型,再用神經(jīng)網(wǎng)絡(luò)法對樣本進(jìn)行評分預(yù)測,并對神經(jīng)網(wǎng)絡(luò)預(yù)測得分進(jìn)行降序排列得到有序樣本,最后進(jìn)行有序樣本最優(yōu)分割,實現(xiàn)了個人信用的等級劃分[17]93。廖欣婷等隨機(jī)抽取了8 371名銀行信用卡客戶的樣本數(shù)據(jù),利用構(gòu)建Probit與Logistics模型對其信用卡逾期風(fēng)險進(jìn)行評估[18]72。陳湘州等以2014—2019年深交所中小企業(yè)板制造業(yè)中符合要求的中小企業(yè)為樣本,基于MLP神經(jīng)網(wǎng)絡(luò)構(gòu)建了中小企業(yè)供應(yīng)鏈金融信用風(fēng)險評估模型,結(jié)果表明,所建立模型的準(zhǔn)確率高、穩(wěn)定性強(qiáng),是中小企業(yè)供應(yīng)鏈金融信用風(fēng)險評估的理想模型。邱澤國等基于Lasso-RF兩階段特征選擇,選取邏輯回歸、支持向量機(jī)、隨機(jī)森林、決策樹等常用的信用評估分類算法,分別從準(zhǔn)確率、精確率、召回率和F1值4個指標(biāo)證明了兩階段特征選擇方法在個人信用風(fēng)險評估上具有更好的分類效果[19]90。曹小林等以貝葉斯網(wǎng)絡(luò)理論為基礎(chǔ),構(gòu)建了基于貝葉斯網(wǎng)絡(luò)的個人信用評價模型,采用隨機(jī)森林算法對各指標(biāo)的重要性進(jìn)行了預(yù)測,并以人人貸數(shù)據(jù)為研究樣本建立樹增強(qiáng)樸素貝葉斯網(wǎng)絡(luò)模型進(jìn)行實證研究,通過對樣本內(nèi)和外預(yù)測精度的考察,驗證了模型的穩(wěn)健性[20]154。王曉慧、李云飛針對個人信用等級的多分類問題進(jìn)行了研究,通過建立個人信用風(fēng)險評價指標(biāo)體系,運(yùn)用判別分析法構(gòu)建關(guān)于樣本的評分模型,得到判別得分;再用神經(jīng)網(wǎng)絡(luò)法對樣本進(jìn)行評分預(yù)測,得到對應(yīng)得分,并對神經(jīng)網(wǎng)絡(luò)預(yù)測得分進(jìn)行降序排列得到有序樣本,最后進(jìn)行有序樣本最優(yōu)分割,從而實現(xiàn)個人信用的等級劃分[21]65。趙海鵬、李丹從個人信貸的定義出發(fā),先總結(jié)了國內(nèi)外個人信貸評估的經(jīng)驗理論,再根據(jù)模型評價和綜合評判兩個方面進(jìn)行模式創(chuàng)新,通過實證研究,挖掘出了決定我國個人信用狀況的重要變量,又利用Logistic回歸這一經(jīng)典計量模型擴(kuò)展了客戶進(jìn)行信用評分[22]113。
國內(nèi)外學(xué)者在對應(yīng)分析法“弓形效應(yīng)”修正方法及應(yīng)用方面已經(jīng)取得了豐富的研究成果,避免了可能錯誤的分析結(jié)果。關(guān)于定性數(shù)據(jù)的數(shù)量化理論,日本學(xué)者林知己夫先后提出了六類數(shù)量化理論,經(jīng)研究發(fā)現(xiàn)數(shù)量化Ⅱ類出現(xiàn)了“弓形效應(yīng)”,“弓形效應(yīng)”的出現(xiàn)會降低正判別率(Correct Discriminant Rate,CDR),同時不能真實再現(xiàn)原始數(shù)據(jù)信息,可能導(dǎo)致錯誤的分析結(jié)果,需要修正。隨著大數(shù)據(jù)時代的來臨,人們越來越重視數(shù)據(jù)的重要性。如何從大量的、雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出具有某些特定價值、意義的數(shù)據(jù)顯得至關(guān)重要,國內(nèi)外學(xué)者對于大數(shù)據(jù)分析方法研究取得了一定成果。信用評級目前最常用的方法——判別分析法、神經(jīng)網(wǎng)絡(luò)和Logistic模型中,哪一種判別方法的判別性能更好,目前還沒有一致的結(jié)論。本研究的目的是提出一種修正數(shù)量化Ⅱ類“弓形效應(yīng)”,同時實現(xiàn)混合型大數(shù)據(jù)判別分析方法二階段判別分析法(以下簡稱二階段法),并將其應(yīng)用到個人信用評級中。
本文的創(chuàng)新點主要體現(xiàn)在三個方面。第一,檢驗了數(shù)量化Ⅱ類“弓形效應(yīng)”的存在及存在形式,根據(jù)變量間相關(guān)關(guān)系的強(qiáng)弱,提出了“弓形效應(yīng)”修正方法二階段法的兩種模型M3、M4。第二,隨著云時代的來臨,大數(shù)據(jù)吸引了越來越多的關(guān)注,人們越來越多地意識到數(shù)據(jù)的重要性,大數(shù)據(jù)的特點是定量與定性數(shù)據(jù)混合于一體,數(shù)據(jù)量龐雜,然而只能對定性或定量數(shù)據(jù)進(jìn)行判別的數(shù)量化Ⅱ類、Disqual法、線性判別分析法等不能滿足現(xiàn)實需求。為實現(xiàn)大數(shù)據(jù)分析,需要對二階段法進(jìn)行進(jìn)一步的拓展研究,提出判別模型M5,使其實現(xiàn)定性定量混合型數(shù)據(jù)的判別,更好的服務(wù)實務(wù)界。第三,將拓展后的二階段法M5應(yīng)用到個人信用評級中,個人信貸數(shù)據(jù)為定量定性混合型,研究結(jié)果顯示二階段法的判定性能優(yōu)異。
數(shù)量化Ⅱ類研究定性數(shù)據(jù)是根據(jù)個體觀測指標(biāo)特征來推斷該個體所屬類型的一種判別分析方法。其基本思想是以反應(yīng)矩陣為基礎(chǔ),對各類目賦予適當(dāng)?shù)牡梅郑鶕?jù)已知若干母體中的n個樣本對于Q個項目的觀測結(jié)果尋求線性判別函數(shù),進(jìn)而對母體的樣本進(jìn)行判別分類。
(1)
根據(jù)Fisher判別準(zhǔn)則,借助方差分析的思想,通過準(zhǔn)則函數(shù)方差比η2最大,求解線性判別函數(shù),尋找最優(yōu)的判別系數(shù)αjk,將不同性質(zhì)的類在最大程度上進(jìn)行分離,從而達(dá)到類判別的效果。方差比為:
(2)
(3)
對式(3)進(jìn)行整理:
等式兩邊同時乘以T的逆矩陣:
(T-1B-λI)α=0
(4)
I表示單位矩陣,λ(=η2)表示特征值,α表示特征向量。
求解式(4),需除去各項目中的任意一類目(可為第1個或最后1個),找到T-1B的特征值λ,求解特征向量α。特征向量即判別系數(shù)矩陣α是將特征向量按照特征值λ大小順序從左往右排列的矩陣,記為α=[α1,α2,…,αm]。將α中的α1、α2作為第一、二象限判別系數(shù),在二維坐標(biāo)軸上做出相應(yīng)的散點圖,其散點圖呈現(xiàn)“弓形”,把這種現(xiàn)象稱為“弓形效應(yīng)”。數(shù)量化Ⅱ類存在“弓形效應(yīng)”,對判別結(jié)果存在兩個方面的不良影響:
(1)根據(jù)個體指標(biāo)推斷該個體屬于哪個類別時,由于出現(xiàn)“弓形效應(yīng)”,會降低正判別率(CDR)。
(2)對判別結(jié)果進(jìn)行因子分析時,不能正確反映潛在連續(xù)型變量(Potentially Continuous Variables,PCV)即原始數(shù)據(jù)信息(本文設(shè)定原始數(shù)據(jù)信息為等間隔遞增),可能導(dǎo)致分析結(jié)果與PCV信息不符,得出錯誤結(jié)論。
為修正“弓形效應(yīng)”,本文提出二階段法M3、M4,為實現(xiàn)混合型數(shù)據(jù)判別提出拓展的二階段法M5。
傳統(tǒng)定性數(shù)據(jù)判別分析法數(shù)量化Ⅱ類存在“弓形效應(yīng)”,對判別結(jié)果主要存在兩個方面的不良影響:
(1)主要目的是對樣本數(shù)據(jù)進(jìn)行群判別時,第一、二排序軸間的相關(guān)關(guān)系將產(chǎn)生“弓形效應(yīng)”,影響判別性能,降低正判別率。
(2)主要目的是對判別結(jié)果進(jìn)行因子分析時,由于“弓形效應(yīng)”的存在將導(dǎo)致不能正確反映潛在連續(xù)型變量信息,可能導(dǎo)致錯誤的分析結(jié)果。
另外,在實際應(yīng)用中,自變量間存在較強(qiáng)相關(guān)關(guān)系和較弱或沒有相關(guān)關(guān)系的情況。二階段法根據(jù)變量間的相關(guān)關(guān)系強(qiáng)弱提出兩種判別模型M3、M4,M3主要針對自變量間存在較強(qiáng)相關(guān)關(guān)系的情況,M4主要針對變量間存在較弱或不相關(guān),但自變量與基準(zhǔn)變量間存在較強(qiáng)相關(guān)關(guān)系的情況。二階段法主要包括兩個步驟:
步驟1:找到適合的第一象限判別系數(shù),對定性數(shù)據(jù)進(jìn)行數(shù)量化;
(1)M3:CCA(Gjvs G-j|GE)
GE表示基準(zhǔn)變量,Gj表示其中一個自變量,G-j表示除Gj以外的所有自變量,從Gj以及G-j中除去GE的回歸效果后進(jìn)行CCA。當(dāng)各自變量間存在較強(qiáng)相關(guān)關(guān)系情況下,去除基準(zhǔn)變量GE的影響,可以期待提高判別系數(shù)的有效性,提高正判別率。
(2)M4:CCA(Gjvs GE|G-j)
從Gj以及GE中除去G-j的回歸效果后進(jìn)行CCA,當(dāng)各自變量間相關(guān)關(guān)系較弱,但是各自變量與基準(zhǔn)變量間存在較強(qiáng)相關(guān)關(guān)系的情況下,去除其他自變量的影響,可以期待提高判別系數(shù)的有效性,提高正判別率。
步驟2:對數(shù)量化后的數(shù)據(jù)進(jìn)行線性判別分析LDA。
數(shù)據(jù)多為定量、定性的混合型,只能對定性數(shù)據(jù)進(jìn)行判別的二階段法不能適應(yīng)當(dāng)下需求,因此對二階段法需要做進(jìn)一步的拓展研究,使其實現(xiàn)混合型數(shù)據(jù)判別,主要包括三個步驟:
(1)為定性變量找到最適合的第一象限數(shù)量化系數(shù)M3:CCA(Gjvs G(-j)|Ge),從Gj以及G-j中除去GE的回歸效果后進(jìn)行CCA。通過數(shù)量化系數(shù)對定性變量進(jìn)行數(shù)量化,生成連續(xù)型數(shù)據(jù)。
(2)將自變量中的定量變量與數(shù)量化后的連續(xù)型變量進(jìn)行合并,生成判別分析模型中的連續(xù)型自變量。
(3)對連續(xù)型自變量與基準(zhǔn)變量進(jìn)行線性判別分析LDA,實現(xiàn)混合型數(shù)據(jù)判別。
為了對以上模型的判別性能進(jìn)行對比及檢驗,將進(jìn)行模擬數(shù)據(jù)分析,主要從CDR指標(biāo)進(jìn)行評價。
對應(yīng)分析法在對定性數(shù)據(jù)數(shù)量化過程中出現(xiàn)了“弓形效應(yīng)”,“弓形效應(yīng)”的存在可能導(dǎo)致錯誤的分析結(jié)果,為此關(guān)于對應(yīng)分析法“弓形效應(yīng)”的修正方法進(jìn)行了大量研究,并取得了豐富的研究成果。數(shù)量化Ⅱ類是對定性數(shù)據(jù)進(jìn)行數(shù)量化再進(jìn)行判別分析,那么在對定性數(shù)據(jù)數(shù)量化過程中是否存在“弓形效應(yīng)”?如果存在,是以怎樣的形式存在?本文通過模擬數(shù)據(jù)對這兩個問題進(jìn)行考察。
1.生成潛在連續(xù)型變量
潛在連續(xù)型變量滿足正態(tài)假定,生成要素包括:樣本容量N;基準(zhǔn)變量GE,E表示類別號;自變量(x1,x2,…,xn);均值向量μE;相關(guān)系數(shù)矩陣∑=(σij)n×n,其中σij=cov(xi,xj),i,j=1,2,…,n。根據(jù)以上要素生成潛在連續(xù)型變量(Potential Continuous Variables,PCV),即原始數(shù)據(jù)信息。
2.生成定性變量
對生成的連續(xù)型變量可采用兩種方式生成定性變量:(1)對自變量進(jìn)行等段數(shù)、等間隔、遞增的分割;(2)對自變量進(jìn)行不等段數(shù)、等間隔、遞增的分割。具體采用哪一種方式可根據(jù)數(shù)據(jù)的分布情況進(jìn)行選擇,對分割后的變量賦予相應(yīng)的類別數(shù)據(jù),即生成定性變量。生成的定性變量將保持潛在連續(xù)型變量遞增的特性。如圖1所示生成的連續(xù)型自變量x1、x2、x3,可以采用第二種方式,不等段數(shù)、等間隔、遞增的分割,生成定性變量。
數(shù)量化Ⅱ類是否存在“弓形效應(yīng)”,要從理論證明存在一定困難,目前最直接有效的方法是通過模擬數(shù)據(jù)進(jìn)行檢驗。通過以上方法生成的定性數(shù)據(jù)進(jìn)行數(shù)量化Ⅱ類分析,檢驗“弓形效應(yīng)”是否存在。“弓形效應(yīng)”存在形式的影響因素主要考慮樣本容量n。
樣本容量n分別取300、1500、6000、30000,圖1是自變量x1、x2、x3第一、二象限數(shù)量化系數(shù)分布圖,判別影響大小排序x1>x2>x3。
“Ο”表示x1、“△”表示x2、“×”表示x3圖1 變量x1、x2、x3的第一、二象限數(shù)量化系數(shù)分布圖
1.生成的潛在連續(xù)型變量是按照等間隔遞增分割的,那么希望數(shù)量化Ⅱ類對定性數(shù)據(jù)進(jìn)行數(shù)量化后,數(shù)量化系數(shù)能夠反映遞增這一原始數(shù)據(jù)信息,從圖1的研究結(jié)果發(fā)現(xiàn),第一、二象限數(shù)量化系數(shù)沒有真實再現(xiàn)遞增現(xiàn)象,出現(xiàn)了“弓形效應(yīng)”。
2.數(shù)據(jù)的樣本容量無論大小都存在“弓形效應(yīng)”,對“弓形效應(yīng)”強(qiáng)弱的影響不大。
3.對判別效果影響最大的變量x1,受“弓形效應(yīng)”影響最顯著。
二階段法M3,當(dāng)各自變量間存在較強(qiáng)相關(guān)關(guān)系情況下,在數(shù)量化過程中去除基準(zhǔn)變量GE的影響,可以提高判別系數(shù)的有效性,提高正判別率。模擬數(shù)據(jù)分析首先通過訓(xùn)練數(shù)據(jù)建立判別模型,再通過測試數(shù)據(jù)檢驗?zāi)P偷呐袆e性能,比較M3與數(shù)量化Ⅱ類判別性能的優(yōu)劣。訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分別選取多種不同的自變量個數(shù)、樣本容量,分別生成100組數(shù)據(jù),應(yīng)用M3和數(shù)量化Ⅱ類對數(shù)據(jù)進(jìn)行判別分析,可計算出M3的100個CDR和數(shù)量化Ⅱ類的100個CDR,兩兩進(jìn)行比較并分別累計優(yōu)勝次數(shù),并對比較結(jié)果進(jìn)行Wilcoxon檢驗,如表(1)所示。
二階段法M4,當(dāng)各自變量間相關(guān)關(guān)系較弱,但是各自變量與基準(zhǔn)變量間存在較強(qiáng)相關(guān)關(guān)系的情況下,去除其他自變量的影響,可以期待提高判別系數(shù)的有效性,提高正判別率。M4與數(shù)量化Ⅱ類的對比分析如表2所示。
表1 M3與數(shù)量化Ⅱ類的CDR比較與Wilcoxon檢驗
1.M3與潛在連續(xù)型變量及數(shù)量化ⅡCDR的比較
表3取K=10,對數(shù)據(jù)進(jìn)行潛在連續(xù)型變量、數(shù)量化Ⅱ類和M3三種判別方法進(jìn)行了判別分析,發(fā)現(xiàn)當(dāng)樣本容量小于1500時,數(shù)量化Ⅱ類的平均CDR大于潛在連續(xù)型變量的CDR,這屬于不合理現(xiàn)象,表明數(shù)量化Ⅱ類在樣本容量N很小的情況下會夸大CDR。
2.M4與潛在連續(xù)型變量及數(shù)量化ⅡCDR的比較
表4取K=10,對數(shù)據(jù)進(jìn)行潛在連續(xù)型變量、數(shù)量化Ⅱ類和M4三種判別方法進(jìn)行判別分析,與M3的分析結(jié)論一樣,當(dāng)樣本容量小于1500時,數(shù)量化Ⅱ類的平均CDR大于潛在連續(xù)型變量的CDR,再次表明數(shù)量化Ⅱ類在樣本容量N很小的情況下會夸大CDR。
表2 M4與數(shù)量化Ⅱ類的CDR比較與Wilcoxon檢驗
表3 潛在連續(xù)型變量、數(shù)量化Ⅱ類和M3的判別性能比較
在實際數(shù)據(jù)分析中,沒有測試數(shù)據(jù),只有樣本數(shù)據(jù),希望從樣本數(shù)據(jù)中推斷出測試數(shù)據(jù)的結(jié)果,因此,使用0.632 Bootstrap推斷。檢驗數(shù)量化Ⅱ類和M3、數(shù)量化Ⅱ和M4的判別性能,對數(shù)據(jù)進(jìn)行0.632 Bootstrap推斷,訓(xùn)練集中含有63.2%的數(shù)據(jù),測試集中含有36.8%的數(shù)據(jù),是小數(shù)據(jù)錯誤率估計的最好辦法。結(jié)果如表5、表6所示。
表4 潛在連續(xù)型變量、數(shù)量化Ⅱ類和M4的判別性能比較
數(shù)量化Ⅱ類出現(xiàn)了弓形效應(yīng),降低了正判別率,為修正弓形效應(yīng)提出二階段法,即在第一階段進(jìn)行數(shù)量化,修正弓形效應(yīng);在第二階段進(jìn)行線性判別,以便在不受弓形效應(yīng)影響的情況下進(jìn)行判別分析。作為第一階段的數(shù)量化方法,提出了兩種模型M3和M4。當(dāng)說明變量間存在較高相關(guān)關(guān)系的情況下應(yīng)用M3模型,當(dāng)說明變量間相關(guān)關(guān)系較低時應(yīng)用M4模型。表5和表6的分析結(jié)果如下:
表5 數(shù)量化Ⅱ類和M3的判別性能比較(0.632 Rootstrap)
表6 數(shù)量化Ⅱ類和M4的判別性能比較(0.632 Rootstrap)
1.訓(xùn)練數(shù)據(jù)
(1)表1、表2的CDR優(yōu)勝次數(shù)表明,樣本容量越增加M3、M4優(yōu)于數(shù)量化Ⅱ類的效果越明顯。
(2)表1、表2的分析結(jié)果顯示,當(dāng)變量個數(shù)K較小時,M3、M4與數(shù)量化Ⅱ類判別性能分界點所需的樣本容量較??;當(dāng)變量個數(shù)K較大時,M3、M4與數(shù)量化Ⅱ類判別性能分界點所需的樣本容量較大。
(3)表3、表4的分析結(jié)果顯示,當(dāng)樣本容量較小時數(shù)量化Ⅱ類的CDR比潛在連續(xù)型變量的CDR大,說明當(dāng)樣本容量較小時數(shù)量化Ⅱ類夸大了CDR,二階段法M3、M4的CDR接近但小于潛在連續(xù)型變量,沒有出現(xiàn)夸大CDR的情況。
2.測試數(shù)據(jù)
(1)表1、表2的分析結(jié)果顯示,對于所有樣本,M3、M4的判別性能都高于數(shù)量化Ⅱ類。
(2)表1、表2的CDR優(yōu)勝次數(shù)表明,隨著樣本容量的增加,M3、M4優(yōu)于數(shù)量化Ⅱ類的效果越明顯。
(3)表5、表6的0.632Bootstrap分析結(jié)果顯示,測試數(shù)據(jù)二階段法M3、M4的CDR均高于數(shù)量化Ⅱ類,說明0.632Bootstrap做出了比較精準(zhǔn)的推斷。
1.連續(xù)型變量的生成
生成連續(xù)型變量,將變量分成兩組,一組A1,A2,……用來進(jìn)行數(shù)量化,另外一組B1,B2,……,對判別分析影響排序A1>A2>……,B1>B2>……,基準(zhǔn)變量GE,E表示類別號。
2.定性變量生成
由表7的分析結(jié)果顯示,M5的判別性能會隨著自變量個數(shù)和樣本容量的增加而更加優(yōu)異。
表7 M5的判別性能
個人信用評級體系是一個國家信用體系的重要組成部分,在國民經(jīng)濟(jì)增長與社會生活的各個方面,尤其是在商業(yè)銀行開展個人消費(fèi)信貸業(yè)務(wù)中發(fā)揮重要作用。在西方發(fā)達(dá)國家,個人信貸制度已有100多年歷史,這些國家的個人信用評級體系已經(jīng)相當(dāng)發(fā)達(dá)和完善。完善的個人信用評級體系不僅能進(jìn)一步提高市場資源配置效率,而且可以促進(jìn)個人信貸消費(fèi),拉動市場消費(fèi)狀況,從而改變目前主要由投資拉動的經(jīng)濟(jì)增長方式,進(jìn)一步改善社會信用狀況。銀行信用政策,包括信用形式、期限金額等的確定,必須建立在對客戶信用狀況科學(xué)評估分析的基礎(chǔ)上,才能達(dá)到既從客戶的交易中獲取最大收益,又將客戶信用風(fēng)險控制在最低限度的目的。由于未對客戶信用狀況作科學(xué)評估,一味追求客戶定單,而造成壞賬損失的教訓(xùn)屢見不鮮,如何對客戶信用狀況作科學(xué)評估分析,就需要科學(xué)的評估方法。本文將運(yùn)用二階段法M5建立判別模型,對銀行信用卡客戶違約情況進(jìn)行判別,對客戶信用狀況作科學(xué)評估,進(jìn)一步檢驗M5的判別性能。
本文選取了商業(yè)銀行信用卡客戶資料庫數(shù)據(jù)為研究對象,判定的對象為客戶是否違約,拖欠貸款3個月以上視為違約,將數(shù)據(jù)分為違約和非違約兩個群,樣本容量為3000,其中違約的樣本量為1000,約占總樣本量的33.3%,非違約的樣本量為2000,約占總樣本量的66.7%。
個人信用主要受到以下幾個方面的影響:個人基本情況、家庭基本情況、收入情況、信用卡使用情況、不良記錄等,因此本文選取了與之相關(guān)的13個自變量即G1~G13,其中G1~G7為定性變量,G8~G13為定量變量,基準(zhǔn)變量為GE,各變量說明如表8所示。
表8 變量說明
表9 M5的判別性能
假定定性自變量后存在潛在連續(xù)型變量,基準(zhǔn)變量與自變量可以通過線性判別函數(shù)進(jìn)行判別。第一,檢驗了數(shù)量化Ⅱ類“弓形效應(yīng)”的存在及存在形式,提出了“弓形效應(yīng)”修正方法二階段法;第二,隨著大數(shù)據(jù)時代的來臨,吸引了越來越多的關(guān)注,人們越來越多的意識到數(shù)據(jù)的重要性,大數(shù)據(jù)的特點是定量與定性數(shù)據(jù)混合于一體,數(shù)據(jù)量龐雜,然而只能對定性或定量數(shù)據(jù)進(jìn)行判別的判別分析法不能滿足現(xiàn)實需求,提出的二階段法M3、M4雖然修正了“弓形效應(yīng)”的影響,提高了正判別率,但是只能對定性數(shù)據(jù)進(jìn)行判別并不能滿足實務(wù)界的需求,為了實現(xiàn)大數(shù)據(jù)分析,需要對二階段法做進(jìn)一步的拓展研究,使其實現(xiàn)定性定量混合型數(shù)據(jù)的判別,更好的服務(wù)實務(wù)界;第三,將拓展后的二階段法應(yīng)用到個人信用評級中,個人信貸數(shù)據(jù)為定量定性混合型,研究結(jié)果顯示二階段法M5的判定性能優(yōu)異。