(貴州財(cái)經(jīng)大學(xué)信息學(xué)院,貴州 貴陽 550025)
信用卡最早出現(xiàn)于19 世紀(jì)的英國服裝業(yè),但隨著社會(huì)經(jīng)濟(jì)的快速發(fā)展,世界各國銀行相繼發(fā)行信用卡,由于信用卡具有信用貸款、免息還款期、分期還款等特點(diǎn),受到了廣大消費(fèi)者的追捧,伴隨著優(yōu)惠力度大的同時(shí),信用卡的發(fā)展也給社會(huì)帶來了威脅,例如盲目消費(fèi)、過度消費(fèi)、信用卡詐騙等不良現(xiàn)象,造成持卡人和發(fā)卡方都遭受損失[1]。為了維護(hù)消費(fèi)者和銀行利益,保證信用卡在消費(fèi)市場(chǎng)的良好使用,在申請(qǐng)機(jī)制上,筆者運(yùn)用邏輯回歸算法對(duì)信用卡申請(qǐng)進(jìn)行研究。
本文選取的邏輯回歸作為機(jī)器學(xué)習(xí)算法中的一種,其應(yīng)用范圍更為寬廣,尤其在二分類的問題上,邏輯回歸的處理能力較為突出,本文選取銀行客戶的基本信息作為信用評(píng)分依據(jù),通過數(shù)量化的管理方法,對(duì)客戶信用狀態(tài)進(jìn)行數(shù)量化的度量,以此作為信用卡申請(qǐng)結(jié)果分類預(yù)測(cè)的依據(jù),通過對(duì)訓(xùn)練模型的不斷調(diào)整和優(yōu)化,本文預(yù)測(cè)模型在處理信息量龐大的數(shù)據(jù)集上效果顯著,能夠?yàn)殂y行的信用卡服務(wù)提供有效參考,提高服務(wù)效率。
伴隨著大數(shù)據(jù)時(shí)代的來臨,社會(huì)各領(lǐng)域都在力求通過技術(shù)的創(chuàng)新來實(shí)現(xiàn)產(chǎn)業(yè)的良好發(fā)展,邏輯回歸作為一種在處理分類問題上能夠準(zhǔn)確預(yù)測(cè)未來價(jià)值的算法模型[2],已經(jīng)普遍應(yīng)用于金融、醫(yī)學(xué)、自然科學(xué)等多個(gè)領(lǐng)域,對(duì)于邏輯回歸的學(xué)術(shù)研究成為當(dāng)前諸多學(xué)者們關(guān)注的焦點(diǎn)。筆者通過對(duì)國內(nèi)外有關(guān)邏輯回歸研究的文獻(xiàn),利用KH Coder Folder 分析工具進(jìn)行層次聚類分析后,得出如圖1、圖2 所示的研究熱點(diǎn)。
圖1 國內(nèi)文獻(xiàn)分析結(jié)果顯示,目前我國大部分的學(xué)者對(duì)于邏輯回歸的實(shí)用性研究主要分為自然災(zāi)害預(yù)測(cè)、廣告預(yù)測(cè)和信用風(fēng)險(xiǎn)預(yù)測(cè)三個(gè)方面。
從圖2 中可以發(fā)現(xiàn),國外學(xué)者對(duì)風(fēng)險(xiǎn)預(yù)測(cè)的也保持相同的研究熱度,尤其是在一些重大疾病的預(yù)測(cè)上。同時(shí),國外大部分文獻(xiàn)的研究偏向于對(duì)邏輯回歸算法模型本身特點(diǎn)的研究等。
圖1 國內(nèi)文獻(xiàn)研究熱點(diǎn)
圖2 國外文獻(xiàn)研究熱點(diǎn)
綜上所述,目前國內(nèi)外對(duì)邏輯回歸的研究主要針對(duì)其實(shí)用性,在算法的實(shí)現(xiàn)原理上和優(yōu)化步驟上涉及較少,因此本文基于國內(nèi)外研究現(xiàn)狀選取邏輯回歸預(yù)測(cè)模型對(duì)信用卡申請(qǐng)結(jié)果進(jìn)行預(yù)測(cè)分類,將算法原理和實(shí)際應(yīng)用同時(shí)作為研究重點(diǎn),并結(jié)合實(shí)例驗(yàn)證,其優(yōu)點(diǎn)在于:通過深入剖析邏輯回歸算法原理,從本質(zhì)上找到優(yōu)化策略,然后利用Kaggle 的數(shù)據(jù)集訓(xùn)練預(yù)測(cè)模型及測(cè)試模型效率,以檢查其實(shí)用性,結(jié)合前人研究成果,將預(yù)測(cè)模型應(yīng)用至信用卡申請(qǐng)服務(wù)領(lǐng)域,從而達(dá)到提高服務(wù)效率的目的。
本文構(gòu)建基于邏輯回歸算法的信用卡申請(qǐng)結(jié)果分類預(yù)測(cè)分為以下五個(gè)步驟:
1)確定預(yù)測(cè)函數(shù)。本文采用sigmoid 函數(shù)作為邏輯回歸的預(yù)測(cè)函數(shù),sigmoid 函數(shù)可以有效處理二分類問題[3]。
2)擬合分析。擬合分析是線性回歸和邏輯回歸中十分關(guān)鍵的步驟,其目的在于不斷優(yōu)化算法模型,尋找最優(yōu)解。
3)數(shù)據(jù)處理。本文選取Kaggle 的測(cè)試數(shù)據(jù)集,對(duì)數(shù)據(jù)集中的特征屬性進(jìn)行篩選,選取對(duì)預(yù)測(cè)結(jié)果產(chǎn)生較大影響的特征值作為模型變量。
4)訓(xùn)練預(yù)測(cè)模型。本文利用python 完成邏輯回歸模型的訓(xùn)練,通過訓(xùn)練結(jié)果分析模型優(yōu)劣,python 中自帶的邏輯回歸算法滿足本文對(duì)邏輯回歸算法的各項(xiàng)分析。
5)分析分類結(jié)果。利用保存訓(xùn)練模型預(yù)測(cè)1 000 條待預(yù)測(cè)樣本,同時(shí)尋找出影響信用卡申請(qǐng)結(jié)果的主要特征屬性,為銀行信用卡業(yè)務(wù)的良好發(fā)展提供有效的建議。
邏輯回歸也叫做對(duì)數(shù)幾率回歸,它是在線性回歸的基礎(chǔ)上,將線性模型通過函數(shù),轉(zhuǎn)化為結(jié)果只有0 或1 的分類模型。它的建模過程和線性回歸基本相同[4]。
對(duì)于預(yù)測(cè)信用卡申請(qǐng)結(jié)果只存在申請(qǐng)成功和申請(qǐng)失敗兩種情況,即輸出值屬于{0,1},而線性回歸模型產(chǎn)生的預(yù)測(cè)值為(W 是參數(shù)向量):。其輸出值是連續(xù)的,但是需要將函數(shù)的輸出值z(mì) 轉(zhuǎn)化為僅有0 或1 兩種可能,于是引入sigmoid 函數(shù):,由于sigmoid函數(shù)以輸出值0.5 作為分界值,因此當(dāng)輸出值大于等于0.5 時(shí)歸類為1,小于0.5 時(shí)歸類為0,至此,得到了預(yù)測(cè)函數(shù)模型:
在選取了預(yù)測(cè)函數(shù)之后,預(yù)測(cè)得出的曲線與實(shí)際值可能會(huì)存在較大的誤差,因此就需要進(jìn)行擬合優(yōu)化,即把平面上一系列的點(diǎn),用一條光滑的曲線連接起來,由于該曲線存在著多種可能,因此擬合的方法也較多,擬合的曲線一般用函數(shù)表示[4]。
在運(yùn)用邏輯回歸做二分類時(shí),可以通過python 的輸出結(jié)果,觀察訓(xùn)練集測(cè)試集的表現(xiàn),從中找出是否存在擬合問題,然后提出優(yōu)化方案即可。在邏輯回歸中,擬合分析可以分為兩個(gè)步驟,第一步構(gòu)造代價(jià)函數(shù),第二步求解參數(shù)。
1)構(gòu)造代價(jià)函數(shù)。構(gòu)造邏輯回歸代價(jià)函數(shù)采用對(duì)數(shù)似然函數(shù),根據(jù)預(yù)測(cè)函數(shù)構(gòu)造一個(gè)它的分布的概率密度,利用已知的樣本反推參數(shù),根據(jù)上一步得到的預(yù)測(cè)函數(shù),可以知道概率如下:
將上述兩個(gè)式子合并,得到概率公式:
由極大似然估計(jì)可知,聯(lián)合概率為:
極大似然估計(jì)的目標(biāo)是找到參數(shù)w 使得L(w)最大,對(duì)L 加一個(gè)負(fù)號(hào),就可以得到代價(jià)函數(shù),也就是找到參數(shù)w 使得-L(w)最小。為了簡化計(jì)算,對(duì)L(w)取對(duì)數(shù)得:
最后得到代價(jià)函數(shù):
2)求解參數(shù)。由于代價(jià)函數(shù)可能是一條無規(guī)則變動(dòng)的曲線,因此需要找到該條曲線中的最低點(diǎn),即最優(yōu)值,其求解過程一般使用梯度下降法。梯度下降法的計(jì)算過程就是沿梯度下降的方向,不斷更新w 值,最終找出極小值[5],梯度下降函數(shù)為:
其中,W0是自變量參數(shù),即下降前位置坐標(biāo),α 是學(xué)習(xí)因子,即下降步長,w 是更新后的W0,即下降移動(dòng)一小步之后的位置,代表梯度。
本文共選取了5 000 條實(shí)驗(yàn)數(shù)據(jù)和1 000 條待預(yù)測(cè)數(shù)據(jù),實(shí)驗(yàn)數(shù)據(jù)中類別為申請(qǐng)失敗的數(shù)據(jù)3 500 條,類別為申請(qǐng)成功的數(shù)據(jù)1 500 條,同時(shí),共選取所屬國家類別、逾期記錄、預(yù)計(jì)收入、支出平衡狀態(tài)等10 個(gè)特征屬性。
為了方便數(shù)據(jù)的統(tǒng)計(jì)分析,再讀數(shù)據(jù)進(jìn)行預(yù)處理,將所屬國家類別中“西方國家”標(biāo)記為“0”,“東方國家”標(biāo)記為“1”,逾期記錄中“存在”標(biāo)記為“1”,“不存在”標(biāo)記為“0”,申請(qǐng)結(jié)果中“申請(qǐng)成功”標(biāo)記為“1”,申請(qǐng)失敗標(biāo)記為“0”,整理后的數(shù)據(jù)如表1 所示。
表1 實(shí)驗(yàn)數(shù)據(jù)
Python 作為當(dāng)前機(jī)器學(xué)習(xí)中主流的計(jì)算機(jī)語言之一,其在算法模型的建立上更為清晰[6],因此本文選擇python訓(xùn)練邏輯回歸算法模型,訓(xùn)練模型數(shù)據(jù)劃分比例為訓(xùn)練集占比75%,測(cè)試集占比25%。在使用python 訓(xùn)練邏輯回歸模型時(shí),只需要導(dǎo)入邏輯回歸算法模塊,調(diào)整算法參數(shù)即可。表2 給出了訓(xùn)練結(jié)果。
訓(xùn)練模型輸出的結(jié)果值能夠反應(yīng)模型的優(yōu)劣程度,上表中模型準(zhǔn)確率是指分對(duì)的樣本數(shù)除以所有的樣本數(shù),通常來說,準(zhǔn)確率越高,模型越好;precision 表示精確率[7],其是指在測(cè)試集中被分為申請(qǐng)失敗和申請(qǐng)成功的所有樣本中,實(shí)際類別為申請(qǐng)失敗和申請(qǐng)成功所占的比例;recall 為召回率,即測(cè)試集中實(shí)際類別為申請(qǐng)失敗或申請(qǐng)成功的樣本占所有被預(yù)測(cè)為申請(qǐng)失敗或申請(qǐng)成功的比例;f1-score 為精確率和召回率的調(diào)和平均數(shù),評(píng)判模型一般觀察f1-score,f1-score 越高,模型越好;support 為樣本數(shù)量。由于本文的實(shí)驗(yàn)數(shù)據(jù)均來源于實(shí)際統(tǒng)計(jì)結(jié)果,因此發(fā)現(xiàn)訓(xùn)練模型的準(zhǔn)確率較高,達(dá)到0.97。
表2 訓(xùn)練結(jié)果
保存模型后,對(duì)1 000 條待預(yù)測(cè)數(shù)據(jù)進(jìn)行分類預(yù)測(cè),得出表3 的分類結(jié)果。
表3 申請(qǐng)結(jié)果分類預(yù)測(cè)
至此,文本完成了對(duì)無申請(qǐng)結(jié)果的1 000 條待預(yù)測(cè)數(shù)據(jù)集的分類預(yù)測(cè),該模型的實(shí)現(xiàn)能夠有效節(jié)約信用卡申請(qǐng)?zhí)幚頃r(shí)間,提高相關(guān)業(yè)務(wù)部門的工作效率。
針對(duì)輸出結(jié)果,筆者認(rèn)為提高信用卡申請(qǐng)效率需要對(duì)申請(qǐng)者職業(yè)及收入重點(diǎn)審核。由于目前銀行業(yè)競(jìng)爭激烈,為了能夠獲得更多利益,在信用卡申請(qǐng)過程中,越來越多的嚴(yán)格要求被漸漸忽視,對(duì)于傳統(tǒng)流程中提供工作證明、財(cái)力證明等重要環(huán)節(jié)都被簡化,甚至可以通過支付寶的信譽(yù)積分就可以申請(qǐng)到一張信用卡,這些現(xiàn)象存在諸多風(fēng)險(xiǎn)。因此,筆者建議,為了避免拖欠債務(wù)、無力還債帶來的危害,在職業(yè)審核階段,相關(guān)部門應(yīng)該花費(fèi)更多的人力和時(shí)間審查申請(qǐng)者職業(yè)情況。
在“提前消費(fèi)”觀念盛行的現(xiàn)代社會(huì),更多人選擇使用信用卡,對(duì)信用卡申請(qǐng)結(jié)果的有效預(yù)測(cè),不但可以提高服務(wù)效率,而且還能避免潛在風(fēng)險(xiǎn)。本文提出基于邏輯回歸算法預(yù)測(cè)信用卡申請(qǐng)分類結(jié)果,結(jié)合用戶真實(shí)數(shù)據(jù),選擇屬性特征,輸入分類模型,提出研究框架,使用python 訓(xùn)練邏輯回歸算法,在訓(xùn)練過程中能夠及時(shí)調(diào)整模型參數(shù),擺脫分析工具在分析模型上的局限。為實(shí)現(xiàn)對(duì)預(yù)測(cè)結(jié)果的準(zhǔn)確分類,對(duì)邏輯回歸預(yù)測(cè)模型進(jìn)行改進(jìn)和拓展,同時(shí)實(shí)現(xiàn)數(shù)據(jù)、結(jié)果可視化,使研究思維不受限制。實(shí)驗(yàn)表明,選取職業(yè)評(píng)估、收入評(píng)估等9 個(gè)特征值對(duì)分類預(yù)測(cè)模型有顯著的正向影響。
當(dāng)然,本實(shí)驗(yàn)仍存在諸多不足之處,對(duì)于基于邏輯回歸算法的信用卡申請(qǐng)結(jié)果分類預(yù)測(cè)模型還有大量研究探索的工作要做,筆者建議對(duì)本文的后續(xù)研究應(yīng)從以下兩方面加以改進(jìn):
1)臨界值的劃分。利用sigmoid 函數(shù)作為邏輯回歸算法的預(yù)測(cè)函數(shù),其閾值為0.5,對(duì)于在預(yù)測(cè)過程中閾值附近的預(yù)測(cè)點(diǎn)本文是根據(jù)函數(shù)的默認(rèn)歸類,其結(jié)果不一定準(zhǔn)確,因此未來將深入研究和明確定義臨界值的劃分標(biāo)準(zhǔn)。
2)特征屬性的選取。本文選取了10 項(xiàng)訓(xùn)練特征,雖然實(shí)驗(yàn)結(jié)果表現(xiàn)很好,但是在特征屬性中也同時(shí)存在對(duì)模型影響較小的特征,從而會(huì)影響模型訓(xùn)練時(shí)長,對(duì)于更大量的數(shù)據(jù)集,將會(huì)耗費(fèi)更多時(shí)間,因此,在屬性特征的選取上還可以繼續(xù)優(yōu)化,深入研究本文第4.3 章節(jié)所述的關(guān)鍵屬性特征提取。