倪非凡 趙黎麗 謝立
[摘 要]人工智能技術(shù)為金融行業(yè)的發(fā)展帶來(lái)更多的機(jī)遇。針對(duì)銀行客戶(hù)潛在價(jià)值的分析與發(fā)掘,幫助金融機(jī)構(gòu)制定合理的策略,處理客戶(hù)關(guān)系。文章面向真實(shí)銀行數(shù)據(jù)集,提出基于支持向量機(jī)(SVM)模型的客戶(hù)分類(lèi)方法,并引入核函數(shù)來(lái)增強(qiáng)SVM的擬合能力,通過(guò)與K-means、隨機(jī)森林、決策樹(shù)等傳統(tǒng)機(jī)器學(xué)習(xí)分類(lèi)算法進(jìn)行實(shí)驗(yàn)分析比較,結(jié)果表明,基于核函數(shù)的SVM算法具有良好的效果,能準(zhǔn)確地實(shí)現(xiàn)客戶(hù)分類(lèi),更有助于加強(qiáng)對(duì)客戶(hù)的了解。
[關(guān)鍵詞]SVM;核函數(shù);銀行客戶(hù)分類(lèi)
[DOI]10.13939/j.cnki.zgsc.2021.13.017
1 引言
隨著信息技術(shù)的發(fā)展,銀行等金融機(jī)構(gòu)對(duì)智能信息分析技術(shù)的依賴(lài)逐漸增加??蛻?hù)的分類(lèi)分析有助于金融機(jī)構(gòu)對(duì)客戶(hù)進(jìn)行資源整合、價(jià)值發(fā)掘以及關(guān)系管理,從而為金融機(jī)構(gòu)實(shí)現(xiàn)利益最大化提供幫助。但大部分金融機(jī)構(gòu)僅僅注重客戶(hù)資產(chǎn)等基本的屬性,不能發(fā)掘客戶(hù)的潛在特征,這是銀行發(fā)展現(xiàn)狀的短板,需加強(qiáng)與高新技術(shù)的結(jié)合,利用大數(shù)據(jù)、人工智能等新技術(shù),為進(jìn)一步探索客戶(hù)特征提供可能。
目前在銀行領(lǐng)域應(yīng)用SVM算法進(jìn)行客戶(hù)分類(lèi)的研究成果還不多見(jiàn)。為了使得金融行業(yè)能夠更加準(zhǔn)確地把握客戶(hù)信息,增強(qiáng)客戶(hù)管理能力,實(shí)現(xiàn)客戶(hù)的精準(zhǔn)分類(lèi),文章首先將銀行客戶(hù)真實(shí)數(shù)據(jù)進(jìn)行清洗,并進(jìn)行數(shù)據(jù)集劃分;其次,在SVM模型中引入核函數(shù),增強(qiáng)SVM模型的泛化能力;最后,進(jìn)行模型的性能測(cè)試。同時(shí)對(duì)分類(lèi)結(jié)果進(jìn)行分析,與幾個(gè)常用的機(jī)器學(xué)習(xí)算法在分類(lèi)準(zhǔn)確度上進(jìn)行比較,并從健壯性和性能角度綜合評(píng)價(jià)了SVM模型,結(jié)果表明,引入核函數(shù)的SVM模型具有良好的分類(lèi)能力。
2 基于核SVM的銀行客戶(hù)算法
文章采用SVM算法對(duì)銀行客戶(hù)進(jìn)行分類(lèi)分析研究,同時(shí)引入核函數(shù)加強(qiáng)SVM的分類(lèi)能力。
SVM是一種二分類(lèi)機(jī)器學(xué)習(xí)模型,其本質(zhì)上為定義在特征空間上的最大間隔分類(lèi)器,當(dāng)SVM算法增加核函數(shù)后,其實(shí)質(zhì)上變?yōu)榉蔷€(xiàn)性。SVM的目的是找到最大間隔的分類(lèi)界限。
設(shè)樣本集合X={X1, X2, X3, …, Xn}中包含正樣本和負(fù)樣本兩類(lèi)樣本,樣本Xi(i=1, 2, 3, …, n)對(duì)應(yīng)標(biāo)簽yi(i= 1, 2, 3, …, n), yi具有兩種取值,當(dāng)yi=1時(shí),表示yi屬于正樣本;當(dāng)yi=-1時(shí),表示yi屬于負(fù)樣本。樣本集合X可分為線(xiàn)性可分和線(xiàn)性不可分兩種類(lèi)型,下面分別針對(duì)不同類(lèi)型進(jìn)行簡(jiǎn)要說(shuō)明。
2.1 樣本線(xiàn)性可分
直接對(duì)樣本集合X進(jìn)行分類(lèi)。超平面α為分類(lèi)對(duì)間隔,表達(dá)式如下所示:
ω×a+b=0 (1)
其中,ω為超平面α的法向量。a為系數(shù),b為任意常數(shù)。此時(shí)分類(lèi)問(wèn)題轉(zhuǎn)變?yōu)閷ふ易顑?yōu)的超平面α,即尋找最優(yōu)系數(shù)a和最優(yōu)常數(shù)b,使SVM具有最好的分類(lèi)效果,該最優(yōu)問(wèn)題可以歸結(jié)為下面公式:
min‖ω2‖2+ρnk=1ζk(2)
s.t.Yk(ω2·Xk+b)≥ζk, ζk≥0, k=1, 2, 3, …, n(3)
其中,ρnk=1ζk是損失項(xiàng),ρ為損失系數(shù)。
根據(jù)式(2)和式(3)構(gòu)建拉格朗日函數(shù),由于不容易直接求得原問(wèn)題的解,但與其對(duì)偶問(wèn)題有相同的最優(yōu)解,因此該問(wèn)題的解可由其對(duì)偶問(wèn)題求得:
max f(γ)=L(ω, b, γ)=nk=1γk-12nk-1nl=1γkγlYkYlXTkXl(4)
s.t.nk=1γkYk=0, 0<γk<ρ(5)
假設(shè)拉格朗日乘子γ*k的最優(yōu)值根據(jù)式(4)和式(5)求得,那么原問(wèn)題的最優(yōu)解由下式表示:
ω0=nk=1γ*kYkXk(6)
b0=1n1+n2n1k=1(1-ω0X(s1)k)+n2k=1(-1-ω0X(s2)k)(7)
其中,X(s1)k為正樣本中的第k個(gè)支持向量,n1為正樣本中支持向量的總個(gè)數(shù),X(s2)k為負(fù)樣本中第k個(gè)支持向量,n2為負(fù)樣本中支持向量的總個(gè)數(shù)。
首先將SVM分類(lèi)器進(jìn)行樣本訓(xùn)練,然后將實(shí)時(shí)數(shù)據(jù)輸入到SVM中,根據(jù)下式可計(jì)算輸出樣本的類(lèi)別:
L(ω0X(t)+b0)=1,X∈T-1,X∈F(8)
其中,X(t)為測(cè)試樣本,T表示該樣本屬于正樣本,F(xiàn)表示該樣本屬于負(fù)樣本。
2.2 樣本線(xiàn)性不可分
當(dāng)分類(lèi)樣本線(xiàn)性不可分時(shí),需將每一個(gè)樣本的維度進(jìn)行升高,在高維空間實(shí)現(xiàn)線(xiàn)性可分。
此時(shí)式(4)和式(5)變?yōu)槿缦滦问剑?/p>
max f(γ)=nk=1-12nk=1nl=1γkγlYkYlψ(Xk)Tψ(Xl)(9)
s.t.nk=1γkYk=0, 0<γk<ρ(10)
其中,ψ為線(xiàn)性空間變換,樣本Xk的映射結(jié)果為ψ(Xk)。 令P(Xk, Yl)=ψ(Xk)Tψ(Yl), Qk, l=YkYtP(Xk, Xl), 代入式(9)和式(10)得到如下公式:
min(12γTQγ-eTγ)(11)
s.t.YTγ=0, 0≤γk≤ρ(12)
其中,Q稱(chēng)為核函數(shù)。
文章選取了真實(shí)的銀行客戶(hù)數(shù)據(jù),具有多維特征,屬于樣本線(xiàn)性不可分?jǐn)?shù)據(jù)類(lèi)型,因此需要引入核函數(shù)解決此問(wèn)題。通過(guò)選取核函數(shù),可實(shí)現(xiàn)樣本從低維向高維空間轉(zhuǎn)換,并求解式(11)和式(12)。
3 算法框圖
本研究主要采用SVM算法實(shí)現(xiàn)對(duì)銀行用戶(hù)的分類(lèi),首先對(duì)客戶(hù)數(shù)據(jù)進(jìn)行預(yù)處理,然后輸入訓(xùn)練數(shù)據(jù)對(duì)SVM分類(lèi)器進(jìn)行模型訓(xùn)練,再將測(cè)試數(shù)據(jù)輸入分類(lèi)器進(jìn)行測(cè)試,最后對(duì)分類(lèi)結(jié)果進(jìn)行了分析。整體的框架如圖1所示。
4 實(shí)驗(yàn)分析
4.1 數(shù)據(jù)集描述
文章的權(quán)威數(shù)據(jù)集來(lái)自某銀行的真實(shí)客戶(hù)信息[1]。包含年齡、工作類(lèi)型、婚姻狀況、文化水平、是否有負(fù)債、年收入、有無(wú)房貸、有無(wú)個(gè)人貸款等信息。
原始數(shù)據(jù)中眾多特征是離散型的變量,同時(shí)存在缺失值,這些因素對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生重大影響,因此對(duì)原始數(shù)據(jù)進(jìn)行了預(yù)處理。首先去除數(shù)據(jù)集中的缺失值,其次對(duì)離散數(shù)據(jù)進(jìn)行預(yù)熱處理。將整個(gè)數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,分別存儲(chǔ)于不同的文件中,便于讀取。
4.2 數(shù)據(jù)預(yù)處理
對(duì)數(shù)據(jù)集中所有的特征均采用預(yù)熱處理,具體來(lái)說(shuō),將年齡分成4個(gè)類(lèi)別,將年收入分成5個(gè)類(lèi)別,將每年最后一次聯(lián)系的月份情況分為3個(gè)類(lèi)別,將距離上一次聯(lián)系客戶(hù)的天數(shù)的相關(guān)情況分為5個(gè)類(lèi)別,將在此活動(dòng)之前和此客戶(hù)執(zhí)行的聯(lián)系人數(shù)的相關(guān)情況分為4個(gè)類(lèi)別。
4.3 評(píng)價(jià)指標(biāo)
本研究比較了SVM、K-means[2-4]、決策樹(shù)(Decision Tree)[5]、隨機(jī)森林(Random Forest)[6]四種常見(jiàn)機(jī)器學(xué)習(xí)分類(lèi)模型的性能,涉及的實(shí)驗(yàn)均使用python語(yǔ)言編譯,8核CPU下運(yùn)行,編譯環(huán)境為jupyter notebook。
其中SVM采用了不同類(lèi)型的核函數(shù),具體情況如表1所示。
研究采用準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)評(píng)價(jià)各模型的預(yù)測(cè)性能,計(jì)算公式如下。
其中,TN表示將負(fù)類(lèi)預(yù)測(cè)為負(fù)類(lèi)的數(shù)量,F(xiàn)P表示將負(fù)類(lèi)預(yù)測(cè)為正類(lèi)的數(shù)量,F(xiàn)N表示將正類(lèi)預(yù)測(cè)為負(fù)類(lèi)的數(shù)量,TP表示將正類(lèi)預(yù)測(cè)為正類(lèi)的數(shù)量。
5 實(shí)驗(yàn)結(jié)果
本小節(jié)主要從模型的分類(lèi)準(zhǔn)確度、模型效率以及模型健壯性角度對(duì)SVM以及各類(lèi)常見(jiàn)分類(lèi)算法進(jìn)行了對(duì)比說(shuō)明。
5.1 模型分類(lèi)的準(zhǔn)確度
SVM具有較高的準(zhǔn)確率和較低的損失,其中引入poly核函數(shù)的SVM具有最高的準(zhǔn)確率、精確率和召回率,具有最低的損失,因此具有最好的分類(lèi)效果。引入poly核函數(shù)的SVM模型的準(zhǔn)確率達(dá)到93%,精確率達(dá)到88%,召回率達(dá)到34%,損失僅為2.79,同時(shí)引入rbf核函數(shù)、sigmoid核函數(shù)和linear核函數(shù)的SVM模型的準(zhǔn)確率依次為91%、89%和89%,精確率分別為70%、68%和66%,召回率依次為20%、28%和17%,分類(lèi)損失依次為3.35、3.60和3.64,證明了SVM在二分類(lèi)問(wèn)題上具有很強(qiáng)的適應(yīng)能力,也很大程度上得益于選取的核函數(shù)。在本研究中,選取poly核函數(shù)的SVM分類(lèi)器分類(lèi)效果最佳。
5.2 魯棒性分析
數(shù)據(jù)采集的過(guò)程中受不可抗拒因素的影響,導(dǎo)致部分?jǐn)?shù)據(jù)出現(xiàn)缺失或收集到無(wú)關(guān)數(shù)據(jù)的情況,實(shí)驗(yàn)階段首先對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理,補(bǔ)全了缺失值,去除了無(wú)關(guān)數(shù)據(jù),理論上更具理想化,與真實(shí)數(shù)據(jù)存在一定差異。為了說(shuō)明模型對(duì)真實(shí)數(shù)據(jù)同樣具有較強(qiáng)的擬合能力,進(jìn)行了健壯性分析,即隨機(jī)在訓(xùn)練集和測(cè)試集上加入不同比例的噪聲后進(jìn)行預(yù)測(cè),模型預(yù)測(cè)結(jié)果如表2所示。
結(jié)果表明,增加噪聲后,SVM-poly模型當(dāng)分類(lèi)準(zhǔn)確率略微有所降低,從93%稍稍降低到85%,損失略微有所升高,從2.79稍稍升高到3.23,因此,SVM模型原始數(shù)據(jù)具有魯棒性。
5.3 模型性能分析
為了更加全面地評(píng)估各模型的分類(lèi)能力,分別計(jì)算了各模型在訓(xùn)練和預(yù)測(cè)時(shí)所需的時(shí)間,如表3所示。
6 結(jié)論
文章采用SVM模型對(duì)銀行客戶(hù)進(jìn)行了分類(lèi)分析,引入核函數(shù),并與常見(jiàn)機(jī)器學(xué)習(xí)分類(lèi)算法K-means、決策樹(shù)和隨機(jī)森林進(jìn)行了對(duì)比研究,從分類(lèi)的準(zhǔn)確度、健壯性以及性能方面進(jìn)行了詳細(xì)的分析,充分證明了SVM分類(lèi)算法在二分類(lèi)問(wèn)題上的優(yōu)越性,并得到如下結(jié)論。
(1)在分類(lèi)準(zhǔn)確度方面,準(zhǔn)確率提升了2.20%~46.77%,精確度平均提升20.70%,召回率平均提升53.84%,分類(lèi)的損失平均降低22.61%。
(2)在健壯性方面,SVM-poly模型在添加不同噪聲的數(shù)據(jù)集上依然能夠準(zhǔn)確地分類(lèi),準(zhǔn)確率僅僅稍微有些降低。
(3)在時(shí)間效率方面,SVM-poly稍微耗費(fèi)時(shí)間,這可能是由于SVM模型本身的計(jì)算較為復(fù)雜,同時(shí)引入了核函數(shù)的緣故。
綜上,在二分類(lèi)問(wèn)題上,SVM模型具有較強(qiáng)的分類(lèi)能力。加入合適的核函數(shù)會(huì)加強(qiáng)SVM模型的分類(lèi)能力,但依然存在進(jìn)步的空間。隨著經(jīng)濟(jì)的發(fā)展,金融行業(yè)與信息技術(shù)緊密結(jié)合,將機(jī)器學(xué)習(xí)算法應(yīng)用到實(shí)際中,可以為金融行業(yè)帶來(lái)更多的機(jī)遇。
參考文獻(xiàn):
[1]https://archive.ics.uci.edu/ml/machine-learning-databases/00222/[Z].2020-08-27.
[2]謝修娟,李香菊,莫凌飛.基于改進(jìn)K-means算法的微博輿情分析研究[J].計(jì)算機(jī)工程與科學(xué),2018,40(1):155-158.
[3]郭璘,周繼彪,董升,等.基于改進(jìn)K-means算法的城市道路交通事故分析[J].中國(guó)公路學(xué)報(bào),2018,31(4):270-279.
[4]周本金,陶以政,紀(jì)斌,等.最小化誤差平方和k-means初始聚類(lèi)中心優(yōu)化方法[J].計(jì)算機(jī)工程與應(yīng)用,2018,54(15):48-52.
[5]KIM Y H,KIM M J,SHIN H J,ET AL.MRI-based decision tree model for diagnosis of biliary atresia[J].European Radiology,2018.
[6]XIA J,GHAMISI P,YOKOVA N,ET AL.Random forest ensembles and extended multi-extinction profiles for hyperspectral image classification[J].IEEE Transactions on Geoence & Remote Sensing,2018(1):1-15.
[作者簡(jiǎn)介]倪非凡(1998—),女,漢族,浙江杭州人,研究方向:經(jīng)濟(jì)統(tǒng)計(jì)、數(shù)據(jù)分析等。