• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)挖掘和K-Means模型的金融數(shù)據(jù)可視化分析

      2023-07-17 05:57:28王譯啡宋雅蓉
      計算機時代 2023年7期
      關(guān)鍵詞:可視化聚類

      王譯啡 宋雅蓉

      關(guān)鍵詞:金融借貸數(shù)據(jù);可視化;K-Means 聚類;Python;第三方庫

      0 引言

      大力發(fā)展普惠金融,是我國全面建成小康社會的必然要求,意在為微小企業(yè)、農(nóng)民、城鎮(zhèn)低收入人群等弱勢群體提供有效的金融服務(wù)。之前研究表明,從解決居民融資問題的實際效果來看,P2P 借貸確有緩解難以獲得正規(guī)金融服務(wù)的人群融資困難的問題,但普惠金融的發(fā)展效益并沒有很好的呈現(xiàn)出來,其原因包括不同類型的服務(wù)客體參與貸款的主觀能動性差異。投資者對不同類型的服務(wù)客體主觀偏好不顯著等等[1]。所以在信息時代發(fā)展的背景下,需要利用大數(shù)據(jù)技術(shù)在數(shù)據(jù)處理與分析中的效能,與金融業(yè)務(wù)緊密融合,才能使金融服務(wù)的深度和廣度得以提升。

      然而金融行業(yè)數(shù)據(jù)復(fù)雜且專業(yè),難以讓一些不具備金融專業(yè)背景的信息使用者所理解。利用數(shù)據(jù)可視化手段將大量信息整合,轉(zhuǎn)化為圖片或線條呈現(xiàn),無疑是理解海量數(shù)據(jù)的高效方式。不同的企業(yè),應(yīng)用可視化技術(shù)的程度是不相同的,許多用戶還是使用Excel 電子表格工具來進行數(shù)據(jù)比對,如vlookup 等方式,或是制作一個氣泡效果圖來發(fā)現(xiàn)異常。但受到數(shù)據(jù)量和效率成本等限制,有時通過Excel 分析展示數(shù)據(jù)的效果并不理想[2]。Python 語言有更高的效率和可擴展性,并且可以用于研究算法模型,數(shù)據(jù)量龐大且復(fù)雜時用Python 能更好的進行可視化呈現(xiàn)。

      本文以普惠金融為背景,基于P2P 平臺LendingClub 的貸款數(shù)據(jù),用Python 語言進行多維度可視化分析,產(chǎn)生用戶畫像,深度挖掘用戶的各項特征與金融服務(wù)之間的關(guān)系,找出參與貸款活動主觀能動性差異的關(guān)鍵因素,并利用機器學(xué)習(xí)算法實現(xiàn)大數(shù)據(jù)背景下對金融服務(wù)對象的精確細分,更利于金融服務(wù)的個性化推廣。

      1 數(shù)據(jù)描述及探索

      1.1 數(shù)據(jù)集簡介

      P2P 貸款需要借助電子商務(wù)平臺來確立借貸關(guān)系,體現(xiàn)了在互相網(wǎng)環(huán)境下的新型金融模式,美國Lending Club 是世界最大的P2P 互聯(lián)網(wǎng)金融平臺,業(yè)務(wù)范圍是美國51 個州[3],并且Lending Club 平臺對外公開了真實交易數(shù)據(jù)供學(xué)者研究,本文下載了該平臺公開的2007 年至2018 年所有數(shù)據(jù),共2260701 條記錄(151個特征),從中篩選出2018年第四季度的所有數(shù)據(jù),共計128412 條記錄,對所有特征進行整理并分析后篩選出15 個特征供后續(xù)分析研究使用,如表1 所示。

      1.2 探索性數(shù)據(jù)分析

      用Python 的Pandas 庫對數(shù)據(jù)進行了描述性統(tǒng)計分析,如圖1 所示,顯示數(shù)據(jù)完整性較好,僅emp_title與emp_length 屬性有少量的缺失值,由于缺失值占比很小,后期處理時直接進行刪除。另外,用describe 函數(shù)對浮點類型的數(shù)據(jù)進行了數(shù)值范圍的統(tǒng)計分析,用unique 函數(shù)對一些object 類型變量進行了取值探索。

      2 數(shù)據(jù)分析與模型構(gòu)建

      2.1 單變量可視化探索

      首先對客戶的基本信息進行分析,選取purpose,home_ownership,emp_length 變量,選擇利用Python 中Plotly 庫進行數(shù)據(jù)可視化,Plotly 繪圖底層是plotly.js,可以在網(wǎng)頁上實現(xiàn)交互功能,便于多維數(shù)據(jù)的復(fù)雜性分析展示[4],如圖2 左側(cè)所示,客戶借款主要用于債務(wù)整合,以貸養(yǎng)貸,房屋改善等,客戶信用評估等級B 和C 占多數(shù),基本呈現(xiàn)正態(tài)分布;從餅圖中也能看出有接近一半的客戶是擁有住房的,但是面臨著房貸壓力,有將近四成的客戶(39.4%)處于租房狀態(tài),經(jīng)濟壓力較大。工作年限在十年以上的客戶占三成,LC 客戶平均工作年限在五年左右。

      其次是對客戶貸款的情況進行系統(tǒng)分析,選擇出loan_amnt,int_rate, dti 和total_acc 這四個變量,利用Python 中Seaborn 庫進行繪制,從圖2 右側(cè)四張分布圖可以看出,公司主要以小額貸款為主,貸款金額分布在0.5-4 萬美元,貸款金額在1-2 萬區(qū)間的居多;利率分布主要集中在5%-15%,處于合理范圍;借款人的信用度集中在25 左右,普遍信用度較低,這也正是因為P2P 模式門檻低,審核簡單,所以很多融資困難,貸款困難的個人或企業(yè)會選擇該模式的原因[5]。Dti 是借款人每月所繳的債務(wù)總額(不包括LC貸款)除以借款人每月收入,能夠反映貸款對借貸人的壓力指數(shù),結(jié)果顯示大部分客戶dti都集中在30%以下,原有的債務(wù)壓力不算太重,這也是衡量借款人還款能力的重要指標。

      2.2 多變量可視化探索

      多變量探索是為了發(fā)現(xiàn)變量與變量之間的關(guān)聯(lián)性,利用Seaborn 庫中的boxplot 方法繪制圖3 左側(cè)的箱圖,能看出還款狀態(tài)與借款金額之間的關(guān)系:延期還款的金額總體比已全部還清狀態(tài)下的借款金額要高一些;從不良公眾記錄與貸款金額的關(guān)系來看,不良記錄越多的,能申請到的貸款金額就越低,可見LC是有嚴格把關(guān);年收入的多少與被驗證狀態(tài)的關(guān)系表現(xiàn)并不明顯,但是能發(fā)現(xiàn)年收入高其很多收入來源是有被LC 驗證的;統(tǒng)計發(fā)現(xiàn),借款人職位排在前三的職位分別是老師。經(jīng)理和護士,并且這三類人員的借款金額也相對較高。

      散點圖矩陣將多維數(shù)據(jù)中的各個維度兩兩組合繪制成一系列的按規(guī)律排列的散點圖,對海量數(shù)據(jù)進行變量之間關(guān)系的展示,利用Seaborn 庫中的pairplot方法進行如圖3 右側(cè)散點矩陣繪制,通過kind='reg'參數(shù)能夠在圖中加入最佳擬合線,擬合線能更清楚的表現(xiàn)兩個變量是如何變化的[5],圖中顯示installment 與loan_amnt 幾乎呈現(xiàn)完全正相關(guān)趨勢,貸款金額越高,分期付款期數(shù)相對固定的情況下,每月還款金額肯定也就越高;從annual_inc 與loan_amnt 變化擬合線可以看出,也近乎是正相關(guān),客戶年收入越高,能申請到的貸款金額就越高;annual_inc 與dti 近似擬合為負相關(guān),體現(xiàn)出年收入越高,還款壓力就相對越小。

      2.3 K-means 建模

      聚類算法可以根據(jù)數(shù)據(jù)屬性之間的信息關(guān)系進行分組,最終使組內(nèi)樣本的相似度最大,組間相似度最小[6],本文采用的K-means 模型是經(jīng)典的聚類算法,用于對客戶進行分組,以便于更好的繪制用戶畫像,了解客戶情況?;趯υ紨?shù)據(jù)的探索分析,最終選定'int_rate', 'loan_status', 'emp_length', 'open_acc', 'dti' 這五個屬性來構(gòu)建聚類模型。對于K-means 方法,K 的取值是一個難點,這里采用SSE 方法嘗試找到最優(yōu)的K 數(shù)值[7],如圖4 所示,并沒有出現(xiàn)所謂的“拐”點,隨著K 值的增大,SSE 的值逐漸減小,當(dāng)K=3 時,減小幅度明顯增大,所以最終確定K 為3。

      所選取屬性中int_rate 和emp_length 數(shù)據(jù)類型都是object,需要將它們轉(zhuǎn)化為float 數(shù)字類型,另外,loan_status 是一個關(guān)鍵特征,反映了當(dāng)前貸款的還款情況,包含了多個類別,根據(jù)Lending Club 官網(wǎng)標準解釋,對不同類別賦予不同權(quán)重以便后續(xù)處理,已全額償還和還在償還期內(nèi)的為好客戶,賦予較高值;逾期和核銷貸款的用戶賦予較低值,具體為:'Fully Paid': 10,'Current': 9,'In Grace Period': 5,'Late (16-30 days)':1,'Late (31-120 days)':0.5,'ChargedOff':-1。然后對所有數(shù)據(jù)進行標準化處理,使所有數(shù)據(jù)落入一個限定的區(qū)間,從而去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位的指標能夠進行比較和加權(quán)[8]。本文采用的z-score 標準化,利用公式:新數(shù)據(jù)=(原數(shù)據(jù)-均值)/標準差,將原始數(shù)據(jù)映射到新的區(qū)間[9]。然后使用Python 中的sklearn 庫,對數(shù)據(jù)進行聚類分析,從而得到聚類的中心點和每類的人群數(shù)目。為了更清晰的顯示聚類的結(jié)果,利用Matplotlib 可視化庫進行雷達圖繪制,如圖5 所示。

      通過圖5 的聚類結(jié)果進行特征分析,該圖繪制在一個圓形極坐標系上,共五個特征維度,圖中點越靠近某特征的,證明該特征越明顯,反之亦然。由于之前確定k 值為3,故所有數(shù)據(jù)被分為三類,每個客戶群都有不同的表現(xiàn)特征,第一類人群共計54258 人,圖中黑色表示,總體來說這類人群工作年限較長,信用度較高,借款利率相對較低,并且借款狀態(tài)的值越高,證明拖欠可能性越低,證明此類客戶為優(yōu)質(zhì)客戶群,也是應(yīng)該重點維系和長期合作的對象。第二類人群共計60812 人,此類人群數(shù)量最大,但第二類人群幾乎在第一類人群特征中包含了,只是對比第一類人群的工作年限相對較低,可能新客戶占比較多,但信用度和還款能力較好,屬于重要發(fā)展和重要保持客戶。第三類客戶共計1616 人,該類客戶的明顯特點是借款狀態(tài)值很低,證明很多屬于經(jīng)常拖欠,延期和違約的,并且該類客戶的利率相較于其他客戶較高,證明還款周期較長,此類為低價值客戶,后期可重點對其進行分析,探究拖欠原因并針對性地解決。

      3 結(jié)論與建議

      3.1 研究結(jié)論

      本文以Lending Club 公司2018 年Q4 季度的128412 條貸款數(shù)據(jù)(27 個特征)為研究對象,結(jié)合金融數(shù)據(jù)特點,基于Python 強大的第三方庫,對數(shù)據(jù)進行探索性分析,并以多類別可視化圖形的方式呈現(xiàn),完成了對Lending Club(正文簡稱LC)平臺上的借款客戶畫像繪制,實現(xiàn)了對該平臺借貸業(yè)務(wù)的整體分析,同時通過對用戶進行分類,來分析了解客戶是否具有還款意愿及償還能力??偟膩碚f,本文對金融借貸數(shù)據(jù)進行的可視化研究和探索具有較好的應(yīng)用價值和實際意義。

      3.2 研究建議

      在金融信貸業(yè)務(wù)領(lǐng)域中,需要明確信貸機構(gòu)的目標客戶群、目標客戶的特征以及客戶畫像信息,以Lending Club 平臺的P2P 小額借貸業(yè)務(wù)為例,完整、健全的客戶信息有利于公司更好的進行資格審查。因此可進一步細化借貸標準,完善征信體系,同時也有利于風(fēng)控人員系統(tǒng)分析,把控違約風(fēng)險,讓借款人養(yǎng)成良好的履約記錄,防止“跑路”情況的發(fā)生。另一方面,根據(jù)數(shù)據(jù)分析結(jié)果可以看出,借款人的信用度,工作年限,收入,借款時間等對利率和還款情況也是有一定影響的,因此借款人需要自律、守信,預(yù)防超支及過度消費行為,在規(guī)定期限內(nèi)還款。最后,借貸公司可以加強與銀行的合作,吸納更多有經(jīng)濟實力和還款能力的優(yōu)質(zhì)客戶并適當(dāng)提高其貸款額度,從而進一步推動普惠化發(fā)展。

      猜你喜歡
      可視化聚類
      基于CiteSpace的足三里穴研究可視化分析
      基于Power BI的油田注水運行動態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      基于CGAL和OpenGL的海底地形三維可視化
      “融評”:黨媒評論的可視化創(chuàng)新
      傳媒評論(2019年4期)2019-07-13 05:49:14
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于改進的遺傳算法的模糊聚類算法
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      新晃| 宣化县| 常山县| 论坛| 铁岭市| 凤庆县| 新河县| 南靖县| 新田县| 商水县| 泸溪县| 扎囊县| 本溪| 新源县| 尼勒克县| 贵南县| 白朗县| 凤翔县| 康马县| 宝兴县| 石门县| 长沙县| 高平市| 鄂温| 始兴县| 林州市| 象山县| 临猗县| 佛教| 永川市| 聊城市| 平陆县| 嘉黎县| 项城市| 大方县| 崇阳县| 军事| 青冈县| 兴仁县| 静乐县| 佛山市|