喬冰琴 段全虎 高翠蓮
【關(guān)鍵詞】 大數(shù)據(jù); BI工具; 貸款風(fēng)險(xiǎn)預(yù)測(cè); 大數(shù)據(jù)處理流程; 企業(yè)大數(shù)據(jù)應(yīng)用
【中圖分類號(hào)】 F234? 【文獻(xiàn)標(biāo)識(shí)碼】 A? 【文章編號(hào)】 1004-5937(2021)24-0131-07
一、引言
大數(shù)據(jù)的發(fā)展與應(yīng)用已經(jīng)深入人心,大數(shù)據(jù)在企業(yè)中的應(yīng)用實(shí)踐也不斷地落地開(kāi)花。王秋菲等[1]利用網(wǎng)絡(luò)爬蟲技術(shù)獲取了亞太實(shí)業(yè)自2009—2016年間的相關(guān)數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行挖掘分析,提取出能揭示公司財(cái)務(wù)是否存在舞弊行為的重要審計(jì)證據(jù)。張志恒等[2]基于大數(shù)據(jù)文本挖掘技術(shù)構(gòu)建了審計(jì)數(shù)據(jù)分析框架,利用文本挖掘模型挖掘出審計(jì)疑點(diǎn),為大數(shù)據(jù)審計(jì)提供審計(jì)證據(jù)和線索,從而提高審計(jì)質(zhì)量。
隨著企業(yè)信息化的進(jìn)一步高速發(fā)展,數(shù)據(jù)來(lái)源更加多樣化、數(shù)據(jù)體量更加巨大化、數(shù)據(jù)格式更加復(fù)雜化,這為企業(yè)應(yīng)用大數(shù)據(jù)進(jìn)行日常經(jīng)營(yíng)管理、分析和預(yù)決策帶來(lái)了挑戰(zhàn)。張紅英等[3]分析了大數(shù)據(jù)時(shí)代財(cái)務(wù)分析面臨的機(jī)遇與挑戰(zhàn),指出大數(shù)據(jù)時(shí)代財(cái)務(wù)分析面臨的機(jī)遇有財(cái)務(wù)數(shù)據(jù)與非財(cái)務(wù)數(shù)據(jù)混搭、結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)混搭、宏觀數(shù)據(jù)與微觀數(shù)據(jù)混搭,這些“混搭”為財(cái)務(wù)分析帶來(lái)了廣闊的數(shù)據(jù)“藍(lán)?!?,大數(shù)據(jù)技術(shù)為提高基于數(shù)據(jù)總體的企業(yè)財(cái)務(wù)決策提供了支持,使傳統(tǒng)財(cái)務(wù)的階段性報(bào)告轉(zhuǎn)向動(dòng)態(tài)實(shí)時(shí)報(bào)告;而大數(shù)據(jù)時(shí)代財(cái)務(wù)分析面臨的挑戰(zhàn)有信息安全、獲得信息的成本以及信息處理人才。路偉果等[4]指出數(shù)據(jù)挖掘技術(shù)將重新定位會(huì)計(jì)人員和會(huì)計(jì)部門的角色、擴(kuò)大會(huì)計(jì)確認(rèn)的要素范圍、更多地采用可視化技術(shù)解釋數(shù)據(jù)以及企業(yè)將面臨更大的信息安全風(fēng)險(xiǎn);進(jìn)一步指出會(huì)計(jì)人員要逐步轉(zhuǎn)型為數(shù)據(jù)分析師和算法工程師、增強(qiáng)會(huì)計(jì)人員的數(shù)字素養(yǎng)和提高可視化管理能力、構(gòu)筑信息安全防護(hù)體系等。烏婷等[5]指出,大數(shù)據(jù)對(duì)管理會(huì)計(jì)的思維、范圍、方式及效果創(chuàng)新產(chǎn)生了深遠(yuǎn)影響,提煉出大數(shù)據(jù)時(shí)代下管理會(huì)計(jì)應(yīng)具備的職業(yè)能力:思維創(chuàng)新能力、數(shù)據(jù)分析挖掘能力、IT應(yīng)用能力及業(yè)務(wù)綜合處理能力,為管理會(huì)計(jì)人員勝任大數(shù)據(jù)時(shí)代下的管理會(huì)計(jì)工作提出相應(yīng)的建議。
大數(shù)據(jù)時(shí)代,企業(yè)管理人員利用大數(shù)據(jù)BI(Business Intelligence,商業(yè)智能)工具進(jìn)行企業(yè)經(jīng)營(yíng)分析和數(shù)據(jù)挖掘已是提高企業(yè)競(jìng)爭(zhēng)力的重要措施。張超等[6]指出財(cái)務(wù)智能是商業(yè)智能的核心,是大數(shù)據(jù)、人工智能等新技術(shù)與財(cái)務(wù)的融合,其涉及ETL(Extraction、Transformation、Loading,數(shù)據(jù)抽取、轉(zhuǎn)換、加載)、DW(Data Warehouse,數(shù)據(jù)倉(cāng)庫(kù))、OLAP(Online Analytical Processing,聯(lián)機(jī)分析處理)、Data Mining(數(shù)據(jù)挖掘)等技術(shù),同時(shí)文章指出要進(jìn)一步運(yùn)用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)來(lái)構(gòu)建財(cái)務(wù)決策模型,強(qiáng)化企業(yè)的智能化決策支持系統(tǒng)。王毅輝等[7]對(duì)國(guó)內(nèi)外BI工具進(jìn)行比較,針對(duì)煙草商業(yè)企業(yè)給出了選擇BI工具進(jìn)行財(cái)務(wù)分析的要求。王瑜等[8]在醫(yī)療設(shè)備多維數(shù)據(jù)分析中應(yīng)用PowerBI工具進(jìn)行跨庫(kù)數(shù)據(jù)檢索、分析與展示,說(shuō)明PowerBI工具對(duì)醫(yī)療設(shè)備檔案異構(gòu)數(shù)據(jù)集成、轉(zhuǎn)換、自動(dòng)抽取等具有很好的支持能力,能滿足多維數(shù)據(jù)高效檢索的要求。王緣[9]針對(duì)小米BigBI工具提出了產(chǎn)品優(yōu)化方案,使BI工具既滿足企業(yè)大數(shù)據(jù)分析的需要,又能提升產(chǎn)品的易用性和易學(xué)性。
二、大數(shù)據(jù)BI工具簡(jiǎn)介
在企業(yè)中應(yīng)用大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)分析和挖掘的最有效、最便捷的方法是使用大數(shù)據(jù)BI工具。大數(shù)據(jù)BI工具對(duì)大數(shù)據(jù)技術(shù)的底層實(shí)現(xiàn)細(xì)節(jié)進(jìn)行了封裝,使用大數(shù)據(jù)BI工具進(jìn)行數(shù)據(jù)分析和挖掘不需要編寫任何代碼,非大數(shù)據(jù)技術(shù)人員利用大數(shù)據(jù)BI工具也能非常方便地進(jìn)行企業(yè)經(jīng)營(yíng)數(shù)據(jù)分析和可視化。大數(shù)據(jù)BI工具使企業(yè)管理人員聚焦于數(shù)據(jù)本身的特點(diǎn)、數(shù)據(jù)之間的關(guān)系、數(shù)據(jù)分析的目標(biāo),而不必?fù)?dān)心編程能力的高低。
市場(chǎng)上不同的BI工具有一定的共性,也各有其特性。一般的BI工具都具有數(shù)據(jù)匯集、數(shù)據(jù)清洗與轉(zhuǎn)換、數(shù)據(jù)分析和可視化等功能,不過(guò)各BI工具在數(shù)據(jù)分析環(huán)節(jié)的差異較大。有的數(shù)據(jù)分析是基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行SQL查詢與統(tǒng)計(jì)的簡(jiǎn)單分析,有的數(shù)據(jù)分析在簡(jiǎn)單分析基礎(chǔ)上還包括基于機(jī)器學(xué)習(xí)等智能算法實(shí)現(xiàn)的復(fù)雜分析[10]。目前常見(jiàn)的大數(shù)據(jù)BI工具有IBM Cognos、Oracle OBIEE、SAP BO、Tableau、帆軟FineBI、Microsoft Power BI、QlikView、openI、SpagoBI等。
三、大數(shù)據(jù)分析挖掘流程
大數(shù)據(jù)分析挖掘流程可以分為4個(gè)環(huán)節(jié),如圖1所示。
(一)數(shù)據(jù)獲取
大數(shù)據(jù)的來(lái)源主要有物聯(lián)網(wǎng)數(shù)據(jù)、互聯(lián)網(wǎng)應(yīng)用數(shù)據(jù)以及傳統(tǒng)信息系統(tǒng)數(shù)據(jù),不同來(lái)源的數(shù)據(jù)有不同的獲取方式。物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)主要是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)多呈現(xiàn)為視頻、音頻和各類傳感數(shù)據(jù)等,其數(shù)據(jù)價(jià)值密度較低,一般這類型數(shù)據(jù)可以從數(shù)據(jù)分析商處獲取?;ヂ?lián)網(wǎng)應(yīng)用數(shù)據(jù)包括Web應(yīng)用數(shù)據(jù)和移動(dòng)APP應(yīng)用數(shù)據(jù),這些數(shù)據(jù)多呈現(xiàn)為半結(jié)構(gòu)化形式的網(wǎng)絡(luò)鏈接、文本、數(shù)據(jù)表及非結(jié)構(gòu)化形式的圖像、音視頻等,其數(shù)據(jù)價(jià)值密度較高,一般這類型數(shù)據(jù)既可以從數(shù)據(jù)分析商處獲取,也可以使用技術(shù)手段從網(wǎng)絡(luò)中爬取。傳統(tǒng)信息系統(tǒng)的數(shù)據(jù)多以結(jié)構(gòu)化數(shù)據(jù)為主,這也是大數(shù)據(jù)中價(jià)值密度較高的一類數(shù)據(jù),比如來(lái)自企業(yè)ERP系統(tǒng)、政務(wù)系統(tǒng)以及各類企業(yè)公司內(nèi)部信息系統(tǒng)中的數(shù)據(jù)等,一般這類型數(shù)據(jù)多由對(duì)應(yīng)的信息系統(tǒng)軟件采集,對(duì)于政府開(kāi)放平臺(tái)上公布的諸如氣象數(shù)據(jù)、交通數(shù)據(jù)等也可以通過(guò)技術(shù)手段進(jìn)行網(wǎng)絡(luò)爬取。
(二)數(shù)據(jù)預(yù)處理
在使用算法進(jìn)行數(shù)據(jù)分析和挖掘之前,首先應(yīng)該檢查數(shù)據(jù)的完備性和數(shù)據(jù)質(zhì)量,對(duì)不合要求的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗;其次應(yīng)該將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使數(shù)據(jù)集符合機(jī)器學(xué)習(xí)的要求。
1.數(shù)據(jù)清洗
獲取到的原始數(shù)據(jù)往往存在特征值缺失、異常值或重復(fù)數(shù)據(jù)等質(zhì)量問(wèn)題,在進(jìn)一步進(jìn)行數(shù)據(jù)建模挖掘之前,需要對(duì)這些數(shù)據(jù)進(jìn)行清洗加工。
(1)缺失值處理
數(shù)據(jù)集中的缺失值會(huì)對(duì)機(jī)器學(xué)習(xí)的數(shù)據(jù)聚類、分組、預(yù)測(cè)造成影響。對(duì)于缺失數(shù)據(jù),可以采用簡(jiǎn)單刪除法進(jìn)行刪除或采用數(shù)據(jù)替換法和插值填充法進(jìn)行替換和填充。簡(jiǎn)單刪除法一般用于缺失值樣本比例較少的情況,否則過(guò)多的刪除包含缺失值的數(shù)據(jù)可能會(huì)丟棄大量隱藏信息,影響數(shù)據(jù)集的客觀性和機(jī)器學(xué)習(xí)的正確性;數(shù)據(jù)替換法和插值填充法是一種補(bǔ)齊數(shù)據(jù)的方法,可用于缺失值適中或較少的情況下,補(bǔ)齊的方法可采用人工填寫、平均值填充、特殊值填充、熱卡填充、K-means填充、多重填補(bǔ)、回歸等。但無(wú)論采用哪種方法處理缺失值,都一定要根據(jù)實(shí)際應(yīng)用場(chǎng)景進(jìn)行合理處理。
對(duì)于缺失值也可以不按上述方法進(jìn)行處理,貝葉斯網(wǎng)絡(luò)或人工神經(jīng)網(wǎng)絡(luò)等方法可直接在含有缺失值的數(shù)據(jù)集上進(jìn)行分析和挖掘。
(2)異常值處理
異常值是數(shù)據(jù)集中的不合理值,比如用戶輸入的錯(cuò)誤數(shù)據(jù)、傳感器測(cè)量誤差、實(shí)驗(yàn)誤差、數(shù)據(jù)處理錯(cuò)誤、抽樣錯(cuò)誤、故意異常值或者自然異常值等。處理異常值時(shí)可以采用與處理缺失值相同的方法,而且要盡量根據(jù)造成異常值的原因去修正異常值。
(3)重復(fù)數(shù)據(jù)處理
重復(fù)數(shù)據(jù)可能是多條數(shù)值完全相同的記錄,也可能是同一主體的某個(gè)具有唯一特征的屬性在數(shù)據(jù)集的不同記錄中取值不同。對(duì)于前者,可直接做“去重”處理;而對(duì)于后者,就得根據(jù)實(shí)際業(yè)務(wù)情況來(lái)處理,可以合并這些重復(fù)數(shù)據(jù),也可以不做任何處理。
2.數(shù)據(jù)標(biāo)準(zhǔn)化
大多數(shù)機(jī)器學(xué)習(xí)算法對(duì)數(shù)據(jù)集的特征值有特定的要求,在使用機(jī)器學(xué)習(xí)算法對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)分析和挖掘之前,需要將數(shù)據(jù)集按照要求進(jìn)行標(biāo)準(zhǔn)化處理。
數(shù)據(jù)標(biāo)準(zhǔn)化又稱數(shù)據(jù)無(wú)量綱化或數(shù)據(jù)歸一化,用于消除不同特征屬性的單位量綱帶來(lái)的數(shù)據(jù)不可比性,從而提高機(jī)器學(xué)習(xí)算法的準(zhǔn)確性。常用的無(wú)量綱化技術(shù)主要包括以下四種:
(1)min-max歸一化
min-max歸一化也稱min-max標(biāo)準(zhǔn)化、線性歸一化或者離差標(biāo)準(zhǔn)化,按照公式1將特征值映射到[0,1]之間。
其中,min(x)和max(x)是特征x的最小值和最大值。
(2)平均歸一化
也可按公式2對(duì)特征值進(jìn)行歸一化。
(3)非線性歸一化
非線性歸一化是通過(guò)一些數(shù)學(xué)函數(shù),如對(duì)數(shù)函數(shù)、指數(shù)函數(shù)、正切函數(shù)等,將特征值進(jìn)行映射,使用時(shí)需要根據(jù)特征值的分布選擇非線性函數(shù)。例如:log10x、atan(x)×2/π。
(4)z-score標(biāo)準(zhǔn)化
z-score標(biāo)準(zhǔn)化也稱標(biāo)準(zhǔn)差歸一化或者零均值標(biāo)準(zhǔn)化,按照公式3將數(shù)據(jù)集轉(zhuǎn)化為接近標(biāo)準(zhǔn)正態(tài)分布的形式。
其中,μ和σ是特征x的均值和標(biāo)準(zhǔn)差。
(三)分析與挖掘
在數(shù)據(jù)分析與挖掘中,應(yīng)利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能技術(shù)構(gòu)建分析決策模型和智能化決策支持系統(tǒng)。機(jī)器學(xué)習(xí)在大數(shù)據(jù)分析中的重要性不言而喻,機(jī)器學(xué)習(xí)使得我們既可以更好地分析歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù),還可以更準(zhǔn)確地預(yù)測(cè)未來(lái)數(shù)據(jù)。在商業(yè)智能中應(yīng)用機(jī)器學(xué)習(xí),可以幫助人們從海量數(shù)據(jù)中提取出有價(jià)值的信息,找到最佳市場(chǎng)策略,大幅度改進(jìn)商業(yè)決策,提高生產(chǎn)率,從而促進(jìn)企業(yè)利潤(rùn)最大化和經(jīng)營(yíng)風(fēng)險(xiǎn)最小化。
機(jī)器學(xué)習(xí)算法可分為監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí),如圖2所示。
其中,監(jiān)督學(xué)習(xí)的訓(xùn)練數(shù)據(jù)必須帶有分類信息,即包含特征數(shù)據(jù)和對(duì)應(yīng)的目標(biāo)變量類別,通過(guò)監(jiān)督學(xué)習(xí)得到特征與分類目標(biāo)之間的對(duì)應(yīng)關(guān)系,預(yù)測(cè)時(shí)輸入特征便可得到預(yù)測(cè)目標(biāo)的類別。監(jiān)督學(xué)習(xí)又可分為分類算法和回歸算法,分類算法用于預(yù)測(cè)實(shí)例數(shù)據(jù)的分類結(jié)果,即預(yù)測(cè)目標(biāo)是離散型的分類信息;回歸算法用于預(yù)測(cè)數(shù)值型數(shù)據(jù),即預(yù)測(cè)目標(biāo)是連續(xù)型的值。K-近鄰算法、線性回歸、樸素貝葉斯算法、支持向量機(jī)、決策樹等都是監(jiān)督學(xué)習(xí)算法。
無(wú)監(jiān)督學(xué)習(xí)不需要數(shù)據(jù)集包含明確的分類目標(biāo)信息,因?yàn)闊o(wú)監(jiān)督學(xué)習(xí)不需要根據(jù)訓(xùn)練結(jié)果去預(yù)測(cè)新數(shù)據(jù)。無(wú)監(jiān)督學(xué)習(xí)包括聚類算法、密度估計(jì)算法。聚類算法會(huì)自動(dòng)根據(jù)數(shù)據(jù)的相似度進(jìn)行離散類別劃分,若在聚類的同時(shí)還要估計(jì)數(shù)據(jù)與類別的相似度,則可使用密度估計(jì)算法;另外,無(wú)監(jiān)督學(xué)習(xí)還可用于減少特征維度。K-均值、最大期望算法、DBSCAN等都是無(wú)監(jiān)督學(xué)習(xí)算法。
(四)數(shù)據(jù)可視化
在進(jìn)行數(shù)據(jù)探索、分析預(yù)測(cè)的過(guò)程中,可以利用數(shù)據(jù)可視化功能將數(shù)據(jù)以易于感知的圖形方式進(jìn)行展現(xiàn),有效提高數(shù)據(jù)分析的效果和效率。許多BI工具都具有Dashboard(儀表盤)數(shù)據(jù)可視化模塊,Dashboard既能給用戶提供數(shù)據(jù)跟蹤、鉆取和多維度分析功能,還支持多數(shù)據(jù)源、實(shí)時(shí)數(shù)據(jù)更新和交互式儀表盤。在可視化圖形類別支持方面,BI工具均能提供多種類別的圖形,如區(qū)域圖、熱力圖、流向圖、點(diǎn)地圖等。
四、企業(yè)大數(shù)據(jù)分析應(yīng)用實(shí)踐
下面給出基于大數(shù)據(jù)BI工具——“數(shù)獵云”實(shí)現(xiàn)的企業(yè)大數(shù)據(jù)分析應(yīng)用實(shí)踐案例。
(一)實(shí)踐環(huán)境
數(shù)獵云是一種圖形化大數(shù)據(jù)BI工具,用戶基于數(shù)獵云客戶端訪問(wèn)數(shù)獵云大數(shù)據(jù)服務(wù)器?;跀?shù)獵云進(jìn)行大數(shù)據(jù)財(cái)務(wù)分析可以按照4個(gè)環(huán)節(jié)來(lái)實(shí)施:獲取數(shù)據(jù)源、數(shù)據(jù)匯集與轉(zhuǎn)換、分析和挖掘、數(shù)據(jù)可視化。如圖3所示。
與其他很多BI工具不同的是,數(shù)獵云不僅能夠匯集轉(zhuǎn)換數(shù)據(jù)、分析數(shù)據(jù)、可視化數(shù)據(jù),更重要的是,數(shù)獵云提供了上百種數(shù)據(jù)加工組件和數(shù)十種統(tǒng)計(jì)分析、數(shù)據(jù)挖掘及機(jī)器學(xué)習(xí)算法,操作人員不需要任何編程,只需通過(guò)鼠標(biāo)簡(jiǎn)單地拖拽組合和進(jìn)行相應(yīng)的參數(shù)設(shè)計(jì),即可進(jìn)行復(fù)雜的企業(yè)大數(shù)據(jù)分析與預(yù)測(cè)。
(二)業(yè)務(wù)數(shù)據(jù)分析
案例數(shù)據(jù)是某金融企業(yè)的貸款申請(qǐng)與發(fā)放信息,基于監(jiān)督學(xué)習(xí)算法——支持向量機(jī)對(duì)貸款風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)。使用支持向量機(jī)進(jìn)行貸款風(fēng)險(xiǎn)預(yù)測(cè)時(shí),首先要訓(xùn)練預(yù)測(cè)模型,訓(xùn)練數(shù)據(jù)集中的屬性Gender、Married、Dependents、Education、Self_Employed、ApplicantIncome、Coapp-
licantIncome、LoanAmount、Loan_Amount_Term、Credit_
History、Property_Area等作為特征變量,Loan_Status作為分類標(biāo)簽,訓(xùn)練后的支持向量機(jī)模型可以根據(jù)特征變量來(lái)預(yù)測(cè)是否應(yīng)該為某個(gè)申請(qǐng)貸款的人發(fā)放貸款。
1.問(wèn)題定義與數(shù)據(jù)探索
本次數(shù)據(jù)分析挖掘的目的是根據(jù)原始數(shù)據(jù)使用支持向量機(jī)對(duì)用戶的貸款風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)。支持向量機(jī)是一種二分類型監(jiān)督學(xué)習(xí)算法,需要先訓(xùn)練模型再用模型去預(yù)測(cè)數(shù)據(jù)。本案例的數(shù)據(jù)源是由企業(yè)OA系統(tǒng)提供的CSV格式文件,數(shù)據(jù)源包含的特征屬性和部分?jǐn)?shù)據(jù)行如表1所示。
各特征屬性的含義如表2所示。
樣本數(shù)據(jù)記錄共5萬(wàn)條,按70%■30%的比例分為兩組,前一組3.5萬(wàn)條數(shù)據(jù)為訓(xùn)練數(shù)據(jù),用來(lái)訓(xùn)練預(yù)測(cè)模型;后一組1.5萬(wàn)條數(shù)據(jù)為測(cè)試數(shù)據(jù),用來(lái)測(cè)試模型的訓(xùn)練效果。
2.數(shù)據(jù)匯集
在數(shù)獵云中連接數(shù)據(jù)源,從中抽取貸款記錄的CSV數(shù)據(jù)文件,將CSV格式的數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),再把結(jié)構(gòu)化后的業(yè)務(wù)數(shù)據(jù)寫入數(shù)據(jù)湖的對(duì)應(yīng)數(shù)據(jù)表中,實(shí)現(xiàn)業(yè)務(wù)數(shù)據(jù)到大數(shù)據(jù)平臺(tái)的匯集。
3.數(shù)據(jù)預(yù)處理
大數(shù)據(jù)分析用到的數(shù)據(jù)挖掘、統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)等算法,一般會(huì)對(duì)算法的輸入數(shù)據(jù)有限制要求,在數(shù)據(jù)建模前,應(yīng)根據(jù)模型的要求對(duì)輸入數(shù)據(jù)進(jìn)行轉(zhuǎn)換和整理。
從表1展示的部分?jǐn)?shù)據(jù)可以發(fā)現(xiàn),Married、Dependents等列存在空值、數(shù)據(jù)類型表示不一致等情況,需要對(duì)數(shù)據(jù)進(jìn)行清洗加工。在清洗加工之前,可以通過(guò)瀏覽數(shù)據(jù)或使用統(tǒng)計(jì)方法等手段對(duì)原始數(shù)據(jù)進(jìn)行探索和畫像,以幫助了解數(shù)據(jù)質(zhì)量。例如:統(tǒng)計(jì)某列空值比例(存在空值的行數(shù)/總記錄行數(shù))、統(tǒng)計(jì)某列包含非法字符的比例(存在非法字符的行數(shù)/總記錄行數(shù))。
(1)缺失值處理
以對(duì)Married進(jìn)行畫像為例,在數(shù)獵云中,可對(duì)Married屬性值(已婚/未婚/空值)進(jìn)行分組統(tǒng)計(jì),據(jù)此來(lái)發(fā)現(xiàn)到底有多少不合法的Married屬性值。對(duì)Married的缺失值要盡量進(jìn)行補(bǔ)充,補(bǔ)充時(shí)要參考關(guān)聯(lián)業(yè)務(wù)數(shù)據(jù)的含義,比如Married婚姻狀態(tài)和Dependents家庭中子女?dāng)?shù)有一定的關(guān)聯(lián)關(guān)系。根據(jù)業(yè)務(wù)常識(shí),如果子女?dāng)?shù)大于等于1,客戶已婚的可能性很大,反之客戶已婚的可能性比較低。因此可以根據(jù)此業(yè)務(wù)關(guān)聯(lián)性,補(bǔ)齊Married的缺失值。
對(duì)數(shù)據(jù)集中的Gender、Dependents、Education、Self_Employed、ApplicantIncome、CoapplicantIncome、LoanAmount、Loan_Amount_Term、Credit_History、Property_Area、Loan_Status等屬性,由于缺失值比例并不高而且難以補(bǔ)全為有意義的信息,所以在此將有空值的記錄進(jìn)行刪除。
(2)數(shù)據(jù)類型轉(zhuǎn)換
貸款風(fēng)險(xiǎn)預(yù)測(cè)用到的輸入數(shù)據(jù)包括除Loan_ID和Loan_Status外的所有特征屬性,根據(jù)這些輸入的特征屬性預(yù)測(cè)分類目標(biāo)Loan_Status的值,Loan_Status代表貸款狀態(tài)。從表2可以看到,貸款風(fēng)險(xiǎn)預(yù)測(cè)用到的特征屬性和分類目標(biāo)的初始數(shù)據(jù)類型都是文本類型NVARCHAR,由于支持向量機(jī)要求輸入的特征變量和分類目標(biāo)均是數(shù)值類型,因此下面對(duì)這些屬性進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換。
ApplicantIncome、CoapplicantIncome、LoanAmount、
Loan_Amount_Term這四個(gè)屬性在實(shí)際中均應(yīng)為數(shù)值類型,可直接在數(shù)獵云中將這四個(gè)屬性全部轉(zhuǎn)換為數(shù)值類型。
Credit_History在原始數(shù)據(jù)集中取值為文本型的0/1,也可直接將其轉(zhuǎn)換為數(shù)值類型。
Gender、Married、Education、Self_Employed、Property_Area、Loan_Status等屬性都是取值為離散值的文本類型,這需要在數(shù)獵云中轉(zhuǎn)換成對(duì)應(yīng)的數(shù)值類型,以滿足機(jī)器學(xué)習(xí)算法的要求。上述特征變量中,Gender、Married、Education、Self_Employed、Loan_Status均是2種取值,Property_Area是3種取值,在數(shù)獵云中將2種取值的特征變量均轉(zhuǎn)換為0/1取值,將3種取值的特征變量轉(zhuǎn)換為0/1/2取值。取值轉(zhuǎn)換對(duì)應(yīng)表如表3所示。
(3)非法數(shù)據(jù)處理
原始數(shù)據(jù)的Dependents屬性值中出現(xiàn)了3+這樣的值,表示家庭孩子多于3個(gè)的情況。因?yàn)镈ependents要轉(zhuǎn)換為數(shù)值類型以用作支持向量機(jī)的輸入特征變量,因此需要對(duì)Dependents的值做去除+號(hào)的處理,并將Dependents轉(zhuǎn)換為數(shù)值類型。在數(shù)獵云中,利用字符串替換功能將+替換為空,再將所有的Dependents取值由字符型轉(zhuǎn)換為數(shù)值型。
(4)數(shù)據(jù)標(biāo)準(zhǔn)化
由于ApplicantIncome、CoapplicantIncome、LoanAmount、Loan_Amount_Term四個(gè)特征變量的取值范圍相差較大,需要在訓(xùn)練前進(jìn)行量綱標(biāo)準(zhǔn)化處理??梢灾苯釉跀?shù)獵云中將這四個(gè)特征數(shù)據(jù)組裝成CSN,再使用標(biāo)準(zhǔn)化工具(包括Standard、MinMaxScaler和MaxAbsScaler三種形式)對(duì)CSN數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,形成標(biāo)準(zhǔn)化模型,以供后續(xù)訓(xùn)練、測(cè)試和預(yù)測(cè)時(shí)使用。
(三)數(shù)據(jù)分析與挖掘
支持向量機(jī)是一種監(jiān)督學(xué)習(xí)算法,使用該算法建立預(yù)測(cè)模型時(shí),需要訓(xùn)練預(yù)測(cè)模型,并對(duì)訓(xùn)練好的模型進(jìn)行預(yù)測(cè)能力評(píng)估,通過(guò)評(píng)估的模型才能用于實(shí)際預(yù)測(cè)。模型使用過(guò)程中,不斷根據(jù)預(yù)測(cè)與實(shí)際結(jié)果的對(duì)比反饋,進(jìn)而調(diào)整修正模型。模型訓(xùn)練、評(píng)價(jià)、使用反饋環(huán)如圖4所示。
1.訓(xùn)練模型
用訓(xùn)練數(shù)據(jù)集訓(xùn)練支持向量機(jī)以得到預(yù)測(cè)模型。在數(shù)獵云中,支持向量機(jī)的輸入要求為CSN類型,因此,先用NumAssemable變換工具將訓(xùn)練集中的分類標(biāo)簽(Loan_Status)和多個(gè)數(shù)值類型的特征數(shù)據(jù)(Gender、Dependents、Education、Self_Employed、標(biāo)準(zhǔn)化后的CSN數(shù)據(jù)(ApplicantIncome、CoapplicantIncome、LoanAmount、Loan_Amount_Term)、Credit_History、Property_Area)組裝成CSN類型,再將此CSN數(shù)據(jù)作為支持向量機(jī)的輸入,設(shè)置好模型的迭代次數(shù)、步長(zhǎng)、正則化參數(shù)、分類閾值等參數(shù)后,開(kāi)始模型訓(xùn)練。模型訓(xùn)練結(jié)束后,要注意觀察模型訓(xùn)練結(jié)果,其中precision代表模型預(yù)測(cè)的精確率,取值均在0和1之間,數(shù)值越接近1,模型就越好。在precision不高時(shí),要調(diào)整模型的訓(xùn)練參數(shù)重新進(jìn)行模型訓(xùn)練。訓(xùn)練過(guò)程可以重復(fù)進(jìn)行,直到precision的值達(dá)到合理的要求。
2.評(píng)價(jià)模型
評(píng)價(jià)模型是檢驗(yàn)使用模型進(jìn)行預(yù)測(cè)的precision。在數(shù)獵云中先將測(cè)試集中的多個(gè)數(shù)值類型的特征數(shù)據(jù)組裝成CSN數(shù)據(jù),再將此CSN數(shù)據(jù)作為預(yù)測(cè)模型的輸入,運(yùn)行模型以得到預(yù)測(cè)結(jié)果。將預(yù)測(cè)輸出的貸款狀態(tài)和測(cè)試數(shù)據(jù)集中的貸款狀態(tài)進(jìn)行比較,檢查預(yù)測(cè)模型在預(yù)測(cè)數(shù)據(jù)時(shí)的準(zhǔn)確度。
3.使用模型進(jìn)行預(yù)測(cè)
模型訓(xùn)練成功后就可以在實(shí)際中使用模型對(duì)貸款風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)了。對(duì)某個(gè)貸款申請(qǐng)人,模型可以根據(jù)此人的特征數(shù)據(jù)預(yù)測(cè)出是否應(yīng)該給其發(fā)放貸款,從而輔助金融企業(yè)控制貸款風(fēng)險(xiǎn)。
至此,在數(shù)獵云中完成了貸款風(fēng)險(xiǎn)預(yù)測(cè)案例,在數(shù)獵云中創(chuàng)建的數(shù)據(jù)分析工作流如圖5所示。
(四)數(shù)據(jù)可視化
數(shù)獵云提供了強(qiáng)大的數(shù)據(jù)可視化工具,支持多種類型的報(bào)表展現(xiàn)、多維分析和數(shù)據(jù)可視化。在數(shù)獵云平臺(tái)的deepBI模塊中,對(duì)貸款風(fēng)險(xiǎn)預(yù)測(cè)結(jié)果進(jìn)行可視化儀表盤設(shè)計(jì),設(shè)計(jì)結(jié)果如圖6所示。
五、結(jié)語(yǔ)
圍繞使用大數(shù)據(jù)BI工具實(shí)施企業(yè)大數(shù)據(jù)分析和挖掘的四個(gè)環(huán)節(jié):獲取數(shù)據(jù)源、數(shù)據(jù)匯集與轉(zhuǎn)換、分析和挖掘、數(shù)據(jù)可視化進(jìn)行了闡述。基于數(shù)獵云大數(shù)據(jù)BI工具完成了貸款風(fēng)險(xiǎn)預(yù)測(cè),以此嘗試為企業(yè)管理人員在日常管理工作中從事數(shù)據(jù)分析和挖掘工作提供思路和建議。
為更好地在企業(yè)經(jīng)營(yíng)管理中應(yīng)用大數(shù)據(jù)BI工具進(jìn)行數(shù)據(jù)分析和預(yù)測(cè),企業(yè)管理人員可參照以下建議不斷提高自身的大數(shù)據(jù)分析和挖掘能力:(1)熟悉待分析的數(shù)據(jù),能針對(duì)分析目標(biāo)提取數(shù)據(jù)特征。(2)熟悉數(shù)據(jù)清洗的方法,能對(duì)“臟數(shù)據(jù)”進(jìn)行清洗使之成為有意義的、合理的數(shù)據(jù)。(3)熟悉數(shù)據(jù)標(biāo)準(zhǔn)化的方法,能將不同量綱的數(shù)據(jù)轉(zhuǎn)換成符合數(shù)據(jù)分析和挖掘要求的數(shù)據(jù)。(4)熟悉各種機(jī)器學(xué)習(xí)算法,了解各類算法的特點(diǎn)、用途和參數(shù)的含義,能根據(jù)工作要求選擇合適的機(jī)器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)預(yù)測(cè)。(5)熟悉各種可視化圖形的特點(diǎn),能依據(jù)數(shù)據(jù)特點(diǎn)選擇合適的圖形進(jìn)行數(shù)據(jù)鉆取、探索和分析。
【參考文獻(xiàn)】
[1] 王秋菲,欒丹,張洛迪.網(wǎng)絡(luò)爬蟲技術(shù)獲取審計(jì)證據(jù)的應(yīng)用研究——以亞太實(shí)業(yè)審計(jì)為例[J].會(huì)計(jì)之友,2020(17):131-136.
[2] 張志恒,成雪嬌.大數(shù)據(jù)環(huán)境下基于文本挖掘的審計(jì)數(shù)據(jù)分析框架[J].會(huì)計(jì)之友,2017(16):117-120.
[3] 張紅英,王翠森.大數(shù)據(jù)時(shí)代財(cái)務(wù)分析領(lǐng)域機(jī)遇與挑戰(zhàn)[J].財(cái)會(huì)通訊,2016(5):84-85.
[4] 路偉果,劉光軍,彭韶兵.數(shù)據(jù)挖掘技術(shù)對(duì)會(huì)計(jì)的影響及應(yīng)對(duì)[J].財(cái)會(huì)月刊,2020(7):68-74.
[5] 烏婷,喬引花.大數(shù)據(jù)時(shí)代管理會(huì)計(jì)職業(yè)能力建設(shè)探討[J].會(huì)計(jì)之友,2017(19):38-42.
[6] 張超,肖聰,朱衛(wèi)東,等.財(cái)務(wù)智能可視化分析與文獻(xiàn)綜述[J].財(cái)會(huì)月刊,2019(3):24-32.
[7] 王毅輝,閻慧峰.財(cái)務(wù)BI工具選擇和在煙草商業(yè)企業(yè)中的應(yīng)用研究[J].現(xiàn)代經(jīng)濟(jì)信息,2018(24):120.
[8] 王瑜,鮑鯤,黃婷婷,等.基于Power BI工具的大數(shù)據(jù)分析在醫(yī)療設(shè)備多維數(shù)據(jù)分析中的應(yīng)用研究[J].中國(guó)醫(yī)學(xué)裝備,2020,17(5):169-173.
[9] 王緣.小米BigBI商業(yè)智能工具用戶體驗(yàn)優(yōu)化設(shè)計(jì)與實(shí)踐[D].長(zhǎng)沙:湖南大學(xué)碩士學(xué)位論文,2019.
[10] 黃宜華.大數(shù)據(jù)機(jī)器學(xué)習(xí)系統(tǒng)研究進(jìn)展[J].大數(shù)據(jù),2015,1(1):35-54.