彭昌
企業(yè)非法集資具有嚴(yán)重社會(huì)危害性。一是參與者容易遭受經(jīng)濟(jì)損失。犯罪分子通過高回報(bào)利誘等方式聚攬資金后,任意揮霍、轉(zhuǎn)移或者非法占有,參與者難以收回資金。二是非法集資嚴(yán)重?cái)_亂正常經(jīng)濟(jì)金融秩序,容易引發(fā)金融風(fēng)險(xiǎn)。三是非法集資容易引起社會(huì)不穩(wěn)定和社會(huì)治安問題,甚至引發(fā)局部地區(qū)的社會(huì)動(dòng)蕩。如何基于大量企業(yè)信息構(gòu)建預(yù)測模型,并判斷企業(yè)是否存在非法集資風(fēng)險(xiǎn),對(duì)于監(jiān)管機(jī)構(gòu)、公司合作伙伴和投資者具有一定價(jià)值。
根據(jù)大量企業(yè)信息,利用隨機(jī)森林和LightGBMi兩種機(jī)器學(xué)習(xí)算法分別構(gòu)建企業(yè)非法集資風(fēng)險(xiǎn)預(yù)測模型,并對(duì)其模型性能指標(biāo)F1-score值進(jìn)行對(duì)比。
(一)數(shù)據(jù)預(yù)處理
本文實(shí)驗(yàn)中用到的企業(yè)信息數(shù)據(jù)集源于某競賽數(shù)據(jù)集,包含24865家企業(yè)數(shù)據(jù),其中14865家企業(yè)數(shù)據(jù)帶有是否非法集資標(biāo)注,可作為訓(xùn)練集;剩余10000家企業(yè)數(shù)據(jù)不帶是否非法集資標(biāo)注,可作為測試集。數(shù)據(jù)由企業(yè)基本信息、企業(yè)年報(bào)、企業(yè)納稅情況、企業(yè)變更信息、企業(yè)新聞輿情信息和企業(yè)其他信息等組成,數(shù)據(jù)包括數(shù)值型、字符型、日期型等眾多數(shù)據(jù)類型,部分字段內(nèi)容有缺失,其中第一列id為企業(yè)唯一標(biāo)識(shí),label為目標(biāo)變量。
對(duì)獲取的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)分析、變量篩選、填充缺失值、特征編碼、可解釋性特征提取等操作。
1、變量篩選
根據(jù)缺失值占比、Ⅳ值(Information Value,即信息價(jià)值)和高相關(guān)性進(jìn)行變量篩選,變量缺失值大于0.5被刪除,變量Ⅳ值小于0.02被刪除(Ⅳ值是用來衡量變量預(yù)測能力的,Ⅳ值越大,表示該變量的預(yù)測能力越強(qiáng),一般會(huì)舍棄lV值小于0.02的變量),兩個(gè)變量相關(guān)性高于0.7時(shí),Ⅳ值低的變量被刪除。opto、compform、parnum、exenum、opform、ptbusscope、venind、enttypeminu、midpreindcode、protype、reccap、brreccap、forregcap、congro變量因缺失值大于0.5被刪除,adbusign、regtype變量因Ⅳ值小于0.02被刪除,enttype、enttypegb變量因高相關(guān)性被刪除。
2、企業(yè)經(jīng)營范圍關(guān)鍵詞篩選
對(duì)標(biāo)注為非法集資企業(yè)的經(jīng)營范圍進(jìn)行詞頻分析,再對(duì)出現(xiàn)頻率較高的詞語進(jìn)行人工篩選。若企業(yè)經(jīng)營范圍包含這些關(guān)鍵詞,則判定為特殊特征。最終篩選的關(guān)鍵詞為:投資、咨詢服務(wù)、融資、金融、擔(dān)保、代客理財(cái)、企業(yè)管理、股權(quán)、實(shí)業(yè)、資產(chǎn)、創(chuàng)業(yè)投資、證券期貨、房地產(chǎn)、咨詢服務(wù)、經(jīng)紀(jì)、營銷策劃、商務(wù)信息、財(cái)務(wù)咨詢、進(jìn)出口、房產(chǎn)中介、貸款。
(二)實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)
本實(shí)驗(yàn)采用分類任務(wù)的F1-score指標(biāo)作為模型性能的評(píng)判標(biāo)準(zhǔn)。F1-score值越高,說明模型預(yù)測性能越好。F1-score計(jì)算公式如下所示:
P表示精確率(precision),R表示召回率(recall),TP(True Positive)表示正確預(yù)測非法集資的企業(yè)數(shù)目,F(xiàn)N(False Negative)吲表示實(shí)際上是非法集資但預(yù)測不是非法集資的企業(yè)數(shù)目,F(xiàn)P(False Positive)是實(shí)際上不是非法集資但預(yù)測為非法集資的企業(yè)數(shù)目。
(三)實(shí)驗(yàn)設(shè)計(jì)
在訓(xùn)練過程中,將數(shù)據(jù)集按4:1分成訓(xùn)練集和驗(yàn)證集,構(gòu)建隨機(jī)森林、LightGBM兩種機(jī)器學(xué)習(xí)算法模型,對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,對(duì)驗(yàn)證集進(jìn)行驗(yàn)證,對(duì)測試集進(jìn)行預(yù)測,得到兩種算法模型的F1-score指標(biāo)。
隨機(jī)森林、LightGBM模型的F1-score指標(biāo)表現(xiàn)如表1所示,無論是否對(duì)企業(yè)經(jīng)營范圍進(jìn)行特征提取,隨機(jī)森林模型的F1-score指標(biāo)都優(yōu)于LightGBM模型。
本文根據(jù)大量企業(yè)信息數(shù)據(jù),構(gòu)建基于隨機(jī)森林、LightGBM兩種機(jī)器學(xué)習(xí)算法的企業(yè)非法集資風(fēng)險(xiǎn)預(yù)測模型。基于隨機(jī)森林模型構(gòu)建的企業(yè)非法集資風(fēng)險(xiǎn)預(yù)測模型的F1-score指標(biāo)優(yōu)于LightGBM模型。根據(jù)企業(yè)信息,基于隨機(jī)森林算法構(gòu)建的企業(yè)非法集資風(fēng)險(xiǎn)預(yù)測模型能夠有效預(yù)測企業(yè)是否存在非法集資風(fēng)險(xiǎn),有助于防范化解金融風(fēng)險(xiǎn),維護(hù)經(jīng)濟(jì)秩序穩(wěn)定,營造良好的金融環(huán)境。下一步工作將繼續(xù)優(yōu)化缺失值填充算法和模型參數(shù),充分挖掘算法潛力,進(jìn)一步提高企業(yè)非法集資風(fēng)險(xiǎn)預(yù)測模型的性能指標(biāo)。