• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于隨機(jī)森林算法的企業(yè)非法集資風(fēng)險(xiǎn)預(yù)測

    2021-07-17 23:13:31彭昌
    消費(fèi)電子 2021年5期
    關(guān)鍵詞:集資森林變量

    彭昌

    一、背景介紹

    企業(yè)非法集資具有嚴(yán)重社會(huì)危害性。一是參與者容易遭受經(jīng)濟(jì)損失。犯罪分子通過高回報(bào)利誘等方式聚攬資金后,任意揮霍、轉(zhuǎn)移或者非法占有,參與者難以收回資金。二是非法集資嚴(yán)重?cái)_亂正常經(jīng)濟(jì)金融秩序,容易引發(fā)金融風(fēng)險(xiǎn)。三是非法集資容易引起社會(huì)不穩(wěn)定和社會(huì)治安問題,甚至引發(fā)局部地區(qū)的社會(huì)動(dòng)蕩。如何基于大量企業(yè)信息構(gòu)建預(yù)測模型,并判斷企業(yè)是否存在非法集資風(fēng)險(xiǎn),對(duì)于監(jiān)管機(jī)構(gòu)、公司合作伙伴和投資者具有一定價(jià)值。

    二、研究思路

    根據(jù)大量企業(yè)信息,利用隨機(jī)森林和LightGBMi兩種機(jī)器學(xué)習(xí)算法分別構(gòu)建企業(yè)非法集資風(fēng)險(xiǎn)預(yù)測模型,并對(duì)其模型性能指標(biāo)F1-score值進(jìn)行對(duì)比。

    三、實(shí)驗(yàn)過程

    (一)數(shù)據(jù)預(yù)處理

    本文實(shí)驗(yàn)中用到的企業(yè)信息數(shù)據(jù)集源于某競賽數(shù)據(jù)集,包含24865家企業(yè)數(shù)據(jù),其中14865家企業(yè)數(shù)據(jù)帶有是否非法集資標(biāo)注,可作為訓(xùn)練集;剩余10000家企業(yè)數(shù)據(jù)不帶是否非法集資標(biāo)注,可作為測試集。數(shù)據(jù)由企業(yè)基本信息、企業(yè)年報(bào)、企業(yè)納稅情況、企業(yè)變更信息、企業(yè)新聞輿情信息和企業(yè)其他信息等組成,數(shù)據(jù)包括數(shù)值型、字符型、日期型等眾多數(shù)據(jù)類型,部分字段內(nèi)容有缺失,其中第一列id為企業(yè)唯一標(biāo)識(shí),label為目標(biāo)變量。

    對(duì)獲取的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)分析、變量篩選、填充缺失值、特征編碼、可解釋性特征提取等操作。

    1、變量篩選

    根據(jù)缺失值占比、Ⅳ值(Information Value,即信息價(jià)值)和高相關(guān)性進(jìn)行變量篩選,變量缺失值大于0.5被刪除,變量Ⅳ值小于0.02被刪除(Ⅳ值是用來衡量變量預(yù)測能力的,Ⅳ值越大,表示該變量的預(yù)測能力越強(qiáng),一般會(huì)舍棄lV值小于0.02的變量),兩個(gè)變量相關(guān)性高于0.7時(shí),Ⅳ值低的變量被刪除。opto、compform、parnum、exenum、opform、ptbusscope、venind、enttypeminu、midpreindcode、protype、reccap、brreccap、forregcap、congro變量因缺失值大于0.5被刪除,adbusign、regtype變量因Ⅳ值小于0.02被刪除,enttype、enttypegb變量因高相關(guān)性被刪除。

    2、企業(yè)經(jīng)營范圍關(guān)鍵詞篩選

    對(duì)標(biāo)注為非法集資企業(yè)的經(jīng)營范圍進(jìn)行詞頻分析,再對(duì)出現(xiàn)頻率較高的詞語進(jìn)行人工篩選。若企業(yè)經(jīng)營范圍包含這些關(guān)鍵詞,則判定為特殊特征。最終篩選的關(guān)鍵詞為:投資、咨詢服務(wù)、融資、金融、擔(dān)保、代客理財(cái)、企業(yè)管理、股權(quán)、實(shí)業(yè)、資產(chǎn)、創(chuàng)業(yè)投資、證券期貨、房地產(chǎn)、咨詢服務(wù)、經(jīng)紀(jì)、營銷策劃、商務(wù)信息、財(cái)務(wù)咨詢、進(jìn)出口、房產(chǎn)中介、貸款。

    (二)實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)

    本實(shí)驗(yàn)采用分類任務(wù)的F1-score指標(biāo)作為模型性能的評(píng)判標(biāo)準(zhǔn)。F1-score值越高,說明模型預(yù)測性能越好。F1-score計(jì)算公式如下所示:

    P表示精確率(precision),R表示召回率(recall),TP(True Positive)表示正確預(yù)測非法集資的企業(yè)數(shù)目,F(xiàn)N(False Negative)吲表示實(shí)際上是非法集資但預(yù)測不是非法集資的企業(yè)數(shù)目,F(xiàn)P(False Positive)是實(shí)際上不是非法集資但預(yù)測為非法集資的企業(yè)數(shù)目。

    (三)實(shí)驗(yàn)設(shè)計(jì)

    在訓(xùn)練過程中,將數(shù)據(jù)集按4:1分成訓(xùn)練集和驗(yàn)證集,構(gòu)建隨機(jī)森林、LightGBM兩種機(jī)器學(xué)習(xí)算法模型,對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,對(duì)驗(yàn)證集進(jìn)行驗(yàn)證,對(duì)測試集進(jìn)行預(yù)測,得到兩種算法模型的F1-score指標(biāo)。

    四、實(shí)驗(yàn)結(jié)果

    隨機(jī)森林、LightGBM模型的F1-score指標(biāo)表現(xiàn)如表1所示,無論是否對(duì)企業(yè)經(jīng)營范圍進(jìn)行特征提取,隨機(jī)森林模型的F1-score指標(biāo)都優(yōu)于LightGBM模型。

    表1 隨機(jī)森林、LightGBM模型的F1-score指標(biāo)對(duì)比

    五、結(jié)語

    本文根據(jù)大量企業(yè)信息數(shù)據(jù),構(gòu)建基于隨機(jī)森林、LightGBM兩種機(jī)器學(xué)習(xí)算法的企業(yè)非法集資風(fēng)險(xiǎn)預(yù)測模型。基于隨機(jī)森林模型構(gòu)建的企業(yè)非法集資風(fēng)險(xiǎn)預(yù)測模型的F1-score指標(biāo)優(yōu)于LightGBM模型。根據(jù)企業(yè)信息,基于隨機(jī)森林算法構(gòu)建的企業(yè)非法集資風(fēng)險(xiǎn)預(yù)測模型能夠有效預(yù)測企業(yè)是否存在非法集資風(fēng)險(xiǎn),有助于防范化解金融風(fēng)險(xiǎn),維護(hù)經(jīng)濟(jì)秩序穩(wěn)定,營造良好的金融環(huán)境。下一步工作將繼續(xù)優(yōu)化缺失值填充算法和模型參數(shù),充分挖掘算法潛力,進(jìn)一步提高企業(yè)非法集資風(fēng)險(xiǎn)預(yù)測模型的性能指標(biāo)。

    猜你喜歡
    集資森林變量
    抓住不變量解題
    太原:舉報(bào)非法集資最高獎(jiǎng)萬元
    也談分離變量
    各式非法集資套路與反套路
    當(dāng)心非法集資搭上網(wǎng)絡(luò)傳銷
    哈Q森林
    教你識(shí)破非法集資及傳銷的“十三種表象”
    哈Q森林
    哈Q森林
    哈Q森林
    上犹县| 晋中市| 射洪县| 固安县| 塔城市| 长宁区| 长寿区| 寿阳县| 阿拉尔市| 永嘉县| 庆云县| 嫩江县| 北川| 庆云县| 郯城县| 安陆市| 轮台县| 永顺县| 延吉市| 临江市| 永吉县| 宁河县| 那曲县| 仁怀市| 新田县| 磐安县| 拉孜县| 新巴尔虎右旗| 财经| 达州市| 哈巴河县| 南川市| 平南县| 光泽县| 海宁市| 精河县| 常宁市| 桦南县| 隆昌县| 德化县| 南宁市|