周二磊 陸進(jìn)宇 馬江濤 鄭巖 馬曉威
近年來,隨著國家政務(wù)大數(shù)據(jù)的匯聚,企業(yè)的信用信息逐漸豐富,除包括企業(yè)基本信息外,逐步將動態(tài)經(jīng)營、監(jiān)督管理、社會輿情、投訴舉報等多個維度信息納入信用體系,為構(gòu)建科學(xué)、精準(zhǔn)的信用預(yù)測預(yù)警模型奠定基礎(chǔ)。為強(qiáng)化信用監(jiān)管和社會監(jiān)督,促進(jìn)企業(yè)自律,2021年國家市場監(jiān)管總局制訂《嚴(yán)重違法失信企業(yè)名單管理辦法》,企業(yè)一旦列為嚴(yán)重違法失信企業(yè)名單(俗稱“黑名單”),將會面臨嚴(yán)重后果。因此,有必要對企業(yè)提前預(yù)警,并對預(yù)警特征值定量判斷,一方面,有利于監(jiān)管部門建立科學(xué)的評分體系,提升監(jiān)管的精準(zhǔn)度,并在日常監(jiān)管中重點(diǎn)關(guān)注某些市場特征,避免市場上出現(xiàn)大量不穩(wěn)定因素;另一方面,有利于企業(yè)在經(jīng)營中高度關(guān)注預(yù)警指標(biāo),避免列入“黑名單”。
隨機(jī)森林算法模型作為集成學(xué)習(xí)的一種,能夠處理高維度數(shù)據(jù),較為快速地實(shí)現(xiàn)預(yù)測功能,且能反映每個特征值的權(quán)重,形成“預(yù)警性”指標(biāo)。以往研究中,劉玉航等通過優(yōu)化參數(shù)組合,建立隨機(jī)森林模型,有效預(yù)測食品檢驗(yàn)不合格指標(biāo)并對其分類。張家偉等通過加權(quán)策略對過采樣和隨機(jī)森林進(jìn)行改進(jìn),結(jié)果顯示能夠提升少數(shù)類樣本的分類準(zhǔn)確率和整體分類性能。馬夢晨等以340所上市公司28個信用風(fēng)險指標(biāo)為研究對象,采用不同機(jī)器學(xué)習(xí)算法進(jìn)行預(yù)測,結(jié)果顯示隨機(jī)森林預(yù)測準(zhǔn)確率最高。王朝輝等利用后剪枝的隨機(jī)森林進(jìn)行特征選擇,并利用改進(jìn)Q-learning和XGBoost算法,使模型具有更高的分類準(zhǔn)確率。楊慶振通過大規(guī)模數(shù)據(jù)訓(xùn)練,利用隨機(jī)森林算法,對“黑名單”相關(guān)的特征值進(jìn)行抽取和排序。馬曉君等在對企業(yè)信用評級時提出基于加權(quán)隨機(jī)森林模型,驗(yàn)證得出其評級準(zhǔn)確率優(yōu)于傳統(tǒng)的統(tǒng)計(jì)模型?,F(xiàn)實(shí)中企業(yè)信用風(fēng)險數(shù)據(jù)具有不平衡性,為此,于勤麗等提出一種改進(jìn)的SMOTE 過采樣方法,避免少數(shù)類過度聚集在少數(shù)類中心,實(shí)現(xiàn)對不平衡數(shù)據(jù)的處理,提升模型訓(xùn)練效果。此外,有關(guān)研究表明使用隨機(jī)森林算法在多種不平衡數(shù)據(jù)分類場景和其他工程領(lǐng)域應(yīng)用中取得了良好的效果,模型泛化能力強(qiáng)。
隨機(jī)森林算法模型在風(fēng)險預(yù)測中的各項(xiàng)評估指標(biāo)表現(xiàn)較好,且無需過多考慮特征間多重共線性,能夠較為快速處理多維度、大批量數(shù)據(jù)。但現(xiàn)有研究中,多側(cè)重于算法本身的改良,應(yīng)用的實(shí)驗(yàn)數(shù)據(jù)較少,特征維度較小,缺乏將研究成果運(yùn)用在更大規(guī)模數(shù)據(jù)、更多維度特征的應(yīng)用場景。本研究將以河南省市場監(jiān)管部門歸集的50萬個企業(yè)的數(shù)據(jù)和80個信用領(lǐng)域的風(fēng)險指標(biāo)為來源,通過對不均衡數(shù)據(jù)的處理,比較隨機(jī)森林等機(jī)器學(xué)習(xí)算法模型的有效性,從而識別和量化風(fēng)險指標(biāo)項(xiàng),為政府部門的監(jiān)管執(zhí)法和企業(yè)自律提供有力依據(jù)。
(一)隨機(jī)森林基本原理
隨機(jī)森林是一種有監(jiān)督的算法模型,該模型通過建立學(xué)習(xí)器構(gòu)建裝袋集成,生成若干個訓(xùn)練集;然后對于每個訓(xùn)練集構(gòu)造決策樹作為弱評估器,其分裂節(jié)點(diǎn)往往不追求信息增益最大值,而是在特征中隨機(jī)抽取部分特征并找到最優(yōu)解實(shí)施分裂;最后重復(fù)迭代,形成由若干棵決策樹組成的森林,按照多數(shù)投票機(jī)制,將決策樹分類結(jié)果整合,多數(shù)決策樹的判定結(jié)果就是最終隨機(jī)森林模型的分類結(jié)果。隨機(jī)森林基于集成思想,可以有效避免過擬合。同時,通過隨機(jī)森林可以計(jì)算出特征值對模型的貢獻(xiàn)率,從而得出特征的定量權(quán)重。
(二)數(shù)據(jù)采集
采集河南省市場監(jiān)督管理局“企業(yè)信用風(fēng)險分類監(jiān)管平臺”中,截止2022年12月31日歸集的企業(yè)信用數(shù)據(jù),從中隨機(jī)抽取50萬個企業(yè)的80個完整指標(biāo)項(xiàng)信息。參照國家市場監(jiān)管部門對企業(yè)信用風(fēng)險的解釋,企業(yè)信用風(fēng)險信息共5類,分別為基本因素,包含企業(yè)規(guī)模、企業(yè)年齡、企業(yè)背景等10項(xiàng)基礎(chǔ)特征信息,反映基于企業(yè)群體特征所表現(xiàn)出的風(fēng)險因素;動態(tài)因素,包含企業(yè)準(zhǔn)入許可、登記備案、年報公示、經(jīng)營狀況、納稅社保、知識產(chǎn)權(quán)等方面的40項(xiàng)行為信息,反映基于行為特征所表現(xiàn)出的風(fēng)險因素;監(jiān)管因素,包含行政檢查、行政處罰、訴訟信息、經(jīng)營異常、黑名單、失信被執(zhí)行人等方面16項(xiàng)信息,反映基于歷史監(jiān)管記錄所表現(xiàn)出的風(fēng)險因素;關(guān)聯(lián)因素,包含企業(yè)相關(guān)人員違法失信和關(guān)聯(lián)企業(yè)違法失信等9項(xiàng)信息,反映基于企業(yè)關(guān)聯(lián)關(guān)系所表現(xiàn)出的風(fēng)險因素;社會評價因素,包含投訴舉報、輿情評價和社會關(guān)注度等5項(xiàng)信息,反映基于社會評價信息所表現(xiàn)出的風(fēng)險因素。數(shù)據(jù)來源中50萬個企業(yè)數(shù)據(jù)項(xiàng)均為完整字段,無需清洗處理,為數(shù)據(jù)建模奠定良好基礎(chǔ)。
(三)指標(biāo)項(xiàng)編碼
將抽取的數(shù)據(jù)指標(biāo)項(xiàng)逐一編碼,其中,以“黑名單”作為輸出標(biāo)簽,將其余79個信用風(fēng)險指標(biāo)項(xiàng)作為樣本數(shù)據(jù)的特征項(xiàng),如表1所示。
(四)數(shù)據(jù)預(yù)處理
1. 數(shù)據(jù)分箱
數(shù)據(jù)分箱(Binning)作為數(shù)據(jù)預(yù)處理的一部分,也被稱為離散分箱或數(shù)據(jù)分段。數(shù)據(jù)分箱本質(zhì)就是把數(shù)據(jù)按特定的規(guī)則進(jìn)行分組,實(shí)現(xiàn)數(shù)據(jù)的離散化,增強(qiáng)數(shù)據(jù)穩(wěn)定性,減少過擬合。參照市場監(jiān)管部門《企業(yè)信用風(fēng)險分類標(biāo)準(zhǔn)》,將80個指標(biāo)項(xiàng)按照不同的數(shù)值進(jìn)行數(shù)據(jù)分箱(見表2)。
2. 不平衡數(shù)據(jù)處理
通過計(jì)算,在50萬條企業(yè)數(shù)據(jù)中,“黑名單”企業(yè)數(shù)據(jù)僅占3%。因此,該樣本數(shù)據(jù)極不平衡,在數(shù)據(jù)預(yù)處理中采用過采樣(SMOTE)方法使數(shù)據(jù)達(dá)到平衡。SMOTE是一種綜合采樣人工合成數(shù)據(jù)算法,用于解決數(shù)據(jù)類別不平衡問題,主要做法是在特征空間中,在少數(shù)類臨近點(diǎn)之間放置合成點(diǎn),不斷重復(fù)直至數(shù)據(jù)平衡。本次實(shí)驗(yàn)中,SMOTE策略設(shè)置為0.1。
(一)實(shí)驗(yàn)仿真
本實(shí)驗(yàn)采用Anaconda3中的Jupyter Notebook作為工具,通過調(diào)用Scikit-learn庫構(gòu)建算法模型。對隨機(jī)森林訓(xùn)練時,將79個指標(biāo)項(xiàng)作為特征值(data)輸入,將“黑名單”作為標(biāo)簽輸出(target),抽取樣本訓(xùn)練模型,對特征進(jìn)行節(jié)點(diǎn)分裂,采用固定隨機(jī)種子方式(參數(shù)random_state=90),生成若干棵決策樹,從而生成隨機(jī)森林。
(二)評估指標(biāo)
“黑名單”數(shù)據(jù)屬于少數(shù)類數(shù)據(jù),為檢驗(yàn)?zāi)P偷挠行约胺夯芰?,通過模型的預(yù)測精確度(Precision)、召回率(Recall)及F1值進(jìn)行分析,觀察模型效果。
其中,P代表的是正類樣本的數(shù)量,N是負(fù)類樣本的數(shù)量。因此,TP(true positive)代表正例預(yù)測正確的個數(shù),F(xiàn)P(falsepositive)代表負(fù)例預(yù)測錯誤的個數(shù),F(xiàn)N(falsenegative)代表正例預(yù)測錯誤的個數(shù)。
(三)隨機(jī)森林模型的參數(shù)優(yōu)化
采用學(xué)習(xí)曲線和網(wǎng)格搜索方式遍歷超參數(shù)組合,通過十折交叉驗(yàn)證,返回最優(yōu)參數(shù)。第一步,調(diào)試決策樹個數(shù),學(xué)習(xí)曲線圖如圖1,采用F1值為評估標(biāo)準(zhǔn),得到最佳決策樹個數(shù)為11,F(xiàn)1值為0.925。
第二步,采用網(wǎng)格搜索方式,以F1值評估為主,精確度、召回率評估為輔,按照“最大深度”、“最大特征”、“分枝后子節(jié)點(diǎn)最小樣本數(shù)”、“分枝節(jié)點(diǎn)包含最小樣本數(shù)”的順序逐步調(diào)整參數(shù)。
其中t代表給定的節(jié)點(diǎn),i代表標(biāo)簽的任意分類,c表示葉子節(jié)點(diǎn)上標(biāo)簽類別的個數(shù),c-1表示標(biāo)簽的索引,P(i|t)代表標(biāo)簽分類i在節(jié)點(diǎn)t上所占的比例。通過網(wǎng)格搜索,推薦采用基尼系數(shù),F(xiàn)1值為0.928。
(四)實(shí)驗(yàn)對比
將以上訓(xùn)練好的模型,分別與決策樹、GBDT、XGBoost算法所構(gòu)建的模型對比,通過評價指標(biāo)觀察隨機(jī)森林模型在精確度、召回率、F1值有較高優(yōu)勢。
(五)結(jié)果分析
利用已訓(xùn)練好的隨機(jī)森林,查看每個特征值的貢獻(xiàn)率,得出企業(yè)信用信息中預(yù)警特征權(quán)重及排序,圖2為排名前20名的預(yù)警特征及權(quán)重值。
從結(jié)果可以看到,“未年報、隱瞞情況、弄虛作假”、“三年內(nèi)列異次數(shù)”、“當(dāng)前是否列異”、“年報數(shù)據(jù)填報異?!薄ⅰ俺闪⒕嘟駮r長”等5項(xiàng)指標(biāo)占有較高權(quán)重,符合執(zhí)法監(jiān)管部門的經(jīng)驗(yàn)認(rèn)知。本研究在實(shí)際中的意義,一是能夠?yàn)檎O(jiān)管部門提供有用信息,構(gòu)建企業(yè)信用風(fēng)險分類監(jiān)管評分體系,改變大規(guī)模、運(yùn)動式的監(jiān)管,提升監(jiān)管的精準(zhǔn)性和科學(xué)性,同時輔助監(jiān)管部門定期發(fā)布經(jīng)營警示性信息,避免市場上出現(xiàn)大量“黑名單”企業(yè);二是輔助企業(yè)針對預(yù)警特征值,提前感知“危險”因素,調(diào)整經(jīng)營狀況,避免造成經(jīng)濟(jì)損失。
本研究是以河南省市場監(jiān)管部門截止2022年12月的企業(yè)信用信息作為源數(shù)據(jù)集,未來能否將模型擴(kuò)展至更多省份、更長時間跨度,將成為下一步研究的重點(diǎn)。
作者單位:周二磊,河南省政務(wù)大數(shù)據(jù)中心;陸進(jìn)宇,河南省平臺經(jīng)濟(jì)發(fā)展指導(dǎo)中心;馬江濤,鄭州輕工業(yè)大學(xué)計(jì)算機(jī)與通信工程學(xué)院;鄭巖,河南省政務(wù)大數(shù)據(jù)中心;馬曉威,河南省平臺經(jīng)濟(jì)發(fā)展指導(dǎo)中心。
基金項(xiàng)目:國家市場監(jiān)督管理總局科研項(xiàng)目:基于大數(shù)據(jù)技術(shù)的食品經(jīng)營主體風(fēng)險分類管理關(guān)鍵技術(shù)研究(編號:2021MK067);河南省科技攻關(guān)項(xiàng)目:食品生產(chǎn)企業(yè)信用風(fēng)險分類和智能識別方法研究(編號:222102310515);河南省市場監(jiān)督管理局科技計(jì)劃項(xiàng)目:市場監(jiān)管大數(shù)據(jù)分析應(yīng)用(編號:2021sj119)。