徐 鯤, 李 瑩, 鮑新中
(北京聯(lián)合大學(xué) 管理學(xué)院,北京 100101)
目前以電商小微企業(yè)為研究對象的信用風(fēng)險預(yù)警指標(biāo)體系初具雛形,但并未形成定論。學(xué)者們進一步強調(diào)了定性指標(biāo)對小企業(yè)信用風(fēng)險評估的重要性[1,2],這意味著構(gòu)建電商小微企業(yè)信用風(fēng)險的指標(biāo)體系必須契合電商小微企業(yè)特性。隨著云計算、大數(shù)據(jù)在信息采集、智能決策等方面為互聯(lián)網(wǎng)融資賦能,信用風(fēng)險評估視角得以擴展:通過挖掘云計算庫中儲存的多層次、多維度、時效性強的結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)[3],以多維度動態(tài)數(shù)據(jù)分析小微企業(yè)的經(jīng)營流水、營收趨勢、交易網(wǎng)絡(luò)[4]、客戶交易行為[5]等。在形式多元化的數(shù)據(jù)中,學(xué)者們逐漸聚焦蘊含豐富信息的文本,李成剛等[6]指出上市公司信息披露文本的可讀性、相似度、情感語調(diào)能深度反應(yīng)公司信用風(fēng)險。而對于電商小微企業(yè)而言,最具特點的非結(jié)構(gòu)化數(shù)據(jù)莫過于平臺上公開的消費者在線評論文本,在線評論文本中所隱含的消費者主觀情緒會潛移默化的影響后來消費者對產(chǎn)品的態(tài)度、對企業(yè)的偏好[7],進而影響其風(fēng)險感知程度[8],這會對電商小微企業(yè)的信用產(chǎn)生極大的影響。因此深度挖掘在線評論數(shù)據(jù)可以有效補充電商小微企業(yè)信用相關(guān)信息,提升信用風(fēng)險預(yù)警的效果。
本文收集生鮮行業(yè)電商小微企業(yè)在線評論文本數(shù)據(jù),運用LDA法提取在線評論的文本特征,采用情感分析量化電商小微企業(yè)信用風(fēng)險指標(biāo),并結(jié)合電商小微企業(yè)相關(guān)的資質(zhì)指標(biāo)、經(jīng)營指標(biāo)構(gòu)建契合電商小微企業(yè)的信用風(fēng)險預(yù)警指標(biāo)體系,以此為基礎(chǔ)對生鮮行業(yè)電商小微企業(yè)信用風(fēng)險進行預(yù)警分析??紤]到預(yù)警模型的優(yōu)化,本文將“兩步法”優(yōu)化網(wǎng)格搜索算法與隨機森林算法結(jié)合搜尋最優(yōu)參數(shù)點,在保證效率的同時構(gòu)建合理、精準的隨機森林模型。
本文結(jié)合LI和QIAO[9]、CAI等[10]、王冬一等[11]的相關(guān)研究,并考慮電商小微企業(yè)本身特質(zhì),選擇最為權(quán)威的5C要素理論作為基礎(chǔ),搭建電商小微企業(yè)信用風(fēng)險評級指標(biāo)體系的框架。研究對象為淘寶平臺上C2C生鮮行業(yè)小微企業(yè),研究樣本來源于淘寶電商平臺,使用Python語言編程采集相關(guān)數(shù)據(jù),于2021年7月31日共爬取1000條店鋪數(shù)據(jù),經(jīng)篩選后獲得822家樣本數(shù)據(jù)。收集數(shù)據(jù)后對在線評論文本進行預(yù)處理,刪除系統(tǒng)自動評論、去除重復(fù)評論、人工剔除無關(guān)評論、篩去過短無實際分析意義的評論后,共篩選出淘寶生鮮行業(yè)店鋪822家,獲取在線評論33756條。
本文的指標(biāo)體系分為客觀指標(biāo)和主觀指標(biāo)。指標(biāo)體系形成的步驟如下:
Step1通過查閱文獻、歸納總結(jié),初步獲取指標(biāo)體系中的各指標(biāo)。
Step2利用Python編碼構(gòu)建LDA主題模型,輸出主題、特征詞、權(quán)重,對LDA主題模型提取的特征詞進行分析、歸納、凝練、總結(jié)后,得到4個主觀指標(biāo),分別為產(chǎn)品品質(zhì)評論情感(A8)、物流包裝評價情感(B11)、性價比評價情感(B12)、店鋪服務(wù)評價情感(C5)。
Step3采用構(gòu)建情感詞典的方式對指標(biāo)體系中的主觀指標(biāo)進行情感量化。
Step4調(diào)用Python中的sklearn包實現(xiàn)隨機森林輸出特征重要程度,并據(jù)此對前文獲取的25個指標(biāo)進行篩選剔除,形成最終的指標(biāo)體系,篩選后指標(biāo)體系共有21個二級指標(biāo)。
基于主客觀維度的電商小微企業(yè)信用風(fēng)險預(yù)警指標(biāo)體系見表1。
表1 基于主客觀維度的電商小微企業(yè)信用風(fēng)險預(yù)警指標(biāo)體系
將電商小微企業(yè)信用風(fēng)險劃分為無風(fēng)險、輕度風(fēng)險、中度風(fēng)險、重度風(fēng)險4個類別,首先計算RWIt值,公式為:
(1)
其次以正態(tài)分布的原理在95%的置信概率下設(shè)定風(fēng)險類別的閾值,作為劃分電商小微企業(yè)信用風(fēng)險的分界線,據(jù)此設(shè)定界定電商小微企業(yè)信用風(fēng)險類別閾值(ηi),設(shè)計四段式電商小微企業(yè)信用風(fēng)險程度判定區(qū)間。電商小微企業(yè)信用風(fēng)險綜合預(yù)警指標(biāo)閾值具體計算公式如下所示,式(2)至式(4)分別表示三個閾值η0,η1,η2。
(2)
(3)
η1=1/2[η2+1/2(η0+η2)]
(4)
若RWIt值小于閾值η2,則說明該企業(yè)處于重度信用風(fēng)險階段;若RWIt值大于η2小于η1,則定義該企業(yè)處于中度信用風(fēng)險階段;若RWIt值大于η1小于η0,則定義該企業(yè)處于輕度信用風(fēng)險階段;若RWIt值大于η0,則定義該企業(yè)的信用非常好,無信用風(fēng)險。
隨機森林預(yù)警模型的設(shè)計與優(yōu)化步驟如下:
Step1SMOTE算法處理不平衡數(shù)據(jù)。SMOTE算法的實現(xiàn)公式見式(5)。
xnew=x0+random( )(x0i-x0)
(5)
其中random( )∈[0,1],代表[0,1]內(nèi)的一個隨機數(shù),xnew代表新合成的樣本,x0則是代表少數(shù)類中的原始樣本,x0i代表每次隨機選擇的x0的第i個最近臨近樣本。
Step2構(gòu)建標(biāo)準RF模型。設(shè)由n棵樹h1(x),h2(x),…,hn(x)構(gòu)成一片隨機森林,設(shè)訓(xùn)練樣本集合為D(X,Y),其中X為樣本所具有的特征屬性,Y為每個樣本對應(yīng)的類別屬性。式(6)表示模型正確分類票數(shù)超過不正確分類最大票數(shù)的程度,該值越大,表明模型的分類效果越好。
(6)
泛化誤差的表達式如式(7)所示,其中Px,y表示概率值,PX,Y(mg(X,Y)<0)表示間隔函數(shù)小于0的概率,即預(yù)測誤判概率,泛化誤差越低,模型的分類性能越好。
PE*=PX,Y(mg(X,Y)<0)
(7)
隨機森林具有收斂性,假設(shè)θk,存在隨機森林hk(X)=hk(X,θk),當(dāng)森林中的決策樹增加到一定程度后,式(7)將服從強大數(shù)定律,序列θk將收斂至式(8),該式說明RF不會因決策樹變多而出現(xiàn)過擬合,存在一個有限的泛化誤差值。
(8)
(9)
Step3運用“兩步法”網(wǎng)格搜索算法優(yōu)化。第一步在較大范圍內(nèi)劃分大網(wǎng)格,通過粗搜索的思想篩選出最優(yōu)參數(shù)可能的范圍;第二步在最優(yōu)范圍附近以小步長進行精細搜索,劃分出更為密集的網(wǎng)絡(luò),在該網(wǎng)絡(luò)上選擇出最優(yōu)點。
Step4使用最優(yōu)參數(shù)構(gòu)建RF模型。
本文的實證步驟如下:(1)使用SMOTE和ADASYN兩種隨機過采樣算法進行平衡處理,對比分析處理后構(gòu)建的標(biāo)準隨機森林模型性能,驗證使用SMOTE算法的合理性;(2)對比Logistic模型、CART模型和標(biāo)準隨機森林模型在平衡與非平衡數(shù)據(jù)集上性能,驗證使用平衡數(shù)據(jù)集的必要性;(3)基于平衡數(shù)據(jù)集進行模型對照試驗,驗證隨機森林模型的優(yōu)越性;(4)構(gòu)建“兩步法”網(wǎng)絡(luò)搜索算法優(yōu)化隨機森林組合預(yù)測模型,對標(biāo)準隨機森林模型進行參數(shù)優(yōu)化;(5)隨機選取時點和樣本進行對比分析,驗證預(yù)警模型的可推廣性和說服力。本部分模型驗證時使用最常用的準確率(ACC)、精確率(P)、召回率(R)和F值。
分別采用SMOTE和ADASYN進行處理,生成平衡數(shù)據(jù)集,并將得到的平衡數(shù)據(jù)集按照2:8劃分測試集與訓(xùn)練集,對比構(gòu)建的標(biāo)準隨機森林模型的性能。兩種不平衡數(shù)據(jù)處理方法處理后的數(shù)據(jù)情況見表2,標(biāo)準隨機森林模型的性能對比見表3。
表2 SMOTE和ADASYN平衡處理前后的數(shù)據(jù)情況
表3 基于SMOTE和ADASYN平衡處理的標(biāo)準RF模型
表2的結(jié)果顯示,平衡處理前,無風(fēng)險、輕度風(fēng)險、中度風(fēng)險和重度風(fēng)險樣本分別占總樣本的1.946%,85.888%,11.192%和0.973%,分布十分不均衡。處理后的平衡數(shù)據(jù)集中,四類風(fēng)險樣本各占25%,樣本達到平衡。表3的結(jié)果顯示,基于SMOTE平衡處理后形成的平衡數(shù)據(jù)集構(gòu)建的標(biāo)準隨機森林模型,輸出的測試集準確率(ACC)、精確率(P)和F值為97.30%,召回率(R)為97.40%。與ADASYN平衡處理后的模型相比性能更高,故本文使用SMOTE算法處理數(shù)據(jù)集,進行后續(xù)的模型構(gòu)建是合理可行的。
分別將邏輯回歸(Logistic)、決策樹(CART)、隨機森林(RF)三種預(yù)警模型在平衡數(shù)據(jù)集和非平衡數(shù)據(jù)集上輸出的評估值進行對比,詳見表4。
表4 基于非平衡與平衡數(shù)據(jù)集的模型對比
結(jié)果顯示,平衡數(shù)據(jù)集上Logistic模型正確預(yù)測電商小微企業(yè)風(fēng)險類別的概率提高了0.87%。而精確率(P)和召回率(R)則出現(xiàn)了極大幅度的變化,探究這種現(xiàn)象產(chǎn)生的根源應(yīng)從混淆矩陣入手。式(10)和式(11)分別代表非平衡數(shù)據(jù)集上和平衡數(shù)據(jù)集上的混淆矩陣,在式(10)的混淆矩陣中,實際為重度風(fēng)險樣本僅有一個,這一樣本一旦被錯分,會極大幅度拉低整體預(yù)測精度,也間接使非平衡數(shù)據(jù)集輸出的精確度和召回率受到較大影響;在平衡數(shù)據(jù)集輸出的混淆矩陣式(11)中,各樣本量較均衡,不會出現(xiàn)較為極端的情況,更能如實反映模型真實狀態(tài)。這也印證了處理不平衡數(shù)據(jù)集的必要性。
(10)
(11)
對于CART模型,相較于非平衡數(shù)據(jù)集,平衡數(shù)據(jù)集上四個指標(biāo)均達到了百分之九十以上,且優(yōu)化后的指標(biāo)整體高于Logistic模型輸出的指標(biāo),說明決策樹易產(chǎn)生局部最優(yōu)解的特性導(dǎo)致其預(yù)測結(jié)果并不穩(wěn)定,受到不平衡數(shù)據(jù)的影響更大。
對于RF模型,在非平衡數(shù)據(jù)集中,RF模型的整體準確率(ACC)和精確率(P)明顯小于在非平衡樣本集中的Logistic模型和CART模型,從混淆矩陣入手尋找產(chǎn)生這種極度差異的原因,在RF模型輸出的混淆矩陣中(見式(12)),重度風(fēng)險類樣本僅有一個被劃分至測試集,且該樣本被誤判,這拉低了RF模型整體的精確率(P),致使其表現(xiàn)效果不佳,同樣也降低了作為精確率和召回率調(diào)和均值F1的輸出值。
(12)
通過上述對比進一步分析可知,無論是在單個模型還是在集成模型上,數(shù)據(jù)平衡與否均會對模型精度產(chǎn)生較大的影響。通過CART模型與RF模型的對比更能說明集成模型在抗干擾性稍優(yōu)于單個模型,但與之對應(yīng)的是二者所受數(shù)據(jù)集不平衡影響均較大,這也印證了如果不考慮樣本的平衡性可能會產(chǎn)生較為嚴重的誤判。
在平衡數(shù)據(jù)集上驗證不同預(yù)警模型,首先通過十折交叉驗證,可以明顯看出RF遠優(yōu)于Logistic和CART。
在平衡數(shù)據(jù)集上,輸出Logistic、CART、標(biāo)準RF、經(jīng)參數(shù)調(diào)優(yōu)的隨機森林四個模型的預(yù)測準確率如表5所示。結(jié)果顯示經(jīng)參數(shù)調(diào)優(yōu)的隨機森林模型準確率達到了98%以上。因此調(diào)參后的隨機森林模型可以更為準確的幫助貸款方辨別電商小微企業(yè)所處的信用風(fēng)險階段,從而輔助其對是否放貸做出決策。
除此之外,平衡數(shù)據(jù)集上Logistic模型的召回率為92.67%,CART模型的召回率為94.07%,隨機森林模型的召回率為97.9%,調(diào)參后的隨機森林模型召回率為98.417%,說明在調(diào)參后的隨機森林模型中,每類預(yù)測結(jié)果的樣本中真正為該類的樣本占全部樣本的比例較高。也說明了本文的模型具有更高的預(yù)測精度。對比標(biāo)準隨機森林模型與調(diào)參的隨機森林模型輸出的指標(biāo)也以看出,調(diào)參后隨機森林模型的各個評價指標(biāo)均優(yōu)于未調(diào)參的隨機森林模型。
表5 Logistic、CART、標(biāo)準RF、經(jīng)參數(shù)調(diào)優(yōu)的隨機森林四個模型的預(yù)測準確率對比
綜合評價指標(biāo)結(jié)果、進行模型對比后發(fā)現(xiàn),調(diào)參后的隨機森林算法各方面的預(yù)測精度均高于其余對照組,即該模型對電商小微企業(yè)信用風(fēng)險的預(yù)測最為準確,最能準確判斷電商小微企業(yè)信用風(fēng)險所處的階段,能更好的協(xié)助電商小微企業(yè)辨別自身信用風(fēng)險,為貸款機構(gòu)是否融資提供依據(jù)。
進行參數(shù)優(yōu)化的過程中主要關(guān)注tree與features兩個參數(shù)??紤]到該參數(shù)的特性,首先,繪制tree的成長曲線尋找森林中決策子樹數(shù)量的波動閾值,通過tree成長曲線的初步判斷,當(dāng)森林中決策子樹的棵數(shù)在(50,200)范圍內(nèi)時,隨機森林模型的精度平穩(wěn)波動,即存在一個最優(yōu)值確保模型的精度最高,因此可先將該參數(shù)的值粗略劃分在(50,210)之間。
其次,運用“兩步法”網(wǎng)格搜索算法尋找構(gòu)建森林的最優(yōu)子樹數(shù)量。設(shè)定森林中決策子樹的數(shù)量k取值為(50,210),步長設(shè)定為20,使得參數(shù)在全局尋優(yōu)的過程中按照大網(wǎng)格進行搜索,輸出結(jié)果當(dāng)tree參數(shù)為190時,隨機森林模型的預(yù)測準確率達到97.43%;考慮到大步長設(shè)定為20,沒有考慮到190前后各20的網(wǎng)格,因此,進一步細化網(wǎng)格步長,設(shè)定k的取值為(170,210),步長為10,輸出當(dāng)tree參數(shù)為200時,隨機森林在測試集上的預(yù)測準確率達到97.47%;再次采用“兩步法”的思想,進一步縮小參數(shù)最優(yōu)值可能的范圍,設(shè)定k的取值為(190,210),步長為1,最終輸出tree參數(shù)為206時,隨機森林在測試集上的預(yù)測準確率達到最優(yōu)值97.52%,為進一步驗證在(190,210)區(qū)間內(nèi),tree參數(shù)為206時模型最優(yōu),繪制隨機森林模型泛化誤差與森林中決策子樹個數(shù)的關(guān)系圖(詳見圖1),可以看出tree在206,207之間某一點,模型的泛化誤差最小,因此本文經(jīng)過優(yōu)化后取tree的參數(shù)為206,基本上使得隨機森林模型精度最大化。
圖1 泛化誤差與決策子樹個數(shù)關(guān)系
由于參數(shù)features取值范圍固定,與tree參數(shù)有所不同,因此在此對“兩步法”思路進行調(diào)整,先輸出參數(shù)features不同取值所對應(yīng)的模型泛化誤差,從整體上觀察隨機森林模型泛化誤差與參數(shù)features的關(guān)系(輸出的關(guān)系見圖2),可以看出features參數(shù)在(5,8)區(qū)間內(nèi)存在泛化誤差最小值,但是難以直觀確定何處最優(yōu),因此運用“兩步法”優(yōu)化的思想,首先設(shè)定features的取值為(5,8),設(shè)置步長為1,進行全局搜索,最終得到features最優(yōu)值為6。
圖2 泛化誤差與隨機選擇特征變量個數(shù)關(guān)系
將tree=206,features=6帶入原始標(biāo)準隨機森林模型中,得到模型精度為98.41%,較之原始隨機森林模型精度97.88%提升了0.53%的精度,較之僅優(yōu)化tree參數(shù)的隨機森林模型提升了0.18%的精度,說明該參數(shù)的優(yōu)化使得模型泛化錯誤向最低點移動,優(yōu)化有效。故最終確定建立的隨機森林模型中tree=206,features=6。
為驗證本文構(gòu)建的電商小微企業(yè)信用風(fēng)險預(yù)警模型的可推廣性和說服力,本文隨機選取2021年7月31日、2021年8月15日、2021年8月30日和2021年9月15日四個時點,隨機抽取樣本電商小微企業(yè)中的40%進行驗證。
結(jié)果顯示,在隨機抽取的樣本中,不同時點采用本文構(gòu)建的信用風(fēng)險預(yù)警模型預(yù)測的結(jié)果均與店鋪所屬的信用風(fēng)險預(yù)警閾值一致或相近,故從整體來看,本文構(gòu)建的預(yù)警模型是具有可推廣性和說服力的。以店鋪1和店鋪10為例。店鋪1的預(yù)警閾值是1,表明店鋪的起始風(fēng)險程度是輕風(fēng)險,隨機選取的四個時點的風(fēng)險預(yù)警結(jié)果顯示,店鋪1也屬于輕風(fēng)險范圍,說明模型預(yù)警結(jié)果準確;店鋪10的起始風(fēng)險屬于無風(fēng)險類型,而隨機選取的四個時點的風(fēng)險預(yù)警結(jié)果中,2021年7月31日依舊為無風(fēng)險,其余三個時點均為輕風(fēng)險,表明店鋪10的風(fēng)險水平發(fā)生了輕微波動,但波動幅度不大,預(yù)測結(jié)果與預(yù)警閾值的這種差異可能與電商小微企業(yè)本身經(jīng)營不穩(wěn)定、波動性大有關(guān)。
文章考慮多場景電商小微企業(yè)信用風(fēng)險影響因素,從主觀維度和客觀維度兩方面構(gòu)建符合電商小微企業(yè)的信用風(fēng)險預(yù)警指標(biāo)體系;劃分四級風(fēng)險類別閾值,并通過優(yōu)化參數(shù)構(gòu)建隨機森林模型;通過真實樣本數(shù)據(jù)驗證預(yù)警模型的可行性,得到結(jié)論如下:
(1)構(gòu)建了考慮文本情感特征因素的電商小微企業(yè)信用風(fēng)險預(yù)警指標(biāo)體系,并通過實證研究檢驗了指標(biāo)體系的有效性。
(2)使用SMOTE算法對不平衡數(shù)據(jù)集進行處理,并通過實證研究發(fā)現(xiàn)平衡數(shù)據(jù)集無論對單一模型還是集成預(yù)警模型均十分重要。
(3)構(gòu)建了“兩步法”網(wǎng)絡(luò)搜索算法優(yōu)化隨機森林組合預(yù)測模型。并結(jié)合實證分析驗證了本文所構(gòu)建的電商小微企業(yè)信用風(fēng)險預(yù)警模型的適用性與精準性。本研究既為大數(shù)據(jù)背景下運用非結(jié)構(gòu)化數(shù)據(jù)探究信用風(fēng)險預(yù)警模型、科學(xué)預(yù)測電商小微企業(yè)信用風(fēng)險提供新思路,也有助于推動電商小微企業(yè)信用風(fēng)險預(yù)警與時俱進。