余 屹 艾孜爾江·艾爾斯蘭 戴兆君 廖文君 沈頌東 梁子浚?
(1.珠海科技學(xué)院金融與貿(mào)易學(xué)院,廣東 珠海 519090;2.澳門大學(xué)科技學(xué)院,澳門 519000)
中小企業(yè)在穩(wěn)定社會、提高就業(yè)率以及促進市場發(fā)展等方面具有不容小覷的作用。成長性是指企業(yè)持續(xù)發(fā)展的能力,通過對企業(yè)成長性的評價,管理者可以及時地發(fā)現(xiàn)并解決企業(yè)存在的問題,提高企業(yè)管理水平和自我修正能力。此外,評價結(jié)果的好壞將直接影響投資者做出的投資決策。所以,對企業(yè)的成長性進行準確的評價,可以達到多方共贏的效果。
現(xiàn)有學(xué)者對中小企業(yè)成長性的評價主要從企業(yè)內(nèi)外部因素進行探討,這為本文研究提供了重要的參考價值。外部因素指政治、技術(shù)和市場競爭等環(huán)境影響。Astrakhan[1]等論證了政府通過利好政策和相關(guān)法律的支持,為企業(yè)打造出極佳的外部發(fā)展環(huán)境;成璐璐[2]等通過對市場競爭環(huán)境變化的分析,得出技術(shù)創(chuàng)新對企業(yè)的發(fā)展壯大有較大的影響,使企業(yè)能夠在市場競爭中處于領(lǐng)先地位。而在內(nèi)部因素上,學(xué)者們更關(guān)注企業(yè)的財務(wù)和融資等??诅R翔[3]從中小板和創(chuàng)業(yè)板中篩選了近10年的企業(yè)作為樣本,借助SPSS軟件功能實現(xiàn)了對企業(yè)成長性的評價,通過實證分析,挖掘出企業(yè)中高管的學(xué)歷對企業(yè)成長的影響程度。
在設(shè)計評價體系時,大多數(shù)現(xiàn)有研究忽略了企業(yè)成長系統(tǒng)的復(fù)雜性,即沒有考慮到企業(yè)在成長時可能會受到的各類影響間的相互關(guān)系。基于此,本文提出全新的企業(yè)成長性模型框架,在此基礎(chǔ)上引用GBRT算法,通過實證模擬,檢驗?zāi)P偷木_性,為企業(yè)提供有價值的參考依據(jù)。
GBRT(Gradient Boost Regression Tree)算法是一種迭代的回歸樹算法,會將所有回歸樹的結(jié)論累加起來作為階段性結(jié)果。最終結(jié)果會由迭代多棵樹來共同決策,其核心是每一棵樹都是學(xué)習(xí)之前所有樹的結(jié)論和殘差。
其中,回歸樹的整理流程基本如下示:
輸入:訓(xùn)練數(shù)據(jù)集D;
輸出:回歸樹f(x);
在訓(xùn)練數(shù)據(jù)集所在的輸入空間中,遞歸地將每個區(qū)域劃分為兩個子區(qū)域并決定每個子區(qū)域上的輸出值,構(gòu)建二叉決策樹:
1.選擇最優(yōu)切分變量j與切分點s,求解
遍歷變量j,對固定的切分變量j掃切分點s,選擇使式(2)達到小值的對(j,s)。
2.用選定的對(j,s)劃分區(qū)域并決定相應(yīng)的輸出值:
3.繼續(xù)對兩個子區(qū)域調(diào)用步驟(1),(2),直至滿足停止條件,
4.將繼續(xù)輸入空間劃分為M個區(qū)域R1,R2,…,RM,生成決策樹:
當完成回歸樹流程生成對應(yīng)的決策樹后,使用loss函數(shù)的梯度近似殘差,解決殘差計算問題;然后,以合殘差的近似值利用線性搜索估計葉結(jié)點區(qū)域的值,使損失函數(shù)極小化,得到最終模型。
上述步驟即為中小企業(yè)成長性評價模型利用GBRT算法的原理,具有強大的預(yù)測能力,不僅可以處理不同類型的數(shù)據(jù),對空間外的異常點處理效果也非常顯著。
本文所研究的中小企業(yè)評價模型分三步。
首先,先將GBRT算法作為模型基礎(chǔ),其他兩大模塊在此基礎(chǔ)上建立。GBRT算法是一種集成學(xué)習(xí)技術(shù),它是多個決策樹結(jié)合形成的預(yù)測模型,具有精度高、泛化能力強、處理非線性數(shù)據(jù)等特點,非常適合成長性評價模型的使用。
表1 GBRT模塊
其次,將處理后的數(shù)據(jù)交由集成學(xué)習(xí)模塊使用stacking算法進一步處理,其基本原理是訓(xùn)練集訓(xùn)練出多個模型,將每個模型的輸出作為輸入,訓(xùn)練出一個新的模型作為整體的輸出。這一過程能提升模型的精度、穩(wěn)定性及泛化能力,讓模型的預(yù)測能力更為穩(wěn)定可靠。
最后,通過半監(jiān)督學(xué)習(xí)模塊采用Tri-training算法,充分利用未標記樣本的信息,提升模型預(yù)測能力。如協(xié)同訓(xùn)練(Co-train),是基于訓(xùn)練集產(chǎn)生兩個不同的模型(如GBRT和神經(jīng)網(wǎng)絡(luò))同時對測試集進行預(yù)測,將預(yù)測結(jié)果作為該樣本的標簽,添加進訓(xùn)練集,根據(jù)擴大后的訓(xùn)練集訓(xùn)練出新的模型,然后重復(fù)此過程。傳統(tǒng)建模方法訓(xùn)練模型不使用未標記樣本,但實際上,未標記樣本中同樣存在大量信息可用于訓(xùn)練模型,半監(jiān)督學(xué)習(xí)可以充分利用這些信息,進一步保障模型性能。
表2 半監(jiān)督學(xué)習(xí)模塊
此外,在模型構(gòu)建過程中,采用10折交叉驗證檢驗?zāi)P皖A(yù)測性能,即每次抽取十分之九的樣本進行建模,對余下的十分之一的樣本進行預(yù)測,觀察預(yù)測效果,重復(fù)十次。該驗證標準差較小,預(yù)測性能穩(wěn)定可靠。即便迭代次數(shù)較少,依舊可以實現(xiàn)GBRT算法性能迅速提升并趨于穩(wěn)定的效果。因此,該模型以GBRT算法為基礎(chǔ),在數(shù)據(jù)規(guī)模和質(zhì)量提升后,通過集成學(xué)習(xí)和半監(jiān)督學(xué)習(xí)模塊,能夠進一步提升模型的預(yù)測能力和穩(wěn)定性,具有研究意義。
1.數(shù)據(jù)來源
本文選取全國中小企業(yè)股份轉(zhuǎn)讓系統(tǒng)中的近2千家中小企業(yè)作為分析對象。結(jié)合中小企業(yè)在系統(tǒng)上所核算的財務(wù)、管理、營運等數(shù)據(jù),加之企業(yè)或相關(guān)政府部門所公示的該公司的信用風(fēng)險、知識產(chǎn)權(quán)等信息的量化數(shù)據(jù),形成導(dǎo)入模型的基本數(shù)據(jù)。
2.評價指標說明
在已有的研究基礎(chǔ)上,充分考慮全國中小企業(yè)成長特點,在滿足GBRT算法要求的前提下,分別從盈利能力、營運效率等六個維度遴選出中小企業(yè)成長過程的主要影響因素,科學(xué)合理地構(gòu)建中小企業(yè)成長性評價指標體系,如表3所示。
表3 成長性評價模型框架表
3.實證結(jié)果分析
本次實驗在獲得原始數(shù)據(jù)后對數(shù)據(jù)進行清洗,并進行重新審查和校驗,對重復(fù)信息、錯誤數(shù)據(jù)進行糾正,確保從系統(tǒng)中數(shù)據(jù)的一致性。處理共得1700條數(shù)據(jù),每條數(shù)據(jù)代表一個企業(yè),特征是評價模型框架對應(yīng)的六維和企業(yè)對應(yīng)的總分。
將處理后的數(shù)據(jù)導(dǎo)入模型,結(jié)合本文所述操作,通過GBRT等算法的遞進使用對1700家中小企業(yè)成長性進行評價。實證分析用Python作為開發(fā)語言,通過scikit-learn(機器學(xué)習(xí)和數(shù)據(jù)挖掘)、matplotlib(繪制各種靜態(tài)、動態(tài)、交互式圖表和圖形)和numpy(科學(xué)計算和數(shù)值分析)實現(xiàn)數(shù)據(jù)處理和建模。
首先,GBRT算法的估計可以優(yōu)化側(cè)重于通過生長多個決策樹來最小化損失函數(shù),即優(yōu)化包括在樹的每個節(jié)點找到最小化損失函數(shù)的最優(yōu)分割,并更新、分配給每個特征的權(quán)重。
其次,將基本數(shù)據(jù)所具有6個特征進行梯度增強模型擬合到訓(xùn)練數(shù)據(jù)的結(jié)果是近似目標變量和6個特征之間的關(guān)系的預(yù)測模型。也就是構(gòu)建多個決策樹,以目標變量的分段常數(shù)近似的方式擬合先前樹的殘差,并組合所有樹的預(yù)測,以獲得最終近似值。
最后,將10棵樹添加到具有6個特征的GBRT模型之后,目標變量的近似值將變得更加精確。集合中的每棵樹都將在目標變量的分段常數(shù)近似中擬合先前樹的殘差。最終的近似值將是所有樹所做預(yù)測的組合,這將產(chǎn)生更強大、更準確的模型。
可以看到,圖1顯示可以防止使用樹形結(jié)構(gòu)的過擬合方法來正則化結(jié)果;圖2顯示當RT為1的時存在高誤差的情況;圖3顯示通過正則化,交叉驗證等技術(shù)可以減少誤差,找到最佳數(shù)量的樹并防止過擬合,確保實證分析的有效性和準確性。
圖1 RT max depth=1和RT max depth=2訓(xùn)練結(jié)果與ground truth對比
圖2 RT depth=1時與ground truth的誤差對比
圖3 使用stacking算法和Co-training模塊后GBRT模型的誤差對比
綜上所述,可以發(fā)現(xiàn)盈利能力和營運效率對中小企業(yè)評價模型產(chǎn)生較大的影響,這說明二者在評價企業(yè)成長性時發(fā)揮了至關(guān)重要的作用。同時,信用風(fēng)險、管理能力和技術(shù)創(chuàng)新能力也在一定程度上影響評價結(jié)果;而發(fā)展?jié)摿τ谀P偷挠绊戄^小,這說明在中小企業(yè)成長過程中可以優(yōu)先解決盈利、營運和信用等對成長影響較為明顯的方面,再著重提升發(fā)展?jié)摿τ兄谄髽I(yè)更好地成長。
中小企業(yè)成長過程中的影響因素眾多,對其成長性的評價實際上是一個不夠準確的考量方式。本文借助已有的評價經(jīng)驗,研究基于GBRT算法的評價模型,該模型的優(yōu)點在于,可以在數(shù)據(jù)不足、準確度不夠的條件下,擴大信息來源,提高評價分析的可信度。因此,本文所研究的中小企業(yè)成長性評價模型具有一定的實用價值,旨在為相關(guān)人員提供有益的參考和借鑒。