一、前言
近年來,隨著可持續(xù)投資的興起,企業(yè)的環(huán)境(E)社會(S)和公司治理(G)表現(xiàn)愈發(fā)受到關(guān)注[。ESG分?jǐn)?shù)作為衡量公司在這些領(lǐng)域表現(xiàn)的重要工具,已成為全球投資決策中的關(guān)鍵參考指標(biāo)[2]。尤其是BloombergESG分?jǐn)?shù),其廣泛應(yīng)用于投資組合管理、風(fēng)險(xiǎn)評估以及政策制定。在最近熱點(diǎn)漂綠主題中,Bloomberg更是被當(dāng)做計(jì)算漂綠的一大重要因素,李強(qiáng)等人在計(jì)算漂綠變量中就把BloombergESG分?jǐn)?shù)當(dāng)做上市公司ESG披露情況的一大重要衡量指標(biāo)。大量的漂綠研究依然都采用BloombergESG當(dāng)中ESG披露分?jǐn)?shù)。然而,現(xiàn)有的ESG評分體系通常依賴于自愿披露的信息,導(dǎo)致數(shù)據(jù)的缺失和不對稱,影響了評分的準(zhǔn)確性和可靠性[4]。
目前,許多研究集中在如何改進(jìn)ESG評估模型,尤其是在數(shù)據(jù)不完整和質(zhì)量差的情況下。一些傳統(tǒng)的評估方法(如專家評分和基于規(guī)則的模型),雖然提供了某種程度的評估,但仍然存在顯著的主觀性和局限性。隨著機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,越來越多的學(xué)者和機(jī)構(gòu)開始探索通過自動化方法來增強(qiáng)ESG評估的準(zhǔn)確性和客觀性。尤其是基于財(cái)務(wù)數(shù)據(jù)、行業(yè)特征以及歷史ESG披露信息的預(yù)測模型,逐漸成為一個(gè)熱門研究領(lǐng)域。
盡管機(jī)器學(xué)習(xí)技術(shù)在許多領(lǐng)域取得了顯著成果,應(yīng)用于BloombergESG分?jǐn)?shù)的預(yù)測仍存在一定挑戰(zhàn)。首先,BloombergESG評分涉及的變量較多且具有較強(qiáng)的非線性特征,傳統(tǒng)的統(tǒng)計(jì)方法往往難以捕捉其復(fù)雜性。其次,ESG數(shù)據(jù)存在顯著的缺失問題,給模型訓(xùn)練帶來了困難。因此,如何有效利用機(jī)器學(xué)習(xí)算法對不完整、非線性的ESG數(shù)據(jù)進(jìn)行建模,并提高預(yù)測精度,仍然是一個(gè)亟待解決的問題。
本研究旨在通過機(jī)器學(xué)習(xí)技術(shù),構(gòu)建一個(gè)基于企業(yè)財(cái)務(wù)數(shù)據(jù)、行業(yè)特征及歷史ESG 披露信息的BloombergESG分?jǐn)?shù)預(yù)測模型。比較了多種機(jī)器學(xué)習(xí)算法(如支持向量機(jī)、隨機(jī)森林等)在ESG分?jǐn)?shù)預(yù)測中的表現(xiàn),并評估其在數(shù)據(jù)缺失和特征選擇方面的魯棒性。研究的主要貢獻(xiàn)在于:一方面,提出了一種有效的預(yù)測方法,能夠在數(shù)據(jù)不完整的情況下實(shí)現(xiàn)較高的預(yù)測精度;另一方面,研究為如何利用數(shù)據(jù)驅(qū)動的方式改善現(xiàn)有ESG評估模型提供了新的思路,具有較強(qiáng)的理論和實(shí)踐意義。
二、數(shù)據(jù)來源和研究設(shè)計(jì)
(一)數(shù)據(jù)來源
利用了Bloomberg的環(huán)境(E)、社會(S)、治理(G)評分,覆蓋A股上市公司,樣本期為2009年至2022年,因?yàn)锽loomberg的E、S、G數(shù)據(jù)僅從2009年開始提供。初始樣本經(jīng)過以下篩選標(biāo)準(zhǔn):排除金融類上市公司并剔除缺失數(shù)據(jù)的樣本。E、S、G數(shù)據(jù)來源于Bloomberg數(shù)據(jù)庫。用于機(jī)器學(xué)習(xí)模型預(yù)測的財(cái)務(wù)指標(biāo)、管理指標(biāo)和宏觀層面指標(biāo)均來源于CSMAR數(shù)據(jù)庫,而宏觀層面指標(biāo)來自CEInet統(tǒng)計(jì)數(shù)據(jù)庫。
(二)研究設(shè)計(jì)
1.模型選擇
為了使用機(jī)器學(xué)習(xí)預(yù)測指標(biāo)并檢測ESG綠色洗滌,采用了以下模型:
支持向量回歸(SVR):SVR是支持向量機(jī)(SVM)算法的擴(kuò)展,用于回歸分析。與SVM在分類任務(wù)中的作用類似,SVR的目標(biāo)是找到一個(gè)最佳超平面,使其盡可能靠近所有數(shù)據(jù)點(diǎn),盡可能多的數(shù)據(jù)點(diǎn)位于一定的誤差范圍內(nèi)[5]。
隨機(jī)森林(RF):隨機(jī)森林是一種集成學(xué)習(xí)方法,通過在訓(xùn)練過程中構(gòu)建多個(gè)決策樹,并輸出各個(gè)樹的類別模式(分類)或平均預(yù)測值(回歸)。它通過減少過擬合并增強(qiáng)魯棒性來提高單個(gè)樹的性能。隨機(jī)森林能夠輕松處理高維數(shù)據(jù)集,具有較高的可擴(kuò)展性。
梯度提升決策樹(GBDT):GBDT是另一種集成學(xué)習(xí)方法,它依次構(gòu)建一系列決策樹,每棵樹都學(xué)習(xí)糾正前一棵樹的錯(cuò)誤。它通過梯度下降的方式優(yōu)化損失函數(shù),每棵新樹擬合損失函數(shù)的負(fù)梯度。GBDT以其高預(yù)測準(zhǔn)確性和良好的可解釋性而著稱,能夠處理回歸和分類問題,并廣泛應(yīng)用于金融、醫(yī)療和營銷等領(lǐng)域。
長短期記憶(LSTM):LSTM是一種遞歸神經(jīng)網(wǎng)絡(luò)(RNN)架構(gòu),旨在建模順序數(shù)據(jù),并解決傳統(tǒng)RNN中的梯度消失問題。LSTM網(wǎng)絡(luò)能夠?qū)W習(xí)數(shù)據(jù)中的長期依賴關(guān)系,并廣泛用于時(shí)間序列預(yù)測、自然語言處理和語音識別等任務(wù)。LSTM包含記憶單元和門控機(jī)制,能夠選擇性地保留和遺忘信息[8]。
2.評價(jià)指標(biāo)選擇
對于E、S、G單項(xiàng)評分的回歸預(yù)測,選擇了以下四種評估指標(biāo)來衡量回歸預(yù)測的性能:MAE、RMSE、MAPE和 R2 。
平均絕對誤差(MAE)是用于衡量預(yù)測模型誤差的指標(biāo)。它表示預(yù)測值與實(shí)際值之間的平均絕對差異,其計(jì)算公式見式(1)。
其中, Yi 表示第i個(gè)觀測值的實(shí)際值, 表示第i個(gè)觀測值的預(yù)測值,n為觀測總數(shù)。MAE直觀地反映了預(yù)測誤差的平均水平,不考慮誤差的符號。
均方根誤差(RMSE)是評估預(yù)測模型準(zhǔn)確性的常用指標(biāo)。它表示預(yù)測值與實(shí)際值之間的平均平方差的平方根,計(jì)算公式見式(2)。
其中,RMSE通常與MAPE結(jié)合使用,以便更深入地了解預(yù)測模型的相對誤差大小。相比MAE,RMSE對較大誤差更敏感,因此適用于關(guān)注大誤差情況的應(yīng)用場景。
平均絕對百分比誤差(MAPE)是一種常用的指標(biāo),以百分比形式衡量預(yù)測模型的準(zhǔn)確性。它表示預(yù)測值與實(shí)際值之間的平均絕對百分比差異,計(jì)算公式見式(3)。
其中,MAPE適用于衡量誤差相對于實(shí)際值的影響,能夠直觀反映預(yù)測誤差的相對大小。然而,當(dāng)實(shí)際值較小時(shí),MAPE可能會被放大,因此需謹(jǐn)慎使用。
決定系數(shù)( ?R2 )是一種統(tǒng)計(jì)指標(biāo),用于衡量回歸模型的擬合優(yōu)度。 R2 反映了回歸模型對因變量變異的解釋能力,其計(jì)算公式見式(4):
R2 的值范圍在0到1之間, R2=1 表示模型完美擬合數(shù)據(jù),能夠完全解釋因變量的變異。 接近0則表明模型無法有效解釋因變量的變異。
三、模型構(gòu)建及實(shí)驗(yàn)分析
(一)模型構(gòu)建
收集了公司在E、S、G三大領(lǐng)域的評分、財(cái)務(wù)指標(biāo)、管理指標(biāo)和宏觀經(jīng)濟(jì)指標(biāo),涵蓋歷史數(shù)據(jù)和最新年度數(shù)據(jù),以便訓(xùn)練和測試模型。采用多種機(jī)器學(xué)習(xí)模型預(yù)測公司在第t年的E、S、G評分,具體流程如下:
首先,進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)清理、特征提取、特征選擇和特征標(biāo)準(zhǔn)化。處理了缺失值和異常值,確保數(shù)據(jù)完整性,并通過滯后處理生成時(shí)間序列特征。利用隨機(jī)森林算法選出最重要的20個(gè)特征,并進(jìn)行標(biāo)準(zhǔn)化,以減少特征間的影響。訓(xùn)練集選取2010一2021年數(shù)據(jù),測試集為2022年數(shù)據(jù),以提升模型的泛化能力。
表1預(yù)測E、S、G得分的回歸評估指標(biāo)
接著,選擇SVR、RF、GBDT和LSTM等模型進(jìn)行訓(xùn)練與測試。采用10折交叉驗(yàn)證,確保模型穩(wěn)定性,并使用隨機(jī)搜索進(jìn)行超參數(shù)調(diào)優(yōu),最小化RMSE。整個(gè)優(yōu)化過程迭代至少100次,最終選擇表現(xiàn)最優(yōu)的模型進(jìn)行測試,以保證預(yù)測準(zhǔn)確性和穩(wěn)定性。最終,最佳模型的預(yù)測結(jié)果見表1。
(二)實(shí)驗(yàn)分析
從表1中可以看出,SVR表現(xiàn)最佳,LSTM表現(xiàn)較差。在S領(lǐng)域,所有模型的評估結(jié)果差異較小,GBTD的表現(xiàn)較好。在G領(lǐng)域,RF表現(xiàn)最佳,SVR和LSTM表現(xiàn)最差。進(jìn)一步闡明回歸預(yù)測實(shí)驗(yàn)的結(jié)果,使用條形圖比較了E、S和G領(lǐng)域預(yù)測分?jǐn)?shù)的表現(xiàn)。結(jié)果如圖1所示。這張散點(diǎn)圖展示了實(shí)際值與預(yù)測值之間的關(guān)系。圖中的點(diǎn)代表各個(gè)數(shù)據(jù)點(diǎn),圖中的虛線代表完美預(yù)測線,如果預(yù)測完全準(zhǔn)確,所有點(diǎn)將會落在這條線上。從圖中可以看出,一些點(diǎn)比較接近這條完美預(yù)測線,表明在這些情況下預(yù)測相對準(zhǔn)確。大多數(shù)數(shù)據(jù)點(diǎn)都圍繞在這條線附近,表明在許多情況下預(yù)測結(jié)果與實(shí)際值相近,預(yù)測模型的表現(xiàn)較好。
(三)研究結(jié)論
本研究通過使用機(jī)器學(xué)習(xí)模型預(yù)測上市公司ESG得分,并且評估了多種模型在不同領(lǐng)域(E、S、G)的預(yù)測表現(xiàn)。這些結(jié)果為ESG評分的準(zhǔn)確預(yù)測提供了機(jī)器學(xué)習(xí)模型的選擇參考,能夠?yàn)橥顿Y者、企業(yè)及監(jiān)管機(jī)構(gòu)提供數(shù)據(jù)驅(qū)動的決策支持,進(jìn)一步推動可持續(xù)投資的發(fā)展。
四、結(jié)語
本研究通過采用機(jī)器學(xué)習(xí)技術(shù),探索了基于企業(yè)財(cái)務(wù)數(shù)據(jù)、行業(yè)特征及歷史ESG披露信息來預(yù)測上市公司ESG得分的方法。實(shí)驗(yàn)結(jié)果表明,機(jī)器學(xué)習(xí)模型能夠有效提高ESG評分的預(yù)測精度,尤其在數(shù)據(jù)缺失和非線性特征的情況下表現(xiàn)出較強(qiáng)的魯棒性。通過對不同模型的比較,為不同領(lǐng)域(E、S、G)選擇了最優(yōu)的預(yù)測模型,為未來的ESG評估提供了新的思路和實(shí)踐經(jīng)驗(yàn)。
實(shí)際與預(yù)測E得分
實(shí)際E得分
實(shí)際S得分
圖1預(yù)測散點(diǎn)圖
隨著全球?qū)沙掷m(xù)投資和企業(yè)社會責(zé)任的關(guān)注不斷增加,如何精準(zhǔn)評估企業(yè)在環(huán)境、社會和治理方面的表現(xiàn)變得愈加重要。本文的研究為投資者、監(jiān)管機(jī)構(gòu)以及企業(yè)提供了一個(gè)更加客觀、透明的ESG評估工具,并推動了基于數(shù)據(jù)驅(qū)動的決策方式的發(fā)展。盡管本研究在模型選擇和數(shù)據(jù)預(yù)處理方面取得了一定進(jìn)展,未來的研究還可以進(jìn)一步優(yōu)化模型的性能,并探索更多影響ESG得分的潛在因素。
總之,隨著機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,其在ESG領(lǐng)域的應(yīng)用前景廣闊,能夠?yàn)榭沙掷m(xù)投資決策提供更加精準(zhǔn)和有效的支持,助力全球綠色經(jīng)濟(jì)的轉(zhuǎn)型與發(fā)展。
參考文獻(xiàn)
[1]喬璐,王佳妮,劉思義,等.環(huán)境、社會和治理(ESG)鑒證:現(xiàn)狀分析、研究綜述與未來展望[J].中國注冊會計(jì)師,2025(01):50-56.
[2]劉恒冉.有效的ESG信息披露賦能企業(yè)高質(zhì)量可持續(xù)發(fā)展[J].上海節(jié)能,2025(03):394-397.
[3]李強(qiáng),宋嘉瑋.業(yè)績期望落差與企業(yè)“漂綠”行為[J].南京審計(jì)大學(xué)學(xué)報(bào),2022,19(03):51-61.
[4]劉華蓉.上市公司信息披露制度問題研究[J].知識經(jīng)濟(jì),2016(22):6-7.
[5]許家翔,陳瑞,曹軍.基于支持向量回歸的露點(diǎn)間接蒸發(fā)冷卻模型應(yīng)用研究[J].化學(xué)工程,2025,53(03):77-82.
[6]楊虎,鄒杰,楊金明,等.基于優(yōu)化隨機(jī)森林算法的10kV斷路器運(yùn)行狀態(tài)診斷[J].大眾標(biāo)準(zhǔn)化,2025(06):36-38.
[7]邢昭,孟小軍,袁晶晶,等.信息量支持下SVM-GBDT模型的滑坡危險(xiǎn)性評價(jià)[J].科學(xué)技術(shù)與工程,2025.25(07):2712-2720.
[8]付安棋,李劍.基于行為聚類的LSTM-NN模型惡意行為檢測方法[J].信息安全研究,2025,1104):343-350.
作者單位:首都經(jīng)濟(jì)貿(mào)易大學(xué)
責(zé)任編輯:張津平 尚丹