李 夏,汪曉云,丁沈杰,張 玥
(安徽工程大學 數(shù)理與金融學院,安徽 蕪湖 241000)
上市公司是我國企業(yè)中的優(yōu)秀代表,是區(qū)域經濟發(fā)展的稀缺資源,數(shù)量上只占全國企業(yè)數(shù)量的萬分之一,但卻是國家實體經濟的“基本盤”。然而,上市公司財務數(shù)據(jù)缺失現(xiàn)象普遍存在,為上市公司財務狀況的分析帶來了挑戰(zhàn)。
數(shù)據(jù)缺失不僅會降低數(shù)據(jù)的有效性,還會影響最終決策的準確性,因此對于缺失數(shù)據(jù)插補法的研究一直備受學者們的關注[1]。對于缺失數(shù)據(jù)的插補方法,可以分為兩類:統(tǒng)計學插補法和機器學習插補法,而目前針對統(tǒng)計學插補法的研究要比機器學習插補法更加深入和廣泛[2]。統(tǒng)計學插補法主要包括均值插補法、K 最近鄰(K Nearest Neighbor,KNN)插補法、最大期望算法(Expectation Maximization algorithm,EM)插補法和多重插補法(Multiple Imputation,MI)等[3]。其中,KNN 插補法相對更穩(wěn)定、準確性更高。KNN 插補法是一種基于相似測度的聚類算法[4],相似測度的選擇會嚴重影響KNN 插補法的性能。由于相似測度有不同類型,這為該領域的研究留下了比較廣闊的空間[5]。上市公司財務數(shù)據(jù)是由時間序列數(shù)據(jù)和截面數(shù)據(jù)結合而成的面板數(shù)據(jù),而目前國內外的缺失數(shù)據(jù)插補法研究主要針對同一時期的截面數(shù)據(jù)或者同一個體的時間序列數(shù)據(jù),對于面板數(shù)據(jù)的插補法研究尚處于起步階段[6]。
面板數(shù)據(jù)兼具橫截面和時間兩個維度,因此包含更多的統(tǒng)計分布信息。傳統(tǒng)KNN 插補法將數(shù)據(jù)空間視為歐氏空間,選擇歐式距離來度量樣本點間的毗鄰關系,然而,高維數(shù)據(jù)空間一般是非歐的。因此本文將面板數(shù)據(jù)視為統(tǒng)計流形中的點,利用流形的測地距離來度量樣本點間的鄰近關系??紤]到統(tǒng)計流形上測地距離計算的復雜度,在KNN 插補法中,從多項式流形、參數(shù)假設檢驗、信息量這3個視角分別選擇測地距離的近似測度:Cosine距離、Hotelling T2統(tǒng)計量和Jensen-Shannon散度,來度量樣本間的相似性,并研究上市公司面板數(shù)據(jù)隨機缺失狀態(tài)下的插補效果。
在高維數(shù)據(jù)空間中,歐氏距離不再適用,可以將高維空間近似為統(tǒng)計流形,用統(tǒng)計流形上的測地距離來度量數(shù)據(jù)點之間的鄰近關系。由于測地距離計算復雜度高,很難獲取其顯式表達,因此本文用測地距離的近似測度:Cosine距離、Hotelling T2統(tǒng)計量和Jensen-Shannon散度來度量樣本點間的相似性,距離越近,相似度越高。
在統(tǒng)計流形中,距離的度量與歐式空間是不同的,一般都不是規(guī)則性的,也不像歐式空間需要對稱,有很多距離都能夠近似度量樣本的相似性[7]。當有p和q兩個分布時,將它們映射成統(tǒng)計流形上的多項式分布,用Cosine距離來度量數(shù)據(jù)間的距離。計算公式為:
Hotelling T2統(tǒng)計量是一個無單位值,是t分布在多元條件下的推廣,適用于度量高維數(shù)據(jù)之間的距離[8],計算公式為:
式中,n1和n2為樣本容量;、S和分別為多元情況下的樣本均值向量、樣本方差-協(xié)方差矩陣和總體均值向量。
Jensen-Shannon散度來源于信息量,信息量是對事件的不確定性的度量,事件發(fā)生概率越小,信息量越大。當有p和q兩個分布時,Jensen-Shannon散度是衡量q擬合p的過程中產生的信息損耗,信息損耗程度可度量兩個分布之間的相似性,相同為0,相反為1。Jensen-Shan non散度是在Kullback-Leibler散度基礎上引入的,和Kullback-Leibler散度相比,具有嚴格的對稱性[9],取值范圍是[0,1]。計算公式為:
上市公司財務數(shù)據(jù)屬于面板數(shù)據(jù),兼具橫截面和時間兩個維度。本文選擇了107家上市公司2021年第三季度到2022年第一季度共3個季度的財務數(shù)據(jù),其中多元金融板塊有77家,商業(yè)銀行板塊有42家,保險板塊有7家,共計321個樣本?;谶@些財務數(shù)據(jù)的統(tǒng)計分布信息,在KNN 插補法中,使用測地距離的近似測度:Cosine距離、Hotelling T2統(tǒng)計量和Jensen-Shannon散度,來度量樣本間的相似性。
用Min-Max標準化對所有數(shù)值進行標準化處理[10],計算公式為:
式中,xi表示原始數(shù)據(jù)中的值;xmin和xmax分別表示該數(shù)據(jù)所在列中的最小值和最大值;x′i為標準化后的數(shù)值,取值范圍為[0,1]。
本文通過兩個實驗來測試基于統(tǒng)計信息下三種度量KNN 插補法的性能:一個是在同一缺失率下對它們的插補效果進行比較;另一個是在不同缺失率下,將它們與中位數(shù)插補法[11]、均值插補法[12]、缺失森林[13]、袋裝法[14]、傳統(tǒng)的KNN 插補法[15]這五種常用的插補方法進行比較。
(1)3種度量的KNN 插補法效果比較。本文選擇在缺失率為12%的情況下,將樣本數(shù)據(jù)隨機挖空10次(不包括標簽),生成10個隨機缺失數(shù)據(jù)集,用10次實驗結果的均方誤差(Mean Square Error,MSE)和平均絕對誤差(Mean Absolute Error,MAE)的平均值來衡量3種度量的KNN 插補法的性能穩(wěn)定性,實驗結果如表1所示。從表1可以看出,當缺失率為12%時,Cosine距離的MSE 和MAE 的平均值都是最大的并且誤差也是最大的,它的MSE和MAE的平均值分別為5.164 7×10-3、1.549 4×10-2,對應的均方誤差分別是7.545 9×10-4、1.620 4×10-3;其次是Jensen-Shannon散度,它的MSE平均值為3.804 5×10-3,誤差為6.535 7×10-4;Hotelling T2統(tǒng)計量的MSE平均值是最小的,并且誤差也是最小的,它的MSE 平均值為3.730 1×10-3,誤差為5.927 9×10-4。由此可以看出,在缺失率較高的情況下,Hotelling T2統(tǒng)計量的KNN 插補法在這3種度量的KNN 插補法中插補的效果比較好,泛化性能比較穩(wěn)定。
表1 缺失率為12%時3種相似測度的標準偏差
(2)與常用插補法的比較??紤]到當數(shù)據(jù)缺失率超過50%時,將有一定的概率使投影成為空集,因而本文將樣本數(shù)據(jù)分別按照1%至15%,步長為1%的缺失率隨機挖空(不包含標簽),生成15個隨機缺失數(shù)據(jù)集。將提出的三種度量的三種KNN 插補法分別與經典的、一流的五種插補法,即中位數(shù)插補法[11]、均值插補法[12]、缺失森林[13]、袋裝法[14]、傳統(tǒng)的KNN 插補法[15]進行比較,通過計算原始數(shù)據(jù)和插補后數(shù)據(jù)的MSE和MAE這兩種統(tǒng)計指標來衡量這8種插補方法在不同缺失率情況下的插補效果,實驗結果分別由圖1、2所示。由圖1、2可以看出,中位數(shù)插補法[11]、均值插補法[12]、缺失森林[13]、袋裝法[14]和傳統(tǒng)的KNN 插補法[15]這五種插補方法中,缺失森林方法效果最優(yōu),這是因為它可以直接用已觀測到的完整部分數(shù)據(jù)集訓練出的隨機森林來預測缺失值,而不依賴于因變量的完整性[13];最差的是傳統(tǒng)的KNN 插補法,而且其誤差隨著缺失率變大而陡增,說明其不適合填補缺失率大的缺失數(shù)據(jù),這主要是因為在KNN 插補法的計算過程中,當缺失比例較大時,可能會出現(xiàn)大量數(shù)據(jù)連續(xù)缺失的情況,所以此時它很難對距離做出精確的測算,無法得出具體的插補結果。Cosine距離、Hotelling T2統(tǒng)計量和Jensen-Shannon散度這三種度量的三種KNN 插補法中,缺失率較低時,Cosine距離表現(xiàn)最優(yōu);缺失率較高時,Hotelling T2統(tǒng)計量表現(xiàn)最優(yōu)。
圖1 數(shù)據(jù)集插補結果MSE
由圖1可見,當缺失率較低時,三種度量中,Cosine距離比較合適。當缺失率為1%~7%時,Cosine距離的MSE值與均值插補法比較接近,比Jensen-Shannon散度和Hotelling T2統(tǒng)計量的MSE 值要低,比缺失森林方法高出6.7?;Jensen-Shannon散度的MSE值波動劇烈,是三種度量中表現(xiàn)最差的,比缺失森林方法高出5.5‰,比Cosine距離高出4.9‰。
隨著缺失率的增大,當缺失率較高時,三種度量中,Hotelling T2統(tǒng)計量比較合適。當缺失率為8%~15%時,Hotelling T2統(tǒng)計量與袋裝法以及均值插補法的MSE 值接近,比Cosine距離和Jensen-Shannon散度的MSE值要低,比缺失森林方法高出2.7‰;Jensen-Shannon散度的MSE 值波動仍然劇烈,是三種度量中表現(xiàn)最差的,比缺失森林方法和Hotelling T2統(tǒng)計量分別高出4.2‰和1.5‰。
由圖2可以看出,當缺失率較低時,三種度量中,Cosine距離比較合適。當缺失率為1%~7%時,Cosine距離的MAE值與均值插補法比較接近,比Jensen-Shannon散度和Hotelling T2統(tǒng)計量的MAE值要低,比缺失森林方法高出2.3‰;Jensen-Shannon散度的MAE值波動劇烈,是三種度量中表現(xiàn)最差的,比缺失森林方法高出9.8‰,比Cosine距離高出7.5‰。
圖2 數(shù)據(jù)集插補結果MAE
隨著缺失率的增大,當缺失率較高時,三種度量中,Hotelling T2統(tǒng)計量比較合適。當缺失率為8%~15%時,Hotelling T2統(tǒng)計量與均值插補法的MAE 值接近,比Cosine距離和Jensen-Shannon 散度的MAE值要低,比缺失森林方法高出8.2‰;Jensen-Shannon散度的MAE 值波動仍然劇烈,是三種度量中表現(xiàn)最差的,比缺失森林方法高出1.1%,比Hotelling T2統(tǒng)計量高出2.9‰。
缺失數(shù)據(jù)插補的理論及應用方面的研究成果近年來在統(tǒng)計、計量和醫(yī)藥等領域得到廣泛的關注和應用。本文在國內外缺失數(shù)據(jù)插補的理論與方法的基礎上,結合近幾年來較新的缺失數(shù)據(jù)插補方法和面板數(shù)據(jù)的特點,提出了在KNN 插補法中,從多項式流形、參數(shù)假設檢驗、信息量這3個視角分別選擇測地距離的近似測度:Cosine距離、Hotelling T2統(tǒng)計量和Jensen-Shannon散度,來度量樣本間的相似性,并通過對107家上市公司的2021年第三季度到2022年第一季度共3個季度的財務數(shù)據(jù)進行隨機缺失模擬,來測試基于統(tǒng)計信息下三種度量KNN 插補法的性能。主要有以下結論:Cosine距離、Hotelling T2統(tǒng)計量和Jensen-Shannon散度這三種度量的三種KNN 插補法中,當缺失率較低時,Cosine距離插補效果更優(yōu),略次于缺失森林方法;當缺失率較高時,Hotelling T2統(tǒng)計量插補效果最好并且具有良好的穩(wěn)定性,弱次于缺失森林方法;Jensen-Shannon散度的誤差波動性一直很大,但是在缺失率較高的情況下插補效果良好,這主要得益于在大樣本數(shù)據(jù)的情況下,數(shù)據(jù)包含了更多的統(tǒng)計分布信息,參數(shù)假設檢驗和信息量這兩個視角能夠從統(tǒng)計分布角度更好地來考慮樣本點間的鄰近關系。