謝忠群
(貴州財經大學,貴陽 550002)
近年來,我國證券市場的高速發(fā)展催生了一批題材股。在這些題材中間,高送轉這一題材無疑是中小投資者強烈追捧的對象。實施高送轉后股價將做除權處理,投資者可以通過填權行情從二級市場的股票增值中獲利,而等除權后再買入可能面臨很大的回撤風險。如果我們能準確預測下一年可能實施高送轉的上市公司并提前買入,這對我們投資的安全性具有很大的現實意義。經過研究,影響上市公司實施高送轉的因子主要有兩類:一是基本因子,包括股價、總股本、上市年限等;二是成長因子,包括每股未分配利潤、每股資本公積、每股現金流、每股收益等。除此之外,還有其他因子等待挖掘。
本文利用相關數據,篩選出對上市公司實施高送轉方案有較大影響的因子,建立模型預測哪些上市公司可能會實施高送轉,并對提供的數據用所建立的模型來預測第8 年上市公司實施高送轉的情況。
本文研究數據為3466 家上市公司7 年的各種高送轉相關因素,包含了年數據、日數據、基礎數據,原始數據共24262 個樣本。在實際建模前對數據作預處理,刪除或補全缺失值、統(tǒng)一量綱,將數據規(guī)范化。
從數據挖掘角度在所有特征中挑選出了前8 個影響較大的因子,分別為歸屬于母公司凈利潤同比增長(%)(A)、每股收益(期末攤薄,元/股)(B)、基本每股收益(C)、每股凈資產(元/股)(D)、稀釋每股收益同比增長(%)(E)、基本每股收益同比增長(%)(F)、上市年限(G)、總資產凈利率(%)(H)。將這8 個影響因子繪制特征重要性排名,從高到低為:B、A、D、C、H、E、F、G,且每個特征的重要性較為均衡。
圖1 因子重要性排名
通過數據處理,特征選擇以及提取影響因子,我們得到了高質量的訓練和測試數據集,現在要通過運用得到的數據和xgboost 算法正式進入“高送轉”預測模型的構建工作中。
本文將挑選出的這8 個因子放入xgboost 模型中,從AUC結果來看,通過數據挖掘出的因子計算出的AUC 值高達0.96,說明利用數據挖掘挑選出的因子配合xgboost 模型的分類效果較好。
xgboost 算法由GBDT 算法演變而來,在GBDT 的基礎上通過改變目標函數來避免GBDT 存在的問題,例如:當數據量很大時,減少計算時間等。
圖2 ROC 曲線
在測試結果展示的部分,我們使用混淆矩陣來展示模型的分類效果?;煜仃囈卜Q作誤差矩陣,是表示精度評價的一種形式。對于二分類下的混淆矩陣,標簽有兩種,分別為0 和1,橫坐標代表通過模型分類出來的測試集的結果,縱坐標表示數據集中給定的數據集的結果。對角線上的數據代表被正確分類的數據的個數,另外的數代表被錯誤分類的數據的個數。通過這些數據,計算出模型的精確率(precision)、召回率(recall)、準確率(accuracy)、f1-score,f1-score 值是將精確率和召回率的值合并,計算其調和均值,計算公式為:
其中,TP 為被分類模型正確預測的正樣本數,TN 為被分類模型正確預測的負樣本數,FP 為被分類模型錯誤預測為正類的負樣本數,FN 為被分類模型錯誤預測為負類的正樣本數,分別對應于混淆矩陣的(0,0)(1,1)(0,1)(1,0)位置。
圖3 預測值與真實值的混淆矩陣
根據混淆矩陣計算出各個值:負類0 的精確率(precision)為0.96、召回率(recall)為0.96、f1-score 的值為0.96;正類1 的精確率(precision)為0.80、召回率(recall)為0.81、f1-score 的值為0.80;模型準確率(accuracy)為0.93,統(tǒng)計如下表1。
表1 分類準確率