李威 張攀紅
摘要:本文基于機器學習中最新的LightGBM算法構建訓練集,并基于上市公司的各項財務數據訓練機器學習模型,進一步利用該模型對預測集中最有可能實施“高送轉”的公司進行預測,最終預測出“高送轉”概率最高10家公司。本文最后訓練出的模型準確率較高,但覆蓋率較低,最終能夠預測出部分“高送轉”上市公司,可為投資者構建股票投資組合提供有益參考。
關鍵詞:高送轉;LightGBM;機器學習
一、引言及文獻綜述
“高送轉”是指高比例送紅股或轉增股本的簡稱。國外鮮有高比例送紅股或增資的情況存在,這是我國市場上的特有現象。一般來說,投資“高送轉”概念的公司往往可以增加其收益的可能性,因此,無論是否要參與“高送轉”概念的炒作,上市公司每年披露年報或半年報時,中國投資者將關注其股利分配方案,實施“高送轉”的公司也將受到追捧。從公司財務角度來看,“高送轉”的實施不會對公司未來的業(yè)績預期產生任何影響,也不會影響公司的實際價值?!案咚娃D”實施后,雖然股份總數有所增加,但公司股東權益不會增加。作為中國金融市場發(fā)展過程中遺留下來的炒作題材,相關股票的炒作甚囂塵上。我國A股市場歷年都有炒作題材股的現象,伴隨一些突發(fā)事件,A股市場上總會掀起一股短線炒作概念的熱潮,不管是游資大戶還是普通散戶,甚至一些投資機構都會或多或少地參與其中。例如,中美貿易戰(zhàn)時的國產芯片替代概念和半導體概念、地攤經濟概念股、免稅牌照概念股等等。我國市場游資大戶數量多、資金體量大,每年的“高送轉”也就成為A股市場上市公司年報和半年報出臺前的炒作對象。
近幾年實施“高送轉”的公司越來越多,“高送轉”概念股成為預案公告日和除權除息日前后炒作的熱點。隨著監(jiān)管力度的增強,相關的炒作熱情有所降溫,但“高送轉”概念仍成為炒作的暗線題材,其他題材股疊加“高送轉”概念后,往往會取得更高的超額收益。能夠在公司公布股利分配預案之前,重點關注“高送轉”的真實目的,考察公司基本面及業(yè)績預期,警惕高管配合二級市場,利用“高送轉”股預測模型篩選出的股票池作為參考,就能取得一定的超額收益。因此,研究“高送轉”行情,準確訓練“高送轉”模型并預測下一年最有可能實施“高送轉”方案的公司,以此作為參考構建投資組合,對于保護中小投資者利益,維護金融市場穩(wěn)定具有重要意義。
國外研究方面,哈佛大學教授約翰·林特納(John Lintner)于1956年在《美國經濟研究》雜志發(fā)表的一篇文章中,首次提出了股利分配的行為理論模型。1961年美國經濟學家弗蘭哥·莫迪利安尼和金融學家默頓·米勒于提出股利無關論,又稱MM理論。該理論建立在一系列假設之上,認為公司的價值僅僅由公司經營和投資情況確定。而股利相關理論認為公司的市場價值會受到股利分配政策的影響,認為股利無關論提出的相關假設前提根本無法實現。其分支不確定感消除論由林特納和戈登提出,認為較高的股利支付率有助于消除投資者由投資風險帶來的不確定感和不安感,投資者在投資活動中對高股利支付率的公司有較強的偏好,因此管理層應該維持高股利的股利政策。信息傳遞理論認為股利政策可以傳遞出一種有關公司財務狀況和預計未來經營狀況的信息。股利迎合理論是由馬爾科姆貝克和杰弗里提出的,認為投資者的需求很大程度上會影響公司股利發(fā)放決策。
國內研究方面,一部分學者對上述傳統(tǒng)股利分配理論進行了實證檢驗。例如,呂長江、王克敏(1999)的實證結果支持林特納的股利信號傳遞理論和詹森的代理成本理論,不支持邁爾斯的資金順序理論。何濤、陳小悅(2003)對送轉行為動機進行了分析和討論,檢驗了現有的“信號傳遞假設”和“流動性假設”對中國市場解釋能力的強弱。提出了“價格幻覺假設”,并用L0git回歸對“價格幻覺假設”進行檢驗,結果支持這一假說。熊義明、陳欣等(2012)通過實證研究探討了不同的股利分配理論在現實生活中的成立情況,為解決關于股票送轉動機的爭論提供了經驗證據。最近幾年,出現了一些研究構建模型來預測“高送轉”上市公司,例如,刑小艷(2016)選取了影響上市公司實施“高送轉”的九個特征因素作為影響因子,運用LO gistic的回歸方法,建立模型,預測每家“高送轉”公司實施的概率并排序。謝忱(2017)將“高送轉”行情分為三個階段,選取其中預期和填權兩個階段分別構建兩套不同的投資策略。
在炒作預期階段,利用2011年至2016年6月所有A股上市公司數據,基于Iogt回歸模型預測每家上市公司下一年度實施“高送轉”的概率,并選取實施概率最高的20家公司構建投資組合。在填權階段,運用事件研究法得出在每年除息日后滯脹的股票會取得不錯的超額收益的結論。張?zhí)锶A、羅康洋(2021)選取2158家上市公司7年的數據,利用特征選擇算法選出10個最重要的影響因子,利用集成學習算法構建預測模型,最終構建的ADASYN+mRMR+XGBo0st組合模型能夠取得較高的預測準確率。
二、上市公司“高送轉”現狀及其成因
(一)上市公司“高送轉”現狀
從“高送轉”題材炒作出現開始,實施“高送轉”股利分配政策的公司數量就呈現逐年上升的趨勢,到2015年達到頂峰,直到近幾年,隨著我國金融市場各項制度逐漸完善,“高送轉”公司數量才趨于平穩(wěn)。每年11月份開始,上市公司就開始出現年報業(yè)績披露潮,實施“高送轉”的公司會受到投資者熱捧,疊加“高送轉”題材的公司股價上漲的可能性增大。例如,2020年3月,“高送轉”龍頭新諾威在短短14個交易日內,漲幅達到84%。在“高送轉”題材炒作期間,短線炒作有其他題材時,“高送轉”一般作為暗線疊加屬性,而在短線周期的末期時,“高送轉”主要龍頭股又可作為主線或單獨的題材來炒作。
盡管參與“高送轉”題材交易有時的確能在短時間內取得可觀的收益,但同時也伴隨著巨大風險。并不是所有的“高送轉”公司股價都是上升的,反而是表現不一,有的公司連續(xù)漲停,股價翻倍,有的卻連續(xù)跌停?!案咚娃D”僅僅是影響公司股價的一個因素,在參與“高送轉”交易時還應注意到公司的基本面、其他題材概念、所處短線周期、市場情緒等多重因素。實際上,“高送轉”炒作本就是不理性的行為,“高送轉”現象不利于我國金融市場健康有序發(fā)展,也引起了監(jiān)管層的注意。2017年,時任證監(jiān)會主席劉士余表示,“10送30”的“高送轉”方案在全世界罕見,必須列入重點監(jiān)管范圍。2018年,滬深交易所發(fā)布了《高送轉指引》,指出上市公司送轉方案必須與公司基本面相符。盡管近年來針對“高送轉”題材炒作的監(jiān)管趨嚴,但就目前我國A股市場投資環(huán)境來看,“高送轉”作為暗線屬性,炒作依然存在。
(二)上市公司“高送轉”現象成因
“高送轉”現象是我國證券市場上特有的現象,是基于一系列歷史原因加上我國特有的投資環(huán)境形成的。20世紀90年代,隨著上市公司股本擴張的意愿不斷增強,送轉方案也逐漸增多。到2015年,滬深兩市實施“高送轉”的公司數量達到
一百多家,實施的方案也越來越夸張。上市公司“高送轉”現象成因最重要的一個因素就是市場反應因素。公司為了拾升股價,為后續(xù)進一步發(fā)展做準備,會實施與自身基本面不相匹配的送轉方案。同時,我國A股市場上游資和中小投資者數量多、體量大,熱衷于短線題材炒作,投資者的專業(yè)素養(yǎng)有待提高,我國市場上也就形成了公司管理者和投資者相互配合的局面。若要消除這種現象,還需監(jiān)管層加強監(jiān)管,各項規(guī)章制度得到進一步健全,專業(yè)機構投資者比例得到進一步上升。
三、LightGBM算法介紹
(一)LightGBM簡介
LightGBM是微軟亞洲研究院DMTK團隊在Github上開源的性能超越其他Boostingdecisiontree的工具,一經推出就廣受好評,廣泛運用于各大數據挖掘比賽。與XGB00st相比,LightGBM主要有直方圖算法、基于梯度的單邊采樣算法、互斥特征捆綁算法三方面的優(yōu)化。
(二)基于直方圖的決策樹算法
直方圖算法的基本思想是先把連續(xù)的浮點特征值離散化成k個整數,也就是分桶bis思想,例如[0,0.1)離散化為0,[0.1,0.3)離散化為1。用離散化后的值代替原來的浮點值進行計算,統(tǒng)計每個bi里面的樣本個數,根據離散值來尋找最優(yōu)的切分點。需要切分的個數就等于bis的個數減1,而XG-B00$t的切分點個數等于樣本取值的不同個數減1,需要計算的是樣本的特征值、樣本的一階導和二階導。后續(xù)計算bis里樣本一階導之和與二階導之和時,計算量也會相應小很多。
LightGBM只會保存離散化后的值,在內存占用上也會小很多。
(三)直方圖做差加速
LightGBM的另一個優(yōu)點是使用直方圖進行差分加速。當節(jié)點分裂成兩個時,右邊子節(jié)點的直方圖就可以直接通過上方父親節(jié)點的直方圖減去左邊其兄弟節(jié)點的直方圖得到,用這種做差的方法可以使其在運算速度上加倍。在構建完一個葉子節(jié)點的直方圖后,LightGBM可以先計算直方圖較小的葉節(jié)點,然后利用直方圖做差來得到直方圖大的葉節(jié)點,這樣,可以以相對較小的成本得到它兄弟葉的直方圖。例如,將某個特征的取值分成4個桶,每個桶里面的樣本個數分別為4、4、5、3,左邊子節(jié)點直方圖每個桶中的樣本個數分別為1、1、2、1,那么右邊子節(jié)點的直方圖樣本個數分別為3、3、3、2。
(四)帶深度限制的Leaf-wise算法
在直方圖算法之上,LightGBM還進行了進一步的優(yōu)化。按層生長(level-wise)的決策樹生長策略是大多數GBDT工具使用的策略,而LightGBM不再使用該策略,轉而使用帶有深度限制的按葉生長(leaf-wise)的算法。按層生長(level-wise)同一層的所有節(jié)點都要做分裂,分裂完成后再根據需要進行剪枝,因為它毫無區(qū)別地對待同一層中的葉子,需要分裂計算的節(jié)點過多,所以Levl-wise效率相對較為低下,它帶來了很多不必要的開銷。同一層的其他很多葉子節(jié)點也根本無需進行分裂。
Leaf-wise以降低模型損失最大化為目的,是一種更高效的策略。與按層生長的決策樹相比,按葉生長的決策樹只需要在分裂增益收益最大的節(jié)點處進行分裂,其他的節(jié)點處不需要進行分裂,可以得到更小的誤差,但同時分裂的次數會增加,生長出的決策樹過于龐大,容易產生過擬合。為了解決這個弊端,LightGBM可以設置一個決策樹的最大深度。
四、“高送轉”預測模型的實現
(一)影響因子
參考已有相關文獻,將影響上市公司高送轉主要因素確定為基本每股收益、每股凈資產、股票價格、總股本、每股營業(yè)收入、每股資本公積、每股未分配利潤、每股現金流量、每股經營現金流9個因素。將上述9項指標作為自變量,是否實施“高送轉”作為二分類因變量,將實施“高送轉”的公司標記為1,沒有實施“高送轉”的公司標記為0。
(二)數據獲取
從同花順軟件客戶端下載A股所有上市公司共4266家
2018年至2020年的上述9項指標,鑒于科創(chuàng)板投資具有較高門檻,且從歷史數據看科創(chuàng)板公司分紅意愿較低,本研究將科創(chuàng)板所有公司剔別除。將2018年公司年報披露數據作為訓練集,將2019年報披露的數據作為測試集,將訓練出的最終模型作為“高送轉”預測模型,并以2020年上市公司半年報數據作為依據,預測出2021年即將實施“高送轉”的公司。別除掉少量空白無效數據后,共得到訓練集3651組數據,測試集3520組數據。
(三)LightGBM參數設置
超參數是機器學習之前人為設置的變量,模型參數是通過模型訓練得到的參數數據,模型超參數是模型外部的配置。雖然無法知道給定問題的模型超參數的最佳值,但是我們可以使用經驗法則,在其他問題上使用復制值,或通過反復試驗來搜索最佳值。設置模型超參數時,需要我們根據經驗設置較為合適的值,使得模型的訓練能力與實際情況較為吻合。
(四)交叉驗證
因為模型的參數和結構不同,一般無法直接評估不同模型的泛化能力,為了更好地理解模型的泛化能力,引入了交叉驗證。在劃分數據集時,通常將數據集劃分為三個子數據集,分別稱為訓練集(train set)、評估集(valid set)和測試集(testst)。交叉驗證結果越小,模型的泛化能力越強。交叉驗證的
一個極端稱為去一法。也就是說,每次從數據中提取一個樣本,然后用其余樣本進行訓練。k-fOLd交叉驗證將數據分為k個部分,每次提取其中一個部分,其余部分用于測試,共總需要k次。通常,用5折和10折交叉驗證。
(五)模型評估
本文使用AUC指標來評估訓練好的模型。對于二元分類問題,結果標簽可以分為1和0。在實踐中,會出現以下四種情況:
將上述四種情況進行組合,可以得到一個混淆矩陣。
由混淆矩陣可以引出真陽率(TPR)、假陽率(FPR)兩個概念:TPR表示真實類別為1的樣本中預測類別也為1的比例,FPR表示預測類別1在具有真實類別0的樣本中所占的比例。在這個例子中,“高送轉”的實施記為1,否則標記為0。
ROC曲線是以FPR為橫軸,以TPR為縱軸繪制的曲線。在大多數情況下,TPR大于FPR,這是我們想要的。而AUC表達的含義是ROC曲線下方的面積,因此AUC的值一般大于0.5。在最佳的理想情況下,AUC的值為1,在現實生活中幾乎不存在。作為衡量模型準確率的指標,我們希望AUC值越大越好。一般情況下,AUC值在0.85和1之間就表明模型有較好的預測能力。經過208輪循環(huán)后,我們得到最佳AUC的值為0.901886。
(六)訓練模型并預測
將訓練出的模型保存為best_model.pkl。將2019年數據導入該模型,預測出是否“高送轉”標簽值為1的公司有三家,分別為金馬游樂、銳科激光、邁為股份,其中前兩家已確定為實施了“高送轉”,表明該模型對測試集預測的準確率為23。再將預測集2020年上市公司的數據導入模型,預測出是否實施“高送轉”標簽的值保存為y_yuce_pred。該數值越接近1,表明實施“高送轉”的可能性越大。選取10家是否“高送轉”標簽值最高的公司,其中有6家公司已經在2020年年報中披露會實施“高送轉”行為,表明該模型對預測集的準確率達到60%。
五、結論與啟示
本文首先介紹了我國A股市場題材概念股炒作的市場背景,闡述了在我國A股市場上準確預測出下一年“高送轉”公司的意義。其次簡單介紹了機器學習中LightGBM算法原理。最后利用LightGBM算法模型構建訓練集最佳模型,并利用該模型預測下一年最有可能實施“高送轉”的10家公司供投資者參考盡管本文做出了機器學習LightGBM算法在“高送轉”預測的應用,提供了“高送轉”公司預測名單,但仍要提醒投資者注意規(guī)避風險,不可盲目參與“高送轉”題材炒作。同時呼吁投資者要保持客觀理性,監(jiān)管層要加強監(jiān)管,使我國金融市場不斷健康發(fā)展。
參考文獻:
[1]BakerM.,Wurgler J.A catering theory of dividends[J].Journal of Finance,2004,59(3):1125-1165.
[2]Fama,E.F.,French,K.R..Dividend yields and expected stock returns[J].Journal of financial ecnomics.1988.22(1):3-25
[3]Li.W.&Lie.E.Dividend changes and catering Incentives[J].Journal of Financial Economics,2006,(80):293-308.
[4]LintnerJ.Distribution of incomes of corporations among dividends,retainedearning,and taxes[J].The American Economic Review,1956,46(2):97-113.
[5]Miller,M.H.,Modigliani F.Dividend pOLicy,growth,and the val-uation of shares[J].the Journal of Business,1961,34(4):411-433
[6]陳浪南,姚正春.中國股利政策信號傳遞作用的實證研究.金融研究,2000,(10):69-77.
[7]何濤,陳小悅.中國上市公司送股、轉增行為動機初探.金融研究,2003,(9):44-56.
[8]呂長江,王克敏.上市公司股利政策的實證分析[J].經濟研究1999,(12):31-39.
[9]劉大進.創(chuàng)業(yè)板上市公司“高送轉”動機與效益分析.集美大學學報(哲學社會科學版),2011,(1):36-39.
[10]劉紅忠,張昉.投資者情緒與上市公司投資——行為金融角度的實證分析[.復旦學報:社會科學院,2004,(5):63-68.
[11]李昆,宋婷婷.送股和轉增對股東結構和股票流動性的影響統(tǒng)計與決策,2005,(09X):97-98.
[12]凌士勤,謝忱.基于L0git模型的高送轉投資策略[J].時代金融,2017,(7).
[13]李心丹,俞紅梅,陸蓉等.中國證券市場“高送轉”現象研究管理世界,2014,(11):133-145.
[14]石好,刑小艷基于模式識別的“高送轉”預測模型[J]云南:時代金融,2016,(12):289-290.
[15]沈海平.我國上市公司高送轉公告效應的實證研究[J].區(qū)域金融研究,2011,(4):47-51.
[16]唐家麒.“高送轉”股利分配政策信號傳遞作用研究[J].上海:復旦大學,2012
[17刀魏剛.中國上市公司股利分配的實證研究[J].經濟研究,1998,(6):31-35
[18]王鵬,孔劉柳.影響創(chuàng)業(yè)板上市公司進行高送轉的因素——基于L0git模型分析[.中國林業(yè)經濟,2016,(3):35-41.
[19]吳松諺深圳創(chuàng)業(yè)板市場運行與解讀[M].北京:經濟科學出版社,2012.
[20]謝忱.基于高送轉的投資策略研究設計[J].湖北:中南財經政法大學,2017.
[21]刑小艷.基于模式識別的“高送轉”投資策略研究[J]廣東:華南理工大學,2016.
[22]徐慧玲,呂碩夫.中國上市公司“高送轉”股利政策分析[J]經濟研究,2012,(11):84-88.
[23]熊義明,陳欣.中國上市公司送轉行為動因研究——基于高送轉樣本的檢驗[北京:經濟與管理研究,2012,(5):81-88
[24]楊漢明.股利政策與企業(yè)價值一基于中國上市公司的分析[M].北京:經濟科學出版社,2008.