蔡麗
【摘要】本文利用數(shù)據(jù)挖掘中的分類方法,選取了部分上市公司的財務(wù)比率數(shù)據(jù),用R軟件進(jìn)行分析,為投資者提供決策依據(jù).
【關(guān)鍵詞】 數(shù)據(jù)挖掘;財務(wù)指標(biāo);分類方法
【基金項目】北京市教委科研計劃項目(KM201410011006)
一、引 言
數(shù)據(jù)挖掘是從大量不完全、有噪聲、隨機(jī)的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中人們事先不知道、但又是潛在有用的信息和知識的過程.目前已經(jīng)用于客戶關(guān)系管理、銀行風(fēng)險項目評估和金融市場等多個領(lǐng)域,用于財務(wù)指標(biāo)分析的還不多見.本文旨在通過數(shù)據(jù)挖掘方法分析上市公司的財務(wù)指標(biāo)數(shù)據(jù),建立模型,輔助投資者深入認(rèn)識公司的財務(wù)狀況,為多數(shù)股民,特別是散戶進(jìn)行相關(guān)問題的正確決策提供數(shù)據(jù)支持.
二、分類算法
分類在數(shù)據(jù)挖掘中是一類很重要的方法,在商業(yè)上的應(yīng)用最多.其目的是學(xué)會一個分類函數(shù)或分類模型,能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定的某一個類別.本論文主要側(cè)重數(shù)據(jù)挖掘中分類算法在股票財務(wù)指標(biāo)方面的應(yīng)用.其中用到?jīng)Q策樹、隨機(jī)森林、支持向量機(jī)(SVM)三種算法.
三、分類模型的建立
1.數(shù)據(jù)理解
本文的數(shù)據(jù)來源于銳思金融數(shù)據(jù)庫,所選的數(shù)據(jù)為2012年10月8日前上市的公司信息.屬性包括:每股指標(biāo)中的每股收益和每股凈資產(chǎn),盈利能力中的銷售凈利率,成長能力指標(biāo)中的凈資產(chǎn)收益率、凈資產(chǎn)增長率和凈利潤增長率等12個屬性,包括了公司不同能力方面的財務(wù)比率數(shù)據(jù).因變量是根據(jù)2012年10月8日和2013年10月8日的收盤價與這兩天大盤的收盤價變化率相比,若比大盤的收盤價的變化率高,則標(biāo)記為“好”,反之標(biāo)記為“差”.
2.數(shù)據(jù)處理
(1)決策樹
本文建立決策樹[3]的過程中,用到的是rpart.Control函數(shù),其中,最小樣本量minsplit為20,進(jìn)行交叉驗證剪枝的交叉折數(shù)xval為10,最大樹深度maxdepth為5,最小代價復(fù)雜度剪枝中的復(fù)雜度參數(shù)CP值為0.01.
劃分特征空間時,用到的是gini指標(biāo),它用來度量數(shù)據(jù)劃分或者數(shù)據(jù)集的不純度,數(shù)據(jù)集D的gini指標(biāo)公式為:Gini(D).其中,pi是D中樣本屬于Ci類的概率,并用Cj,D[]D
估計.
同時構(gòu)建決策樹過程中用到的重要變量有: Currt 、Invtrtrrat 、NAPS、Netassgrrt 、Netprfgrrt、NOCF、WROEcut.
根據(jù)最后形成的決策樹得到分類規(guī)則,比如:NAPS≥4.9,NOCF≥2.3e+9則預(yù)測為bad.
(2)隨機(jī)森林
本文中,隨機(jī)森林共建立了500棵決策樹,每個節(jié)點的候選輸入變量個數(shù)為3.基于袋外觀測的預(yù)測誤判率為42.76%.由袋外觀測的混淆矩陣來看,單個模型對兩個類別的預(yù)測精度均不理想.隨機(jī)森林對所有觀測進(jìn)行預(yù)測,預(yù)測誤差為0.
在評價各輸入變量的重要性時,要用到importance函數(shù),其中MeanDecreas
e Accuracy表示預(yù)測精度的平均減少量,MeanDecreaseGini表示給出節(jié)點異質(zhì)性指標(biāo)的平均減少量.為了更全面直觀地評價各輸入變量的重要性,用varImpPlot函數(shù)進(jìn)行作圖,見圖1:
輸入變量重要性測度散點圖圖1 輸入變量重要性測度散點圖
從對輸出變量預(yù)測精度的影響看,每股凈資產(chǎn)、銷售凈利率、流動比率、經(jīng)營現(xiàn)金凈流量比較重要.從對輸出變量異質(zhì)性下降程度的影響看,同樣是這幾個變量較為重要,即每股凈資產(chǎn)、銷售凈利率、流動比率、經(jīng)營現(xiàn)金凈流量不同的上市公司,對是否優(yōu)于大盤有較大的影響.
(3)SVM
在對數(shù)據(jù)處理的過程中,文中利用網(wǎng)格搜索法10折交叉驗證尋找較優(yōu)參數(shù),確定cost和gamma值,構(gòu)建SVM模型.
根據(jù)最后SVM對測試集的預(yù)測結(jié)果,可以得到ROC曲線,見圖2:
在圖2中,橫坐標(biāo)代表錯誤的正例率(FPR),縱坐標(biāo)代表正確的正例率(TPR).希望TPR盡量的大,F(xiàn)PR盡量的小即圖中的曲線越靠左上方說明預(yù)測得越好.而從圖中的曲線來看,預(yù)測效果還有較大的差距.
四、分析與總結(jié)
經(jīng)過比較,隨機(jī)森林給出了最高的預(yù)測率60%,決策樹其次,支持向量機(jī)排在最后.見表1:
分析 表1可以看出: 從三種方法對測試集的分類正確率來看,隨機(jī)森林最高,但它們在處理其他行業(yè)數(shù)據(jù)時,精確度達(dá)到90%以上[6-8],可見,數(shù)據(jù)本身對模型的結(jié)果還是有很大的影響.因此,股市想要通過分析財務(wù)比率來達(dá)到很好的預(yù)測效果還是很困難的,雖然與所構(gòu)建的模型有關(guān),但最大的原因還在于股市本身的波動性[9].
【參考文獻(xiàn)】
[1]趙選民,薛建樓.利用數(shù)據(jù)挖掘技術(shù)分析上市公司財務(wù)狀況[J].中國管理信息化.2009,12(3):30-32.
[2]李航.統(tǒng)計學(xué)方法[M].北京:清華大學(xué)出版社,2012.
[3]John Durkin,蔡競峰,蔡自興.決策樹技術(shù)及其當(dāng)前研究方向[J].控制工程,2005,12(1):15-18.
[4]馬景義,吳喜之,謝邦昌.擬自適應(yīng)分類隨機(jī)森林算法[J].數(shù)理統(tǒng)計與管理,2010,29(5):806-811.
[5]薛薇.基于R的統(tǒng)計分析與數(shù)據(jù)挖掘[M].中國人民大學(xué)出版社,2014.
[6]馬瑾,孫穎,劉尚輝.決策樹模型在住院2型糖尿病患者死因預(yù)測中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2013,30 (3): 422-423.
[7]袁敏,胡秀珍.隨機(jī)森林方法預(yù)測膠原蛋白類型[J].生物物理學(xué)報,2009,25 (5): 349-354.
[8]張華,曾杰.基于支持向量機(jī)的風(fēng)速預(yù)測模型研究[J].太陽能學(xué)報,2010,31 (7): 928-931.
[9]張彥來.數(shù)據(jù)挖掘在股票投資中的應(yīng)用[D].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2010.