蔡玉杰,楊 博
基于多元統(tǒng)計的績優(yōu)股選取研究
蔡玉杰,楊 博
(河南城建學院 數(shù)理學院,河南 平頂山 467036)
采用多元統(tǒng)計分析中的聚類分析、判別分析、主成分分析對某個行業(yè)中的股票進行分析,繼而選出績優(yōu)股,為廣大投資者的投資行為提供幫助。首先通過聚類分析和主成分分析對所有價值指標進行分析,選出衡量股票價值的幾類新指標,并不失大部分指標所包含信息的完整性,并加入判別分析,對模型進行推廣;其次在得出的衡量指標的基礎上,運用主成分分析來構建綜合評判函數(shù);最終得出某個行業(yè)中按綜合得分排名的績優(yōu)股排序。
聚類分析;判別分析;主成分分析;SPSS
伴隨著我國金融市場的成熟,越來越多的資金涌入市場,這說明證券投資已經(jīng)成為投資者主要的投資途徑之一,而且也必將成為投資者最為重要的投資渠道。但由于市場的風險性因素種類繁多,一個投資者很難有十足的把握賺取利潤?;诙嘣y(tǒng)計分析的操作性強、運用范圍廣等優(yōu)越性,我們可以通過多元統(tǒng)計分析,降低投資的風險性,同時可以選出績優(yōu)股以供投資者參考。
學術界對于多元統(tǒng)計分析方法在股票市場板塊的應用研究已經(jīng)較多,包括用聚類分析對股票進行分類、用主成分分析對股票價值進行排名以及用判別分析進行判斷等,但是這些研究很少將問題綜合起來進行整體的建模分析,即缺少一個真正的數(shù)學模型。而且其中指標的選取方面有些不足,因為市場中衡量股票價值的指標有很多,如果都用,則會使問題復雜化,如果僅選取部分指標進行分析,雖然可簡化問題,但很可能漏掉一些關鍵信息,很難具有說服力。
本文基于多元統(tǒng)計得出一種績優(yōu)股選取方法。首先是衡量指標的選取。每個指標都蘊含著衡量股票價值的信息,為不失信息的完整性,又能方便地運用更多的信息來衡量股票價值,故采用減少衡量指標的方法。針對這個問題,選擇聚類分析、主成分分析以及判別分析進行處理,得出綜合指標,這些指標即簡化了指標數(shù)量的繁重性,同時又不會損失大部分有價值的信息。其次,運用綜合指標,對某一個行業(yè)中的股票進行主成分分析,得出按綜合得分排名的績優(yōu)股序列。
1.1確定衡量指標
本課題旨在大數(shù)據(jù)的背景下進行數(shù)學建模,通過運用多元統(tǒng)計分析對市場中所有衡量股票價值的財務指標進行處理,最終在不損失衡量股票價值有效信息的前提下,縮減指標個數(shù)。
1.1.1 運用聚類分析對多個指標分類
聚類分析是一種將個體或對象進行分類,使得同一類中的對象之間的相似性比與其他類對象的相似性更強。對于多因素、多指標的分類問題,聚類分析可以實現(xiàn)較為精確的分類[1]。至于聚類分析方法的原理和詳細過程,在這里不作贅述。
本文在上市公司財務指標中只選取每股收益、流動比率、速動比率、應收賬款周轉率、凈資產(chǎn)收益率、凈利潤增長率、主營業(yè)務收入增長率、總資產(chǎn)增長率、現(xiàn)金流量比率、資本化比率這10個重要指標來進行分析,以達到數(shù)學建模的目的。
由于不同行業(yè)之間的數(shù)據(jù)差距可能會很大,這會對分析結果帶來較大的誤差,所以適宜選用某一個行業(yè)的數(shù)據(jù)來進行分析。本文以地產(chǎn)行業(yè)為例,從滬深67家地產(chǎn)類上市公司中,隨機選取15家上市公司2015年第四季度相關信息進行分析,數(shù)據(jù)如表1所示。
表1 15家地產(chǎn)上市公司2015年第四季度財務指標
由于10個衡量指標的數(shù)據(jù)單位不統(tǒng)一,運用SPSS軟件對數(shù)據(jù)進行標準化,結果如表2所示。
表2 15家地產(chǎn)上市公司2015年第四季度財務指標標準化數(shù)據(jù)
在表2標準化數(shù)據(jù)的基礎上,運用SPSS軟件進行聚類分析,可以得到組間平均連接圖等,結果如圖1所示。
圖1 10個衡量指標的分類柱狀圖
為減少指標,將圖1中10個指標劃分為兩大類:第一類由現(xiàn)金流量比率、應收賬款周轉率、資本化比率、主營業(yè)務收入增長率、流動比率、速動比率6個指標構成,這里將該大類命名為G1;第二類由凈利潤增長率、總資產(chǎn)增長率、凈資產(chǎn)收益率、每股收益4個指標構成,這里將該大類命名為G2。由于每大類中還包含著多種小類指標,因此,我們運用主成分分析對各大類中的小類進行降維,減少衡量指標數(shù)量。
1.1.2 對分好的每一類進行主成分分析——降維
主成分分析是利用降維的思想,在損失很少信息的前提下,把多個指標轉化為幾個綜合指標的多元統(tǒng)計方法。通常把轉化生成的綜合指標稱為主成分,其中每個主成分都是原始變量的線性組合,且各個主成分之間互不相關,使得主成分比原始變量具有某些更優(yōu)越的性能,最終把問題簡單化。
⑴在表2的基礎上,對第一大類G1進行降維。
對經(jīng)標準化處理后的樣本數(shù)據(jù)以上述給出的6個衡量指標為變量,使用SPSS軟件進行主成分分析,得到“解釋的總方差表”(見表3)和成分矩陣(見表4)。
表3 解釋的總方差
由表3可知:在本例中保留4個主成分為宜,這4個主成分集中了原始變量信息的91.38%,效果比較好。
表4 成分矩陣
雖然得到成分矩陣,但成分矩陣中表示的是因子載荷矩陣而不是主成分的系數(shù)矩陣,因此要對SPSS的因子分析模塊運行結果進行調整。將成分矩陣表中第i列的每個元素分別除以第i個特征根的平方根,就可以得到主成分分析的第i個主成分的系數(shù)。主成分的系數(shù)矩陣輸出結果如表5所示。
表5 主成分的系數(shù)矩陣
由表5可以寫出各個主成分用標準化后的原始變量表示的表達式:
PRIN1 =-0.01×標準化的現(xiàn)金流量比率+0.05×標準化的應收賬款周轉率+0.52×標準化的資本化比率+0.27×標準化的主營業(yè)務收入增長率+0.58×標準化的流動比率+0.56×標準化的速動比率
PRIN2 = 0.58×標準化的現(xiàn)金流量比率+0.59×標準化的應收賬款周轉率-0.37×標準化的資本化比率-0.26×標準化的主營業(yè)務收入增長率+0.10×標準化的流動比率+0.33×標準化的速動比率
PRIN3 = 0.32×標準化的現(xiàn)金流量比率+0.31×標準化的應收賬款周轉率+0.21×標準化的資本化比率+0.75×標準化的主營業(yè)務收入增長率-0.41×標準化的流動比率-0.17×標準化的速動比率
PRIN4 = 0.71×標準化的現(xiàn)金流量比率-0.69×標準化的應收賬款周轉率+0.02×標準化的主營業(yè)務收入增長率+0.08×標準化的流動比率-0.02×標準化的速動比率
(2)在表2的基礎上,對第二大類G2進行降維。
對經(jīng)標準化處理后的樣本數(shù)據(jù)以上述給出的4個衡量指標為變量,使用SPSS軟件進行主成分分析,得到“解釋的總方差表”(見表6)和成分矩陣(見表7)。
表6 解釋的總方差
由表6可知:在本例中保留2個主成分為宜,這兩個主成分集中了原始變量信息的80.77%,信息有所損失,但在可接受范圍之內。
表7 成分矩陣
同理,由表7最終可得到主成分表達式為:
PRIN5 = 0.36×標準化的凈利潤增長率+0.41×標準化的總資產(chǎn)增長率+0.59×標準化的凈資產(chǎn)收益率+0.59×標準化的每股收益
PRIN6 = 0.79×標準化的凈利潤增長率-0.62×標準化的總資產(chǎn)增長率-0.03×標準化的凈資產(chǎn)收益率-0.02×標準化的每股收益
由上可知,雖然得到了綜合衡量指標,但市場上可能面臨有新的衡量指標出現(xiàn)的情況,所以為了保持該數(shù)學模型的延續(xù)性,加入判別分析方法。
1.1.3 運用判別分析對新指標歸類
判別分析的目的是為識別個體的所屬類別,基本原理是按照一定的判別準則,建立一個或多個判別函數(shù),用研究對象的大量資料確定判別函數(shù)中的待定系數(shù),并計算判別指標,據(jù)此即可確定某一樣本屬于何類[2]。
本文從衡量指標中隨機抽取一個“凈資產(chǎn)增長率”來作為假設新出現(xiàn)的變量,以此來分析突發(fā)情況的出現(xiàn)。2015年第四季度相關信息如表8所示。
表8 凈資產(chǎn)增長率數(shù)據(jù)(標準化)
為了判別“凈資產(chǎn)增長率”聚類分析后的類型,對經(jīng)標準化處理后的樣本數(shù)據(jù)即上述15個上市公司的凈資產(chǎn)增長率為變量,使用SPSS軟件進行貝葉斯判別分析[3],這里省去前面的分析結果,僅對每組的分類函數(shù)進行分析計算(見表9)。
表9 分類函數(shù)系數(shù)表
由表9可知:y=1這組的分類函數(shù)為:f1=-24.298+32.130×標準化的中糧地產(chǎn)+13.521×標準化的萬科A+7.266×標準化的金地集團-56.172×標準化的外高橋+14.243×標準化的臥龍地產(chǎn)+23.913×標準化的北京城建-3.994×標準化的保利地產(chǎn)-22.443×標準化的金融街
y=2這組的分類函數(shù)為:f2=-13.475+15.645×標準化的中糧地產(chǎn)+11.298×標準化的萬科A+2.891×標準化的金地集團-39.212×標準化的外高橋+6.977×標準化的臥龍地產(chǎn)+18.441×標準化的北京城建-0.345×標準化的保利地產(chǎn)-14.807×標準化的金融街
將“凈資產(chǎn)增長率”的數(shù)據(jù)帶入f1、f2函數(shù)中得:
f1=9.10,f2=16.72
最大的為f2,所以將“凈資產(chǎn)增長率”分類到第二類中。接下來回到1.1.2主成分分析,再對新分好的新類進行降維,確定綜合衡量指標。
1.2在某個行業(yè)板塊中選取績優(yōu)股
根據(jù)上一數(shù)學模型對10小類衡量指標的聚類、降維,得出6大類綜合衡量指標,這里選用這6大類綜合指標對股票的投資價值進行分析,結果見表10。
表10 15家地產(chǎn)上市公司2015年第四季度綜合衡量指標數(shù)據(jù)(標準化)
由表10可知:可以運用綜合衡量指標對任意一個行業(yè)或者股票組合中的股票進行績優(yōu)股選取,這里依舊選取上述15家地產(chǎn)上市公司股票進行分析,以達到數(shù)學建模的目的。
本部分主要運用主成分分析來構建綜合評價函數(shù),通過綜合評價函數(shù)的得分來進行股票價值排序,最終確定績優(yōu)股[4-6]。通過SPSS軟件進行主成分分析,得到總方差解釋表、成分矩陣表如表11、表12所示。
表11 總方差解釋表
表12 成分矩陣
由表12可得到主成分系數(shù)矩陣表,如表13所示。
表13 主成分系數(shù)矩陣
以各主成分的方差貢獻率作為權重來構造綜合評價函數(shù):
f=a1f1+a2f2+…+anfn
由表11可知:方差貢獻率有4個,即a1=0.28、a2=0.24、a3=0.17、a4=0.16,得到綜合評價函數(shù)為f=a1f1+a2f2+a3f3+a4f4,即f=0.28f1+0.24f2+0.17f3+0.16f4。
由表13可得,主成分表達式分別為:
f1=0.70×prin6-0.09×prin5-0.40×prin1+0.16×prin2+0.18×prin3+0.53×prin4
f2=0.09×prin6-0.70×prin5-0.30×prin1-0.13×prin2+0.52×prin3-0.36×prin4
f3=-0.09×prin1+0.94×prin2-0.05×prin3-0.34×prin4
f4=-0.71×prin1+0.19×prin2-0.64×prin3-0.26×prin4
最終得到綜合評價函數(shù)為:
f=0.28×(0.70×prin6-0.09×prin5-0.40×prin1+0.16×prin2+0.18×prin3+0.53×prin4) +0.24×(0.09×prin6+0.70×prin5-0.30×prin1-0.13×prin2+0.52×prin3-0.36×prin4) +0.17×(-0.09×prin1+0.94×prin2-0.05×prin3-0.34×prin4)+0.16×(0.71×prin1 +0.19×prin2+0.64×prin3+0.26×prin4)
基于表10的數(shù)據(jù),通過綜合評價函數(shù)得出股票價值綜合得分排名如表14所示。
表14 股票價值綜合得分排名
由表14得出地產(chǎn)上市公司15只股票的投資價值得分排序,投資者可以根據(jù)不同需求選取排名靠前的股票進行投資,也可以構建相應的投資組合來分散風險。
本文建立了兩個數(shù)學模型,分別是“確定衡量指標模型”和“確定績優(yōu)股模型”。
第一個模型是為了在不損失衡量股票投資價值信息的前提下減少市場中的指標數(shù)量,使指標既能包含衡量股票價值的大部分信息,又不繁多。第二個模型主要是選取出市場中某個行業(yè)中或投資組合中的績優(yōu)股,個人投資者可以對排名1或者2的股票進行投資,而機構投資者可以根據(jù)排名靠前的幾只股票進行投資組合,相應的投資比例也可以按順序從大到小排列,進而減少盲目投資所帶來的損失。
兩類模型都是建立在大數(shù)據(jù)基礎之上的,如果沒有市場中全部的數(shù)據(jù)信息作支撐,這兩類模型也不能發(fā)揮實際的效用,即數(shù)據(jù)越多,該類模型發(fā)揮的作用就越大,得到的投資決策也就越精確。
市場中的數(shù)據(jù)在不斷變化,模型評估的結論只適用于短期或者中期,如果想要得到更為精確的結論,就必須用最新的數(shù)據(jù)。
[1] 盧紋岱.SPSS統(tǒng)計分析[M].北京:電子工業(yè)出版社,2010.
[2] 何曉群.多元統(tǒng)計分析[M].北京:中國人民大學出版社,2012.
[3] 任志娟.SPSS中判別分析方法的正確使用[J].統(tǒng)計與決策,2006(3):157.
[4] 陳琦.聚類分析和判別分析在股票投資中的應用[J].中國市場,2011(26):69-72.
[5] 馬奔.基于SPSS的股票選取策略[J].經(jīng)濟研究導刊,2013(7):78-80.
[6] 王慶慶.股票綜合得分的主成分分析[J].商業(yè)文化月刊,2009(12):299-300.
Selectionofblue-chipstocksbasedonmultivariatestatistics
CAI Yu-jie,YANG Bo
(SchoolofMathematicsandPhysics,HenanUniversityofUrbanConstruction,Pingdingshan467036,China)
In this paper,the cluster analysis,discriminant analysis and principal component analysis of multivariate statistical analysis are used to analyze the stock in an industry,and then select the chip to provide help for the investment behavior of the investors.Firstly,through clustering analysis and principal component analysis,we analyze all the value indexes,select some new indexes of stock value,and do not lose the integrality of the information contained in most indexes,and add discriminant analysis to popularize the model.Secondly,on the basis of the measure index,the principal component analysis is used to construct the comprehensive evaluation function,and finally obtains the chip sort of the rank of the comprehensive score in an industry.
cluster analysis; discriminant analysis; principal component analysis; SPSS
2017-03-07
河南省科技攻關計劃項目(162300410087)
蔡玉杰(1986—),女,河南許昌人,博士,講師。
1674-7046(2017)03-0085-08
10.14140/j.cnki.hncjxb.2017.03.0015
O213
:A