• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向大數(shù)據(jù)的并行聚類算法在股票板塊劃分中的應(yīng)用

    2015-03-17 03:32:52牛怡晗張悅今
    大數(shù)據(jù) 2015年4期
    關(guān)鍵詞:財(cái)務(wù)指標(biāo)板塊股票

    海 沫,牛怡晗,張悅今

    1. 中央財(cái)經(jīng)大學(xué)信息學(xué)院 北京 100081;2. 上海浦東發(fā)展銀行昆明分行 昆明 650000

    面向大數(shù)據(jù)的并行聚類算法在股票板塊劃分中的應(yīng)用

    海 沫1,牛怡晗2,張悅今1

    1. 中央財(cái)經(jīng)大學(xué)信息學(xué)院 北京 100081;2. 上海浦東發(fā)展銀行昆明分行 昆明 650000

    上市公司的經(jīng)營業(yè)績在一定程度上反映股票的投資價(jià)值,因此以反映上市公司盈利能力、償債能力、成長能力、資產(chǎn)管理質(zhì)量及股東獲利能力5個(gè)方面共15項(xiàng)財(cái)務(wù)指標(biāo)作為股票投資價(jià)值的衡量指標(biāo),首次嘗試使用面向大數(shù)據(jù)的并行聚類算法Mahout中的K-means聚類算法和模糊K-means聚類算法對中國A股市場約2 600支股票依據(jù)其財(cái)務(wù)指標(biāo)進(jìn)行聚類,以便進(jìn)行股票板塊的劃分,并比較兩種算法在不同距離度量方式下的迭代次數(shù)、執(zhí)行時(shí)間、聚類間密度和聚類內(nèi)密度。實(shí)驗(yàn)結(jié)果表明,谷本距離度量方式下的K-means算法聚類效果最好,因此可將該實(shí)驗(yàn)結(jié)果作為最終股票板塊劃分結(jié)果進(jìn)行分析,從而為投資決策提供參考。

    財(cái)務(wù)指標(biāo);并行聚類算法;K-means;模糊K-means;股票板塊劃分

    1 引言

    股票市場作為連接上市公司和投資者的橋梁,在金融系統(tǒng)中有不可替代的重要作用。隨著中國股票市場的快速發(fā)展,如何在股票市場上選擇具有投資價(jià)值的股票進(jìn)行投資對投資者來說非常重要,關(guān)系到投資者的利益問題,但影響股票市場的因素很多,例如政治、政策、經(jīng)濟(jì)等因素都會(huì)不同程度地影響股票市場。上市公司的經(jīng)營業(yè)績在一定程度上反映股票的投資價(jià)值,而上市公司的財(cái)務(wù)指標(biāo)是企業(yè)總結(jié)和評價(jià)財(cái)務(wù)狀況和經(jīng)營成果的相對指標(biāo),因而選取了能反映上市公司經(jīng)營業(yè)績的財(cái)務(wù)指標(biāo),并對股票按照這些財(cái)務(wù)指標(biāo)進(jìn)行合理的板塊劃分。通過對股票進(jìn)行合理的板塊劃分,能幫助投資者準(zhǔn)確地了解和把握股票的總體特征,確定投資范圍,并通過各類的總體價(jià)格水平預(yù)測股票價(jià)格的變動(dòng)趨勢,選擇有利的投資時(shí)機(jī)[1]。

    聚類技術(shù)可以將股票市場上的股票根據(jù)特定的特征進(jìn)行合理劃分,得到具有指導(dǎo)意義的股票板塊分類,便于投資者根據(jù)需求從合適的分類中選擇股票進(jìn)行投資。聚類結(jié)果對于投資者的指導(dǎo)作用主要包括[1]:了解各股票板塊的基本特征及總體狀況,初步劃分出業(yè)績優(yōu)良和業(yè)績一般的版塊;根據(jù)選取的財(cái)務(wù)指標(biāo),了解各板塊的特征,如收益性、成長性等,幫助投資者判斷股票的投資價(jià)值;得到同一板塊的均衡價(jià)格,找出受市場因素影響而低于這一價(jià)格的股票,將其視為具有升值空間且投資風(fēng)險(xiǎn)相對較小的股票。

    本文以近2 600個(gè)上市公司的財(cái)務(wù)指標(biāo)為依據(jù),第一次在Hadoop平臺上使用面向大數(shù)據(jù)的并行聚類算法Mahout軟件庫中的K-means算法和模糊K-means算法對財(cái)務(wù)指標(biāo)數(shù)據(jù)進(jìn)行聚類。通過實(shí)驗(yàn)比較K-means算法及模糊K-means算法在Hadoop環(huán)境下對財(cái)務(wù)指標(biāo)聚類的效率和質(zhì)量,以找到適合大規(guī)模財(cái)務(wù)指標(biāo)的并行化聚類方法,最終得到以財(cái)務(wù)指標(biāo)為標(biāo)的的股票板塊劃分,幫助投資者準(zhǔn)確了解和把握股票的總體特性,選出各板塊及板塊內(nèi)的績優(yōu)股和潛力股,使投資者能做出最佳的投資決策。

    2 相關(guān)工作

    聚類分析在股票市場板塊分析中的研究可分為兩類。

    2.1 聚類指標(biāo)體系的建立

    周焯華等[2]將聚類分析方法引入證券投資分析中,對股票的行業(yè)因素、公司因素、收益性、成長性等基本層面進(jìn)行考察,建立了較為全面的綜合評價(jià)指標(biāo)體系,以衡量樣本股票的相似程度;然后通過聚類分析模型確定投資范圍和投資價(jià)值。實(shí)證研究表明,該方法對指導(dǎo)證券投資具有有效性和實(shí)用性。勞蘭珺等[3]提出對行業(yè)指數(shù)收益率序列分階段進(jìn)行聚類分析的動(dòng)態(tài)分析方法,以考察行業(yè)間的相互關(guān)系及其演化過程;并基于深交所的行業(yè)指數(shù)數(shù)據(jù)進(jìn)行實(shí)證研究,分析了各行業(yè)間的相似程度,有助于加深投資者及監(jiān)管部門對行業(yè)間相互關(guān)系的了解,對投資決策具有參考價(jià)值。李云飛等[4]以全部上市公司為樣本,通過模糊聚類和指標(biāo)篩選得到了一個(gè)包含5個(gè)方面15項(xiàng)指標(biāo)的股票投資價(jià)值評價(jià)指標(biāo)集,為數(shù)據(jù)挖掘技術(shù)在股票價(jià)值投資方面的應(yīng)用提供了實(shí)證依據(jù)。孫磊平[5]通過數(shù)據(jù)挖掘中的Logistic回歸模型、決策樹及神經(jīng)網(wǎng)絡(luò)模型3種方法對上市公司的財(cái)務(wù)比率指標(biāo)和股票投資價(jià)值的內(nèi)在聯(lián)系進(jìn)行分析研究,從公司盈利能力、償債能力、發(fā)展能力、運(yùn)營能力以及現(xiàn)金流5個(gè)方面找出對股票投資價(jià)值有較大影響的上市公司財(cái)務(wù)指標(biāo)。

    2.2 聚類方法的選擇和實(shí)現(xiàn)

    鄧秀勤[6]通過選取高科技板塊中31個(gè)上市公司5個(gè)反映綜合盈利能力的指標(biāo),運(yùn)用SAS軟件中的聚類過程Cluster對31個(gè)樣本進(jìn)行聚類,最終得到4個(gè)與公司的實(shí)際財(cái)務(wù)狀況和經(jīng)營狀況相吻合的類。楊富勇[7]使用Clementine軟件中的K-means、Kohonen和TwoStep 3種聚類算法,以13個(gè)反映上市公司五大方面情況的財(cái)務(wù)指標(biāo)作為聚類指標(biāo)體系對中國A股市場800多支股票進(jìn)行聚類分析,發(fā)現(xiàn)TwoStep聚類方法在股票聚類分析過程中具有較好的分析結(jié)果。張傳琦[8]使用優(yōu)化的蟻群聚類算法從財(cái)務(wù)指標(biāo)和個(gè)股收益率波動(dòng)兩方面對中國A股市場上1 800多支股票進(jìn)行聚類,結(jié)果表明該算法對大樣本數(shù)據(jù)進(jìn)行聚類分析具有可行性和良好的效果。

    綜上所述,國內(nèi)關(guān)于聚類算法在股票板塊分析中的應(yīng)用研究大都是以少于10維的財(cái)務(wù)指標(biāo)作為聚類指標(biāo)體系,并選取50支股票以下的小樣本量進(jìn)行聚類分析。參考文獻(xiàn)[8]對1 800多支股票按照優(yōu)化的蟻群聚類算法進(jìn)行了聚類,但并沒有采用面向大數(shù)據(jù)的并行聚類算法進(jìn)行聚類。本文首次將面向大數(shù)據(jù)的并行聚類算法應(yīng)用于整個(gè)中國A股市場的股票板塊劃分,在Hadoop平臺下應(yīng)用Mahout算法庫中的聚類算法,基于選取的多于10維的財(cái)務(wù)指標(biāo),對目前A股市場上所有股票進(jìn)行并行化聚類,從而得到整個(gè)A股市場的板塊劃分,對于投資者進(jìn)行合理的投資決策具有重要的實(shí)際意義。

    3 財(cái)務(wù)指標(biāo)

    影響股票投資價(jià)值的上市公司財(cái)務(wù)數(shù)據(jù)指標(biāo)有很多,本文以李云飛、李鵬雁[4]通過對全部上市公司的財(cái)務(wù)數(shù)據(jù)進(jìn)行模糊聚類后篩選得到的評價(jià)指標(biāo)集作為參考,選取了能反映上市公司經(jīng)營業(yè)績5個(gè)方面共15項(xiàng)指標(biāo)作為聚類實(shí)驗(yàn)的財(cái)務(wù)指標(biāo)。這15項(xiàng)指標(biāo)基本涵蓋了股票投資價(jià)值所包含的全部信息。然后將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,用15維的數(shù)組作為聚類算法的輸入。

    (1)盈利能力指標(biāo)

    · 總資產(chǎn)凈利潤率=凈利潤/總資產(chǎn)余額;

    · 凈資產(chǎn)收益率=凈利潤/股東權(quán)益余額;

    · 營業(yè)凈利潤=凈利潤/營業(yè)收入。

    (2)償債能力指標(biāo)

    · 流動(dòng)比例=流動(dòng)資產(chǎn)/流動(dòng)負(fù)責(zé);

    · 現(xiàn)金比率=現(xiàn)金及現(xiàn)金等價(jià)物期末余額/流動(dòng)負(fù)債;

    · 資產(chǎn)負(fù)債率=負(fù)債合計(jì)/資產(chǎn)總計(jì)。

    (3)資產(chǎn)管理質(zhì)量指標(biāo)

    · 總資產(chǎn)周轉(zhuǎn)率=營業(yè)收入/資產(chǎn)總額期末余額;

    · 每股現(xiàn)金凈流量=現(xiàn)金及現(xiàn)金等價(jià)物凈增加額本期值/實(shí)收資本本期末值;

    · 存貨周轉(zhuǎn)率=營業(yè)成本/存貨期末余額。

    (4)成長能力指標(biāo)

    · 總資產(chǎn)增長率=(資產(chǎn)總計(jì)本期期末值-資產(chǎn)總計(jì)本期期初值)/資產(chǎn)總計(jì)本期期初值;

    · 營業(yè)利潤增長率=(營業(yè)利潤本年本期單季度金額-營業(yè)利潤上一個(gè)單季度金額)/營業(yè)利潤上一個(gè)單季度金額;

    · 營業(yè)總收入增長度=(營業(yè)總收入本年本期金額-營業(yè)總收入上年同期金額)/營業(yè)總收入上年同期金額。

    (5)股東獲利能力指標(biāo)

    · 每股營業(yè)收入=營業(yè)收入本期值/實(shí)收資本本期期末值;

    · 每股營業(yè)收入=營業(yè)收入本期值/實(shí)收資本本期期末值;

    · 市盈率=今收盤價(jià)當(dāng)期值/(凈利潤上年年報(bào)值/實(shí)收資本本期期末值)。

    4 實(shí)驗(yàn)結(jié)果及分析

    本文實(shí)驗(yàn)數(shù)據(jù)為國泰安數(shù)據(jù)庫上中國上市公司財(cái)務(wù)指標(biāo)分析數(shù)據(jù)庫中下載的所有上市公司的2014年6月的財(cái)務(wù)數(shù)據(jù),有效數(shù)據(jù)共包含2 544個(gè)樣本,每個(gè)樣本包含15項(xiàng)財(cái)務(wù)指標(biāo),即有15個(gè)維度。對各項(xiàng)指標(biāo)值進(jìn)行標(biāo)準(zhǔn)化處理后,進(jìn)行聚類實(shí)驗(yàn)。本實(shí)驗(yàn)環(huán)境為在一臺阿里云服務(wù)器上搭建的偽分布式Hadoop平臺,包括一個(gè)主節(jié)點(diǎn)和一個(gè)從節(jié)點(diǎn)。具體軟硬件配置如下:CPU為雙核;內(nèi)存為2 GB;帶寬為100 Mbit/s;操作系統(tǒng)為CentOS 6.5 64 bit;JDK為jdk-7u71-linux-x64;Hadoop版本為Hadoop 1.2.1; Mahout版本為mahout-distribution-0.9。在該平臺上使用Mahout中的K-means算法和模糊K-means算法對數(shù)據(jù)進(jìn)行聚類。算法參數(shù)見表1。

    對K-means和模糊K-means兩種聚類算法在歐幾里得距離、平方歐幾里得距離、曼哈頓距離、余弦距離和谷本距離5種不同的距離測量方法下分別進(jìn)行了財(cái)務(wù)指標(biāo)聚類,并最終計(jì)算了每個(gè)實(shí)驗(yàn)的聚類間密度和聚類內(nèi)密度[9],將其作為聚類質(zhì)量的評價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果見表2和表3。

    由表2和表3可以看出,對于該財(cái)務(wù)指標(biāo)數(shù)據(jù)集,模糊K-means算法相比K-means算法在不同距離測度選擇下都有更少的迭代次數(shù)和更短的執(zhí)行時(shí)間,說明模糊K-means算法比K-means算法收斂得更快,有更高的執(zhí)行效率。比較以上5種距離算法,模糊K-means和K-means算法在選擇余弦距離作為距離計(jì)算參數(shù)時(shí),都在1至2次迭代后就收斂,有很高的執(zhí)行效率。但由于該距離算法不考慮兩個(gè)向量的長度,只關(guān)注從原點(diǎn)到兩個(gè)點(diǎn)的方向,因此分析兩種算法選擇余弦距離作為距離參數(shù)的聚類輸出,發(fā)現(xiàn)50個(gè)分類中股票數(shù)量分布非常極端,有的類有幾百只股票,而有的類僅有幾只股票。這樣的結(jié)果沒有現(xiàn)實(shí)的指導(dǎo)意義,因此在對股票的財(cái)務(wù)指標(biāo)聚類時(shí)不適合選擇余弦距離作為距離參數(shù)。

    表1 聚類算法參數(shù)設(shè)置

    表2 不同距離算法選擇下K-means的聚類結(jié)果

    表3 不同距離算法選擇下模糊K-means的聚類結(jié)果

    在排除余弦距離算法后,比較K-means算法在不同距離測度選擇下的聚類結(jié)果,當(dāng)選擇谷本距離作為距離算法參數(shù)時(shí),K-means算法有最少的迭代次數(shù)和最短的執(zhí)行時(shí)間,同時(shí)還有最小的聚類間密度和最大的聚類內(nèi)密度,表明K-means算法在選擇谷本距離對財(cái)務(wù)指標(biāo)數(shù)據(jù)集進(jìn)行聚類計(jì)算時(shí)有最高的執(zhí)行效率以及最好的聚類質(zhì)量。而具體分析該實(shí)驗(yàn)的聚類輸出,發(fā)現(xiàn)50個(gè)分類中有較為平均的股票數(shù)量,對實(shí)際應(yīng)用具有指導(dǎo)意義,可將其作為財(cái)務(wù)指標(biāo)的股票板塊劃分結(jié)果。比較模糊K-means算法的聚類結(jié)果,當(dāng)選擇平方歐幾里得距離作為距離算法參數(shù)時(shí)有最高的執(zhí)行效率和最好的聚類質(zhì)量,同樣分析該實(shí)驗(yàn)的聚類輸出,也有相對平均的聚類劃分,但由于模糊K-means算法不是像K-means算法一樣的硬性聚類,它會(huì)劃分成有重疊的簇,因此其聚類輸出的聚類劃分較K-means算法更不平均。

    綜上所述,對于該股票財(cái)務(wù)數(shù)據(jù)聚類實(shí)驗(yàn),K-means算法應(yīng)選擇谷本距離算法作為距離參數(shù),而模糊K-means算法應(yīng)選擇平方歐幾里得距離算法作為距離參數(shù)。

    根據(jù)以上分析,選擇將谷本距離作為距離計(jì)算參數(shù)的K-means算法和將平方歐幾里得距離作為距離計(jì)算參數(shù)的模糊K-means算法對股票財(cái)務(wù)指標(biāo)進(jìn)行聚類,并對其結(jié)果進(jìn)行分析。具體處理過程包括以下幾個(gè)步驟。

    (1)使用Mahout中的Clusterdump類讀取聚類結(jié)果,并將結(jié)果輸出保存為文本文件。

    (2)根據(jù)財(cái)務(wù)數(shù)據(jù)找到每一條數(shù)據(jù)對應(yīng)的股票代碼。

    (3)統(tǒng)計(jì)具有相同聚類編號的股票數(shù)量,即每個(gè)板塊內(nèi)的股票數(shù)量。

    (4)考慮到聚類結(jié)果的實(shí)際指導(dǎo)意義,在K-means算法的聚類結(jié)果中篩選出每一類中股票數(shù)量大于30支且小于100支的分類(共26類),在模糊K-means算法的聚類結(jié)果中篩選出每一類中股票大于10支且小于100支的分類(共27類)。

    (5)計(jì)算每一類中能反映上市公司盈利能力、償債能力、資產(chǎn)管理質(zhì)量、成長能力和股東獲利能力的各財(cái)務(wù)指標(biāo)的標(biāo)準(zhǔn)差和平均標(biāo)準(zhǔn)差。具體計(jì)算結(jié)果見表4和表5。

    根據(jù)股票財(cái)務(wù)指標(biāo)板塊劃分的原理,同一類型的公司應(yīng)當(dāng)具有相似的經(jīng)營狀況,即同一類內(nèi)上市公司財(cái)務(wù)指標(biāo)的標(biāo)準(zhǔn)差應(yīng)當(dāng)小于總體的標(biāo)準(zhǔn)差1,且該值越小表示同一類內(nèi)的股票財(cái)務(wù)數(shù)據(jù)相似度越高。根據(jù)各財(cái)務(wù)指標(biāo)的平均值和標(biāo)準(zhǔn)差的計(jì)算結(jié)果可知,K-means算法和模糊K-means算法都只有一個(gè)分類的平均標(biāo)準(zhǔn)差大于1,其他分類的平均標(biāo)準(zhǔn)差均小于1,表明兩種算法的劃分結(jié)果都較合理。但K-means算法得到的劃分結(jié)果與模糊K-means算法相比,只有5個(gè)類的各項(xiàng)指標(biāo)平均標(biāo)準(zhǔn)差大于模糊K-means算法;并且K-means算法得到的有效劃分中包含的股票總數(shù)量為1 483支,而模糊K-means算法僅有511支。由此可知,K-means算法對于股票財(cái)務(wù)數(shù)據(jù)的聚類效果優(yōu)于模糊K-means算法。因此,本文選擇使用平方歐幾里得距離作為距離度量方法K-means算法的聚類結(jié)果,也作為最終對中國上市公司股票板塊劃分的結(jié)果,見表6。

    表4 模糊K-means聚類結(jié)果財(cái)務(wù)指標(biāo)標(biāo)準(zhǔn)差

    表5 K-means聚類結(jié)果財(cái)務(wù)指標(biāo)標(biāo)準(zhǔn)差

    類別股票數(shù)量/支盈利能力成長能力股東獲利能力償債能力資產(chǎn)管理質(zhì)量平均標(biāo)準(zhǔn)差12350.0530.0380.0790.0390.0500.052 13310.0700.0310.0970.1540.0570.082 14870.1230.0680.2170.1020.0980.122 15570.0580.0430.1660.0550.0630.077 16480.1090.1080.2440.0700.1390.134 17520.0700.0470.1960.0370.0950.089 18770.1120.0790.1920.0780.1130.115 19410.0660.0610.0970.0400.0820.069 20330.0930.0450.2110.1460.1010.119 21670.2210.1740.5880.0910.6790.351 22540.0740.0280.1050.0360.0750.064 23550.0940.0480.1570.0940.0910.097 24590.0430.0380.0960.0390.0610.055 25350.1960.0820.4802.0962.9651.164 26800.0570.0580.0930.0550.0650.066

    每一大類中股票的分析結(jié)果如下。

    (1)第一大類

    7類:該類別股票盈利能力較強(qiáng)、股東回報(bào)率較高、成長能力一般、投資安全性較高,屬于對風(fēng)險(xiǎn)厭惡的投資者短期投資的對象。

    8、13類:該類別股票盈利能力較強(qiáng)、股東回報(bào)率一般、成長能力較強(qiáng)、投資安全性高,具有較好的發(fā)展前景,屬于對風(fēng)險(xiǎn)厭惡的投資者長期投資的對象。

    (2)第二大類

    3類:該類別股票盈利能力、股東回報(bào)率、成長能力均較強(qiáng),投資安全性一般。對于風(fēng)險(xiǎn)中立的投資者來說,無論是長期還是短期都是極佳的投資標(biāo)的。

    4、9、11類:該類別股票盈利能力和成長能力較強(qiáng)、股東回報(bào)率一般、投資安全性一般。對于風(fēng)險(xiǎn)中立的投資者來說,由于其具有較好的擴(kuò)張發(fā)展能力,因此是值得進(jìn)行長期投資的標(biāo)的。

    表6 股票財(cái)務(wù)數(shù)據(jù)K-means算法聚類結(jié)果

    16類:該類別股票盈利能力一般、成長能力較強(qiáng)、股東回報(bào)率較高、投資安全性一般。對于風(fēng)險(xiǎn)中立的投資者來說,亦是值得進(jìn)行長期投資的標(biāo)的。

    21類:該類別股票盈利能力較強(qiáng)、成長能力一般、股東回報(bào)率較高、投資安全性一般。對于風(fēng)險(xiǎn)中立的投資者來說,是適合短期投資的標(biāo)的。

    (3)第三大類

    1、5類:該類別股票盈利能力一般、成長能力較強(qiáng)、股東回報(bào)率較高、投資安全性較低。對于風(fēng)險(xiǎn)偏好的投資者來說,適合進(jìn)行長期投資。

    6類:該類別股票盈利能力、股東回報(bào)率、成長能力均較強(qiáng),投資安全性較低。對于風(fēng)險(xiǎn)偏好的投資者來說,是長期、短期投資皆可的投資對象。

    12、23類:該類別股票盈利能力和成長能力較強(qiáng)、股東回報(bào)率一般、投資安全性較低。對于風(fēng)險(xiǎn)偏好的投資者來說,是一個(gè)長期的投資對象。

    22類:該類別股票盈利能力較強(qiáng)、成長能力一般、股東回報(bào)率較高、投資安全性較低。對于風(fēng)險(xiǎn)偏好的投資者來說,是短期的投資對象。

    (4)其他大類

    第四、五、六、七、八類投資價(jià)值意義不大。尤其第七、八類是明顯的績差股、垃圾股。

    5 結(jié)束語

    本文對Mahout中的K-means算法和模糊K-means算法使用不同的距離測量方式,對中國股票市場上所有上市公司按照能反映公司盈利能力、償債能力、成長能力、資產(chǎn)管理質(zhì)量及股東獲利能力5個(gè)方面共15項(xiàng)財(cái)務(wù)指標(biāo)進(jìn)行了聚類實(shí)驗(yàn),通過對不同距離算法下兩種聚類算法的迭代次數(shù)、執(zhí)行時(shí)間、聚類間密度和聚類內(nèi)密度進(jìn)行比較分析,并結(jié)合實(shí)際聚類結(jié)果,得到適合于股票財(cái)務(wù)數(shù)據(jù)聚類的距離測量方法和聚類算法組合,同時(shí)以該組合的實(shí)驗(yàn)結(jié)果為依據(jù),得到股票板塊劃分,為投資決策提供有益參考。

    [1] 周鑫. 我國股票市場板塊效應(yīng)實(shí)證研究(碩士學(xué)位論文). 成都: 西南交通大學(xué), 2012 Zhou X. Empirical research on plate effect of Chinese stock market (master dissertation). Chengdu: Southwest Jiaotong University, 2012

    [2] 周焯華, 陳文南, 張宗益. 聚類分析在證券投資中的應(yīng)用. 重慶大學(xué)學(xué)報(bào)(自然科學(xué)版), 2002, 25(7): 122~126 Zhou Z H, Chen W N, Zhang Z Y. Application of cluster analysis in stock investment. Journal of Chongqing University(Natural Science Edition), 2002, 25(7): 122~126

    [3] 勞蘭珺, 邵玉敏. 中國股票市場行業(yè)收益率序列動(dòng)態(tài)聚類分析. 財(cái)經(jīng)研究, 2004, 30(11): 75~82 Lao L J, Shao Y M. Dynamic clustering analysis of return series of industrial indexes in Chinese stock market. Journal of Finance and Economics, 2004, 30(11): 75~82

    [4] 李云飛, 李鵬雁. 基于模糊聚類技術(shù)的股票投資價(jià)值評價(jià)指標(biāo)選擇. 燕山大學(xué)學(xué)報(bào), 2008, 32(6): 551~556 Li Y F, Li P Y. Evaluation indexes selection of stocks’ investment value based on fuzzy clustering. Journal of Yanshan University, 2008, 32(6): 551~556

    [5] 孫磊平. 數(shù)據(jù)挖掘方法在股票分析中的應(yīng)用與研究(碩士學(xué)位論文). 成都: 西南財(cái)經(jīng)大學(xué), 2013 Sun L P. The application and research of data mining in stock analysis (master dissertation). Chengdu: Southwestern University of Finance and Economics, 2013

    [6] 鄧秀勤. 聚類分析在股票市場板塊分析中的應(yīng)用. 數(shù)理統(tǒng)計(jì)與管理, 1999, 18(5): 1~4 Deng X Q. Application of cluster analysis in stock market board analysis. Journal of Applied of Statistics and Management, 1999, 18(5): 1~4

    [7] 楊富勇. 數(shù)據(jù)挖掘技術(shù)在股票投資中的應(yīng)用(碩士學(xué)位論文). 長沙: 湖南大學(xué), 2010 Yang F Y. Application of data mining in stock investment (master dissertation). Changsha: Hunan University, 2010

    [8] 張傳琦. 基于蟻群聚類算法的股票板塊分類研究(碩士學(xué)位論文). 上海: 復(fù)旦大學(xué), 2012 Zhang C Q. Research on Stock plate classification based on ant colony clustering algorithm (master dissertation). Shanghai: Fudan University, 2012

    [9] Owen S, Anile R, Dunning T,et al. Mahout in Action. Greenwich: Manning Publications Co, 2012

    海沫,女,博士,中央財(cái)經(jīng)大學(xué)信息學(xué)院副教授,CCF高級會(huì)員,主要研究領(lǐng)域?yàn)榉植际较到y(tǒng)、大數(shù)據(jù)處理和分析。

    牛怡晗,女,就職于上海浦東發(fā)展銀行昆明分行,主要研究領(lǐng)域?yàn)榇髷?shù)據(jù)分析。

    張悅今,女,中央財(cái)經(jīng)大學(xué)信息學(xué)院講師,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘及其應(yīng)用、知識管理、互聯(lián)網(wǎng)金融。

    Hai M, Niu Y H, Zhang Y J. Application of parallel clustering algorithms for big data in the division of stock. Big Data Research, 2015036

    Application of Parallel Clustering Algorithms for Big Data in the Division of Stock

    Hai Mo1, Niu Yihan2, Zhang Yuejin3

    1.School of Information, Central University of Finance and Economics, Beijing 100081, China;

    2. Kunming Branch, Shanghai Pudong Development Bank, Kunming 650000, China

    For the operating performance of listed corporations reflects the value of stock investment to a certain extent, financial index reflecting the operating performance of listed corporations was taken as the evaluation index of stock investment value, and for the first time the parallel clustering algorithms for big data both K-means and fuzzy K-means of Mahout were used to cluster nearly 2 600 stock of China’s A shares market according to their financial index, afterwards the clustering results of these two algorithms under different distance metrics were compared. Experimental results show that the clustering quality of K-means algorithm adopting Tanimoto distance metric is the best. Therefore, this result can be used as the final result of the division of stock, which can provide a reference for the investment decision.

    inancial index, parallel clustering algorithm, K-means, fuzzy K-means, division of stock

    10.11959/j.issn.2096-0271.2015036

    2015-09-30

    北京高等學(xué)校青年英才計(jì)劃資助項(xiàng)目(No.YETP0988),2014年度中財(cái)121人才工程青年博士發(fā)展基金資助項(xiàng)目(No.QBJ1427)

    Foundation Items:Beijing Higher Education Young Elite Teacher Project(No.YETP0988), 121 of CUFE Talent Project Young Doctor Development Fund in 2014(No.QBJ1427)

    海沫,牛怡晗,張悅今. 面向大數(shù)據(jù)的并行聚類算法在股票板塊劃分中的應(yīng)用. 大數(shù)據(jù), 2015036

    猜你喜歡
    財(cái)務(wù)指標(biāo)板塊股票
    板塊拼拼樂
    我國金融機(jī)構(gòu)股價(jià)和主要財(cái)務(wù)指標(biāo)的相關(guān)性分析
    全國國有企業(yè)主要財(cái)務(wù)指標(biāo)
    本周創(chuàng)出今年以來新高的股票
    本周創(chuàng)出今年以來新高的股票
    A股各板塊1月漲跌幅前50名
    本周連續(xù)上漲3天以上的股票
    近期連續(xù)漲、跌3天以上的股票
    全國國有企業(yè)主要財(cái)務(wù)指標(biāo)
    榮豐控股財(cái)務(wù)指標(biāo)分析
    安乡县| 凉城县| 江都市| 定南县| 施甸县| 平遥县| 奇台县| 清涧县| 郧西县| 辽宁省| 象山县| 禹城市| 剑川县| 大城县| 嘉祥县| 鄂州市| 凤台县| 娱乐| 那坡县| 故城县| 中卫市| 西昌市| 台山市| 高淳县| 昭通市| 高碑店市| 卫辉市| 黄龙县| 台南县| 全州县| 霍城县| 永嘉县| 吉林省| 华宁县| 伊金霍洛旗| 北京市| 安仁县| 二手房| 三都| 崇礼县| 靖远县|