• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種遞歸K均值算法與上市公司績效分類研究

    2018-09-10 15:00:11石廣龍
    中國商論 2018年30期
    關(guān)鍵詞:聚類分析

    石廣龍

    摘 要:K均值算法的兩個(gè)不足——最終聚類結(jié)果中簇的數(shù)目即K值需要用戶事先設(shè)定以及用戶一般不能直接對聚類結(jié)果中簇的半徑作限定,限制了它的特定場合應(yīng)用。本文結(jié)合上市公司績效分類背景,對K均值算法作了改進(jìn),提出一種遞歸K均值算法。遞歸K均值算法不需用戶在聚類之前就設(shè)定最終聚類結(jié)果中簇的數(shù)目,一定程度上減輕了用戶負(fù)擔(dān);并且可以直接對聚類結(jié)果中簇的半徑作出限定,有利于對簇內(nèi)數(shù)據(jù)對象的相似程度進(jìn)行控制。遞歸K均值算法的上述特性使得它可以很好地應(yīng)用于上市公司績效分類當(dāng)中,提升分類的客觀精確性。

    關(guān)鍵詞:遞歸K均值算法 聚類分析 上市公司績效分類

    中圖分類號:F224 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-0298(2018)10(c)-169-02

    聚類分析是數(shù)據(jù)挖掘中最重要的技術(shù)之一,主要目的是根據(jù)數(shù)據(jù)的對象特征及關(guān)系信息將數(shù)據(jù)對象分簇,使簇內(nèi)的對象之間區(qū)別足夠小,相似性足夠大,而不同簇的對象之間相似性足夠小,區(qū)別足夠大;同一個(gè)簇內(nèi)的對象之間的相似程度越高,不同簇之間的差異程度越高,說明聚類分析的效果越好。K均值算法是一種經(jīng)典的聚類算法,但是它也存在一些不足,限制了它的應(yīng)用和發(fā)展。本文結(jié)合上市公司績效分類的背景,嘗試對K均值算法作出改進(jìn),提出一種遞歸K均值算法,并將其應(yīng)用于上市公司績效分類,以提高分類的客觀精確性。

    1 K均值算法的不足

    1.1 K均值算法基本思想

    首先,由用戶根據(jù)應(yīng)用問題選擇K的值,即選擇把數(shù)據(jù)對象分為K個(gè)簇;對于每一個(gè)數(shù)據(jù)對象,都被歸納到一個(gè)質(zhì)心,這個(gè)質(zhì)心此時(shí)離它是最近的;所有被歸納到同一個(gè)質(zhì)心的所有數(shù)據(jù)對象組成一個(gè)簇;其次,根據(jù)上一步得到簇的情況,更新每個(gè)簇的質(zhì)心。然后,重復(fù)歸納每個(gè)數(shù)據(jù)對象到最近的質(zhì)心;最后,重復(fù)以上更新質(zhì)心和歸納數(shù)據(jù)對象到質(zhì)心的過程,直到質(zhì)心不再發(fā)生變化[1]。

    1.2 K均值算法的兩個(gè)不足

    K均值算法的不足,使得它在一些特定應(yīng)用中受到限制[2],兩個(gè)主要不足包括以下內(nèi)容。

    (1)聚類數(shù)目K的值需要用戶事先給定:在大多數(shù)實(shí)際應(yīng)用中,用戶事先無法準(zhǔn)確判斷多少個(gè)簇最理想。K值過大,會使聚類結(jié)果過于復(fù)雜難于分析;K值過小,會使聚類結(jié)果失去很多有價(jià)值的信息[3]。

    (2)用戶不能限定聚類結(jié)果的簇的半徑:K均值算法的輸入是數(shù)據(jù)對象集與人為設(shè)定的K,輸出是K個(gè)簇。通常,它輸出的K個(gè)簇的半徑(一個(gè)簇的所有數(shù)據(jù)對象到質(zhì)心的最大距離為這個(gè)簇的半徑)不受人為約束,即聚類形成的K個(gè)簇,有些簇的半徑可能很大,有些簇的半徑可能很小[4]。

    2 一種遞歸K均值算法

    2.1 遞歸K均值算法思想

    對于含有n個(gè)數(shù)據(jù)對象的數(shù)據(jù)集,以根為節(jié)點(diǎn),利用K均值算法做聚類,并計(jì)算每個(gè)簇的半徑,若半徑不大于事前設(shè)定的閾值,則這個(gè)簇不再劃分;若半徑大于給定閾值,則利用K均值算法對其進(jìn)行劃分,程序遞歸執(zhí)行,直到所有葉節(jié)點(diǎn)簇的半徑都不大于給定閾值。

    2.2 遞歸K均值算法特點(diǎn)

    (1)樹型結(jié)構(gòu)中葉子(簇)的數(shù)目取決于簇的半徑閾值Y,Y可以根據(jù)聚類的特定目的而設(shè)定。Y越小,簇的數(shù)目就越多并且簇內(nèi)數(shù)據(jù)對象的相似程度就越高;Y越大,簇的數(shù)目就越少并且簇內(nèi)數(shù)據(jù)對象的相似程度就越低,這使得簇內(nèi)對象相似性可控。

    (2)不同于基本K均值算法在聚類之前就設(shè)定最終聚類結(jié)果中簇的數(shù)目,遞歸K均值算法僅僅設(shè)定每次調(diào)用基本K均值算法對數(shù)據(jù)對象集聚類簇的數(shù)目,一定程度上可以減輕用戶負(fù)擔(dān)。

    3 遞歸K均值算法在上市公司績效分類中的應(yīng)用

    將提出的遞歸K均值算法應(yīng)用到上市公司績效分類中:一方面,檢驗(yàn)遞歸K均值算法在上述兩個(gè)方面改進(jìn)的有效性;另一方面,基于遞歸K均值算法建立一種上市公司績效分類方法,提升分類的客觀精確性。

    3.1 傳統(tǒng)分類方法及不足

    (1)傳統(tǒng)分類方法。國外常見的上市公司績效分類方法有《財(cái)富》500強(qiáng)分類方法、《商業(yè)周刊》分類方法;國內(nèi)比較常用的上市公司業(yè)績評價(jià)方法有誠信評估公司、《上海證券報(bào)》以及上海證券交易所的績效評價(jià)分類方法[5]。

    (2)傳統(tǒng)分類方法的不足。第一,指標(biāo)選取較少,而且各指標(biāo)權(quán)重由人為設(shè)定,難于科學(xué)全面地體現(xiàn)上市公司經(jīng)營績效真實(shí)情況;第二,過度追求上市公司個(gè)體最終得到一個(gè)綜合分?jǐn)?shù),只關(guān)注上市公司排名,忽略了上市公司群體的績效分類,也沒有深層次挖掘上市公司績效相關(guān)的更多信息[6]。

    3.2 上市公司績效分類對聚類算法的特定要求

    (1)通過聚類分析,發(fā)現(xiàn)某一行業(yè)中,可以根據(jù)經(jīng)營績效劃分為幾個(gè)群;但是在聚類之前不知道劃分為幾個(gè)群比較合適,即聚類結(jié)果數(shù)目(K)不能在聚類之先人為指定,而要根據(jù)具體聚類數(shù)據(jù)確定。

    (2)對一個(gè)群內(nèi)上市公司經(jīng)營績效相似程度作出限定,這樣的分群才有實(shí)際分析意義,即聚類形成的簇的半徑R應(yīng)該在一定程度之內(nèi),R在聚類之前人為指定。

    3.3 基于遞歸K均值算法的上市公司績效分類

    (1)分類模型與過程。建立基于遞歸K均值聚類算法的上市公司經(jīng)營績效分類模型與過程:第一,上市公司指標(biāo)選取,選取體現(xiàn)上市公司的償債水平、盈利水平、成長水平三大類16個(gè)財(cái)務(wù)指標(biāo)(2017年A股電子信息行業(yè)331家上市公司真實(shí)數(shù)據(jù));第二,利用主成分分析方法,分別對償債、盈利、成長水平三大類指標(biāo)進(jìn)行降維,將每家公司的特征屬性降至三維;第三,針對主成分分析處理后的數(shù)據(jù),分別使用基本K均值算法與遞歸K均值算法做聚類實(shí)驗(yàn),得到結(jié)果簇;第四,對實(shí)驗(yàn)結(jié)果做對比分析,驗(yàn)證遞歸K均值算法在K值選取與聚類結(jié)果簇的半徑約束方面的改進(jìn)是否有效;第五,基于遞歸K均值算法的聚類結(jié)果,做上市公司績效分類,并初步驗(yàn)證。

    (2)結(jié)果對比分析:聚類結(jié)果對比如圖1、圖2所示,兩種算法比較如表1所示。

    實(shí)驗(yàn)中簇的半徑區(qū)間:K均值算法為[0,27.884];遞歸K均值算法為[0,8.090],小于閾值10,簇較均勻。由聚類結(jié)果可以證明遞歸K均值算法在K值選取與聚類結(jié)果簇的半徑約束方面的改進(jìn)是有效的。

    (3)績效分類效果初步驗(yàn)證:根據(jù)遞歸K均值算法的聚類結(jié)果,電子信息行業(yè)331家上市公司被分為了7個(gè)群,經(jīng)初步驗(yàn)證,每個(gè)群內(nèi)的公司在經(jīng)營績效方面都具有較高的相似性,即該方法提升了上市公司績效分類的客觀精確性。

    4 結(jié)語

    本文結(jié)合上市公司績效分類的具體應(yīng)用背景,提出了一種遞歸K均值算法,并將其應(yīng)用于上市公司績效分類當(dāng)中,提升了分類的客觀精確性。

    參考文獻(xiàn)

    [1] 馮超.K-means聚類算法的研究[D].大連理工大學(xué),2007.

    [2] 趙恒.數(shù)據(jù)挖掘中聚類若干問題研究[D].西安電子科技大學(xué), 2005.

    [3] 段明秀.層次聚類算法的研究及應(yīng)用[D].中南大學(xué),2009.

    [4] 孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報(bào),2008,19(1).

    [5] 馬璐.企業(yè)戰(zhàn)略性績效評價(jià)系統(tǒng)研究[M].北京:經(jīng)濟(jì)管理出版社,2004.

    [6] 馮必容.基于價(jià)值的企業(yè)戰(zhàn)略績效評估體系[J].技術(shù)經(jīng)濟(jì)與管理研究,2006(1).

    猜你喜歡
    聚類分析
    基于譜聚類算法的音頻聚類研究
    基于Weka的江蘇13個(gè)地級市溫度聚類分析
    我國中部地區(qū)農(nóng)村居民消費(fèi)行為階段特征分析
    基于多元統(tǒng)計(jì)方法的高??蒲袪顩r評價(jià)分析
    基于聚類分析的無須人工干預(yù)的中文碎紙片自動拼接
    淺析聚類分析在郫縣煙草卷煙營銷方面的應(yīng)用
    基于聚類分析研究貴州省各地區(qū)經(jīng)濟(jì)發(fā)展綜合評價(jià)
    商情(2016年39期)2016-11-21 08:45:54
    新媒體用戶行為模式分析
    農(nóng)村居民家庭人均生活消費(fèi)支出分析
    基于省會城市經(jīng)濟(jì)發(fā)展程度的實(shí)證分析
    中國市場(2016年33期)2016-10-18 12:16:58
    郑州市| 濮阳县| 镇赉县| 论坛| 弋阳县| 长治市| 富蕴县| 海城市| 江陵县| 子长县| 冀州市| 凤台县| 团风县| 双流县| 正定县| 凤城市| 泉州市| 霍邱县| 夏津县| 闻喜县| 房产| 县级市| 长顺县| 清苑县| 方城县| 潍坊市| 固始县| 龙泉市| 苗栗县| 靖西县| 金坛市| 温宿县| 韩城市| 辉县市| 奉贤区| 定西市| 缙云县| 永新县| 东乡族自治县| 南岸区| 花垣县|