• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    降維系統(tǒng)聚類方法在地域劃分中的應用

    2018-09-29 07:00:12俐,璐,
    大連工業(yè)大學學報 2018年5期
    關(guān)鍵詞:降維貢獻率聚類

    劉 俐, 劉 璐, 王 智 森

    ( 大連工業(yè)大學 信息科學與工程學院, 遼寧 大連 116034 )

    0 引 言

    地域劃分已成為產(chǎn)業(yè)、投資、創(chuàng)新投入等的重要依據(jù),是制定地域發(fā)展政策的首要參考。因此,研究地域劃分是為地域經(jīng)濟持續(xù)發(fā)展、產(chǎn)業(yè)調(diào)整、區(qū)域布局等戰(zhàn)略設(shè)想的基礎(chǔ)。常見的地域劃分方法有行政劃分和地理劃分,這些方法屬于定性劃分,而隨著社會經(jīng)濟發(fā)展和產(chǎn)業(yè)發(fā)展,定性的地域劃分不能及時反映地域發(fā)展狀態(tài)。近年來,國內(nèi)外專家學者從不同角度對中國地域劃分進行了定量的聚類研究[1-3]。以農(nóng)村居民人均消費數(shù)據(jù)為研究對象,應用聚類分析方法將31省、市、自治區(qū)劃分為較高、中等、較低3類區(qū)域,并提出促進消費的建議[4]。山東農(nóng)業(yè)大學從肉羊產(chǎn)業(yè)發(fā)展的角度對山東省各市劃分為發(fā)展?jié)摿^(qū)域、優(yōu)勢欠缺區(qū)域和發(fā)展較成熟區(qū)域,進而分析各類區(qū)域的特征,并提出相應的發(fā)展建議[5]。范群林等[6]從環(huán)境技術(shù)創(chuàng)新能力的視角將中國30省、市的區(qū)域劃分為5類,并分析5類地區(qū)的環(huán)境技術(shù)創(chuàng)新能力分布特征,據(jù)此提出各類地區(qū)關(guān)于提升環(huán)境技術(shù)創(chuàng)新能力的相應策略,促進我國的可持續(xù)發(fā)展。

    聚類分析在目前實際應用中,最常用的兩種方法是系統(tǒng)聚類法和快速聚類法。其中,快速聚類法雖然計算速度快,但需要實現(xiàn)根據(jù)樣本空間分布指定分類的數(shù)目,而當樣本的變量數(shù)超過3個時,該方法的可行性就較差。而系統(tǒng)聚類法利用樣本之間的距離最近原則進行聚類,由于類與類之間的距離計算方法靈活多樣,能使其適應不同的要求。但在聚類的過程中,如果對多個變量進行直接聚類,存在維度多和計算量大的問題,因此,本研究重點提出基于降維思想的系統(tǒng)聚類方法,使得降維后的聚類標準更加簡單直觀,降低計算量。利用中國城鎮(zhèn)居民消費數(shù)據(jù)對地域進行劃分,驗證該方法的可用性。

    1 降維系統(tǒng)聚類方法

    在實際問題中有p個指標,將這p個指標看作p個隨機變量,記為X1,X2,…,Xp,主成分分析就是將p個指標通過線性組合轉(zhuǎn)化為p個新的指標,而這些新的指標C1,C2,…,Ck(k≤p)按照保留主要信息量的原則充分反映原指標的信息,并且相互獨立,即

    (1)

    模型滿足的條件包括主成分之間相互獨立;主成分的方差依次遞減;每個主成分的系數(shù)平方和為1,即

    (2)

    根據(jù)主成分分析的數(shù)學模型,原始數(shù)據(jù)及模型條件,將數(shù)學模型中式(1)寫成

    (3)

    協(xié)方差矩陣的計算。利用原始數(shù)據(jù)計算協(xié)方差陣ΣX。

    然后,根據(jù)協(xié)方差矩陣計算特征值和單位特征向量,即UT的列向量是λi,i=1,2,…,p對應的特征向量。

    由式(4)計算特征值λi及其相應的單位特征向量ui=(ui1,ui2,…,uip),i=1,2,…,p,其中I表示單位陣。

    ΣX-λiI=0

    (4)

    由于ΣX為非負定的對稱陣,必存在正交陣U,使得

    (5)

    ΣX的特征根λ1,λ2,…,λp分別代表主成分C1,C2,…,Cp的方差,且特征值依次遞減。

    最后,根據(jù)特征值計算貢獻率(Cr)和累計貢獻率。貢獻率指某個主成分方差占全部方差的比重,也就是某個特征值占全部特征值合計的比重,如式(6)所示。累積貢獻率指前k個貢獻率的加和,為保留絕大部分數(shù)據(jù)信息,將選取累計貢獻率達90%以上的前k個主成分。

    (6)

    累積貢獻率選取前k個主成分,再由式(4)得到特征向量,得到C1,C2,…,Ck(k≤p)的具體線性表達式。對系統(tǒng)聚類的變量進行降維,以線性表達式中變量前的系數(shù)絕對值大于0.4為標準,篩選符合條件的主要變量集合進行系統(tǒng)聚類。

    系統(tǒng)聚類法是先將n個樣品各自看成一類,然后規(guī)定類與類之間的距離,選擇距離最小的一對合并成新的一類,計算新類與其他類的距離,再將距離最近的兩類合并,這樣每次減少一類,直至所有的樣品都成為一類為止。

    計算樣本間的歐氏距離。由于以地區(qū)為樣本,對樣本進行聚類,將距離作為聚類的統(tǒng)計量,且統(tǒng)計量采用歐氏距離,將每一個樣品看作p維空間的一個點,令dij為樣品Xi和Xj的距離,m為樣品指標具體維度。

    (7)

    選取離差平方和計算類間距離。應用離差平方和計算距離,先將n個樣品各自成一類,然后每次縮小一類,每縮小一類離差平方和就要增大,選擇使離差平方和增加最小的兩類合并,直至所有的樣品歸為一類。

    2 降維系統(tǒng)聚類的地域劃分

    2.1 數(shù)據(jù)來源及變量選取

    研究數(shù)據(jù)來源于《中國統(tǒng)計年鑒》[7],2011—2015年中國省級城鎮(zhèn)居民的人均消費支出數(shù)據(jù),具體消費項目名稱及變量的選取如表1所示。

    表1 居民消費項目表

    2.2 降維系統(tǒng)聚類的地域劃分

    對5年31個地區(qū)城鎮(zhèn)居民的8項消費支出項目進行主成分實證分析,得到主成分與8個變量之間的線性組合。并根據(jù)主成分的累計貢獻率,確定主成分個數(shù)。再依據(jù)變量前系數(shù)絕對值的大小,篩選出主要變量作為地域聚類的標準。

    以2015年數(shù)據(jù)為例,首先,利用省級城鎮(zhèn)居民的人均八項消費數(shù)據(jù)計算得出協(xié)方差矩陣

    根據(jù)式(4),得到特征值及相應的單位特征向量

    根據(jù)累計貢獻率來確定需要選取的前k個主成分。由表2累積貢獻率可知,即k取2即可滿足主成分的選取標準,可見2015年主成分的選取保留了93.60%的原始信息。

    表2 2015年主成分導出一覽表

    由單位特征向量寫出主成分對應原始變量的系數(shù),新成分選取為C1和C2與原始變量的線性關(guān)系。兩個主成分C1和C2代替了原來8個變量來描述城鎮(zhèn)居民的總消費支出情況。根據(jù)聚類變量降維篩選原則,在C1中符合條件的變量為X1和X3,在C2中為X1,因此2015年消費的聚類變量為X1和X3。利用同樣的方法,分別對2011—2014年省級城鎮(zhèn)居民人均消費支出的數(shù)據(jù)進行主成分分析,分別得到2011—2015年期間城鎮(zhèn)居民消費的聚類變量,如表3所示。

    表3 系統(tǒng)聚類變量

    將表3主成分降維的聚類變量作為聚類標準,利用系統(tǒng)聚類方法,分別對2011—2015年省級地區(qū)進行聚類。利用式(7)計算省級地區(qū)間的距離,用離差平方和計算類與類之間的距離,然后將距離較近的兩類合并為一類,以此類推,直至聚類結(jié)束,聚類結(jié)果如圖1所示。

    圖1 省級地區(qū)的聚類結(jié)果

    由圖1可見,就單個省級地區(qū)而言,從5年的聚類結(jié)果來看,很難實現(xiàn)跨類發(fā)展,始終保持鄰類別地區(qū)發(fā)展,即一二類內(nèi)的地區(qū)之間波動,三四類內(nèi)的地區(qū)之間波動。各地區(qū)的發(fā)展速度不同,導致有些地區(qū)發(fā)展速度快,超過了原處于同類別的地區(qū),出現(xiàn)部分地區(qū)波動現(xiàn)象。

    對比聚類結(jié)果與實際情況,發(fā)現(xiàn)此種方法的地域劃分結(jié)果與地域發(fā)展的實際情況相符。一方面,由于各地的自然資源、產(chǎn)業(yè)發(fā)展?jié)摿?、人均收入等不同,造成省級之間非均衡發(fā)展的趨勢,因此省級之間被聚為不同類別。另一方面,地域發(fā)展呈現(xiàn)階段性,通過近5年的聚類結(jié)果顯示,大部分省級地區(qū)保持穩(wěn)定發(fā)展,而浙江、廣東、青海、新疆、安徽、湖北、廣西、云南、陜西在2013和2014年出現(xiàn)波動。這表明大部分地區(qū)發(fā)展較穩(wěn)定,即使出現(xiàn)少數(shù)地區(qū)的波動現(xiàn)象,也是發(fā)生在鄰近類別之間。

    3 結(jié) 論

    利用降維系統(tǒng)聚類方法,對全國省級地區(qū)進行地域劃分,該方法對2011—2015年省級地區(qū)城鎮(zhèn)居民的消費數(shù)據(jù)進行實證分析。通過累積貢獻率對主成分進行篩選,根據(jù)主成分中變量前系數(shù)絕對值大小來降低聚類變量的維度,并利用居民消費數(shù)據(jù)對該方法進行驗證。結(jié)果顯示,就單個地區(qū)而言,各省級地區(qū)始終保持在鄰近類別之間發(fā)展,且未出現(xiàn)跨類發(fā)展的現(xiàn)象。表明各地區(qū)保持循序漸進的發(fā)展趨勢,這與地域發(fā)展規(guī)律相符,驗證了降維系統(tǒng)聚類方法的可用性。地域的有效劃分有助于找準地域定位,確定發(fā)展目標,能夠為探討地域的發(fā)展路徑提供有效參考。

    猜你喜歡
    降維貢獻率聚類
    混動成為降維打擊的實力 東風風神皓極
    車主之友(2022年4期)2022-08-27 00:57:12
    一種通用的裝備體系貢獻率評估框架
    降維打擊
    海峽姐妹(2019年12期)2020-01-14 03:24:40
    關(guān)于裝備體系貢獻率研究的幾點思考
    基于DBSACN聚類算法的XML文檔聚類
    電子測試(2017年15期)2017-12-18 07:19:27
    В первой половине 2016 года вклад потребления в рост китайской экономики достиг 73,4 процента
    中亞信息(2016年10期)2016-02-13 02:32:45
    基于改進的遺傳算法的模糊聚類算法
    一種層次初始的聚類個數(shù)自適應的聚類方法研究
    拋物化Navier-Stokes方程的降維仿真模型
    計算物理(2014年1期)2014-03-11 17:00:18
    基于特征聯(lián)合和偏最小二乘降維的手勢識別
    五原县| 利津县| 五家渠市| 丹东市| 衡东县| 沛县| 扬州市| 深圳市| 广元市| 淮北市| 景泰县| 淳安县| 夏津县| 合山市| 军事| 东阿县| 天水市| 望江县| 桃园县| 凤庆县| 富蕴县| 蒙自县| 曲麻莱县| 额敏县| 沙河市| 宁城县| 新平| 班戈县| 青冈县| 奇台县| 德昌县| 东阿县| 大足县| 民县| 西和县| 平山县| 田阳县| 桦甸市| 宣威市| 阿拉善右旗| 罗平县|