安尼卡爾·艾斯卡爾 祖來克孜·米吉提
摘要:本論文在研究各類系統(tǒng)聚類法的基礎(chǔ)上,并運(yùn)用在實(shí)例中說明其方法在具體問題中的應(yīng)用。即通過最短距離法、最長(zhǎng)距離法、中間距離法、類平均法、重心法、離差平法和法等方法對(duì)新疆各地州生產(chǎn)總值進(jìn)行分類,分析并找出分類質(zhì)量最好的分類結(jié)果,提出其方法所體現(xiàn)的優(yōu)缺點(diǎn),以及在運(yùn)用各類系統(tǒng)聚類算法時(shí)會(huì)存在的弊端等,再對(duì)最終研究結(jié)果依據(jù)相關(guān)領(lǐng)域?qū)嶋H情況進(jìn)行解析,進(jìn)而提出進(jìn)一步提高各地州經(jīng)濟(jì)發(fā)展的對(duì)策建議。
Abstract: On the basis of studying all kinds of system clustering methods, this paper illustrates the application of the method in concrete problems by using examples. By the shortest distance method, the longest distance, middle distance, average method, gravity method, dispersion method and the method of classifying product throughout xinjiang states, analyze and find out the best quality classification classification results, reflect the advantages and disadvantages of the method is put forward, and the use of all kinds of system the insufficiency of clustering algorithm, etc., to finally analyze the results according to the actual situation in related fields, and then put forward countermeasures and suggestions to enhance the economic development across the state.
關(guān)鍵詞:聚類分析;系統(tǒng)聚類法;算法的比較
Key words: cluster analysis;system clustering method;comparison of algorithms
中圖分類號(hào):F061.5? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1006-4311(2019)17-0254-05
0? 引言
聚類分析中最常用的方法之一就是系統(tǒng)聚類法,系統(tǒng)聚類法又稱層次聚類法是統(tǒng)計(jì)學(xué)中聚類分析的一個(gè)重要分支,具有操作簡(jiǎn)單、快速準(zhǔn)確、易于實(shí)現(xiàn)等功能,所以系統(tǒng)聚類法在實(shí)例中的應(yīng)用也變得非常普遍。比如在生物學(xué)領(lǐng)域中,系統(tǒng)聚類法被用來對(duì)動(dòng)植物分類和對(duì)基因進(jìn)行分類,獲取對(duì)種群固有結(jié)構(gòu)的認(rèn)識(shí);還有在研究機(jī)動(dòng)車司機(jī)違法駕駛行為中也有系統(tǒng)聚類法的應(yīng)用,通過其方法得出機(jī)動(dòng)車司機(jī)違法駕駛行為等導(dǎo)致交通事故的影響因素的聚類結(jié)果和其影響程度。[1]隨著計(jì)算機(jī)及互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,推動(dòng)了大數(shù)據(jù)時(shí)代的來臨,隨之而來的就是人們對(duì)大數(shù)據(jù)的分析、管理和利用的迫切需求,而聚類分析在這數(shù)據(jù)挖掘的過程中扮演著至關(guān)重要的角色。
目前無論在任何領(lǐng)域人們所要面對(duì)的需要處理的數(shù)據(jù)比歷史以往任何時(shí)期都要多,難度也變得越來越大。而聚類技術(shù)作為人們處理這些問題時(shí)的重要手段,掌握它的意義所在和正確地運(yùn)用在實(shí)例中也是關(guān)鍵所在,所以在這對(duì)其進(jìn)行深入系統(tǒng)的研究和應(yīng)用說明都將具有非常重要的意義。本文也是在研究系統(tǒng)聚類法的六種聚類方法的基礎(chǔ)上將其應(yīng)用在實(shí)例中,通過系統(tǒng)聚類法的六種聚類方法對(duì)新疆各地州市的生產(chǎn)總值進(jìn)行聚類分析,再通過比較六種分類結(jié)果找出分類質(zhì)量最好的聚類方法,并著重對(duì)其研究分析提出各類方法的優(yōu)缺點(diǎn),再根據(jù)相關(guān)領(lǐng)域知識(shí)對(duì)最終分類質(zhì)量最好的研究結(jié)果進(jìn)行評(píng)價(jià)進(jìn)而提出進(jìn)一步提高各地生產(chǎn)總值的對(duì)策建議。
1? 研究背景及意義
隨著現(xiàn)代社會(huì)的高速發(fā)展,科技發(fā)達(dá),人與人之間的交流越來越密切,再加上計(jì)算機(jī)及互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,所有的事物都變的越來越信息化,就不可避免隨之而產(chǎn)生的不斷增加的數(shù)據(jù)量。對(duì)這些大量數(shù)據(jù)進(jìn)行分析和利用就會(huì)成為現(xiàn)代社會(huì)中各個(gè)領(lǐng)域的一種現(xiàn)實(shí)性需求,隨著需求的不斷增多,它必然會(huì)成為解決經(jīng)濟(jì)社會(huì)各類問題不可缺少的一個(gè)過程。
在這樣一個(gè)背景下,加上現(xiàn)代互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,就會(huì)不斷地推動(dòng)大數(shù)據(jù)的衍生和數(shù)據(jù)挖掘技術(shù)的發(fā)展,傳統(tǒng)的統(tǒng)計(jì)分析方法這時(shí)就會(huì)顯得并沒有太大的效率。隨之學(xué)術(shù)界就研究出了聚類分析技術(shù),它能夠滿足人們對(duì)于大數(shù)據(jù)的管理和利用,聚類分析就成了現(xiàn)代經(jīng)濟(jì)社會(huì)中數(shù)據(jù)挖掘的重要手段,作為最常用的數(shù)據(jù)分析方法,在面對(duì)這些大量數(shù)據(jù)時(shí),聚類技術(shù)會(huì)發(fā)揮出至關(guān)重要的作用,隨之它的運(yùn)用也變?cè)絹碓狡毡椤?/p>
在如今一個(gè)飛速發(fā)展的經(jīng)濟(jì)社會(huì)中,所有事物都變得越來越信息化,這也推動(dòng)了大數(shù)據(jù)時(shí)代的來臨,隨之人們對(duì)數(shù)據(jù)的管理和利用的需求也在不斷增加,而聚類分析在這過程中充當(dāng)著重要的角色,在各個(gè)領(lǐng)域的發(fā)展過程中聚類技術(shù)都有很深入的應(yīng)用。比如在生物學(xué)領(lǐng)域中,聚類分技術(shù)被用來動(dòng)植物分類和對(duì)基因進(jìn)行分類,獲取對(duì)種群固有結(jié)構(gòu)的認(rèn)識(shí);在經(jīng)濟(jì)學(xué)領(lǐng)域中,聚類技術(shù)也可用來對(duì)不同水平生產(chǎn)總值區(qū)域的相關(guān)指標(biāo)進(jìn)行分類分析,獲取對(duì)其經(jīng)濟(jì)指標(biāo)的可靠信息并有助于提供對(duì)策建議,所以對(duì)聚類技術(shù)進(jìn)行深入的研究和應(yīng)用都具有非常重要的意義。
2? 系統(tǒng)聚類法介紹[2]
系統(tǒng)聚類法基本思想是首先把所有的樣品或者變量(指標(biāo))看成是n類(一種樣品或是變量/指標(biāo)即為一類),隨后將從這些n類中性質(zhì)、屬性等相似程度較高的兩類合成新的一類,這樣就會(huì)得到n-1個(gè)類,再?gòu)倪@n-1個(gè)類按上述依據(jù)找出兩類合成一類,就可以得到n-2個(gè)類,如此進(jìn)行下去每次都會(huì)較少一類,進(jìn)行到最后所有的會(huì)在一類,再把上述合成的過程畫成圖(即稱為聚類圖),再根據(jù)自身需要決定分多少類。
①最短距離法(nearest neighbor或single linkage method)。
即:表示在類Gk和類GL中的最鄰近的第j個(gè)和第i個(gè)樣本之間的距離。例圖1說明:
②最長(zhǎng)距離法(farthest neighbor或complete linkage method)。
即:表示在類Gk和類GL中的距離最遠(yuǎn)的第j個(gè)和第l個(gè)樣本之間的距離。例圖2說明:
③中間距離法(Intermediate distance method)。即指上述中的最短距離和最長(zhǎng)距離的中間距離;假設(shè)某一步把Gk和GL合并成一類為GM,再取GKL、GLJ、GKJ為組成三角形的三條邊,把DKL邊的中線當(dāng)做前合并的新類GM到任意一類GJ的距離GMJ,再依據(jù)初等平面幾何定義就可得:
即這類的系統(tǒng)聚類算法就稱為中間距離法。
④類平均法(group average method)。類平均法存在兩種形式的定義,第一種定義是類與類間的距離即表示樣品間的平均距離,表達(dá)式為:
DKL表示類和類間的距離,等號(hào)右邊表示樣品間的平均距離(n為類中的樣品個(gè)數(shù)),其遞推公式為:
類平均法的第二種定義是類與類間的平方距離即表示樣品間平方距離的平均值,即表達(dá)式為:
各字母代表含義與第一類的表達(dá)式相同;其遞推公式為:
類平均法也有優(yōu)于其它系統(tǒng)聚類算法的點(diǎn),即類平均法對(duì)提取所有樣本間的信息會(huì)比較完善。
⑤重心法(centroid method)。重心法表示類和類的重心點(diǎn)間的Euclid距離(即為歐氏距離),即歐氏距離表達(dá)式為:
即: K和 L為類Gk和GL的重心;此類聚類算法就稱為重心法。
其遞推公式表達(dá)式為:
重心法優(yōu)于其它聚類算法的點(diǎn)在于其處理異常值是更穩(wěn)健,但在別的方面卻不如其它聚類算法的效果好。
⑥離差平方和法(sum of squares method)。離差平方和法就是運(yùn)用于方差分析的基本思想,當(dāng)其分類結(jié)果合理時(shí),其離差平方和的區(qū)別很大,同一類樣品的離差平法和很小,而不同類之間的離差平法和很大,聚算過程如下:
先假設(shè)把Gk和GL合并成一新類為GM,再把GK、GL、GM的離差分別表示為:
于是運(yùn)用此類聚類算法的表達(dá)式即為:
或者可以改寫為如下式也同樣實(shí)用
不難看出離差平法和的聚類算法表達(dá)式與重心法的聚類算法表達(dá)式差一個(gè)常數(shù),這就表示前者計(jì)算類間距離的大小與樣本數(shù)有直接關(guān)系,而后者的類間距離大小與此無關(guān)。也表示了離差平方和法相對(duì)于重心法來說更能符合實(shí)際需求,這是一種比較完善的聚類算法。
3? 聚類分析的應(yīng)用研究
選用的研究數(shù)據(jù)來源于中國(guó)統(tǒng)計(jì)局官網(wǎng)新疆統(tǒng)計(jì)年鑒——新疆各地、州、市、縣(市)地區(qū)生產(chǎn)總值數(shù)據(jù)表。為了使研究結(jié)果更加清晰地表達(dá)分類結(jié)果,去掉了此數(shù)據(jù)中各個(gè)地、州、市所包含的縣(市)的數(shù)據(jù),只對(duì)各地州和直轄市進(jìn)行系統(tǒng)聚類法分析。按照上述提出的要求將數(shù)據(jù)整理后,再通過SPSS.22統(tǒng)計(jì)軟件運(yùn)用系統(tǒng)聚類法的六種聚類算法:最短距離法、最長(zhǎng)距離法、中間距離法、類平均法、重心法、離差平法和法對(duì)研究數(shù)據(jù)進(jìn)行聚類研究。
通過運(yùn)用六類系統(tǒng)聚類法對(duì)研究數(shù)據(jù)進(jìn)系統(tǒng)聚類,即各類方法譜系圖為圖3-圖5。
通過上述圖中六類系統(tǒng)聚類法聚類過程的譜系圖,以紅線為參考線將研究數(shù)據(jù)分為了5類,各類算法的分類結(jié)果比較即如表1。
通過上述表1各類分類方法結(jié)果比較,不難看出最短距離法的分類結(jié)果與其它系統(tǒng)聚類算法的分類結(jié)果有所不同,其中最長(zhǎng)距離法、中間距離法、類平均法、重心法、離差平均法的分類結(jié)果都是一樣的。阿克蘇地區(qū)、喀什地區(qū)、塔城地區(qū)和克拉瑪依市的數(shù)據(jù)最為接近,五種聚類算法都將其四個(gè)地區(qū)(市)分為了一類。所以最長(zhǎng)距離法、中間距離法、類平均法、重心法、離差平均法的聚類質(zhì)量是較為好的。
最短距離法就是逐次將距離最短的類合并成新一類,再依此進(jìn)行下去直到分類結(jié)束,這樣來說的話它逐次聚類的類與類間的距離可能會(huì)越來越短,會(huì)出現(xiàn)距離收縮的情況,只要是類于類之間的距離短就并為一類,卻并不管其樣本之間的相異度如何,這也是此方法的不足之處。所以最短距離法適合在本身樣本間差異性就并不是很大的情況下使用。而最長(zhǎng)距離法與最短距離法的算法剛好是相反的,出現(xiàn)的情況也會(huì)是相反的,所以最長(zhǎng)距離法進(jìn)行到后面會(huì)出現(xiàn)距離擴(kuò)張的情況,也會(huì)形成同種的較為緊密的類,可能產(chǎn)生違背“閉合類”的類。
中間距離法是采取了兩類間的中間距離,并取其中線作為計(jì)算類與類之間距離的依據(jù),中間距離法則完全地避免了上述中最短距離法和最長(zhǎng)距離法中會(huì)出現(xiàn)的弊端,所以它的分類質(zhì)量和效果是較為好的。但是在面對(duì)一些大規(guī)模的需要聚類的數(shù)據(jù)時(shí),它聚類的類與類之間的差異性就會(huì)越來越小。重心法的缺陷也正與中間距離法的這一點(diǎn)一樣。
類平均法是傾向于形成比較緊密的類,但類平均法對(duì)距離有好幾種的定義,能覆蓋的面較廣,所以它的聚類效果和分類質(zhì)量都是很好的,應(yīng)用性也是非常的廣泛,是一種很實(shí)用的聚類算法。離差平方和法使用的是平方歐式距離法,它每聚一類離差平方和就會(huì)增大,在實(shí)際應(yīng)用中它的分類效果和質(zhì)量都是較好的,但是離差平方和法只能得出局部的最優(yōu)解,而且計(jì)算相對(duì)較多。
總體來說系統(tǒng)聚類法作為聚類分析的最常用的方法之一,聚類算法靈活多樣,能適用于不同性質(zhì)的樣本,而且操作簡(jiǎn)單適應(yīng)面廣泛。通過上述的對(duì)六種系統(tǒng)聚類法的分析概述,六種聚類算法都有一些或大或小的缺陷,也有各自的優(yōu)點(diǎn),在實(shí)際應(yīng)用中都有一定的操作性和實(shí)用性。但對(duì)于如何選擇最好的系統(tǒng)聚類法上,需要去深入研究各類系統(tǒng)聚類法的聚算方法的性質(zhì),再進(jìn)行比較擇優(yōu)。這也是一個(gè)比較有意義的,更是待于進(jìn)一步深入研究的課題。
4? 結(jié)果與建議
自改革開放以來,中央對(duì)新疆工作高度重視,做出了一系列加快發(fā)展新疆經(jīng)濟(jì)的重要部署,明確了新疆是西部大開發(fā)的重中之中,加大扶持力度,確定新疆經(jīng)濟(jì)發(fā)展的戰(zhàn)略目標(biāo),給新疆的經(jīng)濟(jì)發(fā)展指明了方向。通過不斷努力,近些年新疆經(jīng)濟(jì)發(fā)展也取得了很大的進(jìn)步,經(jīng)濟(jì)社會(huì)保持又好又快的穩(wěn)定發(fā)展趨勢(shì)。但是新疆各地區(qū)間的發(fā)展水平也有明顯差異,天山南北各地區(qū)之間的發(fā)展水平不平衡。南北疆各地州的地理位置、資源等方面的優(yōu)劣勢(shì)都不同,主要的高發(fā)展經(jīng)濟(jì)區(qū)都在北疆東北部,而經(jīng)濟(jì)發(fā)展較差的地域主要在南疆西南部。
所以經(jīng)過第三章內(nèi)容對(duì)系統(tǒng)聚類法的概述分析,本論文分析的最終聚類結(jié)果如表2所示。通過上述的聚類算法的分類結(jié)果再依據(jù)各地州的樣本數(shù)據(jù),將分為的五類聚類結(jié)果依次命名為低發(fā)展地區(qū)、中低發(fā)展地區(qū)、中發(fā)展地區(qū)、中高發(fā)展地區(qū)和高發(fā)展地區(qū)。將其列表3。
在低發(fā)展地區(qū)中大部分都是南疆地區(qū),而且根據(jù)研究數(shù)據(jù)不難看出此類中的南疆地區(qū)第一、二、三產(chǎn)業(yè)比重與同類的其它地、州、市相比還是有一定差距的,不管是在建筑業(yè)、工業(yè)還是在人均生產(chǎn)總值上南疆西南部地區(qū)都普遍較低。而此類其中石河子和吐魯番是地級(jí)市,所以在地域、人口基數(shù)、資源條件等基礎(chǔ)上是與同類中的其它地州是有差距的。
中低發(fā)展地區(qū)和中發(fā)展地區(qū)的經(jīng)濟(jì)社會(huì)發(fā)展是比較穩(wěn)定的,發(fā)展前景也很好,近幾年也是在穩(wěn)步跟進(jìn)。此兩類中有南疆地區(qū)也有北疆地區(qū),它們的各個(gè)產(chǎn)業(yè)比重是有一些差距,但是在總體上的差別并不是很大。阿克蘇地區(qū)和喀什地區(qū)都有各自的有利資源來促進(jìn)各自的發(fā)展,近些年也是取得很有效的成果,但是這些南疆地區(qū)的人均生產(chǎn)總值是確實(shí)是比較低的。
高發(fā)展地區(qū)和中高發(fā)展地區(qū)都是在北疆地區(qū),烏魯木齊作為新疆首府,在各方面的發(fā)展都很好,與許多內(nèi)地省份的二線城市的發(fā)展也不分上下。伊犁哈薩克自治州位處于北疆西北部,地處邊境與多國(guó)相鄰,所以伊犁哈薩克自治州的進(jìn)出口貿(mào)易也是促進(jìn)它發(fā)展的重要因素。
在全國(guó)范圍內(nèi)相對(duì)于內(nèi)地省份來說新疆整體的經(jīng)濟(jì)社會(huì)發(fā)展確實(shí)是較落后的,疆內(nèi)各個(gè)地州市的經(jīng)濟(jì)發(fā)展基礎(chǔ)也不盡相同,沿邊的地區(qū)縣域距離經(jīng)濟(jì)核心區(qū)遠(yuǎn),尤其是一些南疆地區(qū),所以這些地域會(huì)在資金、技術(shù)和人才等生產(chǎn)發(fā)展核心要素方面會(huì)有所欠缺,使得優(yōu)勢(shì)難以很好發(fā)揮。在最近的十幾年間新疆各個(gè)產(chǎn)業(yè)發(fā)展速度較快,社會(huì)經(jīng)濟(jì)穩(wěn)步跟進(jìn),與十幾年前的新疆有了翻天覆地地變化。但目前在疆內(nèi)的各地區(qū)經(jīng)濟(jì)發(fā)展水平差異較大,尤其是南疆地區(qū)與北疆地區(qū)間的差異,南疆地區(qū)地理位置偏遠(yuǎn),自然環(huán)境較為惡劣,尤其是沙塵較多,交通不便,會(huì)導(dǎo)致與外界的交流聯(lián)系會(huì)較為閉塞,但是南疆許多地區(qū)資源豐富,有些地區(qū)內(nèi)部富裕的優(yōu)勢(shì)產(chǎn)品的出去也可能會(huì)較為困難,外面許多優(yōu)勢(shì)的資源、信息進(jìn)不來[4],因此建議在保持目前的對(duì)各個(gè)地州市發(fā)展的大力財(cái)政支持力度上、實(shí)施各項(xiàng)有關(guān)各地區(qū)經(jīng)濟(jì)發(fā)展的有利政策上和經(jīng)濟(jì)發(fā)展戰(zhàn)略目標(biāo)上,再努力去解決部分存在的交通不便、信息交流閉塞的問題,讓更多內(nèi)部擁有富裕的優(yōu)勢(shì)產(chǎn)品的地區(qū)能夠通過有利的交通和順通的外界信息交流,獲得更多的促進(jìn)本地區(qū)各產(chǎn)業(yè)發(fā)展的有利機(jī)會(huì)。
參考文獻(xiàn):
[1]秦鳴,寧建標(biāo),鄧明君.系統(tǒng)聚類法在機(jī)動(dòng)車司機(jī)違法駕駛行為中的應(yīng)用[J].公路與汽運(yùn),2017(04):45-51.
[2]何曉群.多元統(tǒng)計(jì)分析[M].四版.北京:中國(guó)人民出版社,2015.
[3]新疆統(tǒng)計(jì)年鑒——中國(guó)統(tǒng)計(jì)網(wǎng).
[4]趙麗婭.財(cái)政支持對(duì)新疆縣域經(jīng)濟(jì)發(fā)展的影響研究[D].新疆農(nóng)業(yè)大學(xué),2015.
[5]劉世薇.1989-2010新疆經(jīng)濟(jì)發(fā)展差異的區(qū)域分析[J].經(jīng)濟(jì)地理,2012,32(9).
作者簡(jiǎn)介:安尼卡爾·艾斯卡爾(1997-),男,維吾爾族,新疆阿克蘇人,學(xué)士,研究方向?yàn)閼?yīng)用統(tǒng)計(jì);祖來克孜·米吉提(1988-),女,維吾爾族,新疆阿克陶人,碩士,研究方向?yàn)橘Y源統(tǒng)計(jì)。