摘 要:聚類分析是一種應用性很強的統(tǒng)計方法,它是在未知樣品類別的情況下,根據(jù)樣品自身性質(zhì)上的親疏關系以及相似程度對樣品進行分類。應用聚類分析的方法并通過SAS軟件實現(xiàn)了對我國31?。ㄊ?、區(qū))的農(nóng)業(yè)總產(chǎn)值進行歸類,較為科學地揭示了氣候條件和地理環(huán)境的差異對農(nóng)業(yè)生產(chǎn)與發(fā)展的制約作用,清晰地呈現(xiàn)了我國農(nóng)業(yè)總產(chǎn)值高低的區(qū)域性分布特點,從而為各地區(qū)制定農(nóng)業(yè)發(fā)展戰(zhàn)略提供一定的參考依據(jù)。
關鍵詞:聚類分析;農(nóng)業(yè)總產(chǎn)值;SAS軟件
中圖分類號 C81 文獻標識碼 A 文章編號 1007-7731(2013)15-21-02
1 問題的提出及分析
中國各地區(qū)由于氣候條件和地理環(huán)境的不同,在農(nóng)業(yè)生產(chǎn)和發(fā)展上存在很大的差異,表1[1]給出了2007年全國31個地區(qū)農(nóng)業(yè)各門類——農(nóng)林牧漁的總產(chǎn)值。
表1 2007年我國31個地區(qū)農(nóng)林牧漁總產(chǎn)值(億元)
[地區(qū)\農(nóng)業(yè)總產(chǎn)值\林業(yè)總產(chǎn)值\牧業(yè)總產(chǎn)值\漁業(yè)總產(chǎn)值\北京\115.5\17.8 \122.4 \10.2\天津\117.6\2.1\76.9 \36.1\河北\1 639.1\52.4\1 147.0\85.1\…\…\…\…\…\]
這是一個數(shù)據(jù)較為龐雜的表格,用描述性統(tǒng)計方法顯然過于繁瑣。我們嘗試著用系統(tǒng)聚類的方法進行歸類,這種方法通過定義距離來描述兩個樣品以及類別之間的親疏關系,然后根據(jù)某種準則來對樣品做出分類,所分類別由多到少。
2 問題的解決
2.1 數(shù)據(jù)的輸入
data GAV;
input area$ x1 x2 x3 x4 @@;
label area=“地區(qū)” x1=“農(nóng)業(yè)總產(chǎn)值” x2=“林業(yè)總產(chǎn)值” x3=“牧業(yè)總產(chǎn)值” x4=“漁業(yè)總產(chǎn)值”;
cards;
北京115.5 17.8 122.4 10.2
天津117.6 2.1 76.9 36.1
河北1 639.1 52.4 1 147.0 85.1
山西322.6 17.6 140.2 3.5
內(nèi)蒙古620.4 63.7 559.7 10.9
遼寧837.5 60.3 830.8 326.1
吉林641.5 48.8 635.3 18.8
黑龍江971.9 79.0 585.0 25.1
上海126.7 10.0 58.0 54.2
江蘇1 542.5 58.9 704.4 579.0
浙江735.9 95.5 367.6 369.9
安徽1 054.0 100.5 637.4 195.0
福建685.3 120.7 340.6 473.3
江西621.3 126.5 435.6 182.2
山東2 604.1 82.0 1 313.0 580.3
河南2 254.5 104.8 1 326.1 44.5
湖北1 152.1 41.9 686.2 310.8
湖南1 243.2 144.1 1 013.8 154.7
廣東1 328.7 73.4 775.6 541.9
廣西970.5 99.8 710.2 178.3
海南224.2 80.5 106.1 121.3
重慶401.5 25.9 264.5 18.4
四川131.6 87.2 1 827.1 85.8
貴州392.2 27.8 231.6 9.0
云南683.8 156.0 438.4 25.4
西藏39.5 2.7 34.9 0.1
陜西629.3 33.8 274.0 4.2
甘肅458.7 19.4 131.2 0.9
青海49.2 2.0 67.0 0.1
寧夏111.1 5.7 53.3 5.2
新疆767.0 20.9 231.5 7.0;
以上程序是SAS中實現(xiàn)數(shù)據(jù)輸入的必要步驟,它先定義了一個數(shù)據(jù)集GAV,然后定義了5個變量:地區(qū)以及農(nóng)、林、牧、漁的總產(chǎn)值。
2.2 執(zhí)行聚類的過程
proc cluster data=GAV method=ave outtree=ot standard pseudo ccc;
var x1-x4;
id area;
proc tree data=ot ;
run;
在第一個過程——cluster過程中,proc語句指出對數(shù)據(jù)集GAV進行系統(tǒng)聚類分析,method=ave outtree=ot分(下轉(zhuǎn)52頁)(上接21頁)別表示使用類平均法,將數(shù)據(jù)集輸出到ot中以便繪制譜系圖,standard pseudo分別表示聚類之前將數(shù)據(jù)進行標準化處理,輸出偽統(tǒng)計量、偽統(tǒng)計量,ccc表示輸出統(tǒng)計量、半偏統(tǒng)計量以及ccc統(tǒng)計量。
在第二個過程步——TREE過程[2]中,PROC語句支出根據(jù)數(shù)據(jù)集ot繪制聚類過程的譜系圖,若加上選項HORIZONTAL表示繪制的是橫向的譜系圖,這里默認為繪制縱向的譜系圖。
2.3 輸出結(jié)果分析 在SAS軟件中運行上述程序之后得到結(jié)果,以下進行結(jié)果分析:
圖1 系統(tǒng)聚類的過程
從圖1可以看出,系統(tǒng)聚類進行了30步,在每一步都是合并了兩類。在圖1顯示的第一列(NCL)顯示的是當前類的個數(shù)從表中可以看出來,第一步合并之后又30個類,最后一步只剩下一個類。因為用類平均法計算得到西藏和青海的距離最小,因此首先將二者合為一個類。從第5列到第10列顯示了當前這一步對應的各種統(tǒng)計量,最后一列則給出了兩個類在合并之前的平均距離。從譜系圖(圖2)中可以直觀地了解整個系統(tǒng)聚類的過程,并且可以清晰地看到對所有國家在不同水平下的分類,但是究竟該采用哪種分類、具體分為幾類,則需要分析相應的統(tǒng)計量。
圖2 系統(tǒng)聚類的譜系圖
圖1中統(tǒng)計量隨著分類個數(shù)的減少而減少,并且在由4類變成3類時減少較快(由0.638減少到0.238)。因此從統(tǒng)計量來看分成4類比較合適。
接下來分析半偏統(tǒng)計量,當NCL=3時半偏統(tǒng)計量最大(值為0.400 4),當NCL=1時半偏統(tǒng)計量次大(值為0.150 1),說明這兩步的合并效果都不好,應該采取上一步的分類。因此從半偏統(tǒng)計量來看分成4類或者2類較為合適。
再看偽統(tǒng)計量,發(fā)現(xiàn)當NCL=3時偽統(tǒng)計量最大(值為29.9),當NCL=14時偽統(tǒng)計量次大(值為26.3),當NCL=13時偽統(tǒng)計量(值為26.1),由此可以看出這3步的擬合效果并不好,應該采取其上一步的分類。于是,認為分為4類、13類、14類是比較合適的。
綜合上述幾個統(tǒng)計量反映的結(jié)果,可以得出結(jié)論,認為分成4類時比較合適的。
查看譜系圖可以清楚的知道,分為四類的結(jié)果是:第一類:北京、天津、上海、西藏、青海、寧夏、山西、甘肅、重慶、貴州、陜西、新疆、內(nèi)蒙古、吉林、黑龍江、海南。第二類:河北、河南、遼寧、湖北、江蘇、廣東、浙江、福建、安徽、廣西、江西、湖南、云南。第三類:四川。第四類:山東。
從分類的結(jié)果不難看出,第一類中,北京、上海、黑龍江、海南等地區(qū)因為重視工業(yè)或者地理環(huán)境的不適宜導致農(nóng)業(yè)各部門的總產(chǎn)值相對較低,因此歸為一類;河北、河南、云南、浙江等地區(qū),總體來講自然環(huán)境稍好于第一類地區(qū),總產(chǎn)值高一些,因此可以分為一類;四川地處中原,降雨較為豐富,總產(chǎn)值又好于前兩類;山東地區(qū)降雨量大,勞動力充足,氣候適宜,因此農(nóng)業(yè)各部門的總產(chǎn)值最高[3]。
3 結(jié)語
雖然科技方面的進步會對農(nóng)業(yè)產(chǎn)生很大的影響,但是良好的氣候條件和地理環(huán)境仍然有著自身的優(yōu)越性。本文采用系統(tǒng)聚類的方法對我國31個地區(qū)按照農(nóng)業(yè)總產(chǎn)值進行了分類,較為科學地揭示了氣候條件和地理環(huán)境的差異對農(nóng)業(yè)生產(chǎn)與發(fā)展的制約作用,清晰地呈現(xiàn)了我國農(nóng)業(yè)總產(chǎn)值高低的區(qū)域性分布特點,從而為各地區(qū)制定農(nóng)業(yè)發(fā)展戰(zhàn)略提供了一定的依據(jù)。
參考文獻
[1]王芳,陳勝可,馮國生,等.SAS統(tǒng)計分析與應用[M].北京:電子工業(yè)出版社,2011.
[2]胡良平,高輝.SAS統(tǒng)計分析教程[M].北京:電子出版社,2010.
[3]李慶東,李穎.證券投資分析方法新探索[J].現(xiàn)代情報,2005(11):223-224.
(責編:張宏民)