(華東交通大學(xué) 江西 南昌 330013)
(一)因子分析思想。因子分析的基本思想是根據(jù)相關(guān)性的大小把原始變量進(jìn)行分組,使得同組類變量之間的相關(guān)性較高,而不同組的變量之間的相關(guān)性較低。規(guī)定每組變量代表一個(gè)基本的結(jié)構(gòu),然后再用一個(gè)不可觀測的綜合變量來表示它們,這個(gè)基本結(jié)構(gòu)我們稱之為公共因子。把因子分析定義為:用少數(shù)幾個(gè)因子來描述眾多指標(biāo)或眾多因素它們之間的相關(guān)性,這是以較少幾個(gè)因子反映原資料的大部分信息的統(tǒng)計(jì)學(xué)方法。
(二)聚類分析思想。聚類分析是指將物理或抽象對象的集合進(jìn)行分組,再將集合分組為由類似的對象組成的多個(gè)類。它是一種比較重要的人為行為。聚類分析的目標(biāo)是在比較相似的基礎(chǔ)上再來收集數(shù)據(jù)并進(jìn)行分析。聚類分析來源于多個(gè)不同的學(xué)科,比如數(shù)據(jù)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、生物學(xué)和經(jīng)濟(jì)學(xué)等等學(xué)科。將這種方法應(yīng)用在不同的領(lǐng)域,聚類技術(shù)近年來都得到了很大的發(fā)展,這些聚類技術(shù)方法首先被用作描述統(tǒng)計(jì)數(shù)據(jù),根據(jù)統(tǒng)計(jì)數(shù)據(jù)來衡量不同數(shù)據(jù)源間的相似性,最終把這些不同的數(shù)據(jù)源分類到不同的簇中。
(三)指標(biāo)的選取和說明。衡量各個(gè)省份農(nóng)業(yè)的優(yōu)勢和劣勢通過主要的農(nóng)產(chǎn)品產(chǎn)量來實(shí)現(xiàn),本文選取的8個(gè)指標(biāo),糧食、油料、棉花、甜菜、甘蔗、水果、煙葉、水產(chǎn)品,通過這8個(gè)產(chǎn)量指標(biāo)能夠充分體現(xiàn)各省的農(nóng)業(yè)優(yōu)勢和劣勢。
(四)因子分析方法適用性檢驗(yàn)。根據(jù)上述因子分析的原理,采用KMO和Bartlett檢驗(yàn)對30個(gè)省份8個(gè)指標(biāo)標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行相關(guān)性檢驗(yàn)。如表1:
KMO檢驗(yàn)是為了看數(shù)據(jù)是否時(shí)候進(jìn)行因子分析,其取值范圍為0-1。本例中KMO的取值為0.551,表明可以進(jìn)行因子分析。Bartlett球形檢驗(yàn)是為了看數(shù)據(jù)是否來自于服從多元正態(tài)分布的總體,本例中sig值為0.000,說明數(shù)據(jù)來自正態(tài)分布總體,適合進(jìn)一步分析。
表2
根據(jù)統(tǒng)計(jì)數(shù)據(jù)的特征值大于1,累計(jì)方差的貢獻(xiàn)率大于85%的規(guī)定原則,本文提取了4個(gè)主成分,其累計(jì)方差的貢獻(xiàn)率已達(dá)到至少86%,這說明前4個(gè)因子可以反映原始變量的信息,這可以說明具有顯著代表性,因此符合進(jìn)一步分析的要求。選擇前四個(gè)主要的因子作為評(píng)價(jià)全國30個(gè)省份的農(nóng)業(yè)產(chǎn)品產(chǎn)量的綜合性指標(biāo),而采用最大方差法來進(jìn)行因子旋轉(zhuǎn),最后得到旋轉(zhuǎn)后的因子載荷矩陣。旋轉(zhuǎn)后的成分矩陣可以反映主因子與原始變量的相關(guān)程度大小。根據(jù)載荷系數(shù)與因子的關(guān)系,載荷系數(shù)越大的,代表該指標(biāo)與因子的相關(guān)性越強(qiáng),這也就意味該因子反映了這個(gè)指標(biāo)更多的信息。第一個(gè)因子反映了糧食與油料的載荷系數(shù)有較大關(guān)系,載荷值在85%以上;第二個(gè)因子主要與棉花、甜菜的載荷系數(shù)有關(guān),載荷值在95%以上;第三個(gè)因子主要與甘蔗有關(guān),其載荷值為90%以上;第四個(gè)因子主要與糧食、油料載荷系數(shù)有關(guān),載荷值在82%以上。
表3
由成分得分系數(shù)矩陣可以直接寫出各公因子的表達(dá)式,值得一提的是,在表達(dá)式中各個(gè)變量已經(jīng)不是原始數(shù)據(jù)而是標(biāo)準(zhǔn)化變量。表達(dá)式如下:
F1=0.389*糧食+0.407*油料+0.005*棉花-0.030*甜菜-0.125*甘蔗+0.278*水果+0.112*煙葉+0.116*水產(chǎn)品
F2=-0.032*糧食-0.039*油料+0.491*棉花+0.496*甜菜+0.042*甘蔗+0.108*水果-0.036*煙葉-0.122*水產(chǎn)品
F3=-0.190*糧食-0.134*油料+0.057*棉花-0.002*甜菜+0.760*甘蔗+0.251*水果+0.241*煙葉+0.262*水產(chǎn)品
F4=0.091*糧食+0.100*油料-0.010*棉花+0.057*甜菜+0.120*甘蔗-0.172*水果+0.720*煙葉-0.550*水產(chǎn)品
(1)K中心聚類分析
把數(shù)據(jù)錄入到spss軟件中,本例中有9個(gè)變量,分別為“地區(qū)”、“糧食”、“油料”、“棉花”、“甜菜”、“甘蔗”、“水果”、“煙葉”、“水產(chǎn)品”。把“地區(qū)”定義為字符型變量,其余8個(gè)變量為數(shù)值型,然后錄入完成。從表4可知,聚類1包含樣本數(shù)最多,為21個(gè),聚類2包含樣本數(shù)最少,為1個(gè)。
表4
由表4展示了4個(gè)類的初始聚類中心點(diǎn)的情況。第三類指數(shù)除了糧食、甘蔗外均是最高的,第四類地區(qū)的糧食指數(shù)最高,第二類地區(qū)的甘蔗指數(shù)最高。
北京、天津、山西、內(nèi)蒙古、遼寧、上海、浙江、福建、江西、湖北、廣東、海南、重慶、貴州、云南、西藏、陜西、甘肅、寧夏、新疆等地區(qū)屬于第一類,廣西屬于第二類,河北、江蘇、安徽、山東、河南、湖南、四川地區(qū)屬于第三類,吉林、黑龍江地區(qū)屬于第四類。
表5
從表5中可知,第一類地區(qū)的油料、棉花、甜菜、甘蔗、煙葉產(chǎn)量很高,糧食產(chǎn)量很低,水果、水產(chǎn)品產(chǎn)量較低;第二類地區(qū)甘蔗、水果、水產(chǎn)品產(chǎn)量很高,糧食、油料較低,棉花、甜菜、煙葉產(chǎn)量很低;第三類地區(qū)糧食、油料、棉花、水果、水產(chǎn)品、煙葉產(chǎn)量很高,甜菜相對較高,甘蔗產(chǎn)量很低;第四類地區(qū)糧食產(chǎn)量最高,油料、棉花、甜菜、甘蔗、水果、水產(chǎn)品都是最低的,煙葉相對較低。
有聚類分析可以很清晰明了的看出來,一些農(nóng)作物是有很大的地域性的,比如甘蔗、甜菜、棉花。甘蔗盛產(chǎn)于熱帶以及亞熱帶地區(qū),土壤肥沃、陽光充足、冬夏溫差大是保證其產(chǎn)量的必要條件,而北方地區(qū),如北京、天津、河北、山西屬于溫帶季風(fēng)氣候,中國適合生長甘蔗之地屬于秦嶺-淮河以南,比如浙江、安徽、江西、廣西等地區(qū)。再比如甜菜適合生長在深而富含有機(jī)質(zhì)的松軟土壤,能夠忍耐鹽堿含量較高的土壤,但對強(qiáng)酸性土壤和低硼敏感,因而廣泛種植于溫帶和寒溫帶地區(qū),由此可見,南方地區(qū)就不適合生長這一類農(nóng)作物。至于糧食生產(chǎn),有的地方產(chǎn)量很高,而有的地方產(chǎn)量低,這跟很多因素有關(guān),比如氣候、政策、人力資源等等。
農(nóng)業(yè)是國民經(jīng)濟(jì)的基礎(chǔ),農(nóng)業(yè)發(fā)展好了,國家的經(jīng)濟(jì)發(fā)展才有保障,因此對農(nóng)業(yè)生產(chǎn)的分析是很有必要的。本文通過選取2015年全國30個(gè)省份的8種農(nóng)業(yè)產(chǎn)品產(chǎn)量來做因子分析和聚類分析,分析了哪些省份在哪些農(nóng)業(yè)產(chǎn)品上具有農(nóng)業(yè)產(chǎn)品生產(chǎn)的天然優(yōu)勢,而在另外一些產(chǎn)品生產(chǎn)上又具有劣勢,這些原因的產(chǎn)生,有自然因素,又有人為因素。發(fā)展農(nóng)業(yè)要因地制宜,因時(shí)制宜,具體問題具體分析。通過對全國農(nóng)產(chǎn)品產(chǎn)量的分析,對我國農(nóng)業(yè)生產(chǎn)方向有了大致的了解,能夠指引我們往正確的方向生產(chǎn)農(nóng)業(yè)。