谷偉偉,王蘭,蘆凌飛
(中國礦業(yè)大學(xué)理學(xué)院,江蘇徐州 221116)
核主成分法的應(yīng)用
谷偉偉,王蘭,蘆凌飛
(中國礦業(yè)大學(xué)理學(xué)院,江蘇徐州 221116)
分別利用主成分法和核主成分法,對2010年江蘇省13個市的旅游業(yè)發(fā)展情況進(jìn)行對比分析,發(fā)現(xiàn)核主成法分析的結(jié)果更加合理,并分析了原因,最后對江蘇未來的旅游業(yè)發(fā)展提出了建議,供有關(guān)部門參考.
主成分分析;核主成分分析;SPSS;Matlab
主成分分析是重要的多元統(tǒng)計方法,它的應(yīng)用一直是個熱點問題.文獻(xiàn)[1]從矩陣的特征值和特征向量出發(fā),揭示了主成分分析和奇異值分解的關(guān)系,并給出了一個物理應(yīng)用.文獻(xiàn)[2]、[3]給出了主成分法在人臉識別中的應(yīng)用.文獻(xiàn)[4-10]給出了核主成分分析在不同領(lǐng)域中的應(yīng)用,但是都忽略了相關(guān)結(jié)論的證明,而且也沒給出Matlab算法.本文首先給出核主成分模型中相關(guān)結(jié)論的證明,然后用Matlab算出綜合得分,最后和用SPSS算的主成分分析結(jié)果相對比,發(fā)現(xiàn)核主成分分析的結(jié)果較好,提高了綜合評價的合理性.
1.1 主成分模型
設(shè)有n個樣品,每個樣品觀測p個變量,這p個變量具有較強的相關(guān)性.為了消除量綱不同造成的影響,將樣本觀測數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理的變量為X=(x1,x2,…,xp)′,其相關(guān)矩陣R的秩為r.
設(shè)λ1,λ2,…,λr,0,…,0為R的p個特征值,不失一般性λ1≥λ2≥…≥λr>0.
設(shè)主成分Y=(y1,y2,…,yp)′,則主成分模型為Y=L′X,且LL′=Ip.
即
1.2 核主成分模型
于是,我們有
(2)式說明主成分是樣本和特征向量的內(nèi)積,或者是樣本在特征向量上的投影.
設(shè)原始數(shù)據(jù)的樣本為x1,x2,…,xn.xk∈Rp,k=1,2,…,n(即p個變量,n個樣本),對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化后
作一個映射?,?:Rp→F,進(jìn)而空間F中的樣本為?(x1),?(x2),…,?(xn),則協(xié)方差陣為
對(3)式兩邊同時作內(nèi)積有
令kij=<?(xi),?(xj)>,α=(α1,α2,…αn)′,于是
對于(4)式左邊,
對于(4)式右邊,可以同理算出,這里不再贅述.
所以nλKα=K2α.所以α為K的屬于特征值nλ的特征向量.
最后我們算出F空間中的主成分,即用F中的樣本和特征向量v作內(nèi)積.設(shè)第k個主成分記為tk,則
其中,vk表示的第k個特征向量.
由于?是未知的,因此<?(xi),?(x)>不好求,這里用核函數(shù)來代替內(nèi)積,即
K=(Kij)=[s<xi,xj>+c]d,s,c,d的選取要結(jié)合經(jīng)驗,見文獻(xiàn)[11].
本文選取的數(shù)據(jù)來自《2011中國區(qū)域經(jīng)濟統(tǒng)計年鑒》中6個旅游指標(biāo),具體指標(biāo)如下:
x1—接待入境旅游者人數(shù)(萬人次);x2—接待外國人數(shù)(萬人次);x3—國際旅游外匯收入(萬美元);x4—國內(nèi)旅游人數(shù)(萬人次);x5—國內(nèi)旅游收入(億元);x6—星級飯店(個).這6個指標(biāo)都是正向化指標(biāo).
為了消除量綱的影響,我們對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化變量為ZX1~ZX6(見表1).經(jīng)過SPSS計算,KMO值為0.807>0.6,Bartlett球形檢驗值為0.000,說明適合進(jìn)行主成分分析.
最大特征根為5.563,方差貢獻(xiàn)率為92.717%.成分矩陣和成分得分系數(shù)陣見表2.下面用核主成分法分析.采用核函數(shù)Kij=[<xi,xj>]3,A是標(biāo)準(zhǔn)化后的矩陣(見表1).進(jìn)而求出K的特征值和特征向量,即eig(K),[v,d]=eig(K).經(jīng)計算,K的最大特征值為2.9764,特征貢獻(xiàn)率為98%.將以上兩種方法的計算結(jié)果放在一起對比分析,見表3.
表1 標(biāo)準(zhǔn)化后的數(shù)據(jù)
表2 成分矩陣和成分得分系數(shù)陣
表3 兩種方法的結(jié)果對比
CLU5表示用聚類方法將樣本分為5類. CLU5-1是主成分法分類的結(jié)果;CLU5-2是用核主成分法分類的結(jié)果.
經(jīng)過對比我們發(fā)現(xiàn),主要的問題出在徐州的得分和排名上.從客觀條件上分析:揚州、鎮(zhèn)江、常州地處長江中下游,許多風(fēng)景名勝和旅游城鎮(zhèn)都因江而立,因江而興.揚州是中國歷史文化名城,有很多歷史文化古跡,另外,古運河旅游線是江蘇省“十五”期間重點開發(fā)的8條旅游線路之一,運河對揚州、鎮(zhèn)江的城市景觀和整體旅游業(yè)發(fā)展都有強大的帶動作用.常州位于蘇南,受到上海的輻射帶動作用,經(jīng)濟發(fā)達(dá),旅游業(yè)的基礎(chǔ)配套設(shè)施比較齊全,如星級賓館的數(shù)量比較多,游樂場也會相對多些.總體而言,揚州、鎮(zhèn)江、常州的自然風(fēng)景優(yōu)美,旅游資源豐富,將它們分在一起是合理的.而徐州是重要的交通樞紐,它的重工業(yè)比較發(fā)達(dá),污染嚴(yán)重.它的旅游業(yè)主要是文化旅游,自然風(fēng)景不是很多,這和蘇北的其他4個城市接近,因此,將徐州和淮安、泰州這些城市歸在一起比較合適.
之所以出現(xiàn)上述情況,是因為主成分的方差貢獻(xiàn)率為92.717%,而核主成分的方差貢獻(xiàn)率為98%,核主成分的降維效果很顯著,提取的信息較多.
江蘇旅游業(yè)發(fā)展的主要問題是不均衡.蘇南的旅游業(yè)發(fā)展水平最高,蘇中次之,蘇北最低.
對于蘇北:蘇北旅游業(yè)和蘇南地區(qū)相比,存在較大差距,主要是蘇北旅游資源開發(fā)落后.但是蘇北的旅游業(yè)潛力很大,蘇北5市是江蘇省旅游資源的富集區(qū),集中了兩漢文化、山水海濱、生態(tài)濕地、珍稀動物、名人名泉和淮揚美食等品牌資源.因此,要整合蘇北的互補性旅游資源.
對于蘇中、蘇南:建議加大資金和科技投入,大力改善環(huán)境.
[1]Jonathon Shlens.A Tutorial on Principal Component Analysis[EB/OL].[2012-12-01L]http://wenku.baidu.com/view/a1f5ff4733687e21af45a9bf.html. 2009,4.
[2]Rajkiran G.,Asari Vijayan K.An improved face recognition technique based on modular PCA approach[J].Pattern Recognition Lett,2004,25(4):429-436.
[3]Yang,Jian,Zhang avid.Two-dimensional PCA:A new approach to appearance-based face representation and recognition[J].IEEE Trans Pattern Anal Machine Intell,2004,26(1):131-137.
[4]李磊,金菊良,梁忠民.核主成分分析的參數(shù)優(yōu)化及其在水資源利用綜合評價中的應(yīng)用[J].水利水電科技進(jìn)展,2009,29(4):36-38.
[5]肖慧,劉蘇東,黃小燕,等.基于核主成分的神經(jīng)網(wǎng)絡(luò)集合預(yù)報建模研究[J].計算機仿真,2010,27(12):163-166.
[6]陳祥濤,張前進(jìn).基于核主成分分析的步態(tài)識別方法[J].計算機應(yīng)用,2011,31(5):1237-1241.
[7]呂薇,王新峰,孫智信.基于核主成分分析的高??萍紕?chuàng)新能力評價研究[J].國防科技大學(xué)學(xué)報,2008,30(3):81-85.
[8]程艷秋,遲國泰.基于核主成分分析的生態(tài)評價模型及其應(yīng)用研究[J].中國管理科學(xué),2011,19(3):182-190.
[9]李明月,任九泉.基于核主成分分析和加權(quán)聚類分析的綜合評價方法[J].統(tǒng)計與決策,2010,16:158-160.
[10]徐義田,王來生.核主成分分析在企業(yè)經(jīng)濟效益評價中的應(yīng)用[J].數(shù)學(xué)的實踐與認(rèn)識,2006,36(1):35-38.
[11]楊道軍.核主成分分析法在生態(tài)經(jīng)濟可持續(xù)發(fā)展評價中的應(yīng)用[J].環(huán)境科學(xué)與技術(shù),2007,30(12):91-93.
The Application of Kernel Principal Component Analysis
GU Wei-wei,WANG Lan,LU Ling-fei
(School of Science,China University of Mining and Technology,Xuzhou 221116,China)
In this paper,principal component analysis method and kernel principal component analysis method are used to research tourism development of thirteen cities in Jiangsu Province in 2010.The result shows that the kernel principal component analysis result is more reasonable,and the reasons are analyzed.Lastly,by using statistics analysis,some suggestions about future tourism development of Jiangsu Province are put forward for some departments.
principal component analysis;kernel principal component analysis;SPSS;Matlab
O153.5
A
1008-2794(2013)04-0020-04
2013-03-18
谷偉偉,碩士研究生,研究方向:多元統(tǒng)計分析,E-mail:864037364@qq.com.