徐華鋒 ,方志耕
(1.南京航空航天大學(xué) 經(jīng)濟(jì)與管理學(xué)院,南京 210016;2.河南城建學(xué)院,河南 平頂山 467001)
面板數(shù)據(jù)同時(shí)包含截面數(shù)據(jù)和時(shí)間序列,既具有空間維度特征又具有時(shí)間維度特征,近幾年在理論研究和應(yīng)用研究上都得到了廣泛而深入的發(fā)展[1]。相關(guān)研究也表明利用面板數(shù)據(jù)建模取得了良好的效果,然而現(xiàn)有的理論和應(yīng)用主要是從計(jì)量建模的角度研究,很少學(xué)者考慮面板數(shù)據(jù)在多元統(tǒng)計(jì)中的分析。國內(nèi)學(xué)者朱建平曾對(duì)單指標(biāo)面板數(shù)據(jù)的聚類分析進(jìn)行了一定的研究,介紹了面板數(shù)據(jù)的統(tǒng)計(jì)描述方法,構(gòu)造了面板數(shù)據(jù)之間相似性的統(tǒng)計(jì)指標(biāo),并在此基礎(chǔ)上提出了面板數(shù)據(jù)聚類分析的有效方法,為面板數(shù)據(jù)的多元統(tǒng)計(jì)分析開創(chuàng)了新的局面[2]。鄭兵云對(duì)多指標(biāo)面板數(shù)據(jù)的聚類分析進(jìn)行了研究[3],分析了面板數(shù)據(jù)的數(shù)據(jù)格式和數(shù)字特征,根據(jù)聚類分析原理,重新構(gòu)造了多指標(biāo)面板數(shù)據(jù)的距離函數(shù)和離差平方和函數(shù),在此基礎(chǔ)上,說明了多指標(biāo)面板數(shù)據(jù)的聚類分析過程并且進(jìn)行了聚類實(shí)證分析,進(jìn)一步推動(dòng)了面板數(shù)據(jù)的多元統(tǒng)計(jì)分析。
投影尋蹤是一種新興的統(tǒng)計(jì)方法,是現(xiàn)代統(tǒng)計(jì)、應(yīng)用數(shù)學(xué)與計(jì)算機(jī)技術(shù)的交叉學(xué)科,屬于前沿領(lǐng)域。投影尋蹤的基本思想是利用計(jì)算機(jī)技術(shù),把多維數(shù)據(jù)通過某種組合,投影到低維子空間上,并通過極小化某個(gè)投影指標(biāo),尋找出能反映原多維數(shù)據(jù)結(jié)構(gòu)或特征的投影,在低維空間上對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行分析,以達(dá)到研究和分析多維數(shù)據(jù)的目的。近年來,國內(nèi)很多學(xué)者致力于該領(lǐng)域的研究工作,并將投影尋蹤方法有效地運(yùn)用到聚類分析和評(píng)價(jià)當(dāng)中,并對(duì)不同領(lǐng)域的實(shí)際問題進(jìn)行了實(shí)證分析[4-11],取得了一定的成效。但是以往的投影尋蹤聚類模型僅局限于研究截面數(shù)據(jù),本文嘗試對(duì)面板數(shù)據(jù)運(yùn)用投影尋蹤方法進(jìn)行聚類分析,取得了良好的效果。
多指標(biāo)面板數(shù)據(jù)的結(jié)構(gòu)要復(fù)雜一些,不同于單指標(biāo)的數(shù)據(jù)可以由一個(gè)簡(jiǎn)單的二維表來表示,嚴(yán)格上應(yīng)該用三維表來表示,在平面上我們可以將其轉(zhuǎn)換為一個(gè)二級(jí)二維表的形式,如表1,研究總體共有N個(gè),每個(gè)樣品的特征用p個(gè)指標(biāo)(X1…X2…X3)表示,時(shí)間長度為 T, 則 Xij(t)表示第 i個(gè)樣品第j個(gè)指標(biāo)在時(shí)間t的數(shù)值。
為了下邊討論的方便,這里給出多指標(biāo)面板數(shù)據(jù)的幾個(gè)統(tǒng)計(jì)量。
(1)第j個(gè)指標(biāo)在時(shí)間t的均值
表1 多指標(biāo)面板數(shù)據(jù)
對(duì)多指標(biāo)面板數(shù)據(jù)的聚類分析之所以比較困難,其中一個(gè)很大的原因在于其數(shù)據(jù)特點(diǎn)是三維空間上的,而投影尋蹤方法則有效地把高維數(shù)據(jù)投影到低維空間,故本文考慮把投影尋蹤的動(dòng)態(tài)聚類模型運(yùn)用到面板數(shù)據(jù)的聚類分析。
PP的基本思路是,把高維數(shù)據(jù)通過某種組合投影到低維子空間上。對(duì)于投影到的構(gòu)形,采用投影指標(biāo)函數(shù)(即目標(biāo)函數(shù))來衡量投影暴露某種結(jié)構(gòu)的可能性大小,尋找出使投影指標(biāo)函數(shù)達(dá)到最優(yōu) (即能反映高維數(shù)據(jù)結(jié)構(gòu)或特征)的投影值,然后根據(jù)該投影值來分析高維數(shù)據(jù)的結(jié)構(gòu)特征。
用PP探索多維數(shù)據(jù)的結(jié)構(gòu)或特征時(shí)一般采用迭代模式。首先根據(jù)經(jīng)驗(yàn)或猜想給定一個(gè)初始模型,其次把數(shù)據(jù)投影到低維空間上,找出數(shù)據(jù)與現(xiàn)有模型相差最大的投影,這表明在這個(gè)投影中含有現(xiàn)有模型中沒有反映的結(jié)構(gòu),然后把上述投影中所包含的結(jié)構(gòu)并在現(xiàn)有模型上,得到改進(jìn)了的新模型,再從這個(gè)新模型出發(fā),重復(fù)以上步驟,直到數(shù)據(jù)與模型在任何投影空間都沒有明顯的差別為止。
用 xij(t),i=1,2,…,n;j=1,2,…,p;t=1,2,…,T 表示在時(shí)刻 t第i個(gè)樣本第j個(gè)指標(biāo),投影尋蹤動(dòng)態(tài)聚類模型的建立步驟如下:
步驟1:數(shù)據(jù)標(biāo)準(zhǔn)化處理
由于各指標(biāo)xij(t)的量綱不盡相同或數(shù)值范圍相差較大,因此在建模之前對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化公式較多,可選擇采用,這里采用如下公式:
步驟2:線性投影
把高維的數(shù)據(jù)信息通過投影的方法轉(zhuǎn)化到低維空間,不但形象直觀,而且便于運(yùn)用常規(guī)的方法進(jìn)行分析處理。所謂投影實(shí)質(zhì)上就是從不同的角度去觀察數(shù)據(jù),尋找能夠最大程度地反映數(shù)據(jù)特征和最能充分挖掘數(shù)據(jù)信息的最佳觀察角度即最優(yōu)投影方向。這里選用線性投影,即將高維數(shù)據(jù)投影到一維線性空間進(jìn)行研究,實(shí)際上就是把矩陣族 (xij(t))n×p轉(zhuǎn)換(投影)成 n維壓縮向量族(zi(t))n×p
設(shè) a={a1,a2,…,ap}為單位投影方向向量,則 xij(t),i=1,2,…,t=1,2,…T的投影特征向量為
Ω={zi|zi=(zi(1),zi(2),…,zi(T))T,i=1,2,…,n}為投影特征向量集合。
步驟3: 構(gòu)造投影指標(biāo)函數(shù)
這是投影尋蹤動(dòng)態(tài)聚類模型建立的關(guān)鍵,是高維數(shù)據(jù)向低維空間投影所遵循的規(guī)則,是尋找最優(yōu)投影方向的依據(jù),因此,只有構(gòu)造合理的投影指標(biāo)才能獲得科學(xué)的分類結(jié)果。下面依據(jù)動(dòng)態(tài)聚類思想來構(gòu)造投影指標(biāo)。
首先依據(jù)實(shí)際情況或要求,采用動(dòng)態(tài)聚類法將投影向量聚為k類,實(shí)現(xiàn)步驟如下:
(4)重復(fù)以上過程,得分類結(jié)果序列 V1=(Θ0,Θ1,Θ2…,Θl……),
其次,構(gòu)造投影指標(biāo)函數(shù)。
類內(nèi)樣本的鄰近程度用類內(nèi)聚集度dd(a)表示為dd(a)=
其中dh(a)=(zi,zj)為類內(nèi)聚積度,dd(a)越小,類內(nèi)樣本的聚積程度越高。
因?yàn)椴煌耐队胺较蚍从沉藬?shù)據(jù)的不同結(jié)構(gòu)特征、不同綜合方式和不同數(shù)據(jù)挖掘途徑。在綜合過程中要求z(i)的分布特征應(yīng)為:局部投影點(diǎn)盡可能密集,最好凝聚成若干個(gè)點(diǎn)團(tuán);而在整體上投影點(diǎn)團(tuán)之間盡可能散開。基于此,投影指標(biāo)函數(shù)可構(gòu)造為
QQ(a)=ss(a)-dd(a)
顯然,ss(a)越大表示樣本間的距離越遠(yuǎn),即類間樣本分散越開;相反,dd(a)越小表示類內(nèi)樣本之間的距離越近,即表示類內(nèi)樣本越集中。因此,當(dāng)QQ(a)取得最大值時(shí),就實(shí)現(xiàn)了類間樣本盡量散開、類內(nèi)樣本盡量集中的聚類目標(biāo)。
步驟4:優(yōu)化投影指標(biāo)函數(shù)
根據(jù)上述分析,投影尋蹤動(dòng)態(tài)聚類模型可以描述為如下的非線性優(yōu)化問題。
此模型可以用加速遺傳算法求解,具體過程可見[11]。
中國是世界第二大能源消費(fèi)國。在不斷推進(jìn)的工業(yè)化和城市化進(jìn)程中,能源問題愈來愈成為中國經(jīng)濟(jì)發(fā)展和社會(huì)進(jìn)步的“瓶頸”,因此,正確認(rèn)識(shí)中國能源消費(fèi)結(jié)構(gòu)狀況,實(shí)現(xiàn)能源、經(jīng)濟(jì)和社會(huì)之間的協(xié)調(diào)發(fā)展,是開放的中國所面對(duì)和必須解決的重要課題。我國區(qū)域間的稟賦差異巨大,因此從區(qū)域角度出發(fā),對(duì)不同地區(qū)的能源消費(fèi)結(jié)構(gòu)進(jìn)行比較研究是很有意義的,以往的文獻(xiàn)在進(jìn)行分析時(shí)往往采用時(shí)間序列分析或者截面數(shù)據(jù)分析,面板模型的采用可以綜合考慮地域差別和時(shí)間趨勢(shì)的影響,有助于克服單獨(dú)使用時(shí)間序列分析和截面分析方法的不足。本文以我國29個(gè)省區(qū)為研究對(duì)象,選取煤炭、原油、天然氣、電力各占能源消耗總量的比重四個(gè)指標(biāo),對(duì)1998-2007年間的數(shù)據(jù)運(yùn)用面板數(shù)據(jù)聚類分析的投影尋蹤模型進(jìn)行聚類分析。
首先,確定樣本分類數(shù)。這里將樣本分類為五類,即k=5。
其次,依據(jù)樣本指標(biāo)值建立能源消費(fèi)結(jié)構(gòu)聚類模型,其中n=29,p=4,通過優(yōu)化運(yùn)算得最優(yōu)投影方向向量為:
a=(0.22,0.20,0.34,0.24)
最后,模型輸出投影特征向量以及聚類結(jié)果。聚類分析結(jié)果顯示29個(gè)省區(qū)分類如下:
第一類,包括河北、山西、內(nèi)蒙古、安徽和貴州。這些省份都位于中西部,有的是產(chǎn)煤大省,有的靠近產(chǎn)煤大省,而且之間的交通運(yùn)輸非常方便。它們?cè)谏a(chǎn)和生活中的主要能源為煤炭。但這幾個(gè)省份的人均產(chǎn)值都比較低。
第二類,包括河南、湖北、湖南、云南、寧夏。是典型的中西部地區(qū)。這些省份的人均收入低,因而傾向于使用價(jià)格相對(duì)便宜的煤炭。而河南也是產(chǎn)煤省份,有許多重要的煤礦。
第三類,包括遼寧、吉林、山東、廣西、四川、重慶、甘肅,是我國典型的工業(yè)基地。
第四類,包括北京、天津、江蘇、浙江、福建、青海、新疆。這類省市的石油用量比重和煤炭用量比重都居中間位置。第四類的省份大致上可以分為兩種,一種是經(jīng)濟(jì)發(fā)達(dá)地區(qū),另一種是能源產(chǎn)地地區(qū)。經(jīng)濟(jì)發(fā)達(dá)地區(qū)包括北京、天津、江蘇、浙江、福建。能源產(chǎn)地地區(qū)包括青海、新疆。
第五類,包括黑龍江、海南、上海和廣東。這些省市的能源結(jié)構(gòu)以石油和煤炭為主,石油比重略大。其中,黑龍江和海南屬于能源大省,蘊(yùn)藏著豐富的油氣資源,而上海和廣東卻屬于經(jīng)濟(jì)發(fā)達(dá)、能源消耗大的省市。
面板數(shù)據(jù)的投影尋蹤動(dòng)態(tài)聚類模型是基于面板數(shù)據(jù)的投影尋蹤和動(dòng)態(tài)聚類的有機(jī)結(jié)合,充分發(fā)揮了投影尋蹤處理高維數(shù)據(jù)的突出優(yōu)勢(shì),融入了動(dòng)態(tài)聚類的思想,同時(shí)又避免了投影尋蹤聚類模型的不足。實(shí)證分析表明面板數(shù)據(jù)的投影尋蹤動(dòng)態(tài)聚類模型具有客觀性強(qiáng)及分類結(jié)果明確等優(yōu)點(diǎn),為多因素面板數(shù)據(jù)聚類分析問題的解決提供了一種新方法,也為投影尋蹤理論的推廣應(yīng)用提出了一條新思路。
[1]Bonzo D.C.,Hermosilla A.Y.Clustering Panel Data via Perturbed Adaptive Simulated Annealing and Genetic Algorithms[J].Advances in Complex Systems,2002,(4).
[2]朱建平,陳民肯.面板數(shù)據(jù)的聚類分析及其應(yīng)用[J].統(tǒng)計(jì)研究,2007,(4).
[3]鄭兵云.多指標(biāo)面板數(shù)據(jù)的聚類分析及其應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2008,27(2).
[4]金菊良,張欣莉,丁晶.評(píng)估洪水災(zāi)情等級(jí)的投影尋蹤模型[J].系統(tǒng)工程理論與實(shí)踐,2002,22(2).
[5]金菊良,汪淑娟,魏一鳴.動(dòng)態(tài)多指標(biāo)決策問題的投影尋蹤模型[J].中國管理科學(xué),2004,(01).
[6]李世玲.基于投影尋蹤和遺傳算法的一種非線性系統(tǒng)建模方法[J].系統(tǒng)工程理論與實(shí)踐,2005,(04).
[7]金菊良,丁晶,魏一鳴,付強(qiáng).解不確定型決策問題的投影尋蹤方法[J].系統(tǒng)工程理論與實(shí)踐,2003,(04)
[8]劉大秀,鄭祖國,葛毅雄.投影尋蹤回歸在試驗(yàn)設(shè)計(jì)分析中的應(yīng)用研究[J].數(shù)理統(tǒng)計(jì)與管理,1995,(01).
[9]張欣莉,王順久,丁晶.投影尋蹤方法在工程環(huán)境影響評(píng)價(jià)中的應(yīng)用[J].系統(tǒng)工程理論與實(shí)踐,2002,(6)
[10]滕玉華,陳小霞.開放條件下中國工業(yè)能源強(qiáng)度的影響因素分析——基于31個(gè)行業(yè)面板數(shù)據(jù)的實(shí)證分析[J].新疆財(cái)經(jīng)大學(xué)學(xué)報(bào),2009,(01)
[11]金菊良,楊曉華,丁晶.基于實(shí)數(shù)編碼的加速遺傳算法[J].四川大學(xué)學(xué)報(bào)(工程科學(xué)版),2000,(4).