戴大洋,鄧光明,b(桂林理工大學(xué) .理學(xué)院;b.應(yīng)用統(tǒng)計(jì)研究所,廣西 桂林 541006)
面板數(shù)據(jù)是一類集個(gè)體、時(shí)間和指標(biāo)三維信息為一體的復(fù)雜數(shù)據(jù)。因其信息維度的增加,與時(shí)間序列數(shù)據(jù)和截面數(shù)據(jù)相比,它具有更加豐富的信息量,這也給面板數(shù)據(jù)分析帶來了一定難度。聚類作為數(shù)據(jù)挖掘和統(tǒng)計(jì)分析中常見的一種研究方法,吸引了一些學(xué)者對(duì)面板數(shù)據(jù)聚類的研究。面板數(shù)據(jù)聚類分析不同于截面數(shù)據(jù)聚類分析和時(shí)間序列聚類分析,與二者相比均多出了一個(gè)維度,導(dǎo)致時(shí)間序列和截面數(shù)據(jù)的分析方法無法直接應(yīng)用于面板數(shù)據(jù)。這類數(shù)據(jù)的聚類不斷引起國內(nèi)外學(xué)者的興趣,形成了兩類比較成熟的研究方法:第1類,從聚類原理出發(fā),將面板數(shù)據(jù)的三維信息進(jìn)行綜合分析,對(duì)樣本間相似特征的衡量方式重新定義,并重構(gòu)或改進(jìn)聚類方法,以此來實(shí)現(xiàn)面板數(shù)據(jù)的聚類。如李因果定義了面板數(shù)據(jù)的“絕對(duì)指標(biāo)”、“增量指標(biāo)”及“波動(dòng)指標(biāo)”,重構(gòu)了面板數(shù)據(jù)相似性衡量指標(biāo)的距離函數(shù)和Ward聚類算法,在此基礎(chǔ)上提出了一種自適應(yīng)權(quán)重的面板數(shù)據(jù)聚類方法[1];張立軍等在李因果相似性指標(biāo)的基礎(chǔ)上加入了指標(biāo)權(quán)重和時(shí)間權(quán)重,提高了聚類方法的分辨能力和準(zhǔn)確性[2]。第2類,從數(shù)據(jù)降維出發(fā),對(duì)面板數(shù)據(jù)時(shí)間維度進(jìn)行特征提取,以達(dá)到降維的效果,將面板數(shù)據(jù)降為個(gè)體-指標(biāo)的截面數(shù)據(jù),再以截面數(shù)據(jù)的聚類方法進(jìn)行聚類。如任娟等利用一種自適應(yīng)滑動(dòng)窗口分段方法提取了時(shí)間序列局部變化的特征,并結(jié)合整體的距離關(guān)系重新定義綜合距離來實(shí)現(xiàn)聚類[3];黨耀國等(2016)提取了各指標(biāo)整個(gè)時(shí)期的統(tǒng)計(jì)特征,將各指標(biāo)的動(dòng)態(tài)變化特征全部納入截面數(shù)據(jù)的指標(biāo)維度,采取截面數(shù)據(jù)的動(dòng)態(tài)聚類方法進(jìn)行聚類。又或?qū)γ姘鍞?shù)據(jù)的指標(biāo)維度進(jìn)行降維,將面板數(shù)據(jù)降為個(gè)體-時(shí)間數(shù)據(jù),再以時(shí)間序列聚類的方法聚類。如劉云霞通過對(duì)指標(biāo)維度的主成分降維,將面板數(shù)據(jù)降為時(shí)間序列數(shù)據(jù),再利用動(dòng)態(tài)時(shí)間規(guī)整的方法聚類[4]。由于從聚類原理進(jìn)行研究不利于提取時(shí)間維度的動(dòng)態(tài)波動(dòng)特征,因此最新研究趨勢(shì)都是從數(shù)據(jù)降維的角度出發(fā),對(duì)面板數(shù)據(jù)的指標(biāo)維度進(jìn)行降維,將面板數(shù)據(jù)降為個(gè)體-時(shí)間數(shù)據(jù),再利用時(shí)間序列聚類的方法聚類。對(duì)于高頻面板數(shù)據(jù),已有的聚類方法很難有效地捕捉時(shí)間維度的局部變化特征。為此,本文提出了解決高頻面板數(shù)據(jù)聚類的一種基于小波特征提取的聚類方法,文中利用主成分法將指標(biāo)維度進(jìn)行降維,使之成為時(shí)間序列數(shù)據(jù),再利用小波分析理論將時(shí)間序列信號(hào)小波分解成低頻信號(hào)和高頻信號(hào),分別提取低頻信號(hào)的“趨勢(shì)”特征、“均值”特征和高頻信號(hào)的“波動(dòng)”特征、“周期”特征,最后將這些特征給予熵值法權(quán)重并進(jìn)行系統(tǒng)聚類,從而最大限度地減小時(shí)間維度上的信息損失。
面板數(shù)據(jù)又稱時(shí)間截面數(shù)據(jù),從數(shù)據(jù)形式的復(fù)雜性角度可將面板數(shù)據(jù)分為單指標(biāo)面板數(shù)據(jù)和多指標(biāo)面板數(shù)據(jù)。實(shí)際中,一般多以多指標(biāo)面板數(shù)據(jù)的形式存在,故本文只研究多指標(biāo)面板數(shù)據(jù)。多指標(biāo)面板數(shù)據(jù)用xij(t)(i=1,2,…,N;j=1,2,…,m;t=1,2,…,T)表示,其中N表示面板數(shù)據(jù)的個(gè)體總數(shù),m表示指標(biāo)總數(shù),T表示時(shí)期總數(shù)。
面板數(shù)據(jù)的多指標(biāo)維度給聚類帶來了一定的復(fù)雜性,已有學(xué)者劉云霞和王德青等在面板數(shù)據(jù)聚類的研究中均采用主成分法對(duì)指標(biāo)維度進(jìn)行降維[4-5]。后者通過實(shí)驗(yàn)發(fā)現(xiàn):主成分個(gè)數(shù)不同時(shí),聚類結(jié)果會(huì)迥然不同,當(dāng)取全部主成分時(shí),聚類結(jié)果趨于穩(wěn)定,并達(dá)到最佳效果?;诖?,本文也按照取全部主成分的思想對(duì)面板數(shù)據(jù)指標(biāo)維度進(jìn)行降維,具體降維過程如下:
(1)
經(jīng)定義1中的降維方法降維后,面板數(shù)據(jù)已轉(zhuǎn)化為時(shí)間序列數(shù)據(jù),研究方向簡化為高頻時(shí)間序列數(shù)據(jù)的聚類問題。高頻時(shí)間序列數(shù)據(jù)的波動(dòng)信息,給聚類分析造成了一定的麻煩,本文將引入小波分析理論解決這一問題。
1.小波分解
高頻時(shí)間序列具有短期波動(dòng)頻繁、噪聲干擾嚴(yán)重、以及非平穩(wěn)的特點(diǎn)。小波變換采用平移和伸縮不變性建立小波理論體系,是一種窗口大小固定但其形狀可改變、時(shí)間窗和頻率窗都可改變的時(shí)頻局域化分析方法[6]164-172,能較好地提取時(shí)間序列的波動(dòng)信息。
小波變換的定義:將小波母函數(shù)ψ(t)平移b個(gè)單位后,再在不同尺度a下與待測(cè)信號(hào)x(t)做內(nèi)積:
(2)
本文研究的時(shí)間序列是離散的,故采用離散小波變換,設(shè)取樣時(shí)間間隔為Δt,樣本容量為T,則對(duì)時(shí)間序列信號(hào)x∈L2(R),根據(jù)式(2)可推出離散的小波變換為:
a>0
(3)
多分辨率分析根據(jù)小波變換將時(shí)間序列信號(hào)通過高通和低通兩個(gè)濾波器分解為低頻的近似信號(hào)和高頻的細(xì)節(jié)信號(hào)[6]164-172。低頻信號(hào)是時(shí)間序列信號(hào)的主體趨勢(shì)項(xiàng),它反映時(shí)間序列信號(hào)整體的變化趨勢(shì)特征;高頻信號(hào)包括時(shí)間序列信號(hào)的隨機(jī)信息和周期信息,反映隨機(jī)擾動(dòng)和周期波動(dòng)等動(dòng)態(tài)因素對(duì)時(shí)間序列的影響,是對(duì)趨勢(shì)項(xiàng)信息的細(xì)節(jié)補(bǔ)充。一個(gè)時(shí)間序列信號(hào)可以通過c層小波分解為1個(gè)低頻信號(hào)和c個(gè)高頻信號(hào)(如圖1),即x=ac+d1+d2+…+dc。但信號(hào)分解的層數(shù)直接決定了小波分解的效果,并不是任意的,對(duì)于長度為T的信號(hào)最大分解層數(shù)為log2T[7]130-132。
圖1 c層小波分解樹圖
2.特征提取
定義2 利用每個(gè)時(shí)間序列經(jīng)小波分解后的最后一層低頻信號(hào)ac提取其“趨勢(shì)”特征trend_ac和“均值”特征mean_ac:
(4)
(5)
定義3 將小波系數(shù)WTx(a,b)的平方值在b域上求期望,就可以得到小波方差[8]115-120,即:
(6)
小波方差隨尺度a的變化過程稱為小波方差圖,由式(6)可知,它反映時(shí)間序列的波動(dòng)能量隨尺度a的分布。根據(jù)小波方差圖可以確定時(shí)間序列信號(hào)中存在的主要時(shí)間尺度,即主周期cycle_xi。由此,可以提取每個(gè)時(shí)間序列波動(dòng)的主周期特征cycle_xi。
定義4 利用每個(gè)時(shí)間序列經(jīng)小波分解后的第一層高頻信號(hào)d1提取其“波動(dòng)”特征var_d1:
(7)
文中的“趨勢(shì)”特征、“均值”特征、“主周期”特征和“波動(dòng)”特征對(duì)個(gè)體的影響程度不同,根據(jù)其影響程度必須賦予相應(yīng)權(quán)重wj(j=1,2,…,4),為了避免主觀臆測(cè),本文采取熵值法客觀賦權(quán)[9]。
熵值法賦權(quán)的基本步驟:
(1)選取N個(gè)時(shí)間序列的4項(xiàng)特征指標(biāo)trend_ac、mean_ac、cycle_xi、var_d1組成的數(shù)據(jù)集{Zij},則Zij為第i個(gè)個(gè)體第j項(xiàng)特征指標(biāo)的數(shù)值(i=1,2,…,N;j=1,2,…,4)。
(2)指標(biāo)歸一化:異質(zhì)指標(biāo)同質(zhì)化。采用不同的算法進(jìn)行標(biāo)準(zhǔn)化處理。
令Zij=|Zij|,方法如下:
正向指標(biāo):
(8)
負(fù)向指標(biāo):
(9)
(3)計(jì)算第j項(xiàng)指標(biāo)的第i個(gè)個(gè)體占該指標(biāo)的比重pij和第j個(gè)個(gè)體的熵值ej。
(10)
(11)
其中,k=1/ln(N)>0,需滿足ej≥0。
(4)計(jì)算信息熵冗余度dj和各項(xiàng)指標(biāo)的權(quán)重wj。dj=1-ej
(12)
(13)
編寫MATLAB程序代碼實(shí)現(xiàn)上述算法,可得出“趨勢(shì)”特征、“均值”特征、“主周期”特征和“波動(dòng)”特征相應(yīng)的權(quán)重w1,w2,w3,w4。
面板數(shù)據(jù)涉及三個(gè)維度的信息,該數(shù)據(jù)聚類是一個(gè)比較復(fù)雜的過程。本文從降維和特征提取的角度將問題逐步簡化,綜合考慮了指標(biāo)維度的截面信息和時(shí)間維度的動(dòng)態(tài)波動(dòng)信息,提取了指標(biāo)和時(shí)間兩個(gè)維度的4個(gè)特征量,根據(jù)這4個(gè)特征量可以直接對(duì)個(gè)體進(jìn)行系統(tǒng)聚類。設(shè)有N個(gè)個(gè)體,每個(gè)個(gè)體有T個(gè)時(shí)期,m個(gè)指標(biāo),可將面板數(shù)據(jù)聚類的步驟歸納如下:
步驟1 將原始面板數(shù)據(jù)進(jìn)行均值化處理,得到標(biāo)準(zhǔn)化后的面板數(shù)據(jù)集{xij(t)}。
步驟2 根據(jù)式(1)對(duì)標(biāo)準(zhǔn)化后的面板數(shù)據(jù)指標(biāo)維度進(jìn)行主成分降維,將面板數(shù)據(jù)簡化為時(shí)間序列數(shù)據(jù)。
步驟3 對(duì)每個(gè)個(gè)體的時(shí)間序列數(shù)據(jù)進(jìn)行小波分解,并根據(jù)式(4)、式(5)、式(6)、式(7)計(jì)算每個(gè)時(shí)間序列的“趨勢(shì)”特征、“均值”特征、“主周期”特征和“波動(dòng)”特征。
步驟4 根據(jù)熵值法計(jì)算“趨勢(shì)”特征、“均值”特征、“主周期”特征和“波動(dòng)”特征的權(quán)重w1,w2,w3,w4。
步驟5 對(duì)個(gè)體的“趨勢(shì)”特征、“均值”特征、“主周期”特征和“波動(dòng)”特征進(jìn)行Z-Score標(biāo)準(zhǔn)化,并乘以對(duì)應(yīng)的權(quán)重w1,w2,w3,w4,得到可用于聚類的新數(shù)據(jù)集。
步驟6 對(duì)步驟5中新數(shù)據(jù)集進(jìn)行系統(tǒng)聚類,得到聚類結(jié)果。
本文選取31支股票2016年10月28日至2017年3月23日的日開盤價(jià)、日最高價(jià)、日最低價(jià)、日收盤價(jià)、日個(gè)股交易股數(shù)和日個(gè)股交易金額等100個(gè)時(shí)點(diǎn)的面板數(shù)據(jù)進(jìn)行聚類分析,這些指標(biāo)反映股票的內(nèi)在價(jià)值[10]。本文所使用的數(shù)據(jù)來源于國泰安數(shù)據(jù)庫股票市場(chǎng)交易數(shù)據(jù)模塊。
按照文中聚類步驟,利用SPSS軟件對(duì)股票面板數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,再對(duì)標(biāo)準(zhǔn)化后的面板數(shù)據(jù)的多個(gè)指標(biāo)進(jìn)行主成分降維,將多個(gè)指標(biāo)的信息聚集成一個(gè)綜合得分指標(biāo),以達(dá)到將面板數(shù)據(jù)簡化為時(shí)間序列數(shù)據(jù)的效果。選取db4母小波函數(shù)并運(yùn)用文中小波分解的方法和MATLAB軟件對(duì)主成分降維后的每個(gè)時(shí)間序列進(jìn)行6層(文中個(gè)體的采樣時(shí)點(diǎn)T為100,小波分解的最大分解層數(shù)不大于log2T=6.643 9,故這里小波分解的層數(shù)取6小波分解。編譯MATLAB程序,利用db4小波分解后的第6層低頻信號(hào)提取每個(gè)個(gè)體的“趨勢(shì)”特征trend_ac和“均值”特征mean_ac,利用db4小波分解后的第1層高頻信號(hào)提取每個(gè)個(gè)體的“波動(dòng)”特征var_d1。選取Morlet復(fù)小波變換并運(yùn)用MATLAB的小波包計(jì)算每個(gè)個(gè)體的時(shí)間序列信號(hào)的小波方差,從而確定每個(gè)個(gè)體的波動(dòng)周期。例如股票代碼為000001的上市公司,Morlet復(fù)小波變換后的小波方差圖(見圖2)。由圖2可知,在時(shí)點(diǎn)t(31支股票的各指標(biāo)對(duì)應(yīng)的時(shí)點(diǎn)都相同,為了利于特征提取,本文將所有時(shí)點(diǎn)視為等間隔時(shí)點(diǎn),即t=1,2,…,100)為60時(shí),小波方差取得最大波峰值,這說明000001這支股票綜合得分序列波動(dòng)的主周期cycle_xi為60。同理,可確定所有股票的綜合得分序列波動(dòng)的主周期(見表1)。
圖2 000001的小波方差圖
表1 31支股票的綜合得分序列波動(dòng)的主周期
利用提取的每個(gè)個(gè)體的“均值”特征mean_ac、“趨勢(shì)”特征trend_ac、“波動(dòng)”特征var_d1和“周期”特征cycle_xi,按照文中的算法編譯MATLAB熵值法程序,計(jì)算出這些特征的權(quán)重依次為0.343 2、0.061 0、0.532 3和0.063 5。從熵值法權(quán)重可以看出,“均值”特征和“波動(dòng)”特征對(duì)個(gè)體的影響比較大,“趨勢(shì)”特征和“周期”特征的影響相對(duì)而言要小的多,這也比較符合實(shí)際情況。在股票市場(chǎng)中,均值代表股票所有期的整體水平,波動(dòng)代表股票的風(fēng)險(xiǎn)水平,對(duì)股票的內(nèi)在價(jià)值都起到?jīng)Q定作用。
運(yùn)用SPSS軟件對(duì)每個(gè)個(gè)體的“均值”特征mean_ac、“趨勢(shì)”特征trend_ac、“波動(dòng)”特征var_d1和“周期”特征cycle_xi進(jìn)行Z-Score標(biāo)準(zhǔn)化,再分別乘以對(duì)應(yīng)的權(quán)重值,組成新的截面數(shù)據(jù)集{w1·mean_ac,w2·trend_ac,w3·var_d1,w4·cycle_xi},最后利用SPSS軟件對(duì)截面數(shù)據(jù)集進(jìn)行系統(tǒng)聚類,根據(jù)碎石圖和實(shí)際情況判斷聚類數(shù)為4,聚類結(jié)果見表2。
表2 31支股票內(nèi)在價(jià)值的聚類結(jié)果表
圖3a 第1類股票綜合得分趨勢(shì)圖
圖3b 第2類股票綜合得分趨勢(shì)圖
圖3c 第3類股票綜合得分趨勢(shì)圖
從圖3a~圖3d可以看出,第1類股票的綜合得分序列的波動(dòng)呈明顯的周期性,波動(dòng)頻繁,波動(dòng)幅度較小,屬于周期性風(fēng)險(xiǎn)股票;第2類股票的綜合得分序列無明顯的周期性,波動(dòng)幅度小,屬于低風(fēng)險(xiǎn)股票;第3類股票的綜合得分序列波動(dòng)較頻繁,屬于較高風(fēng)險(xiǎn)性股票;第4類股票的綜合得分序列波動(dòng)周期大,波動(dòng)幅度大,波動(dòng)頻繁,屬于高風(fēng)險(xiǎn)股票。由于取樣時(shí)點(diǎn)多,類內(nèi)個(gè)體的波動(dòng)特征雖未具有完美的重合性,但也具有一定的相似性,并且類間的個(gè)體間的趨勢(shì)線具有較大的異質(zhì)性,即不同類的個(gè)體波動(dòng)極不相似。
針對(duì)高頻面板數(shù)據(jù)在時(shí)間維度上波動(dòng)頻繁造成的聚類結(jié)果偏差較大這一問題,本文從小波分解的角度提取了面板數(shù)據(jù)主成分降維后的綜合得分序列,利用小波變換提取綜合得分序列的“周期”特征、低頻部分的“均值”特征和“趨勢(shì)”特征、高頻部分的“波動(dòng)”特征,采用熵值法對(duì)這些特征進(jìn)行賦權(quán)并利用賦權(quán)后的特征數(shù)據(jù)和系統(tǒng)聚類方法實(shí)現(xiàn)面板數(shù)據(jù)的聚類。股票高頻面板數(shù)據(jù)的實(shí)證分析表明,該方法的聚類效果良好。目前,已有的高頻面板數(shù)據(jù)聚類方法極少,此方法是對(duì)高頻面板數(shù)據(jù)聚類的一次成功嘗試,后續(xù)更深層次的特征提取指標(biāo)還有待進(jìn)一步研究。
[1] 李因果,戴翼,何曉群.基于自適應(yīng)權(quán)重的面板數(shù)據(jù)聚類方法[J].系統(tǒng)工程理論與實(shí)踐,2013,33(2).
[2] 張立軍,彭浩.面板數(shù)據(jù)加權(quán)聚類分析方法研究[J].統(tǒng)計(jì)與信息論壇,2017,32(4).
[3] 任娟,陳圻.基于形狀特征的多指標(biāo)面板數(shù)據(jù)聚類方法及應(yīng)用[J].統(tǒng)計(jì)與信息論壇,2011,26(10).
[4] 劉云霞.基于動(dòng)態(tài)時(shí)間規(guī)整的面板數(shù)據(jù)聚類方法研究及應(yīng)用[J].統(tǒng)計(jì)研究,2016,33(11).
[5] 王德青,朱建平,謝邦昌.中國創(chuàng)新能力區(qū)域差異的靜態(tài)與動(dòng)態(tài)分析[J].數(shù)理統(tǒng)計(jì)與管理,2014,5(9).
[6] 唐向宏,李齊良.時(shí)頻分析與小波變換[M].北京:科學(xué)出版社,2008.
[7] 卓金武.Matlab在數(shù)學(xué)建模中的應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2011.
[8] 王文圣,丁晶,李躍清.水文小波分析[M].北京:化學(xué)工業(yè)出版社,2005.
[9] Hanping Zhang.Application on the Entropy Method for Determination of Weight of Evaluating Index in Fuzzy Mathematics for Wine Quality Assessment[J].Advance Journal of Food Science and Technology,2015,7(3).
[10] 韓俊華,干勝道.股票價(jià)格行為及理論[J].稅務(wù)與經(jīng)濟(jì),2014(1).