王 慧,魏 勇
(西華師范大學(xué) 數(shù)學(xué)與信息學(xué)院,四川 南充 637009)
灰色關(guān)聯(lián)分析是灰色系統(tǒng)理論的一個(gè)重要分支,它對作用對象的數(shù)量和有無規(guī)律性沒有要求,計(jì)算量小,彌補(bǔ)了采用傳統(tǒng)數(shù)理統(tǒng)計(jì)方法時(shí)導(dǎo)致的缺點(diǎn)[1]。學(xué)者們以鄧聚龍的灰色關(guān)聯(lián)四公理為理論基礎(chǔ),基于不同研究對象的實(shí)質(zhì),提出了不同類型的灰色關(guān)聯(lián)度,如鄧氏關(guān)聯(lián)度、灰色B型關(guān)聯(lián)度、灰色絕對關(guān)聯(lián)度、灰色C型關(guān)聯(lián)度等。但對于現(xiàn)實(shí)而言,數(shù)據(jù)的復(fù)雜程度決定了學(xué)者們應(yīng)著力于灰色關(guān)聯(lián)分析在多指標(biāo)的面板數(shù)據(jù)中的應(yīng)用研究。觀察相關(guān)文獻(xiàn)[2-6]可以發(fā)現(xiàn),應(yīng)用于面板數(shù)據(jù)時(shí)學(xué)者們基于不同的理論點(diǎn)提出了不同的關(guān)聯(lián)度計(jì)算方法,相似性關(guān)聯(lián)度和接近性關(guān)聯(lián)度是其中的核心部分,已有的文獻(xiàn)暫時(shí)沒有一個(gè)可以公理化這兩大類關(guān)聯(lián)度計(jì)算式的定義,不能清楚地說明各種關(guān)聯(lián)度可以反映哪種實(shí)際應(yīng)用,從而導(dǎo)致其他方向應(yīng)用關(guān)聯(lián)度時(shí)因?yàn)楦拍罨煜e(cuò)誤判斷關(guān)聯(lián)程度。在此基礎(chǔ)上,文獻(xiàn)[7]指出對于時(shí)間數(shù)據(jù)序列而言,不可能定義一個(gè)既能反映相關(guān)性又能反映接近性的關(guān)聯(lián)度,應(yīng)分門別類地討論相似性和接近性關(guān)聯(lián)度。而且很多關(guān)聯(lián)度計(jì)算式在滿足鄧氏關(guān)聯(lián)四公理的規(guī)范性前提下不能均勻分布在[0,1]區(qū)間內(nèi),導(dǎo)致結(jié)果的辨析程度較差,出現(xiàn)多個(gè)關(guān)聯(lián)度間結(jié)果差距較小,或者差距太大,不能較好反映序列間關(guān)聯(lián)程度差異。
針對以上情況,本文首先提出了一種新的面板數(shù)據(jù)初始化方法,能較好地反映數(shù)據(jù)在均值附近波動的情況,從而便于觀察數(shù)據(jù)序列間變化形式的相似性,其次分別公理化了面板數(shù)據(jù)的接近性關(guān)聯(lián)度和相似性關(guān)聯(lián)度并給出案例,探討了在規(guī)范性前提下利用分辨系數(shù)ξ(0<ξ<+∞)來拓展關(guān)聯(lián)度取值分布,提高了對結(jié)果的辨析程度,最后通過實(shí)例分析來說明結(jié)論的可靠性。
面板數(shù)據(jù)也叫平行數(shù)據(jù),是指在時(shí)間序列上取多個(gè)截面,在這些截面上同時(shí)選取樣本觀測值所構(gòu)成的樣本數(shù)據(jù),區(qū)別于傳統(tǒng)的單指標(biāo)時(shí)間數(shù)據(jù)序列,面板數(shù)據(jù)具有時(shí)間維度、指標(biāo)維度和樣本維度,是多樣本多指標(biāo)時(shí)間序列。對面板數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析首先要了解其數(shù)學(xué)表達(dá),設(shè)樣本總體數(shù)量為N,指標(biāo)數(shù)量為m,時(shí)間長度為n,文獻(xiàn)[2]采用三維數(shù)據(jù)表來描述面板數(shù)據(jù),由于數(shù)據(jù)表不能體現(xiàn)出面板數(shù)據(jù)的幾何特征,故將二維表中的值對應(yīng)為三維坐標(biāo)中的點(diǎn),將其在三維空間中每一個(gè)點(diǎn)記作xi(s,t),表示樣本i關(guān)于指標(biāo)s在時(shí)間t處的值。
定義1[2]:若面板數(shù)據(jù)X中的樣本i關(guān)于指標(biāo)s在時(shí)間t的數(shù)值為xi(s,t),則稱
為樣本i的行為矩陣。
定義 2[6]:面板數(shù)據(jù)序列X=(X1,X2,…,XN)為其樣板序列,將面板數(shù)據(jù)投射到n維空間中的n維向量,則設(shè)樣本序列中的Xi滿足:
其中xi(s)=(xi(s,1),xi(s,2),…,xi(s,n)),s=1,2,…,m,稱xi(s)為這組面板數(shù)據(jù)中樣本i關(guān)于指標(biāo)s的時(shí)間序列。
定義3:Xi是樣本i的面板數(shù)據(jù),D是初始化算子,若:
灰色關(guān)聯(lián)分析基本思想中的兩大類,一是根據(jù)時(shí)間數(shù)據(jù)序列曲線幾何形狀的相似程度來判斷其關(guān)聯(lián)程度大小,二是根據(jù)時(shí)間數(shù)據(jù)序列的接近程度來判斷其關(guān)聯(lián)程度大小,對于空間中的向量而言,一方面向量夾角越小其相似程度越高,其關(guān)聯(lián)程度也越大,另一方面兩向量之差的模長越小,則越接近關(guān)聯(lián)程度越大,因此可以利用向量夾角和向量差的模長來描述相似性和接近性關(guān)聯(lián)度。
定義4:設(shè)樣本i與樣本j在s指標(biāo)下通過均值波動算子初始化后的的時(shí)間序列為:
則兩指標(biāo)序列的夾角為:
值得注意的是利用向量差的模長計(jì)算接近性關(guān)聯(lián)度來判斷序列間關(guān)聯(lián)程度大小是不能用均值波動算子處理數(shù)據(jù)的,因?yàn)榫挡▌铀阕訒淖冊蛄吭诳臻g中的位置及距離。
定義5(面板數(shù)據(jù)的接近性關(guān)聯(lián)度):設(shè)面板數(shù)據(jù)序列為X=(X1,X2,…,XN),其中X0=(x0(1),x0(2),…,x0(m))為系統(tǒng)特征序列,Xi=(xi(1),xi(2),…,xi(m)),i=1, 2,…,N為系統(tǒng)比較序列,且Xi(s)=(xi(s,1),xi(s,2),…,xi(s,n)),s=1,2,…,m。若實(shí)數(shù)γ(Xi,Xj)滿足:
(1)規(guī)范性:0<γ(Xi,Xj)≤1 且γ(Xi,Xj)=1?Xi=Xj即γ(Xi,Xj)=1?Xi(s,t)=Xj(s,t),s=1,2,…m,t=1,2,…,n;
證明:(1)規(guī)范性:
顯然 0<γ(Xi,Xj)≤1,還需證明γ(Xi,Xj)=1 ?Xi=Xj?Xi(s,t)=Xj(s,t)s=1,2,…,m;t=1,2,…,n。
(2)接近性:
可以發(fā)現(xiàn)案例中的接近性關(guān)聯(lián)度使得除了完全相同的兩面板數(shù)據(jù)在任何分辨系數(shù)下關(guān)聯(lián)度為1保持不變以外,其他任何不同的兩面板數(shù)據(jù)都會隨著分辨系數(shù)增大而關(guān)聯(lián)度值減小,隨著分辨系數(shù)減小而關(guān)聯(lián)度值增大,從而起到了調(diào)節(jié)辨析率的作用。
此處分辨系數(shù)ξ為0<ξ<+∞,并建議根據(jù)具體研究對象的實(shí)質(zhì)以及計(jì)算出的關(guān)聯(lián)度差異來動態(tài)地確定ξ的取值。如當(dāng)計(jì)算出的兩不同方案數(shù)據(jù)序列關(guān)聯(lián)度值均接近于1時(shí)接近程度高,不易辨析其二者差異時(shí),可通過分辨系數(shù)動態(tài)地取值來調(diào)節(jié)差距,這時(shí)分辨系數(shù)ξ越大,關(guān)聯(lián)度值就越小,就如同放大鏡來放大差距,提高辨析程度。分辨系數(shù)ξ越小,關(guān)聯(lián)度值就越大,且關(guān)聯(lián)度值越接近于1,就越來越淡化其差異,肯定其接近程度,如果允許ξ=0,則將完全抹殺所有序列之間的差異,關(guān)聯(lián)度值衡為1,從而是一種毫無意義的關(guān)聯(lián)度。
值得注意的是:接近性關(guān)聯(lián)度不能對數(shù)據(jù)進(jìn)行初值單位化、零像化等操作,因?yàn)槌踔祮挝换瘯?yīng)項(xiàng)成比例的兩序列之間的差異,初值零像化會抹殺序列各坐標(biāo)平移某固定常數(shù)前后之間的差異,均會導(dǎo)致對應(yīng)坐標(biāo)相聚甚遠(yuǎn)而關(guān)聯(lián)度值較大的情形,這就必然失去通過計(jì)算其接近性關(guān)聯(lián)度來判斷關(guān)聯(lián)程度大小的真實(shí)性。
定義6(面板數(shù)據(jù)的相似性關(guān)聯(lián)度):設(shè)面板數(shù)據(jù)序列為X=(X1,X2,…,XN),其中X0=(x0(1),x0(2),…,x0(m))為系統(tǒng)特征序列,Xi=(xi(1),xi(2),…,xi(m)) ,i=1,2,…,N為系統(tǒng)比較序列,且Xi(s)=(xi(s,1),xi(s,2),…,xi(s,n)),s=1,2,…,m。若實(shí)數(shù)ρ(Xi,Xj)滿足:
(1)線性相關(guān)規(guī)范性
0<ρ(Xi,Xj)≤1且ρ(Xi,Xj)=1??s=1,2…,m,?αsi≠0,βsi滿足Xi=αsiXj+βsi;即ρ(Xi,Xj)=1??s=1,2…,m,?αsi≠0,βsi使xi(s,t)=αsixj(s,t)+βsi,t=1,2,…,n
(2)線性相關(guān)接近性:
ρ,?αsi≠0,βsi滿 足αsi,即≠0,βsi滿足:則稱ρ(Xi,Xj)為面板數(shù)據(jù)樣本序列中Xi與Xj的相似性關(guān)聯(lián)度。
證明:(1)線性相關(guān)規(guī)范性:
顯然,0<ρ(Xi,Xj)≤1,還需證明ρ(Xi,Xj)=1??s=1,2…,m,?αsi≠0,βsi滿足Xi=αsiXj+βsi,即ρ(Xi,Xj)=1??s=1,2…,m,?αsi≠0,βsi使xi(s,t)=αsixj(s,t)+βsi,t=1,2,…,n
先證必要性:
再證充分性:
即ρ(Xi,Xj)滿足線性相關(guān)規(guī)范性。
(2)線性相關(guān)接近性:
先證必要性:
再證充分性:
?s=1,2,…,m, ?αsi≠0,βsi滿足(s,t)
即ρ(Xi,Xj)滿足線性相關(guān)接近性。
此處分辨系數(shù)ξ仍然為0<ξ<+∞,也建議根據(jù)具體研究對象的實(shí)質(zhì)以及計(jì)算出的關(guān)聯(lián)度差異來動態(tài)地確定ξ的取值。當(dāng)一組并不完全線性相關(guān)的數(shù)據(jù)序列計(jì)算出的關(guān)聯(lián)度值均不等于1但接近于1時(shí),不易辨析,可通過分辨系數(shù)動態(tài)地取值來調(diào)節(jié)差距,這時(shí)分辨系數(shù)ξ越大,關(guān)聯(lián)度值就越小。分辨系數(shù)ξ越小,關(guān)聯(lián)度值就越大,關(guān)聯(lián)度值越接近于1,就越來越淡化其并不完全相關(guān)的事實(shí)。另外,與接近性關(guān)聯(lián)度一樣決不允許ξ=0。
值得注意的是:相似性關(guān)聯(lián)度與接近性關(guān)聯(lián)度相反,能容忍對數(shù)據(jù)作平移和數(shù)乘變換,因?yàn)閮尚蛄懈髯云揭?、?shù)乘任意常數(shù)不影響線性相關(guān)程度。
案例1:設(shè)西部某省A、B、C、D四市在一項(xiàng)政府新政策下達(dá)后2014—2016年平均每戶家庭每月在飲食、旅游、教育上的金額如下(單位:千元),X0為A市面板數(shù)據(jù),X1,X2,X3為B、C、D市的面板數(shù)據(jù),若想要以此探討此項(xiàng)新政策對四市的經(jīng)濟(jì)發(fā)展情況的影響,應(yīng)如何運(yùn)用灰色關(guān)聯(lián)分析?
首先應(yīng)分析題意,選擇接近性或者相似性關(guān)聯(lián)度,題中描述此面板數(shù)據(jù)體現(xiàn)的是在該項(xiàng)新政策影響下平均每戶家庭每月在飲食、旅游、教育上的金額的變化情況,強(qiáng)調(diào)在該政策下不同市之間每戶家庭在不同指標(biāo)下金額的變化情況的相似性,而不是消費(fèi)水平的接近性,所以應(yīng)采用相似性關(guān)聯(lián)度來計(jì)算,本例即選取例2的相似性關(guān)聯(lián)度:
經(jīng)過均值波動算子處理后的面板數(shù)據(jù)為:取ξ=1時(shí)通過改進(jìn)的關(guān)聯(lián)度計(jì)算得到:ρ01=0.6032 ,ρ02=0.8522 ,ρ03=0.2947
即從關(guān)聯(lián)程度上看,有ρ02>ρ01>ρ03,且從時(shí)間維度上觀察面板數(shù)據(jù)初始化后在每個(gè)指標(biāo)下的時(shí)間序列,X0與X2的變化趨勢確實(shí)比X0與X1的變化趨勢接近,X0與X1的變化趨勢也確實(shí)比X0與X3的變化趨勢更接近,結(jié)果與實(shí)際相符,另本例中設(shè)出的數(shù)據(jù)與文獻(xiàn)[6]的相同,得到的結(jié)論也是一樣的,更加說明此例中采用的關(guān)聯(lián)分析的正確性。
案例2:現(xiàn)有A、B、C、D四省在2014—2016年平均每戶家庭每月在飲食、旅游、教育上的金額如下(單位:千元),X0為A省面板數(shù)據(jù),X1,X2,X3為B、C、D省的面板數(shù)據(jù),若需要以此為依據(jù)分析A、B、C、D四省的經(jīng)濟(jì)發(fā)展情況,該如何利用灰色關(guān)聯(lián)分析?
首先分析題意,選擇接近性或者相似性關(guān)聯(lián)度,題中描述的面板數(shù)據(jù)是平均每戶家庭每月在飲食、旅游、教育上的金額,強(qiáng)調(diào)的是西部四個(gè)不同省份之間每戶家庭在飲食、旅游、教育三個(gè)指標(biāo)下消費(fèi)水平的接近性而不是相似性,所以應(yīng)采用接近性性關(guān)聯(lián)度來計(jì)算,本例即選取例1中的接近性關(guān)聯(lián)度,因?yàn)槭翘接懙慕咏?,所以不能對?shù)據(jù)進(jìn)行初值單位化、零像化等操作,取分辨系數(shù)ξ=1,直接利用式子計(jì)算后得:
即從關(guān)聯(lián)度來看ρ02>ρ03>ρ01,從分指標(biāo)的時(shí)間序列來看,確實(shí)C省的數(shù)據(jù)與A省更接近,但B、D兩省與A省計(jì)算出的關(guān)聯(lián)度太接近,可嘗試適當(dāng)調(diào)節(jié)分辨系數(shù)來增強(qiáng)辨析性,當(dāng)ξ=1.5時(shí),有ρ03=0.2649>ρ01=0.2702,增大了二者之間差值,但關(guān)聯(lián)序沒有變化,更說明了D省與A省的關(guān)聯(lián)程度比B省與A省的關(guān)聯(lián)程度大。
本文主要作了以下幾方面工作:
(1)提出了基于面板數(shù)據(jù)的接近性和相似性兩類性質(zhì)炯然不同的關(guān)聯(lián)度之公理化定義,舉出的接近性或相似性相應(yīng)類型關(guān)聯(lián)度的實(shí)例僅僅是示范,并不唯一;
(2)給出一種的面板數(shù)據(jù)初始化方法,但并不是硬性要求,因?yàn)槌踔祷c否并不影響關(guān)聯(lián)度值的計(jì)算結(jié)果;
(3)強(qiáng)調(diào)通過適當(dāng)添加分辨系數(shù)來調(diào)節(jié)關(guān)聯(lián)度,此時(shí)分辨系數(shù)應(yīng)是動態(tài)的,提高關(guān)聯(lián)度的辨析性,分辨系數(shù)不局限在(0,1),而是所有可能的正數(shù);
(4)就接近性關(guān)聯(lián)度和相似性關(guān)聯(lián)度在實(shí)際中的應(yīng)用分別給出實(shí)例,并解釋采用哪種類型關(guān)聯(lián)度的原因,為之后的針對應(yīng)用問題的相關(guān)實(shí)質(zhì)選擇所需關(guān)聯(lián)度提供參考示例。