陳敏瓊,彭東海
定義1[1]設(shè)變量組 {X1,X2,…,Xp}之間存在線性關(guān)系:
其中ε,α為隨機擾動項,則在X3,…,Xp給定的條件下X1與X2的偏相關(guān)系數(shù)的大小可定義為:
若有樣本數(shù)據(jù)則可通過樣本數(shù)估計得出模型(1)和(2)的殘差序列{i},{},i=1,2,…,n,則X3,…,Xp給定的條件下X1與X2的樣本偏相關(guān)系數(shù)為:
定義2[2]設(shè)回歸模型
記Y的 殘 差 平 方 和 為SE(X1,X2,…,Xp),而SE(X2,…,Xp)表示去掉變量X1后建立的新的回歸模型
的殘差平方和,則稱
為變量Y關(guān)于變量X1的偏決定系數(shù)。而稱此偏決定系數(shù)的平方根
為Y與變量X1的偏相關(guān)系數(shù)。
公式3[3]設(shè)有變量組{X1,X2,…,Xp},其相關(guān)系數(shù)陣為
其中,rij表示變量Xi,Xj的簡單相關(guān)系數(shù).則 ?i,j=1,2,…,p,變量Xi與Xj在其他變量給定的條件下的偏相關(guān)系數(shù)為:
其中,Δij,Δii,Δjj分別為|R|中元素rij,rii,rjj的代數(shù)余子式。
定義1所給出的偏相關(guān)系數(shù)的定義側(cè)重說明兩變量在扣除其他變量的影響之后的“純相關(guān)”,定義2所給出的偏相關(guān)系數(shù)的定義則常在回歸分析中用來衡量某個自變量對因變量的重要性,以判定該自變量是否需要加入模型中(事實上可以證明定義2的計算公式就是定義1所定義的偏相關(guān)系數(shù)的絕對值)。定義1與定義2都是基于回歸分析提出的,筆者以為回歸分析的前提條件是已明確變量之間是具有因果關(guān)系的,這樣定義出來的偏相關(guān)系數(shù)不具有對稱性,也不符合相關(guān)分析的本質(zhì)。而公式3給出的計算公式則沒有區(qū)分變量之間的因果關(guān)系,因而更合理,而且計算上也簡便。下面筆者將通過分析得出公式3所指出的兩變量之間的偏相關(guān)系數(shù)計算公式,事實上是基于多元正態(tài)分布理論中的條件分布的結(jié)論導(dǎo)出的。
由此條件協(xié)方差陣可計算在X(2)給定的條件下,X(1)中兩兩指標之間的偏相關(guān)系數(shù)大小。
故在X3給定的條件下X1與X2的偏相關(guān)系數(shù)的大小為:
其中,ρij表示變量Xi與Xj的簡單相關(guān)系數(shù)大小,i,j=1,2,3。
此結(jié)論說明在X3,…,Xp給定的條件下X1與X2的偏相關(guān)系數(shù)的大小
其中σ11,σ12,σ22分別為協(xié)方差陣Σ的逆矩陣Σ-1中的第1行第1列的元素、第1行第2列的元素及第2行第2列的元素。
類似,若要求變量Xi與Xj(不妨設(shè)j>i)在其 他 變 量X1,X2,…,Xi-1,Xi+1,…,Xj-1,Xj+1,…Xp給定的條件下的偏相關(guān)系數(shù),可令
(其中P1i表示單位陣Ip的第1行與第i行交換所得的初等陣,P2j表示單位Ip的第2行與第j行交換所得的初等陣)。則由多元正態(tài)分布性質(zhì)可知
由前面推導(dǎo)結(jié)論可知Xi與Xj(注:此時Xi與Xj為向量Y的第一和第二個指標)在變量X1,X2,…,Xi-1,Xi+1,…,Xj-1,Xj+1,…,Xp給定的條件下的偏相關(guān)系數(shù)
其中,c11,c12,c22分別為Y的協(xié)方差陣Σ*的逆矩陣(Σ*)-1中的第1行第1列的元素、第1行第2列的元素及第2行第2列的元素。
綜合上述可知,若隨機向量X=(X1,X2,…,Xp)′~Np(μ,Σ),Σ>o,記Σ= (σmn)p×p,其中σmn=cov(Xm,Xn),m,n= 1,2,…,p,且記Σ-1=(σmn)p×p,則在其他變量X1,X2,…,Xi-1,Xi+1,…,Xj-1,Xj+1,…,Xp給定的條件下Xi與Xj的偏相關(guān)系數(shù)大小為:
另外,由隨機向量X的相關(guān)系數(shù)陣R與協(xié)方差陣Σ的關(guān)系:
從而可得:
至此,公式(9)得證。
本文從多元正態(tài)分布理論中的條件分布的結(jié)論出發(fā),論證了公式3所提出的兩變量之間的偏相關(guān)系數(shù)的計算公式(9)的合理性。該結(jié)論說明對于聯(lián)合分布服從多元正態(tài)分布的向量組{X1,X2,…,Xp}來說,若要求變量組中兩兩變量之間的偏相關(guān)系數(shù)(即“凈相關(guān)”)大小,只需知道該向量組的協(xié)方差陣Σ或簡單相關(guān)系數(shù)陣R(未知時可通過樣本進行估計),通過求Σ-1或R-1,再按(11)式或(12)式計算即可(若變量只有3個,則更簡單,按(10)式計算即可)。因此計算方便且定義合理。但注意前提條件是變量組的聯(lián)合分布必須服從多元正態(tài)分布,至于如何驗證聯(lián)合分布是否服從多元正態(tài)分布則不是本文討論的重點。
[1]李 鋼.關(guān)于偏相關(guān)系數(shù)計算思想的思考[J].商場現(xiàn)代代,2008,(中旬刊):388-389.
[2]王黎明,陳 穎,楊 楠.應(yīng)用回歸分析[M].上海:復(fù)旦大學(xué)出版社,2008:65-66.
[3]郝黎仁,樊 元,郝 歐.SPSS實用統(tǒng)計分析[M].北京:中國水利水電出版社,2007:184.
[4]何曉群.多元統(tǒng)計分析(第二版)[M].北京:中國人民大學(xué)出版社,2010:12-15.