張敏強,王宣承
(1.華南師范大學(xué) 心理應(yīng)用研究中心,廣州 510631;2.上海財經(jīng)大學(xué) 統(tǒng)計與管理學(xué)院,上海 200433)
在現(xiàn)有的心理統(tǒng)計模型中,最小二乘回歸(Ordinary Least-Square Regression,簡稱OLSR)模型是一種最常用的統(tǒng)計分析技術(shù),它主要用于研究一個因變量與多個自變量之間的相關(guān)關(guān)系。例如某產(chǎn)品的銷售量與價格,考生的學(xué)業(yè)成績與地域、性別和智商之間的關(guān)系等等。最小二乘回歸模型利用觀測數(shù)據(jù)來擬合因變量與各個自變量之間的函數(shù)關(guān)系式,分析這些影響變量之間的作用程度,進(jìn)而對相關(guān)變量進(jìn)行估計、預(yù)測和控制。
最小二乘回歸模型具有其顯而易見的優(yōu)點,包括:意義直觀,便于理解;計算簡明,其優(yōu)越性在前計算機時代無可比擬;以條件均值為目標(biāo)函數(shù),具有精密完整的數(shù)學(xué)形式等。
設(shè)多元回歸模型為:
將所有的自變量用矩陣X表示,可以得到:
對(2)式求解,需要求出使殘差的最小二乘方之和最小化的β估計值,即需要滿足:
其一階導(dǎo)數(shù)為:
Markov于1900年證明了Gauss-Markov定理:若觀測樣本滿足最小二乘回歸模型的基本假定,則在所有的無偏估計量中,最小二乘估計量是最優(yōu)線性無偏估計量(Best Linear Unbiased Estimator,簡稱BLUE)。即若滿足回歸模型的假設(shè)條件,可以證明,最小二乘估計量具有如下性質(zhì):
(3)有效性。在所有線性無偏估計量中,最小二乘估計量β^的方差最小。其最小方差為:
盡管最小二乘回歸具有易于理解的優(yōu)點和BLUE等優(yōu)良的統(tǒng)計特性,但是最小二乘法的假設(shè)比較嚴(yán)格,隨機誤差項需要滿足零均值、同方差、無自相關(guān)、與自變量之間不相關(guān)、正態(tài)分布等條件,一般條件下這些假設(shè)難以全部滿足。此時就可能產(chǎn)生異方差、自相關(guān)等問題,從而影響回歸系數(shù)估計的準(zhǔn)確性和有效性。
由于OLSR的條件假設(shè)比較嚴(yán)格,且只能求出關(guān)于因變量條件分布上平均水平的描述,對于條件分布上其他水平的細(xì)節(jié)信息無法測算。Koenker和 Bassett(1978)提出了基于gh分布的分位數(shù)回歸方法(quantile regression,簡稱QR),它對于殘差的分布沒有特定的要求,因而比OLSR具有更大的適用性;它可以根據(jù)不同的分位點來構(gòu)建回歸方程,從而在不同的因變量條件分布上,提供更加細(xì)致全面的關(guān)于的各局部信息。
設(shè)xi(i=1,2,…n)是一個K×1階矩陣,則QR方程可以表示為:
或以矩陣形式表示為:
分位數(shù)回歸通過設(shè)定不同的分位點,來代表因變量的不同水平,在(1.8)式中用表示。當(dāng)τ=0.5時,由于是在中位數(shù)水平上構(gòu)建回歸方程,此時的分位數(shù)回歸也叫中位數(shù)回歸(Median Regression,簡稱MR)。
最小二乘回歸模型的一個重要假設(shè)是進(jìn)入總體回歸方程的隨機誤差項ui同方差,即Var(uj)=E(uj2)=σ2。若方差隨觀測值不同而發(fā)生變化,即Var(uj)=σj2,這就是異方差情況。圖1描述了回歸模型存在同方差和異方差時的不同情況。
圖1 同方差和異方差直觀圖
產(chǎn)生異方差的原因很多。如果回歸模型構(gòu)建得不合適,測量誤差和模型中被忽略的一些因素對因變量發(fā)生了影響,即潛在的自變量被納入到隨機誤差項中,導(dǎo)致誤差變異隨著自變量的變化而變化,可能產(chǎn)生異方差;如果來自不同抽樣單元的因變量觀測值存在較大差異,也可能產(chǎn)生異方差。異方差問題多存在于截面數(shù)據(jù)中而非時間序列數(shù)據(jù)中,如在社會調(diào)查中研究者經(jīng)常采用大規(guī)模問卷施測的方式收集數(shù)據(jù),被試的單位可能具有不同的規(guī)模,如大公司、中等公司和小公司,由規(guī)模效應(yīng)導(dǎo)致方差隨著自變量變化而波動。因此異方差在心理研究中應(yīng)具有重要的研究和使用價值。
異方差的存在對OLSR模型的影響表現(xiàn)在:
(1)最小二乘估計量仍然是線性無偏的,但不再具有有效性(最小方差性)。
當(dāng)異方差發(fā)生時,式(5)依然成立,但是公式(6)需調(diào)整為:
其中
這里Ω是一個正定矩陣且Ω≠I。
(3)建立在t分布和F分布上的置信區(qū)間和假設(shè)檢驗是不可靠的,如果沿用OLSR的檢驗方法,很可能導(dǎo)致錯誤的結(jié)論。
由此可見,當(dāng)隨機誤差分布出現(xiàn)異方差情況時,OLSR不再是最優(yōu)線性無偏估計量,而且會產(chǎn)生誤差方差和參數(shù)檢驗的有偏估計,對于研究者來說統(tǒng)計方法上這樣的偏差是無疑致命的,它將直接影響到結(jié)論的穩(wěn)定性和可靠性。此時的樣本觀測值并未在因變量條件分布的平均水平周圍呈現(xiàn)規(guī)則的分布,而是離散于條件分布的各水平中。若使用QR模型,就有可能將各水平上的回歸效應(yīng)分離出來,克服OLSR的缺陷。以下將用模擬數(shù)據(jù)和實測數(shù)據(jù)加以驗證。
模擬生成一批數(shù)據(jù)集,包含自變量X,因變量Y和殘差項e,共有500個觀測樣本。其中自變量從0到5均勻分布的區(qū)間內(nèi)抽取,殘差項e=z*(X+1),z~N(0,1)。即殘差項與自變量存在著同向相關(guān)關(guān)系。因變量Y的值可通過關(guān)系式Y(jié)=3X+e求出。
圖2 異方差X-散點圖
表1 異方差條件下QR和OLSR的系數(shù)比較
對這批異方差數(shù)據(jù)同時進(jìn)行OLSR與QR對比分析,其結(jié)果如表1。
利用OLSR估計出來的結(jié)果是:
其中,回歸系數(shù)β1差異顯著(p<0.01),R2=0.61。
在QR模型中,我們?nèi)匀贿x取5個分位點:0.1、0.25、0.5、0.75、0.9,從而可以得到一組方程:
對比OLSR和MR,二者的回歸系數(shù)估計值幾乎相等,兩條回歸線在圖3中已經(jīng)重疊在一起。異方差對于OLSR的影響在于其參數(shù)估計的有效性,并不影響參數(shù)估計的線性無偏性,當(dāng)模擬條件控制較好時,OLSR的參數(shù)估計仍然是準(zhǔn)確的,它和MR都代表了條件分布的中等水平,只是一個是以均值的角度來度量、而另一個是以中位數(shù)來度量。
對比不同分位點上的QR方程,由表1所示:自變量X的回歸系數(shù)隨著的增大而依次遞增,變化的范圍從1.88到4.22,全距為2.34。在0.1的分位數(shù)水平上,每增加1個單位的X,Y增加1.88個單位;而在0.9的高分位數(shù)水平上,每增加一個單位X,就可以增加4.22個單位的Y。說明自變量X對于因變量Y的解釋作用隨著因變量水平的增加逐漸增強,在圖3中表現(xiàn)為5條QR曲線的傾斜越來越陡。
對比QR和OLSR隨著分位點變動的情況,OLSR的回歸系數(shù)及其置信區(qū)間依舊在各個分位點上保持恒定,但是QR的回歸系數(shù)隨著的增加而依次遞增。在低分位點處,即在因變量Y的低水平上,QR的回歸系數(shù)普遍小于OLSR的;在高分位點處,即在因變量Y的高水平上,QR的回歸系數(shù)普遍大于OLSR的。而且在高低分位點處,QR的回歸系數(shù)估計值都在OLSR回歸系數(shù)的置信區(qū)間以外,說明此時兩種方法求出的回歸系數(shù)具有顯著差異。
圖3 異方差下的OLSR曲線和QR曲線
圖4 異方差時在各分位點的變化
關(guān)于社會支持對于心理健康的影響,許多心理學(xué)研究者如梁鐵成(2007),錢勝等(2008)在不同地區(qū)、不同職業(yè)群體中都對該問題進(jìn)行了研究,大多數(shù)研究表明社會支持可以促進(jìn)心理健康。其中社會支持變量以社會支持評定量表(SSAS)的總分為指標(biāo),SSAS分?jǐn)?shù)越高則被試受到的社會支持越多;心理健康變量以癥狀自評量表(SCL90)總分為指標(biāo),SCL90分?jǐn)?shù)越高則其心理健康水平越低。
首先,對模型進(jìn)行異方差的檢驗,檢驗方法除了觀察散點圖外,還可以使用一些統(tǒng)計量,如Park檢驗和Glejser檢驗。如果模型存在異方差,則異方差可能與一個或多個自變量系統(tǒng)相關(guān)。要確認(rèn)這一點,可以做(或|ui|)對自變量X(或自變量的線性組合的回歸。由于隨機誤差項ui難以觀察,在實踐中可以用ei代替ui。
如:
其中(3)式為Park檢驗,(14)~(16)式為Glejser檢驗。在本例中以上各式的參數(shù)估計結(jié)果如表2。
所有模型中α2系數(shù)都是統(tǒng)計顯著的(P<0.05),因此,存在異方差的情況,本例有使用QR模型分析之必要。分別使用傳統(tǒng)的最小二乘回歸分析和分位數(shù)回歸方法分別對這批數(shù)據(jù)進(jìn)行建模分析。在QR模型中,選取0.25、0.50和0.75三個分位點,代表因變量(SCL90總分)由低到高的3個水平。計算結(jié)果如圖5所示。
表2 案例的異方差檢驗結(jié)果
圖5 SCL90對SSAS的回歸圖
圖5中的黑色實線是OLSR模型計算出來的回歸線,回歸線向下傾斜,說明自變量X(SSAS總分)的邊際效果是負(fù)向的。SSAS總分越高,SCL90分?jǐn)?shù)越低。社會支持對心理健康有正向的預(yù)測作用,與之前的研究結(jié)論一致。最小二乘回歸方程為:
圖5中的3條虛線由下到上依次對應(yīng)著0.25、0.50和0.75共三個分位點上的QR回歸線,它們對應(yīng)的回歸方程分別是:
表3 各百分位點上回歸方程的參數(shù)估計結(jié)果
與OLSR的結(jié)果一致的是:3個QR模型的回歸系數(shù)估計值都是負(fù)的,即證實了社會支持確實對心理健康具有正向的預(yù)測作用。而與OLSR不同的是,QR模型揭示了因變量不同水平上,回歸系數(shù)的大小并不恒定,而是變化的。見表3。
隨著分位點τ逐漸增大,自變量的回歸系數(shù)越來越小(絕對值越來越大)。25%的回歸線可用來代表SCL90總分處于較低水平的一類被試群體(心理健康狀況較好的被試),則在這一層的被試群體中,社會支持每增加1個單位,SCL90總分將恰好減少1個單位。即社會支持能促進(jìn)心理健康,邊際效果為1.00。
相對應(yīng)的,75%的回歸線則可以代表SCL90總分處于較高水平的一類被試群體(心理健康水平較差、可能存在心理問題或心理障礙的被試),在這一層的被試群體中,社會支持每增加1個單位,SCL90總分將減少3.41個單位。即社會支持能更好的促進(jìn)心理健康,邊際效果為3.41。同理可知,SCL90總分處于中等水平的被試群體,社會支持對心理健康的邊際效果為1.89。
綜上所述,社會支持確實會促進(jìn)心理健康,但是社會支持的影響力是受被試當(dāng)前的心理健康狀態(tài)影響的。對于心理健康水平較差的人,社會支持的效果更明顯;對于心理健康水平較好的被試,或許由于自身已具有較強的自我調(diào)節(jié)能力,外界的社會支持因素所起的作用相對較小。
以條件均值為目標(biāo)函數(shù)的最小二乘回歸模型具有意義直觀、計算簡明等優(yōu)點,且根據(jù)Gauss-Markov定理證明,其參數(shù)估計值為最優(yōu)線性無偏估計值。但是最小二乘回歸模型需要滿足嚴(yán)格的假設(shè)要求,其中包括同方差假設(shè)。
當(dāng)同方差假設(shè)無法滿足時,尤其是當(dāng)誤差方差呈現(xiàn)有規(guī)律的遞增或遞減時,最小二乘回歸參數(shù)估計的有效性將無法保證,進(jìn)而可能導(dǎo)致誤差方差的有偏估計和F檢驗、T檢驗的失效。此時分位數(shù)回歸具有明顯的優(yōu)勢。
在異方差條件下,回歸系數(shù)的估計值會隨著分位點的不同而發(fā)生變化,而分位數(shù)回歸可以將這些層次間的差異分離出來,在不同的因變量水平上分析自變量對因變量的影響,從而全面、動態(tài)地刻畫出變量間局部 “特殊”的回歸關(guān)系。而最小二乘估計則將這些差異相互抵消了,以一條“平均的”回歸線概括了總體信息,同時也掩蓋了各個局部的信息。
分位數(shù)回歸和最小二乘回歸實際上是一種互為補充的關(guān)系。分位數(shù)回歸既不是要替代傳統(tǒng)的最小二乘回歸,也并未與其存在矛盾。若觀測數(shù)據(jù)滿足同方差假設(shè)時,最小二乘回歸可提供最優(yōu)無偏估計值;若觀測數(shù)據(jù)出現(xiàn)異方差情況,則恰好可以發(fā)揮分位數(shù)回歸的強大分析能力,挖掘出不同分位點上,尤其是因變量的高低水平上不同的回歸關(guān)系。兩個回歸模型并無優(yōu)劣之分,只有結(jié)合研究背景和數(shù)據(jù)分布情況,合理選擇方法,才能最大限度地發(fā)揮統(tǒng)計方法的優(yōu)越性,提高研究的效率和精度。
[1]Koenker R,Bassett G.Regression Quantilez[J].Econometrica,1978,(46).
[2]Koenker R,Bassett G.Robust Tests for Heteroscedasticity Based on Regression Quantiles[J].Econometrica,1982,(50).
[3]Gujarati D.N,張濤.計量經(jīng)濟(jì)學(xué)精要[M].北京:機械工業(yè)出版社,2000.
[4]焦璨,王宣承,張敏強等.分位數(shù)回歸:心理統(tǒng)計方法的重要補充[J].中國考試,2009,(1).
[5]梁鐵成.警察心理健康狀況之調(diào)查[J].中國健康心理學(xué)雜志,2007,15 (11).
[6]錢勝,王文霞,王瑤.232名河南省農(nóng)民工心理健康狀況及影響因素[J].中國健康心理學(xué)雜志,2008,(04).
[7]張敏強.教育與心理統(tǒng)計學(xué)[M].北京:人民教育出版社,2002.