北京大學(xué)生育健康研究所(100191) 李宏田
線性回歸分析(linear regression analysis)是研究事物之間線性關(guān)系最常用的統(tǒng)計(jì)分析方法之一,據(jù)自變量數(shù)目是否單一可分為簡單線性回歸分析(simple linear regression)和多元線性回歸分析(multiple linear regression)。簡單線性回歸的數(shù)學(xué)模型簡單,回歸直線形象直觀,回歸系數(shù)的解釋也通俗易懂。多元線性回歸的數(shù)學(xué)模型及變量間的關(guān)系相對復(fù)雜,其回歸系數(shù)常被解釋為“在固定其他自變量或扣除其他自變量影響時,Xi每改變一個單位時應(yīng)變量Y的平均變化量”。但究竟如何固定或扣除,以及扣除的回歸貢獻(xiàn)的去向,各類參考書籍中少有提及。筆者以鄭俊池教授制作的多元線性回歸教學(xué)模型(圖1)為基礎(chǔ),剖析了多元線性回歸與簡單線性回歸函數(shù)圖像的空間投影關(guān)系,進(jìn)而給出了有關(guān)多元線性回歸系數(shù)固定或扣除含義的圖形解釋〔1〕。
1.知識回顧
簡單線性回歸方程^Y=b0+b1X1的回歸系數(shù)b1指自變量X1每改變1個單位時Y的平均變化量,其函數(shù)圖像是截距為b0、斜率為b1的直線。多元線性回歸方程^Y=b0+b1X1+b2X2+…+bnXn的回歸系數(shù)b1指固定X1以外的其他自變量或扣除X1以外的其他自變量影響后,X1每改變1個單位時 Y的平均變化量〔2,3〕,僅含2個自變量的多元線性回歸方程的函數(shù)圖像是一個回歸平面,含3個及以上自變量的多元線性回歸方程難于用函數(shù)圖像表示。
2.含2個自變量的多元線性回歸方程的圖示
本文以制作三維模型時所用的回歸方程(Y=2+1.33X1+0.20X2,假定完全擬合)為例,給出了僅含2個自變量的多元線性回歸方程的示意圖(圖2)。當(dāng)X1=0時,回歸方程變?yōu)閅=2+0.20X2,其圖形為X2軸與Y軸所確定的平面內(nèi)的直線OB;當(dāng)X2=0時,回歸方程變?yōu)閅=2+1.33X1,其圖形為X1軸與Y軸所確定的平面內(nèi)的直線OA;當(dāng)X1=X2=0時,回歸方程變?yōu)閅=2,其圖形即為點(diǎn)O。據(jù)以上分析可知,含2個自變量的多元線性回歸方程的圖形即為等截距(OO″)、定斜率(多元線性回歸方程的回歸系數(shù))的兩條簡單回歸直線所確定的回歸平面。滿足回歸方程的任何一點(diǎn)(X1,X2,Y),如圖 2 中的 M(3,5,7)點(diǎn),均應(yīng)位于平面AOB上。
圖1 多元統(tǒng)計(jì)教學(xué)模型
圖2 回歸方程Y=2+1.33X1+0.20X2函數(shù)圖形(AOBM)
圖3 回歸方程Y=2+1.33X1+0.20X2函數(shù)圖形解析
3.投影、固定和扣除
圖2中M點(diǎn)在X1軸與X2軸所確定的平面內(nèi)的投影為M'(3,5,0)點(diǎn)(圖3),M 點(diǎn)的含義可解釋為當(dāng)X1=3、X2=5時,全部自變量(含截距)對應(yīng)變量Y的總回歸貢獻(xiàn)大小為7(MM'),其中截距的貢獻(xiàn)量為2(OO'),X1的貢獻(xiàn)量為 4(AA0),X2的貢獻(xiàn)量為 1(BB0)。由解析幾何知識可知平面AA'O'O平行于平面MM'B'B,故直線OA與BM永不相交;又因OA和BM同在平面OAMB內(nèi),故OA恒平行于BM;那么BM在X1軸與Y軸所確定的平面內(nèi)的投影B″M″也恒平行于OA。由以上分析可知,不論X2取何值,只要其取值固定,BM在X1軸與Y軸所確定的平面內(nèi)的投影的斜率都不會改變,且恒等于直線OA(X2=0)的斜率,故X1的回歸系數(shù)可解釋為“在其他自變量(X2)固定時,X1每改變一個單位時應(yīng)變量 Y的平均變化量為1.33”。盡管X2取不同值時,BM在X1軸與Y軸所確定的平面內(nèi)的投影的斜率不變,但對比(X1=3,X2=5)時 Y=7(MM')和(X1=3,X2=0)時 Y=6(AA')可知,因X2取值改變(由5變?yōu)?)而被扣除(X2=0,即X2的貢獻(xiàn)被扣除)的貢獻(xiàn)量實(shí)為BB0或OB″,故據(jù)此X1的回歸系數(shù)亦可解釋為“在扣除其他自變量(X2)的影響(即貢獻(xiàn)量)后,X1每改變一個單位時應(yīng)變量Y的平均變化量為1.33”。同理,因X1取值改變所致的扣除情況與此類同,本處從略。
4.討論
本文通過對比僅含2個自變量的多元線性回歸方程的函數(shù)圖像與相應(yīng)的簡單線性回歸函數(shù)圖像的幾何關(guān)系,形象直觀地闡明了有關(guān)多元線性回歸系數(shù)固定、扣除作用的具體含義,并對扣除的回歸貢獻(xiàn)進(jìn)行了幾何定位,對于正確理解多元線性回歸乃至其他多元回歸系數(shù)的含義有一定的參考價值。
(致謝:筆者有幸?guī)煆泥嵖〕亟淌?,在鄭教授的指?dǎo)下撰寫了此文。鄭教授于20世紀(jì)90年代初制作了該模型(圖1),并用于醫(yī)學(xué)研究生多元統(tǒng)計(jì)教學(xué),效果極好。
1.李竹,鄭俊池主編.新編實(shí)用醫(yī)學(xué)統(tǒng)計(jì)方法與技能.北京:中國醫(yī)藥科技出版社,1997:137-148.
2.金丕煥主編.醫(yī)用統(tǒng)計(jì)方法(第2版).上海:復(fù)旦大學(xué)出版社,2003:309-316.
3.陳峰主編.醫(yī)用多元統(tǒng)計(jì)分析方法.北京:中國統(tǒng)計(jì)出版社,2000:30-31.