(中國礦業(yè)大學(北京) 管理學院 北京100083)
線性回歸分析是數(shù)理統(tǒng)計中最基本的研究方法之一,用以研究變量間的相關(guān)關(guān)系。在社會經(jīng)濟領(lǐng)域,很多變量間的關(guān)系即使在宏觀上不是線性的,在微觀上仍可近似做線性化處理[1-4]。另外,目前主流的統(tǒng)計分析、數(shù)值計算軟件都以矩陣運算為基礎(chǔ),因此,對變量進行高精度的線性回歸具有重要的基礎(chǔ)意義。線性回歸的方法很多,如簡單線性回歸[5]、主成分回歸[6]等。如果樣本點足夠多或回歸線向方差足夠大,各種回歸方法都能獲得較好的回歸效果,但當樣本點很少(稀疏數(shù)據(jù))且沿實際回歸線方向的方差不大時,現(xiàn)有的回歸方法的回歸誤差都經(jīng)常很大且不容易控制。為解決稀疏數(shù)據(jù)回歸誤差較大的問題,本文提出了一種新的線性回歸方法,具有坐標無關(guān)性及良好的魯棒性,回歸精度及穩(wěn)定性都明顯優(yōu)于簡單線性回歸、主成分回歸等方法。
設(shè)有變量x,y 滿足線性關(guān)系式:
式中,βi(i=0,1)為常數(shù),ε為隨機誤差。對各變量進行n次觀測,觀測值以上數(shù)據(jù)與散點集等價?;谝陨嫌^測數(shù)據(jù)的變量x與y的一元線性回歸直線為[5]:
線性回歸的誤差如圖1所示,實線為兩個變量實際的函數(shù)關(guān)系直線,虛線為簡單線性回歸的結(jié)果,由于樣本點較少,回歸誤差很大。
圖1 線性回歸的誤差
若?a∈S,?!a'∈S',使得線段aa'被直線L 垂直平分,則稱S'為S 關(guān)于直線L的鏡像對稱點集,記作S' =MS(S,L)。
定理1 若L與S的一個主元方向相同,則MS(S,L)與S的主元方向相同。(證明略)
定義2 若MS(S,L)=S,稱S為關(guān)于直線L的軸對稱點集,直線L 稱為該軸對稱點集的對稱軸。
定理2 若MS(S,L)=S,則其對稱軸方向與其一個主元方向相同。
定義3 若S為平面內(nèi)點集,L為同一平面內(nèi)直線,Sout?S,且?a∈SSout,?!b∈Sout,使得ab⊥L,且|ao|<|bo|,其中o為ab與L的交點,稱Sout為S 相對于L的外側(cè)點子集(Outbound Subset,OS),記作
Sout=OS(S,L)。
定義4 設(shè)S為平面內(nèi)點集,L為同一平面內(nèi)直線,Sout=OS(S,L),將Sout與MS(Sout,L)中的所有點(統(tǒng)稱為角點)按以下規(guī)則用一條關(guān)于L 對稱的閉合折線相連:1)任何一條垂直于L的直線與該閉合折線所圍區(qū)域的交集要么為空集,要么為一連續(xù)線段;2)閉合折線中任意兩段線段沒有除角點外的其他交點。稱以上閉合折線所圍區(qū)域為S 相對于L的對稱包絡(luò)區(qū)域(Symmetrical Envelope Domain,SED),記作SED(S,L),其面積(Area Of Symmetrical Envelope Domain,AOSED)記作AOSED(S,L)。
折線所圍的區(qū)域SED(S,L)如圖2所示。顯然,S 相對于L的包絡(luò)區(qū)域為單連通區(qū)域。
定義5 設(shè)S為平面內(nèi)點集,Li為同一平面內(nèi)直線,若AOSED(S,L#)=min{AOSED(S,Li)},稱SMSED=SED(S,L#)為S的最小對稱包絡(luò)域(Minimal Symmetrical Envelope Domain,MSED),若不特意指出L#,可簡記作SMSED=MSED(S)。L#稱為MSED(S)的對稱軸,MSED(S)的面積可表示為AOMSED(S)。
定理3 若MSED(S)=SED(S,L#),在滿足某收斂條件時,L#的方程y =β#1x+β#0是變量組(x,y)的具有坐標無關(guān)性的回歸直線的無偏估計。(證明略)
圖2 SED(S,L)
定理3中的收斂條件在不同條件下有不同的形式,但一般都不難滿足。在一些特殊情況下,(x,y)的回歸直線的無偏估計可能對應(yīng)于函數(shù)AOSED(α,β0)=AOSED(S,L)的某極小值點。
綜上,可定義以下一種新的線性回歸的方法。
定義6 先求取MSED(S),一般情況下,其對稱軸就是以S的元素為樣本點的變量組(x,y)的具有坐標無關(guān)性的回歸直線的無偏估計,特殊情況下,函數(shù)AOSED(α,β0)的某極小值點對應(yīng)于回歸直線的無偏估計。這種線性回歸方法稱為基于極/最小軸對稱包絡(luò)域的線性回歸方法(Minimal Symmetrical Envelope Domain Regression,MSEDR),簡稱包絡(luò)域法。
當S的元素在空間上分布比較密集時,包絡(luò)域法與主成分回歸法的結(jié)果基本等價。當S的元素在空間上分布比較稀疏時,包絡(luò)域法回歸結(jié)果在穩(wěn)定性及健壯性上具有優(yōu)勢。
包絡(luò)域法作為一種計算解運算量很大,為其設(shè)計特殊的高速算法是十分必要的。該方法的計算量主要集中在大量的求取對稱包絡(luò)域的運算,這其中求取點集相對于直線的鏡像集更是占用了運算量的絕大部分。本文注意到,當直線的位置比較特殊,例如直線與坐標軸平行時,求取點集相對于直線的鏡像只需做某種坐標“變號+平移”運算,運算量大幅度減少。為此,設(shè)計了以下算法,將絕大多數(shù)求取鏡像集的運算轉(zhuǎn)化為“變號+平移”運算,可實現(xiàn)包絡(luò)域法的快速計算。
1)選擇合適的線性回歸方法進行回歸直線粗定位運算,設(shè)運算結(jié)果為:
2)指定搜索范圍為Ω ={(α,β0')|α∈(α1,α2),β0'∈(β1',β2')},須滿足(β1',β2'),其中逆時針旋轉(zhuǎn)角度α0后的對應(yīng)直線。
3)若α∈(α1,α2),將S 逆時針旋轉(zhuǎn)角度α,S1為S 旋轉(zhuǎn)后的結(jié)果如圖3所示。使β0'在區(qū)間(β1',β2')上遍歷,計算AOSED(α,β0')=AOSED(S1,L')。若以S的重心c(X,Y)作為旋轉(zhuǎn)的中心,且旋轉(zhuǎn)后將坐標原點平移到c,坐標變換矩陣為:
SED(S1,L')的邊界點連接順序可這樣確定:
①將OS(S1,L')中各點按橫坐標升序排序為中各點按橫坐標升序排序為
圖3 S 旋轉(zhuǎn)前后直線的對應(yīng)關(guān)系
若多邊形頂點順序為(x1,y1),…,(xn,yn),根據(jù)向量外積公式,可推導(dǎo)出其面積其中xn+1= x1,yn+1= y1。
4)改變α值,重復(fù)步驟3。
為簡化計算,構(gòu)建的數(shù)學模型如圖4所示,L為面內(nèi)直線,5條虛線都垂直于L 且間隔為,5個隨機散點分別位于5條虛線上且相對于L的垂直位移服從正態(tài)分布,數(shù)學描述如下:
圖4 隨機產(chǎn)生初始數(shù)據(jù)
1)設(shè)D1,...,D5相互獨立,且DiN(0,0.4),di為隨機變量Di的觀測值,i=1,...,5;
2)x與y為變量,其觀測值向量分別為:X=(x1,x2,x3,x4,x5)',Y=(y1,y2,y3,y4,y5)',其中
顯然,變量x與y的理論關(guān)系式為:
分別用簡單線性回歸法、主成分分析法、包絡(luò)域法對以上數(shù)據(jù)進行回歸計算,將計算結(jié)果與式(6)比較可得出相應(yīng)的回歸誤差。簡單線性回歸法的回歸系數(shù)為主成分分析法的回歸系數(shù)其中
考慮到當回歸直線的傾角較大時,其位置的微小變化將引起斜率的劇烈變動,因此將β1作為誤差的度量變量并不合適,本文采用回歸直線傾角的誤差Δα 作為回歸誤差的度量指標;另外,回歸直線的截距β0相對于β1(或α)并不獨立,單獨討論其誤差并無實際意義;綜上,只選取Δα 一個指標來度量各回歸方法的表現(xiàn)。對(X,Y)進行30次獨立觀測并用3種方法進行一元回歸,回歸直線傾角如表1所示,3種回歸方法的平均誤差及平均絕對誤差如表2所示,其中,為
表1 一元線性回歸傾角數(shù)據(jù)匯總表(單位:°)
表2 一元線性回歸傾角誤差數(shù)據(jù)表(單位:°)
本文仿真實驗證明了包絡(luò)域法在一元線性回歸時比主成分法和線性回歸法精度更高、更加穩(wěn)定。包絡(luò)域法的結(jié)果是一種數(shù)值解,其計算量比主成分法這樣的解析解大得多,但在絕大多數(shù)非實時運算的情況下,相對于計算精度的提高,其計算量上的缺點是可以接受的。本文只討論了包絡(luò)域法在一重一元線性回歸中的應(yīng)用,其在一重多元、多重多元線性回歸中的應(yīng)用情況還有待進一步的研究。
[1]Xu Weiwei.Risk Conversion of Debt Financing in the Coal Company[C].Zhengzhou:Artificial Intelligence,Management Science and Electronic Commerce,2011:5 142-5 145.
[2]許蔚蔚.基于煤炭企業(yè)債務(wù)期限結(jié)構(gòu)的回歸對比分析[J].會計之友,2011,(11):116-118.
[3]Xu Lili,Liu Shaowei.Establishing Prime System of Financial Management in Rural Enterprise[C].Sydney:Orient Academic Forum,2007:747-751.
[4]Ning Yuncai,Mao Yuyan.The risk monitoring of coal construction project based on system dynamics model[C].New York:Curran Associates,Inc.,2011:330-334.
[5]盛聚,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計(第三版)[M].北京:高等教育出版社,2001:297.
[6]于秀林,任雪松.多元統(tǒng)計分析[M].北京:中國統(tǒng)計出版社,1999:156-161,239.