王 谷 過秀成
(中交一公院綜合交通運輸研究所1) 西安 710001) (東南大學(xué)交通學(xué)院2) 南京 210096)
由于城市土地利用與城市交通間存在著密切的聯(lián)系,交通生成模型作為聯(lián)系城市形態(tài)與居民出行生成間的一個基礎(chǔ)模型而受到普遍關(guān)注.生成率法作為該類模型的典型代表,通過調(diào)查人口、經(jīng)濟、土地利用等資料,采用最小二乘法估計(iterative least square method,LS)擬合現(xiàn)狀數(shù)據(jù),建立與居民出行間的回歸關(guān)系,得到各變量系數(shù),預(yù)測未來居民出行量的大小.通常,數(shù)據(jù)量比較少和自變量個數(shù)不多時,可由散點圖或殘差圖等找出異常點,但當(dāng)樣本含量增大或變量個數(shù)增多時,異常點的檢測就變得困難起來[1],況且,即使找出了異常點,只有經(jīng)核查是由于記錄、錄入或系統(tǒng)誤差等造成的,才可以剔除,否則,應(yīng)保留之.因此,對于由隨機誤差造成的客觀存在的異常點,既不能剔除,又不能對回歸系數(shù)影響太大,這就需要采用不剔除異常點的穩(wěn)健回歸處理方法,該方法已成功應(yīng)用于機械控制[2]、地震預(yù)報[3]、化學(xué)分析[4]等眾多研究領(lǐng)域.
穩(wěn)健估計(robust estimators)思想由來已久,早在1960年,Tukey曾經(jīng)強調(diào)過穩(wěn)健估計方法的重要性:“一個心照不宜的希望是忽略了與理想模型的偏離并不會有嚴(yán)重后果,在嚴(yán)格的模型條件下,最優(yōu)的統(tǒng)計方法在近似的模型下也會最優(yōu).不幸的是這種希望往往是非常錯誤的,即使有的輕微偏離也會比我們的預(yù)想產(chǎn)生更大的影響”[5].
穩(wěn)健回歸的基本思想是采用迭代加權(quán)最小二乘估計回歸系數(shù),根據(jù)回歸殘差的大小確定各點的權(quán)wi,以達(dá)到穩(wěn)健的目的,其優(yōu)化的目標(biāo)函數(shù)
為減少“異常點”作用,可以對不同的點施加不同的權(quán)重,即對殘差小的點給予較大的權(quán)重,而對殘差較大的點給予較小的權(quán)重,根據(jù)殘差大小確定權(quán)重,并據(jù)此建立加權(quán)的最小二乘估計,反復(fù)迭代以改進權(quán)重系數(shù),直至權(quán)重系數(shù)之改變小于一定的允許誤差.其參數(shù)βj可采用迭代加權(quán)最小二乘法求解.其基本步驟是:先建立最小二乘回歸,并根據(jù)其絕對殘差構(gòu)造權(quán)重,并據(jù)此建立加權(quán)最小二乘回歸,如此迭代以不斷修改權(quán)重系數(shù),直至最大的權(quán)重系數(shù)之改變小于預(yù)定的值或是迭代達(dá)到指定次數(shù).
構(gòu)造權(quán)重,許多學(xué)者提出了許多方法,得到的穩(wěn)健回歸估計大同小異.這里我們選用較為常用的Huber方法[6]計算各樣本點權(quán)重.
式中:ch一般取1.345;ui為“標(biāo)準(zhǔn)化”的殘差指標(biāo),定義為 ui=ei/s=0.674 5×ei/med(|eimed(ei)|),其中:med(ei)為殘差ei中位數(shù),s定義為殘差尺度.
考慮如表1所列某城市居民出行調(diào)查數(shù)據(jù),其中:ID為樣本編號;Y為家庭平均工作出行次數(shù);X1為每個家庭平均小于5歲人數(shù);X2為每個家庭平均擁有汽車數(shù);X3為總?cè)藬?shù);X4為家庭數(shù).該出行調(diào)查數(shù)據(jù)集是為采用出行發(fā)生率法預(yù)測出行次數(shù)做出的數(shù)據(jù)準(zhǔn)備,由于需要處理的變量較多,無法通過二維平面散點圖觀察數(shù)據(jù)情況,進而難以保證觀測樣本中是否存在異常數(shù)據(jù),由于傳統(tǒng)最小二乘法回歸系數(shù)沒有考慮異常數(shù)據(jù)的處理,因此需要對其進行穩(wěn)健分析.
表1 居民出行樣本集
對表1數(shù)據(jù)采用最小二乘法回歸,結(jié)果如表2所列,繪制以樣本序號排列的殘差圖如圖1所示.由殘差圖可見,有3個樣本點在(-2,2)以外,即5,12,18,它們被視為“異常點”,4,6,30也離-2不遠(yuǎn).
通過最小二乘法,模型標(biāo)定自變量X2,X3系數(shù)P值均大于0.05,在5%的顯著性水平下,與因變量Y不具有統(tǒng)計學(xué)意義,該回歸方程不宜用于居民出行的出行發(fā)生預(yù)測.
圖1 最小二乘法學(xué)生殘差和穩(wěn)健回歸樣本點權(quán)重值
使用Huber方法,在給定的100次迭代以后收斂,得出穩(wěn)健回歸結(jié)果見表3.對比表2和表3回歸結(jié)果,X2,X3的變化較大,各系數(shù)的標(biāo)準(zhǔn)誤差均有所減少,且各變量P值均小于0.05,均有顯著性.同時,由圖1樣本點權(quán)重來看,被診斷為“異常點”的觀察點5,12,18,其權(quán)重都較??;最小二乘殘差越接近0,權(quán)重越大.穩(wěn)健回歸模型通過對不同的點施于不同的權(quán)重,即對殘差小的點給予較大的權(quán)重,對殘差較大的點給予較小的權(quán)重,使得回歸模型更加貼近實際結(jié)果.
表2 最小二乘法回歸結(jié)果
表3 穩(wěn)健回歸結(jié)果
研究發(fā)現(xiàn)居民出行生成率各參數(shù)由最小二乘法回歸所確定,回歸中出現(xiàn)的異常數(shù)據(jù)對最小二乘法估計的結(jié)果產(chǎn)生較大影響.但是由于該問題是多變量回歸,調(diào)查樣本無法描繪在平面散點圖上,無法通過人工判斷異常數(shù)據(jù)的取舍.因此,對于包含了實際中不易判定與剔除的異常數(shù)據(jù)的樣本集,對其采用穩(wěn)健回歸分析.研究表明穩(wěn)健估計可以克服最小二乘估計受異常樣本點影響較大的弊病,模型參數(shù)更接近實際.實際算例表明,用穩(wěn)健回歸方法建立的數(shù)學(xué)模型避免了少數(shù)異常值的干擾影響,更加真實地反映了居民出行發(fā)生的變化趨勢,是居民出行趨勢變化分析強有力的數(shù)學(xué)工具.
[1]Ortiz M C.Robust regression techniques a useful alternative for the detection of outlier data in chemical analysis[J].Talanta,2006,70(3):499-512.
[2]Pennacchi P.Robust estimate of excitations in mechanical systems using m-estimators-theoretical background and numerical applications[J].Journal of Sound and Vibration,2008,310:923-946.
[3]楊馬陵.地震前兆數(shù)據(jù)的穩(wěn)健回歸與建模[J].西北地震學(xué)報,1999(12):399-408.
[4]周 蒂.穩(wěn)健統(tǒng)計學(xué)與地球化學(xué)數(shù)據(jù)的統(tǒng)計分析[J].地球科學(xué),1991,16(3):273-279.
[5]Hample F R.Robust statistics:the approach based on influence function[M].New York:John Wiley &Sons,1986.
[6]Huber P.Robust Statistics[M].New York:John Wiley,1981.