賀建風,張莉維
(華南理工大學 經(jīng)濟與金融學院,廣東 廣州 510006)
大數(shù)據(jù)時代的來臨在給傳統(tǒng)數(shù)據(jù)分析方法帶來挑戰(zhàn)的同時,也促進了基于大規(guī)模數(shù)據(jù)分析的新手段和新方法的產(chǎn)生。數(shù)據(jù)科學家Mayer-Sch?nberger(2013)[1]將大數(shù)據(jù)定義為,需要運用新的處理模式才具有更強決策力、洞察力和流程優(yōu)化能力,且具有海量性、高增長率和多樣化特點的信息資產(chǎn)。隨著我國互聯(lián)網(wǎng)普及率的提高,互聯(lián)網(wǎng)經(jīng)濟與社會各領(lǐng)域不斷融合(荊文君等,2020)[2],依托于互聯(lián)網(wǎng)信息的快速產(chǎn)生和交換,大數(shù)據(jù)分析技術(shù)在互聯(lián)網(wǎng)的沃土上蓬勃發(fā)展。一般認為,大數(shù)據(jù)具有大規(guī)模、高維度、快速度和低價值密度(鄔賀銓,2013)[3]四個方面的特征(簡稱“4V”)。在大數(shù)據(jù)的背景下,規(guī)模龐大的數(shù)據(jù)運算給現(xiàn)有的計算機算力帶來巨大的挑戰(zhàn)。因此,針對大數(shù)據(jù)進行抽樣以優(yōu)化算法,是節(jié)約運算空間、提高分析效率的有效方法。由于現(xiàn)有的計算水平仍然無法完全滿足海量數(shù)據(jù)的分析需求,大數(shù)據(jù)抽樣技術(shù)成為研究的熱點?;诟軛U重要性的大數(shù)據(jù)抽樣方法具有易操作、應(yīng)用廣泛的特點,可以滿足簡化大數(shù)據(jù)運算的需求,適合于大數(shù)據(jù)情境的應(yīng)用。杠桿抽樣的主要思想是,通過杠桿得分矩陣考察各樣本點對總體特征的貢獻度,并對貢獻度較大的樣本點設(shè)置較高的抽樣概率,從而在一定程度上縮小樣本規(guī)模,節(jié)約運算時間和儲存空間,提高分析效率,其所抽取的子樣本相對于總體也具有較好的代表性。
杠桿抽樣起源于線性回歸問題,Drineas(2006)[4]基于l2回歸提出了一種依據(jù)范數(shù)計算的非均勻概率杠桿抽樣算法。在此基礎(chǔ)上,Ma等(2015)[5]從數(shù)理邏輯的角度提出了杠桿抽樣的統(tǒng)計理論,并證明了杠桿抽樣方法在理論上是可行的。秦磊等(2016)[6]通過純凈子集選擇和聚類多數(shù)選擇改進了杠桿抽樣方法(該方法也被稱為“杠桿重要性抽樣”),使其能夠應(yīng)用于大規(guī)模數(shù)據(jù)的情況,并弱化了數(shù)據(jù)異質(zhì)性的影響。此后,秦磊等(2020)[7]提出了基于充分降維SIR方法的杠桿重要性抽樣估計方法,將杠桿重要性抽樣的應(yīng)用向高維大數(shù)據(jù)的方向拓展。杠桿抽樣方法的核心在于構(gòu)建包含樣本重要性的杠桿得分矩陣,該矩陣包含大數(shù)據(jù)總體的原有特性,矩陣對角線上的數(shù)值即為杠桿得分,它可以衡量樣本至樣本中心的馬氏距離,遠離數(shù)據(jù)中心的樣本點會有更高的杠桿得分值,這些點對回歸有著更重要的意義,故被賦予更高的入樣概率。
杠桿抽樣雖然能夠解決不同樣本點的權(quán)重推斷問題,但其在實際應(yīng)用中可能會對強影響點形成誤判。這是因為,在實際的線性模型中,遠離數(shù)據(jù)中心的點可能并非只是對回歸貢獻度較高的高杠桿點,其也可能是具有較高殘差的異常點。這類樣本點偏離了數(shù)據(jù)主體,給回歸估計帶來較大的影響,傳統(tǒng)的杠桿抽樣方法會賦予該點更高的杠桿得分,從而獲得更高的入樣概率,最終反而加劇了該點對回歸結(jié)果偏離的影響。這類同時具有高杠桿值和高殘差的異常點可稱為強影響點。本文將圍繞強影響點的剔除方法以及大數(shù)據(jù)的復(fù)雜特性展開分析,并提出一種結(jié)合異常點診斷的大數(shù)據(jù)杠桿抽樣方法。
大數(shù)據(jù)時代的統(tǒng)計推斷技術(shù)面臨變革,社會經(jīng)濟、政府統(tǒng)計等各領(lǐng)域的分析工作都以大數(shù)據(jù)庫為基礎(chǔ)(雷欽禮,2004)[8]。金勇進(2016)[9]針對大數(shù)據(jù)的非概率抽樣推斷問題,從抽樣方法、權(quán)數(shù)構(gòu)造、估計三個方面提出解決問題的基本思路,包括非概率樣本近似概率樣本、基于偽設(shè)計和傾向得分權(quán)數(shù)構(gòu)造、基于模型的估計、基于貝葉斯估計等統(tǒng)計推斷思路。就大數(shù)據(jù)抽樣而言,主流的方法可以歸納為三種思路:分治法(Split and Conquer)是將整個數(shù)據(jù)分成多份,將每份數(shù)據(jù)作為子樣本分別進行估計,子樣本的估計結(jié)果通過平均整合成最終的結(jié)果;遞歸法(Recursive)是在進行總體樣本的線性回歸之后,只存儲少量“真正有用”的結(jié)果,如最接近回歸曲線的樣本點,新數(shù)據(jù)加入時則直接合并存儲的結(jié)果再次進行回歸,并更新儲存結(jié)果;杠桿法(Leverage Sampling)是在總體樣本中找出“真正對結(jié)果有影響”的重要觀測點,并利用這些重要數(shù)據(jù)進行估計,得到接近真實值的估計結(jié)果。
本文擬討論針對大數(shù)據(jù)的杠桿抽樣方法。重要性抽樣思想源于蒙特卡洛法估計定積分,即在估計定積分時傾向于對重要的區(qū)間采用更高的權(quán)重(魏艷華等,2017)[10]。為了適應(yīng)現(xiàn)有的運算能力,深入挖掘數(shù)據(jù)信息,Ma等(2015)[5]提出一種基于數(shù)據(jù)點重要性程度的抽樣方法,即杠桿抽樣。杠桿抽樣方法是在子抽樣框架下設(shè)計的,其主要思想是從完整樣本中抽取一部分數(shù)據(jù)作為子樣本,并以該子樣本作為完整樣本的替代,執(zhí)行預(yù)期的計算。杠桿抽樣成功的關(guān)鍵在于構(gòu)造非均勻抽樣概率,使有影響的數(shù)據(jù)點以高概率進行抽樣。這類方法在大數(shù)據(jù)分析領(lǐng)域具有很好的應(yīng)用前景,它允許訪問大量數(shù)據(jù)信息,而無需借助高性能的計算。
杠桿抽樣的發(fā)展始于線性最小二乘回歸問題。Drineas(2006)[4]基于嶺回歸(l2回歸)的線性代數(shù)問題,提出一種根據(jù)歐幾里得范數(shù)復(fù)雜計算的非均勻概率的杠桿抽樣算法。針對大規(guī)模數(shù)據(jù),該方法從n×p矩陣中(n>p)隨機對行抽樣后進行最小二乘回歸,可以快速得到最小二乘法的近似估計。其后,Mahoney等(2009)[11]提出主成分分析和廣義上的奇異分析,即利用一組正交或不相關(guān)的重要程度遞減的向量表示數(shù)據(jù)矩陣的方法,但這些向量是數(shù)據(jù)點的線性組合,并沒有實際的解釋。該研究是對大規(guī)模矩陣數(shù)據(jù)的行和列進行重要性抽樣,利用CUR矩陣分解提出一種優(yōu)先選擇高杠桿分數(shù)的列和行構(gòu)造低秩近似矩陣的方法,可以避免主成分分析和奇異分析在解釋性方面存在的問題。Mahoney(2011)[12]對矩陣和數(shù)據(jù)的隨機算法問題進行了綜述,論述了矩陣對大規(guī)模數(shù)據(jù)分析的重要作用,解釋了隨機矩陣和大規(guī)模數(shù)據(jù)隨機抽樣原理,列舉了最小二乘的漸進隨機算法及其低秩矩陣的應(yīng)用問題,并且給出了杠桿分數(shù)(Leverage Score)在大規(guī)模數(shù)據(jù)分析中的應(yīng)用。Meng(2013)[13]在類似算法的基礎(chǔ)上研究了更廣泛的lp回歸的近似估計算法,提出了l1、l2和lp回歸的低秩矩陣嵌入算法,使最優(yōu)算法的時間復(fù)雜度大幅下降。Drineas(2011)[14]針對最小二乘逼近問題給出了大規(guī)模矩陣Leverage分數(shù)的近似隨機算法,降低了算法的時間復(fù)雜度,縮短了實際計算時間。該研究針對最小二乘逼近問題提出了基于投影的隨機化算法,即對回歸元和回歸子執(zhí)行投影,并乘上稀疏矩陣,據(jù)此矩陣得出Leverage分數(shù)。該算法通過從預(yù)處理問題中均勻地隨機取樣少量的約束,構(gòu)造一個更小約束問題,以精確計算逼近最小l2解向量的相對誤差。相對于過約束的最小二乘問題,該方法比現(xiàn)有的精確算法更為快速。Papailiopoulos等(2014)[15]采用類似主成分分析的方法,使用右奇異矩陣抽取矩陣最佳列,為確定性杠桿抽樣算法找到了合適的漸進誤差邊界,并證明了杠桿分數(shù)分布若服從冪律衰減,則確定性杠桿抽樣算法相較于隨機替代的性質(zhì)相近甚至更好。
從統(tǒng)計的角度來看,Leverage重要性抽樣具有優(yōu)良的統(tǒng)計性質(zhì)。Ma(2015)[5]針對線性模型和最小二乘問題提出了大數(shù)據(jù)杠桿回歸方法,杠桿得分被認為是反映第i個觀測值對最小二乘估計量有多大影響的最重要的指標,杠桿得分越接近于1,說明第i個擬合值與真實值越接近?;谠摲椒ǖ募訖?quán)杠桿子抽樣算法和無加權(quán)杠桿子抽樣算法,均使用子抽樣框進行估計。使用真實數(shù)據(jù)集進行Leverage抽樣,使得計算運行時間有效縮短。Ma(2015)[16]從統(tǒng)計理論的角度解釋了Leverage重要性抽樣原理,即將因變量投影到數(shù)據(jù)集列向量張成的空間中,給出正交投影,構(gòu)造了對稱的冪等矩陣。該矩陣的對角線元素即為對應(yīng)觀測個體的杠桿分數(shù),杠桿分數(shù)越高,該觀測點就越重要,對估計結(jié)果的影響也越大。因此,利用杠杠分數(shù)定義采樣概率和分配權(quán)重的矩陣可以求解加權(quán)LS估計,得到兩種變異的杠桿重抽樣方法,并通過壓縮杠桿和均勻分布的凸組合重新調(diào)整權(quán)重。利用數(shù)值模擬的方法以及三個杠桿得分分布不同的標準分布數(shù)據(jù)集,可以證實Leverage重要性抽樣的可行性和有效性,即與均勻抽樣相比,基于杠桿的抽樣提供了一致的、更優(yōu)的算法結(jié)果,杠桿算法以及兩種改進的杠桿算法都有很好的預(yù)測表現(xiàn)。相比于最小二乘法和Mahoney(2011)[12]的低秩近似等算法,該方法更為穩(wěn)定、有效。然而,Ma等(2015)[16]提出的Leverage重要性抽樣方法忽略了數(shù)據(jù)內(nèi)因變量對數(shù)據(jù)重要性的影響以及大數(shù)據(jù)來源的異質(zhì)性,而直接利用XTX的計算結(jié)果會導(dǎo)致協(xié)方差矩陣出現(xiàn)估計偏差,同時也會使杠桿分數(shù)的設(shè)定出現(xiàn)偏差。當數(shù)據(jù)自變量方差很大時,逆矩陣的估計也會出現(xiàn)較大偏差,從而影響最終的抽樣估計結(jié)果,降低估計的有效性?;诖耍乩诘龋?016)[6]提出純凈子集選擇法和聚類多數(shù)選擇法,以避免數(shù)據(jù)異質(zhì)性所導(dǎo)致的協(xié)方差高估,解決某些重要影響點的杠桿分數(shù)未能計入樣本的問題。兩種改進方法都是基于數(shù)據(jù)點相對于數(shù)據(jù)集整體位置的視角,尋找更稠密的子集,并利用該子集中的數(shù)據(jù)估計協(xié)方差矩陣XTX及其逆矩陣。數(shù)值模擬結(jié)果表明,改進的杠桿方法比Ma等(2015)[16]的方法有著更高的精度,而且對具有異質(zhì)性的數(shù)據(jù)集仍有較好的表現(xiàn)。針對樣本容量小、變量個數(shù)多的高維數(shù)據(jù),秦磊等(2020)[7]提出基于充分降維的Leverage抽樣方法,加入對樣本因變量的考量,以不損失信息為前提,在充分降維的空間內(nèi)修正計算Leverage分數(shù),重新抽樣重要的觀測點,以解決維度較大情形下對樣本間杠桿分數(shù)沒有區(qū)分度的問題,有效降低均方誤差,改善估計結(jié)果。晏振等(2016)[17]研究了基于杠桿值抽樣的回歸模型異常點診斷問題,對數(shù)據(jù)刪除模型和均值漂移模型進行了統(tǒng)計診斷,通過診斷統(tǒng)計量探查出異常值,并提出杠桿抽樣的后續(xù)研究問題是如何選取適當?shù)某闃臃椒ǎ员苊猱惓|c對回歸估計產(chǎn)生影響。Derezinski等(2018)[18]采用一種基于行列式拒絕抽樣的杠桿式體積抽樣,進行無偏估計,通過引入杠桿分數(shù)使該方法獲得一個較好的尾界,并提出重定體積抽樣組合學和相關(guān)隨機矩陣總和的尾界。梁晉雯(2020)[19]使用數(shù)據(jù)刪除模型和均值漂移模型對抽樣后的樣本進行異常點診斷,并提出樣本的自適應(yīng)選擇方法。Agarwal(2020)[20]將杠桿抽樣法與鄰近點選擇法、加速坐標下降法相結(jié)合,使最小二乘回歸計算的時間復(fù)雜度大幅下降,提升了ERM算法的運行邊界時間。
杠桿抽樣雖然能夠解決不同樣本點的推斷權(quán)重問題,但在實際應(yīng)用中該方法可能會對強影響點作出誤判,抽樣設(shè)計在某種程度上需要與多項內(nèi)容、多種方法相互配合(趙俊康,1993)[21]。強影響點具有高殘差的特性,其可利用異常點診斷方法,如學生化外殘差、庫克距離、DFFITS等進行識別。由于大數(shù)據(jù)具有“規(guī)模龐大、價值密度低”的特性,杠桿抽樣應(yīng)結(jié)合聚類分析,以降低大數(shù)據(jù)自身特性所帶來的高時間復(fù)雜度。
杠桿抽樣方法作為一種可應(yīng)用于大數(shù)據(jù)場景的抽樣算法,其核心在于構(gòu)建杠桿矩陣。對于經(jīng)典的多元線性回歸模型y=Xβ+ε,利用最小二乘法估計可以得到如式(1)所示的回歸擬合值,X為樣本設(shè)計矩陣。式(1)中的因變量y左乘一個矩陣可以得到擬合值y’,該左乘矩陣即為杠桿矩陣H(吳喜之、田茂再,2003)[22]。
其中,杠桿矩陣H的第i個對角元素為hii=xTi(XTX)-1xi,hii也就是第i個樣本的杠桿得分,反映了樣本點對回歸的貢獻度。杠桿得分越高,說明該樣本點對回歸估計的貢獻度就越高,相應(yīng)的杠桿點也越重要。估計的擬合殘差可以表示為式(2),說明杠桿矩陣的計算與殘差有著密切的關(guān)系。假設(shè)線性模型中包含截距項,樣本規(guī)模為n,則樣本設(shè)計矩陣可以寫為X’=[1n┆X],其第一列元素均為常數(shù)1。按照定義,第i個樣本點杠桿得分hii的計算如式(3)所示:
將增廣矩陣X’以分塊矩陣的形式代入式(3)中,根據(jù)分塊矩陣的計算規(guī)則(吳喜之、田茂再,2003)[22],我們可以將杠桿得分轉(zhuǎn)化為式(4)的形式:
其中,xi為第i個樣本的觀測值,x’為樣本均值向量,X*=[(x1-x’)(x2-x’)…(xn-x’)]T是設(shè)計矩陣的中心化矩陣。式(4)中的第二項表示在自變量空間中第i個樣本點xi到樣本中心x’的馬氏距離(Mahalanobis,1936)[23],樣本點越遠離樣本中心,馬氏距離就越大,杠桿得分hii也越高,這種樣本點一般被稱為高杠桿點。相對于低杠桿點,高杠桿點對回歸系數(shù)的最小二乘估計結(jié)果將產(chǎn)生更大的影響。
由杠桿抽樣方法的思路可知,其本質(zhì)上是一種無放回的不等概率抽樣方法(Ma et al.,2015)[5]。該方法按照杠桿矩陣設(shè)定概率分布,非均勻地選擇數(shù)據(jù)子樣本,并要求所選樣本數(shù)據(jù)的規(guī)模n遠大于數(shù)據(jù)的維度p,且不再需要其他假定條件。實際操作可以根據(jù)待抽樣數(shù)據(jù)集D的設(shè)計矩陣X,計算杠桿矩陣H,將對角線上的第i個元素hii分配給相應(yīng)的第i個樣本,分配各樣本的入樣概率為πl(wèi)iev=hii/∑hii(i=1,2,…,n)。由此可見,杠桿得分高的點具有更大的入樣概率。我們依照概率分布{πl(wèi)iev}(i=1,2,…,n),以抽樣比例f進行無放回隨機抽樣,將抽取的f×n個樣本組成抽樣子集Slev。
杠桿抽樣方法傾向于抽取對回歸貢獻度高的高杠桿得分點,但某些高杠桿得分點可能偏離模型,這些點的入樣概率高于一般點,且會影響回歸估計的精度,這些既有高杠桿得分,又表現(xiàn)為離群點的樣本被稱為強影響點(劉洪、黃燕,2009)[24]。根據(jù)線性回歸診斷研究領(lǐng)域已有的定義(吳喜之、田茂再,2003)[22],按照是否為離群點、是否為高杠桿點,樣本點可以分為四類,如表1所示。
表1 樣本點的四種分類情況
為進一步探討強影響點的問題,本文以一元線性模型y=Xβ+ε為例解釋四種樣本類型,如圖1所示。
圖1 四類樣本點
1.無異常點(Normal Points)。當樣本點距離樣本中心較近,且其擬合殘差較小時,該樣本點為無異常點。這種類型的點基本上符合線性模型,且不會對擬合直線產(chǎn)生較大影響,其對估計的貢獻度也較小。
2.離群點(Outliers)。當樣本點雖距離樣本中心較近,但其擬合殘差絕對值較大時,該樣本點即為離群點。在實踐中,樣本點是否為離群點可以利用學生化殘差分析等方法來判斷。這種類型的點雖然偏離線性模型,但其杠桿得分較低,不會對回歸直線產(chǎn)生較大的影響。
3.高杠桿點(High Leverage Points)。當樣本點距離樣本中心較遠,且其擬合殘差較小時,該樣本點即為高杠桿點。這種類型的點對估計回歸直線的斜率有著較大的影響,且其基本符合真實的線性模型,說明優(yōu)先選擇高杠桿點可以提高抽樣效率。
4.強影響點(Strong Influential Points),也稱為高杠桿離群點。當樣本點距離樣本中心較遠,且其擬合殘差較大時,該樣本點即為強影響點。這種類型的樣本點是抽樣過程中應(yīng)盡力排除的點,因為其一旦入樣,將在估計中產(chǎn)生很大的負面影響。
偏離真實模型的離群點和強影響點會給回歸估計造成較大的影響,本文將這兩類點統(tǒng)稱為異常點。為了解釋杠桿抽樣對強影響點的混淆問題,本文通過模擬生成包含異常點的數(shù)據(jù)集D,以方便觀察D集內(nèi)強影響點的杠桿得分表現(xiàn),以及杠桿抽樣方法對強影響點的混淆問題。
模擬數(shù)據(jù)集的設(shè)定思路如下:記待抽樣數(shù)據(jù)集為D=D0∪Ds,其中,D0為一般數(shù)據(jù)集,Ds為異常點集,數(shù)據(jù)集D的規(guī)模為n=n0∪ns,故D集內(nèi)異常點的比例為r=ns/n。設(shè)定D集的自變量x=[x1,x2,…,xn]T,因變量y=[y1,y2,…,yn]T,其中,xi服從正態(tài)分布N(0,1),yi依照模型(5)設(shè)定,擾動項為ε0~N(0,0.5),異常點擾動項為εs~N(μ,σ2)。為了簡便起見,本文設(shè)定真實參數(shù)β=1。
當i屬于D0時,ε=ε0;當i屬于Ds時,ε=εs。改變Ds集的規(guī)模ns以及擾動項εs內(nèi)參數(shù)的設(shè)定,我們就可以得到不同類型異常點的待抽樣數(shù)據(jù)集(宗序平,1993)[25]:當εs~N(0,0.5)時,我們得到無異常點的數(shù)據(jù)集,此時εs=ε0;當εs~N(a,0.5),且a≠0時,異常點表現(xiàn)為均值擾動,漂移值為a;當εs~N(0,b),且b>1時,異常點表現(xiàn)為方差擾動;當εs~N(a,b),且a≠0,b>1時,異常點表現(xiàn)為均值和方差同時出現(xiàn)擾動,此分布更接近于實際問題中的一般異常點。
本文依照上述設(shè)定生成一個數(shù)據(jù)集D,假定規(guī)模n=200,異常點比例r=10%,按照上述四種類型分別設(shè)定數(shù)據(jù)集D內(nèi)的異常點擾動項,形成四個數(shù)據(jù)集D1、D2、D3、D4,同時設(shè)定漂移值a=2,方差擾動值b=5。本文分別計算各數(shù)據(jù)集的杠桿矩陣,將每個樣本按照其杠桿得分值從大到小進行排列,并選定杠桿得分靠前的10個樣本點,如圖2所示。不難看出,高杠桿得分點均位于遠離數(shù)據(jù)中心的邊緣區(qū)域,且在存在異常點時,數(shù)據(jù)集內(nèi)杠桿得分排在前10%的點集中均存在強影響點。由于杠桿得分決定入樣概率,這些強影響點將有極高的概率被杠桿抽樣的運行體系選中(Ma et al.,2015)[5]。
圖2 四種異常點情況下的高杠桿得分點
杠桿抽樣傾向于抽取高杠桿得分點,這些點對回歸結(jié)果的貢獻更大,抽樣子集的回歸估計結(jié)果在大多數(shù)情況下表現(xiàn)良好。但是,當參與回歸估計的抽樣子集中存在強影響點時,估計的精度就會大幅度下降。其原因在于,強影響點具有較大的擬合殘差,且其本身也是一個高杠桿得分點,對估計的貢獻度較大,故該點會極大地影響擬合直線,進而影響回歸結(jié)果。本文以數(shù)據(jù)集D為例考察杠桿抽樣方法,即針對四種異常點情況的數(shù)據(jù)集D1、D2、D3、D4分別采用杠桿抽樣方法,以抽樣比例f=10%抽取樣本子集,畫出由抽樣子集經(jīng)最小二乘法估計得到的擬合直線y=x×βhat,并在樣本分布散點圖中畫出真實曲線,對兩線進行比較分析,如圖3所示。
圖3 四種異常情況下杠桿抽樣子集的回歸擬合
從圖3中可以看出,當抽樣子集中存在強影響點時,擬合直線會大幅度偏離真實線性模型,估計結(jié)果也存在非常大的偏差。綜上所述,杠桿抽樣方法在實際應(yīng)用中面臨強影響點混淆問題,而強影響點會給回歸估計帶來較大的負面影響。需要說明的是,這里的數(shù)據(jù)集D1、D2、D3、D4僅為無數(shù)種包含強影響點的異常數(shù)據(jù)集代表,而杠桿抽樣傾向于抽取強影響點的特性是普遍存在的,強影響點一旦進入估計子集,將對估計帶來非常大的負面影響。鑒于強影響點本身既是高杠桿點又是離群點,而利用異常點診斷方法可以去除包含強影響點在內(nèi)的異常點集,本文提出一種結(jié)合異常點診斷的杠桿抽樣算法。
本文基于密度聚類思想提出一種結(jié)合異常點診斷的新的杠桿抽樣算法,其主要步驟可概括為:第一步是采用聚類方法降低數(shù)據(jù)規(guī)模,第二步是采用異常點診斷去除強影響點,第三步是通過杠桿抽樣獲得待估子集。首先,傳統(tǒng)的異常點診斷算法包含遍歷性思想,而大數(shù)據(jù)所具有的“大規(guī)模”特性,使得傳統(tǒng)算法的時間復(fù)雜度提高,、運行時間延長,無法直接將小樣本的診斷方法直接應(yīng)用于大數(shù)據(jù)集,需要引入一種基于密度的聚類方法降低大數(shù)據(jù)集的復(fù)雜度。其次,強影響點本質(zhì)上是高杠桿得分情況下的離群點,其仍可采用傳統(tǒng)的異常點(離群點)診斷方法進行識別。再次,采用杠桿抽樣方法抽取對回歸貢獻度較高的待估子集,可以進一步提高估計的精度。
大數(shù)據(jù)的突出特點之一是“規(guī)模龐大”,而在分析中采用聚類方法可以降低數(shù)據(jù)規(guī)模。目前,主流的聚類方法包括基于距離的K-Means聚類法、基于層次的BIRCH聚類法以及基于密度的DBSCAN聚類法、均值漂移聚類法等多種成熟算法。在大規(guī)模數(shù)據(jù)集的情境下,要想解決算法復(fù)雜度過高的問題,就要避免依賴大量距離計算的聚類方法(如K-Means),故本文采用DBSCAN聚類方法(Density-Based Spatial Clustering of Applications with Noise)(Ester et al.,1996)[26]。該方法是經(jīng)典的基于密度的聚類算法,具有速度快、精準度高、不需事前確定簇分類數(shù)等優(yōu)點。DBSCAN將類定義為密度相連點的最大集合,類的劃分是基于空間內(nèi)數(shù)據(jù)分布的密度情況,故可以發(fā)現(xiàn)任意形狀的聚類,且其最主要的用途就是發(fā)現(xiàn)數(shù)據(jù)空間內(nèi)的噪聲點,這正契合本文的異常點診斷需求。當樣本中出現(xiàn)與絕大多數(shù)數(shù)據(jù)點分布情況相悖的異常點時,使用基于密度的分類方法就可以準確地將異常點與非異常點劃分至不同的類別。
DBSCAN算法的具體步驟如下:(1)利用k-距離曲線方法和指導(dǎo)性原則計算參數(shù)掃描半徑(簡記為eps)和最小包含點數(shù)(簡記為minpts),選擇數(shù)據(jù)集D內(nèi)尚未被分類的點P,如果P未被歸為某類或者被標記為噪聲,則檢查以P為中心、半徑為eps的鄰域,當鄰域內(nèi)包含的對象數(shù)不小于minpts時,建立新類C,將鄰域內(nèi)所有點加入候選類M,若P的鄰域內(nèi)包含的對象數(shù)小于minpts,則標記P點為噪聲點;(2)選取候選類M中所有尚未被處理的樣本點Q,檢查Q點的鄰域,若其中至少包含minpts個樣本,則將這些樣本加入到候選類M中,如果Q還未歸入任何一個簇,則將Q加入到類C中;(3)重復(fù)步驟(2),繼續(xù)檢查M中未處理的對象,直至當前候選集M為空集;(4)重復(fù)步驟(1)至(3),直到所有對象都被歸入某個類中或被標記為噪聲。
初始參數(shù)eps的值可用繪制k-距離曲線的方法來設(shè)定(Ester et al.,1996)[26],曲線圖的明顯拐點處即為相對較優(yōu)的eps參數(shù),且其遵循掃描半徑不小于樣本維度的原則,即minpts>p(p表示樣本維度)。若掃描半徑取值過小,樣本空間內(nèi)的稀疏性將導(dǎo)致多數(shù)點被判斷為邊界點,類無法擴展;若取值過大,絕大多數(shù)點就可能被歸為同一類。既有文獻對DBSCAN算法及相關(guān)參數(shù)設(shè)定已經(jīng)進行了較為詳細的論述(Sander et al.,1998)[27],這里不再贅述。
本文利用異常點診斷去除包含強影響點的異常點集,該步驟選用的是傳統(tǒng)回歸分析中的三種主流方法:學生化外殘差、庫克距離和DFFITS。本文首先對這三種診斷方法的基本原理進行闡述,然后在數(shù)值模擬中分別使用這三種方法,并對算法效果進行比較分析。
1.學生化外殘差。學生化外殘差也稱為學生化刪除殘差,是在對普通殘差進行標準化處理后得到。相比于學生化內(nèi)殘差,學生化外殘差排除了樣本自身殘差的影響,可稱為刪除殘差。學生化外殘差的計算方法如式(6)所示:
其中,e*i表示第i個樣本的學生化外殘差,ei表示第i個樣本的殘差,σ’(i)表示去除第i個樣本后所得殘差的方差,hii為杠桿矩陣對角線上的第i個元素,k為待診斷樣本集的規(guī)模。我們在計算時不必對全部樣本都計算殘差,對樣本集內(nèi)的第i個樣本可以直接利用式(7)計算學生化外殘差(陶靖軒,1986)[28]。
其中,p是樣本維數(shù),SSE表示擬合數(shù)據(jù)和原始數(shù)據(jù)對應(yīng)點的誤差的平方和,e*i是t檢驗統(tǒng)計量(其服從t(k-p-1)分布,通過t檢驗可以判斷樣本點是否為異常點)。
2.庫克距離。該方法是回歸分析中的一種常用方法(Cook,1982)[29],利用距離函數(shù)可以診斷回歸分析中是否存在異常數(shù)據(jù)。庫克距離的計算方法如式(8)所示:
其中,Di表示第i個樣本點的庫克距離,yi和yi’分別表示第i個樣本的真實值和擬合值,MSE為擬合的均方誤差,hii為杠桿矩陣的第i個對角線元素。利用庫克距離判斷異常點一般采用如下標準:當0.5 3.DFFITS方法。該方法同樣結(jié)合了第i個樣本點在回歸中的殘差及杠桿得分表現(xiàn)(Patterson et al.,1981)[26],計算方法如式(9)所示,其分子反映了第i個樣本點在參與或不參與回歸時擬合值的差異,分母反映了第i個樣本點為回歸擬合所帶來的差異的標準差。可見,DFFITS方法實際上是量化了省略第i個數(shù)據(jù)點對回歸產(chǎn)生的差異的標準差。 一般來說,當某樣本點的DFFITS值超過臨界2[(p+1)/(n-p-1)]1/2值時,該樣本點可視為異常點。 上述學生化外殘差、庫克距離及DFFITS方法均涉及到擬合值的計算,且刪除殘差等需要反復(fù)計算,這就使得算法具有較高的時間復(fù)雜度,尤其是在大規(guī)模數(shù)據(jù)集的計算中,這種直接計算的方法會面臨計算時間冗長、復(fù)雜度高等問題。因此,當小數(shù)據(jù)集診斷方法應(yīng)用到大數(shù)據(jù)集時,我們需要結(jié)合大數(shù)據(jù)集的機器學習手段,利用聚類DBSCAN方法,將大規(guī)模數(shù)據(jù)集轉(zhuǎn)化為小規(guī)模數(shù)據(jù)集,再針對各類整體進行診斷。異常點診斷步驟是在DBSCAN聚類結(jié)果的基礎(chǔ)上,對各類質(zhì)心進行異常點診斷,以剔除可能包含強影響點的異常點集。 針對杠桿抽樣方法在大規(guī)模數(shù)據(jù)應(yīng)用中存在的問題,本文提出結(jié)合DBSCAN聚類及異常點診斷的杠桿抽樣方法,該方法分為聚類、診斷和抽樣三個部分。 1.聚類獲得樣本分類標簽。該步驟首先要讀取數(shù)據(jù)集DataSet(n×p維),然后調(diào)用DBSCAN算法進行數(shù)據(jù)集DataSet聚類,得到數(shù)據(jù)類標簽c。 2.診斷剔除異常點集。該步驟首先要讀取待診斷數(shù)據(jù)集DataSet(n×p維),調(diào)用聚類方法進行數(shù)據(jù)集聚類,根據(jù)聚類結(jié)果c提取聚類質(zhì)心集合center(k×p維),然后根據(jù)輸入的診斷方法對質(zhì)心集內(nèi)數(shù)據(jù)進行異常點診斷,求出每個質(zhì)心的診斷值d,將診斷值d與該質(zhì)心所在的類集對應(yīng),并將診斷值d從小到大排序,設(shè)定診斷閾值s,取出前K個至少累計包含了s×n個樣本的類,將K個類內(nèi)的樣本合并為數(shù)據(jù)集Data。 3.抽樣獲得待估抽樣子集。該步驟首先要讀取待抽樣的數(shù)據(jù)集Data(m×p維),當抽樣方法為均勻抽樣(uni)時,設(shè)定各點抽樣概率=1/m;當抽樣方法為杠桿抽樣(lev)時,計算待抽樣數(shù)據(jù)集Data的杠桿矩陣,取矩陣對角線元素hii分別與各樣本對應(yīng),計算各點抽樣概率πl(wèi)evi=hii/∑hii(i=1,2,…,m)。其次是設(shè)定抽樣比例f,根據(jù)上一步獲得的抽樣概率{πi}(i=1,2,…,m),調(diào)用無放回隨機概率抽樣方法,獲得抽樣后子集D。 綜上所述,本文提出的基于密度聚類結(jié)合異常點診斷的杠桿抽樣方法的算法流程如圖4所示。 圖4 本文算法的步驟和流程 本文采用數(shù)值模擬的方法,利用Python進行編程,生成多種設(shè)定數(shù)據(jù)集,并利用不同算法的參數(shù),使用前文闡述的方法分別對模擬數(shù)據(jù)集進行抽樣,對子集采用最小二乘回歸估計,并重復(fù)若干次,以多次回歸估計結(jié)果的均方誤差及其標準差的平均值和平均運行時間,作為評價標準。 本文生成的數(shù)據(jù)設(shè)定參考了Ma等(2015)[5]的研究,首先確定模型為多元線性模型y=Xβ+e,生成四種分布的數(shù)據(jù)集。(1)GA集。X設(shè)定為服從聯(lián)合正態(tài)分布N(1p,Σ),其中,協(xié)方差矩陣Σ中的元素Σij=2×0.5|i-j|。(2)T5集。X設(shè)定為服從自由度為5的T分布,協(xié)方差矩陣為Σ。(3)T3集。X設(shè)定為服從自由度為3的T分布,協(xié)方差矩陣同樣為Σ。(4)T1集。X設(shè)定為服從自由度為1的T分布,協(xié)方差矩陣依然為Σ。線性模型中擾動項的設(shè)定按照前文解釋的四種異常點情形分別進行設(shè)定:無異常點的情形為e0~N(0,In),均值擾動的情形為e1~N(μ,In),方差擾動的情形為e2~N(0,σ2In),均值和方差同時有擾動的情形為e3~N(μ,σ2In),異常點比例設(shè)定為r。根據(jù)既有文獻的思路(Ma et al.,2015)[5],即服從聯(lián)合正態(tài)分布的數(shù)據(jù)集內(nèi)個體具有幾乎一致的杠桿得分、服從T3分布的數(shù)據(jù)集內(nèi)杠桿得分較不一致、服從T1分布的數(shù)據(jù)集內(nèi)杠桿得分完全不一致,本文設(shè)定GA集、T3集和T1集進行對比分析。此外,本文另添加服從T5分布的數(shù)據(jù)集進行對比,以進一步檢驗本文算法的可行性??紤]到數(shù)據(jù)模擬中的參數(shù)較多、變化繁雜,本文主要采用控制變量的方法檢驗該方法在不同數(shù)據(jù)集和參數(shù)情境下的表現(xiàn)能力。數(shù)據(jù)集規(guī)模n=10 000,維數(shù)p=2,重復(fù)運行100次,本文取評價指標的均值進行展示。 四種數(shù)據(jù)集類型分別為聯(lián)合正態(tài)分布以及自由度等于5、3、1的T分布,四種異常點類型分別為無異常、均值擾動、方差擾動、均值和方差同時擾動。這里的異常點比例r=10%,算法內(nèi)閾值s取0.2,抽樣比例f設(shè)定為10%,同時設(shè)定μ=1,σ2=2。實驗結(jié)果如表2至表5所示。 表2 不同分布下無異常點集的均方誤差MSE及運行時間time(秒) 表4 不同分布下方差擾動異常集的均方誤差MSE及運行時間time(秒) 表5 不同分布下均值和方差同時擾動異常集的均方誤差MSE及運行時間time(秒) (續(xù)表4) 表2至表5的第三列均為不采用診斷的均勻抽樣方法,第四列為不采用診斷的杠桿抽樣方法??梢钥闯?,杠桿抽樣的均方誤差數(shù)據(jù)普遍高于均勻抽樣的均方誤差,這就印證了杠桿重要性抽樣可能混淆強影響點的問題,同時也說明,一旦數(shù)據(jù)集內(nèi)存在異常點,盲目地直接采用杠桿抽樣是很危險的,此時無論何種分布的數(shù)據(jù)集都會產(chǎn)生較大的均方誤差。因此,采用結(jié)合異常點診斷的抽樣算法是十分必要的。 在診斷結(jié)合抽樣方法的分析中,我們以T5數(shù)據(jù)集的庫克距離診斷抽樣方法為例,將其與不采用診斷的均勻抽樣和杠桿抽樣進行對比可以發(fā)現(xiàn):當e=e1時,診斷后均勻抽樣的MSE較無診斷均勻抽樣的MSE縮小了31.4%,診斷后杠桿抽樣的MSE較無診斷杠桿抽樣的MSE縮小了41.0%;當e=e2時,診斷后均勻抽樣的MSE較無診斷均勻抽樣的MSE縮小了72.1%,診斷后杠桿抽樣的MSE較無診斷杠桿抽樣的MSE縮小了73.8%;當e=e3時,診斷后均勻抽樣的MSE較無診斷均勻抽樣的MSE縮小了73.6%,診斷后杠桿抽樣的MSE較無診斷杠桿抽樣的MSE縮小了64.0%。其他診斷和抽樣策略也有著同樣良好的改進效果,這里不再贅述。 整體來看,本文提出的結(jié)合診斷的抽樣算法無論針對何種數(shù)據(jù)集及異常點類型,均有較好的表現(xiàn),且本文提出的結(jié)合異常點診斷的抽樣算法可以有效緩解杠桿抽樣偏好抽取某些強影響點的問題。從數(shù)據(jù)分布來看,杠桿值分布的均勻程度從小到大的排序為GA、T5、T3、T1,杠桿值分布越不均勻,對杠桿抽樣的影響就越大,且無論數(shù)據(jù)集的杠桿值分布均勻與否,本文的算法都有良好的效果。從異常點的分布情況來看,在異常點為方差擾動的情況下,異常點與非異常點的分布更難以區(qū)分,而本文的算法仍可以大幅剔除異常點,并獲得較為真實的抽樣子集,具有較好的均方誤差表現(xiàn)。此外,從診斷方法來看,無論是學生化外殘差、庫克距離還是DFFITS診斷方法,其都有較好的均方誤差表現(xiàn)。結(jié)合診斷的算法運行時間較無診斷的算法略有增加,但仍保持在同一量級內(nèi),故本文的方法可以應(yīng)用到真實數(shù)據(jù)的實際處理和操作中。 前文的數(shù)值模擬實驗結(jié)果驗證了本文算法的有效性,即在大規(guī)模數(shù)據(jù)集場景下,本文的算法具有有效性和可行性。至于算法主要步驟的順序是否會影響算法效果,本文將繼續(xù)進行檢驗。本文此前提出的算法邏輯是基于“先診斷后抽樣”的思想,旨在提前甄別并剔除異常點,再進行抽樣操作,這樣可以極大地降低異常點進入抽樣子集的可能性。這里,本文將檢驗另一個設(shè)計邏輯,即“先抽樣后診斷”的思想在算法的實踐中是否仍然可行,并與“先診斷后抽樣”算法得到的結(jié)果進行對比分析,以探究算法步驟順序?qū)λ惴ㄐЧ挠绊憽?/p> 這里依然采用前文的16個數(shù)據(jù)集,將本文算法中的第二步“診斷”與第三步“抽樣”交換順序,除一些變量名稱的微小更改外,其他不作調(diào)整,如圖5所示。與前文一樣,異常點比例r=10%,算法內(nèi)閾值s取0.2,抽樣比例f設(shè)定為10%,同時設(shè)定μ=1,σ2=2,模擬結(jié)果如表6至表9所示。 表9 不同分布下均值和方差同時擾動異常點集“先抽樣后診斷”的均方誤差MSE及運行時間time(秒) 圖5 “先抽樣后診斷”算法的步驟和流程 表6 不同分布下無異常點集“先抽樣后診斷”算法的均方誤差MSE及運行時間time(秒) 表8 不同分布下方差擾動異常點集“先抽樣后診斷”算法的均方誤差MSE及運行時間time(秒) 從表6至表9的結(jié)果來看,遵循“先抽樣后診斷”思想的算法同樣具有剔除異常點、獲取真實數(shù)據(jù)集、降低回歸中的均方誤差等良好表現(xiàn)。對比表2與表6、表3與表7可以看出,調(diào)換順序的算法雖然有效,但其相較于原邏輯算法的表現(xiàn)稍差一些。以T3數(shù)據(jù)集均值和方差同時擾動的異常點庫克距離診斷方法為例(表5和表9),在“先診斷”時,診斷后均勻抽樣的MSE較無診斷均勻抽樣的MSE縮小了51.7%,診斷后杠桿抽樣的MSE較無診斷杠桿抽樣的MSE縮小了73.9%,而在“先抽樣”時,診斷后均勻抽樣的MSE較無診斷均勻抽樣的MSE反而增大了9.0%,診斷后杠桿抽樣的MSE較無診斷杠桿抽樣的均方誤差僅縮小了33.7%??梢姡跋瘸闃印钡倪壿嬍沟盟惴ǖ挠行源蟠蛘劭?。其他診斷和抽樣策略的邏輯性也是如此,這里不再贅述。 表3 不同分布下均值擾動異常集的均方誤差MSE及運行時間time(秒) 表7 不同分布下均值擾動異常點集“先抽樣后診斷”算法的均方誤差MSE及運行時間time(秒) “先抽樣”相比于“先診斷”的算法效果更差,這主要是因為先進行的抽樣操作增大了強影響點進入抽樣子集的概率,尤其是杠桿抽樣更偏好抽取強影響點,而基于密度的聚類方法又將某些強影響點聚類并與接近該點的真實樣本歸為一類,這樣就會使一些異常點逃出診斷過程而進入子集,對回歸結(jié)果產(chǎn)生不良影響。因此,本文提出的算法采用“先診斷后抽樣”的策略是具有邏輯性且有良好改進效果的抽樣算法。 前文已經(jīng)證實結(jié)合異常點診斷的抽樣算法具有有效性和邏輯性,由于本文算法的輸入?yún)?shù)中包含人為設(shè)定的算法閾值s,為探究算法內(nèi)人為設(shè)定的診斷閾值是否會對算法結(jié)果產(chǎn)生影響,這里還要進行更改閾值s的數(shù)值模擬實驗。診斷過程利用三種手段測算數(shù)據(jù)異常表現(xiàn),并將數(shù)據(jù)點按照其可能為異常點的概率由小到大進行排列,保留前s×n個數(shù)據(jù)點。其中,s代表算法對異常點診斷的信任程度,s越大,則算法對異常點的保留越寬容,s越小,則算法對異常點的診斷越嚴苛。這里設(shè)定異常點比例r=10%,抽樣比例f為10%,同時設(shè)定μ=1,σ2=2,算法內(nèi)閾值s分別選取0.1、0.2、0.4、0.6、0.8,并比較回歸MSE。為節(jié)省篇幅,這里僅列舉T3數(shù)據(jù)集的結(jié)果,即異常點形式為均值和方差同時擾動(e=e3),結(jié)果如表10所示。 表10 不同算法閾值s下T3分布e3集的估計均方誤差 從表中可以看出,當閾值s≤0.6時,本文提出的算法具有較好的改進效果,相對于無診斷算法MSE平均降低了72.2%,其中,均勻抽樣算法的MSE降低了70.1%,杠桿抽樣算法的MSE降低了74.1%。當s=0.8時,本文提出的算法仍具有改進效果,但改進效果變差,相對于無診斷算法MSE平均僅降低了45.1%,其中,均勻抽樣算法的MSE降低了40.6%,杠桿抽樣算法的MSE降低了49.6%。因此,本文算法的閾值s取值不宜超過0.6,否則改進效果會被削弱。 本文還探討了數(shù)據(jù)集異常點比例r變化對算法改進效果的影響。算法內(nèi)閾值s設(shè)定為0.2,抽樣比例f設(shè)定為10%,同時設(shè)定μ=1,σ2=2。分別設(shè)定異常點比例r=1%、5%、10%,e=e3的T3數(shù)據(jù)集結(jié)果如表11所示??梢钥闯?,當異常點比例r=10%時,改進算法相對于無診斷算法的MSE平均降低了67.4%;當r=5%時,改進算法相對于無診斷算法的MSE平均降低了42.6%;當r=10%時,改進算法相對于無診斷算法的MSE平均降低了49.8%。該結(jié)果說明,即使異常點比例非常小,本文的算法依然可以大幅提高回歸的MSE結(jié)果,準確識別數(shù)據(jù)集內(nèi)少量的異常點,提高估計精度。 表11 不同異常點比例r下T3分布e3集的均方誤差表現(xiàn) 本節(jié)利用一個實際的經(jīng)濟社會例子,驗證本文算法的可行性。本文選用StatLib數(shù)據(jù)庫的house數(shù)據(jù)集(http://lib.stat.cmu.edu/datasets/),其來自于1990年加利福尼亞州人口普查結(jié)果。該數(shù)據(jù)集首次應(yīng)用于Pace和Barry(1997)[31]對稀疏空間自回歸問題的研究,并由Pace提交至StatLib數(shù)據(jù)庫。該數(shù)據(jù)集內(nèi)包含20 640個加利福尼亞州調(diào)查小組,每個調(diào)查組內(nèi)平均有1 425.5個居民,每個小組匯報一個調(diào)查范圍內(nèi)房產(chǎn)價格的觀察結(jié)果,同時匯報調(diào)查范圍內(nèi)各項經(jīng)濟社會評價指標,最終構(gòu)成的線性模型如式(10)所示(Pace and Barry,1997)[31]。其中,因變量為調(diào)查范圍內(nèi)房產(chǎn)價格中位數(shù)(Median Value)的對數(shù),自變量包含8個經(jīng)濟變量,分別為調(diào)查范圍內(nèi)的居民收入中位數(shù)(Median Income)、居民收入中位數(shù)的平方、居民收入中位數(shù)的三次方、居民年齡中位數(shù)(Median(Age))的對數(shù)、全部房間數(shù)與人口比值(Total Rooms/Population)的對數(shù)、全部臥室數(shù)與人口比值(Bedrooms/Population)的對數(shù)、平均家庭規(guī)模(Population/Households)的對數(shù)、總家庭戶數(shù)(Households)的對數(shù)?;貧w結(jié)果顯示,模型全部變量的p值均小于或等于0.05,本文僅以Pace和Barry(1997)[31]的結(jié)果作為參照,以比較不同抽樣方法的效果。 為了進行對比分析,本文直接對總體(共20 460個觀測值)進行最小二乘回歸估計,得到估計系數(shù)。為了反映實際調(diào)查中可能出現(xiàn)的異常問題,本文從總體20 460個觀測值中隨機抽取2%的觀測值,將其房產(chǎn)價格降至真實值的1‰,用以模擬數(shù)據(jù)收集過程中因人為失誤等而產(chǎn)生的異常數(shù)據(jù)。對于存在異常的總體數(shù)據(jù),本文分別采用均勻抽樣、普通杠桿抽樣結(jié)合異常點診斷的杠桿抽樣方法進行抽樣(只給出學生化外殘差診斷,其余方法效果類似),抽樣比例f為10%,算法內(nèi)閾值s取0.6,最后對抽樣子集進行最小二乘回歸估計,計算估計系數(shù)和均方誤差,結(jié)果如表12所示。 由表12的結(jié)果可知,在存在數(shù)據(jù)異常的真實數(shù)據(jù)集分析中,本文的算法仍然具有可行性,相較于無異常診斷的均勻抽樣和普通杠桿抽樣方法,利用結(jié)合異常點診斷的杠桿抽樣方法獲得的子集更接近總體數(shù)據(jù)集的特性,對該子集的最小二乘估計結(jié)果更接近總體數(shù)據(jù)集的回歸結(jié)果,估計的均方誤差也更小。 針對杠桿抽樣方法在大規(guī)模數(shù)據(jù)的實際應(yīng)用中存在偏好抽取強影響點導(dǎo)致估計精度降低的問題,本文提出了結(jié)合異常點診斷方法的杠桿抽樣方法。異常點診斷方法結(jié)合了學生化外殘差、庫克距離和DFFITS三種傳統(tǒng)異常點診斷指標以及基于密度的DBSCAN聚類方法。一方面,聚類方法使得大規(guī)模數(shù)據(jù)中的異常點得以準確、快速的識別;另一方面,沿用小數(shù)據(jù)診斷技術(shù)可以向大數(shù)據(jù)應(yīng)用發(fā)展,異常點診斷能夠彌補杠桿抽樣在異常點數(shù)據(jù)集應(yīng)用中的不足。數(shù)據(jù)模擬結(jié)果顯示,本文提出的結(jié)合異常點診斷的抽樣方法在多種分布類型的數(shù)據(jù)集中均有良好的表現(xiàn),可以使回歸估計的MSE大幅降低,即結(jié)合異常點診斷的杠桿抽樣方法優(yōu)于均勻抽樣等抽樣策略。同時,本文檢驗了“先診斷后抽樣”這一算法邏輯的有效性,當算法閾值s低于0.6時即可獲得非常好的效果,本文的算法對極少異常點的數(shù)據(jù)集也有效。在存在異常數(shù)據(jù)的真實數(shù)據(jù)集分析中,本文的算法相較于均勻抽樣和普通杠桿抽樣獲得了更接近總體的估計結(jié)果和更小的均方誤差,說明結(jié)合異常點診斷的杠桿抽樣在真實數(shù)據(jù)分析環(huán)境中仍然能夠發(fā)揮優(yōu)勢,算法具有可行性。 本文的研究側(cè)重于改進杠桿抽樣方法的缺陷,其中采用的DBSCAN聚類方法只是眾多基于密度聚類方法中的一種,而其他聚類方法是否更為有效仍需進行進一步的驗證。此外,本文提出的方法是基于已有的杠桿抽樣方法,即算法只能應(yīng)用于線性回歸模型中。至于本文提出的結(jié)合異常點診斷的杠桿抽樣在其他非線性模型中是否適用,仍有待今后進行進一步的研究。 未來大數(shù)據(jù)研究面臨的主要問題是如何將已有的小數(shù)據(jù)處理技術(shù)拓展至大數(shù)據(jù)方向,以形成大數(shù)據(jù)獨有的統(tǒng)計思想和估計方法。在大數(shù)據(jù)的處理過程中,統(tǒng)計學知識仍然適用,但大數(shù)據(jù)自身的特征,即“4V”特征也應(yīng)考慮進去。其中,“大體量”“高維度”兩個最主要的特征將給某些采用遍歷算法的分析技術(shù)帶來挑戰(zhàn),同時,高維數(shù)據(jù)面臨維數(shù)災(zāi)難,高維稀疏空間對計算機的計算和儲存能力也提出不小的挑戰(zhàn)。未來的大數(shù)據(jù)抽樣應(yīng)該降低對數(shù)據(jù)“精準”的要求,采用一些“模糊”的思想,在不影響整體特征的情況下,降低大數(shù)據(jù)的復(fù)雜度以及數(shù)據(jù)分析的難度,以考察大數(shù)據(jù)整體的特征。(三)結(jié)合異常點診斷及DBSCAN聚類的杠桿抽樣算法
五、數(shù)值模擬及結(jié)果分析
(一)算法的有效性檢驗
(二)算法內(nèi)部邏輯性檢驗
(三)算法內(nèi)閾值s的設(shè)定問題
(四)數(shù)據(jù)集內(nèi)異常點的比例
(五)真實數(shù)據(jù)集分析舉例
六、結(jié)論與展望