• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    異常點診斷視角下的大數(shù)據(jù)杠桿抽樣方法

    2022-06-23 08:48:34賀建風張莉維
    統(tǒng)計學報 2022年3期
    關(guān)鍵詞:影響方法

    賀建風,張莉維

    (華南理工大學 經(jīng)濟與金融學院,廣東 廣州 510006)

    一、引言

    大數(shù)據(jù)時代的來臨在給傳統(tǒng)數(shù)據(jù)分析方法帶來挑戰(zhàn)的同時,也促進了基于大規(guī)模數(shù)據(jù)分析的新手段和新方法的產(chǎn)生。數(shù)據(jù)科學家Mayer-Sch?nberger(2013)[1]將大數(shù)據(jù)定義為,需要運用新的處理模式才具有更強決策力、洞察力和流程優(yōu)化能力,且具有海量性、高增長率和多樣化特點的信息資產(chǎn)。隨著我國互聯(lián)網(wǎng)普及率的提高,互聯(lián)網(wǎng)經(jīng)濟與社會各領(lǐng)域不斷融合(荊文君等,2020)[2],依托于互聯(lián)網(wǎng)信息的快速產(chǎn)生和交換,大數(shù)據(jù)分析技術(shù)在互聯(lián)網(wǎng)的沃土上蓬勃發(fā)展。一般認為,大數(shù)據(jù)具有大規(guī)模、高維度、快速度和低價值密度(鄔賀銓,2013)[3]四個方面的特征(簡稱“4V”)。在大數(shù)據(jù)的背景下,規(guī)模龐大的數(shù)據(jù)運算給現(xiàn)有的計算機算力帶來巨大的挑戰(zhàn)。因此,針對大數(shù)據(jù)進行抽樣以優(yōu)化算法,是節(jié)約運算空間、提高分析效率的有效方法。由于現(xiàn)有的計算水平仍然無法完全滿足海量數(shù)據(jù)的分析需求,大數(shù)據(jù)抽樣技術(shù)成為研究的熱點?;诟軛U重要性的大數(shù)據(jù)抽樣方法具有易操作、應(yīng)用廣泛的特點,可以滿足簡化大數(shù)據(jù)運算的需求,適合于大數(shù)據(jù)情境的應(yīng)用。杠桿抽樣的主要思想是,通過杠桿得分矩陣考察各樣本點對總體特征的貢獻度,并對貢獻度較大的樣本點設(shè)置較高的抽樣概率,從而在一定程度上縮小樣本規(guī)模,節(jié)約運算時間和儲存空間,提高分析效率,其所抽取的子樣本相對于總體也具有較好的代表性。

    杠桿抽樣起源于線性回歸問題,Drineas(2006)[4]基于l2回歸提出了一種依據(jù)范數(shù)計算的非均勻概率杠桿抽樣算法。在此基礎(chǔ)上,Ma等(2015)[5]從數(shù)理邏輯的角度提出了杠桿抽樣的統(tǒng)計理論,并證明了杠桿抽樣方法在理論上是可行的。秦磊等(2016)[6]通過純凈子集選擇和聚類多數(shù)選擇改進了杠桿抽樣方法(該方法也被稱為“杠桿重要性抽樣”),使其能夠應(yīng)用于大規(guī)模數(shù)據(jù)的情況,并弱化了數(shù)據(jù)異質(zhì)性的影響。此后,秦磊等(2020)[7]提出了基于充分降維SIR方法的杠桿重要性抽樣估計方法,將杠桿重要性抽樣的應(yīng)用向高維大數(shù)據(jù)的方向拓展。杠桿抽樣方法的核心在于構(gòu)建包含樣本重要性的杠桿得分矩陣,該矩陣包含大數(shù)據(jù)總體的原有特性,矩陣對角線上的數(shù)值即為杠桿得分,它可以衡量樣本至樣本中心的馬氏距離,遠離數(shù)據(jù)中心的樣本點會有更高的杠桿得分值,這些點對回歸有著更重要的意義,故被賦予更高的入樣概率。

    杠桿抽樣雖然能夠解決不同樣本點的權(quán)重推斷問題,但其在實際應(yīng)用中可能會對強影響點形成誤判。這是因為,在實際的線性模型中,遠離數(shù)據(jù)中心的點可能并非只是對回歸貢獻度較高的高杠桿點,其也可能是具有較高殘差的異常點。這類樣本點偏離了數(shù)據(jù)主體,給回歸估計帶來較大的影響,傳統(tǒng)的杠桿抽樣方法會賦予該點更高的杠桿得分,從而獲得更高的入樣概率,最終反而加劇了該點對回歸結(jié)果偏離的影響。這類同時具有高杠桿值和高殘差的異常點可稱為強影響點。本文將圍繞強影響點的剔除方法以及大數(shù)據(jù)的復(fù)雜特性展開分析,并提出一種結(jié)合異常點診斷的大數(shù)據(jù)杠桿抽樣方法。

    二、文獻綜述

    大數(shù)據(jù)時代的統(tǒng)計推斷技術(shù)面臨變革,社會經(jīng)濟、政府統(tǒng)計等各領(lǐng)域的分析工作都以大數(shù)據(jù)庫為基礎(chǔ)(雷欽禮,2004)[8]。金勇進(2016)[9]針對大數(shù)據(jù)的非概率抽樣推斷問題,從抽樣方法、權(quán)數(shù)構(gòu)造、估計三個方面提出解決問題的基本思路,包括非概率樣本近似概率樣本、基于偽設(shè)計和傾向得分權(quán)數(shù)構(gòu)造、基于模型的估計、基于貝葉斯估計等統(tǒng)計推斷思路。就大數(shù)據(jù)抽樣而言,主流的方法可以歸納為三種思路:分治法(Split and Conquer)是將整個數(shù)據(jù)分成多份,將每份數(shù)據(jù)作為子樣本分別進行估計,子樣本的估計結(jié)果通過平均整合成最終的結(jié)果;遞歸法(Recursive)是在進行總體樣本的線性回歸之后,只存儲少量“真正有用”的結(jié)果,如最接近回歸曲線的樣本點,新數(shù)據(jù)加入時則直接合并存儲的結(jié)果再次進行回歸,并更新儲存結(jié)果;杠桿法(Leverage Sampling)是在總體樣本中找出“真正對結(jié)果有影響”的重要觀測點,并利用這些重要數(shù)據(jù)進行估計,得到接近真實值的估計結(jié)果。

    本文擬討論針對大數(shù)據(jù)的杠桿抽樣方法。重要性抽樣思想源于蒙特卡洛法估計定積分,即在估計定積分時傾向于對重要的區(qū)間采用更高的權(quán)重(魏艷華等,2017)[10]。為了適應(yīng)現(xiàn)有的運算能力,深入挖掘數(shù)據(jù)信息,Ma等(2015)[5]提出一種基于數(shù)據(jù)點重要性程度的抽樣方法,即杠桿抽樣。杠桿抽樣方法是在子抽樣框架下設(shè)計的,其主要思想是從完整樣本中抽取一部分數(shù)據(jù)作為子樣本,并以該子樣本作為完整樣本的替代,執(zhí)行預(yù)期的計算。杠桿抽樣成功的關(guān)鍵在于構(gòu)造非均勻抽樣概率,使有影響的數(shù)據(jù)點以高概率進行抽樣。這類方法在大數(shù)據(jù)分析領(lǐng)域具有很好的應(yīng)用前景,它允許訪問大量數(shù)據(jù)信息,而無需借助高性能的計算。

    杠桿抽樣的發(fā)展始于線性最小二乘回歸問題。Drineas(2006)[4]基于嶺回歸(l2回歸)的線性代數(shù)問題,提出一種根據(jù)歐幾里得范數(shù)復(fù)雜計算的非均勻概率的杠桿抽樣算法。針對大規(guī)模數(shù)據(jù),該方法從n×p矩陣中(n>p)隨機對行抽樣后進行最小二乘回歸,可以快速得到最小二乘法的近似估計。其后,Mahoney等(2009)[11]提出主成分分析和廣義上的奇異分析,即利用一組正交或不相關(guān)的重要程度遞減的向量表示數(shù)據(jù)矩陣的方法,但這些向量是數(shù)據(jù)點的線性組合,并沒有實際的解釋。該研究是對大規(guī)模矩陣數(shù)據(jù)的行和列進行重要性抽樣,利用CUR矩陣分解提出一種優(yōu)先選擇高杠桿分數(shù)的列和行構(gòu)造低秩近似矩陣的方法,可以避免主成分分析和奇異分析在解釋性方面存在的問題。Mahoney(2011)[12]對矩陣和數(shù)據(jù)的隨機算法問題進行了綜述,論述了矩陣對大規(guī)模數(shù)據(jù)分析的重要作用,解釋了隨機矩陣和大規(guī)模數(shù)據(jù)隨機抽樣原理,列舉了最小二乘的漸進隨機算法及其低秩矩陣的應(yīng)用問題,并且給出了杠桿分數(shù)(Leverage Score)在大規(guī)模數(shù)據(jù)分析中的應(yīng)用。Meng(2013)[13]在類似算法的基礎(chǔ)上研究了更廣泛的lp回歸的近似估計算法,提出了l1、l2和lp回歸的低秩矩陣嵌入算法,使最優(yōu)算法的時間復(fù)雜度大幅下降。Drineas(2011)[14]針對最小二乘逼近問題給出了大規(guī)模矩陣Leverage分數(shù)的近似隨機算法,降低了算法的時間復(fù)雜度,縮短了實際計算時間。該研究針對最小二乘逼近問題提出了基于投影的隨機化算法,即對回歸元和回歸子執(zhí)行投影,并乘上稀疏矩陣,據(jù)此矩陣得出Leverage分數(shù)。該算法通過從預(yù)處理問題中均勻地隨機取樣少量的約束,構(gòu)造一個更小約束問題,以精確計算逼近最小l2解向量的相對誤差。相對于過約束的最小二乘問題,該方法比現(xiàn)有的精確算法更為快速。Papailiopoulos等(2014)[15]采用類似主成分分析的方法,使用右奇異矩陣抽取矩陣最佳列,為確定性杠桿抽樣算法找到了合適的漸進誤差邊界,并證明了杠桿分數(shù)分布若服從冪律衰減,則確定性杠桿抽樣算法相較于隨機替代的性質(zhì)相近甚至更好。

    從統(tǒng)計的角度來看,Leverage重要性抽樣具有優(yōu)良的統(tǒng)計性質(zhì)。Ma(2015)[5]針對線性模型和最小二乘問題提出了大數(shù)據(jù)杠桿回歸方法,杠桿得分被認為是反映第i個觀測值對最小二乘估計量有多大影響的最重要的指標,杠桿得分越接近于1,說明第i個擬合值與真實值越接近?;谠摲椒ǖ募訖?quán)杠桿子抽樣算法和無加權(quán)杠桿子抽樣算法,均使用子抽樣框進行估計。使用真實數(shù)據(jù)集進行Leverage抽樣,使得計算運行時間有效縮短。Ma(2015)[16]從統(tǒng)計理論的角度解釋了Leverage重要性抽樣原理,即將因變量投影到數(shù)據(jù)集列向量張成的空間中,給出正交投影,構(gòu)造了對稱的冪等矩陣。該矩陣的對角線元素即為對應(yīng)觀測個體的杠桿分數(shù),杠桿分數(shù)越高,該觀測點就越重要,對估計結(jié)果的影響也越大。因此,利用杠杠分數(shù)定義采樣概率和分配權(quán)重的矩陣可以求解加權(quán)LS估計,得到兩種變異的杠桿重抽樣方法,并通過壓縮杠桿和均勻分布的凸組合重新調(diào)整權(quán)重。利用數(shù)值模擬的方法以及三個杠桿得分分布不同的標準分布數(shù)據(jù)集,可以證實Leverage重要性抽樣的可行性和有效性,即與均勻抽樣相比,基于杠桿的抽樣提供了一致的、更優(yōu)的算法結(jié)果,杠桿算法以及兩種改進的杠桿算法都有很好的預(yù)測表現(xiàn)。相比于最小二乘法和Mahoney(2011)[12]的低秩近似等算法,該方法更為穩(wěn)定、有效。然而,Ma等(2015)[16]提出的Leverage重要性抽樣方法忽略了數(shù)據(jù)內(nèi)因變量對數(shù)據(jù)重要性的影響以及大數(shù)據(jù)來源的異質(zhì)性,而直接利用XTX的計算結(jié)果會導(dǎo)致協(xié)方差矩陣出現(xiàn)估計偏差,同時也會使杠桿分數(shù)的設(shè)定出現(xiàn)偏差。當數(shù)據(jù)自變量方差很大時,逆矩陣的估計也會出現(xiàn)較大偏差,從而影響最終的抽樣估計結(jié)果,降低估計的有效性?;诖耍乩诘龋?016)[6]提出純凈子集選擇法和聚類多數(shù)選擇法,以避免數(shù)據(jù)異質(zhì)性所導(dǎo)致的協(xié)方差高估,解決某些重要影響點的杠桿分數(shù)未能計入樣本的問題。兩種改進方法都是基于數(shù)據(jù)點相對于數(shù)據(jù)集整體位置的視角,尋找更稠密的子集,并利用該子集中的數(shù)據(jù)估計協(xié)方差矩陣XTX及其逆矩陣。數(shù)值模擬結(jié)果表明,改進的杠桿方法比Ma等(2015)[16]的方法有著更高的精度,而且對具有異質(zhì)性的數(shù)據(jù)集仍有較好的表現(xiàn)。針對樣本容量小、變量個數(shù)多的高維數(shù)據(jù),秦磊等(2020)[7]提出基于充分降維的Leverage抽樣方法,加入對樣本因變量的考量,以不損失信息為前提,在充分降維的空間內(nèi)修正計算Leverage分數(shù),重新抽樣重要的觀測點,以解決維度較大情形下對樣本間杠桿分數(shù)沒有區(qū)分度的問題,有效降低均方誤差,改善估計結(jié)果。晏振等(2016)[17]研究了基于杠桿值抽樣的回歸模型異常點診斷問題,對數(shù)據(jù)刪除模型和均值漂移模型進行了統(tǒng)計診斷,通過診斷統(tǒng)計量探查出異常值,并提出杠桿抽樣的后續(xù)研究問題是如何選取適當?shù)某闃臃椒ǎ员苊猱惓|c對回歸估計產(chǎn)生影響。Derezinski等(2018)[18]采用一種基于行列式拒絕抽樣的杠桿式體積抽樣,進行無偏估計,通過引入杠桿分數(shù)使該方法獲得一個較好的尾界,并提出重定體積抽樣組合學和相關(guān)隨機矩陣總和的尾界。梁晉雯(2020)[19]使用數(shù)據(jù)刪除模型和均值漂移模型對抽樣后的樣本進行異常點診斷,并提出樣本的自適應(yīng)選擇方法。Agarwal(2020)[20]將杠桿抽樣法與鄰近點選擇法、加速坐標下降法相結(jié)合,使最小二乘回歸計算的時間復(fù)雜度大幅下降,提升了ERM算法的運行邊界時間。

    杠桿抽樣雖然能夠解決不同樣本點的推斷權(quán)重問題,但在實際應(yīng)用中該方法可能會對強影響點作出誤判,抽樣設(shè)計在某種程度上需要與多項內(nèi)容、多種方法相互配合(趙俊康,1993)[21]。強影響點具有高殘差的特性,其可利用異常點診斷方法,如學生化外殘差、庫克距離、DFFITS等進行識別。由于大數(shù)據(jù)具有“規(guī)模龐大、價值密度低”的特性,杠桿抽樣應(yīng)結(jié)合聚類分析,以降低大數(shù)據(jù)自身特性所帶來的高時間復(fù)雜度。

    三、杠桿抽樣方法及強影響點混淆問題

    (一)杠桿抽樣方法

    杠桿抽樣方法作為一種可應(yīng)用于大數(shù)據(jù)場景的抽樣算法,其核心在于構(gòu)建杠桿矩陣。對于經(jīng)典的多元線性回歸模型y=Xβ+ε,利用最小二乘法估計可以得到如式(1)所示的回歸擬合值,X為樣本設(shè)計矩陣。式(1)中的因變量y左乘一個矩陣可以得到擬合值y’,該左乘矩陣即為杠桿矩陣H(吳喜之、田茂再,2003)[22]。

    其中,杠桿矩陣H的第i個對角元素為hii=xTi(XTX)-1xi,hii也就是第i個樣本的杠桿得分,反映了樣本點對回歸的貢獻度。杠桿得分越高,說明該樣本點對回歸估計的貢獻度就越高,相應(yīng)的杠桿點也越重要。估計的擬合殘差可以表示為式(2),說明杠桿矩陣的計算與殘差有著密切的關(guān)系。假設(shè)線性模型中包含截距項,樣本規(guī)模為n,則樣本設(shè)計矩陣可以寫為X’=[1n┆X],其第一列元素均為常數(shù)1。按照定義,第i個樣本點杠桿得分hii的計算如式(3)所示:

    將增廣矩陣X’以分塊矩陣的形式代入式(3)中,根據(jù)分塊矩陣的計算規(guī)則(吳喜之、田茂再,2003)[22],我們可以將杠桿得分轉(zhuǎn)化為式(4)的形式:

    其中,xi為第i個樣本的觀測值,x’為樣本均值向量,X*=[(x1-x’)(x2-x’)…(xn-x’)]T是設(shè)計矩陣的中心化矩陣。式(4)中的第二項表示在自變量空間中第i個樣本點xi到樣本中心x’的馬氏距離(Mahalanobis,1936)[23],樣本點越遠離樣本中心,馬氏距離就越大,杠桿得分hii也越高,這種樣本點一般被稱為高杠桿點。相對于低杠桿點,高杠桿點對回歸系數(shù)的最小二乘估計結(jié)果將產(chǎn)生更大的影響。

    由杠桿抽樣方法的思路可知,其本質(zhì)上是一種無放回的不等概率抽樣方法(Ma et al.,2015)[5]。該方法按照杠桿矩陣設(shè)定概率分布,非均勻地選擇數(shù)據(jù)子樣本,并要求所選樣本數(shù)據(jù)的規(guī)模n遠大于數(shù)據(jù)的維度p,且不再需要其他假定條件。實際操作可以根據(jù)待抽樣數(shù)據(jù)集D的設(shè)計矩陣X,計算杠桿矩陣H,將對角線上的第i個元素hii分配給相應(yīng)的第i個樣本,分配各樣本的入樣概率為πl(wèi)iev=hii/∑hii(i=1,2,…,n)。由此可見,杠桿得分高的點具有更大的入樣概率。我們依照概率分布{πl(wèi)iev}(i=1,2,…,n),以抽樣比例f進行無放回隨機抽樣,將抽取的f×n個樣本組成抽樣子集Slev。

    (二)杠桿抽樣混淆強影響點的問題

    杠桿抽樣方法傾向于抽取對回歸貢獻度高的高杠桿得分點,但某些高杠桿得分點可能偏離模型,這些點的入樣概率高于一般點,且會影響回歸估計的精度,這些既有高杠桿得分,又表現(xiàn)為離群點的樣本被稱為強影響點(劉洪、黃燕,2009)[24]。根據(jù)線性回歸診斷研究領(lǐng)域已有的定義(吳喜之、田茂再,2003)[22],按照是否為離群點、是否為高杠桿點,樣本點可以分為四類,如表1所示。

    表1 樣本點的四種分類情況

    為進一步探討強影響點的問題,本文以一元線性模型y=Xβ+ε為例解釋四種樣本類型,如圖1所示。

    圖1 四類樣本點

    1.無異常點(Normal Points)。當樣本點距離樣本中心較近,且其擬合殘差較小時,該樣本點為無異常點。這種類型的點基本上符合線性模型,且不會對擬合直線產(chǎn)生較大影響,其對估計的貢獻度也較小。

    2.離群點(Outliers)。當樣本點雖距離樣本中心較近,但其擬合殘差絕對值較大時,該樣本點即為離群點。在實踐中,樣本點是否為離群點可以利用學生化殘差分析等方法來判斷。這種類型的點雖然偏離線性模型,但其杠桿得分較低,不會對回歸直線產(chǎn)生較大的影響。

    3.高杠桿點(High Leverage Points)。當樣本點距離樣本中心較遠,且其擬合殘差較小時,該樣本點即為高杠桿點。這種類型的點對估計回歸直線的斜率有著較大的影響,且其基本符合真實的線性模型,說明優(yōu)先選擇高杠桿點可以提高抽樣效率。

    4.強影響點(Strong Influential Points),也稱為高杠桿離群點。當樣本點距離樣本中心較遠,且其擬合殘差較大時,該樣本點即為強影響點。這種類型的樣本點是抽樣過程中應(yīng)盡力排除的點,因為其一旦入樣,將在估計中產(chǎn)生很大的負面影響。

    偏離真實模型的離群點和強影響點會給回歸估計造成較大的影響,本文將這兩類點統(tǒng)稱為異常點。為了解釋杠桿抽樣對強影響點的混淆問題,本文通過模擬生成包含異常點的數(shù)據(jù)集D,以方便觀察D集內(nèi)強影響點的杠桿得分表現(xiàn),以及杠桿抽樣方法對強影響點的混淆問題。

    模擬數(shù)據(jù)集的設(shè)定思路如下:記待抽樣數(shù)據(jù)集為D=D0∪Ds,其中,D0為一般數(shù)據(jù)集,Ds為異常點集,數(shù)據(jù)集D的規(guī)模為n=n0∪ns,故D集內(nèi)異常點的比例為r=ns/n。設(shè)定D集的自變量x=[x1,x2,…,xn]T,因變量y=[y1,y2,…,yn]T,其中,xi服從正態(tài)分布N(0,1),yi依照模型(5)設(shè)定,擾動項為ε0~N(0,0.5),異常點擾動項為εs~N(μ,σ2)。為了簡便起見,本文設(shè)定真實參數(shù)β=1。

    當i屬于D0時,ε=ε0;當i屬于Ds時,ε=εs。改變Ds集的規(guī)模ns以及擾動項εs內(nèi)參數(shù)的設(shè)定,我們就可以得到不同類型異常點的待抽樣數(shù)據(jù)集(宗序平,1993)[25]:當εs~N(0,0.5)時,我們得到無異常點的數(shù)據(jù)集,此時εs=ε0;當εs~N(a,0.5),且a≠0時,異常點表現(xiàn)為均值擾動,漂移值為a;當εs~N(0,b),且b>1時,異常點表現(xiàn)為方差擾動;當εs~N(a,b),且a≠0,b>1時,異常點表現(xiàn)為均值和方差同時出現(xiàn)擾動,此分布更接近于實際問題中的一般異常點。

    本文依照上述設(shè)定生成一個數(shù)據(jù)集D,假定規(guī)模n=200,異常點比例r=10%,按照上述四種類型分別設(shè)定數(shù)據(jù)集D內(nèi)的異常點擾動項,形成四個數(shù)據(jù)集D1、D2、D3、D4,同時設(shè)定漂移值a=2,方差擾動值b=5。本文分別計算各數(shù)據(jù)集的杠桿矩陣,將每個樣本按照其杠桿得分值從大到小進行排列,并選定杠桿得分靠前的10個樣本點,如圖2所示。不難看出,高杠桿得分點均位于遠離數(shù)據(jù)中心的邊緣區(qū)域,且在存在異常點時,數(shù)據(jù)集內(nèi)杠桿得分排在前10%的點集中均存在強影響點。由于杠桿得分決定入樣概率,這些強影響點將有極高的概率被杠桿抽樣的運行體系選中(Ma et al.,2015)[5]。

    圖2 四種異常點情況下的高杠桿得分點

    (三)強影響點對回歸估計的影響

    杠桿抽樣傾向于抽取高杠桿得分點,這些點對回歸結(jié)果的貢獻更大,抽樣子集的回歸估計結(jié)果在大多數(shù)情況下表現(xiàn)良好。但是,當參與回歸估計的抽樣子集中存在強影響點時,估計的精度就會大幅度下降。其原因在于,強影響點具有較大的擬合殘差,且其本身也是一個高杠桿得分點,對估計的貢獻度較大,故該點會極大地影響擬合直線,進而影響回歸結(jié)果。本文以數(shù)據(jù)集D為例考察杠桿抽樣方法,即針對四種異常點情況的數(shù)據(jù)集D1、D2、D3、D4分別采用杠桿抽樣方法,以抽樣比例f=10%抽取樣本子集,畫出由抽樣子集經(jīng)最小二乘法估計得到的擬合直線y=x×βhat,并在樣本分布散點圖中畫出真實曲線,對兩線進行比較分析,如圖3所示。

    圖3 四種異常情況下杠桿抽樣子集的回歸擬合

    從圖3中可以看出,當抽樣子集中存在強影響點時,擬合直線會大幅度偏離真實線性模型,估計結(jié)果也存在非常大的偏差。綜上所述,杠桿抽樣方法在實際應(yīng)用中面臨強影響點混淆問題,而強影響點會給回歸估計帶來較大的負面影響。需要說明的是,這里的數(shù)據(jù)集D1、D2、D3、D4僅為無數(shù)種包含強影響點的異常數(shù)據(jù)集代表,而杠桿抽樣傾向于抽取強影響點的特性是普遍存在的,強影響點一旦進入估計子集,將對估計帶來非常大的負面影響。鑒于強影響點本身既是高杠桿點又是離群點,而利用異常點診斷方法可以去除包含強影響點在內(nèi)的異常點集,本文提出一種結(jié)合異常點診斷的杠桿抽樣算法。

    四、結(jié)合異常點診斷的杠桿抽樣算法

    本文基于密度聚類思想提出一種結(jié)合異常點診斷的新的杠桿抽樣算法,其主要步驟可概括為:第一步是采用聚類方法降低數(shù)據(jù)規(guī)模,第二步是采用異常點診斷去除強影響點,第三步是通過杠桿抽樣獲得待估子集。首先,傳統(tǒng)的異常點診斷算法包含遍歷性思想,而大數(shù)據(jù)所具有的“大規(guī)模”特性,使得傳統(tǒng)算法的時間復(fù)雜度提高,、運行時間延長,無法直接將小樣本的診斷方法直接應(yīng)用于大數(shù)據(jù)集,需要引入一種基于密度的聚類方法降低大數(shù)據(jù)集的復(fù)雜度。其次,強影響點本質(zhì)上是高杠桿得分情況下的離群點,其仍可采用傳統(tǒng)的異常點(離群點)診斷方法進行識別。再次,采用杠桿抽樣方法抽取對回歸貢獻度較高的待估子集,可以進一步提高估計的精度。

    (一)基于密度的聚類方法DBSCAN

    大數(shù)據(jù)的突出特點之一是“規(guī)模龐大”,而在分析中采用聚類方法可以降低數(shù)據(jù)規(guī)模。目前,主流的聚類方法包括基于距離的K-Means聚類法、基于層次的BIRCH聚類法以及基于密度的DBSCAN聚類法、均值漂移聚類法等多種成熟算法。在大規(guī)模數(shù)據(jù)集的情境下,要想解決算法復(fù)雜度過高的問題,就要避免依賴大量距離計算的聚類方法(如K-Means),故本文采用DBSCAN聚類方法(Density-Based Spatial Clustering of Applications with Noise)(Ester et al.,1996)[26]。該方法是經(jīng)典的基于密度的聚類算法,具有速度快、精準度高、不需事前確定簇分類數(shù)等優(yōu)點。DBSCAN將類定義為密度相連點的最大集合,類的劃分是基于空間內(nèi)數(shù)據(jù)分布的密度情況,故可以發(fā)現(xiàn)任意形狀的聚類,且其最主要的用途就是發(fā)現(xiàn)數(shù)據(jù)空間內(nèi)的噪聲點,這正契合本文的異常點診斷需求。當樣本中出現(xiàn)與絕大多數(shù)數(shù)據(jù)點分布情況相悖的異常點時,使用基于密度的分類方法就可以準確地將異常點與非異常點劃分至不同的類別。

    DBSCAN算法的具體步驟如下:(1)利用k-距離曲線方法和指導(dǎo)性原則計算參數(shù)掃描半徑(簡記為eps)和最小包含點數(shù)(簡記為minpts),選擇數(shù)據(jù)集D內(nèi)尚未被分類的點P,如果P未被歸為某類或者被標記為噪聲,則檢查以P為中心、半徑為eps的鄰域,當鄰域內(nèi)包含的對象數(shù)不小于minpts時,建立新類C,將鄰域內(nèi)所有點加入候選類M,若P的鄰域內(nèi)包含的對象數(shù)小于minpts,則標記P點為噪聲點;(2)選取候選類M中所有尚未被處理的樣本點Q,檢查Q點的鄰域,若其中至少包含minpts個樣本,則將這些樣本加入到候選類M中,如果Q還未歸入任何一個簇,則將Q加入到類C中;(3)重復(fù)步驟(2),繼續(xù)檢查M中未處理的對象,直至當前候選集M為空集;(4)重復(fù)步驟(1)至(3),直到所有對象都被歸入某個類中或被標記為噪聲。

    初始參數(shù)eps的值可用繪制k-距離曲線的方法來設(shè)定(Ester et al.,1996)[26],曲線圖的明顯拐點處即為相對較優(yōu)的eps參數(shù),且其遵循掃描半徑不小于樣本維度的原則,即minpts>p(p表示樣本維度)。若掃描半徑取值過小,樣本空間內(nèi)的稀疏性將導(dǎo)致多數(shù)點被判斷為邊界點,類無法擴展;若取值過大,絕大多數(shù)點就可能被歸為同一類。既有文獻對DBSCAN算法及相關(guān)參數(shù)設(shè)定已經(jīng)進行了較為詳細的論述(Sander et al.,1998)[27],這里不再贅述。

    (二)異常點診斷

    本文利用異常點診斷去除包含強影響點的異常點集,該步驟選用的是傳統(tǒng)回歸分析中的三種主流方法:學生化外殘差、庫克距離和DFFITS。本文首先對這三種診斷方法的基本原理進行闡述,然后在數(shù)值模擬中分別使用這三種方法,并對算法效果進行比較分析。

    1.學生化外殘差。學生化外殘差也稱為學生化刪除殘差,是在對普通殘差進行標準化處理后得到。相比于學生化內(nèi)殘差,學生化外殘差排除了樣本自身殘差的影響,可稱為刪除殘差。學生化外殘差的計算方法如式(6)所示:

    其中,e*i表示第i個樣本的學生化外殘差,ei表示第i個樣本的殘差,σ’(i)表示去除第i個樣本后所得殘差的方差,hii為杠桿矩陣對角線上的第i個元素,k為待診斷樣本集的規(guī)模。我們在計算時不必對全部樣本都計算殘差,對樣本集內(nèi)的第i個樣本可以直接利用式(7)計算學生化外殘差(陶靖軒,1986)[28]。

    其中,p是樣本維數(shù),SSE表示擬合數(shù)據(jù)和原始數(shù)據(jù)對應(yīng)點的誤差的平方和,e*i是t檢驗統(tǒng)計量(其服從t(k-p-1)分布,通過t檢驗可以判斷樣本點是否為異常點)。

    2.庫克距離。該方法是回歸分析中的一種常用方法(Cook,1982)[29],利用距離函數(shù)可以診斷回歸分析中是否存在異常數(shù)據(jù)。庫克距離的計算方法如式(8)所示:

    其中,Di表示第i個樣本點的庫克距離,yi和yi’分別表示第i個樣本的真實值和擬合值,MSE為擬合的均方誤差,hii為杠桿矩陣的第i個對角線元素。利用庫克距離判斷異常點一般采用如下標準:當0.5

    3.DFFITS方法。該方法同樣結(jié)合了第i個樣本點在回歸中的殘差及杠桿得分表現(xiàn)(Patterson et al.,1981)[26],計算方法如式(9)所示,其分子反映了第i個樣本點在參與或不參與回歸時擬合值的差異,分母反映了第i個樣本點為回歸擬合所帶來的差異的標準差。可見,DFFITS方法實際上是量化了省略第i個數(shù)據(jù)點對回歸產(chǎn)生的差異的標準差。

    一般來說,當某樣本點的DFFITS值超過臨界2[(p+1)/(n-p-1)]1/2值時,該樣本點可視為異常點。

    上述學生化外殘差、庫克距離及DFFITS方法均涉及到擬合值的計算,且刪除殘差等需要反復(fù)計算,這就使得算法具有較高的時間復(fù)雜度,尤其是在大規(guī)模數(shù)據(jù)集的計算中,這種直接計算的方法會面臨計算時間冗長、復(fù)雜度高等問題。因此,當小數(shù)據(jù)集診斷方法應(yīng)用到大數(shù)據(jù)集時,我們需要結(jié)合大數(shù)據(jù)集的機器學習手段,利用聚類DBSCAN方法,將大規(guī)模數(shù)據(jù)集轉(zhuǎn)化為小規(guī)模數(shù)據(jù)集,再針對各類整體進行診斷。異常點診斷步驟是在DBSCAN聚類結(jié)果的基礎(chǔ)上,對各類質(zhì)心進行異常點診斷,以剔除可能包含強影響點的異常點集。

    (三)結(jié)合異常點診斷及DBSCAN聚類的杠桿抽樣算法

    針對杠桿抽樣方法在大規(guī)模數(shù)據(jù)應(yīng)用中存在的問題,本文提出結(jié)合DBSCAN聚類及異常點診斷的杠桿抽樣方法,該方法分為聚類、診斷和抽樣三個部分。

    1.聚類獲得樣本分類標簽。該步驟首先要讀取數(shù)據(jù)集DataSet(n×p維),然后調(diào)用DBSCAN算法進行數(shù)據(jù)集DataSet聚類,得到數(shù)據(jù)類標簽c。

    2.診斷剔除異常點集。該步驟首先要讀取待診斷數(shù)據(jù)集DataSet(n×p維),調(diào)用聚類方法進行數(shù)據(jù)集聚類,根據(jù)聚類結(jié)果c提取聚類質(zhì)心集合center(k×p維),然后根據(jù)輸入的診斷方法對質(zhì)心集內(nèi)數(shù)據(jù)進行異常點診斷,求出每個質(zhì)心的診斷值d,將診斷值d與該質(zhì)心所在的類集對應(yīng),并將診斷值d從小到大排序,設(shè)定診斷閾值s,取出前K個至少累計包含了s×n個樣本的類,將K個類內(nèi)的樣本合并為數(shù)據(jù)集Data。

    3.抽樣獲得待估抽樣子集。該步驟首先要讀取待抽樣的數(shù)據(jù)集Data(m×p維),當抽樣方法為均勻抽樣(uni)時,設(shè)定各點抽樣概率=1/m;當抽樣方法為杠桿抽樣(lev)時,計算待抽樣數(shù)據(jù)集Data的杠桿矩陣,取矩陣對角線元素hii分別與各樣本對應(yīng),計算各點抽樣概率πl(wèi)evi=hii/∑hii(i=1,2,…,m)。其次是設(shè)定抽樣比例f,根據(jù)上一步獲得的抽樣概率{πi}(i=1,2,…,m),調(diào)用無放回隨機概率抽樣方法,獲得抽樣后子集D。

    綜上所述,本文提出的基于密度聚類結(jié)合異常點診斷的杠桿抽樣方法的算法流程如圖4所示。

    圖4 本文算法的步驟和流程

    五、數(shù)值模擬及結(jié)果分析

    本文采用數(shù)值模擬的方法,利用Python進行編程,生成多種設(shè)定數(shù)據(jù)集,并利用不同算法的參數(shù),使用前文闡述的方法分別對模擬數(shù)據(jù)集進行抽樣,對子集采用最小二乘回歸估計,并重復(fù)若干次,以多次回歸估計結(jié)果的均方誤差及其標準差的平均值和平均運行時間,作為評價標準。

    本文生成的數(shù)據(jù)設(shè)定參考了Ma等(2015)[5]的研究,首先確定模型為多元線性模型y=Xβ+e,生成四種分布的數(shù)據(jù)集。(1)GA集。X設(shè)定為服從聯(lián)合正態(tài)分布N(1p,Σ),其中,協(xié)方差矩陣Σ中的元素Σij=2×0.5|i-j|。(2)T5集。X設(shè)定為服從自由度為5的T分布,協(xié)方差矩陣為Σ。(3)T3集。X設(shè)定為服從自由度為3的T分布,協(xié)方差矩陣同樣為Σ。(4)T1集。X設(shè)定為服從自由度為1的T分布,協(xié)方差矩陣依然為Σ。線性模型中擾動項的設(shè)定按照前文解釋的四種異常點情形分別進行設(shè)定:無異常點的情形為e0~N(0,In),均值擾動的情形為e1~N(μ,In),方差擾動的情形為e2~N(0,σ2In),均值和方差同時有擾動的情形為e3~N(μ,σ2In),異常點比例設(shè)定為r。根據(jù)既有文獻的思路(Ma et al.,2015)[5],即服從聯(lián)合正態(tài)分布的數(shù)據(jù)集內(nèi)個體具有幾乎一致的杠桿得分、服從T3分布的數(shù)據(jù)集內(nèi)杠桿得分較不一致、服從T1分布的數(shù)據(jù)集內(nèi)杠桿得分完全不一致,本文設(shè)定GA集、T3集和T1集進行對比分析。此外,本文另添加服從T5分布的數(shù)據(jù)集進行對比,以進一步檢驗本文算法的可行性??紤]到數(shù)據(jù)模擬中的參數(shù)較多、變化繁雜,本文主要采用控制變量的方法檢驗該方法在不同數(shù)據(jù)集和參數(shù)情境下的表現(xiàn)能力。數(shù)據(jù)集規(guī)模n=10 000,維數(shù)p=2,重復(fù)運行100次,本文取評價指標的均值進行展示。

    (一)算法的有效性檢驗

    四種數(shù)據(jù)集類型分別為聯(lián)合正態(tài)分布以及自由度等于5、3、1的T分布,四種異常點類型分別為無異常、均值擾動、方差擾動、均值和方差同時擾動。這里的異常點比例r=10%,算法內(nèi)閾值s取0.2,抽樣比例f設(shè)定為10%,同時設(shè)定μ=1,σ2=2。實驗結(jié)果如表2至表5所示。

    表2 不同分布下無異常點集的均方誤差MSE及運行時間time(秒)

    表4 不同分布下方差擾動異常集的均方誤差MSE及運行時間time(秒)

    表5 不同分布下均值和方差同時擾動異常集的均方誤差MSE及運行時間time(秒)

    (續(xù)表4)

    表2至表5的第三列均為不采用診斷的均勻抽樣方法,第四列為不采用診斷的杠桿抽樣方法??梢钥闯?,杠桿抽樣的均方誤差數(shù)據(jù)普遍高于均勻抽樣的均方誤差,這就印證了杠桿重要性抽樣可能混淆強影響點的問題,同時也說明,一旦數(shù)據(jù)集內(nèi)存在異常點,盲目地直接采用杠桿抽樣是很危險的,此時無論何種分布的數(shù)據(jù)集都會產(chǎn)生較大的均方誤差。因此,采用結(jié)合異常點診斷的抽樣算法是十分必要的。

    在診斷結(jié)合抽樣方法的分析中,我們以T5數(shù)據(jù)集的庫克距離診斷抽樣方法為例,將其與不采用診斷的均勻抽樣和杠桿抽樣進行對比可以發(fā)現(xiàn):當e=e1時,診斷后均勻抽樣的MSE較無診斷均勻抽樣的MSE縮小了31.4%,診斷后杠桿抽樣的MSE較無診斷杠桿抽樣的MSE縮小了41.0%;當e=e2時,診斷后均勻抽樣的MSE較無診斷均勻抽樣的MSE縮小了72.1%,診斷后杠桿抽樣的MSE較無診斷杠桿抽樣的MSE縮小了73.8%;當e=e3時,診斷后均勻抽樣的MSE較無診斷均勻抽樣的MSE縮小了73.6%,診斷后杠桿抽樣的MSE較無診斷杠桿抽樣的MSE縮小了64.0%。其他診斷和抽樣策略也有著同樣良好的改進效果,這里不再贅述。

    整體來看,本文提出的結(jié)合診斷的抽樣算法無論針對何種數(shù)據(jù)集及異常點類型,均有較好的表現(xiàn),且本文提出的結(jié)合異常點診斷的抽樣算法可以有效緩解杠桿抽樣偏好抽取某些強影響點的問題。從數(shù)據(jù)分布來看,杠桿值分布的均勻程度從小到大的排序為GA、T5、T3、T1,杠桿值分布越不均勻,對杠桿抽樣的影響就越大,且無論數(shù)據(jù)集的杠桿值分布均勻與否,本文的算法都有良好的效果。從異常點的分布情況來看,在異常點為方差擾動的情況下,異常點與非異常點的分布更難以區(qū)分,而本文的算法仍可以大幅剔除異常點,并獲得較為真實的抽樣子集,具有較好的均方誤差表現(xiàn)。此外,從診斷方法來看,無論是學生化外殘差、庫克距離還是DFFITS診斷方法,其都有較好的均方誤差表現(xiàn)。結(jié)合診斷的算法運行時間較無診斷的算法略有增加,但仍保持在同一量級內(nèi),故本文的方法可以應(yīng)用到真實數(shù)據(jù)的實際處理和操作中。

    (二)算法內(nèi)部邏輯性檢驗

    前文的數(shù)值模擬實驗結(jié)果驗證了本文算法的有效性,即在大規(guī)模數(shù)據(jù)集場景下,本文的算法具有有效性和可行性。至于算法主要步驟的順序是否會影響算法效果,本文將繼續(xù)進行檢驗。本文此前提出的算法邏輯是基于“先診斷后抽樣”的思想,旨在提前甄別并剔除異常點,再進行抽樣操作,這樣可以極大地降低異常點進入抽樣子集的可能性。這里,本文將檢驗另一個設(shè)計邏輯,即“先抽樣后診斷”的思想在算法的實踐中是否仍然可行,并與“先診斷后抽樣”算法得到的結(jié)果進行對比分析,以探究算法步驟順序?qū)λ惴ㄐЧ挠绊憽?/p>

    這里依然采用前文的16個數(shù)據(jù)集,將本文算法中的第二步“診斷”與第三步“抽樣”交換順序,除一些變量名稱的微小更改外,其他不作調(diào)整,如圖5所示。與前文一樣,異常點比例r=10%,算法內(nèi)閾值s取0.2,抽樣比例f設(shè)定為10%,同時設(shè)定μ=1,σ2=2,模擬結(jié)果如表6至表9所示。

    表9 不同分布下均值和方差同時擾動異常點集“先抽樣后診斷”的均方誤差MSE及運行時間time(秒)

    圖5 “先抽樣后診斷”算法的步驟和流程

    表6 不同分布下無異常點集“先抽樣后診斷”算法的均方誤差MSE及運行時間time(秒)

    表8 不同分布下方差擾動異常點集“先抽樣后診斷”算法的均方誤差MSE及運行時間time(秒)

    從表6至表9的結(jié)果來看,遵循“先抽樣后診斷”思想的算法同樣具有剔除異常點、獲取真實數(shù)據(jù)集、降低回歸中的均方誤差等良好表現(xiàn)。對比表2與表6、表3與表7可以看出,調(diào)換順序的算法雖然有效,但其相較于原邏輯算法的表現(xiàn)稍差一些。以T3數(shù)據(jù)集均值和方差同時擾動的異常點庫克距離診斷方法為例(表5和表9),在“先診斷”時,診斷后均勻抽樣的MSE較無診斷均勻抽樣的MSE縮小了51.7%,診斷后杠桿抽樣的MSE較無診斷杠桿抽樣的MSE縮小了73.9%,而在“先抽樣”時,診斷后均勻抽樣的MSE較無診斷均勻抽樣的MSE反而增大了9.0%,診斷后杠桿抽樣的MSE較無診斷杠桿抽樣的均方誤差僅縮小了33.7%??梢姡跋瘸闃印钡倪壿嬍沟盟惴ǖ挠行源蟠蛘劭?。其他診斷和抽樣策略的邏輯性也是如此,這里不再贅述。

    表3 不同分布下均值擾動異常集的均方誤差MSE及運行時間time(秒)

    表7 不同分布下均值擾動異常點集“先抽樣后診斷”算法的均方誤差MSE及運行時間time(秒)

    “先抽樣”相比于“先診斷”的算法效果更差,這主要是因為先進行的抽樣操作增大了強影響點進入抽樣子集的概率,尤其是杠桿抽樣更偏好抽取強影響點,而基于密度的聚類方法又將某些強影響點聚類并與接近該點的真實樣本歸為一類,這樣就會使一些異常點逃出診斷過程而進入子集,對回歸結(jié)果產(chǎn)生不良影響。因此,本文提出的算法采用“先診斷后抽樣”的策略是具有邏輯性且有良好改進效果的抽樣算法。

    (三)算法內(nèi)閾值s的設(shè)定問題

    前文已經(jīng)證實結(jié)合異常點診斷的抽樣算法具有有效性和邏輯性,由于本文算法的輸入?yún)?shù)中包含人為設(shè)定的算法閾值s,為探究算法內(nèi)人為設(shè)定的診斷閾值是否會對算法結(jié)果產(chǎn)生影響,這里還要進行更改閾值s的數(shù)值模擬實驗。診斷過程利用三種手段測算數(shù)據(jù)異常表現(xiàn),并將數(shù)據(jù)點按照其可能為異常點的概率由小到大進行排列,保留前s×n個數(shù)據(jù)點。其中,s代表算法對異常點診斷的信任程度,s越大,則算法對異常點的保留越寬容,s越小,則算法對異常點的診斷越嚴苛。這里設(shè)定異常點比例r=10%,抽樣比例f為10%,同時設(shè)定μ=1,σ2=2,算法內(nèi)閾值s分別選取0.1、0.2、0.4、0.6、0.8,并比較回歸MSE。為節(jié)省篇幅,這里僅列舉T3數(shù)據(jù)集的結(jié)果,即異常點形式為均值和方差同時擾動(e=e3),結(jié)果如表10所示。

    表10 不同算法閾值s下T3分布e3集的估計均方誤差

    從表中可以看出,當閾值s≤0.6時,本文提出的算法具有較好的改進效果,相對于無診斷算法MSE平均降低了72.2%,其中,均勻抽樣算法的MSE降低了70.1%,杠桿抽樣算法的MSE降低了74.1%。當s=0.8時,本文提出的算法仍具有改進效果,但改進效果變差,相對于無診斷算法MSE平均僅降低了45.1%,其中,均勻抽樣算法的MSE降低了40.6%,杠桿抽樣算法的MSE降低了49.6%。因此,本文算法的閾值s取值不宜超過0.6,否則改進效果會被削弱。

    (四)數(shù)據(jù)集內(nèi)異常點的比例

    本文還探討了數(shù)據(jù)集異常點比例r變化對算法改進效果的影響。算法內(nèi)閾值s設(shè)定為0.2,抽樣比例f設(shè)定為10%,同時設(shè)定μ=1,σ2=2。分別設(shè)定異常點比例r=1%、5%、10%,e=e3的T3數(shù)據(jù)集結(jié)果如表11所示??梢钥闯?,當異常點比例r=10%時,改進算法相對于無診斷算法的MSE平均降低了67.4%;當r=5%時,改進算法相對于無診斷算法的MSE平均降低了42.6%;當r=10%時,改進算法相對于無診斷算法的MSE平均降低了49.8%。該結(jié)果說明,即使異常點比例非常小,本文的算法依然可以大幅提高回歸的MSE結(jié)果,準確識別數(shù)據(jù)集內(nèi)少量的異常點,提高估計精度。

    表11 不同異常點比例r下T3分布e3集的均方誤差表現(xiàn)

    (五)真實數(shù)據(jù)集分析舉例

    本節(jié)利用一個實際的經(jīng)濟社會例子,驗證本文算法的可行性。本文選用StatLib數(shù)據(jù)庫的house數(shù)據(jù)集(http://lib.stat.cmu.edu/datasets/),其來自于1990年加利福尼亞州人口普查結(jié)果。該數(shù)據(jù)集首次應(yīng)用于Pace和Barry(1997)[31]對稀疏空間自回歸問題的研究,并由Pace提交至StatLib數(shù)據(jù)庫。該數(shù)據(jù)集內(nèi)包含20 640個加利福尼亞州調(diào)查小組,每個調(diào)查組內(nèi)平均有1 425.5個居民,每個小組匯報一個調(diào)查范圍內(nèi)房產(chǎn)價格的觀察結(jié)果,同時匯報調(diào)查范圍內(nèi)各項經(jīng)濟社會評價指標,最終構(gòu)成的線性模型如式(10)所示(Pace and Barry,1997)[31]。其中,因變量為調(diào)查范圍內(nèi)房產(chǎn)價格中位數(shù)(Median Value)的對數(shù),自變量包含8個經(jīng)濟變量,分別為調(diào)查范圍內(nèi)的居民收入中位數(shù)(Median Income)、居民收入中位數(shù)的平方、居民收入中位數(shù)的三次方、居民年齡中位數(shù)(Median(Age))的對數(shù)、全部房間數(shù)與人口比值(Total Rooms/Population)的對數(shù)、全部臥室數(shù)與人口比值(Bedrooms/Population)的對數(shù)、平均家庭規(guī)模(Population/Households)的對數(shù)、總家庭戶數(shù)(Households)的對數(shù)?;貧w結(jié)果顯示,模型全部變量的p值均小于或等于0.05,本文僅以Pace和Barry(1997)[31]的結(jié)果作為參照,以比較不同抽樣方法的效果。

    為了進行對比分析,本文直接對總體(共20 460個觀測值)進行最小二乘回歸估計,得到估計系數(shù)。為了反映實際調(diào)查中可能出現(xiàn)的異常問題,本文從總體20 460個觀測值中隨機抽取2%的觀測值,將其房產(chǎn)價格降至真實值的1‰,用以模擬數(shù)據(jù)收集過程中因人為失誤等而產(chǎn)生的異常數(shù)據(jù)。對于存在異常的總體數(shù)據(jù),本文分別采用均勻抽樣、普通杠桿抽樣結(jié)合異常點診斷的杠桿抽樣方法進行抽樣(只給出學生化外殘差診斷,其余方法效果類似),抽樣比例f為10%,算法內(nèi)閾值s取0.6,最后對抽樣子集進行最小二乘回歸估計,計算估計系數(shù)和均方誤差,結(jié)果如表12所示。

    由表12的結(jié)果可知,在存在數(shù)據(jù)異常的真實數(shù)據(jù)集分析中,本文的算法仍然具有可行性,相較于無異常診斷的均勻抽樣和普通杠桿抽樣方法,利用結(jié)合異常點診斷的杠桿抽樣方法獲得的子集更接近總體數(shù)據(jù)集的特性,對該子集的最小二乘估計結(jié)果更接近總體數(shù)據(jù)集的回歸結(jié)果,估計的均方誤差也更小。

    六、結(jié)論與展望

    針對杠桿抽樣方法在大規(guī)模數(shù)據(jù)的實際應(yīng)用中存在偏好抽取強影響點導(dǎo)致估計精度降低的問題,本文提出了結(jié)合異常點診斷方法的杠桿抽樣方法。異常點診斷方法結(jié)合了學生化外殘差、庫克距離和DFFITS三種傳統(tǒng)異常點診斷指標以及基于密度的DBSCAN聚類方法。一方面,聚類方法使得大規(guī)模數(shù)據(jù)中的異常點得以準確、快速的識別;另一方面,沿用小數(shù)據(jù)診斷技術(shù)可以向大數(shù)據(jù)應(yīng)用發(fā)展,異常點診斷能夠彌補杠桿抽樣在異常點數(shù)據(jù)集應(yīng)用中的不足。數(shù)據(jù)模擬結(jié)果顯示,本文提出的結(jié)合異常點診斷的抽樣方法在多種分布類型的數(shù)據(jù)集中均有良好的表現(xiàn),可以使回歸估計的MSE大幅降低,即結(jié)合異常點診斷的杠桿抽樣方法優(yōu)于均勻抽樣等抽樣策略。同時,本文檢驗了“先診斷后抽樣”這一算法邏輯的有效性,當算法閾值s低于0.6時即可獲得非常好的效果,本文的算法對極少異常點的數(shù)據(jù)集也有效。在存在異常數(shù)據(jù)的真實數(shù)據(jù)集分析中,本文的算法相較于均勻抽樣和普通杠桿抽樣獲得了更接近總體的估計結(jié)果和更小的均方誤差,說明結(jié)合異常點診斷的杠桿抽樣在真實數(shù)據(jù)分析環(huán)境中仍然能夠發(fā)揮優(yōu)勢,算法具有可行性。

    本文的研究側(cè)重于改進杠桿抽樣方法的缺陷,其中采用的DBSCAN聚類方法只是眾多基于密度聚類方法中的一種,而其他聚類方法是否更為有效仍需進行進一步的驗證。此外,本文提出的方法是基于已有的杠桿抽樣方法,即算法只能應(yīng)用于線性回歸模型中。至于本文提出的結(jié)合異常點診斷的杠桿抽樣在其他非線性模型中是否適用,仍有待今后進行進一步的研究。

    未來大數(shù)據(jù)研究面臨的主要問題是如何將已有的小數(shù)據(jù)處理技術(shù)拓展至大數(shù)據(jù)方向,以形成大數(shù)據(jù)獨有的統(tǒng)計思想和估計方法。在大數(shù)據(jù)的處理過程中,統(tǒng)計學知識仍然適用,但大數(shù)據(jù)自身的特征,即“4V”特征也應(yīng)考慮進去。其中,“大體量”“高維度”兩個最主要的特征將給某些采用遍歷算法的分析技術(shù)帶來挑戰(zhàn),同時,高維數(shù)據(jù)面臨維數(shù)災(zāi)難,高維稀疏空間對計算機的計算和儲存能力也提出不小的挑戰(zhàn)。未來的大數(shù)據(jù)抽樣應(yīng)該降低對數(shù)據(jù)“精準”的要求,采用一些“模糊”的思想,在不影響整體特征的情況下,降低大數(shù)據(jù)的復(fù)雜度以及數(shù)據(jù)分析的難度,以考察大數(shù)據(jù)整體的特征。

    猜你喜歡
    影響方法
    是什么影響了滑動摩擦力的大小
    哪些顧慮影響擔當?
    當代陜西(2021年2期)2021-03-29 07:41:24
    學習方法
    沒錯,痛經(jīng)有時也會影響懷孕
    媽媽寶寶(2017年3期)2017-02-21 01:22:28
    可能是方法不對
    擴鏈劑聯(lián)用對PETG擴鏈反應(yīng)與流變性能的影響
    中國塑料(2016年3期)2016-06-15 20:30:00
    基于Simulink的跟蹤干擾對跳頻通信的影響
    用對方法才能瘦
    Coco薇(2016年2期)2016-03-22 02:42:52
    四大方法 教你不再“坐以待病”!
    Coco薇(2015年1期)2015-08-13 02:47:34
    賺錢方法
    不卡av一区二区三区| 国产99白浆流出| 亚洲全国av大片| 一区二区日韩欧美中文字幕| 丝袜美腿诱惑在线| 国产欧美日韩综合在线一区二区| 高清在线国产一区| 下体分泌物呈黄色| 一区福利在线观看| 黄频高清免费视频| 久久久精品国产亚洲av高清涩受| 黄色怎么调成土黄色| 老熟妇乱子伦视频在线观看| 精品视频人人做人人爽| 亚洲国产欧美一区二区综合| 国产精品欧美亚洲77777| 国产在视频线精品| 丝瓜视频免费看黄片| www.999成人在线观看| 1024视频免费在线观看| 高清在线国产一区| 建设人人有责人人尽责人人享有的| 国产精品影院久久| 国产男女超爽视频在线观看| aaaaa片日本免费| 国产激情欧美一区二区| ponron亚洲| 人人妻人人爽人人添夜夜欢视频| 午夜精品在线福利| 亚洲色图综合在线观看| 一进一出抽搐gif免费好疼 | 男人操女人黄网站| 超碰成人久久| 一进一出抽搐gif免费好疼 | 国产极品粉嫩免费观看在线| 热re99久久国产66热| 18禁观看日本| 露出奶头的视频| 午夜精品久久久久久毛片777| 国产aⅴ精品一区二区三区波| 手机成人av网站| tube8黄色片| 亚洲性夜色夜夜综合| 免费在线观看黄色视频的| 久久人人爽av亚洲精品天堂| 欧美亚洲日本最大视频资源| 久久久久精品人妻al黑| 欧美乱妇无乱码| 两个人看的免费小视频| 久久婷婷成人综合色麻豆| 黄片小视频在线播放| 中亚洲国语对白在线视频| 成熟少妇高潮喷水视频| 女同久久另类99精品国产91| 国产精品二区激情视频| 午夜精品久久久久久毛片777| 91老司机精品| 亚洲欧美激情在线| 热99久久久久精品小说推荐| 国产精品成人在线| 一级毛片高清免费大全| 午夜福利视频在线观看免费| 久久久久久久精品吃奶| 美国免费a级毛片| 纯流量卡能插随身wifi吗| 天堂√8在线中文| 男人操女人黄网站| 99久久99久久久精品蜜桃| 久久精品亚洲熟妇少妇任你| 中文字幕高清在线视频| 日日夜夜操网爽| 咕卡用的链子| 激情在线观看视频在线高清 | 国产精品av久久久久免费| 黑丝袜美女国产一区| 一级,二级,三级黄色视频| 男人操女人黄网站| 亚洲成国产人片在线观看| 大码成人一级视频| 9色porny在线观看| 韩国av一区二区三区四区| 女同久久另类99精品国产91| 村上凉子中文字幕在线| 国产在线一区二区三区精| 亚洲第一青青草原| 亚洲九九香蕉| 成人三级做爰电影| 亚洲精品成人av观看孕妇| 91麻豆精品激情在线观看国产 | 国产aⅴ精品一区二区三区波| 久久香蕉精品热| 亚洲男人天堂网一区| 久久午夜亚洲精品久久| 丝袜美足系列| 欧美在线黄色| av网站免费在线观看视频| 欧美国产精品一级二级三级| 欧美日韩黄片免| 欧美黑人欧美精品刺激| 国产精品秋霞免费鲁丝片| 亚洲成人手机| 午夜福利欧美成人| 桃红色精品国产亚洲av| 久久国产亚洲av麻豆专区| 大型黄色视频在线免费观看| 国内毛片毛片毛片毛片毛片| 国产精品欧美亚洲77777| 一边摸一边做爽爽视频免费| 视频区欧美日本亚洲| 精品一区二区三区四区五区乱码| 高清欧美精品videossex| 搡老岳熟女国产| 亚洲aⅴ乱码一区二区在线播放 | 精品国产亚洲在线| 黄色视频,在线免费观看| 最新在线观看一区二区三区| 亚洲色图av天堂| 精品人妻在线不人妻| 99riav亚洲国产免费| 亚洲情色 制服丝袜| 老司机靠b影院| 国产亚洲欧美在线一区二区| 777米奇影视久久| 欧美日韩av久久| av视频免费观看在线观看| 十八禁人妻一区二区| 亚洲欧美日韩高清在线视频| 在线视频色国产色| 亚洲人成电影观看| 欧美国产精品va在线观看不卡| 色在线成人网| 一边摸一边抽搐一进一小说 | 国产免费现黄频在线看| 在线av久久热| 在线观看www视频免费| 久久ye,这里只有精品| 曰老女人黄片| 99在线人妻在线中文字幕 | 久久狼人影院| 后天国语完整版免费观看| 看片在线看免费视频| 婷婷精品国产亚洲av在线 | 久久香蕉精品热| 亚洲精品美女久久久久99蜜臀| 日韩有码中文字幕| 99国产精品一区二区三区| 80岁老熟妇乱子伦牲交| 如日韩欧美国产精品一区二区三区| 99国产精品99久久久久| 亚洲国产精品sss在线观看 | 99久久精品国产亚洲精品| 欧美性长视频在线观看| 亚洲av成人av| 91麻豆av在线| 老司机靠b影院| 俄罗斯特黄特色一大片| 丰满迷人的少妇在线观看| 纯流量卡能插随身wifi吗| 香蕉丝袜av| 国产精品免费大片| 亚洲av成人不卡在线观看播放网| 亚洲五月天丁香| 国产成人av激情在线播放| 免费在线观看影片大全网站| 久久人妻熟女aⅴ| 男女高潮啪啪啪动态图| 丝瓜视频免费看黄片| 大型av网站在线播放| 久久影院123| 三上悠亚av全集在线观看| 欧美日韩亚洲综合一区二区三区_| 日韩欧美在线二视频 | 国产区一区二久久| 天堂俺去俺来也www色官网| 成人亚洲精品一区在线观看| 中出人妻视频一区二区| 中文字幕制服av| 大陆偷拍与自拍| 如日韩欧美国产精品一区二区三区| 丰满人妻熟妇乱又伦精品不卡| av不卡在线播放| 伊人久久大香线蕉亚洲五| 丰满的人妻完整版| 久久天堂一区二区三区四区| 欧美日韩乱码在线| 大香蕉久久成人网| 日韩欧美国产一区二区入口| 亚洲成人国产一区在线观看| 日本a在线网址| 精品国产一区二区久久| 50天的宝宝边吃奶边哭怎么回事| 一二三四在线观看免费中文在| 亚洲伊人色综图| 久久久水蜜桃国产精品网| 国产av又大| 十分钟在线观看高清视频www| av国产精品久久久久影院| 97人妻天天添夜夜摸| 午夜两性在线视频| 女人高潮潮喷娇喘18禁视频| 国产一区二区三区综合在线观看| 超色免费av| 波多野结衣av一区二区av| 精品人妻在线不人妻| 19禁男女啪啪无遮挡网站| 性色av乱码一区二区三区2| 后天国语完整版免费观看| 99热国产这里只有精品6| 国精品久久久久久国模美| 美女视频免费永久观看网站| 亚洲av美国av| 人妻久久中文字幕网| 不卡一级毛片| 黄频高清免费视频| 国产成人免费无遮挡视频| 午夜福利欧美成人| 日本撒尿小便嘘嘘汇集6| 亚洲欧美精品综合一区二区三区| 黑丝袜美女国产一区| 欧美精品av麻豆av| 极品少妇高潮喷水抽搐| 男人操女人黄网站| 下体分泌物呈黄色| 91av网站免费观看| 一级毛片女人18水好多| 欧美黑人精品巨大| 夜夜夜夜夜久久久久| 黄网站色视频无遮挡免费观看| 免费高清在线观看日韩| 黑人猛操日本美女一级片| www.自偷自拍.com| 欧美日韩视频精品一区| 国产精品一区二区精品视频观看| 91精品三级在线观看| 少妇的丰满在线观看| 动漫黄色视频在线观看| 一级片免费观看大全| 亚洲成人手机| 一二三四社区在线视频社区8| 91麻豆av在线| ponron亚洲| 亚洲五月天丁香| 亚洲av成人一区二区三| 久久久久精品人妻al黑| 久久午夜综合久久蜜桃| 国产xxxxx性猛交| 久9热在线精品视频| 曰老女人黄片| 国产一区二区三区在线臀色熟女 | 欧美国产精品va在线观看不卡| 日本黄色日本黄色录像| 搡老乐熟女国产| 午夜免费成人在线视频| 中文字幕人妻熟女乱码| 国产亚洲一区二区精品| 亚洲精品自拍成人| 欧美日韩瑟瑟在线播放| 国内毛片毛片毛片毛片毛片| 在线观看免费高清a一片| 国产欧美日韩一区二区三| 性少妇av在线| 12—13女人毛片做爰片一| 一级片免费观看大全| 午夜91福利影院| 国产精品免费一区二区三区在线 | 国产精品综合久久久久久久免费 | 少妇被粗大的猛进出69影院| 操美女的视频在线观看| www.自偷自拍.com| 精品熟女少妇八av免费久了| 亚洲欧美日韩另类电影网站| 男女下面插进去视频免费观看| 国精品久久久久久国模美| av视频免费观看在线观看| 国产亚洲欧美98| 婷婷成人精品国产| 欧美日韩成人在线一区二区| 老司机在亚洲福利影院| 性色av乱码一区二区三区2| 免费一级毛片在线播放高清视频 | 国产日韩欧美亚洲二区| av福利片在线| 国产成人欧美| 午夜精品在线福利| 国产亚洲一区二区精品| 18禁裸乳无遮挡免费网站照片 | 亚洲精品粉嫩美女一区| 黑人猛操日本美女一级片| 免费黄频网站在线观看国产| 精品无人区乱码1区二区| 国产无遮挡羞羞视频在线观看| 天天操日日干夜夜撸| 91九色精品人成在线观看| 亚洲成av片中文字幕在线观看| 欧美中文综合在线视频| 精品亚洲成国产av| 精品无人区乱码1区二区| 国产一区二区三区视频了| 精品福利永久在线观看| 色老头精品视频在线观看| 亚洲人成77777在线视频| 黑人欧美特级aaaaaa片| 久久久精品免费免费高清| 久久久久视频综合| 在线视频色国产色| 久久精品国产99精品国产亚洲性色 | 波多野结衣av一区二区av| 久久香蕉激情| 国产精品久久久久久精品古装| 久久久久久久久久久久大奶| 下体分泌物呈黄色| 免费人成视频x8x8入口观看| 久久精品亚洲熟妇少妇任你| 一夜夜www| 中文字幕av电影在线播放| 亚洲av美国av| 精品久久久久久久久久免费视频 | 在线免费观看的www视频| 一级片'在线观看视频| 新久久久久国产一级毛片| 免费在线观看黄色视频的| 亚洲熟女毛片儿| 免费人成视频x8x8入口观看| 9热在线视频观看99| 黑丝袜美女国产一区| 日日摸夜夜添夜夜添小说| 亚洲成av片中文字幕在线观看| 正在播放国产对白刺激| 午夜免费观看网址| 久久影院123| 人妻 亚洲 视频| 成人三级做爰电影| 天天影视国产精品| 国产有黄有色有爽视频| 一级毛片精品| 在线天堂中文资源库| 91老司机精品| 亚洲精品美女久久久久99蜜臀| 久久影院123| 国产免费av片在线观看野外av| 91麻豆av在线| 99久久人妻综合| 日韩人妻精品一区2区三区| 久久人人爽av亚洲精品天堂| 每晚都被弄得嗷嗷叫到高潮| 天堂动漫精品| 中文字幕人妻丝袜制服| 99热网站在线观看| 一级a爱视频在线免费观看| 亚洲熟妇熟女久久| 亚洲精品乱久久久久久| 国产视频一区二区在线看| 一个人免费在线观看的高清视频| 国产激情久久老熟女| 黄色 视频免费看| 少妇裸体淫交视频免费看高清 | 啦啦啦 在线观看视频| 午夜成年电影在线免费观看| 免费在线观看影片大全网站| 丝袜美腿诱惑在线| 久久人妻av系列| 国产在线观看jvid| 女人被狂操c到高潮| 新久久久久国产一级毛片| 色婷婷av一区二区三区视频| 精品久久久久久,| 首页视频小说图片口味搜索| 天天躁狠狠躁夜夜躁狠狠躁| 老司机午夜福利在线观看视频| 精品久久久久久,| 最新在线观看一区二区三区| 免费少妇av软件| 久久久久国产一级毛片高清牌| 亚洲国产精品sss在线观看 | 午夜免费鲁丝| 国产一区二区三区综合在线观看| 在线观看免费高清a一片| 女性生殖器流出的白浆| 色播在线永久视频| 久久精品人人爽人人爽视色| 香蕉久久夜色| 亚洲av日韩在线播放| 欧美精品啪啪一区二区三区| 精品福利永久在线观看| 国产亚洲av高清不卡| 超色免费av| 动漫黄色视频在线观看| 欧美日韩一级在线毛片| 嫩草影视91久久| 三级毛片av免费| 国产在线一区二区三区精| 免费不卡黄色视频| 欧美av亚洲av综合av国产av| 亚洲国产中文字幕在线视频| 日韩欧美一区二区三区在线观看 | videos熟女内射| 国产成人欧美在线观看 | 国产aⅴ精品一区二区三区波| 黄片小视频在线播放| 黄色a级毛片大全视频| 日本黄色日本黄色录像| 在线国产一区二区在线| 一夜夜www| 曰老女人黄片| 黄片大片在线免费观看| 女人被躁到高潮嗷嗷叫费观| 人人妻人人澡人人看| 亚洲精品在线观看二区| 婷婷丁香在线五月| 人妻 亚洲 视频| 国产高清国产精品国产三级| 男女床上黄色一级片免费看| 啦啦啦在线免费观看视频4| 国产三级黄色录像| 在线观看舔阴道视频| 国内毛片毛片毛片毛片毛片| 曰老女人黄片| 亚洲五月婷婷丁香| 久久久久久久国产电影| 亚洲欧美激情综合另类| 午夜福利欧美成人| 制服人妻中文乱码| 捣出白浆h1v1| 韩国av一区二区三区四区| 天堂中文最新版在线下载| 女性被躁到高潮视频| 啪啪无遮挡十八禁网站| 国产亚洲一区二区精品| 无人区码免费观看不卡| 精品久久久久久,| 高清av免费在线| 国产高清激情床上av| 在线播放国产精品三级| 天堂动漫精品| 欧美日韩国产mv在线观看视频| 欧美激情高清一区二区三区| 国产精品1区2区在线观看. | 欧美精品亚洲一区二区| 香蕉国产在线看| 好男人电影高清在线观看| 欧美丝袜亚洲另类 | 亚洲专区中文字幕在线| 国产成人欧美在线观看 | 国产精品电影一区二区三区 | 久热爱精品视频在线9| 青草久久国产| www.自偷自拍.com| 大片电影免费在线观看免费| 免费在线观看完整版高清| 脱女人内裤的视频| 欧美日韩亚洲综合一区二区三区_| 女性被躁到高潮视频| 丝袜人妻中文字幕| 成人av一区二区三区在线看| 亚洲一区高清亚洲精品| 另类亚洲欧美激情| 黄色毛片三级朝国网站| 国产亚洲精品久久久久5区| 欧美日韩精品网址| 中文欧美无线码| 国产深夜福利视频在线观看| 高清av免费在线| 欧美激情 高清一区二区三区| 日日摸夜夜添夜夜添小说| 欧美日韩亚洲综合一区二区三区_| 岛国在线观看网站| 欧美成狂野欧美在线观看| 韩国精品一区二区三区| 婷婷丁香在线五月| 亚洲男人天堂网一区| 一区二区三区国产精品乱码| 国产成人精品无人区| 一区二区三区激情视频| 国产麻豆69| 在线观看一区二区三区激情| 亚洲欧洲精品一区二区精品久久久| 亚洲久久久国产精品| 国内久久婷婷六月综合欲色啪| 亚洲精品一二三| 看片在线看免费视频| 性色av乱码一区二区三区2| 一级黄色大片毛片| 精品熟女少妇八av免费久了| 亚洲第一av免费看| 黑人欧美特级aaaaaa片| 亚洲性夜色夜夜综合| 精品福利观看| 久99久视频精品免费| 亚洲成人免费av在线播放| 男女高潮啪啪啪动态图| 亚洲成av片中文字幕在线观看| 一区二区三区国产精品乱码| 交换朋友夫妻互换小说| 少妇粗大呻吟视频| 自拍欧美九色日韩亚洲蝌蚪91| 他把我摸到了高潮在线观看| 亚洲中文日韩欧美视频| 国产成人精品无人区| 热re99久久精品国产66热6| 极品人妻少妇av视频| 一区二区日韩欧美中文字幕| 中文字幕av电影在线播放| 亚洲欧美一区二区三区黑人| 建设人人有责人人尽责人人享有的| 99久久国产精品久久久| 一区二区日韩欧美中文字幕| 久久 成人 亚洲| 久久久久久久精品吃奶| 亚洲精品国产区一区二| 久久久久久亚洲精品国产蜜桃av| 亚洲情色 制服丝袜| 老司机影院毛片| 国产精品98久久久久久宅男小说| 一级作爱视频免费观看| 国产真人三级小视频在线观看| 亚洲情色 制服丝袜| 国产av精品麻豆| 麻豆成人av在线观看| 午夜老司机福利片| 黄色女人牲交| 丝袜美足系列| 中国美女看黄片| 悠悠久久av| 99精品久久久久人妻精品| 男人舔女人的私密视频| 日韩有码中文字幕| 丰满饥渴人妻一区二区三| 超色免费av| 99国产精品99久久久久| 成人亚洲精品一区在线观看| 少妇猛男粗大的猛烈进出视频| 天堂动漫精品| 黄片播放在线免费| 国产精品免费一区二区三区在线 | 亚洲欧美日韩另类电影网站| 亚洲七黄色美女视频| 久久久久国产精品人妻aⅴ院 | 两性午夜刺激爽爽歪歪视频在线观看 | 午夜日韩欧美国产| 欧美日韩中文字幕国产精品一区二区三区 | 少妇猛男粗大的猛烈进出视频| 国产精品九九99| 韩国av一区二区三区四区| 在线看a的网站| 成人av一区二区三区在线看| 美女扒开内裤让男人捅视频| 女人久久www免费人成看片| 欧美精品亚洲一区二区| 美女 人体艺术 gogo| 在线永久观看黄色视频| 91九色精品人成在线观看| 欧美日韩成人在线一区二区| 无遮挡黄片免费观看| 欧美久久黑人一区二区| 精品免费久久久久久久清纯 | tocl精华| 亚洲国产看品久久| 看片在线看免费视频| 国产精品久久视频播放| 新久久久久国产一级毛片| 欧美久久黑人一区二区| 亚洲欧美一区二区三区黑人| 成人av一区二区三区在线看| www.精华液| 国产一区二区三区在线臀色熟女 | 99热只有精品国产| 两性午夜刺激爽爽歪歪视频在线观看 | 日本一区二区免费在线视频| 一区二区日韩欧美中文字幕| 亚洲av成人一区二区三| 在线观看免费日韩欧美大片| 久久久国产欧美日韩av| 久久人妻av系列| 天堂中文最新版在线下载| 女人被躁到高潮嗷嗷叫费观| 国产精品欧美亚洲77777| 国产男女超爽视频在线观看| 一区二区三区激情视频| 91麻豆av在线| 女性生殖器流出的白浆| 国产精品亚洲一级av第二区| 首页视频小说图片口味搜索| 天堂√8在线中文| 亚洲色图av天堂| 很黄的视频免费| 高清视频免费观看一区二区| 亚洲一区中文字幕在线| 国产麻豆69| 一本一本久久a久久精品综合妖精| 国产精品乱码一区二三区的特点 | 欧美亚洲 丝袜 人妻 在线| 无遮挡黄片免费观看| 脱女人内裤的视频| 国产精品 国内视频| 精品亚洲成a人片在线观看| 欧美久久黑人一区二区| 男女下面插进去视频免费观看| www.自偷自拍.com| 欧美久久黑人一区二区| 99国产精品一区二区蜜桃av | √禁漫天堂资源中文www| 露出奶头的视频| 精品国产超薄肉色丝袜足j| 久久久国产一区二区| 国产成人精品在线电影| 丰满饥渴人妻一区二区三| 欧美日韩亚洲国产一区二区在线观看 | 在线观看日韩欧美| 国产精品国产av在线观看| 无限看片的www在线观看| 在线观看免费午夜福利视频| 国产一卡二卡三卡精品| 老司机亚洲免费影院| 精品无人区乱码1区二区| 亚洲成av片中文字幕在线观看|