• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于分布式大數(shù)據(jù)的Expectile回歸分析

      2022-10-31 12:40:28胡愛軍李楚進(jìn)
      應(yīng)用數(shù)學(xué) 2022年4期
      關(guān)鍵詞:估計(jì)量樣本量位數(shù)

      胡愛軍 ,李楚進(jìn)

      (1.湖北第二師范學(xué)院數(shù)學(xué)與經(jīng)濟(jì)學(xué)院,湖北 武漢 430205;2.華中科技大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖北 武漢 430074)

      1.引言

      現(xiàn)代技術(shù)的發(fā)展使得數(shù)據(jù)采集的規(guī)模前所未有,大規(guī)模數(shù)據(jù)集無法在單臺服務(wù)器上存儲,必須分布在具備有限內(nèi)存的多臺機(jī)器上,因此通常的經(jīng)典統(tǒng)計(jì)方法不再適用,許多估計(jì)和推理方法需要重新研究.在多臺機(jī)器之間進(jìn)行數(shù)據(jù)分塊以及并行計(jì)算[1]是緩解此類瓶頸的常用方法.

      隨機(jī)抽樣和隨機(jī)投影算法[2-3]已被應(yīng)用于解決大規(guī)模數(shù)據(jù)的分位數(shù)回歸問題.但是,在該類算法中,執(zhí)行子采樣需要主內(nèi)存中有足夠大存儲空間來存儲整個數(shù)據(jù)集.而且,估計(jì)過程中只使用了數(shù)據(jù)集中的部分?jǐn)?shù)據(jù),而忽略整個數(shù)據(jù)集來執(zhí)行估計(jì)過程.因此,隨機(jī)抽樣和隨機(jī)投影算法效果并不理想,并且所得估計(jì)效率較低.為了解決這些問題,FAN和CHENG[4],FAN等[5],LI等[6]提出了分塊平均估計(jì)方法,這種方法顯著地解決了存儲內(nèi)存和估計(jì)效率兩個問題.同樣,ZHANG等[7],CHEN和XIE[8]提出了一種分而治之(divide-and-conquer,DC)的方法.它已成功用于解決海量數(shù)據(jù)集上的均值回歸問題,可以大大縮短計(jì)算時間并減少存儲內(nèi)存需求.

      上述關(guān)于DC的研究主要集中在最小二乘線性回歸上,而普通最小二乘線性回歸對負(fù)殘差和正殘差賦予相同的權(quán)重,并將響應(yīng)變量的期望值估計(jì)為協(xié)變量的線性函數(shù).基于不對稱l1范數(shù)的分位數(shù)回歸,對殘差的正負(fù)部分賦予不同的權(quán)重來改進(jìn)最小二乘線性回歸模型[9-11].與分位數(shù)回歸模型不同,Newey和Powell[9]基于l2范數(shù)提出了以下非對稱二次損失函數(shù)

      這里τ∈(0,1).隨機(jī)變量ξ的τ-expectile定義為μτ=自從Newey和Powell[9]提出該模型以來,對expectile回歸(ER)統(tǒng)計(jì)推斷進(jìn)行了大量廣泛的研究[10-12].但是這些方法只能用于中等樣本數(shù)據(jù)的計(jì)算.

      相對于分位數(shù)回歸而言,非對稱最小二乘法有獨(dú)特的優(yōu)點(diǎn),首先它充分考慮數(shù)據(jù)的距離和位置信息,期望值比分位數(shù)的統(tǒng)計(jì)推斷更有效,而經(jīng)驗(yàn)分位數(shù)僅利用關(guān)于觀測值是低于還是高于預(yù)測值的信息[13].此外,與樣本分位數(shù)不同,樣本expectile值提供了一類作為水平τ的平滑曲線函數(shù),并且對重尾分布數(shù)據(jù)表現(xiàn)出更強(qiáng)的魯棒性[14-15].

      然而上述提到的大數(shù)據(jù)回歸建模方法大多是針對均值回歸和分位數(shù)回歸問題的,而對于ER問題的研究很少,尤其是對于大規(guī)模數(shù)據(jù)的ER問題.在本文中,我們提出了分塊平均ER(BAER)方法在海量數(shù)據(jù)集上進(jìn)行有效的ER估計(jì).該方法包含三個具體步驟: 1)按塊順序分區(qū)、存儲和讀取具有可管理的樣本大小的數(shù)據(jù)集,該數(shù)據(jù)集可以完全存儲在主內(nèi)存中;2)分別計(jì)算每個塊內(nèi)的ER估計(jì)量;3)將從每個塊獲得的估計(jì)量的平均值聚合為最終估計(jì)量.所提出的BAER方法在海量數(shù)據(jù)下可以顯著地降低對計(jì)算機(jī)存儲硬件的要求,并且得到的估計(jì)與將整個數(shù)據(jù)集集中一起分析的結(jié)果一樣有效.此外,我們研究了所得估計(jì)量的漸近正態(tài)性.

      2.分布式expectile回歸

      設(shè)隨機(jī)樣本{(xi,yi),i=1,···,N}來自于如下ER模型:

      這里xi和yi分別表示p維預(yù)測變量和響應(yīng)變量,εi的τ-expectileφτ(εi)=0.

      ER未知參數(shù)的估計(jì)量可以通過最小化以下非對稱最小二乘損失函數(shù)得到,

      由于上述估計(jì)沒有顯示表達(dá)式,通常只能采用迭代的方法計(jì)算,然而迭代對于相對較小的數(shù)據(jù)量是可行的,但是對于海量數(shù)據(jù)變得越來越困難,當(dāng)(2.2)中當(dāng)樣本量N過大時,計(jì)算空間和時間被確定為潛在的瓶頸.我們的工作建立在FAN等[5],ZHANG等[7],CHEN和XIE[8]等人的方法之上.將觀察數(shù)據(jù)分布式存儲在多臺機(jī)器中.然后我們對每臺機(jī)器中的數(shù)據(jù)應(yīng)用標(biāo)準(zhǔn)ER,并通過簡單的平均值組合這些回歸結(jié)果.我們將此過程命名為BAER方法,它將DC的思想擴(kuò)展到ER框架.

      不失一般性,我們首先將整個數(shù)據(jù)集隨機(jī)存儲在K臺機(jī)器中,為簡單每臺機(jī)器數(shù)據(jù)量為n,即N=nK.記y=(y1,y2,···,yK)T,x=(x1,x2,···,xK)T,這里yk=(y1k,···,ynk)T∈Rn,xk=(x1k,···,xnk)T∈Rn×p,k=1,···,K.

      3.算法

      迭代BADM算法,直到滿足某個停止標(biāo)準(zhǔn).我們采用Boyd等[16]的停止準(zhǔn)則:

      這里通常選擇ε1=ε2=10-3,或者當(dāng)?shù)螖?shù)超過一定數(shù)量如105.

      4.漸近性質(zhì)

      5.模擬研究

      本節(jié)通過模擬研究所提出方法的有限樣本性質(zhì).比較我們的方法(BAER)與將全部數(shù)據(jù)集中存儲在一臺機(jī)器內(nèi)分析的理想方法(Oracle)的表現(xiàn).

      我們考慮數(shù)據(jù)模型:yik=+σεik,這里φτ(εik)=0,τ∈(0,1),k=1,···,K,i=1,···,n,β0∈Rp,p=20,N=105是總樣本量,分布式存儲在K=10,100,500臺機(jī)器中,因此,n=N/K是每臺機(jī)器上局部樣本量.p維協(xié)變量xik~Np(0,Σ),Σ=(Σjl)p×p,這里Σjl=0.5|j-l|.真實(shí)回歸系數(shù)β0的每個分量獨(dú)立并來自U(-3,3).我們考慮三種不同的誤差分布:εik~N(0,1),εik~t(3),εik~χ2(2).取σ=1,1+|xik2|分別產(chǎn)生同方差和異方差的數(shù)據(jù),這里xik2是xik的第2個分量.我們選擇三種不同水平τ=0.3,0.5,0.7,計(jì)算估計(jì)誤差來比較兩種方法的表現(xiàn),獨(dú)立重復(fù)模擬100次.圖5.1和圖5.2分別給出了同方差和異方差情形下兩種方法估計(jì)誤差的箱線圖.表5.1給出了兩種方法的計(jì)算時間.

      根據(jù)圖5.1和圖5.2可以看出,BAER方法估計(jì)的結(jié)果都與Oracle方法很接近,尤其是機(jī)器數(shù)K取10和100時,在K=500時估計(jì)誤差略微增大,這主要是由于此時每塊的數(shù)據(jù)量n=200相對較小.根據(jù)表5.1從模擬計(jì)算的時間來看,Oracle方法對于大規(guī)模數(shù)據(jù)在實(shí)際中通常不可行或者計(jì)算耗時較長,而BAER方法即使是在計(jì)算最慢的情形下,其計(jì)算時間都要比Oracle方法要少,BAER方法在能保證得到較高的估計(jì)精度下既提高了計(jì)算效率且不受存儲內(nèi)存的限制,這顯示出我們的方法在處理大規(guī)模數(shù)據(jù)分析的優(yōu)良表現(xiàn).

      圖5.1 兩種方法應(yīng)用于K=10,100,500的同方差模擬數(shù)據(jù)下的估計(jì)誤差的箱線圖

      表5.1 兩種方法應(yīng)用于K=10,100,500的同方差與異方差模擬數(shù)據(jù)下的計(jì)算時間(單位: 秒)

      圖5.2 兩種方法應(yīng)用于K=10,100,500的異方差模擬數(shù)據(jù)下的估計(jì)誤差的箱線圖

      6.真實(shí)數(shù)據(jù)分析

      為了說明我們提出的方法的有效性,我們選取大規(guī)模真實(shí)數(shù)據(jù)集進(jìn)行了分析,以比較上述兩種方法的性能.該數(shù)據(jù)集來自UCI Machine Learning Repository.1http://archive.ics.uci.edu/ml/datasets/Gas+Turbine+CO+and+NOx+Emission+Data+Set該數(shù)據(jù)集包含來自位于土耳其西北部地區(qū)的燃?xì)廨啓C(jī)在一小時內(nèi)(通過平均值或總和)匯總的11個傳感器測量值的36733個實(shí)例,用于研究煙氣排放,即CO和NOx(NO+NO2).

      我們使用其中的10個環(huán)境變量: 環(huán)境溫度(AT),環(huán)境壓力(AP),環(huán)境濕度(AH),空氣過濾器壓差(AFDP),燃?xì)廨啓C(jī)排氣壓力(GTEP),渦輪入口溫度(TIT),渦輪后溫度(TAT),壓縮機(jī)排氣壓力(CDP),渦輪發(fā)電量(TEY),氮氧化物(NOx)作為預(yù)報(bào)變量,以空氣中一氧化碳(CO)含量作為響應(yīng)變量建立expectile回歸模型.

      我們選擇τ=0.3,0.5,0.7三種水平下使用交叉驗(yàn)證法來比較上述兩種方法的表現(xiàn).通過對樣本隨機(jī)劃分100次,每次隨機(jī)選取30000個樣本作為訓(xùn)練集Dtrain,將剩下的6733個樣本作為測試集Dtest.我們將N=30000個訓(xùn)練樣本隨機(jī)地分別存儲在K=10,100,300臺機(jī)器中,相應(yīng)地每臺機(jī)器樣本量n=3000,300,100.按照WANG等[18],定義預(yù)測誤差(1/6733)).預(yù)測誤差的結(jié)果在下圖6.1中.

      圖6.1 兩種方法應(yīng)用于K=10,100,300的燃?xì)廨啓C(jī)排放數(shù)據(jù)集下預(yù)測誤差的箱線圖

      表6.1 兩種方法應(yīng)用于K=10,100,300的燃?xì)廨啓C(jī)排放數(shù)據(jù)集的計(jì)算時間(單位: 秒)

      從圖6.1中我們可以看出,我們的方法BAER對于三種水平以及三種分塊機(jī)器數(shù)下,都呈現(xiàn)出優(yōu)良的結(jié)果,其預(yù)測誤差都與Oracle方法非常接近,幾乎是沒有區(qū)別.從表6.1中可以看到,兩種方法計(jì)算時間基本沒區(qū)別,當(dāng)K=300時,BAER方法只比Oracle方法計(jì)算時間多0.1秒,這主要由于總體數(shù)據(jù)量不太大且數(shù)據(jù)集維數(shù)較小,此時分割數(shù)據(jù)的機(jī)器數(shù)不宜太大.

      猜你喜歡
      估計(jì)量樣本量位數(shù)
      醫(yī)學(xué)研究中樣本量的選擇
      五次完全冪的少位數(shù)三進(jìn)制展開
      航空裝備測試性試驗(yàn)樣本量確定方法
      Sample Size Calculations for Comparing Groups with Binary Outcomes
      淺談估計(jì)量的優(yōu)良性標(biāo)準(zhǔn)
      基于配網(wǎng)先驗(yàn)信息的諧波狀態(tài)估計(jì)量測點(diǎn)最優(yōu)配置
      電測與儀表(2015年6期)2015-04-09 12:00:50
      遙感衛(wèi)星CCD相機(jī)量化位數(shù)的選擇
      負(fù)極值指標(biāo)估計(jì)量的漸近性質(zhì)
      “判斷整數(shù)的位數(shù)”的算法分析
      河南科技(2014年11期)2014-02-27 14:09:41
      基于分位數(shù)回歸的剪切波速變化規(guī)律
      东方市| 奉节县| 富裕县| 泰顺县| 措勤县| 徐水县| 二手房| 双鸭山市| 宿松县| 汝州市| 沙田区| 巧家县| 仲巴县| 安国市| 阿拉尔市| 墨竹工卡县| 高台县| 石嘴山市| 黔西县| 灵山县| 湄潭县| 通许县| 双峰县| 灵川县| 晋宁县| 邵阳县| 祁阳县| 珠海市| 罗甸县| 桐庐县| 游戏| 宁明县| 涪陵区| 彭泽县| 镶黄旗| 余庆县| 峨山| 临清市| 邳州市| 平泉县| 托克托县|