• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      回歸診斷在統(tǒng)計(jì)數(shù)據(jù)異常值探測(cè)中的應(yīng)用

      2011-09-23 07:59:54王懷亮
      對(duì)外經(jīng)貿(mào) 2011年2期
      關(guān)鍵詞:菏澤統(tǒng)計(jì)數(shù)據(jù)殘差

      王懷亮

      (菏澤學(xué)院,山東 菏澤 274015)

      [經(jīng)濟(jì)管理]

      回歸診斷在統(tǒng)計(jì)數(shù)據(jù)異常值探測(cè)中的應(yīng)用

      王懷亮

      (菏澤學(xué)院,山東 菏澤 274015)

      近年來(lái)有關(guān)異常值的理論探討一直是個(gè)熱點(diǎn)問(wèn)題,從回歸模型診斷的角度對(duì)統(tǒng)計(jì)數(shù)據(jù)中的異常值進(jìn)行探測(cè)與分析,并在基于R語(yǔ)言的基礎(chǔ)上,結(jié)合具體實(shí)例,給出回歸診斷在統(tǒng)計(jì)數(shù)據(jù)異常值探測(cè)中的應(yīng)用。

      回歸診斷;R;異常值

      異常值是指一批數(shù)據(jù)中有部分?jǐn)?shù)據(jù)與整體中其他數(shù)據(jù)相比存在明顯不一致,也稱為異常數(shù)據(jù),或稱離群值。異常值的出現(xiàn)可能是由于記錄錯(cuò)誤引起的,也可能由于該數(shù)據(jù)值不屬于這個(gè)數(shù)據(jù)集,或者本來(lái)就是如此,需要進(jìn)一步的調(diào)查。異常值是影響統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的一個(gè)非常重要的因素,近年來(lái)有關(guān)異常值的理論探討一直是個(gè)熱點(diǎn)問(wèn)題;目前研究的重點(diǎn)一直放在統(tǒng)計(jì)法律制度的健全以及統(tǒng)計(jì)工作程序完善等方面。筆者更關(guān)注的則是統(tǒng)計(jì)數(shù)據(jù)的誤差問(wèn)題,即所提供的統(tǒng)計(jì)數(shù)據(jù)與客觀的社會(huì)經(jīng)濟(jì)現(xiàn)象實(shí)際的數(shù)量特征之間的差距問(wèn)題。異常值的存在,使得統(tǒng)計(jì)分析的誤差大大增大。因此,在利用已得數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析之前,必須對(duì)異常值進(jìn)行探測(cè)和檢驗(yàn),從回歸模型診斷的角度探測(cè)與分析統(tǒng)計(jì)數(shù)據(jù)中的異常值進(jìn)行。

      在統(tǒng)計(jì)軟件方面,常用的統(tǒng)計(jì)軟件有 SPSS、SAS、STAT、R、S-PLUS等。R軟件是一個(gè)自由、免費(fèi)、開源的軟件,是一個(gè)具有強(qiáng)大統(tǒng)計(jì)分析功能和優(yōu)秀統(tǒng)計(jì)制圖功能的統(tǒng)計(jì)軟件,現(xiàn)已是國(guó)內(nèi)外眾多統(tǒng)計(jì)學(xué)者喜愛的數(shù)據(jù)分析工具。本文結(jié)合實(shí)例介紹了R軟件在對(duì)統(tǒng)計(jì)數(shù)據(jù)異常值探測(cè)中的應(yīng)用。

      一、回歸診斷理論

      1.殘差

      設(shè)線性回歸模型為:Y=Xβ+ε

      其中Y是由響應(yīng)變量構(gòu)成的n維向量,X是n×(P+1)階設(shè)計(jì)矩陣,β是p+1維向量,ε是n維誤差向量。

      一般來(lái)說(shuō),在模型恰當(dāng)?shù)那闆r下,所計(jì)算的殘差應(yīng)該比較小,各個(gè)樣本點(diǎn)計(jì)算的對(duì)應(yīng)的殘差也較小,如果某個(gè)點(diǎn)計(jì)算的殘差值較大,說(shuō)明該點(diǎn)可能是異常值點(diǎn)。

      2.Cook統(tǒng)計(jì)量

      Cook在1977年提出了Cook統(tǒng)計(jì)量,Cook統(tǒng)計(jì)量定義為:

      (i)為刪除第i個(gè)樣本數(shù)據(jù)后,由余下的n-1個(gè)樣本數(shù)據(jù)求的回歸系數(shù)的估計(jì)值。直觀上,Cook統(tǒng)計(jì)量Di越大的點(diǎn),越可能是異常值點(diǎn),在應(yīng)用上要視具體問(wèn)題的實(shí)際情況而定。

      二、基于R語(yǔ)言的回歸診斷異常值檢驗(yàn)程序

      1.基于R語(yǔ)言的殘差計(jì)算程序

      三、應(yīng)用舉例

      根據(jù)表1分析居住支出與工資收入的關(guān)系,并分析異常值點(diǎn)。

      表1 2008年山東省部分地市城鎮(zhèn)居民平均全年工資收入和居住支出情況表 單位:元

      數(shù)據(jù)來(lái)源:2009年山東統(tǒng)計(jì)年鑒。

      經(jīng)初步分析,可以建立以平均工資為自變量,居住支出為因變量的簡(jiǎn)單線性回歸模型,并且該模型通過(guò)t檢驗(yàn)和F檢驗(yàn),模型方程為

      其殘差圖和Cook距離圖如下:

      圖1

      圖2

      圖3

      圖4

      圖1是殘差散點(diǎn)圖,從圖形上看,第2號(hào)樣本點(diǎn)明顯偏離其他的樣本點(diǎn);圖2是標(biāo)準(zhǔn)化殘差絕對(duì)值的開方的殘差圖,第2號(hào)樣本點(diǎn)標(biāo)準(zhǔn)化殘差的開方大于1.5,說(shuō)明第2號(hào)樣本點(diǎn)在95%的范圍以外;圖3表示的是Cook距離,第2號(hào)樣本點(diǎn)的值最大,說(shuō)明第2號(hào)樣本點(diǎn)可能是異常值點(diǎn);圖4給出了回歸直線和樣本點(diǎn)的散點(diǎn)圖,第2號(hào)樣本點(diǎn)明顯偏上。綜上分析,青島市居民2008年平均工資收入和居民居住支出相對(duì)于該模型為異常值點(diǎn),具體情況需做相關(guān)調(diào)查。

      [1]王松貴,張忠占,程維虎,高旅端.概率論與數(shù)理統(tǒng)計(jì)[M].北京:科學(xué)出版社,2007.

      [2]湯銀才.R語(yǔ)言與統(tǒng)計(jì)分析[M].北京:高等教育出版社,2008.

      [3]薛毅,陳立萍.統(tǒng)計(jì)建模與R軟件[M].北京:清華大學(xué)出版社,2009.

      (責(zé)任編輯:劉潤(rùn)婉)

      C82

      A

      1002-2880(2011)02-0118-02

      王懷亮(1981-),男,漢族,山東曹縣人,菏澤學(xué)院經(jīng)濟(jì)系助教,碩士,研究方向:計(jì)量經(jīng)濟(jì)統(tǒng)計(jì)分析。

      2010年山東省統(tǒng)計(jì)科研重點(diǎn)課題《統(tǒng)計(jì)數(shù)據(jù)質(zhì)量評(píng)價(jià)方法研究》(基金項(xiàng)目號(hào):KT1089)。

      猜你喜歡
      菏澤統(tǒng)計(jì)數(shù)據(jù)殘差
      基于雙向GRU與殘差擬合的車輛跟馳建模
      創(chuàng)新視角下統(tǒng)計(jì)數(shù)據(jù)的提取與使用
      鄉(xiāng)村振興的“菏澤路徑”
      金橋(2021年4期)2021-05-21 08:19:10
      基于殘差學(xué)習(xí)的自適應(yīng)無(wú)人機(jī)目標(biāo)跟蹤算法
      基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
      2019年底前山東菏澤境內(nèi)三條高速可通車
      石油瀝青(2019年2期)2019-02-13 17:24:47
      菏澤牡丹,花開全新產(chǎn)業(yè)鏈——第27屆菏澤牡丹文化旅游節(jié)盛大開幕
      金橋(2018年5期)2018-09-22 02:16:54
      國(guó)際統(tǒng)計(jì)數(shù)據(jù)
      全球化(2018年6期)2018-09-10 21:29:09
      2017年居民消費(fèi)統(tǒng)計(jì)數(shù)據(jù)資料
      Leadership Change: a Perspective from China
      和静县| 沽源县| 邢台县| 五家渠市| 湘潭县| 丰顺县| 南通市| 明溪县| 那坡县| 永州市| 蒙山县| 晋城| 防城港市| 平乡县| 泰安市| 兰考县| 台北县| 龙州县| 海晏县| 阳西县| 武夷山市| 集安市| 凤阳县| 锦屏县| 保靖县| 湖南省| 枣强县| 饶阳县| 梁山县| 鹿邑县| 新安县| 金乡县| 都匀市| 东辽县| 博兴县| 海南省| 凤凰县| 额济纳旗| 亳州市| 盐山县| 嵊州市|