梁米,李云飛
(西華師范大學 數(shù)學與信息學院,四川 南充,637009)
均勻分布是應用統(tǒng)計中常見的分布之一,同時也是連續(xù)性隨機變量中簡單的分布[1],雖然簡單,但由于其特殊性,在理論研究中具有重要的地位。均勻分布在交通流、電流、誤差分析和生物學等方面都得到了廣泛的應用。國內(nèi)外學者針對均勻分布的統(tǒng)計推斷問題開展了大量的研究。時凌等[2]對均勻分布U(θ-a,θ+a)的參數(shù)θ的估計量以及這些估計量的優(yōu)效性進行了研究,并證明了最小順序統(tǒng)計量是最優(yōu)的統(tǒng)計量。趙志文等[3]研究了在缺失數(shù)據(jù)情形下混合均勻分布總體參數(shù)的估計和檢驗問題。丁勇[4]研究了均勻分布樣本均數(shù)的分布,推導出了標準均勻分布樣本均數(shù)的分布函數(shù)。RIFFAT等[5]定義了可用于估計連續(xù)均勻分布參數(shù)的不同方法,并使用總偏差和均方作為性能索引來識別其中的最佳估算器,通過重復的模擬研究比較了這些估計方法。WANG等[6]采用了線性貝葉斯方法來估計均勻分布。
統(tǒng)計數(shù)據(jù)質(zhì)量問題引起了社會各界的關注[7]。在實際應用中,由于一些主觀或外界原因,在數(shù)據(jù)收集過程中往往會產(chǎn)生異常數(shù)據(jù)。異常數(shù)據(jù)是指一批數(shù)據(jù)中與其余數(shù)據(jù)相比明顯不一致的數(shù)據(jù),這些數(shù)據(jù)的產(chǎn)生往往會導致統(tǒng)計分析的誤差增大[8]。因此,在利用收集的數(shù)據(jù)進行統(tǒng)計分析之前,有必要對其進行異常數(shù)據(jù)的檢驗。對于異常數(shù)據(jù)的檢驗問題,國內(nèi)外一些學者進行了研究。費鶴良等[9]構(gòu)造了Fisher型統(tǒng)計量,分別用Tn(1)和Tn(n)檢驗樣本極值x(1)和x(n)是否異常。王蓉華等[10]提出了一種適用于各種分布且能一次檢驗多個異常數(shù)據(jù)的檢驗方法——均值比檢驗。此外,國家標準GB 17378.2—2007《海洋監(jiān)測規(guī)范 第2部分:數(shù)據(jù)處理與分析質(zhì)量控制》中提出Dixon型檢驗統(tǒng)計量用于檢驗異常大和異常小數(shù)據(jù)的標準[11]。針對指數(shù)分布、雙參數(shù)指數(shù)分布等常見異常數(shù)據(jù)的檢驗問題,已有一些學者對其進行了研究[12-19]。對于均勻分布異常數(shù)據(jù)的檢驗,目前研究較少。唐年勝[20]針對均勻分布U(a,b)中參數(shù)a已知、b未知和a,b均未知的情況,提出了多個異常值的似然比檢驗。張慧娟等[21]利用假設檢驗的基本原理和方法,在Dixon型統(tǒng)計量的基礎上,構(gòu)造了基于順序統(tǒng)計量的S型統(tǒng)計量來檢驗異常大數(shù)據(jù),但此方法僅適用于樣本數(shù)據(jù)服從標準均勻分布時。在實際問題中,樣本數(shù)據(jù)并不是簡單地服從標準均勻分布,針對該問題,本文將基于Dixon型檢驗統(tǒng)計量,利用樣本中位數(shù)具有較好抵抗異常數(shù)據(jù)的影響這一性質(zhì),構(gòu)造檢驗統(tǒng)計量,對服從一般均勻分布的數(shù)據(jù)進行異常數(shù)據(jù)的檢驗。
假設隨機變量X服從區(qū)間(θ1,θ2)上的均勻分布,記作X~U(θ1,θ2),其中,θ1,θ2為未知參數(shù)。則X的分布函數(shù)和密度函數(shù)分別為
設X1,X2,…,Xn是來自均勻分布總體X~U(θ1,θ2)的獨立同分布樣本,X(1),…,X(n)是來自該總體的樣本容量為n的順序統(tǒng)計量,x(1),x(2),…,x(n)是順序統(tǒng)計量的觀測值。
引理1[22]設X1,X2,…,Xn是來自均勻分布總體X~U(θ1,θ2)的獨立同分布樣本,X(1),…,X(n)為來自該總體的樣本容量為n的順序統(tǒng)計量,令
則Y~U(0,1),Y1,Y2,…,Yn獨立同分布于U(0,1),Y(1),Y(2),…,Y(n)與均勻分布總體U(0,1)的容量為n的前n個順序統(tǒng)計量同分布。
又由于
因此,不管參數(shù)θ1,θ2為何值,T的分布都與θ1=0,θ2=1的標準均勻分布相同。
其中,
G(x,y,z)=[F(x)]i-1[F(y)-F(x)]j-i-1[F(z)-F(y)]k-j-1[1-F(z)]n-k
由引理2可知:X(1),X(m),X(n)的聯(lián)合密度為
作以下變換:
則有
該變換的Jacobi行列式為|J|=v,故U,V,W的聯(lián)合密度函數(shù)為
其中,0 可求出U的密度函數(shù)為 其中,0 若x(n)為異常大數(shù)據(jù),則統(tǒng)計量T的值會過小。故可用統(tǒng)計量T來檢驗x(n)是否異常。 表1 顯著性水平為α的臨界值表 給定樣本容量為n=20,通過Monte-Carlo模擬產(chǎn)生一組服從參數(shù)為θ1=6,θ2=8的均勻分布的隨機樣本[26]:7.504 8,6.962 9,6.873 9,7.173 1,7.179 7,7.386 8,7.213 2,7.120 7,7.924 5,6.469 0,6.610 1,6.301 6,7.082 4,6.720 1,6.380 3,6.734 4,7.896 0,7.313 0,7.530 1, 6.042 5。 首先,將20個數(shù)據(jù)按照從小到大的順序排序,得到順序統(tǒng)計量x(1)<… 表2 排序后的數(shù)據(jù) 與表1中的臨界值對比,可以得出T>Tα(n=20),所以,x(20)不是異常大數(shù)據(jù)。 若由于人為輸入錯誤,使得原始數(shù)據(jù)中出現(xiàn)異常大數(shù)據(jù),不妨假設將x(8),x(14)和x(19)的值輸入為16.873 9,17.213 2和19.893 2。此時,20個數(shù)據(jù)的大小順序混亂,重新對20個數(shù)據(jù)進行排列得到其新的順序統(tǒng)計量y(1),…,y(20),見表3。 表3 重新排列得到其新的順序統(tǒng)計量 與表1中的臨界值對比,可以得出T′ 接下來繼續(xù)對y(19)進行檢驗(此時n=19): 與表1中的臨界值對比,可以得出T″ 用同樣的方法繼續(xù)對y(18),y(17)進行檢驗,檢驗結(jié)果如下: 與表1中的臨界值對比,可以得出T? 綜上,y(20),y(19)和y(18)為異常大數(shù)據(jù)。 本文研究了均勻分布場合下異常大數(shù)據(jù)的檢驗。利用樣本中位數(shù)能夠抵抗異常數(shù)據(jù)干擾的性質(zhì),構(gòu)造了適用于一般的均勻分布場合的檢驗統(tǒng)計量并得到其密度函數(shù),給定了異常大數(shù)據(jù)判別標準,通過實例驗證了方法是可行、有效的。該方法可以避免異常大數(shù)據(jù)的干擾,具有穩(wěn)健性,因此,也可用于對多個異常大數(shù)據(jù)進行檢驗。2 算例分析
3 結(jié)論