王蓉華,徐曉嶺,顧蓓青
所謂異常數(shù)據(jù)通常是指一批數(shù)據(jù)中的個別者,其值明顯地偏離該批數(shù)據(jù)中的其余值。目前,對多個異常數(shù)據(jù)的檢驗方法有兩種:一是稱之為群組檢驗,就是一次可檢驗多個異常數(shù)據(jù),此檢驗的關鍵是要確定異常數(shù)據(jù)的個數(shù);二是稱之為逐步檢驗,就是每次只檢驗一個數(shù)據(jù)是否為異常數(shù)據(jù),逐步排除,直至檢驗到正常數(shù)據(jù)為止。鑒于兩參數(shù)Weibull分布在可靠性工程中重要的應用地位,下面簡單介紹幾種目前常用的針對兩參數(shù)Weibull分布異常數(shù)據(jù)的檢驗方法。
文獻[1]提出了一種利用G型統(tǒng)計量的檢驗方法,文獻[2]對此作了改進并提出了F型統(tǒng)計量來檢驗異常大值。文獻[3]提出了均值比檢驗方法,為確定異常數(shù)據(jù)的個數(shù),定義了跳躍度的概念。文獻[4]提出了一種新的檢驗異常大值的XLD統(tǒng)計量與檢驗異常小的XLX統(tǒng)計量。文獻[5]推廣了F-型檢驗,為確定異常數(shù)據(jù)的個數(shù),還定義了靈敏度的概念。Weibull分布異常數(shù)據(jù)的檢驗方法很多。值得指出的是針對指數(shù)分布,文獻[6]基于樣本中位數(shù)提出一種檢驗方法,文獻[7]作了進一步推廣,但從單個樣本分量出發(fā)構(gòu)造檢驗統(tǒng)計量,方法雖然可行,但也浪費了許多可用的數(shù)據(jù)信息,這是因為異常數(shù)據(jù)的個數(shù)應該是少數(shù)幾個,樣本數(shù)據(jù)中的大部分還應該是正常數(shù)據(jù),而且如果異常數(shù)據(jù)比較多,用簡單的剔除并不合適,而應該考慮其他模型,例如混合模型等。
本文針對兩參數(shù)Weibull分布,基于參數(shù)的最佳線性無偏估計(BLUE),給出一種新的異常數(shù)據(jù)的檢驗方法。
其中,m稱為形狀參數(shù),η稱為刻度參數(shù)。
從產(chǎn)品中任意取n個進行壽命試驗,到有r個失效時試驗停止(定數(shù)截尾壽命試驗),失效時間依次為:X(1)≤X(2)≤…≤X(r),其相應的次序觀察值為:x(1)≤x(2)≤…≤x(r)。
由于系數(shù)C(n,r,j),j=1,2,…,r并不相等,于是對于參數(shù)σ的最佳線性無偏估計而言,各 X(1),X(2),…,X(n)對參數(shù)σ的估計所起的作用是不一樣的。為此針對參數(shù)σ的最佳線性無偏估計,定義各次序統(tǒng)計量的貢獻率為:
設產(chǎn)品的壽命為X,其服從兩參數(shù)Weibull分布,分
其中,ρj表示次序統(tǒng)計量X(j)的貢獻率。
考慮到系數(shù)C(n,r,j),j=1,2,…,r的正負號,如是正號,對應的貢獻率稱為正貢獻率;如是負號,對應的貢獻率稱為負貢獻率。
仔細觀察系數(shù) C(n,r,j),j=1,2,…,r 發(fā)現(xiàn)有如下特且給定 n,r后系數(shù) C(n,r,j),j=1,2,…,r 中 第 一 個 大 于 0 所 對 應 的j0,即C(n,r,j)<0,j=1,2,…,j0-1 ,而 C(n,r,j)>0,j=j0,j0+征(僅針對樣本容量n=2(1)25):
特征二:對于C(n,r,i),i=1,2,…,j0,總存在 i0<j0,是嚴格單調(diào)減少的。
特征三:對于C(n,r,i),i=j0+1,j0+2,…,r,有:
C(n,r,j0+1)<C(n,r,j0+2)<…<C(n,r,r)
其中,C(n,r,r) 比 C(n,r,i),i=j0+1,j0+2,…,r-1有大幅度提高,也即X(r)的正貢獻率最大。
若樣本數(shù)據(jù)僅存在極小異常值,且異常值的個數(shù)不超過 i0個,即異常小數(shù)據(jù)存在于 X(1),X(2),…,X(i0)中,由于C(n,r,j)<0,j=1,2,…,i0,易見參數(shù) σ 的最佳線性無偏
如果樣本數(shù)據(jù)存在異常值,則其必將影響到參數(shù)的估計。事實上,若樣本數(shù)據(jù)僅存在極大異常值,且異常值的個數(shù)不超過r-j0+1個,即異常大數(shù)據(jù)存在于X(j0),X(j0+1),…,X(r)中,由于 C(n,r,j)>0,j=j0,j0+1,…,值的個數(shù)至少為i0+1個,由于X(i0)的負貢獻率最大,是一個轉(zhuǎn)折點,于是可以認為是兩個不同總體的混合,即采用混合模型處理。
若樣本數(shù)據(jù)同時存在極大異常值與極小異常值,且極大異常值的個數(shù)不超過r-j0+1個,即異常大數(shù)據(jù)存在于如果異常大值的個數(shù)至少為r-j0+2個,異常小值的個數(shù)至少為i0+1個,于是可以認為是三個不同總體的混合,即
步驟2:構(gòu)造檢驗統(tǒng)計量Tj0=采用混合模型處理。
異常數(shù)據(jù)檢驗的關鍵問題之一是確定異常數(shù)據(jù)的個數(shù),鑒于上述討論,在此可以認為異常數(shù)據(jù)的最多疑似個數(shù)為i0+(r-j0+1)個,其中有i0個是疑似極小異常值,即X(1),X(2),…,X(i0),r-j0+1個是疑似極大異常值,即 X(j0),X(j0+1),…,X(r)?;蛘哒f非異常的樣本數(shù)據(jù)有 j0-i0-1個,即 X(i0+1),X(i0+2),…,X(j0-1)。
由此,針對定數(shù)截尾兩參數(shù)Weibull分布異常數(shù)據(jù)檢驗分為如下三種場合,其檢驗步驟如下(給定顯著性水平α):
場合一:如果只存在極大異常值
記由次序統(tǒng)計量 X(1),X(2),…,X(k)所得的參數(shù)σ的最佳線性無偏估計(BLUE)為 σ?n,k(X(1),X(2),…,X(k)) ,即:分布與參數(shù)無關。事實上,易見Tj0的分布與參數(shù)無關。同時有Tj0對X(j0)嚴格單調(diào)增加。記統(tǒng)計量Tj0的觀察值為tj0,而記Tj0的分布的上側(cè)α分位數(shù)為Tj0(α)。給定樣本容量n以及 j0、顯著性水平α,通過10000次Monte-Carlo模擬得到統(tǒng)計量Tj0的上側(cè)α分數(shù),結(jié)果見下頁表1。
若tj0<Tj0(α),則認為 X(j0)不是極大異常值,檢驗轉(zhuǎn)入步驟3。
步驟3:構(gòu)造檢驗統(tǒng)計量Tj0+1=,其分布與參數(shù)無關,且對 X(j0)嚴格單調(diào)增加。
若 tj0+1≥Tj0+1(α),則認為 X(j0+1)為極大異常值,進而認為 X(j0+2),X(j0+3),…,X(r)均為極大異常值,終止檢驗。
若 tj0+1<Tj0+1(α),則認為 X(j0+1)不是極大異常值,檢驗轉(zhuǎn)入下一步驟。
如此下去,直至某一步終止檢驗。
如果一直沒有終止檢驗,則最后所構(gòu)造的檢驗統(tǒng)計量為:
表1 Tj0分布的上側(cè)分位數(shù)表
若tr≥Tr(α),則認為X(r)為極大異常值,而X(j0),X(j0+1),…,X(r-1)都不是極大異常值。
若tr<Tr(α),則認為X(r)不是極大異常值,也就是說整個樣本數(shù)據(jù)不存在極大異常值。
場合二:如果只存在極小異常值
記由次序統(tǒng)計量X(k),X(k+1),…,X(r)所得的參數(shù)σ的最佳線性無偏估計(BLUE)為σ?n,k(X(k),X(k+1),…,X(r)),即:C(n,k,j)為左截尾的BLUE系數(shù)。
步驟 1:計算σ?n,i0(X(i0),X(i0+1),…,X(r)) ,σ?n,i0+1(X(i0+1),X(i0+2),…,X(r))
步驟2:構(gòu)造檢驗統(tǒng)計量Ti0分布與參數(shù)無關,且對X(i0)嚴格單調(diào)減少。記統(tǒng)計量Ti0的觀察值為ti0,而記Ti0的分布的上側(cè)α分位數(shù)為Ti0(α)。
若ti0≥Ti0(α),則認為X(i0)為極小異常值,進而認為X(1),X(2),…,X(i0-1)均為極小異常值,終止檢驗。
若ti0<Ti0(α),則認為X(i0)不是極小異常值,檢驗轉(zhuǎn)入步驟3。
步驟3:構(gòu)造檢驗統(tǒng)計量Ti0-1布與參數(shù)無關,且對X(i0-1)嚴格單調(diào)減少。
若ti0-1≥Ti0-1(α) ,則 認 為X(i0-1)為極小異常值,進而認為X(1),X(2),…,X(i0-2)均 為 極 小 異 常值,終止檢驗。
若ti0-1<Ti0-1(α) ,則 認 為X(i0-1)不是極小異常值,檢驗轉(zhuǎn)入下一步驟。
如此下去,直至某一步終止檢驗。
如果一直沒有終止檢驗,則最后所構(gòu)造的檢驗統(tǒng)計量為:
若t1≥T1(α),則認為X(1)為極小異常值,而X(2),X(3),…,X(i0)都不是極小異常值。
若t1<T1(α),則認為X(1)不是極小異常值,也就是說整個樣本數(shù)據(jù)不存在極小異常值。
場合三:如果既存在極大異常值,又存在極小異常值
從j0-i0-1個非異常的樣本數(shù)據(jù)X(i0+1),X(i0+2),…,X(j0-1)出發(fā),分別向兩個方向檢驗極大異常值與極小異常值。記由次序統(tǒng)計量X(k+1),X(k+2),…,X(s-1)所得的參數(shù)σ的最佳線性無偏估計(BLUE)為σ?n,k+1,s-1(X(k+1),X(k+2),…,X(s-1)),即:
而此處的C(n,k+1,s-1,j)為雙邊截尾的BLUE系數(shù)。
檢驗極大異常值如下:
步驟1:計算 σ?n,i0+1,j0(X(i0+1),X(i0+2),…,X(j0)),σ?n,i0+1,j0-1(X(i0+1),X(i0+2),…,X(j0-1))
步驟2:構(gòu)造檢驗統(tǒng)計量Tj0=且對X(j0)嚴格單調(diào)增加。記統(tǒng)計量Tj0的觀察值為tj0,而記Tj0的分布的上側(cè)α分位數(shù)為Tj0(α)。
若 tj0≥Tj0(α),則認為 X(j0)為極大異常值,進而認為X(j0+1),X(j0+2),…,X(r)均為極大異常值,終止檢驗。
若tj0<Tj0(α),則認為 X(j0)不是極大異常值,檢驗轉(zhuǎn)入步驟3。
步驟3:構(gòu)造檢驗統(tǒng)計量Tj0+1=且對X(j0+1)嚴格單調(diào)增加。
若 tj0+1≥Tj0+1(α),則認為 X(j0+1)為極大異常值,進而認為 X(j0+2),X(j0+3),…,X(r)均為極大異常值,終止檢驗。
若 tj0+1<Tj0+1(α),則認為 X(j0+1)不是極大異常值,檢驗轉(zhuǎn)入下一步驟。
如此下去,直至某一步終止檢驗。
如果一直沒有終止檢驗,則最后所構(gòu)造的檢驗統(tǒng)計量為:
若 tr≥Tr(α),則認為X(r)為極大異常值,而X(j0),X(j0+1),…,X(r-1)都不是極大異常值。
若tr<Tr(α),則認為 X(r)不是極大異常值,也就是說整個樣本數(shù)據(jù)不存在極大異常值。
檢驗極小異常值如下:
步驟1:計算 σ?n,i0,j0-1(X(i0),X(i0+1),…,X(j0-1)),σ?n,i0+1,j0-1(X(i0+1),X(i0+2),…,X(j0-1))
步驟2:構(gòu)造檢驗統(tǒng)計量Ti0=且對X(i0)嚴格單調(diào)減少。記統(tǒng)計量Ti0的觀察值為ti0,而記Ti0的分布的上側(cè)α分位數(shù)為Ti0(α)。
若ti0≥Ti0(α),則認為 X(i0)為極小異常值,進而認為X(1),X(2),…,X(i0-1)均為極小異常值,終止檢驗。
若ti0<Ti0(α),則認為 X(i0)不是極小異常值,檢驗轉(zhuǎn)入步驟3。
步驟3:構(gòu)造檢驗統(tǒng)計量Ti0-1=對X(i0-1)嚴格單調(diào)減少。
若 ti0-1≥Ti0-1(α),則認為 X(i0-1)為極小異常值,進而認為 X(1),X(2),…,X(i0-2)均為極小異常值,終止檢驗。
若 ti0-1<Ti0-1(α),則認為 X(i0-1)不是極小異常值,檢驗轉(zhuǎn)入下一步驟。
如此下去,直至某一步終止檢驗。
如果一直沒有終止檢驗,則最后所構(gòu)造的檢驗統(tǒng)計量為:
若 t1≥T1(α) ,則 認 為 X(1)為 極 小 異 常 值 ,而X(2),X(3),…,X(i0)都不是極小異常值。
若t1<T1(α),則認為 X(1)不是極小異常值,也就是說整個樣本數(shù)據(jù)不存在極小異常值。
本文僅針對場合一(只存在極大異常值)通過算例分析來說明本文方法的應用。
例1[6]:取 n=r=16 ,x(1),x(2),…,x(14)來自標準指數(shù)分布(這14個數(shù)據(jù)見GB8056-87),并混入另兩個數(shù)據(jù)x(15),x(16)。16個樣本數(shù)據(jù)如下:
0.0667 ,0.1381,0.2150,0.2984,0.3893,0.4893,0.6004,0.7254,0.8682,1.0349,1.2349,1.4849,1.8182,2.3182,8.0411,8.0914
當 n=r=16 時,j0=12,Tj0(α)=Tj0(0.05)=1.2424 ,而Tj0的觀測值 tj0=1.0244<Tj0(α),不能說明 X(12)為極大異常值,進入下一步檢驗。
Tj0+1(α)=1.2113, 觀 測 值tj0+1=1.0194<Tj0+1(α)=1.2113,不能說明X(13)為極大異常值。進入下一步檢驗,Tj0+2(α)=1.1928 ,觀測值 tj0+2=1.0267<Tj0+2(α)=1.1928 ,不能說明 X(14)為極大異常值,進入下一步檢驗。Tj0+3(α)=1.1887 ,觀測值 tj0+3=1.3738>Tj0+3(α)=1.1887 ,則X(15)為極大異常值,進而X(16)也為極大異常值。
例2[9]:XXX飛機自上世紀70年代末裝備部隊以來,其飛機主要承力構(gòu)件機翼的疲勞、腐蝕等耗損問題日益突出,個別機翼或因斷裂而導致飛機事故,或因有裂紋而報廢。經(jīng)過多年的使用和部隊、翻修廠的普查,已經(jīng)積累一些裂紋尺寸、形狀與飛機時間相關的數(shù)據(jù)以及失效機翼主梁的壽命數(shù)據(jù)。如何分析并處理這些數(shù)據(jù),掌握它的分布情況,對確定主梁的疲勞壽命具有非常重要的意義。
航空工程上通常將材料的疲勞壽命認為是對數(shù)正態(tài)分布或者是Weibull分布,那么針對機翼主梁壽命更接近實際情況呢?XXX在使用過程中積累的主梁斷裂數(shù)據(jù)有限,所以采用本文的小樣本場合的擬合檢驗。文獻[9]給出了樣本容量為8的全樣本數(shù)據(jù)如下:
2865.28 ,2895.12,2895.2,2918.31,3077.52,3105.37,3127.12,3146.01
當 n=r=8時,j0=7,Tj0(α)=Tj0(0.05)=1.5398而 Tj0常值。
所謂異常數(shù)據(jù)通常是指一批數(shù)據(jù)中的個別者,其值明顯地偏離該批數(shù)據(jù)中的其余值。目前關于異常數(shù)據(jù)檢驗的難點主要是兩個,一是如何確定異常數(shù)據(jù)的個數(shù),二是構(gòu)造合適的檢驗統(tǒng)計量。
本文針對樣本數(shù)據(jù)服從兩參數(shù)Weibull分布,定數(shù)截尾樣本中出現(xiàn)異常數(shù)據(jù)的檢驗問題。從壽命X服從兩參數(shù)Weibull分布(形狀參數(shù)為m,刻度參數(shù)為η)的產(chǎn)品中任意取n個進行壽命試驗,到有r個失效時試驗停止(定數(shù)截尾壽命試驗),失效時間依次為:X(1)≤X(2)≤…≤X(r),其相應的次序觀察值為:x(1)≤x(2)≤…≤x(r)。參數(shù) σj)lnX(j)。由于各 X(1),X(2),…,X(n)對參數(shù) σ 的估計所起的作用是不一樣的,為此本文定義了各次序統(tǒng)計量的貢獻率。依據(jù)貢獻率的分析給出了異常數(shù)據(jù)的疑似個數(shù),在此基礎上,基于參數(shù)σ的最佳線性無偏估計(BLUE)構(gòu)造了異常數(shù)據(jù)的檢驗統(tǒng)計量,為方便實際工作者的應用,通過Monte Carlo模擬給出了檢驗統(tǒng)計量分布的分位數(shù)。最后通過兩個應用實例說明本文所給出的方法是切實可行的。
[2]費鶴良,陸向薇,徐曉嶺.極值分布和威布爾分布異常數(shù)據(jù)的檢驗方法[J].應用數(shù)學學報,1998,21(4).
[3]王蓉華,費鶴良,徐曉嶺.異常數(shù)據(jù)檢驗的均值比方法[J].數(shù)理統(tǒng)計與應用概率,1998,13(1).
[4]徐曉嶺,王蓉華.Weiull分布異常數(shù)據(jù)檢驗[J].數(shù)理統(tǒng)計與應用概率,1996,11(2).
[5]王蓉華,徐曉嶺.全國第五屆可靠性學術會議論文集[M].北京:機械工業(yè)出版社,1995.
[6]朱宏.指數(shù)分布樣本多個異常數(shù)據(jù)的檢測[J].電子學報,1994,22(12).
[7]田存志,張進,王學仁.指數(shù)分布中下異常值的逐步檢驗的改進[J].數(shù)理統(tǒng)計與應用概率,1998,13(1).
[8]中國電子技術標準化研究所.可靠性試驗用表(增訂本)[M].北京:國防工業(yè)出版社,1987.
[9]宣建光,馬康民.XXX機翼主梁的壽命分布研究[J].強度與環(huán)境,2000,(4).