李磊,葉友皓,袁永生
(河海大學(xué)理學(xué)院,江蘇南京211100)
在工程實踐中,由于電子產(chǎn)品的特性、運行成本等因素的影響,一般不可能進(jìn)行大量的重復(fù)試驗。從而造成實際能獲取的指標(biāo)樣本數(shù)據(jù)往往是小樣本數(shù)據(jù),采用經(jīng)典統(tǒng)計方法得到評估結(jié)果可信度一般都比較低。想要提高評估結(jié)果精度,縮短置信區(qū)間,就需要增加試驗數(shù)據(jù)。目前,工程領(lǐng)域已經(jīng)擁有不少成熟的方法來處理小樣本問題[1-3],這些方法大致可以分為兩大類:一類是傳統(tǒng)的估計方法Bayesian方法,該方法因為能夠利用歷史信息和專家經(jīng)驗等先驗信息從而得到了廣泛應(yīng)用。但是由于驗前信息來源廣泛各異,而且其分布形式的選擇也帶有很大的主觀性,使得Bayesian方法常常備受爭議,相比之下另外一類方法是以Bayesian Bootstrap方法為代表的方法[4-6]。該方法不需要任何的主觀假設(shè)和額外信息、完全依賴于試驗樣本本身信息且具有良好的穩(wěn)健性,工程上易實現(xiàn),比較適合分析小樣本問題[7]。
但是這種方法在特小樣本情況下,其估計結(jié)果可信度[15]會降低。針對這種情況,本文提出了改進(jìn)的Bayesian Bootstrap方法,這種方法的好處在于適當(dāng)擴(kuò)大樣本量的同時,合理的引進(jìn)了深度函數(shù)[16]以降低異常點的權(quán)重、緩解了異常點對整體數(shù)據(jù)的影響、充分的利用了全部樣本數(shù)據(jù)。從而在相同的置信水平下,有效的提高了預(yù)測精度,縮短了置信區(qū)間,使區(qū)間估計更具有穩(wěn)健性。
從統(tǒng)計學(xué)角度分析,產(chǎn)品性能參數(shù)[4]的研究可以歸為參數(shù)估計的范疇,是參數(shù)估計的具體實例。大量產(chǎn)品的性能參數(shù)我們都可以抽象的看成是某一個具體的隨機(jī)變量。為了下文的敘述方便,我們在本文中用隨機(jī)變量X來表示某種產(chǎn)品的任一性能參數(shù)。通過大量的試驗表明,隨機(jī)變量X通常是服從正態(tài)分布的,通常情況下要求產(chǎn)品的性能參數(shù)應(yīng)該始終在允許的誤差范圍內(nèi),即:
式(1)中,X?表示性能參數(shù)標(biāo)準(zhǔn)值;ΔX是性能參數(shù)允許的最大偏差。于是有
在(2)(3)中:XS表示性能參數(shù)的允許上限[8],XI表示性能參數(shù)的允許下限。
在工程研究中,假設(shè)某種產(chǎn)品的性能參數(shù)X獨立同分步,其樣本數(shù)據(jù)為(X1,X2,…,Xn),記為樣本X。其中Xi服從正態(tài)分布N(μ,σ2)μ,σ2未知,i=1,2,.…n,n為試驗的樣本總數(shù),由上文可知性能參數(shù)評估的關(guān)鍵是μ和σ2的確定 所以如何利用Bayesian Bootstrap方法[14]來更精確的估計μ和σ2是至關(guān)重要的。該方法的步驟[9]如下:
1)在區(qū)間(0,1)產(chǎn)生n-1個分布均勻隨機(jī)數(shù),U1,U2,…,Un-1,令U0=0,Un=1構(gòu)造隨機(jī)變量序列Vi=Ui-Ui-1(1,2,…,n),顯然有V1+V2+…Vn=1.0 且上述隨機(jī)變量滿足Dirichlet分布。
2)試驗樣本均值
3)試驗樣本方差
4)重復(fù)步驟1)至3),直到上式(4)(5)計算結(jié)果的平均值達(dá)到穩(wěn)定為止,從而求出均值和方差的估計。顯然該方法的實質(zhì)就是針對小樣本,通過數(shù)字仿真來增大樣本量,從而更好的達(dá)到參數(shù)估計的目的。
根據(jù)已有的相關(guān)研究經(jīng)驗[5]可以知道,Bayesian Bootstrap方法參數(shù)估計精度的高低嚴(yán)重依賴于樣本X的容量,只有當(dāng)樣本容量n比較大時,樣本均值θμ和樣本方差θS的估計值才能更好的逼近μ和σ2,這主要是因為該方法是在其原有信息的基礎(chǔ)上產(chǎn)生一定量的隨機(jī)數(shù)來擴(kuò)大樣本容量,從而以達(dá)到參數(shù)估計的目的。然而在樣本量特別小的情況下(n≤10),θμ和θS與μ和σ2之間產(chǎn)生的差異就會比較大。文獻(xiàn)[9]中認(rèn)為樣本容量在10左右就可以用Bayesian Bootstrap方法。下面給出一個簡單的例子來進(jìn)行說明,在這種情況下用Bayesian Bootstrap方法來進(jìn)行估計的結(jié)果可能會與參數(shù)的真實值差別過大。
假設(shè)某種產(chǎn)品的性能參數(shù)服從正態(tài)分布N(100,25),從中隨機(jī)抽取兩組樣本,樣本容量n=10。
利用Bayesian Bootstrap方法分別對樣本一和樣本二作出均值和方差的抽樣分布如圖1所示。
圖1 樣本一和樣本二均值和方差的抽樣分析圖
假設(shè)其仿真次數(shù)為10 000次。由圖可以看出用此種方法仿真出來的均值都集中在μ附近,然而樣本仿真出來的方差則偏離σ2較大,當(dāng)樣本容量過于小時,用Bayesian Bootstrap方法仿真得出結(jié)果的可信度是值得懷疑的,有待進(jìn)一步推敲。鑒于上述問題,應(yīng)盡力尋找一種方法。該方法應(yīng)該盡量達(dá)到擴(kuò)大樣本容量的目的。
針對上述方法產(chǎn)生的問題,本文提出了對Bayesian Bootstrap方法[13]的進(jìn)一步改進(jìn)措施,在介紹改進(jìn)方法之前,先介紹一種穩(wěn)健的區(qū)間估計方法:改進(jìn)的PWM方法[10-12],PWM方法是一種由左義君首次提出的一種有效,穩(wěn)定的區(qū)間估計法。這種方法的好處在于對樣本數(shù)據(jù)進(jìn)行加工處理,并合理的利用深度函數(shù)來減少異常點和重尾分布的影響。但是從已有的文獻(xiàn)中可以看出、該方法本身是存在缺陷的。特別是樣本容量較小的情況下,會出現(xiàn)溢出、按深度截尾得到的區(qū)間會出現(xiàn)倒置的情況?;赑WM方法本身的優(yōu)點、和其可能存在的缺陷。本文介紹了一種改進(jìn)的PWM方法[10],這種方法的優(yōu)點在于對原來的深度函數(shù)進(jìn)行了重新定義,并使用深度函數(shù)來抑制異常點的影響,從而使得到的置信區(qū)間更加精確。
1)設(shè)X=(x1,x2,…xn)為任意樣本,令Med(X)作為樣本的中位數(shù)、MAD(X)作為{x-Med(X),(i=1,2,…n)}的中位數(shù)。
2)定義深度函數(shù):
3)定義權(quán)函數(shù):
該權(quán)函數(shù)是負(fù)指數(shù)類型的權(quán)函數(shù),這里的k是正整數(shù),c是權(quán)重的控制系數(shù),m是影響半徑。
4)定義深度加權(quán)平均PWM:ωi=ω(PD(xi,X)),,在這里,可以證明PWM不僅是具有漸進(jìn)正態(tài)性的,而且還有PWM(X)→μ(n→∞ )。
5)利用Bayesian Bootstrap方法對原始樣本進(jìn)行抽樣,可以得到B個樣本,對每一個樣本都按照上述步驟,可以得到PWM(1)PWM(2)…PWM(B),對這些值,按照從小到大的順序排序,可以得到PWM(1),PWM(2),…PWM(B),然后可以按照百分位法截尾,可以得到置信水平為1-α的置信區(qū)間是。
假定(X1,X2…Xn)是隨機(jī)來自總體的的n個樣本,將這n個數(shù)據(jù)按時間順序分成K組,每組數(shù)據(jù)的長度記為h,記為B1=(X1,…Xh),…BK=(XK,…Xn),其中K=n-h+1;經(jīng)過拆分,就是指對這K組數(shù)據(jù)進(jìn)行了重新抽樣,如果n可以整除h,將這n h個數(shù)據(jù)組重新拼在一起的樣本容量大小仍然為n。對樣本的重組擴(kuò)充步驟[5]如下:
1)將B1=(X1,…Xn)中的數(shù)據(jù)按順序從小到大排列,排好的數(shù)據(jù)為:(X(1),X(2)…X(h)),對順序統(tǒng)計量X(i)的觀測值x(i)作如下的鄰域:
這里的p≥2。
2)在鄰域U1=[x(1)-(x(2)-x(1))/p,x(1)+(x(2)-x(1))/p]中取得x(0)在鄰域Uh=[x(h)-(x(h)-x(h-1))/p,x(h)+(x(h)-x(h-1))/p]中取得x(h+1);通過這種方式,把第一組的樣本量擴(kuò)充為h+2個。
3)重復(fù)上述步驟1)~2),可以將這K組數(shù)據(jù)進(jìn)行樣本容量的擴(kuò)充,那么擴(kuò)充后的樣本容量增加為n+2K個。
4)把這K組擴(kuò)充后的樣本再合并,作為再生樣本進(jìn)行抽樣,并且利用Bayesian Bootstrap方法對擴(kuò)充合并后的樣本進(jìn)行再抽樣得到B1個樣本,對于這每一個樣本都按照3.1中的步驟進(jìn)行,可以得到改進(jìn)后 置 信 水 平 為 1-α的 置 信 區(qū) 間 是。
本文分別選取正態(tài)總體N(0,1),泊松分布總體P(4)以及指數(shù)分布總體Exp(1/4),然后運用MATLAB軟件進(jìn)行模擬抽樣,分別取出服從這3種分布的隨機(jī)樣本,令樣本容量分別為7,10,20,并且取重抽樣的次數(shù)M為500次。運用經(jīng)典方法、百分位法、及改進(jìn)的Bayesian Bootstrap進(jìn)行區(qū)間估計,程序運行得到的結(jié)果如表1所示。通過表1可以看出:在分布是同一總體的分布下,改進(jìn)的Bayesian Bootstrap方法較傳統(tǒng)經(jīng)典方法和百分位法得到的結(jié)果更好,精度更高,而且所得到的置信區(qū)間的平均長度也更短。
表1 3種方法下3種分布置信水平為95%的隨機(jī)模擬500次置信區(qū)間的平均長度
為了驗證上述方法的有效性,我們以航天飛機(jī)的某種電子元件為例來進(jìn)行驗證分析。假設(shè)這種電子元件的壽命服從正態(tài)分布,從一批產(chǎn)品中隨機(jī)抽取10個,測得其壽命為:1 216.36,1 208.73,1 214.38,1206.27,1116.72,1178.37,1259.46,1142.68,1259.55,1 259.46。借助計算機(jī)仿真10 000次,然后我們分別用傳統(tǒng)的小樣本估計方法、Bayesian Bootstrap方法、改進(jìn)Bayesian Bootstrap方法來對參數(shù)μ作點估計和區(qū)間估計。
如果我們采用傳統(tǒng)的方法來計算,可以得到μ的點估計μˉ=1 200.6,則μ的置信度為0.95的置信區(qū)間為[1 173.88,1 226.26]因為n=10樣本容量非常小,如果直接采用傳統(tǒng)的方法來對參數(shù)進(jìn)行估計,則所得到結(jié)果可信度將是大打折扣的,如果考慮運用改進(jìn)Bayesian Bootstrap方法。構(gòu)造并產(chǎn)生N=10 000組的自助統(tǒng)計量,運用經(jīng)典的統(tǒng)計方法及Bayesian Bootstrap方法和改進(jìn)的Bayesian Bootstrap方法方法得到參數(shù)μ的點估計見表2。
表2 3種方法的評估結(jié)果比較表
由表2的數(shù)據(jù)顯示,改進(jìn)的Bayesian Bootstrap方法對參數(shù)μ的點估計與參數(shù)的真實值是最接近的,精度也有所提高。而且在置信度相同的情況下對參數(shù)μ的區(qū)間估計精度明顯要比經(jīng)典的統(tǒng)計方法、和Bayesian Bootstrap方法要好。
在樣本容量為小樣本數(shù)據(jù)的情況下,本文提出一種改進(jìn)的Bayesian Bootstrap方法,通過相關(guān)的數(shù)據(jù)模擬和實例驗證分析,分別比較了經(jīng)典的統(tǒng)計方法、百分位方法和改進(jìn)的Bayesian Bootstrap方法、結(jié)果顯示改進(jìn)的Bayesian Bootstrap方法較之以前的方法具有更高的精度,在同等置信水平下,得到置信區(qū)間的長度較短,真值覆蓋率較高。因此該方法能夠很好的應(yīng)用于武器精度,和產(chǎn)品壽命等小樣本估計問題的相關(guān)領(lǐng)域中。
[1]王囡.Bayes可靠性評價中驗前信息的可靠度研究[D].長沙:國防科技技術(shù)大學(xué),2012.
[2]張雷.基于Bayes理論的重型數(shù)控機(jī)床可靠性評定方法研究[D].燕山:燕山大學(xué),2013.
[3]江賽.基于Bayes Bootstrap的特種設(shè)備可靠性模型參數(shù)確定方法[J].電子工程設(shè)計,2012,20(4):67-72.
[4]萬讓鑫,吳西良.基于Bayesian Bootstrap小樣本產(chǎn)品性能可靠性評估[J].信息技術(shù),2012(5):174-176.
[5]孫慧玲,胡偉文.Bayes Bootstrap方法在小樣本參數(shù)估計中的應(yīng)用[J].計算機(jī)與數(shù)字工程,2016(5):1-4.
[6]曹軍海,杜海東,申瑩.基于改進(jìn)Bayes-Bootstrap方法的系統(tǒng)可靠性仿真評估[J].裝甲兵工程學(xué)院學(xué)報,2016,30(1):95-98.
[7]孫慧玲,胡偉文.小樣本條件下參數(shù)估計方法比較研究[J].統(tǒng)計與決策,2014(12):1-5.
[8]劉江,姚安東.新型彈藥可靠性評估方法[J].兵工自動化,2014(5):1-3.
[9]黃金龍,汪立新.基于改進(jìn)Bayes Bootstrap陀螺儀壽命預(yù)測研究[J].壓電與聲光,2014(6):384-387.
[10]相榮霞.有效的再抽樣區(qū)間估計及在新壩安全監(jiān)測中的應(yīng)用[D].南京:河海大學(xué),2013.
[11]呂鵬,袁永生,等.小樣本下改進(jìn)的PTM方法及其在導(dǎo)彈精度評定中的應(yīng)用[J].重慶理工大學(xué)學(xué)報:自然科學(xué)版,2014(4):139-142.
[12]相榮霞,袁永生,戴啟璠,等.改進(jìn)的PWM方法及小樣本下的穩(wěn)健區(qū)間的估計[J].曲阜師范大學(xué)學(xué)報,2012 38(4):25-27.
[13]康慧,戴啟璠,袁永生,兩種改進(jìn)的PWM方法及其在徑流區(qū)間估計中的應(yīng)用[J].云南民族大學(xué)學(xué)報,2015,24(4):354-358.
[14]盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計[M].4版.北京:高等教育出版社,2008.
[15]黃瑋,馮蘊雯,呂震宙.基于Bootstrap方法的小子樣試驗評估方法研究[J].機(jī)械科學(xué)與技術(shù),2006,25(1):31-35.
[16]LIU Xiao-hui,ZUO Yi-jun,Computing projection depth and its associated estimators[M].New York:Springer Science,2012.