柯肇捷, 周文雅
(1.大連理工大學 石油與化學工程學院, 遼寧 盤錦 124221; 2.大連理工大學 航空航天學院, 遼寧 大連 116024)
武器裝備試驗鑒定是武器裝備全壽命管理中的一個重要環(huán)節(jié),隨著武器裝備的網(wǎng)絡化、體系化、智能化發(fā)展,試驗目的復雜多樣,試驗成本越來越高,致使試驗鑒定難度越來越大,通常只能進行少量的外場對抗性試驗[1],小樣本試驗數(shù)據(jù)的參數(shù)估計、基于小樣本試驗數(shù)據(jù)的評估等技術已成為裝備試驗鑒定領域急需解決的關鍵難題。
目前的小樣本數(shù)據(jù)處理主要采取兩個思路:
1) 概率統(tǒng)計法,包括經(jīng)典的統(tǒng)計方法和Bayes方法。經(jīng)典的統(tǒng)計方法對樣本分布模型進行假設,基于數(shù)學期望對原始試驗數(shù)據(jù)進行點估計,但是由于試驗過程的動態(tài)性和不確定性,原始試驗數(shù)據(jù)在本質(zhì)上未必屬于同一總體,難以滿足關于獨立、同分布的前提,使得統(tǒng)計處理出現(xiàn)較大的風險。Bayes方法在小子樣處理領域獲得了較為廣泛的應用[1-4],如:文獻[3]利用Bayes理論和驗前信息,提出了利用序貫驗后加權檢驗方法以及截尾序貫驗后加權檢驗方法對維修性指標進行驗證評定;文獻[4]基于Bayes可靠性理論建立某挖掘機小樣本數(shù)據(jù)的可靠性模型。Bayes方法能在保證決策風險盡可能小的情況下綜合利用多種信息類型,但是需要利用驗前信息,而如何獲得驗前信息并確定其概率分布形式是應用的難題。
2)基于不確定性理論的非統(tǒng)計法包括兩種模式:一種是直接利用不確定理論相關方法,如文獻[5]結(jié)合泛函的范數(shù)理論和灰色系統(tǒng)[6]的灰色關聯(lián)原理,提出了灰色距離信息方法來進行電子裝備試驗數(shù)據(jù)的參數(shù)估計處理,這種方法不能給出參數(shù)估計的置信度;另一種是利用不確定理論相關方法產(chǎn)生虛擬總體樣本[7],通過數(shù)據(jù)融合進行參數(shù)估計。如:文獻[8]提出一種乏信息空間機械臂隨機振動數(shù)據(jù)估計的灰自助方法[9-10],以解決經(jīng)典的統(tǒng)計學方法無法解決的乏信息數(shù)據(jù)評估問題,該方法不涉及原始數(shù)據(jù)的概率分布問題;文獻[11]提出一種適用于小樣本巖土參數(shù)區(qū)間估計的改進灰自助方法。
本文基于灰自助和未確知數(shù)學方法[12-13],提出小樣本數(shù)據(jù)處理的一種新途徑,介紹處理流程和實現(xiàn)模型,并進行算例驗證。
在武器裝備試驗中,假設針對某一測試指標得到的測量數(shù)據(jù)集合為
X={x(t);t=1,2,…,N},
(1)
式中:x(t)為第t個測量數(shù)據(jù);N為測量數(shù)據(jù)總數(shù)。N個小樣本數(shù)據(jù)所攜帶的信息不足以確定測試指標的真實狀態(tài)和數(shù)量關系,決策者只能部分地認識測試指標的真實狀態(tài)。按照灰色系統(tǒng)理論的觀點,這種認知呈現(xiàn)出典型的“部分已知、部分未知”的灰色狀態(tài)。
自助抽樣原理的基本思路是從測量數(shù)據(jù)集合X中等概率可放回地隨機抽取1個數(shù)據(jù),記為x1(1),該抽取過程重復m次即可得到第1個自助樣本,記為
X1={x1(1),x1(2),…,x1(m)}.
(2)
將上述獲得自助樣本的整體抽取過程連續(xù)重復A次,會得到A個自助再抽樣樣本,再抽樣樣本集合可記為
Y={X1,X2,…,Xi,…,XA},
(3)
式中:Xi={xi(1),xi(2),…,xi(m)}。
針對自助樣本Xi建立灰色模型GM(1,1),假設其一次累加生成序列為
(4)
(5)
(6)
(7)
式中:k=1,2,…,m.
在(7)式中令k=m-1,m,通過一次累減生成算法即可得到自助樣本Xi中第m+1個預測值,記為
(8)
于是得到新的測試指標測量數(shù)據(jù)集合為
X={x(1),…,x(N),x(N+1),…,x(N+A)}.
(9)
由此可以看出,使用灰自助方法可以對原始乏信息數(shù)據(jù)序列進行充分挖掘,擬合生成較多的系統(tǒng)信息,且生成過程不依賴于原始數(shù)據(jù)序列的概率分布信息。需要指出的是:并非所有小樣本試驗數(shù)據(jù)均適用灰自助再抽樣方法,需要根據(jù)發(fā)展系數(shù)等參數(shù)的取值范圍確定模型GM(1,1)是否適用;另外,模型GM(1,1)具有明確均值GM(1,1)模型(EGM)、原始差分GM(1,1)模型(ODGM)、均值差分GM(1,1)模型(EDGM)等多種基本形式,實際建模過程中需要根據(jù)數(shù)據(jù)形態(tài)選擇合適的GM(1,1)模型形式[14]。
第1節(jié)挖掘生成的測量數(shù)據(jù)集合X中N+A個數(shù)據(jù)不能使決策者完全把握測試指標的真實狀態(tài),對測試指標真實狀態(tài)的認知在性質(zhì)上還是“部分已知、部分未知”,但是相比于N個數(shù)據(jù)所表征灰色信息的“部分已知、部分未知”,它們又有重要的區(qū)別,前者“部分已知、部分未知”中已知部分要多于后者。對N+A個數(shù)據(jù)進行參數(shù)估計,如果采用常規(guī)的統(tǒng)計方法,則首先必須假設數(shù)據(jù)的分布特征,但是這個假設的合理性和可行性難以驗證。而表征測試指標真實狀態(tài)的N+A個數(shù)據(jù)在本質(zhì)上屬于未確知信息的范疇,是純主觀上、認識上的不確定性信息,未確知信息通常用未確知有理數(shù)進行描述。因此本文直接引入未確知有理數(shù)方法,避免對生成數(shù)據(jù)進行分布規(guī)律的假設。
針對(9)式所示挖掘生成的測量數(shù)據(jù)集合X,可以利用N+A個數(shù)據(jù)來構造一個k(k a=min{x(1),…,x(N),x(N+1),…,x(N+A)}, (10) b=max{x(1),…,x(N),x(N+1),…,x(N+A)}, (11) (12) 很顯然,(12)式中a≤xi≤b,通常對區(qū)間[a,b]進行2k個等值劃分,使得該區(qū)間數(shù)據(jù)值xi的領域控制半徑均相等,則可得到試驗數(shù)據(jù)取值xi的表達式為 (13) 可信度αi則用試驗數(shù)據(jù)值xi控制半徑內(nèi)數(shù)據(jù)出現(xiàn)的頻率進行表示,即有 (14) 利用未確知有理數(shù)對挖掘生成后的測量數(shù)據(jù)集合進行表達,較好地反映了測試指標的數(shù)據(jù)值分布情況,可信度αi只是表明了取值xi的不確定性程度。信息論中熵被定義為信息的均值,不確定性越大,熵也越大。針對測量數(shù)據(jù)集合,將未確知有理數(shù)中k個取值所提供的平均信息量定義為可信度熵,則可信度熵反映了對該測試指標認識的不確定性程度。區(qū)間[a,b]上取值xi的頻率越均勻(即取值越分散),對測試指標的刻畫越復雜,不確定性程度就越大,未確知有理數(shù)的可信度熵也就越大。為了從不確定的事情中獲取最大的信息量,所構造未確知有理數(shù)的可信度熵越大就越能刻畫測試指標。因此,當可信度熵取最大值時,可以估計未確知有理數(shù)的最佳階數(shù)。 對于(12)式構造的k階未確知有理數(shù),其可信度熵定義為 (15) 基于2.1節(jié)的構造與2.2節(jié)的優(yōu)化過程,將描述測量數(shù)據(jù)集合X的k*階未確知有理數(shù)A記為[[a,b],φ(x)],其中 (16) 通過k*階未確知有理數(shù)A的構造,實際上有了測試指標樣本總體的離散化值x1,…,xk*,通過小樣本的灰自助生成已求得其中每一個xi的出現(xiàn)頻率,但仍然不能確定樣本總體的分布類型?;诰毓烙嫹?,稱下列1階未確知有理數(shù) (17) 為未確知有理數(shù)A的數(shù)學期望,也稱E(A)為未確知期望或均值。 用方差D(A)來描述未確知有理數(shù)A到E(A)的離散程度,即 D(A)=E(A-E(A))2. (18) (19) (20) 則定義上述點估計的置信度為 (21) 除了用上述點估計給出測試指標的近似值外,還可以用區(qū)間估計法給出其取值范圍,即將估計誤差用醒目的形式標示出來。但是區(qū)間估計需要假設樣本總體的分布特征,對于武器裝備的測試指標數(shù)據(jù),一般假設其服從正態(tài)分布。需要指出的是,區(qū)間估計中的置信水平反映了估計的可靠性(與未確知有理數(shù)中的可信度有本質(zhì)的區(qū)別),表達了待估參數(shù)落入估計區(qū)間的概率大小,概率越大,可靠性越高。 給定置信水平1-β,從表1所示的常用標準正態(tài)分布上側(cè)β分位點表中查詢u(β/2),基于(22)式計算給定置信水平下的置信區(qū)間半長度ε: (22) 表1 常用標準正態(tài)分布上側(cè)β分位點表Tab.1 Upper β quantilesTable of standard normal distribution 針對挖掘生成的N+A個數(shù)據(jù),假設有t個數(shù)據(jù)位于上述置信區(qū)間之外,則定義置信水平1-β下區(qū)間估計的置信度為 (23) 基于灰自助和未確知有理數(shù)的小樣本數(shù)據(jù)估計方法,就是將灰色自助方法和未確知有理數(shù)處理方法有機地結(jié)合起來,對小樣本數(shù)據(jù)進行點估計和區(qū)間估計,其原理如圖1所示。 圖1 基于灰自助和未確知有理數(shù)的數(shù)據(jù)估計原理Fig.1 Data estimation principle based on grey bootstrap method and unascertained rational number 為了驗證算法的有效性,對某型裝備試驗中的干擾功率測試數(shù)據(jù)X={93.5,92.6,93.7,92.5,93.1,93.5}進行參數(shù)估計。 利用灰自助方法獲得新的測試指標測量數(shù)據(jù)集合為{93.5, 92.6, 93.7, 92.5, 93.1, 93.5, 93.1, 92.7, 93.2, 93.6, 92.8, 94.0, 93.0, 92.5, 93.4, 93.0, 92.7, 92.2, 92.9, 92.1, 93.1, 93.4, 93.0, 92.5, 93.4, 92.8, 92.1, 92.9, 92.6, 94.0}、總共30個數(shù)據(jù),其中最大值為94.0,最小值為92.1. 分別構造k階未確知有理數(shù),其對應的可信度熵Sk如表2所示。 表2 不同階數(shù)未確知有理數(shù)的可信度熵Tab.2 Credibility entropies of unascertained rational numbers of different orders 根據(jù)表2中計算結(jié)果和未確知有理數(shù)階數(shù)優(yōu)化原理,本算例構造3階未確知有理數(shù)[[92.1,94.0],φ(x)],其中 假設置信水平為0.99,則β=0.01,計算給定置信水平下的置信區(qū)間半長度ε=0.93,則得到置信區(qū)間為[92.07,93.93],這時生成數(shù)據(jù)集合有2個點位于上述區(qū)間之外,覆蓋全部原始測試數(shù)據(jù),區(qū)間估計的置信度為pi=93.3%. 本文提出了基于灰自助和未確知有理數(shù)的小樣本數(shù)據(jù)估計方法,給出了其點估計、區(qū)間估計以及估計置信度模型,并進行了算例驗證。得出以下結(jié)論: 1) 同一置信水平下,相比于灰自助方法,基于本文方法的估計區(qū)間能更多地覆蓋生成數(shù)據(jù)集合和原始測試數(shù)據(jù)。例如置信水平0.99時,本文方法覆蓋生成數(shù)據(jù)集合28個點和全部原始測試數(shù)據(jù),灰自助方法僅覆蓋生成數(shù)據(jù)集合11個點和1個原始測試數(shù)據(jù)。 2) 相比于Bootstrap方法,本文方法有效地擴展了原始觀測數(shù)據(jù)。 3) 該方法不假設原始數(shù)據(jù)的概率分布特征,能有效地解決裝備測試數(shù)據(jù)的參數(shù)估計問題。 4) 針對本方法的推廣應用,下一步可對灰自助抽樣生成數(shù)據(jù)的精度問題、生成數(shù)據(jù)的樣本量優(yōu)化問題等進行深入研究。2.2 未確知有理數(shù)階數(shù)的優(yōu)化
3 基于未確知有理數(shù)的參數(shù)估計
3.1 基于未確知有理數(shù)的點估計
3.2 基于未確知有理數(shù)的區(qū)間估計
4 小樣本試驗數(shù)據(jù)估計算例
5 結(jié)論