薄 云,廖學軍,白 宇
(1.航天工程大學研究生院,北京 101416;2.中國白城兵器試驗中心,吉林 白城 137001;3.航天工程大學航天裝備保障系,北京 102206;4.國防大學聯(lián)合勤務學院,北京 100858)
作戰(zhàn)試驗以模擬實戰(zhàn)的方式,考察武器裝備是否適用于期望的作戰(zhàn)環(huán)境并完成既定的作戰(zhàn)任務[1]。它為軍方預測武器裝備未來的戰(zhàn)場表現(xiàn),并據(jù)此決策是否批量采購工業(yè)部門的武器裝備,提供了最公正客觀的數(shù)據(jù)支撐。當前的作戰(zhàn)試驗研究,主要集中在概念內(nèi)涵、目標任務、管理機制和實施流程等方面,雖然有文獻指出阻礙作戰(zhàn)試驗科學發(fā)展的瓶頸之一是樣本量的控制問題[2-6],但尚未明確提出作戰(zhàn)試驗樣本量的估算標準和方法。
考慮到統(tǒng)計學對于試驗鑒定的基礎性支撐作用,從控制兩類錯誤的角度給出了作戰(zhàn)試驗的樣本量估算準則;通過分類研究作戰(zhàn)試驗三類考核的數(shù)學模型,推導了它們的一般化形式,并據(jù)此設計了作戰(zhàn)試驗樣本量的通用估算方法,可為作戰(zhàn)試驗的后續(xù)開展提供良好參考。
統(tǒng)計學中的假設檢驗指的是先對被研究對象的總體參數(shù)提出一個假設,然后通過樣本的信息來推斷這一假設是否成立,這一過程即被稱為假設的統(tǒng)計檢驗[7]。它的論證過程類似于反證法,即在原假設H0成立的前提下,如果出現(xiàn)試驗樣本的概率極低,則認為原假設H0非??梢?,故支持它的被擇假設Ha,即研究希望證明的假設。
很顯然,由于試驗的隨機性,依據(jù)樣本推斷總體必定存在出錯概率。在假設檢驗中,把H0為真時,拒絕H0的情況稱為第1 類錯誤;把Ha為真時,不拒絕H0的情況稱為第2 類錯誤。它們是研究人員基于樣本數(shù)據(jù)推斷總體信息時會遇到的兩類風險。
在假設檢驗當中,控制第1 類錯誤發(fā)生概率的統(tǒng)計工具是顯著性水平[7]。它是第1 類錯誤出現(xiàn)概率的可接受水平,記為α??刂频? 類錯誤發(fā)生概率的統(tǒng)計工具是統(tǒng)計功效[7]。它是不出現(xiàn)第2 類錯誤的概率,記為(1-β),其中,β 是犯第2 類錯誤的概率。
實際的研究普遍關注顯著性水平,卻常常忽略統(tǒng)計功效[8-11]。由于研究經(jīng)費限制,很多試驗的統(tǒng)計功效低下,加之這些研究的備擇假設并不一定成立,因此,報告的很多結(jié)果是第1 類,或第2 類錯誤。這種情況在研究界非常普遍,甚至很多頂級刊物也無法避免[8-11]。如圖1 所示,對某一個特定的研究問題而言,所有正確的備擇假設占所有假設的比例分別為50 豫和10 豫時,通過α 為0.05 的假設檢驗找出正確結(jié)論的比例PPV(Positive Predictive Value),會隨著統(tǒng)計功效的降低而迅速降低。
圖1 中的綠色色塊代表沒有效應并被正確識別的結(jié)論,紅色色塊代表沒有效應但被錯誤識別的結(jié)論(第1 類錯誤),藍色色塊是存在效應并被正確識別的結(jié)論,灰色色塊是存在效應但被錯誤識別的結(jié)論(第2 類錯誤)??梢钥闯觯詷颖就茢嗫傮w,其正確率隨著統(tǒng)計功效的提升而提升(圖中的左、中、右對比),并且這種情況會隨著正確結(jié)論占所有結(jié)論的比例的降低而迅速惡化(圖中的上、下對比)。
由于被試武器裝備是否具備宣稱的創(chuàng)新成效關系到戰(zhàn)爭勝敗和人員安危,因此,試驗結(jié)論的重要性不言而喻。如圖1 的左下分圖所示,當(1-β)為0.2 時,PPV 僅為0.31,即在10 型通過作戰(zhàn)試驗的武器裝備中,大約僅有3 型才真正具備宣稱的作戰(zhàn)效能和作戰(zhàn)適用性。這種結(jié)果顯然是災難性的。
由于假設檢驗一般令顯著性水平為0.05,而統(tǒng)計功效隨樣本量的增加而增加[12],故鑒于其重要影響,可把統(tǒng)計功效作為樣本量估算的客觀準則。
為估算作戰(zhàn)試驗的樣本量,必須明確其指標考核的數(shù)學模型,然后才能具體問題具體分析。故首先把作戰(zhàn)試驗的指標考核分為三類,并分別對其建模,考慮到構(gòu)建通用的樣本量估算方法的需求,探討了三類模型的一般化形式。
作戰(zhàn)試驗考察的指標雖然數(shù)量眾多,但從統(tǒng)計學的視角來看,大體可歸為三類統(tǒng)計模型。
2.1.1 與閾值進行比較的模型
2.1.2 與基線進行比較的模型
可以看出,式(1)、式(4)~式(6)是逐步一般化的,即前一個模型是后一個模型的特殊形式。
如果把被試武器裝備之外的所有作戰(zhàn)因素綜合起來,當成被考察指標Y 的干擾因素,在作戰(zhàn)試驗中開展假設檢驗基于的模型即為式(1)。用到的檢驗方法主要是t 檢驗,其檢驗過程如圖2 所示。
圖2 與閾值比較的檢驗過程
如果考慮到基線作戰(zhàn)力量與被試武器裝備在被考察指標方面確實存在差異,并將這種差異加入式(1),并體現(xiàn)出一個基線作戰(zhàn)力量或多個基線作戰(zhàn)力量的差別,在作戰(zhàn)試驗中開展假設檢驗基于的模型即為式(4)或式(5),用到的檢驗主要是t 檢驗、方差分析(ANOVA)和Turkey-Kramer HSD 檢驗,其檢驗過程如圖3 所示。
圖3 與(多)基線比較的檢驗過程
圖4 作戰(zhàn)要素研究的初始模型
圖5 作戰(zhàn)要素研究的精確模型
考慮到基于式(4)或式(5)所示數(shù)學模型開展的假設檢驗分別為t 檢驗和方差分析。而該兩種檢驗方法從本質(zhì)上與基于式(6)開展的檢驗方法并沒有本質(zhì)區(qū)別。因此,式(6)即為作戰(zhàn)試驗指標考核的一般化模型。
它反映了指標Y 的總變異。如令SSR 為其第1項,則它反映了該模型對于指標Y 變異情況的解釋程度,令SSE 為其第2 項,則它反映了模型未能對指標Y 進行解釋的程度大小。于是,因為SST 的自由度為n-1,SSR 的自由度為p-1,SSE 的自由度n-p,令SSR 和SSE 分別除以其各自的自由度,則得到回歸均方MSR 和殘差均方MSE:
顯然,MSE 是σ2的無偏估計。而當模型6 不具備對于指標Y 的解釋能力時,MSR 的數(shù)學期望也是σ2,且MSE 和MSR 相互獨立,分別服從自由度為n-p 和p-1 的卡方分布。因此,定義統(tǒng)計量F:
圖6 樣本量估算的過程演示
當作戰(zhàn)試驗進入樣本量估算環(huán)節(jié),已經(jīng)確定的內(nèi)容包括影響因素、考核模型,需要確認的內(nèi)容是給定顯著性水平和統(tǒng)計功效條件下的試驗次數(shù)。于是,dfhyp是常數(shù),待求的樣本量等于dfhyp與dferr的和加1。待求的樣本量問題則轉(zhuǎn)化為求取給定顯著性水平和統(tǒng)計功效條件下的dferr。文獻[15]在其附錄E中提供了一份針對不同顯著性水平、統(tǒng)計功效、PV情況下dferr的調(diào)查表。所以,為了驗證武器裝備作戰(zhàn)試驗定量指標考核樣本量估算通用算法的有效性,可以對照調(diào)查表,分析比較兩種算法。即按照前文討論的樣本量通用估算方法計算了PV 從0.01 變化到0.7,dfhyp從1 變化到10,顯著性水平為0.05,統(tǒng)計功效為0.8 的370 種情況下的dferr,其與調(diào)查表對應結(jié)果的差值Δdferr如表1 所示,Δdferr隨不同PV 和dfhyp的變化趨勢如圖7、圖8 所示。
圖7 Δdferr在各dfhyp 下的集中趨勢
圖8 Δdferr在各PV 下的集中趨勢
分析表1 可以看出二者計算結(jié)果非常接近,且差異隨PV 增加迅速減小,當PV >0.1 時,與各PV對應的dferr的差異迅速降為0;兩者結(jié)果的差異隨dfhyp變化而發(fā)生變化的幅度較小,與各dfhyp對應的dferr的差異的平均值未超過4,中位數(shù)更是沒有超過2,并且兩者結(jié)果的差異隨著dfhyp的減小而迅速降為0。另外,從圖7、圖8 和表1 也可以看出二者計算結(jié)果差異變化范圍很小,差異變化的幅度隨PV的增大和/或dfhyp的減小而迅速減小,即圖7、圖8的經(jīng)驗概率分布在此處的概率密度迅速提升。
表1 殘差項自由度計算結(jié)果的差值
本文針對我軍武器裝備作戰(zhàn)試驗指標考核的3種基本形式,推導了它們的統(tǒng)計學模型,依據(jù)統(tǒng)計功效分析,設計了通用化的樣本量估算方法,通過算例對其進行了演示分析。主要結(jié)論有:
1)作為我軍武器裝備作戰(zhàn)試驗各類評估的數(shù)據(jù)來源,它的指標考核主要有“與閾值比較”、“與基線比較”、“考察作戰(zhàn)要素”3 種基本形式;
2)這3 類基本形式的作戰(zhàn)試驗指標考核可以統(tǒng)一到式(6)所示的回歸模型,并由此構(gòu)建武器裝備作戰(zhàn)試驗樣本量估算的通用化算法;
3)通過算例可以看出,本文算法在精度上可替代查表法,但與覆蓋范圍有限的樣本量查表相比,靈活性更好,可無縫嵌入作戰(zhàn)試驗設計軟件系統(tǒng),更適合相關策劃的決策輔助。