楊文光, 吳云潔, 王建敏
(1.華北科技學(xué)院 基礎(chǔ)部 河北 三河 065201;2.北京航空航天大學(xué) 自動(dòng)化科學(xué)與電氣工程學(xué)院 北京 100191)
?
基于熵權(quán)法的小樣本灰色置信區(qū)間估計(jì)
楊文光1, 2,吳云潔2,王建敏2
(1.華北科技學(xué)院 基礎(chǔ)部河北 三河 065201;2.北京航空航天大學(xué) 自動(dòng)化科學(xué)與電氣工程學(xué)院北京 100191)
摘要:針對(duì)小樣本數(shù)據(jù)的灰色點(diǎn)估計(jì)和灰色區(qū)間估計(jì)問(wèn)題,將樣本誤差均值、樣本誤差標(biāo)準(zhǔn)差引入到灰色距離測(cè)度中,改進(jìn)了已有灰色估計(jì)算法.在對(duì)小樣本數(shù)據(jù)進(jìn)行密集擴(kuò)充過(guò)程中,可以提高灰色估計(jì)的區(qū)分度.該算法利用數(shù)據(jù)本身分布特點(diǎn),設(shè)計(jì)了數(shù)據(jù)間的灰色距離矩陣,提出了基于熵權(quán)法的灰色點(diǎn)估計(jì)權(quán)重計(jì)算方法.最后結(jié)合小樣本數(shù)據(jù)進(jìn)行了參數(shù)估計(jì)的仿真實(shí)例驗(yàn)證,在對(duì)小樣本數(shù)據(jù)進(jìn)行Bootstrap重抽樣法作用下進(jìn)行了不同灰色點(diǎn)估計(jì)和區(qū)間估計(jì)的比較,突出了所提算法的有效性,驗(yàn)證了理論分析結(jié)果的正確性.
關(guān)鍵詞:灰色估計(jì); 小樣本; 熵權(quán)法; 區(qū)分度
0引言
仿真模型驗(yàn)證是VV&A工作的主要內(nèi)容,是確保仿真模型可信的重要保證.沒(méi)有經(jīng)過(guò)驗(yàn)證的模型,是不能據(jù)此做出任何有價(jià)值的決策.仿真模型的有效性直接影響仿真系統(tǒng)的可信性與仿真結(jié)果的應(yīng)用程度.隨著研究的不斷深入,復(fù)雜系統(tǒng)的仿真可信性驗(yàn)證工作正面臨著數(shù)據(jù)收集困難和模型參數(shù)難以確定的問(wèn)題.考慮到一些系統(tǒng)的實(shí)驗(yàn)操作的復(fù)雜性和困難性以及實(shí)驗(yàn)成本,我們往往只能觀(guān)測(cè)到系統(tǒng)運(yùn)行的有限數(shù)據(jù),即小樣本數(shù)據(jù).小樣本數(shù)據(jù)可能是系統(tǒng)運(yùn)行的一些狀態(tài),也可能是系統(tǒng)運(yùn)行參數(shù)的有限參考數(shù)據(jù).如何通過(guò)小樣本數(shù)據(jù)進(jìn)行仿真系統(tǒng)的可信性驗(yàn)證,以及如何對(duì)仿真系統(tǒng)關(guān)鍵參數(shù)進(jìn)行估值,成為仿真可信性驗(yàn)證的主要工作.吳利豐等探討了離散灰色模型,說(shuō)明原始序列樣本量大小與解的擾動(dòng)界大小呈正相關(guān)性,弱化了原始數(shù)據(jù)序列的隨機(jī)性[1].文獻(xiàn)[2]利用正態(tài)分布小樣本相容性理論建立了一種小樣本情況下的彈道一致性評(píng)定方法,減少了因樣本容量小而帶來(lái)的計(jì)算誤差.文獻(xiàn)[3]研究了復(fù)雜系統(tǒng)的環(huán)境、功能、狀態(tài)等因素的隨機(jī)性,構(gòu)建了小樣本條件下的基于變動(dòng)統(tǒng)計(jì)的復(fù)雜系統(tǒng)可靠性綜合評(píng)估方法,擴(kuò)大了樣本量,提高了評(píng)估精度.
參數(shù)估計(jì)是統(tǒng)計(jì)推斷的主要組成部分,進(jìn)行未知參數(shù)估值并確定參數(shù)估值滿(mǎn)足可信度要求的取值區(qū)間是確保后續(xù)數(shù)據(jù)處理成功的重要保證.面對(duì)復(fù)雜的仿真系統(tǒng),我們往往因?qū)嶒?yàn)條件與實(shí)驗(yàn)環(huán)境的限制,只能獲得一些關(guān)鍵節(jié)點(diǎn)運(yùn)行條件下的小樣本數(shù)據(jù),這給仿真系統(tǒng)的可信性驗(yàn)證帶來(lái)了一定的障礙.為了保障仿真的順利進(jìn)行,提高仿真系統(tǒng)的有效性和精確性就需要進(jìn)行由小樣本數(shù)據(jù)確定的被估計(jì)仿真參數(shù)的可信性驗(yàn)證工作.建立在大數(shù)定理和分布已知基礎(chǔ)之上的傳統(tǒng)參數(shù)估計(jì)方法,對(duì)小樣本數(shù)據(jù)的參數(shù)估計(jì)顯得無(wú)能為力.小樣本作為一個(gè)典型的灰色系統(tǒng)[4—5],表現(xiàn)出系統(tǒng)部分信息已知與部分信息未知的特點(diǎn).當(dāng)系統(tǒng)存在信息缺失和觀(guān)測(cè)不全等信息不完備情況時(shí),對(duì)系統(tǒng)參數(shù)的估計(jì)就會(huì)存在較大的誤差,采用貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí)算法為解決小樣本條件下的模型可信性和有效性提供了一種解決思路[6—7].文獻(xiàn)[4]使用小樣本數(shù)據(jù)的拓?fù)潢P(guān)系和距離關(guān)系,定義了灰色距離測(cè)度,建立了基于灰色生成的灰色區(qū)間估計(jì).文獻(xiàn)[5]在分布未知的情況下,基于灰色關(guān)聯(lián)理論和范數(shù)理論,給出了反映灰色距離信息量化與平均灰色距離量化的點(diǎn)估計(jì)與區(qū)間估計(jì)算法.文獻(xiàn)[8]針對(duì)小樣本數(shù)據(jù)的區(qū)間估計(jì)問(wèn)題,將Bootstrap重抽樣[9—10]引入到灰色估計(jì)理論中,對(duì)小樣本數(shù)據(jù)進(jìn)行了重抽樣擴(kuò)充,比較了3種不同灰色區(qū)間估計(jì)的性能.然而上述文獻(xiàn)在具體處理小樣本數(shù)據(jù)時(shí)都忽略了樣本數(shù)據(jù)聚集與離散程度對(duì)數(shù)據(jù)關(guān)系度量的重要性.
本文考慮到小樣本數(shù)據(jù)分布的密集程度,建立基于數(shù)理統(tǒng)計(jì)概念的新的灰色距離測(cè)度,以便確定包含信息更全面的灰色置信區(qū)間,在數(shù)據(jù)向密集方向變化時(shí)具有更好的區(qū)分度.對(duì)于灰色點(diǎn)估計(jì)問(wèn)題,建立了全面衡量小樣本數(shù)據(jù)稀缺性和有效性的灰色距離矩陣,據(jù)此改進(jìn)熵權(quán)法確定更客觀(guān)的權(quán)值.考慮到Bootstrap重抽樣是一種重要的數(shù)據(jù)擴(kuò)充法,本文引入Bootstrap重抽樣,比較重抽樣之前之后,采用本文方法所建立的灰色點(diǎn)估計(jì)和灰色置信區(qū)間的差異性.最后通過(guò)實(shí)例,驗(yàn)證了本文方法的有效性.
1改進(jìn)的灰色測(cè)度距離
設(shè)X={x1,x2,…,xn}為小樣本數(shù)據(jù),它構(gòu)成數(shù)據(jù)樣本空間.設(shè)x0為被估計(jì)參數(shù),下面討論通過(guò)數(shù)據(jù)樣本空間X來(lái)確定被估計(jì)參數(shù)x0的取值區(qū)間和取值可信度大小.
下面選擇樣本誤差均值來(lái)表征不同數(shù)據(jù)間的距離差異,其中xj(j=1,2,…,n)與數(shù)據(jù)樣本空間X的總體距離差異標(biāo)記為
(1)
為了表示數(shù)據(jù)xj與X中其他數(shù)據(jù)的離散與聚集程度的差異性,選擇樣本誤差標(biāo)準(zhǔn)差來(lái)表征數(shù)據(jù)的離散與聚集的程度,描述為
(2)
注1:若總體距離差異ej取值越大,說(shuō)明xj與X中其他數(shù)據(jù)的距離差異越大,反之,距離差異越??;若距離差異標(biāo)準(zhǔn)差sj取值越大,則xj與數(shù)據(jù)樣本空間X中其他數(shù)據(jù)分布越分散,反之,分布越集中.
文獻(xiàn)[4]定義的灰色距離測(cè)度考慮到了數(shù)據(jù)xj與數(shù)據(jù)樣本空間總體距離差異問(wèn)題,卻沒(méi)有反映出數(shù)據(jù)分布的離散與聚集的程度,鑒于距離差異ej與距離差異標(biāo)準(zhǔn)差sj的相互依存和相互作用關(guān)系,下面定義一種新的關(guān)于數(shù)據(jù)樣本xj與被估計(jì)參數(shù)x0間的灰色距離測(cè)度
(3)
(4)
(5)
dr(x0,xj)取值越大,說(shuō)明xj與x0越接近,當(dāng)xj=x0時(shí),dr(x0,xj)=1,當(dāng)dr(x0,xj)取值越小時(shí),說(shuō)明xj與x0的差異越大.特別地,當(dāng)xj與小樣本數(shù)據(jù)空間X的數(shù)據(jù)分布中心越接近,且s(x0,X)取值越小,則xj與x0也就越接近,此時(shí)dr(x0,xj)取值越大,反之,則dr(x0,xj)取值越小.文獻(xiàn)[4]提出的數(shù)據(jù)樣本xj與被估計(jì)參數(shù)x0間的灰色距離測(cè)度為
(6)
其中:‖d(X,x0)‖}.
S(X)取值減小時(shí),dr(x0,X)(或dr′(x0,X))的增長(zhǎng)量可用于度量其區(qū)分度,下面使用V(x0)(或V′(x0))來(lái)標(biāo)記在樣本數(shù)據(jù)空間X的S(X)減小時(shí)對(duì)應(yīng)的被估計(jì)參數(shù)x0關(guān)于樣本空間X的灰色距離測(cè)度區(qū)分度.
證明由于x0由X確定,x0的真值取值不變,X沿著數(shù)據(jù)密集方向變化,即在X基礎(chǔ)上,獲得了更多的數(shù)據(jù),生成新的樣本數(shù)據(jù)X′,為X?X′.對(duì)X′中的數(shù)據(jù)重新進(jìn)行排序,X′與X中相同的數(shù)據(jù)采用相同的標(biāo)記,新數(shù)據(jù)順次進(jìn)行標(biāo)記,得X′={x1,x2,…,xn,xn+1,…,xm}.
因?yàn)椋?/p>
(7)
(8)
考慮到,
又因?yàn)椋?/p>
e(x0,X)>e(x0,X′),s(x0,X)>s(x0,X′),i=1,2,…,n,j=1,2,…,m.
所以,
注2:其中V(x0)表示依據(jù)公式(3)構(gòu)建的灰色距離測(cè)度的區(qū)分度,V′(x0)表示依據(jù)公式(6)構(gòu)建的灰色距離測(cè)度的區(qū)分度,二者各自代表著相應(yīng)的灰色距離測(cè)度的總和的增長(zhǎng)量.
2基于熵權(quán)法的灰色估計(jì)值計(jì)算
步驟2計(jì)算各指標(biāo)xi的信息熵:
(9)
其中:H(xi)為指標(biāo)xi的信息熵;k為調(diào)節(jié)參數(shù),一般取k=1/lnn,i=1,2,…,n.
步驟3計(jì)算各指標(biāo)xi的權(quán)重,將評(píng)價(jià)指標(biāo)xi的信息熵轉(zhuǎn)化為權(quán)重值:
(10)
(11)
3灰色置信區(qū)間的確定
當(dāng)小樣本數(shù)據(jù)不是完全有效覆蓋參數(shù)真值取值范圍時(shí),則需要對(duì)小樣本數(shù)據(jù)進(jìn)行擴(kuò)容,使其成為覆蓋被估計(jì)參數(shù)取值范圍的完備數(shù)據(jù).目前,常見(jiàn)的數(shù)據(jù)重抽樣方法是Bootstrap重抽樣法.該方法在無(wú)法確定數(shù)據(jù)樣本空間X={x1,x2,…,xn}的確切分布的情況下,通過(guò)對(duì)X不斷的重復(fù)有放回抽樣,從而獲得與X分布相一致的涵蓋參數(shù)取值的大樣本數(shù)據(jù).Bootstrap重抽樣法是本文所構(gòu)建的灰色點(diǎn)估計(jì)與灰色區(qū)間估計(jì)的補(bǔ)充.下面在實(shí)例驗(yàn)證時(shí)將給出區(qū)分度明顯增大的仿真實(shí)例,以佐證定理1.
4實(shí)例驗(yàn)證與方法比較
定理1表明新的灰色距離測(cè)度是有效的,表現(xiàn)出更好的區(qū)分度,據(jù)此進(jìn)行的灰色點(diǎn)估計(jì)和灰色區(qū)間估計(jì)是有效的.下面分別選擇能夠有效表示參數(shù)取值范圍的小樣本數(shù)據(jù)在Bootstrap重抽樣前后為例進(jìn)行灰色點(diǎn)估計(jì)與區(qū)間估計(jì),對(duì)灰色區(qū)間估計(jì)方法做出相應(yīng)的區(qū)分度說(shuō)明.
例2使用Bootstrap重抽樣法對(duì)例1中數(shù)據(jù)進(jìn)行Bootstrap重抽樣1 000次,與原數(shù)據(jù)一起構(gòu)成新的樣本數(shù)據(jù),并進(jìn)行灰色點(diǎn)估計(jì)和灰色區(qū)間估計(jì).
Bootstrap重抽樣法是小樣本數(shù)據(jù)較好的數(shù)據(jù)補(bǔ)充方法,本文獲得的灰色估計(jì)值與傳統(tǒng)數(shù)理統(tǒng)計(jì)方法計(jì)算的樣本均值更接近,比較符合大數(shù)定律.在使用Bootstrap重抽樣法對(duì)小樣本數(shù)據(jù)進(jìn)行密集采集數(shù)據(jù)情況下,顯現(xiàn)出更好的區(qū)分度.圖2給出了在給定灰色置信度0.95下的灰色置信區(qū)間與參數(shù)取值之間的關(guān)系,表2給出了本文方法與參考文獻(xiàn)[4]法采用Bootstrap重抽樣法進(jìn)行灰色估計(jì)值、灰色置信區(qū)間、區(qū)間長(zhǎng)度與區(qū)分度之間的比較.在選擇相同置信度情況下,表1、表2說(shuō)明本文方法區(qū)間長(zhǎng)度更短,精度更高,區(qū)分度更好.
圖1 灰色置信度比較Fig.1 The comparison of grey confidence
圖2 重抽樣下灰色置信度變化曲線(xiàn)比較
方法類(lèi)型估計(jì)值置信區(qū)間區(qū)間長(zhǎng)度數(shù)理統(tǒng)計(jì)法50.375(50.042,50.711)0.669參考文獻(xiàn)法50.3826(50.354,50.411)0.057本文方法50.3763(50.354,50.399)0.045
表2 仿真結(jié)果比較(α=0.95)
5結(jié)論
在工程實(shí)際中,隨著處理問(wèn)題復(fù)雜程度和未知因素的增多,有時(shí)僅能獲得一些參數(shù)的小樣本數(shù)據(jù),據(jù)此進(jìn)行參數(shù)的點(diǎn)估計(jì)和區(qū)間估計(jì)就成為一個(gè)非常重要的問(wèn)題.本文從小樣本數(shù)據(jù)本身出發(fā),利用數(shù)據(jù)間的樣本誤差均值、樣本誤差標(biāo)準(zhǔn)差生成了新的灰色距離測(cè)度,討論了算法在數(shù)據(jù)朝密集方向變化情況下對(duì)數(shù)據(jù)處理的區(qū)分度,理論上顯示本文算法更有效.在進(jìn)行灰色點(diǎn)估值時(shí),設(shè)計(jì)了基于樣本數(shù)據(jù)間內(nèi)在信息熵關(guān)系的樣本權(quán)重新方法,使得灰色點(diǎn)估值更客觀(guān).最后結(jié)合小樣本數(shù)據(jù)進(jìn)行了算法的有效性與正確性的驗(yàn)證工作,結(jié)果顯示在使用Bootstrap重抽樣法對(duì)小樣本作用前與作用后都是合理的.
參考文獻(xiàn):
[1]吳利豐,劉思峰,姚立根. 基于分?jǐn)?shù)階累加的離散灰色模型[J]. 系統(tǒng)工程理論與實(shí)踐, 2014, 34(7): 1822—1827.
[2]張領(lǐng)科,趙峰,余永剛. 一種小樣本情況下的彈道一致性評(píng)定方法[J]. 兵工學(xué)報(bào), 2014, 35(12): 2124—2128.
[3]張海瑞,洪東跑,趙宇,等. 基于變動(dòng)統(tǒng)計(jì)的復(fù)雜系統(tǒng)可靠性綜合評(píng)價(jià)[J]. 系統(tǒng)工程與電子技術(shù),2015, 37(5): 1213—1218.
[4]劉義,王國(guó)玉,柯宏發(fā). 一種基于灰色距離測(cè)度的小樣本區(qū)間估計(jì)方法[J]. 系統(tǒng)工程與電子技術(shù),2008,30(1):116—119.
[5]CHEN Y G, KE H F, LIU Y. Grey distance information approach for parameter estimation of small samples[J]. IEEE transaction on instrumentation and measurement, 2008, 57(6): 1281—1286.
[6]任佳,高曉光,茹偉. 數(shù)據(jù)缺失的小樣本條件下BN參數(shù)學(xué)習(xí)[J]. 系統(tǒng)工程理論與實(shí)踐,2011, 31(1):172—177.
[7]任佳,高曉光,白勇. 信息不完備小樣本條件下離散DBN參數(shù)學(xué)習(xí)[J]. 系統(tǒng)工程與電子技術(shù),2012, 34(8): 1723—1728.
[8]劉恒,梅衛(wèi),單甘霖. 小樣本數(shù)據(jù)的三種區(qū)間估計(jì)方法性能分析[J]. 系統(tǒng)工程與電子技術(shù),2014, 36(10): 1929—1933.
[9]XU L W, YANG F Q, CHEN R R, et al. A parametric bootstrap test for two-way ANOVA model without interaction under heteroscedasticity[J]. Communications in statistics-simulation and computation, 2015, 44: 1264—1272.
[10] PETER A D, EULOGIO P I, JUAN J E. The total bootstrap median: a robust and efficient estimator of location and scale for small samples[J]. Journal of applied statistics, 2015, 42(6): 1306—1321.
(責(zé)任編輯:王浩毅)
Grey Confidence Interval Estimation of Small Samples Based on Entropy-weight Method
YANG Wenguang1, 2,WU Yunjie2,WANG Jianmin2
(1.DepartmentofBasic,NorthChinaInstituteofScienceandTechnology,Sanhe065201,China;2.SchoolofAutomationScienceandElectricalEngineering,BeihangUniversity,Beijing100191,China)
Abstract:In order to solve the problem of small samples data of gray estimation and grey interval estimation, the sample average error and sample error standard deviation were introduced into the grey distance measure, and the existing grey estimation algorithm was improved. In the process of intensive expansion of small samples data, the gray degree of the estimation could be improved. Based on the distribution of the data itself, the gray distance matrix of data was designed, and the weight of grey point estimation was proposed. Finally the small samples data of parameter estimation was tested to examing the simulation results. The results highlighted the effectiveness of the proposed algorithm, and verified the correctness of the theoretical analysis .
Key words:grey estimation; small samples; entropy-weight method; distinguish degree
收稿日期:2015-08-29
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(91216304, 61472137);中央高?;究蒲袠I(yè)務(wù)費(fèi)資助項(xiàng)目(3142015022, 3142014127);華北科技學(xué)院重點(diǎn)學(xué)科項(xiàng)目(HKXJZD201402).
作者簡(jiǎn)介:楊文光(1981—),男,河北保定人,講師,博士研究生,主要從事智能信息處理研究, E-mail:yangwenguang@buaa.edu.cn.
中圖分類(lèi)號(hào):N945.13
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1671-6841(2016)01-0051-06
DOI:10.3969/j.issn.1671-6841.201508009
引用本文:楊文光,吳云潔,王建敏.基于熵權(quán)法的小樣本灰色置信區(qū)間估計(jì)[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2016,48(1):51-56.