徐志昆
(貴州商學(xué)院經(jīng)濟(jì)與金融學(xué)院,貴陽 550014)
數(shù)據(jù)缺失現(xiàn)象普遍存在于各應(yīng)用領(lǐng)域的統(tǒng)計(jì)抽樣中。機(jī)械原因、人的主觀失誤、歷史局限、有意隱瞞是數(shù)據(jù)缺失的主導(dǎo)原因。樣本數(shù)據(jù)的缺失在很大程度上影響分析建模和研究結(jié)果的準(zhǔn)確性。
長(zhǎng)壽命、高可靠性是科技進(jìn)步帶來的產(chǎn)品發(fā)展趨勢(shì),而傳統(tǒng)壽命試驗(yàn)周期過長(zhǎng),時(shí)間成本巨大,加速試驗(yàn)便成為解決這個(gè)問題的極佳選擇。但過去的大部分加速試驗(yàn)研究都是在沒有數(shù)據(jù)缺失的前提下進(jìn)行,若僅因?yàn)閿?shù)據(jù)存在缺失就重作試驗(yàn)是極不現(xiàn)實(shí)的,代價(jià)非常高昂。
目前針對(duì)數(shù)據(jù)缺失主要有加權(quán)法、插補(bǔ)法和構(gòu)造特殊統(tǒng)計(jì)模型三類處理方法。對(duì)于單元無回答的情況多采用加權(quán)法對(duì)缺失值進(jìn)行補(bǔ)救,而對(duì)于項(xiàng)目無回答的處理多采用插補(bǔ)的方法,包括單一插補(bǔ)和多重插補(bǔ),及根據(jù)工程背景構(gòu)造特殊統(tǒng)計(jì)模型。Politz 等(1949)提出了經(jīng)典的Politz-Simmons調(diào)整法[1]。Dempster等[2]首次提出一種使得不完全數(shù)據(jù)得到有效估計(jì)的EM 算法。Rubin 等[3]基于EM 算法,率先提出了多重插補(bǔ)方法。Brick 等[4]提出了最近鄰插補(bǔ)方法,也即樹枝分類的距離函數(shù)匹配方法。Liu 等[5]在1994年進(jìn)一步提出了ECME 等。1998 年金勇進(jìn)[6]探討了處理缺失數(shù)據(jù)中對(duì)輔助信息的利用問題。2002 年Schafer 等[7]提出的極大似然估計(jì)和多重填補(bǔ)法具有較好的處理精度和較廣的應(yīng)用范圍。王乃生等[8]給出恒定應(yīng)力加速壽命試驗(yàn)中數(shù)據(jù)缺失時(shí)的統(tǒng)計(jì)方法。2009 年劉寶慧[9]利用回歸插補(bǔ)給出方差分析。楊貴軍等[10]對(duì)高相關(guān)輔助變量擇優(yōu)回歸插補(bǔ)法進(jìn)行了研究。但從20 世紀(jì)90 年代初至今,缺乏處理缺失數(shù)據(jù)的全新思想[11-12]。
針對(duì)加速試驗(yàn)數(shù)據(jù)一般隨時(shí)間呈現(xiàn)單調(diào)變化趨勢(shì)且精度高的特點(diǎn),立足于單一插補(bǔ)的角度,提出插值填補(bǔ)法,分別運(yùn)用Lagrange 插值、三次樣條插值和B 樣條插值,給出缺失數(shù)據(jù)合理的替補(bǔ)值,達(dá)到減小估計(jì)量偏差和數(shù)據(jù)集完整的目的。
三次樣條插值曲線具有良好的性質(zhì),在實(shí)用中最為普遍。設(shè)Δ是[a,b]的一個(gè)劃分,則:
若函數(shù)S(x)滿足:
(1)S(x) ∈C2[a,b](注:Ck[a,b]表示區(qū)間[a,b]上具有k階連續(xù)導(dǎo)數(shù)的函數(shù)集);
(2)S(xi)=f(xi),i= 0,1,…,n;
(3)S(x)在每個(gè)子區(qū)間[xi,xi+1](i=0,1,…,n- 1)上都是次數(shù)不超過三次的多項(xiàng)式,且至少在一個(gè)子區(qū)間上為三次多項(xiàng)式。則稱S(x)為關(guān)于劃分Δ的三次樣條函數(shù)。
提出使用三轉(zhuǎn)角法、三彎矩法和B樣條基函數(shù)法完成石英擺片加速退化試驗(yàn)的缺失值處理。
設(shè)S(x)在節(jié)點(diǎn)xi(i= 0,1,…,n)處的一階導(dǎo)數(shù)值為S'(xi)=mi其中mi是待定參數(shù)。記
則有方程組
第二邊界條件S"(a) =f"(a),S"(b) =f"(b),有方程組:
第三邊界條件m0=mn,m1=mn+1,得方程組:
其中:
選擇二階導(dǎo)數(shù)作為待定參數(shù):
三彎矩法基本方程[13]:
其中:
在實(shí)際應(yīng)用中,若三次樣條插值沒有邊界條件,最常用的方法就是采用非扭結(jié)條件,即:
再由三彎矩基本方程,可得:
利用上述兩種方法均可解出mi(i=0,1,…,n)后,分別代入
即得插值函數(shù)S(x),用于插值計(jì)算。
B 樣條曲線具有局部性,控制頂點(diǎn)只影響部分曲線的形狀,對(duì)其余部分不產(chǎn)生影響,比較具有穩(wěn)健性,且其造型靈活,還可進(jìn)行統(tǒng)計(jì)數(shù)據(jù)的光滑化處理。
設(shè)有控制頂點(diǎn)P0,P1,…,Pn,則p階(p-1次)B樣條曲線的數(shù)學(xué)表達(dá)式為
其中:Ni,p(μ)是p-1 次B 樣條曲線的基函數(shù)。B樣條基函數(shù)是一個(gè)稱為節(jié)點(diǎn)矢量的非遞減的參數(shù)μ的序列所決定的p階分段多項(xiàng)式,也即為p階(p-1次)多項(xiàng)式樣條。
B樣條de Boor-Cox遞推定義:
給定一組數(shù)據(jù){Qk}(k= 0,1,…,n),找一條p次B 樣條曲線順序通過這組數(shù)值點(diǎn)[14],即是根據(jù)數(shù)據(jù)點(diǎn)分布情況選定一組合適的節(jié)點(diǎn)矢量U=和控制頂點(diǎn)確定p次B樣條曲線
石英擺片(2010-11-15)在加速應(yīng)力85℃下試驗(yàn)的等效撓度數(shù)據(jù)(單位:10-1mm)如表1 所示,為驗(yàn)證方法可行性,設(shè)定空白處為缺失數(shù)據(jù)。實(shí)際觀測(cè)到T1、T2、T6 時(shí)刻正面等效撓度分別為7.3856、7.3949、7.3670,T3、T8、T9 時(shí)刻反面等效撓度分別為7.3960、7.3900、7.3930。
在實(shí)驗(yàn)中,分別用Lagrange 線性和三次插值、三轉(zhuǎn)角和三彎矩插值法、均勻和非均勻B樣條基函數(shù)法插值進(jìn)行內(nèi)推,得到插補(bǔ)結(jié)果如表2 所示,并計(jì)算誤差平方和(SSE)如表3 和4所示。
插補(bǔ)效果如圖1、圖2所示。
從石英擺片加速退化試驗(yàn)的兩組數(shù)據(jù)來看,通過比較圖像和誤差平方和,Lagrange 插值、三轉(zhuǎn)角法和非均勻B 樣條在兩組缺失數(shù)據(jù)的插補(bǔ)中均取得了較高的精度,效果理想。
表2 插補(bǔ)結(jié)果
圖1 正面等效撓度插補(bǔ)效果
表4 反面等效撓度誤差平方和
石英擺片(2010-01-09)在加速應(yīng)力85℃下試驗(yàn)的等效撓度數(shù)據(jù)(單位:10-1mm)如表5 所示,仍設(shè)定空白處為缺失數(shù)據(jù)。實(shí)際觀測(cè)到T9、T10 時(shí)刻正面等效撓度分別為7.6390、7.6479,反面等效撓度分別為7.6291、7.6359。
表5 石英擺片(2010-01-09)等效撓度
由于插值法一般在外推時(shí)精度不高,甚至可能會(huì)發(fā)生龍格現(xiàn)象,造成巨大偏差。所以在外推缺失數(shù)據(jù)時(shí),借鑒均值插補(bǔ)方法,將外推轉(zhuǎn)化為內(nèi)推處理。步驟如下:
(1)利用已知數(shù)據(jù)均值來代缺失值相鄰的下一時(shí)刻數(shù)據(jù);
(2)利用插值法計(jì)算缺失數(shù)據(jù);
(3)重復(fù)步驟(1)、(2)直到所有缺失值計(jì)算完成。
得到插補(bǔ)結(jié)果如表6所示,并計(jì)算誤差平方和(SSE)如表7和表8所示。
表6 插補(bǔ)結(jié)果
外推插補(bǔ)效果如圖3、圖4所示。
圖3 正面等效撓度插補(bǔ)效果
圖4 反面等效撓度插補(bǔ)效果
表7 正面等效撓度誤差平方和
表8 反面等效撓度誤差平方和
從加速試驗(yàn)數(shù)據(jù)端點(diǎn)缺失的插補(bǔ)結(jié)果來看,借助均值插補(bǔ)方法把外推轉(zhuǎn)化為內(nèi)推可以避免端點(diǎn)處的巨大波動(dòng),降低外推風(fēng)險(xiǎn),且又在一定程度上反映了數(shù)據(jù)自身的變化趨勢(shì)。通過比較圖像和誤差平方和,Lagrange 插值、三轉(zhuǎn)角法和非均勻B 樣條在兩組缺失數(shù)據(jù)的外推插補(bǔ)中得到了較高的精度,效果較好。
數(shù)據(jù)缺失是統(tǒng)計(jì)工作中普遍存在的現(xiàn)象。掌握數(shù)據(jù)缺失的處理方法,有助于在進(jìn)行數(shù)據(jù)采樣、統(tǒng)計(jì)分析等環(huán)節(jié)減少、規(guī)避重要信息的丟失,達(dá)到提高分析精度的目的。
通過采用Lagrange 插值、樣條插值的單一插補(bǔ)方法來研究加速試驗(yàn)缺失數(shù)據(jù),發(fā)現(xiàn)可用于填補(bǔ)缺失數(shù)據(jù)的中間點(diǎn),且相比之下算法簡(jiǎn)單、容易實(shí)現(xiàn),特別當(dāng)數(shù)據(jù)點(diǎn)呈較強(qiáng)規(guī)律變化時(shí)效果更好。在石英擺片加速退化試驗(yàn)的缺失數(shù)據(jù)插補(bǔ)中,插值法從數(shù)據(jù)點(diǎn)自身變化趨勢(shì)出發(fā),并在外推過程中,借鑒均值插值思想把外推轉(zhuǎn)化為內(nèi)推,得到了較高精度的缺失數(shù)據(jù)。
但每一種插值填補(bǔ)方法都不是普遍適用的,都只是對(duì)缺失數(shù)據(jù)分析的一種嘗試。尤其對(duì)端點(diǎn)的缺失數(shù)據(jù)填補(bǔ)應(yīng)進(jìn)一步研究。在分析具體問題時(shí),應(yīng)該綜合權(quán)衡考慮使用一種或者幾種方法的綜合結(jié)果。