林洪樺
(北京理工大學(xué),北京 100081)
現(xiàn)代數(shù)據(jù)處理范圍廣闊,本文研究僅限于測量誤差分析方面的數(shù)據(jù)處理。隨著科技不斷發(fā)展,在當(dāng)前信息化時代,數(shù)據(jù)成為科技發(fā)展的重要信息資源,數(shù)據(jù)處理的基本觀念也將隨之而作必要的適應(yīng)性轉(zhuǎn)變。
數(shù)據(jù)處理的目標(biāo)是待求現(xiàn)實(shí)問題符合實(shí)際的解答。在此應(yīng)用現(xiàn)實(shí)問題較之以往所用的實(shí)際問題是為了強(qiáng)調(diào)其所含有的物理本質(zhì)信息。
數(shù)據(jù)處理的依據(jù)是有效的樣本數(shù)據(jù)和有用的先驗(yàn)信息。若要解答待求的現(xiàn)實(shí)問題,對樣本容量n有一定的要求。如在概率分布估計中n<100;對于參數(shù)估計 n<30~50;廣義而言,函數(shù)估計中 n/dVC<20(dVC為函數(shù)VC維數(shù))稱為小樣本,超過上述界限多視為大樣本,這些均屬經(jīng)驗(yàn)積累結(jié)果[1]。小樣本并未明確定義,其容量n也無確切界限。實(shí)際上所能得到的有限數(shù)據(jù)多未能全面體現(xiàn)現(xiàn)實(shí)問題的總體規(guī)律,也不滿足極限定理與大數(shù)定律的條件??梢姡蠖鄶?shù)現(xiàn)實(shí)數(shù)據(jù)只能屬于小樣本。小樣本自身具有隨機(jī)性,其樣本特征量也具有隨機(jī)性,難以體現(xiàn)其總體分布規(guī)律,尤其是對稱性,需有識別與拓展總體信息之對策。
至于先驗(yàn)信息,涉及來源可靠性、主觀概率和運(yùn)用方法,如貝葉斯方法等,常易被忽視。
數(shù)據(jù)處理實(shí)質(zhì)是對現(xiàn)實(shí)的模擬,以數(shù)學(xué)模型模擬現(xiàn)有數(shù)據(jù)及先驗(yàn)信息所體現(xiàn)的總體規(guī)律性。故數(shù)據(jù)處理所評估與預(yù)測的結(jié)果應(yīng)能夠準(zhǔn)確地顯示最本質(zhì)的總體規(guī)律。還需強(qiáng)調(diào)指出,實(shí)際上只要解答待求總體規(guī)律中的某種特性即可,無需求得全面的總體規(guī)律。
非線性、非平穩(wěn)和非高斯/非正態(tài)統(tǒng)稱三非性。實(shí)質(zhì)上,現(xiàn)實(shí)問題均具有三非性。然而,對三非性問題的處理較難且復(fù)雜,而數(shù)據(jù)處理則要求盡量簡捷,于是運(yùn)用夠準(zhǔn)的線性化、平穩(wěn)化方法。唯獨(dú)現(xiàn)實(shí)的非高斯分布不可簡化,只能夠準(zhǔn)地模擬,構(gòu)成重點(diǎn)難題。
隨機(jī)性分布以非高斯性分布為常態(tài),運(yùn)用統(tǒng)示法處理。
現(xiàn)代數(shù)據(jù)處理對于概率分布模式的處理,在觀念上需作相應(yīng)的變化。如對于測量誤差有界性、相消性(相對期望而言)還具有普適性意義,而單峰性、對稱性則并非普適性分布規(guī)律;非高斯性/非正態(tài)性為常態(tài)(現(xiàn)代多稱非高斯性,下同),而高斯性只是特例;對于隨機(jī)性變量不宜說為××理論概率分布,只能說可按××分布處理;可見,為有別于具有嚴(yán)格定義的概率分布而以隨機(jī)性分布模擬之。
在現(xiàn)實(shí)問題中,高斯分布隨機(jī)影響因素未必占大多數(shù),而非高斯分布的隨機(jī)影響客觀存在,隨處可見;且對非高斯分布隨機(jī)影響的統(tǒng)計處理方法較高斯分布復(fù)雜又難處理。非高斯分布不僅在理論分析上較難,即使在統(tǒng)計處理的特征量分析上,也比高斯分布僅需前二階矩要多,至少需多考慮表示偏態(tài)和峰態(tài)的三階和四階矩,甚至更高階矩。隨著數(shù)字計算機(jī)及最優(yōu)化技術(shù)的廣泛應(yīng)用,對非高斯分布隨機(jī)影響的統(tǒng)計處理不僅可實(shí)現(xiàn),并已研究出許多有效而實(shí)用的統(tǒng)計處理方法。以往之所以多按正態(tài)分布處理主要依據(jù)中心極限定理及漸近性理論(卻難滿足其理論的條件),而更重要的還在于其簡便實(shí)用。況且,需考慮必然會存在某些重要的非高斯性先驗(yàn)影響因素??傊?,宜建立非高斯性應(yīng)為常態(tài)的觀念。
一個值得注意的總觀念:從特殊到特殊的轉(zhuǎn)導(dǎo)推理[2-3],即按所掌握的有限信息直接估計和預(yù)測出某一待求現(xiàn)實(shí)問題的結(jié)果,不必按傳統(tǒng)的從特殊到一般再到特殊的歸納演繹推理方法。如目標(biāo)只是估計某一函數(shù)在某個待求點(diǎn)的值,就不必去估計出整個函數(shù)或其全域值;應(yīng)盡量降低求解的要求,以獲得更為準(zhǔn)確、更合乎實(shí)際的解。應(yīng)用在誤差評估中,若目標(biāo)只是估計誤差范圍就無需估計其理論概率分布,尤其對于小樣本很難估計出其實(shí)際總體分布。
概言之,數(shù)據(jù)處理的基本任務(wù)不外乎分離其所含有的信息,即按待解答現(xiàn)實(shí)問題的需求,識別并提取出其中有用的本質(zhì)信息,分離并擯棄其無用的無關(guān)信息(如誤差、噪聲等)。然而,不同的現(xiàn)實(shí)問題,其相應(yīng)的數(shù)據(jù)含有信息的復(fù)雜性各異,所要求的分離技術(shù)和方法存在很大差別。顯然數(shù)據(jù)處理對策各異,對于現(xiàn)代數(shù)據(jù)處理可歸結(jié)出四字要訣:實(shí)、佳、智、驗(yàn),且大體上對應(yīng)著數(shù)據(jù)處理的四要素:模型、準(zhǔn)則、算法、驗(yàn)證。
綜觀現(xiàn)代數(shù)據(jù)處理無不先行模型化,即首先按所要求的準(zhǔn)確度建立反映現(xiàn)實(shí)問題的數(shù)學(xué)模型。多將建模要求歸結(jié)為:實(shí)——反映現(xiàn)實(shí)問題所含有的本質(zhì)信息;準(zhǔn)——準(zhǔn)確度;易——易算性;省——節(jié)省性[1]。其中實(shí)與準(zhǔn)密切關(guān)聯(lián),諸要求相互制約。顯然,應(yīng)以實(shí)為主,若建立的數(shù)學(xué)模型不合乎實(shí)際或欠準(zhǔn)確,其后的數(shù)據(jù)處理結(jié)果必然無效??梢姡瑢?shí)——模型化具有真實(shí)性與實(shí)用性應(yīng)為現(xiàn)代數(shù)據(jù)處理中最具決定性的關(guān)鍵環(huán)節(jié),又是居首位之難點(diǎn)。
嚴(yán)格地說,合乎實(shí)際的模型化并非一家所能,宜由各有關(guān)專家共同建模為好。熟知,一些有用信息甚至是顯著的主要信息未必含于多次重復(fù)測量數(shù)據(jù)之中,如高準(zhǔn)確性測量中的基準(zhǔn)件誤差就屬于先驗(yàn)信息。即僅靠數(shù)據(jù)處理還不能完整地得到實(shí)際問題含有的所有信息。然而對模型化則要求應(yīng)完整地反映出實(shí)際問題所含有的本質(zhì)信息,這正是模型化的主要難點(diǎn)。
顯然,要做到實(shí)所涉及的面廣、專業(yè)性強(qiáng),非一紙可盡述。
還需強(qiáng)調(diào),在數(shù)據(jù)處理全過程均需考慮做到實(shí)。經(jīng)驗(yàn)表明,做好以下兩點(diǎn)將有助于模型化合乎實(shí)際。
2.1.1 預(yù)處理
預(yù)處理目的和作用在于分析數(shù)據(jù)特性、匯集先驗(yàn)信息、初定數(shù)據(jù)處理方案。
建議:1) 觀察數(shù)據(jù)圖,如坐標(biāo)圖、直方圖等;2) 分析特征量,如前四階矩、分位數(shù)等;3) 檢驗(yàn)異常值;檢驗(yàn)對稱性,如中位值與均值重合性或零偏態(tài)性檢驗(yàn)等;4) 檢驗(yàn)趨勢性和周期性;5) 搜集先驗(yàn)信息,通過理論分析、實(shí)驗(yàn)結(jié)果、技術(shù)資料以及主觀經(jīng)驗(yàn)等,匯集后便可初步擬定出數(shù)據(jù)處理方案。
2.1.2 模型化具有普適性
通常可依據(jù)的可靠信息常不足以使模型化合乎實(shí)際。
建議:選用普適性模型通過適當(dāng)?shù)臄?shù)據(jù)處理使之合乎實(shí)際。如對于概率分布模式采用統(tǒng)示法pi(x)=p(x,θi)[1];用廣義多項(xiàng)式做模型化,采用逐步回歸、調(diào)整回歸、遞推回歸等可選顯著變量的方法擬合最終所用的模型[4]。
例如
式中,Ψ(*)為特定函數(shù);w(t)為白噪聲。
又如,數(shù)字濾波中的狀態(tài)模型
眾所周知,如何最終體現(xiàn)出數(shù)據(jù)處理具有最佳性則未必都能思考得周全。評價佳應(yīng)為處理結(jié)果最逼近于現(xiàn)實(shí)問題或其間的誤差最小。這就涉及逼近度或誤差的量化。不同形式的量化生成各種類型的最佳準(zhǔn)則及其相應(yīng)的算法。
最小誤差類:參數(shù)估計的最小二乘、最小均方等準(zhǔn)則,歸納為最小范數(shù)
最小風(fēng)險類:Bayers統(tǒng)計分析的各種風(fēng)險準(zhǔn)則,如結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則等;
信息論方法類:基于信息熵的各種信息論方法含最大熵、最小互熵、AIC和MDL等準(zhǔn)則。
各種最佳準(zhǔn)則具有各自生成的理論條件,而現(xiàn)實(shí)問題未必完全滿足甚至不滿足這種條件,相應(yīng)數(shù)據(jù)處理的最佳性就將削弱甚至失去。有些現(xiàn)實(shí)問題專用其最佳準(zhǔn)則,如形位誤差評定標(biāo)準(zhǔn)規(guī)定為最小區(qū)域也即最大最小準(zhǔn)則。可見,佳具有條件性和相對性。如均值在無粗大誤差和變量系統(tǒng)誤差影響下可作為測量結(jié)果的最佳估計。否則,采用其他穩(wěn)健估計(如中位值或截尾均值等)則更佳[1]。
對數(shù)據(jù)處理的要求不同,佳的體現(xiàn)也各異。如對數(shù)據(jù)處理常有預(yù)測性要求,則其最佳性原則中就應(yīng)含有泛化性或推廣性,即預(yù)測誤差要小,并非只計及對數(shù)據(jù)的擬合誤差最小。如結(jié)構(gòu)風(fēng)險最小原則中含VC置信范圍、驗(yàn)證擬合模型的最小描述長度(MDL)準(zhǔn)則中含數(shù)據(jù)量約束項(xiàng)等[1]。
現(xiàn)代數(shù)據(jù)處理中多見不適定的逆問題,且為非線性度較強(qiáng)、非凸性的現(xiàn)實(shí)問題。傳統(tǒng)處理方法多在求極值點(diǎn)原則下,算法以逐步迭代逼近為主。有諸多缺陷,如要求連續(xù)可微性;易受初始化影響;無通用性等,尤其難有全局優(yōu)化性,其處理結(jié)果就未必具有最佳型。然而,多數(shù)智能化處理方法實(shí)質(zhì)上是按適應(yīng)度要求進(jìn)行智能性全域隨機(jī)搜索,使之對優(yōu)化對象無特殊限制,具有普適性;適應(yīng)度可直接取實(shí)際優(yōu)化目標(biāo)值;智能性策略全域搜索出全局最優(yōu)解;始于一組可行解,初始化影響小等。這些特點(diǎn)可用于解決許多難題,擴(kuò)展了應(yīng)用領(lǐng)域。
實(shí)質(zhì)上,人類智能才是智能化之源泉。自上世紀(jì)中葉智能化命名以來,智能化算法就層出不窮地接連提出,名目繁多,在選用上首要考慮其全局優(yōu)化性能,這也是各種智能化算法改進(jìn)的重點(diǎn)。對于其余的性能要求無異于一般算法,如收斂性、簡捷性等,只需提醒一點(diǎn),停機(jī)條件按夠準(zhǔn)即止原則。
智還可從2方面理解:運(yùn)用合適的智能化算法解決復(fù)雜難題只是其一;從當(dāng)前機(jī)器學(xué)習(xí)觀念上看,進(jìn)一步得出對現(xiàn)實(shí)問題的性能改進(jìn)策略,是不可忽視的另一面。
評價數(shù)據(jù)處理方法及處理結(jié)果,如模型實(shí)用性和簡約性、算法準(zhǔn)確性和簡捷性等,均需予以驗(yàn)證。驗(yàn)證項(xiàng)目及其指標(biāo)與被測量及其測量方法有關(guān),其中最主要又是最難以驗(yàn)證的應(yīng)為準(zhǔn)確度。尤其高準(zhǔn)確度測量中常含有未引起數(shù)據(jù)變動的系統(tǒng)誤差因素,且多為主要成分。驗(yàn)證方法頗多(以往多用理論解析、物理方法和實(shí)驗(yàn)方法等),推薦采用基于MonteCarlo方法的給定誤差的數(shù)據(jù)仿真驗(yàn)證方法。給定誤差的等級應(yīng)與實(shí)際問題所要求的準(zhǔn)確度相當(dāng)或略高些,數(shù)據(jù)形式與所測的實(shí)際數(shù)據(jù)類同,并依據(jù)先驗(yàn)信息設(shè)置已知誤差值的各種類型的系統(tǒng)誤差和某種概率分布的隨機(jī)誤差。對這種已知其誤差值的仿真數(shù)據(jù)也通過所擬定的數(shù)據(jù)處理方法即可驗(yàn)證出處理結(jié)果的準(zhǔn)確性。
驗(yàn)證處理結(jié)果的仿真模型可擬定如下:以某一平面度測量為例
式中,f(x,y)為含已知誤差的仿真數(shù)據(jù);f0(x,y)為理想形狀,如理想平面真值;Δ (x,y)為系統(tǒng)誤差,這是仿真之主項(xiàng),多依先驗(yàn)信息來設(shè)置,且需給定與實(shí)際問題相適應(yīng)的誤差值;ε(x,y)為某種概率分布的(如β分布)隨機(jī)誤差。且可按所得先驗(yàn)信息設(shè)值
式中,cxi,cyi,axj,ayj,b及ε(x,y)宜按略高于形位誤差的準(zhǔn)確度設(shè)定。對于已有MZ判別準(zhǔn)則者,還可特設(shè)合乎該準(zhǔn)則的等值最高點(diǎn)和最低點(diǎn),并可改變其位置更利于驗(yàn)證??傊?,依據(jù)待求的現(xiàn)實(shí)問題而做具體的設(shè)置。
“實(shí)、佳、智、驗(yàn)”四字互抑;取主舍次;均衡擇優(yōu);夠準(zhǔn)為限。
本文主要概述當(dāng)前測量誤差分析及數(shù)據(jù)處理所應(yīng)建立的一些主要觀念與需要作全面思考的數(shù)據(jù)處理策略。至于解決現(xiàn)實(shí)問題的具體方法及示例等將在此后的系列論文中陸續(xù)闡述。歡迎讀者們提出寶貴意見和建議。