昝昕武,平春蕾,符欲梅
(重慶大學 光電工程學院 光電技術(shù)及系統(tǒng)教育部重點實驗室,重慶 400044)
不完備數(shù)據(jù)或缺失數(shù)據(jù)普遍存在于各種數(shù)據(jù)集中[1]。同樣在各種各樣的測量和控制領(lǐng)域中也存在缺失數(shù)據(jù),如氣候或圖像數(shù)據(jù)、傳感器采集的數(shù)據(jù)、醫(yī)學數(shù)據(jù)等。橋梁監(jiān)測系統(tǒng)中也存在大量的不完備數(shù)據(jù)和缺失數(shù)據(jù)。
橋梁健康監(jiān)測系統(tǒng)通過安裝在橋梁關(guān)鍵部位的傳感器來獲取橋梁的結(jié)構(gòu)信息,并通過遠程通信把這些數(shù)據(jù)傳送給遠程監(jiān)控中心。監(jiān)控中心分析所有數(shù)據(jù),然后得到橋梁結(jié)構(gòu)是否安全的評價結(jié)果。因此,完備的數(shù)據(jù)是提供完整的橋梁結(jié)構(gòu)信息的基礎(chǔ)。一旦出現(xiàn)不完備數(shù)據(jù)或數(shù)據(jù)缺失,一些有用的信息就會丟失,所以,如何處理缺失數(shù)據(jù)顯得至關(guān)重要[2-3]。
根據(jù)文獻[4],典型的橋梁健康監(jiān)測系統(tǒng)如圖1所示。從圖1可知,橋梁健康監(jiān)測系統(tǒng)包括傳感器、本地傳輸、本地計算機子系統(tǒng)、遠程傳輸、主計算機和電源等6部分。
1)傳感器。傳感器安裝在橋梁的關(guān)鍵部位,根據(jù)監(jiān)測要求,有撓度傳感器、應(yīng)變傳感器、加速度傳感器等。傳感器的類型應(yīng)根據(jù)橋梁的結(jié)構(gòu)特性來決定。如果部分傳感器失效,那么就會產(chǎn)生不完備數(shù)據(jù)。
2)本地傳輸。橋梁是一個大型建筑,傳感器是分布式進行布設(shè)的。本地傳輸接收這些傳感器送來的所有數(shù)據(jù)。同樣,如果本地傳輸沒有工作,也會產(chǎn)生缺失數(shù)據(jù)或者不完備數(shù)據(jù)。
3)本地計算機子系統(tǒng)。本地計算機子系統(tǒng)通過本地傳輸收集傳感器采集到的所有結(jié)構(gòu)信息。它根據(jù)一些規(guī)則,例如每小時或者每天工作來控制所有的傳感器。一旦有結(jié)構(gòu)信息傳送到子系統(tǒng),子系統(tǒng)便將這些數(shù)據(jù)信息儲存起來。為了監(jiān)測橋梁的結(jié)構(gòu)狀態(tài),本地計算機子系統(tǒng)必須一直連續(xù)工作,所以,如果本地計算機子系統(tǒng)沒有工作,就會產(chǎn)生缺失數(shù)據(jù)。
4)遠程傳輸。所有的結(jié)構(gòu)信息將通過遠程傳輸傳送給主計算機。因為所有的數(shù)據(jù)都儲存在本地計算機子系統(tǒng)中,所以如果遠程傳輸沒有工作,系統(tǒng)不會受影響而產(chǎn)生缺失數(shù)據(jù)。
5)主計算機。數(shù)據(jù)一旦傳送給主計算機,健康診斷軟件便對這些數(shù)據(jù)進行分析,從而得到橋梁結(jié)構(gòu)的安全狀態(tài)結(jié)果。為了增加分析速度,所有的數(shù)據(jù)都存在主計算機中,所以,如果主計算機沒有工作,系統(tǒng)也不會受影響而產(chǎn)生缺失數(shù)據(jù)。
6)電源。系統(tǒng)各個部分都必須供應(yīng)電源,所以,如果整個系統(tǒng)或者某部分忽然斷電,就會產(chǎn)生缺失數(shù)據(jù)或者不完備數(shù)據(jù)。
圖1 典型的橋梁健康監(jiān)測系統(tǒng)
根據(jù)前面的分析,傳感器、本地傳輸、本地計算機子系統(tǒng)和電源供應(yīng)會產(chǎn)生不完全數(shù)據(jù)和缺失數(shù)據(jù)。
圖2~4是典型橋梁健康監(jiān)測系統(tǒng)中發(fā)生的缺失數(shù)據(jù)和不完備數(shù)據(jù)的3種情況。
由電源供應(yīng)原因引起的缺失數(shù)據(jù)的情況如圖2所示。圖2中,缺失數(shù)據(jù)發(fā)生在圖中曲線所示的7個期間上。不同傳感器的缺失數(shù)據(jù)的類型都類似。如果所有的傳感器、本地傳輸或者計算機子系統(tǒng)無法工作,那么缺失數(shù)據(jù)就與圖2中期間2所示的形式一樣,也說明,圖中所示的每條曲線的缺失數(shù)據(jù)可能隨時發(fā)生。
圖2 缺失情況1-不完備數(shù)據(jù)(間隔:1/2 h)
圖3顯示了傳感器校準產(chǎn)生的缺失數(shù)據(jù)的情況。圖中,由于傳感器校準而產(chǎn)生的缺失數(shù)據(jù)發(fā)生在期間2,但是在期間1,其他傳感器的數(shù)據(jù)是完整的。
如果部分本地傳輸、部分供應(yīng)電源、部分本地計算機子系統(tǒng)沒有工作,就會產(chǎn)生圖3中所示的缺失數(shù)據(jù)情形,顯然,不同的傳感器的缺失數(shù)據(jù)不會同時產(chǎn)生。
圖3 缺失情況2-不完備數(shù)據(jù)(間隔:1/2 h)
圖4顯示了由于傳感器替代產(chǎn)生的不完全數(shù)據(jù)情況。在圖4所示的期間1處,由于需要校準一個傳感器,所以這個傳感器就被另一個傳感器替換。如果傳感器的參數(shù)不是環(huán)境參數(shù),比如溫度或者濕度等,那么數(shù)據(jù)集中就會產(chǎn)生一個跳變。
從圖4可知,橋梁安全監(jiān)測系統(tǒng)的數(shù)據(jù)集是一個固定時段里的時間序列數(shù)據(jù),采集頻率為1 h或0.5 h,數(shù)據(jù)呈周期性變化,周期為1天,即24 h。并且表面溫度、內(nèi)部溫度、撓度的變化和空氣溫度的變化趨勢基本一致。
圖4 缺失情況3-不完備數(shù)據(jù)(間隔:1/2 h)
在文獻[1-3]中,有許多處理缺失數(shù)據(jù)和不完備數(shù)據(jù)的方法。這些引文中列舉的方法大多數(shù)使用間接法,即用填補值代替缺失值。神經(jīng)網(wǎng)絡(luò)法就屬于間接填補法。
BP網(wǎng)絡(luò)是一種具有3層或者3層以上神經(jīng)元的神經(jīng)網(wǎng)絡(luò),包括輸入層、中間(隱含)層、輸出層,相鄰2層之間實現(xiàn)全連接,而每層神經(jīng)元之間無連接。當給網(wǎng)絡(luò)提供一個樣本后,神經(jīng)元的權(quán)值從輸入層經(jīng)各中間層向輸出層傳播,在輸出層的各神經(jīng)元獲得網(wǎng)絡(luò)輸入響應(yīng),接下來,按照減少目標輸出與實際輸出之間的誤差的方向,從輸出層反向經(jīng)過各中間層回到輸入層,從而逐層修正各連接權(quán)值,這種算法為“誤差方向傳播算法”,即BP算法[5],這種網(wǎng)絡(luò)也稱為BP網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 BP網(wǎng)絡(luò)結(jié)構(gòu)
BP網(wǎng)絡(luò)通過學習可以逼近任意非線性映射,它不受非線性模型的限制,在短期預(yù)測領(lǐng)域受到廣泛應(yīng)用。由于神經(jīng)網(wǎng)絡(luò)要求的樣本數(shù)比較大,所以訓練時間比較長。但是橋梁健康監(jiān)測系統(tǒng)的數(shù)據(jù)是一系列的時間序列集,而且橋梁的撓度、內(nèi)部溫度、表面溫度都受空氣溫度影響,這些數(shù)據(jù)具有時間序列的特征,如果塑造網(wǎng)絡(luò)樣本的話,就可以減小網(wǎng)絡(luò)的訓練樣本量。所以本文提出了用時間序列及神經(jīng)網(wǎng)絡(luò)混合模型的方法來預(yù)測橋梁健康監(jiān)測系統(tǒng)的缺失數(shù)據(jù)或不完備數(shù)據(jù)。
為了填補缺失數(shù)據(jù),就必須在真實數(shù)據(jù)基礎(chǔ)上模擬一些缺失數(shù)據(jù)。首先,準備缺失數(shù)據(jù),這里模擬列舉了3種數(shù)據(jù)缺失情況,然后對這些缺失數(shù)據(jù)進行填補,最后將每種缺失情況的估計值與真實值進行了對比。
圖5和圖6顯示的是一座橋梁的健康監(jiān)測系統(tǒng)3月24號到3月31號的真實數(shù)據(jù)。數(shù)據(jù)間隔1 h,總共是192個記錄。圖5和圖6顯示的是橋梁的溫度和撓度的真實數(shù)據(jù)。其中溫度包括內(nèi)部溫度、表面溫度、空氣溫度。
圖6 溫度真實數(shù)據(jù)
圖7 撓度真實數(shù)據(jù)
1)Case1
設(shè)前7天的數(shù)據(jù)是完整的,第8天的所有數(shù)據(jù)都丟失。這里對空氣溫度缺失數(shù)據(jù)進行填補,用t-24、t-2、t-1時刻的空氣溫度預(yù)測t時刻的空氣溫度。填補值與真實值如圖8所示。
圖8 空氣溫度(RMSE為1.59℃)
2)Case2
假定第8天的空氣溫度數(shù)據(jù)是完整的,但第8天的撓度、表面溫度和內(nèi)部溫度數(shù)據(jù)都丟失。
空氣溫度是環(huán)境參數(shù),如果空氣溫度改變,表面溫度和內(nèi)部溫度也會隨著改變,從而撓度也會相應(yīng)改變。這里選擇空氣溫度作為自變量或者輸入,表面溫度、內(nèi)部溫度作為因變量或者輸出變量。對于撓度,受內(nèi)部溫度影響最大,應(yīng)選內(nèi)部溫度作為自變量,即用t-24時刻的空氣溫度、t-2與t-1時刻的表面溫度預(yù)測t時刻的表面溫度;用t-24時刻的空氣溫度、t-2與t-1時刻的內(nèi)部溫度預(yù)測t時刻的內(nèi)部溫度;用t-24時刻的內(nèi)部溫度、t-2與t-1時刻的撓度預(yù)測t時刻的撓度。各變量的填補值與真實值如圖9~11所示。
3)Case3
假定溫度數(shù)據(jù)是完整的,撓度數(shù)據(jù)從第5天開始跳變。首先,找到數(shù)據(jù)的臨界跳變點,設(shè)撓度值在t時刻開始跳變。然后,利用case2中撓度的預(yù)測方法來預(yù)測t時刻的撓度值,假設(shè)預(yù)測值為DET,設(shè)t時刻真實測量值為DTT,令Δ=DETDTT,那么跳變值就為Δ,則t時刻之后的預(yù)測值就為各個真實撓度值減去跳變值。第8天撓度值的預(yù)測結(jié)果如圖12所示。
圖12 撓度(RMSE為5.80 mm)
根據(jù)文獻[6],時間序列是依時間順序生成的一系列觀測值的集合,利用一個時間序列在t時刻的有效觀測值可以預(yù)測該序列未來t+l時刻的值[6]。從圖2~4可看到,橋梁健康監(jiān)測系統(tǒng)的數(shù)據(jù)集是一個固定間隔的時間序列數(shù)據(jù),固定間隔是0.5 h,固定周期為24 h,所以,就可以用時間序列的分析方法來處理缺失數(shù)據(jù)。為了與上面的填補結(jié)果進行對比,這里用時間序列(SARIMA)模型法對上面的3種案例的缺失數(shù)據(jù)進行填補。
根據(jù)時間序列的特性及橋梁健康監(jiān)測系統(tǒng)的數(shù)據(jù)特點,采用周期性自回歸積分移動平均時間序列模型即(SARIMA模型),它能夠獲得一個時間序列的趨勢和周期成分。一旦一個時間序列的特性符合SARIMA模型的話,就可以用這種模型來預(yù)測缺失數(shù)據(jù)。用時間序列填補上面各個案例的結(jié)果見圖13~17。
1)Case1
不完備數(shù)據(jù)或缺失數(shù)據(jù)在橋梁健康監(jiān)測系統(tǒng)中很普遍。列舉了3種缺失數(shù)據(jù)的情況,并利用時間序列及神經(jīng)網(wǎng)絡(luò)混合模型的方法和SARIMA時間序列模型法對其進行填補,這2種方法都可對橋梁健康監(jiān)測的缺失數(shù)據(jù)進行有效填補。根據(jù)上面填補結(jié)果及表1,可知對于case2和case3,混合模型法填補的誤差比時間序列法填補的誤差小,效果好。但對于case1,因為數(shù)據(jù)丟失度較大,2個方法的填補效果相當。所以這種混合模型可以有效地預(yù)測橋梁健康監(jiān)測系統(tǒng)的缺失數(shù)據(jù)。
表1 2種模型的預(yù)測結(jié)果的RMSE值
[1] Alan Olinsky,Shaw Chen,Lisa Harlow.The comparative efficacy of imputation methods for missing data in structural equation modeling[J].European Journal of Operational Research,2003,151:53-79.
[2] Nikos Tsikriktsis.A review of techniques for treating missing data in OM survey research[J].Journal of Operation Management,2005,24:53-62.
[3] Christophe Cerisara,Sebastien Demange,Jean-Paul Haton.On noise masking for automatic missing data speech recognition:A survey and discussion[J].Computer Speech and Language,2007,21:443-457.
[4] Yumei Fu,Yong Zhu,Weimin Chen,et al.Research,development and application of remote state Monitoring System for Bridges[J].China Civil Engineering Journal,2003(2):91-94.
[5] 葛哲學,孫志強.神經(jīng)網(wǎng)絡(luò)理論與matlabR 2007實現(xiàn)[M].北京:電子工業(yè)出版社,2007.
[6] George E,Box P,Gwilym M J.Time series analysis forecasting and control[M].3rd editor.[S.l.]:Holden-Day,1970.