付 菲,孫滿利,朱明哲,王廣輝,李 庫
(1.西北大學(xué)文化遺產(chǎn)學(xué)院,陜西西安 710069;2.西安電子科技大學(xué)電子工程學(xué)院,陜西西安 710071;3.漢景帝陽陵博物院,陜西西安 712038)
建于2006年的漢陽陵外藏坑遺址博物館是我國第一個大型全封閉式的土遺址博物館。其保護效果一直受到業(yè)內(nèi)關(guān)注,為有效評估封閉保護模式的效果,自2009年以來,該遺址內(nèi)共設(shè)置各類傳感器260處,累積各類環(huán)境、土體監(jiān)測數(shù)據(jù)達700多萬條。通過監(jiān)測這些影響遺址保存狀態(tài)發(fā)展變化的因素,可以研究遺址的演變規(guī)律并預(yù)測其發(fā)展趨勢,從而指導(dǎo)具體的遺址保護管理工作。近年間,我國開展了大量遺址監(jiān)測工作,監(jiān)測技術(shù)已日趨成熟。但與此對應(yīng)的是,該類監(jiān)測數(shù)據(jù)的挖掘利用程度較低,缺少對積累數(shù)據(jù)的統(tǒng)計規(guī)律和細節(jié)特征的綜合分析,因此無法通過監(jiān)測來有效分析遺址的演變規(guī)律,更無法對后續(xù)的保護管理提供指導(dǎo)。大數(shù)據(jù)分析挖掘能力已成為預(yù)防性保護技術(shù)發(fā)展的關(guān)鍵技術(shù)。
溫度是影響遺址保存狀態(tài)的主要環(huán)境因素之一,長期以來都是遺址監(jiān)測的一項重點內(nèi)容。近年來基于溫度監(jiān)測數(shù)據(jù)分析而展開的保護研究已有不少。研究對象包括室外土遺址和室內(nèi)博物館,也有專門圍繞漢陽陵外藏坑遺址的研究。研究內(nèi)容涉及劣化機理[1-5]、變化規(guī)律[6-12]、預(yù)報模型[13-14]等方面。根據(jù)上述文獻,目前圍繞溫度等環(huán)境監(jiān)測數(shù)據(jù)的研究方法主要為:先將采集到的數(shù)據(jù)作出其在監(jiān)測周期內(nèi)隨時間變化的曲線圖,得到環(huán)境因素的變化規(guī)律,之后圍繞該規(guī)律展開后續(xù)研究。但是,這些研究,一方面并沒有從海量監(jiān)測數(shù)據(jù)的挖掘入手,所用數(shù)據(jù)的時限大多長為一年內(nèi),短則一個月甚至一天。另一方面處理數(shù)據(jù)所采用的算法較為簡單,所用有效數(shù)據(jù)點基本在十幾至幾十個,沒有充分利用并分析監(jiān)測數(shù)據(jù)的統(tǒng)計及變化規(guī)律。以溫度預(yù)報模型的研究為例,往往將海量監(jiān)測數(shù)據(jù)簡化為代表年、月、日的平均值,從而推導(dǎo)出年際或月際的簡單變化趨勢。相比于單傳感器一年上萬的數(shù)據(jù)量,這種簡單平均統(tǒng)計的數(shù)據(jù)利用率是比較低的。同時,數(shù)據(jù)簡化雖然避免了大數(shù)據(jù)挖掘,但也模糊了數(shù)據(jù)的細節(jié)信息。因此,傳統(tǒng)的監(jiān)測數(shù)據(jù)處理方法無法準確表達溫度變化特征及規(guī)律,更無法做到準確分析以分鐘甚至以秒為計時單位的瞬時溫度變化趨勢,浪費了大量監(jiān)測數(shù)據(jù)的有效信息。過于低分辨的數(shù)據(jù)分析難以為實際的遺址保護工作提供可靠的先驗知識。
機器學(xué)習(xí),是讓計算機具有像人一樣的學(xué)習(xí)能力,可以從堆積如山的數(shù)據(jù)中尋找出有用知識的一種數(shù)據(jù)挖掘技術(shù)[15]。機器學(xué)習(xí)通過對數(shù)據(jù)的歷史關(guān)系和趨勢的學(xué)習(xí)發(fā)現(xiàn)“隱藏的視角”,并以此設(shè)計復(fù)雜模型和算法從而實現(xiàn)預(yù)測功能。近年來,隨著互聯(lián)網(wǎng)或多重傳感器技術(shù)的應(yīng)用,使得大量獲取多種數(shù)據(jù)成為了可能,大數(shù)據(jù)已經(jīng)成為了可以創(chuàng)造更多附加值的新興技術(shù)領(lǐng)域。因此也使得在大數(shù)據(jù)處理和發(fā)掘方面具有出色表現(xiàn)的各類機器學(xué)習(xí)算法受到越來越多的關(guān)注,并廣泛應(yīng)用在人工智能、金融市場分析、軟件工程、醫(yī)療診斷等眾多領(lǐng)域。
針對漢陽陵外藏坑遺址博物館以往海量的溫度監(jiān)測數(shù)據(jù),將機器學(xué)習(xí)技術(shù)引入溫度監(jiān)測數(shù)據(jù)的分析研究中,在總結(jié)溫度變化統(tǒng)計規(guī)律的同時對其進行建模,并通過實測數(shù)據(jù)驗證了模型的有效性,初步探討了該模型的建立在未來研究工作中的應(yīng)用方向及可行性。
漢陽陵外藏坑遺址博物館采用全地下建筑,遺址保護區(qū)由玻璃通道構(gòu)成,呈“L”型環(huán)繞外藏坑四周。博物館內(nèi)環(huán)境監(jiān)測采用西安元智系統(tǒng)技術(shù)有限公司設(shè)計的實時環(huán)境監(jiān)測系統(tǒng),可實現(xiàn)遠程實時數(shù)據(jù)傳送,監(jiān)測點位共108處,監(jiān)測內(nèi)容主要包括空氣溫濕度、土壤溫度及含水率、二氧化碳濃度等。本工作選取了位于外藏坑帝陵中廳的11-65號傳感器(圖1)的溫度監(jiān)測數(shù)據(jù)作為分析對象。監(jiān)測儀器為室內(nèi)型大氣溫濕度傳感器(型號MW301GA),測量精度和范圍分別±0.3℃和-20~80℃,監(jiān)測時間段為2011年3月3日至2011年12月27日,監(jiān)測頻率30 min,應(yīng)測數(shù)據(jù)14 448條,實測數(shù)據(jù)總數(shù)共10 359條。
由于全年數(shù)據(jù)記錄超過萬條,并且數(shù)據(jù)本身存在缺陷,傳統(tǒng)平均統(tǒng)計的數(shù)據(jù)處理方法顯然無法有效利用如此大量的數(shù)據(jù)記錄信息。在利用數(shù)據(jù)進行分析和預(yù)測前,首先需要對數(shù)據(jù)分布特點和缺失狀況進行研究,因此,繪制了數(shù)據(jù)的分布圖(圖2)。
從圖1可以看出,該類數(shù)據(jù)的結(jié)構(gòu)是比較復(fù)雜的。主要體現(xiàn)在兩個方面:
1)數(shù)據(jù)分布不均勻。由于傳感器、數(shù)據(jù)記錄、數(shù)據(jù)傳輸?shù)雀鱾€模塊的突發(fā)情況,部分監(jiān)測日內(nèi)記錄數(shù)據(jù)較多,而個別測日內(nèi)記錄數(shù)據(jù)嚴重不足。如圖2所示,全年平均日記錄數(shù)據(jù)在40條左右,而3月上旬(61~70監(jiān)測日)普遍記錄數(shù)據(jù)為日均超過120條,與之對應(yīng)的是,8月中旬(255~265監(jiān)測日)的部分日記錄數(shù)據(jù)不足10條。在數(shù)據(jù)樣本不均勻的情況下,以此采樣的數(shù)據(jù)為基礎(chǔ)得出的日平均溫度將會存在較大誤差,再用此類統(tǒng)計數(shù)據(jù)為依據(jù)進行下一步的溫度規(guī)律分析或建立溫度預(yù)測模型都會帶來較大的誤差傳遞。
2)數(shù)據(jù)存在缺失。該類數(shù)據(jù)的缺失具體包含兩種情況:
(1)短期缺失:傳感器采樣頻率約為30 min,因此正常情況下一天數(shù)據(jù)約48組,但某些天數(shù)據(jù)較少,將會影響后續(xù)機器學(xué)習(xí)的效果和預(yù)測評價;
(2)長期缺失:以天為基數(shù)的缺失,如2011年74~86 d共13整天的數(shù)據(jù)缺失。數(shù)據(jù)長期缺失的部分會影響后續(xù)處理對數(shù)據(jù)細節(jié)的分析。
綜上,由于數(shù)據(jù)自身的復(fù)雜性,在建模前需要對其進行一定的預(yù)處理來提高模型的準確性,來實現(xiàn)精確的趨勢預(yù)測。
為了進一步探討數(shù)據(jù)的整理分析方法,繪制了溫度變化曲線(圖3)。由圖3可以看出,采用的溫度監(jiān)測數(shù)據(jù)主要有3種變化特征:1)日間變化趨勢,主要是指在較長的一段時間中,溫度的平均走勢??杉毞譃閱握{(diào)上升趨勢,單調(diào)下降趨勢和平穩(wěn)走勢;2)日內(nèi)變化趨勢,主要是指在一天的變化周期中,每個時刻的溫度細節(jié)變化趨勢;3)溫度突變,主要是指由于數(shù)據(jù)缺失或傳感器等問題引起的溫度數(shù)據(jù)突然變化。
由此可見,溫度隨時間的變化具有不同的規(guī)律特征,僅靠單一的線性擬合描述時間-溫度的映射是十分不準確的,特別是溫度的日周期性變化通常為高度非線性。由于機器學(xué)習(xí)具有強大的非線性擬合能力,可通過對歷史數(shù)據(jù)的學(xué)習(xí)逼近特征(feature)和標(biāo)簽(label)間的非線性映射關(guān)系。采用機器學(xué)習(xí)領(lǐng)域較新的極限學(xué)習(xí)機算法,探討基于現(xiàn)有的大量歷史數(shù)據(jù),建立時間-溫度關(guān)系模型,用于短期溫度預(yù)測的數(shù)據(jù)分析方法將有助于解決傳統(tǒng)數(shù)據(jù)整理方法的缺陷。
在以往的系統(tǒng)建模中,需要詳細分析系統(tǒng)中的主要因素以及各因素間的相互作用關(guān)系,這種“抽絲剝繭”般的研究方式更適合進行單因素或簡單系統(tǒng)的分析建模。然而博物館內(nèi)溫度變化受到外界氣候條件、建筑結(jié)構(gòu)、游客數(shù)量等諸多因素的影響,對于這種大型復(fù)雜系統(tǒng)的建模,由于其內(nèi)部結(jié)構(gòu)及耦合關(guān)系難以直接描述,因此無法采用以往的經(jīng)驗建?;驒C理建模方法。而溫度監(jiān)測數(shù)據(jù)作為此復(fù)雜系統(tǒng)作用的直接表現(xiàn),其中已然蘊含著多因素間的復(fù)雜關(guān)系。所以機器學(xué)習(xí)建模的原理即是從數(shù)據(jù)出發(fā),無需深究這個復(fù)雜系統(tǒng)內(nèi)部的作用機制,而是通過分析反映這些機制的數(shù)據(jù),采取一定的算法反推和擬合出該系統(tǒng)的數(shù)學(xué)模型,不斷訓(xùn)練以逼近原系統(tǒng)的真實結(jié)構(gòu)和狀態(tài)。
極限學(xué)習(xí)機(extreme learning machine,ELM)是一種新型的單隱層前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法,它對大量非結(jié)構(gòu)性、非精確性規(guī)律具有自適應(yīng)能力、自主學(xué)習(xí)和優(yōu)化計算的特點[16-20]。相比于其他機器學(xué)習(xí)算法,該方法最突出的特點是運算速度快,實時性強,適合大數(shù)據(jù)分析。在溫度預(yù)測應(yīng)用中,極限學(xué)習(xí)機在獲取海量溫度監(jiān)測數(shù)據(jù)的基礎(chǔ)上,學(xué)習(xí)數(shù)據(jù)的歷史關(guān)系和趨勢,總結(jié)數(shù)據(jù)特征及規(guī)律,利用神經(jīng)網(wǎng)絡(luò)算法建立模型,預(yù)測未來溫度,整個學(xué)習(xí)建模過程一次完成,無需迭代,并且產(chǎn)生唯一的最優(yōu)解。同時,極限學(xué)習(xí)機在預(yù)測的過程中,能夠不斷引入新的實測數(shù)據(jù)來對現(xiàn)有模型進行訓(xùn)練,這種“訓(xùn)練—學(xué)習(xí)”模式使整個預(yù)測過程具有在線學(xué)習(xí)、持續(xù)更新的特點,相較于傳統(tǒng)的“一次性”建模方法,該方法建立的預(yù)測模型可以通過反復(fù)修正,逐步接近系統(tǒng)的真實狀態(tài),從而提高溫度預(yù)測的準確性。在神經(jīng)網(wǎng)絡(luò)模型中,最重要的是設(shè)定輸入/輸出及訓(xùn)練集/測試集。設(shè)定輸入/輸出這一組變量,是要建立從輸入到輸出的映射關(guān)系:將以日期和日內(nèi)相對時間作為輸入,溫度作為輸出建立模型,以此來建立溫度的日內(nèi)周期性變化模型和日際趨勢變化模型。
針對提前量為1天的溫度進行預(yù)測建模,即學(xué)習(xí)前幾天的(時間-溫度)數(shù)據(jù),預(yù)測未來一天的溫度。沿數(shù)據(jù)時間軸滑動,依次預(yù)測下一日的溫度數(shù)據(jù)。其流程示意如圖4所示。
在建立溫度預(yù)測模型前,先應(yīng)確定預(yù)測參數(shù),包括訓(xùn)練集大小(使用預(yù)測日之前幾天的歷史數(shù)據(jù))、預(yù)測時效(預(yù)測未來幾天)、訓(xùn)練集格式(溫度時序)。通過前期實驗,考慮數(shù)據(jù)間的時效性和關(guān)聯(lián)性,最終確定采用7天的歷史數(shù)據(jù)來預(yù)測未來1天的溫度,預(yù)測溫度的時序精確到年內(nèi)第幾天、該天第幾秒。
由于數(shù)據(jù)存在缺失部分,所以需對其進行預(yù)處理,來提高后續(xù)建模的準確性。
根據(jù)預(yù)測參數(shù)的要求,對于監(jiān)測周期內(nèi)的任意一天(如第k天),建模時需要學(xué)習(xí)訓(xùn)練數(shù)據(jù)(第k-7天到第k-1天)的時間-溫度關(guān)系,來預(yù)測第k天的溫度,并用第k天的實測數(shù)據(jù)驗證預(yù)測結(jié)果的準確性。所以,需要通過數(shù)據(jù)預(yù)處理來篩選出每個符合預(yù)測要求的“第k天”,即這一天和之前的7天均為正常數(shù)據(jù)天。按照該預(yù)處理策略,對數(shù)據(jù)進行如下預(yù)處理:
1)若某天數(shù)據(jù)量小于20條,判定為該天為“數(shù)據(jù)嚴重缺失天”。
2)若訓(xùn)練數(shù)據(jù)(7天)或測試數(shù)據(jù)(1天)中包含“數(shù)據(jù)嚴重缺失天”,則跳過該組學(xué)習(xí)和預(yù)測,滑動時間窗直到訓(xùn)練(和測試)數(shù)據(jù)中不包含“數(shù)據(jù)嚴重缺失”天為止。按上述策略,最終用于測試的數(shù)據(jù)分布如圖5所示。
從圖5可以看出,標(biāo)為紅色的天即為滿足預(yù)測要求的“第k天”,共142天,包括數(shù)據(jù)5 772條。將待預(yù)測的5 772條數(shù)據(jù)按順序編號,得到所有測試集的組合如圖6所示。該實測數(shù)據(jù)將與預(yù)測數(shù)據(jù)通過對比來證明預(yù)測模型的有效性。
3 預(yù)測模型實測數(shù)據(jù)驗證
首先,給出預(yù)測效果的評價指標(biāo)。
整體預(yù)測實驗結(jié)果如圖7所示,圖中是預(yù)測數(shù)據(jù)曲線和實測數(shù)據(jù)曲線的對比??梢钥闯?,預(yù)測值和實際值曲線基本吻合。預(yù)測模型不但能夠準確預(yù)測每個時刻的溫度變化,同時在數(shù)據(jù)的突變點具有較好的跟蹤能力。
從圖8中可以看出,預(yù)測最大誤差不超過5%。對預(yù)測的5 772組數(shù)據(jù)的相對誤差進行統(tǒng)計分析,得到如下結(jié)果:
平均相對誤差:0.569%;誤差小于1%的預(yù)測值占總數(shù)的84.877%;誤差小于2%的預(yù)測值占總數(shù)的97.921%;誤差小于3%的預(yù)測值占總數(shù)的99.708%。
從圖8和誤差統(tǒng)計結(jié)果中可以看出,該方法具有較好的預(yù)測效果和預(yù)測精度,尤其是在有效預(yù)測溫度數(shù)據(jù)的細節(jié)變化方面。
為更好的說明這一點,針對小節(jié)1.2數(shù)據(jù)特征分析中總結(jié)的3種溫度變化特征,分析了ELM模型在溫度處于不同變化趨勢時的預(yù)測效果。
1)日間變化趨勢。針對日間變化趨勢,由于ELM模型在訓(xùn)練過程中輸入了之前7天所有的溫度數(shù)據(jù),因此模型在其參數(shù)的充分訓(xùn)練調(diào)整后,能夠有效表征前一段時間溫度變化的整體趨勢。即ELM模型能夠判斷之前溫度屬于哪一類變化,并在之后的處理中對預(yù)測溫度進行調(diào)整。如果ELM模型判斷之前溫度處于下降(或上升)趨勢,將會降低(或升高)后續(xù)的溫度預(yù)測值。圖9所示為全年第3 220~4 710組數(shù)據(jù),該數(shù)據(jù)處于秋季,溫度處于緩慢的下降趨勢中,預(yù)測結(jié)果在保持日內(nèi)溫度變化趨勢的同時,較好地預(yù)測了溫度下降變化趨勢。為了進一步說明本方法的預(yù)測效果,圖10所示為傳統(tǒng)預(yù)測方法在溫度單調(diào)下降時的預(yù)測結(jié)果,該方法通過數(shù)據(jù)的平均統(tǒng)計,往往利用分段線性模型進行預(yù)測,只能粗略估計溫度的變化趨勢;同時由于算法簡單,一方面造成數(shù)據(jù)利用率不足,對溫度的細節(jié)變化無法預(yù)測,另一方面容易受限于數(shù)據(jù)的不均勻分布和缺失,模型誤差較大;另外,傳統(tǒng)方法沒有在線學(xué)習(xí)機制,預(yù)測模型無法進行修正、更新。以上原因?qū)е聜鹘y(tǒng)方法在運算效率和預(yù)測效果上均不及極限學(xué)習(xí)機。同理,傳統(tǒng)算法在溫度的其他變化特征下預(yù)測效果類似,后文將不再做對比贅述。圖11所示為全年第570~1 174組數(shù)據(jù)的預(yù)測結(jié)果,該數(shù)據(jù)處于春季,溫度處于明顯的上升趨勢中,預(yù)測曲線與實際值曲線擬合較好。綜上,本方法結(jié)合大數(shù)據(jù)分析,可以有效預(yù)測溫度變化趨勢,并精確預(yù)測數(shù)據(jù)的細節(jié)變化特征。
2)日內(nèi)變化趨勢。日內(nèi)變化趨勢,主要是指在一天的變化周期中,每個時刻的溫度細節(jié)變化趨勢。每日溫度的周期性變化趨勢是相似的,并且時間上相距越近的數(shù)據(jù),相關(guān)性越高,尤其是相鄰兩天的溫度數(shù)據(jù)。ELM模型在訓(xùn)練過程中,是將之前7天每個時刻的數(shù)據(jù)按由遠及近的順序輸入。因此,距預(yù)測日越近的數(shù)據(jù),對模型參數(shù)的影響越大,符合認知。此外,由于溫度數(shù)據(jù)是按年內(nèi)第幾天,該天第幾秒的格式輸入,保證了ELM對每天同一時刻溫度的跟蹤。
圖12所示為全年第5 004~5 772組數(shù)據(jù)的預(yù)測結(jié)果,該數(shù)據(jù)處于冬季,平均溫度較低。日內(nèi)溫度變化呈現(xiàn)較強的規(guī)律性,日間變化趨勢不明顯。從圖中可以看出,預(yù)測模型較好地跟蹤了日內(nèi)溫度周期性變化特征,和日間溫度的非單調(diào)變化趨勢,預(yù)測值與真實值吻合度較好。
3)溫度突變。針對溫度突變,ELM模型本身是無法進行處理的。因此,在具體建模過程中,引入2.2節(jié)所述的在線更新機制。由于在預(yù)測的過程中,不斷有新的真實值加入對后續(xù)的預(yù)測進行修正,因此整個預(yù)測模型能夠有效跟蹤溫度的突然變化。圖13為全年第1~1 000組數(shù)據(jù)的預(yù)測結(jié)果,在溫度正常變化的部分,預(yù)測值和實際值相差不大,可實現(xiàn)較精確的擬合溫度變化規(guī)律。而第580組及第840組由于數(shù)據(jù)不完全,導(dǎo)致曲線發(fā)生突變。但是在線更新機制可以迅速跟蹤到這些突變點的影響。因此預(yù)測曲線將很快跳過突變點,并預(yù)測出正確的結(jié)果。
結(jié)合漢陽陵外藏坑遺址博物館環(huán)境監(jiān)測數(shù)據(jù)利用的實際問題,引入大數(shù)據(jù)機器學(xué)習(xí)技術(shù)中的極限學(xué)習(xí)機對遺址的海量溫度數(shù)據(jù)進行了特征分析和預(yù)測模型建立。與通常對數(shù)據(jù)以平均統(tǒng)計和線性擬合的研究方法不同,極限學(xué)習(xí)機充分利用了全年的監(jiān)測數(shù)據(jù),一方面降低了數(shù)據(jù)缺失在以往工作中帶來的誤差影響,另一方面能夠有效學(xué)習(xí)跟蹤溫度變化的不同趨勢特征,所建模型經(jīng)實測數(shù)據(jù)驗證,結(jié)果表明預(yù)測效果和預(yù)測精度較好,可對未來溫度的細節(jié)變化進行精確預(yù)測。該方法也可擴展至包括濕度、二氧化碳濃度等多種環(huán)境監(jiān)測數(shù)據(jù)的分析處理上。極限學(xué)習(xí)機方法的引入可為遺址預(yù)防性保護和管理提供借鑒和參考。