劉蓮花1,楊文喜,張曉衛(wèi)1,但勇軍,劉 彬
(1.粒子輸運(yùn)與富集技術(shù)國防重點(diǎn)實(shí)驗(yàn)室,天津 300180;2.核工業(yè)理化工程研究院,天津 300180)
預(yù)測是定期更新對(duì)未來數(shù)據(jù)的當(dāng)前觀察,以反映新的或變化中的信息過程。它是基于分析當(dāng)前和歷史數(shù)據(jù)來決定未來趨勢的過程。預(yù)測分析是一種統(tǒng)計(jì)或數(shù)據(jù)挖掘解決方案,包含可在結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中使用以確定未來結(jié)果的算法和技術(shù)??蔀轭A(yù)測、優(yōu)化、預(yù)報(bào)和模擬等許多其他用途而部署,也可為規(guī)劃流程提供各種信息,并對(duì)未來提供關(guān)鍵洞察[1]。
數(shù)據(jù)挖掘主要應(yīng)用于描述類及預(yù)測類工作。其適用的關(guān)鍵在于兩個(gè)方面:一方面數(shù)據(jù)之間確實(shí)存在一定關(guān)系;另一個(gè)方面需要大量數(shù)據(jù)。通過定性分析,已經(jīng)確定了參數(shù)的關(guān)系確實(shí)存在,通過數(shù)據(jù)庫技術(shù),為系統(tǒng)參數(shù)積累了大量的真實(shí)歷史數(shù)據(jù),因此開展數(shù)據(jù)挖掘技術(shù)研究條件基本滿足[2]。
由于激光質(zhì)譜系統(tǒng)邏輯結(jié)構(gòu)復(fù)雜多樣,激光質(zhì)譜系統(tǒng)包括激光系統(tǒng)、質(zhì)譜裝置、質(zhì)譜信號(hào)測量裝置、溫濕度儀表、壓力儀表等設(shè)備,激光質(zhì)譜系統(tǒng)運(yùn)行狀態(tài)受到激光系統(tǒng)、質(zhì)譜裝置、質(zhì)譜測量裝置、激光器特性參數(shù)以及環(huán)境參數(shù)的影響,同時(shí)激光質(zhì)譜系統(tǒng)內(nèi)的多種設(shè)備在運(yùn)行期間相互影響。激光輸出功率對(duì)激光質(zhì)譜系統(tǒng)的運(yùn)行狀態(tài)影響比較大,對(duì)激光輸出功率的合理預(yù)測,做到提前掌握激光系統(tǒng)未來狀態(tài)的發(fā)展趨勢,為激光質(zhì)譜系統(tǒng)運(yùn)行決策提供重要依據(jù),因此,進(jìn)行激光輸出功率預(yù)測技術(shù)研究對(duì)整個(gè)激光質(zhì)譜系統(tǒng)具有很重要的意義。
由于激光系統(tǒng)的物理過程相對(duì)較為復(fù)雜,目前,還未建立完整的物理仿真模型,因此激光輸出功率與其他參數(shù)關(guān)系的描述還沒有。因此采用數(shù)據(jù)挖掘方法模擬關(guān)系模型,體現(xiàn)所有可能的影響因素,進(jìn)而實(shí)現(xiàn)對(duì)激光輸出功率的準(zhǔn)確預(yù)測。
激光質(zhì)譜系統(tǒng)由激光系統(tǒng)、質(zhì)譜裝置、質(zhì)譜信號(hào)測量裝置及輔助供水系統(tǒng)等設(shè)備組成。激光質(zhì)譜系統(tǒng)具有復(fù)雜的物理邏輯關(guān)系和工藝結(jié)構(gòu),并且相互關(guān)聯(lián),相互影響,任何環(huán)節(jié)的變化都會(huì)影響質(zhì)譜系統(tǒng)的運(yùn)行狀態(tài)。激光質(zhì)譜系統(tǒng)的運(yùn)行狀態(tài)由多個(gè)參數(shù)表征,包括激光系統(tǒng)特性參數(shù)、質(zhì)譜信號(hào)參數(shù)及環(huán)境參數(shù)等,任何一個(gè)參數(shù)出現(xiàn)異常都會(huì)標(biāo)志著整個(gè)系統(tǒng)狀態(tài)出現(xiàn)異常,而激光系統(tǒng)是激光質(zhì)譜系統(tǒng)運(yùn)行的前提條件,因此對(duì)激光系統(tǒng)運(yùn)行狀態(tài)的提前掌握對(duì)質(zhì)譜系統(tǒng)運(yùn)行具有重要意義。激光系統(tǒng)參數(shù)包括激光功率、脈沖延時(shí)、光束質(zhì)量、光斑大小和形狀等參數(shù),而激光功率是激光系統(tǒng)運(yùn)行狀態(tài)的關(guān)鍵參數(shù),因此,試驗(yàn)期間,需要實(shí)時(shí)預(yù)測激光輸出功率的未來發(fā)展趨勢,發(fā)現(xiàn)可能影響激光系統(tǒng)運(yùn)行狀態(tài)的因素,提前解決潛在問題,為質(zhì)譜系統(tǒng)的穩(wěn)定運(yùn)行提供保障。
激光輸出功率預(yù)測結(jié)構(gòu)如圖1所示,激光數(shù)據(jù)采集系統(tǒng)實(shí)時(shí)采集激光輸出功率、脈沖延時(shí)、光斑等實(shí)時(shí)監(jiān)測數(shù)據(jù),將實(shí)時(shí)數(shù)據(jù)存儲(chǔ)到歷史數(shù)據(jù)庫中,同時(shí)將實(shí)時(shí)數(shù)據(jù)發(fā)送給預(yù)測模塊。預(yù)測系統(tǒng)讀取歷史數(shù)據(jù)庫中歷史數(shù)據(jù)建立預(yù)測模型,根據(jù)實(shí)時(shí)數(shù)據(jù)對(duì)輸出功率進(jìn)行實(shí)時(shí)預(yù)測。
圖1 預(yù)測系統(tǒng)結(jié)構(gòu)圖
數(shù)據(jù)樣本是數(shù)據(jù)預(yù)測模型及相關(guān)技術(shù)的研究的關(guān)鍵因素,也是模型選定和驗(yàn)證的根源,因此數(shù)據(jù)格式及數(shù)據(jù)的正確性具有確定性作用。
由于激光數(shù)據(jù)采集系統(tǒng)需要實(shí)時(shí)采集不同獨(dú)立運(yùn)行的多個(gè)設(shè)備的多個(gè)數(shù)據(jù),數(shù)據(jù)采集及存儲(chǔ)的時(shí)間不是完全的相同,因此需要對(duì)歷史數(shù)據(jù)進(jìn)行相應(yīng)的處理才能作為數(shù)據(jù)學(xué)習(xí)樣本。將一分鐘均分為12份,即5秒鐘為一個(gè)時(shí)間段,一個(gè)時(shí)間段內(nèi)的所有數(shù)據(jù)進(jìn)行平均后進(jìn)行保存,如果在該時(shí)間段內(nèi)沒有數(shù)值則以上一個(gè)時(shí)間段內(nèi)的數(shù)值作為該時(shí)間段內(nèi)的數(shù)值進(jìn)行保存,從而實(shí)現(xiàn)數(shù)據(jù)的時(shí)間一致性。
激光系統(tǒng)在運(yùn)行過程中,功率輸出會(huì)受到多種因素的影響,會(huì)出現(xiàn)異常數(shù)據(jù),同時(shí)會(huì)自行恢復(fù)正常狀態(tài),這樣的異常數(shù)據(jù)無法預(yù)測,因此在預(yù)測過程中需要將異常數(shù)據(jù)進(jìn)行剔除。采用兩種方式進(jìn)行數(shù)據(jù)的優(yōu)化處理,分別為正態(tài)分布的3σ原則和參考在網(wǎng)絡(luò)傳輸信號(hào)中的通信延時(shí)的計(jì)算方式RTT。
3σ原則以數(shù)據(jù)符合正態(tài)分布為參考,每次當(dāng)有新的捕獲數(shù)據(jù)值時(shí),通過已有數(shù)據(jù)計(jì)算得到的均值μ和方差σ得到3σ的范圍,基本涵蓋99.74%的數(shù)據(jù)分布,當(dāng)超出3σ范圍的數(shù)據(jù)值,則按異常值進(jìn)行處理。
RTT計(jì)算方式中每一次捕獲到的數(shù)據(jù)值為RTT,SRTT是用于計(jì)算RTO的部分的參數(shù)值(性質(zhì)上類似于均值),DevRTT同樣是用于計(jì)算RTO部分的均值(類似于方差),最后計(jì)算RTO。
RTO=μ*SRTT+/-δ*DevRTT
(1)
通過(1)式計(jì)算RTO得到一個(gè)符合條件的數(shù)據(jù)范圍,再通過比對(duì)新捕獲的數(shù)據(jù)值與已有的數(shù)據(jù)范圍之間的關(guān)系判斷捕獲的數(shù)據(jù)是否為異常值。
預(yù)測型數(shù)據(jù)挖掘大體可分為分類和回歸,回歸一般包括線性回歸和非線性回歸,許多非線性回歸都可以經(jīng)過適當(dāng)?shù)淖兓D(zhuǎn)化為線性回歸。
采用激光系統(tǒng)歷史數(shù)據(jù)作為樣本數(shù)據(jù),對(duì)幾種預(yù)測模型進(jìn)行測試研究,從而確定所選取的模型。
M5模型樹算法是一種回歸樹算法。它結(jié)合了傳統(tǒng)的決策樹的理念,并且有一定的概率在葉子結(jié)點(diǎn)處生成線性回歸函數(shù)。模型樹的生成和決策樹的生成是十分地類似。
M5模型樹算法即為輸入空間X1、X2被分到各個(gè)區(qū)域上,獨(dú)立的回歸模型能分別產(chǎn)生于這些區(qū)域中。在生成模型樹時(shí),一個(gè)特征首先被放置在根節(jié)點(diǎn),并為每一個(gè)可能的數(shù)值生成一個(gè)樹枝;然后根結(jié)點(diǎn)的樣本集被劃分為幾個(gè)子集,每一個(gè)樹枝下有一個(gè)子集。這個(gè)過程被不斷重復(fù),直至某一個(gè)結(jié)點(diǎn)下的所有樣本擁有相同的分類時(shí),那一個(gè)部分的生成過程方才停止。這個(gè)被選擇來劃分特定的樣本集的特征,是通過叫做“劃分準(zhǔn)則”的統(tǒng)計(jì)學(xué)特性來決定的。對(duì)于普通的決策樹來說,劃分準(zhǔn)則是要盡可能地減少產(chǎn)生的子集中的熵值,即盡可能多地把同一類的樣本劃分在一個(gè)子集中。而M5模型樹是一個(gè)數(shù)值預(yù)測算法,它的劃分準(zhǔn)則是基于某一個(gè)結(jié)點(diǎn)下的所有數(shù)值的標(biāo)準(zhǔn)差來決定的。這個(gè)標(biāo)準(zhǔn)差被用作該結(jié)點(diǎn)的誤差度量,而能夠減少最多誤差值的特征就被選擇為該結(jié)點(diǎn)的劃分。劃分過程在某一結(jié)點(diǎn)的數(shù)值標(biāo)準(zhǔn)差很小時(shí)停止,或者在某一個(gè)子集中只剩下很少的樣本時(shí)停止[3]。線性回歸模型于劃分停止后在每個(gè)終止結(jié)點(diǎn)上生成。
根據(jù)M5模型的算法原理,采用激光系統(tǒng)輸出功率作為預(yù)測目標(biāo),根據(jù)影響激光輸出功率的影響因素生成的模型樹如圖2所示。
圖2 M5模型樹
采用激光系統(tǒng)某一段時(shí)間的歷史數(shù)據(jù)作為樣本數(shù)據(jù)在M5算法模型上進(jìn)行了測試,激光輸出功率的歷史預(yù)測結(jié)果與歷史真實(shí)值對(duì)比結(jié)果如圖3所示,此段時(shí)間內(nèi),歷史真實(shí)值與歷史預(yù)測值偏差不大。
圖3 M5模型預(yù)測結(jié)果
多層感知機(jī)由多層神經(jīng)元組成。輸入的信號(hào)被提交到隱藏層的神經(jīng)元中。在使用多個(gè)隱藏層時(shí),每一層的輸出都被作為輸入提交到下一層神經(jīng)元中。按照標(biāo)準(zhǔn)的回歸模型,每一個(gè)神經(jīng)元使用一個(gè)非線性激勵(lì)函數(shù):
(2)
多層感知機(jī)模型的理念是:激勵(lì)函數(shù)概略地體現(xiàn)了一個(gè)真實(shí)神經(jīng)元的激勵(lì)作用。最高層隱藏層神經(jīng)元的輸出被提交到輸出層。只有一層隱藏層神經(jīng)元配合以下函數(shù)使用[4]:
(3)
(4)
式(4)中,c是放縮參數(shù)使得多層感知機(jī)的輸出擬合數(shù)據(jù)。
在隱藏層使用傳統(tǒng)的sigmoid函數(shù):
(5)
而感知機(jī)的權(quán)重則通常由梯度下降最小化算法來得出。
采用激光系統(tǒng)歷史數(shù)據(jù)作為樣本數(shù)據(jù),預(yù)測某一特征值X1按照如下過程:輸入的特征值X1生成一些滯后特征,再使用這些特征構(gòu)造多層感知機(jī)模型,如圖4所示。
圖4 多層感知機(jī)預(yù)測模型
同樣采用激光系統(tǒng)某一段時(shí)間的歷史數(shù)據(jù)作為樣本數(shù)據(jù)在多層感知機(jī)算法模型上進(jìn)行了測試,激光輸出功率的歷史預(yù)測結(jié)果與歷史真實(shí)值對(duì)比結(jié)果如圖5所示,此段時(shí)間內(nèi),歷史真實(shí)值與歷史預(yù)測值偏差比較大。
圖5 多層感知機(jī)預(yù)測結(jié)果
在統(tǒng)計(jì)學(xué)中,線性回歸是利用稱為線性回歸方程的最小二乘函數(shù)對(duì)一個(gè)或多個(gè)自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析。在線性回歸中,數(shù)據(jù)使用線性預(yù)測函數(shù)來建模,并且未知的模型參數(shù)也是通過數(shù)據(jù)來估計(jì)[6]。
給定一個(gè)隨機(jī)樣本(Yi,Xi1,Xi2,…,Xip),i=1,…,n,一個(gè)線性回歸模型假設(shè)回歸子Yi和回歸量Xi1,Xi2,…,Xip之間的關(guān)系是除了X的影響外,還有其他的變數(shù)存在。加入一個(gè)誤差項(xiàng)εi(也是一個(gè)隨機(jī)變量)來捕獲除了Xi1,Xi2,…,Xip之外任何對(duì)Yi的影響[7]。所以一個(gè)多變量線性回歸模型表示為以下的形式:
偷偷拿走我的畫的人是秦晴,因?yàn)樗灿泻臀乙粯拥膼酆?,卻只能背著爸媽進(jìn)行。爸媽發(fā)現(xiàn)后,一怒之下將其“毀尸滅跡”。
Yi=β0+β1Xi1+β2Xi2+…+βpXip+εi,i=1,…,n
(6)
采用激光系統(tǒng)樣本數(shù)據(jù),預(yù)測某一特征值X1按照如下過程:輸入的特征值X1生成一些人造的時(shí)間戳,并生成一些滯后特征, 根據(jù)數(shù)據(jù)生成線性回歸模型。
采用激光系統(tǒng)同一段時(shí)間的歷史數(shù)據(jù)作為樣本數(shù)據(jù)在線性回歸算法模型上進(jìn)行了測試,激光輸出功率的歷史預(yù)測結(jié)果與歷史真實(shí)值對(duì)比結(jié)果如圖6所示,此段時(shí)間內(nèi),歷史真實(shí)值與歷史預(yù)測值偏差非常小。
圖6 線性回歸預(yù)測結(jié)果
支持向量機(jī)使用線性模型,通過一些非線性映射輸入向量x到高緯度特征空間,從而生成非線性分類邊界。一個(gè)在此新空間生成的線性模型可以代表一個(gè)原空間的非線性決策邊界。在新的空間里,一個(gè)最優(yōu)的分隔超平面被建立。這一最大間隔超平面給出了決策集之間的最大間隔??窟@個(gè)最大間隔超平面最近的訓(xùn)練樣本被稱為支持向量。所有其他的訓(xùn)練樣本都和決定這個(gè)二元分類邊界無關(guān)[8]。
在線性可分的數(shù)據(jù)中,一個(gè)擁有3個(gè)特征的分隔二元決策集的超平面可以由以下方程表示:
y=ω0+ω1x1+ω2x2+ω3x3
(7)
在式(7)中,y是輸出,xi是特征值,而且有四個(gè)需要算法學(xué)習(xí)的權(quán)重ωi。這些權(quán)重ωi就是決定超平面的參數(shù)[9]。這個(gè)最大間隔超平面可以被支持向量由以下方程表示:
y=b+∑αiyix(i)·x
(8)
在線性不可分的數(shù)據(jù)中,一個(gè)高緯度版本的方程簡單地如下表示:
y=b+∑αiyiK(x(i),x)
(9)
在式(9)中,函數(shù)K(x(i),x)被定義為核函數(shù)。常見的核函數(shù)有多項(xiàng)式核函數(shù)等。
采用激光系統(tǒng)樣本數(shù)據(jù),預(yù)測某一特征值X1按照如下過程:輸入的特征值X1生成一些滯后特征, 經(jīng)計(jì)算后獲得支持向量機(jī)模型及權(quán)重值。
通過支持向量機(jī)模型,計(jì)算激光輸出功率的歷史數(shù)據(jù)預(yù)測值。
根據(jù)激光質(zhì)譜實(shí)驗(yàn)實(shí)際情況,在不同季節(jié)以及一天的不同時(shí)段實(shí)驗(yàn)結(jié)果略有不同,因此采用激光質(zhì)譜系統(tǒng)多次實(shí)驗(yàn)的激光系統(tǒng)功率及相關(guān)歷史數(shù)據(jù)進(jìn)行了歷史預(yù)測測試。通過選擇三次試驗(yàn)的7個(gè)不同時(shí)間段數(shù)據(jù),選擇每個(gè)時(shí)間段為30分鐘,進(jìn)行預(yù)測10分鐘內(nèi)的數(shù)據(jù),將預(yù)測的歷史數(shù)據(jù)與真實(shí)歷史數(shù)據(jù)進(jìn)行比較,并計(jì)算平均誤差。通過對(duì)已經(jīng)建立的支持向量機(jī)預(yù)測模型、線性回歸模型、M5模型和多層感知機(jī)模型分別進(jìn)行多個(gè)時(shí)間段數(shù)據(jù)的訓(xùn)練、預(yù)測和平均誤差計(jì)算,結(jié)果如表1所示。在7個(gè)時(shí)間段內(nèi),支持向量機(jī)模型和多層感知機(jī)模型給出的預(yù)測結(jié)果的平均誤差都大于線性回歸模型和M5模型。根據(jù)激光系統(tǒng)的功率數(shù)據(jù)特性,預(yù)測誤差應(yīng)小于1。M5模型在其中的4個(gè)時(shí)間段內(nèi)的平均誤差小于1,其中3個(gè)時(shí)間段的誤差比較大。經(jīng)過與激光系統(tǒng)的實(shí)際運(yùn)行狀態(tài)進(jìn)行了分析與對(duì)比,其中3個(gè)誤差比較大的時(shí)間段為系統(tǒng)調(diào)節(jié)或故障階段,數(shù)據(jù)波動(dòng)較大,預(yù)測偏差較大,因此M5預(yù)測模型的預(yù)測結(jié)果更接近激光系統(tǒng)輸出功率的歷史數(shù)據(jù)。
同時(shí)又對(duì)4種預(yù)測模型的預(yù)測誤差的平均值和方差進(jìn)行了計(jì)算,結(jié)果如圖7所示。其中支持向量機(jī)模型的誤差的平均值和方差為40.59和92.02,遠(yuǎn)遠(yuǎn)超過了線性回歸模型、M5模型和多層感知機(jī)模型,線性回歸模型和M5模型的誤差平均值和方差相差不多,與誤差結(jié)果基本一致。由于M5模型在預(yù)測精度和穩(wěn)定性上都為最優(yōu)選擇,因此選擇M5模型作為激光輸出功率的研究預(yù)測模型。
表1 預(yù)測模型誤差比較
圖7 模型的平均值和方差
根據(jù)激光系統(tǒng)的部分歷史數(shù)據(jù)分別對(duì)M5預(yù)測模型、線性回歸模型、向量機(jī)模型進(jìn)行了建模及預(yù)測分析,通過比較幾個(gè)預(yù)測模型在不同時(shí)段間的預(yù)測誤差、平均誤差及方差結(jié)果,M5預(yù)測模型的預(yù)測結(jié)果相對(duì)最優(yōu)。模型分析結(jié)果表明,M5預(yù)測模型適合進(jìn)行質(zhì)譜系統(tǒng)激光輸出功率的預(yù)測技術(shù)研究。