亓紅強,錢本華
(東北大學信息科學與工程學院,遼寧沈陽 110819)
在智能制造行業(yè)中,存在高溫、高壓的高危險環(huán)境,其中的化學品、危險物質(zhì)可能導致泄漏、爆炸、中毒或火災等危險情況[1],對工人的健康和安全構成威脅。隨著工廠管理自動化的逐步普及,依靠工作人員進行危險預警需要耗費大量的人力資源,且容易因為監(jiān)管人員的疏忽導致數(shù)據(jù)異常被忽視,故需要建立危險預警系統(tǒng)進行監(jiān)控管理[2]。
目前的檢測系統(tǒng)是集中式的處理方式,傳感器將檢測的信息傳遞到中央處理器中處理[3-4],但是隨著檢測系統(tǒng)的不斷發(fā)展和系統(tǒng)規(guī)模的增大,集中式處理方法的弊端逐漸顯露出來,具有單點故障敏感性高、系統(tǒng)響應時間長和穩(wěn)定性差等問題。分布式作為一種可行的方法,逐漸獲得研究人員的關注[5-6]。分布式系統(tǒng)的應用可以減少對危險情況的響應時間,當檢測到危險時,不需要傳遞到中央處理器,直接在該分布式節(jié)點的邊緣控制器中就可以完成危險判斷,然后邊緣控制器通過分布式網(wǎng)絡將危險信號傳遞到其他邊緣控制器中。分布式網(wǎng)絡結構可以有效避免集中式處理方式中單點線路故障導致的預警延遲。
本系統(tǒng)選擇FPGA作為邊緣控制器[7-8],FPGA具有并行運算的特點,在處理多傳感器檢測的信息時,可以縮減計算時間,減少響應時間。
為了使系統(tǒng)的檢測數(shù)據(jù)更加準確,在車間室內(nèi)設置多個傳感器陣列,每個傳感器陣列內(nèi)的傳感器數(shù)量和種類一樣,將同類傳感器檢測的信息融合,信息融合在信息處理中是一項非常重要的工作[9-10],對于增強結果的準確性至關重要,融合計算是傳感器信息融合的關鍵,對于不同的應用場合與應用要求,信息融合算法不盡相同,融合計算過程需要對多傳感器的觀測結果進行分析和取舍。本文提出的檢測系統(tǒng)采用計算支持度的方法,高效完成了信息融合,提高了系統(tǒng)的準確性。
經(jīng)過傳感器融合后的數(shù)據(jù)僅可以通過分類模型得到當前的危險狀態(tài)。但在有危險隱患的工業(yè)現(xiàn)場,需要提前30 s甚至1 min以上對于危險進行預警,從而給危險涉及范圍的人群安全撤離的時間,所以需要對環(huán)境參數(shù)序列進行預測,結合預測結果進行危險判斷。常見的預測方法主要有非線性的回歸模型[11],但其因為參數(shù)設置過于依賴經(jīng)驗以及精確模型的建立導致適用性較低。江典蔚等[12]提出一種結合多元線性回歸和粒子群優(yōu)化算法的方法對于RH終點溫度進行預測,但其對數(shù)據(jù)屬性的簡化并沒有反饋機制來避免關鍵信息的丟失。長短期記憶神經(jīng)網(wǎng)絡一直以來被認為是解決數(shù)據(jù)預測問題的高效方法。亓利[13]提出了一種基于雙視圖LSTM嵌入的變分自編碼器(TVAE),提高了故障檢測的檢測率,但應用在危險環(huán)境海量的異構數(shù)據(jù)以及瞬息萬變的工業(yè)現(xiàn)場下,計算任務繁重,模型適用性較低的問題難以得到解決,也導致了模型的不適用。
本文設計分布式傳感器拓撲,選用FPGA作為邊緣端,連接傳感器陣列,實現(xiàn)準確測量、高速運算。對于傳感器陣列實現(xiàn)數(shù)據(jù)融合后,選用基于模型的強化學習算法[14]進行數(shù)據(jù)預測以及工業(yè)現(xiàn)場的危險預警,減輕計算任務的同時加深環(huán)境動力學的學習,避免脫離實際的數(shù)據(jù)映射。
集中式的控制方式具有單點故障敏感性高以及通信代價高的缺點,本文應用的場景使得分布式方法成為了一種可行的解決方式。本系統(tǒng)采用FPGA作為邊緣控制器,FPGA具有并行高速運算的特點,當有多組傳感器數(shù)據(jù)進入邊緣控制器時,可以發(fā)揮其并行運算的特點,使其計算速度快并對危險進行緊急反應;其次,FPGA通過引腳和其他微型處理器或者傳感器相連,這使得其外延性較強;有網(wǎng)口可以與其他 FPGA 板通過網(wǎng)線相連并進行信息交換。
在車間室內(nèi)環(huán)境下,FPGA通過引腳與多個RL78/G15相連,每個RL78/G15作為微型處理器,與傳感器陣列相連,每個傳感器陣列包含多種傳感器,本文主要對溫度、濕度、氣壓、CO濃度、SO2濃度、TVOC濃度、H2S濃度以及NH3濃度進行測量。
陣列中所有傳感器的檢測數(shù)據(jù)會傳遞到微型處理器中,進行簡單處理后進入邊緣控制器。邊緣控制器之間通過網(wǎng)線交換信息,構成分布式通信網(wǎng)絡,當一個邊緣控制器檢測到危險發(fā)生時,會及時將危險信號傳遞到其他所有邊緣控制器,做到全工廠信息傳遞與危險預警。
本文從響應時間、偏差值和使用范圍3個方面對硬件進行選型,具體結果如表1所示。
本文擬采用分布式網(wǎng)絡代替?zhèn)鹘y(tǒng)的集中式網(wǎng)絡,拓撲如圖1所示。
本文采用的分布式通信網(wǎng)絡拓撲可以在減少系統(tǒng)響應時間的基礎上增加系統(tǒng)的穩(wěn)定性。當單個節(jié)點檢測出事故時,可以直接告訴其他節(jié)點,節(jié)省了向中央處理器通信的時間。并且當系統(tǒng)中單個通信線路故障時,網(wǎng)絡中的其他線路也可以將信息及時傳遞,在事故發(fā)生時保證工廠設備的生產(chǎn)安全。
在車間環(huán)境中,均勻分布傳感器陣列,多個傳感器陣列可以對環(huán)境進行全面檢測,在精準測量的前提下,快速對危險情況進行反應并且對危險發(fā)生的位置進行定位。當某個傳感器出現(xiàn)故障時,不會使系統(tǒng)對危險無響應進而造成更大損失,可以增加系統(tǒng)的穩(wěn)定性和魯棒性。但是在多傳感器系統(tǒng)中需要進行數(shù)據(jù)融合,目的是去除冗余信息,保存大量有用信息。
本文在數(shù)據(jù)融合過程中,要保證距離事故發(fā)生中心最近的傳感器所檢測到的信息權重最高,所以就要對傳感器采集的信息進行處理。對于泄漏氣體的意外事故,在時間t′內(nèi)濃度檢測最高的傳感器設為參考節(jié)點a;對于溫度、濕度和氣壓在時間t′內(nèi)惡性變化最大的傳感器為參考節(jié)點a?;谝陨闲枨?可以采用基于支持度的權重劃分。除了參考節(jié)點,將其他節(jié)點與參考節(jié)點數(shù)值間的支持度的大小作為傳感器與泄漏源的距離。假設有m個傳感器陣列。
首先在時間t′內(nèi)每個傳感器采集一組數(shù)據(jù)φ1,φ2,…,φn,每個傳感器對該組數(shù)據(jù)求均值,然后對這組數(shù)據(jù)進行排序,獲得γ1,γ2,…,γm,根據(jù)要求選擇出參考節(jié)點[15]。為了避免支持度出現(xiàn)0或者1的極端情況出現(xiàn),使支持度的范圍為[0,1],本文采用指數(shù)衰減函數(shù)來度量傳感器之間支持度。t時刻傳感器對參考節(jié)點間支持度的計算公式為
sia(t)=e-[di(t)-da(t)]2
(1)
式中di(t)為t時刻傳感器i檢測結果。
考慮到會出現(xiàn)某個傳感器在時間段t′內(nèi)對參考節(jié)點的支持度變化過大,選擇在時間段t′內(nèi)支持度變化小并且均值大的傳感器。所以設計每個傳感器在時間t′內(nèi)對與參考節(jié)點α的支持度表示為
(2)
(3)
方差的計算公式為
(4)
在時間t′內(nèi),可以獲得所有節(jié)點與參考節(jié)點的支持度Sia,并對Sia進行排序,選擇前o個傳感器作為進行數(shù)據(jù)融合的傳感器。選擇出來的支持度集合為
U0={u1,u2,…,uo}
(5)
集合的傳感器在時間t′內(nèi)權重表示為
(6)
由此得出最后數(shù)據(jù)融合的結果為
(7)
多傳感器數(shù)據(jù)融合得到最終環(huán)境觀測值,數(shù)據(jù)融合算法流程圖如圖2所示。
圖2 數(shù)據(jù)融合算法流程圖
為了實現(xiàn)動態(tài)預警和危險預測,本文將環(huán)境參數(shù)預測與危險判定轉化為基于模型的強化學習任務。為解決貝葉斯長短期記憶神經(jīng)網(wǎng)絡以及自回歸擬合等深度學習模型出現(xiàn)的計算復雜度高、可解釋性弱,計算任務過重的問題,本文采用強化學習模型,同時進行環(huán)境參數(shù)的預測以及危險預警的判斷。
由上述分析可得,本文研究的預警預測問題符合馬爾科夫決策過程,可對其進行強化學習的任務轉化,首先需要分別對狀態(tài)空間、動作空間以及獎勵值函數(shù)進行設計,完成基于模型的強化學習任務轉化,研究環(huán)境參數(shù)動態(tài)變換規(guī)律以及危險判定的內(nèi)在機理。
3.1.1 狀態(tài)空間
為完成上述要求,本文設置t時刻狀態(tài)空間為
(8)
3.1.2 動作空間
結合狀態(tài)空間定義,t時刻的動作空間為
(9)
式中:前8個參數(shù)分別表示對環(huán)境參數(shù)的預測值;Ft為對t時刻的危險判定結果,值為布爾類型(0表示不危險,1表示發(fā)生危險)。
3.1.3 獎勵值函數(shù)
為完成環(huán)境參數(shù)預測和危險判定,分別對于預測準確性和判定正確性進行獎勵值函數(shù)設計。
對于預測準確性設計獎勵值函數(shù)為
(10)
對于判定準確性設計獎勵值函數(shù)為
(11)
系統(tǒng)總獎勵值函數(shù)為
(12)
式中:α、β為平衡系數(shù),為了保證危險判定的高度優(yōu)先級,通常設置β>>α。
本文參照Schrittwieser等[16]提出的基于離散動作空間的Muzero算法框架,結合蒙特卡洛樹搜索(MCTs)以及深度強化學習神經(jīng)網(wǎng)絡,進行最優(yōu)策略的制定以及環(huán)境動力學的學習。
其中通過MCTs作為最優(yōu)策略得到的大量游戲數(shù)據(jù)將被用于后續(xù)訓練。本文搭建了4個神經(jīng)網(wǎng)絡聯(lián)合訓練模型,主要流程如圖3所示。其中包含4個神經(jīng)網(wǎng)絡模型,分別為表示模型、預測模型、離散模型、動態(tài)模型。
圖3 強化學習算法訓練模型
3.2.1 表示模型
為解決輸入狀態(tài)值過大使計算任務過重的問題,在表示模型設計中,將輸入的狀態(tài)數(shù)值序列轉換為神經(jīng)網(wǎng)絡內(nèi)部的隱藏狀態(tài),在維度和長度上進行縮減,主要通過編碼器實現(xiàn):
s0=hθ(ot)
(13)
式中s0為經(jīng)過神經(jīng)網(wǎng)絡編碼的隱藏狀態(tài)。
3.2.2 預測模型
預測模型包含策略網(wǎng)絡和價值網(wǎng)絡,主要基于表示網(wǎng)絡得到的當前時刻隱藏狀態(tài),進行最優(yōu)策略和平均價值預測:
pk,vk=f?(sk,xk)
(14)
式中:pk為第k步的最優(yōu)策略;vk為第k步的預期價值;xk為離散后的動作空間,具體的離散方式將由后續(xù)離散模型部分得到;sk為第k步的隱藏狀態(tài)。
3.2.3 離散模型
因MCTs最優(yōu)搜索策略僅限于離散動作空間問題,而本文需要解決的是連續(xù)動作空間的問題,大量的訓練數(shù)據(jù)來自MCTs離散空間的數(shù)據(jù),故設計離散模型進行離散化。主要通過訓練均值μ和方差σ進行高斯分布離散化:
xk=dη(ak)
(15)
3.2.4 動態(tài)模型
動態(tài)模型主要學習環(huán)境動力學及環(huán)境變換的內(nèi)在機理,通過前一時刻的隱藏狀態(tài)和當前時刻的動作計算當前時刻的隱藏狀態(tài)以及對應的獎勵值:
rk,sk=gρ(sk-1,xk)
(16)
式中rk代表第k步后的預期獎勵;sk-1為下一步的隱藏狀態(tài)。
最終通過式(17)進行參數(shù)的更新:
(17)
針對3.2節(jié)中設計的4個神經(jīng)網(wǎng)絡模型進行訓練后,得到各網(wǎng)絡損失值,如圖4~圖7所示。
圖4 獎勵網(wǎng)絡損失值
圖5 價值網(wǎng)絡損失值
圖6 策略網(wǎng)絡損失值
圖7 離散網(wǎng)絡損失值
根據(jù)圖4~圖7可見,4個神經(jīng)網(wǎng)絡模型在經(jīng)過約1800步的訓練后都實現(xiàn)了損失值的收斂且趨近于0的效果,證明了本文將研究目標轉變?yōu)閺娀瘜W習任務是可行的。且經(jīng)過訓練,基于模型的強化學習算法已經(jīng)學習到了環(huán)境動力學以及最優(yōu)策略的決策方法。
將訓練得到的模型與已知在數(shù)據(jù)預測方面有突出效果的算法進行比較,結果如表2所示,其中定義“預測準確”為預測值和實際值在千分位之前保持相同,并以此來計算預測準確率。
表2 算法測試結果
由表2算法測試結果可知,CNN-LSTM、Cnv-LSTM、自擬合算法的預測準確率在86%以上,精度在0.1%內(nèi)則視為預測準確。經(jīng)分析,強化學習相較于CNN-LSTM、Conv-LSTM等深度學習模型在準確率無明顯下降的情況下,通過設計表示網(wǎng)絡顯著提升了計算速度,減輕了計算任務;而相較于自擬合等傳統(tǒng)數(shù)據(jù)分析算法,通過動態(tài)網(wǎng)絡學習內(nèi)在機理有效分析了環(huán)境參數(shù)的變化趨勢以及危險判斷的標準。
本文通過建立分布式傳感器陣列拓撲,將集中式的環(huán)境參數(shù)變化分析以及危險預警分散化,增強了系統(tǒng)的魯棒性和抗干擾性。并選擇FPGA作為邊緣端連接高速響應的傳感器陣列實現(xiàn)快速并行運算。
通過支持度計算融合多傳感器數(shù)據(jù),將環(huán)境參數(shù)預測以及危險預警轉化為強化學習任務。引入基于模型的強化學習算法框架,在進行最優(yōu)策略決策方法學習的同時,加深環(huán)境動力學的理解,并大幅減輕了計算任務。在軟件測試中,與其余算法比較具有優(yōu)勢,可應用于工廠車間等危險環(huán)境的預測以及危險預警中。