李 華,賈 雪
(長春大學 理學院,長春 130022)
運行基準是應用于工業(yè)生產(chǎn)的一種具有指導意義的工業(yè)生產(chǎn)運行參數(shù),運行人員可以通過對照和對比不同參數(shù)條件下的運行基準,調整可控的運行參數(shù),使得機組運行具有更高的安全性、經(jīng)濟性和高效性。因此,運行基準對工業(yè)生產(chǎn)具有重大意義。在提取運行基準方面,目前已有一些提取基準的方法,包括基于遺傳算法和支持向量機方法計算不同工況下汽輪機主蒸汽壓力的基準值[4];采用神經(jīng)網(wǎng)絡技術,根據(jù)鍋爐燃燒調整試驗和機組運行歷史數(shù)據(jù),建立了燃燒優(yōu)化RBF神經(jīng)網(wǎng)絡模型,并采用遺傳算法對鍋爐可調燃燒運行參數(shù)進行了優(yōu)化[5]?;贔M度量和穩(wěn)定性算法進行自適應的聚類系數(shù)k值選擇,并使用K-Means算法進行聚類,選取煤耗最低的聚類中心作為運行基準。
在大型工業(yè)生產(chǎn)運行機組實際運行中,設備運行狀態(tài)會受到多種條件影響而隨時發(fā)生改變,運行過程存在穩(wěn)態(tài)工況和非穩(wěn)態(tài)工況。非穩(wěn)態(tài)工況相比于穩(wěn)態(tài)工況,輸入?yún)?shù)和輸出參數(shù)之間沒有較強的關聯(lián)性,且非穩(wěn)態(tài)工況中參數(shù)波動較大,不能準確反應機組當前的運行性能。因此,為了提高數(shù)據(jù)分析的準確性,需要對初始數(shù)據(jù)進行穩(wěn)態(tài)篩選。
根據(jù)目前已有的一些穩(wěn)態(tài)工況判別方法,包括基于權重的遍歷算法并利用改進的置信區(qū)間篩選出穩(wěn)態(tài)離群點[6];采用滑動窗口法對大樣本數(shù)據(jù)進行穩(wěn)態(tài)工況篩選[7];基于滑動窗口法的特征變量一階差分穩(wěn)態(tài)判別法[8]。
選擇基于方差的穩(wěn)態(tài)數(shù)據(jù)篩選法。在t時刻,計算連續(xù)s時間段的方差,如果該方差小于某個規(guī)定的閾值,則t時刻是穩(wěn)態(tài)數(shù)據(jù),否則為非穩(wěn)態(tài)數(shù)據(jù)。
另外,在穩(wěn)態(tài)數(shù)據(jù)篩選后,由于數(shù)據(jù)的特征眾多,可能會出現(xiàn)某些特征不在其控制范圍之內的情況,對此,我們有兩種解決方法。第一,在僅有少量特征超限的情況下,采用填補法對其進行填補,以保證數(shù)據(jù)的可用性,填補法可以使用均值填補法、回歸填補法等;第二,在大部分特征都超限的情況下,我們認為該數(shù)據(jù)樣本不具有可用性,可以將其刪掉,僅保留優(yōu)質的數(shù)據(jù)樣本。
在大型工業(yè)生產(chǎn)運行中,由于設備的多樣性,采集的測點眾多,同一時間的測點可能有幾千甚至幾萬。而在數(shù)據(jù)分析中,測點過多,會導致計算效率極低,且有可能會影響到數(shù)據(jù)分析的質量,從而難以應用到實際中。因此,在進行數(shù)據(jù)分析之前,我們需要對初始樣本進行特征選擇。特征選擇的方式分為兩種,第一種可以通過工業(yè)生產(chǎn)運行人員提供的方式獲得,他們在多年的工作經(jīng)驗中,對重要特征有更為專業(yè)的看法,這些特征往往是與建模目標高度相關的;第二種是根據(jù)大數(shù)據(jù)分析方法進行特征選擇,比如逐步回歸法、方差選擇法、相關系數(shù)法等。
另外,機組運行的過程中,運行人員會根據(jù)不同的目標對可控參數(shù)進行不同程度的調整,在這種情況下,我們的基準要針對不同的參數(shù)條件來進行挖掘。在不同的參數(shù)條件下,運行基準是不同的,我們把不同的參數(shù)條件稱為工況。因此,要對數(shù)據(jù)樣本進行工況劃分,可以采用滑動平移的方式來劃分工況。
在工業(yè)生產(chǎn)運行中,往往會根據(jù)機組設計值或者行業(yè)標準來優(yōu)化生產(chǎn)目標。而在實際生產(chǎn)中可能會對設備進行部分改造,或者隨著設備的磨損,導致設計值難以達到優(yōu)化目標。另外,各工業(yè)生產(chǎn)企業(yè)對經(jīng)濟、節(jié)能、高效有著一定的要求。實踐表明,基于歷史數(shù)據(jù)進行基準挖掘能夠良好的解決上述穩(wěn)態(tài)。合理地運用基準也能夠在保證機組安全運行的同時有效降低可控的能耗損失。因此,準確、合理的基準值對提高機組運行效率和節(jié)能降耗具有重要意義。
李打油嘴都笑歪了。真的歪,跟我父親一樣,平時看不出,淺笑也看不出,只有笑得特別開心時,笑過后要把笑容收回去的那一瞬間,才會發(fā)現(xiàn),他倆嘴都有點歪。共祖宗嘛,也許家族遺傳。估計我也是??晌液孟駴]遇到什么特別開心的事。
利用大數(shù)據(jù)分析方法來進行基準挖掘已成為當前的主流方法,包括模糊C-均值聚類算法[9]、K-Means算法[10-11]等。聚類是將一個數(shù)據(jù)集分成由類似的數(shù)據(jù)樣本組成的多個類的過程。由聚類所生成的簇是一組數(shù)據(jù)樣本的集合,這些樣本與同一個簇中的其他樣本彼此相似,與其他簇中的樣本相異。通過聚類,可以從數(shù)據(jù)集的大量樣本中提取出具有代表性的幾堆,有助于簡化問題。因此,本研究也采用聚類的方式來進行基準挖掘。
聚類算法包括基于劃分的聚類方法、基于層次的聚類方法、基于密度的聚類方法等?;趯哟蔚木垲惙椒山忉屝院?,但時間復雜度高;基于劃分的聚類方法,如K-Means算法,其對于大型數(shù)據(jù)集是簡單有效的,時間和空間復雜度低,但需要預先設定K值;基于密度的聚類方法,如DBSCAN,能發(fā)現(xiàn)任意形狀的聚類,但聚類的結果與參數(shù)有很大的關系。本研究結合了FM度量,通過穩(wěn)定性算法確定聚類參數(shù),再通過K-Means算法進行聚類分析,得到聚類結果,能對K-Means算法的缺陷進行一部分的補足。
FM度量是一種對聚類的質量和優(yōu)度進行評價的指標。其通過對樣本點的劃分標簽和分簇標簽進行分析,度量聚類的精度,其最大值為1,聚類質量越高,F(xiàn)M度量值越接近1。
式中,prec是聚類的成對精度,其衡量了正確聚類的點對占同一個簇中所有點對的比例;recall是聚類的成對召回,其衡量了正確標記的點對占同一個劃分中所有點對的比例。
K-Means算法采用一種貪心的迭代方法來找到使得SSE目標函數(shù)值最小的聚類。K-Means聚類算法的基本原理與步驟如下。首先從數(shù)據(jù)空間中隨機生成k個點作為初始的聚類中心;其次,計算并比較其他的數(shù)據(jù)樣本到k個聚類中心的距離;再對距離大小進行排序后,將數(shù)據(jù)樣本劃分到最近聚類中心所在的那一簇;劃分結束后,重新計算每一簇中樣本數(shù)據(jù)的平均值,將其作為新的聚類中心。不斷重復上述過程,直到目標函數(shù)值收斂。
式中,SSE表示所有樣本點的平方誤差總和;xj代表第i個簇內第j個樣本點;μi代表第i個簇的中心。
K-Means聚類算法的聚類效果依賴于聚類參數(shù)k的選擇,聚類中心數(shù)過少,則樣本的特征不能夠全面體現(xiàn);聚類中心數(shù)過多,同一簇中的數(shù)據(jù)可能會被分隔開。
分簇穩(wěn)定性的主要思想是,從與D相同的分布中抽樣得到的若干數(shù)據(jù)集生成的聚類應當是相似或“穩(wěn)定”的。分簇穩(wěn)定性的方法可用于找出一個給定聚類算法的合適參數(shù)值。分簇穩(wěn)定性算法的基本原理與步驟如下。首先通過從D中抽樣,生成t個大小為n的樣本,然后對每一個樣本Di,分別用不同的參數(shù)值運行相同的聚類算法。然后通過計算在每一個參數(shù)上的每一對數(shù)據(jù)集的聚類之間的距離。最后,計算期望成對距離,選擇使得期望成對距離最小的參數(shù)作為最佳參數(shù)。
分簇穩(wěn)定性算法流程:step1:輸入聚類算法A,抽樣數(shù)量t,分簇最大數(shù)目K,數(shù)據(jù)集D;step2:通過有放回抽樣,從數(shù)據(jù)集D中抽取與之數(shù)據(jù)量相同的樣本,記作D1,D2,...,Dt;step3:對每一個數(shù)據(jù)集D1,D2,...,Dt,分別使用聚類算法A,將Di聚類分為k個簇 ;step4:為了計算分簇間的距離,需要先對數(shù)據(jù)集對去交集,記作D(1_2)1,D(1_3)1,...,D(t-1_t)1;step5:對每一個k,計算不同數(shù)據(jù)對間的分簇距離,記作dk i_j,本研究選擇FM度量(相似度);step6:對每一個k,計算期望成對距離,記作μk d;step7:選擇使得成對距離最小(相似度最大)的k作為該數(shù)據(jù)集D的最佳k值。
為了驗證模型的有效性,選用某實際運行的雙抽式汽輪發(fā)電機組作為案例。從DCS集散控制系統(tǒng) (Distributed control system)中采集歷史運行數(shù)據(jù),采樣間隔為1 min。因為該機組純凝期和供熱期的數(shù)據(jù)有較大差距,故選取純凝期2020年—8月的機組平穩(wěn)運行數(shù)據(jù)記錄作為案例的訓練樣本,共計165 016組,選取2021年6月的數(shù)據(jù)作為案例的測試樣本。其中,訓練樣本中主蒸汽流量波動如圖1所示。從圖1可以看出,當主蒸汽流量從一個穩(wěn)定狀態(tài)切換到另一個新的穩(wěn)定狀態(tài)時會經(jīng)歷短暫且快速的非穩(wěn)態(tài)過程。在運行數(shù)據(jù)中存在著大量的非穩(wěn)態(tài)工況。因此,有必要先將機組的非穩(wěn)態(tài)工況與穩(wěn)態(tài)工況區(qū)分開,對165 016組機組原始運行數(shù)據(jù)樣本進行穩(wěn)態(tài)判別。
圖1 主蒸汽流量波動
采用機組運行人員提供的幾個重要指標的波動性對原始數(shù)據(jù)進行穩(wěn)態(tài)篩選,共有79 831組樣本被劃分成穩(wěn)態(tài)工況,其余樣本則被劃分成非穩(wěn)態(tài)工況。分別繪制穩(wěn)態(tài)工況和全數(shù)據(jù)情況下主蒸汽流量的波動曲線,如圖2所示。從圖2可以看出,穩(wěn)態(tài)工況下主蒸汽流量的分布呈現(xiàn)明顯的穩(wěn)定性。
圖2 全數(shù)據(jù)與穩(wěn)態(tài)數(shù)據(jù)對比
在穩(wěn)態(tài)工況被篩選出的基礎上,我們以工業(yè)生產(chǎn)運行人員提供的特征作為重要特征,針對穩(wěn)態(tài)工況中的異常數(shù)據(jù)進行了異常值處理,分別進行了均值填補和刪除,使得數(shù)據(jù)質量進一步提高,有助于基準挖掘的準確性和實用性。并且,我們根據(jù)參數(shù)條件的不同,將數(shù)據(jù)樣本進行劃分,以參數(shù)從小到大的順序將其劃分為37個工況,記作工況1、工況2、...、工況37。如圖3所示。相同的工況下,參數(shù)條件相對一致,因此,在細分的工況中進行基準挖掘能夠更好的覆蓋機組運行的實際條件,準確性也會隨之提升。
圖3 各工況聚類參數(shù)k值
為了從運行工況中提取出最具指導意義的運行基準,采用FM度量通過穩(wěn)定性算法自適應的生成k值,各工況k值如下圖所示。然后使用K-Means聚類算法對工況內的樣本進行聚類。
對比同一工況的不同聚類簇,從圖4可以看出,不同的聚類簇可以很好的將工況中的數(shù)據(jù)樣本區(qū)分開來,聚類效果良好。然后,為了更好地節(jié)能降耗,我們選取簇中心煤耗最低的簇作為基準簇。
圖4 同一工況的不同聚類簇
選擇同一工況下使得煤耗最低的簇中心,作為該工況的基準,如表1所示。
表1 各工況基準值
為了測試基準是否能夠優(yōu)化運行,選用2021年6月1日—2021年7月1日的實際運行數(shù)據(jù),并根據(jù)其工況推送出對應的基準,如圖5所示。
圖5
我們能看到基準煤耗普遍是低于實際運行的煤耗的,其中,煤耗的基準值與實際運行值相比,基準值比實際值低了8 g/(kW·h),也就是說每發(fā)電1 kW·h則可節(jié)省煤量8 g。因此,運行基準挖掘對于實際運行生產(chǎn)具有高效經(jīng)濟的作用。
針對大型工業(yè)生產(chǎn)運行機組基準挖掘穩(wěn)態(tài)展開研究,以重要特征為出發(fā)點,利用機組大量運行數(shù)據(jù),采用基于FM度量的自適應K-Means聚類算法,確定影響機組運行效率和節(jié)能降耗的參數(shù)基準值。并通過案例分析,首先通過對數(shù)據(jù)進行穩(wěn)態(tài)工況篩選,并對異常值進行處理,然后利用基于FM度量的自適應K-Means聚類算法進行聚類,并選擇使得煤耗最低的聚類簇中心作為參數(shù)基準。通過基準煤耗 與實際煤耗進行比較,驗證了所提方法的有效性。