李春曉,李艷紅
(1.西安外事學(xué)院工學(xué)院計(jì)算機(jī)系,陜西西安,710077;2.西安外事學(xué)院工學(xué)院計(jì)算機(jī)公共教學(xué)部,陜西西安,710077)
當(dāng)前社會(huì)環(huán)境下互聯(lián)網(wǎng)的發(fā)展數(shù)字化的時(shí)代特征越來(lái)越明顯,也使電力行業(yè)緊跟時(shí)代潮流逐漸的信息化[1-2]。最為明顯的就是監(jiān)控信息系統(tǒng)(Su-pervisory Information System,簡(jiǎn)稱SIS)與分布式控制系統(tǒng)(Distributed Control,簡(jiǎn)稱DCS)兩者在電力行業(yè)中被運(yùn)用,以便于電力行業(yè)中的大量數(shù)據(jù)能夠完好存儲(chǔ),數(shù)據(jù)挖掘也逐漸在電力行業(yè)中慢慢被重視,越來(lái)越多是相關(guān)研究人員在電站機(jī)組中碰到難題時(shí)選擇運(yùn)用數(shù)據(jù)挖掘的方式來(lái)進(jìn)行處理[3]。因此電站在提升鍋爐效率與解決NOx排放等問(wèn)題時(shí)均將數(shù)據(jù)挖掘聚類分析運(yùn)用到其中。
在1982年波蘭數(shù)學(xué)家Pawlak提出了粗糙集理論,為解決難以確定以及難以做到精確時(shí)的數(shù)據(jù)研究理論,主要的研究主體為信息數(shù)據(jù)系統(tǒng),以更加簡(jiǎn)約的形式來(lái)完成數(shù)據(jù)的分類,且能夠維持信息數(shù)據(jù)分類的相應(yīng)能力不被改變。相較于其余的同類型解決數(shù)據(jù)不能精確的理論而言,此理論最具突出的特點(diǎn)為不必要為待解決問(wèn)題提供除數(shù)據(jù)庫(kù)的其余任意相關(guān)先驗(yàn)知識(shí),能夠與其余理論形成互補(bǔ)。如今,在臨床醫(yī)學(xué)、模糊識(shí)別以及預(yù)測(cè)控制等多種行業(yè)中得到運(yùn)用。
粗糙理論的最大優(yōu)點(diǎn)為其屬性約簡(jiǎn),首先最佳子集從原始特征中來(lái)進(jìn)行篩選,而后在其中選出最為重要的特征,將多余無(wú)用的數(shù)據(jù)刪去,以使數(shù)據(jù)維度縮小,以此進(jìn)一步提升數(shù)據(jù)的研究效益。本文主要在Pawlak屬性基礎(chǔ)之上的決策表屬性約簡(jiǎn)算法中完成屬性約簡(jiǎn),具體的屬性約簡(jiǎn)主要框架見(jiàn)圖1。
在Hadoop平臺(tái),需要在MapReduce的主要框架下完成數(shù)據(jù)的分析,該框架能夠滿足大數(shù)據(jù)的問(wèn)題處理模式。且在MapReduce框架下主要運(yùn)用Map和Reduce兩種函數(shù),即映射與歸約函數(shù)來(lái)完成數(shù)據(jù)處理。按照實(shí)際情況對(duì)數(shù)據(jù)源分散處理,通過(guò)<key,value>鍵值對(duì)來(lái)完成Map與Reduce兩個(gè)函數(shù)的輸入輸出。Key為聚類類別、value主要是數(shù)據(jù)維度和主體數(shù)據(jù)的數(shù)量累加。每個(gè)數(shù)據(jù)塊都以分別對(duì)應(yīng)的各自的Map函數(shù)同時(shí)完成數(shù)據(jù)的計(jì)算輸出,而后進(jìn)行輸出數(shù)據(jù)的順序排列與整合,并且對(duì)key值一樣的數(shù)據(jù)來(lái)形成Reduce函數(shù)的輸入值,而后繼續(xù)完成計(jì)算。MapReduce框架的具體運(yùn)作流程見(jiàn)圖2。
圖1 屬性約簡(jiǎn)的基本框架
圖2 MapReduce工作流程
在MapReduce的基礎(chǔ)之上進(jìn)行順序組合而形成的程序則為RCK-means算法,首先同樣需要對(duì)數(shù)據(jù)的原件進(jìn)行屬性約簡(jiǎn)處理,而后根據(jù)其順序可分為Canopy與K-means兩個(gè)子框架來(lái)繼續(xù)進(jìn)行計(jì)算。詳細(xì)順序流程可見(jiàn)圖3。
(1)首先創(chuàng)建最初的決策表通過(guò)粗糙集理論來(lái)完成,而后進(jìn)行條件與決策屬性的判定,再根據(jù)兩者屬性的依賴度來(lái)完成下一步的屬性約簡(jiǎn),將無(wú)關(guān)的數(shù)據(jù)刪去,留下的有用數(shù)據(jù)組成集合。
(2)在Canopy算法中進(jìn)行Map函數(shù)時(shí),將有用的新數(shù)據(jù)集合換為<key,value>鍵值對(duì)的方式,并將其放入m個(gè)Map函數(shù)繼續(xù)進(jìn)行計(jì)算。當(dāng)每個(gè)數(shù)據(jù)塊的距離閥值,并且需將計(jì)算出的數(shù)值與D1、D2完成對(duì)比之后分類處理,最后迭代形成一個(gè)集合,即Canopy集合。
(3)在Canopy算法中進(jìn)行Reduce函數(shù)時(shí),首先需要對(duì)Map中完成的結(jié)果進(jìn)行并集處理,組合成一個(gè)新的Q集合。之后對(duì)該新集合實(shí)行Canopy流程,不斷的進(jìn)行程序處理,直至該集合為空,可以計(jì)算出聚類簇K,而后才可將其當(dāng)做輸入值進(jìn)行K-means框架的處理。
(4)K-means算法中Map函數(shù)時(shí),將Canopy程序處理得出的聚類簇以<key,value>鍵值對(duì)輸入,之后計(jì)算節(jié)點(diǎn)與中心點(diǎn)之間的距離計(jì)算,而后匯總,進(jìn)行類別的分類處理,最后用同樣的方式輸出。
(5)通過(guò)Combine函數(shù)來(lái)完成上一階段輸出值的分類處理,之后本地進(jìn)行數(shù)據(jù)歸集,對(duì)各數(shù)據(jù)的維度值做總和計(jì)算,且需得出數(shù)據(jù)的數(shù)量,最后輸出以<key,value>鍵值對(duì)的方式。
(6)在K-means算法中進(jìn)行Reduce函數(shù)時(shí),首先需要對(duì)上一階段Combine函數(shù)的輸出結(jié)果進(jìn)行分析,對(duì)各數(shù)據(jù)的維度值做出總和計(jì)算,且需得出數(shù)據(jù)的數(shù)量,最后形成新的聚類中心,之后繼續(xù)進(jìn)行重新的迭代,直到收斂。
圖3RCK-means算法流程
電站機(jī)組一直將電站鍋爐的能源節(jié)約作為其優(yōu)化的重點(diǎn),這是由于鍋爐的效率是電站經(jīng)濟(jì)與環(huán)保性的重要參考數(shù)值。如今,優(yōu)化方式有以下兩種,其一為對(duì)燃燒器與受熱面進(jìn)行升級(jí)整改處理,以此優(yōu)化效率,亦或引進(jìn)更為先進(jìn)的相關(guān)設(shè)備來(lái)實(shí)現(xiàn)鍋爐使用時(shí)的參數(shù)監(jiān)測(cè)。然而此類方式雖能夠產(chǎn)生很好的效果,但同樣需要花費(fèi)的人力財(cái)力也非常高。其二為以DCS為基準(zhǔn),加上數(shù)據(jù)挖掘來(lái)完成鍋爐使用最佳參數(shù)的選擇,這一方式的不足之處在于需要較多的依靠模型優(yōu)化以及算法升級(jí)來(lái)完成,因此會(huì)在模型優(yōu)化中出現(xiàn)建模過(guò)程難以得到樣本的問(wèn)題,實(shí)用度不強(qiáng)。以電站DCS系統(tǒng)擁有的大量數(shù)據(jù)作為大數(shù)據(jù)挖掘技術(shù)做鋪墊,加之嚴(yán)密的計(jì)算流程,將影響鍋爐效率的參數(shù)從熱力系統(tǒng)的大量數(shù)據(jù)中挖掘出來(lái),即使實(shí)際得出的參數(shù)值會(huì)與理論上參數(shù)最佳值之間有些誤差,但得出的這一參數(shù)值能夠成為至今最佳的參數(shù)值。本文運(yùn)用K-means聚類算法的優(yōu)化加之Hadoop框架,在大量的數(shù)據(jù)中依據(jù)集(簇)聚類中心點(diǎn)來(lái)挖掘鍋爐效率的影響參數(shù),以形成最佳集合,之后結(jié)合實(shí)際理論以及數(shù)理檢測(cè)來(lái)驗(yàn)證最佳的適用參數(shù),以此保證所得參數(shù)符合實(shí)際可用性,具有真正的現(xiàn)實(shí)意義,能夠被應(yīng)用于使鍋爐效率提升的參數(shù)挖掘,提升整體鍋爐效率。
研究以某一600 MW燃煤機(jī)組鍋爐作為主體,此鍋爐的燃燒器為擺動(dòng)四角切圓形,選取分析研究數(shù)據(jù)一共129 600條,主要數(shù)據(jù)選取區(qū)間為2018-10-01~2018-12-31。
將鍋爐效率當(dāng)作本次分析研究的主要目標(biāo),運(yùn)用RCK-means算法來(lái)尋找會(huì)對(duì)鍋爐效率產(chǎn)生影響的數(shù)據(jù),在處于一般情況下,運(yùn)用集(簇)聚類中心點(diǎn)于鍋爐效率之間的聯(lián)系來(lái)確定最佳的參數(shù),為實(shí)際操作確定方向。在能夠影響鍋爐效率的相關(guān)參數(shù)中,選出以下幾項(xiàng)來(lái)分析研究,即排煙氧量,燃燒器擺角,排煙溫度,磨煤機(jī)給煤量以及飛灰含碳量。
粗糙集理論只能夠?qū)﹄x散型的數(shù)據(jù)進(jìn)行分析,因?yàn)槠渚哂胁荒鼙鎰e數(shù)據(jù)關(guān)系的這一缺點(diǎn),然而運(yùn)用DCS所歸集的大部分均屬于連續(xù)而非離散的信息,由此可知在事前需要對(duì)DCS歸集的相關(guān)信息進(jìn)行分散處理。能夠分散數(shù)據(jù)的方式有許多,若運(yùn)用傳統(tǒng)的方式,則會(huì)出現(xiàn)數(shù)據(jù)分割點(diǎn)難以尋找,且若沒(méi)有對(duì)數(shù)據(jù)進(jìn)行準(zhǔn)確的分散,會(huì)影響后面的數(shù)據(jù)處理,進(jìn)行數(shù)據(jù)分散較易出現(xiàn)有用數(shù)據(jù)被排除可能。因此本文選擇運(yùn)用模糊粗糙集分散方法,顧名思義即為模糊集與粗糙集兩種方式相結(jié)合來(lái)進(jìn)行數(shù)據(jù)分散,運(yùn)用兩種均具有不確定性質(zhì)的方式對(duì)歸集的數(shù)據(jù)完成“柔化分”與屬性約簡(jiǎn)處理。這樣的分散方式能夠在一定程度上彌補(bǔ)單獨(dú)運(yùn)用粗糙集時(shí)存在的不足之處,也降低有用的重要數(shù)據(jù)被排除的可能性。
對(duì)約簡(jiǎn)后的數(shù)據(jù)運(yùn)用RCK-means算法來(lái)繼續(xù)完成數(shù)據(jù)的挖掘。將Hadoop平臺(tái)的支持度設(shè)定一個(gè)最小值2%。而后依據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)計(jì)算處理順序?qū)s簡(jiǎn)后形成的集合進(jìn)行處理,挖掘有用的參數(shù),找到在大量的數(shù)據(jù)中聚類中心點(diǎn)和鍋爐效率之間最佳的參數(shù)值。
據(jù)實(shí)際分析可知,運(yùn)行出的排煙氧量最佳優(yōu)化值與設(shè)定的實(shí)際值之間會(huì)存在著較大差異。當(dāng)出現(xiàn)低負(fù)荷的情況時(shí),設(shè)定值會(huì)小于最佳優(yōu)化值,這是因?yàn)樵诖谁h(huán)境下鍋爐較難燃燒,一定程度上使排煙氧量增多會(huì)有助于降低不燃燒熱而引起的不利影響,提升整體效益。而當(dāng)負(fù)荷值較大,達(dá)到500 MW之上則有助于鍋爐的燃燒,相應(yīng)的排煙氧量最佳優(yōu)化值會(huì)降低,出現(xiàn)設(shè)定值大于最佳優(yōu)化值的情況。由此可知,在實(shí)際運(yùn)用中,以便于更好的在不同情況下均可達(dá)到效率最大化,則不可運(yùn)用設(shè)定值進(jìn)行操作,需要對(duì)不同運(yùn)行情況下的數(shù)據(jù)進(jìn)行更新優(yōu)化,以找到最適的參數(shù)值,達(dá)到實(shí)際效用。
運(yùn)用大數(shù)據(jù)技術(shù)對(duì)影響鍋爐效率的數(shù)據(jù)進(jìn)行挖掘,尋找最佳的參數(shù)值,使鍋爐效率得到最大化。RCK-means新算法的運(yùn)用將無(wú)效數(shù)據(jù)進(jìn)行排除,形成最佳的集合,從整體上提升了聚類準(zhǔn)確率。在實(shí)際運(yùn)用中,為了更好的在不同情況下均可達(dá)到效率最大化,則不可運(yùn)用設(shè)定值進(jìn)行操作,需要設(shè)定一個(gè)最佳區(qū)間,而后針對(duì)不同情況進(jìn)行數(shù)據(jù)優(yōu)化,以找到最合適的參數(shù)值。