曾超湛,印四華
(廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣州 510006)
玻璃生產(chǎn)是高能耗產(chǎn)業(yè),其中玻璃窯爐的能源消耗占據(jù)全廠能源的80%以上[1-2]。若生產(chǎn)過(guò)程中,由于燃料、配合料供給不穩(wěn)定等因素造成玻璃制品的良品率下降,則會(huì)直接導(dǎo)致能源損失。能耗異常損耗是造成窯爐生產(chǎn)能源浪費(fèi)的重要誘因,及時(shí)發(fā)現(xiàn)異常是窯爐節(jié)能降耗的重要環(huán)節(jié)。目前玻璃窯爐的異常檢測(cè)方法仍然是較傳統(tǒng)的,即通過(guò)人工巡查機(jī)組、人力監(jiān)測(cè)系統(tǒng)日志以檢測(cè)異常,雖人力參與監(jiān)測(cè)使其具備高容錯(cuò)性?xún)?yōu)點(diǎn),但傳統(tǒng)方法易受主觀因素干擾且存在滯后性,待確定異常原因時(shí)已造成能源大量損失。此外,窯爐異常發(fā)生時(shí)是冗余報(bào)錯(cuò)的,工人將無(wú)法準(zhǔn)確捕捉核心異常信息。
異常檢測(cè)作為數(shù)據(jù)挖掘領(lǐng)域的熱門(mén)研究方向,可用于能源效率、設(shè)備監(jiān)測(cè)、工業(yè)過(guò)程等領(lǐng)域。Soner Emec等[3]基于機(jī)床電力能耗數(shù)據(jù)模型,提出一種在線模式匹配的機(jī)床設(shè)備故障監(jiān)測(cè)方法,用于提高機(jī)床生產(chǎn)效率。Abbas M等[4]以模塊化結(jié)構(gòu)對(duì)飛機(jī)渦輪發(fā)動(dòng)機(jī)建立能耗模型,通過(guò)分析模塊間的能量傳播過(guò)程以檢測(cè)子系統(tǒng)的運(yùn)作狀況。Jianhua Guo等[5]基于熱力學(xué)理論建立硫化過(guò)程的能耗模型,并建立動(dòng)態(tài)分層能耗模型估算熱損失,由此檢測(cè)到輪胎硫化車(chē)間里蒸汽疏水閥和絕緣層中不易檢測(cè)的故障。林越等[6]提出一種雙向KL 距離聚類(lèi)的變壓器狀態(tài)異常檢測(cè)模型及分析方法,有效減少變電站故障漏報(bào)信息。黃鑫等[7]結(jié)合光流法和均值漂移算法,提出了一種基于監(jiān)控視頻的車(chē)輛異常行為檢測(cè)方法,可有效實(shí)時(shí)地識(shí)別出道路車(chē)輛超速、違規(guī)變道和闖紅燈等車(chē)輛異常行為。
基于上述研究可知,多數(shù)學(xué)者分別從設(shè)備能耗和聚類(lèi)方面進(jìn)行異常檢測(cè)研究?;谀芎哪P偷漠惓z測(cè)結(jié)果具備成為專(zhuān)家系統(tǒng)的潛力;聚類(lèi)則是典型的無(wú)監(jiān)督異常檢測(cè)算法,即使沒(méi)有預(yù)知領(lǐng)域信息也可進(jìn)行異常檢測(cè)。實(shí)際上,如在鋁型材擠壓行業(yè)[8-9]、鋼鐵工業(yè)[10]、配電網(wǎng)系統(tǒng)[11]等領(lǐng)域上應(yīng)用證明,結(jié)合兩者的異常檢測(cè)方法是可行的,即擁有聚類(lèi)算法實(shí)時(shí)精準(zhǔn)的檢測(cè)能力,同時(shí)具備較高應(yīng)用價(jià)值。為此,本文將以馬蹄焰玻璃窯爐(馬蹄窯)為例,提出一種結(jié)合馬蹄窯分層能耗模型與ABC-DPC算法的能耗異常檢測(cè)方法,以實(shí)現(xiàn)實(shí)時(shí)精準(zhǔn)的異常檢測(cè),同時(shí)聚類(lèi)結(jié)果可直接反映設(shè)備能耗狀況,具有指導(dǎo)生產(chǎn)的意義。
若需研究馬蹄窯的異常檢測(cè)方法,前提是需要對(duì)該熱工設(shè)備建立宏觀的認(rèn)識(shí)和理解。本文研究對(duì)象為雙通道蓄熱室馬蹄窯,由熔化部(火焰空間和熔化池)、蓄熱室、小爐、工作池等部件構(gòu)成。已知馬蹄焰以20 min 為周期,以交換小爐的噴火口實(shí)現(xiàn)換向噴火,同時(shí)蓄熱室以換向方式交換蓄熱或者傳熱功能。即蓄熱式馬蹄窯是一側(cè)小爐處于工作狀態(tài),燃料燃燒提供火焰進(jìn)入火焰空間;另外一側(cè)小爐處于休息狀態(tài),火焰空間中產(chǎn)生的高溫?zé)煔鈩t通過(guò)閑置一側(cè)小爐進(jìn)入蓄熱室,以此加熱該側(cè)蓄熱室,待下次換向時(shí)以加熱助燃空氣。以此往復(fù)交替進(jìn)行工作,持續(xù)不斷輻射傳熱熔化原料,并輸出玻璃液。馬蹄窯的系統(tǒng)結(jié)構(gòu)和燃燒工藝如圖1所示。
圖1 馬蹄窯系統(tǒng)結(jié)構(gòu)及工藝流程
參考國(guó)家標(biāo)準(zhǔn)GBT 25039-2010的玻璃池窯熱平衡分析方法[12],根據(jù)熱力學(xué)第一、第二定律構(gòu)建馬蹄窯的熱平衡方程式。在熱平衡方程式基礎(chǔ)上,參考文獻(xiàn)[13]的馬蹄窯局部能耗模型,本文將提出一種結(jié)合馬蹄窯工藝流程的分層能耗模型。
假設(shè)燃料充分燃燒,以及由火焰空間、蓄熱室、熔化池構(gòu)建的整個(gè)窯爐系統(tǒng)氣體密封性良好的情況下,馬蹄窯整體通路熱平衡方程式表示為:
式中參數(shù)說(shuō)明如表1所示。
表1 馬蹄窯整體通路熱平衡能量構(gòu)成
由馬蹄窯的工藝流程可知,窯爐系統(tǒng)可具體分為火焰空間、蓄熱室以及溶化池3個(gè)子系統(tǒng)。
火焰空間的熱平衡能量構(gòu)成項(xiàng)主要包括燃料燃燒反應(yīng)熱、玻璃熔制過(guò)程的化學(xué)熱、玻璃液面吸收輻射熱、高溫?zé)煔鈳ё呶锢頍嵋约盎鹧婵臻g窯墻散熱,如下所示:
式中參數(shù)說(shuō)明如表2所示。
表2 火焰空間的熱平衡能量構(gòu)成
熔化池的玻璃液面從火焰空間吸收輻射熱和對(duì)流熱用于玻璃熔融反應(yīng),并伴隨混合料帶入一定焓值的熱量,最后輸出玻璃液。該子系統(tǒng)的熱平衡方程式如下所示:
式中參數(shù)說(shuō)明如表3所示。
表3 熔化池的熱平衡能量構(gòu)成
蓄熱室則以火焰空間流入的高溫?zé)煔庖约靶顭崾邑?fù)壓側(cè)漏入空氣帶入熱量作為蓄熱室的能源輸入,以出口廢氣帶走的熱量、蓄熱室預(yù)熱助燃空氣的熱量、蓄熱室壁散熱損失與沉積在蓄熱室格子體的爐塵熱量損失作為能源輸出。蓄熱室的熱平衡方程式如下所示:
式中參數(shù)說(shuō)明如表4所示。
表4 蓄熱室的熱平衡能量構(gòu)成
依據(jù)馬蹄窯的工藝流程特性,分析窯爐及其子系統(tǒng)之間的能量流動(dòng)關(guān)系,明確窯爐子系統(tǒng)相互間的能量流動(dòng)關(guān)系,并聯(lián)立表3~5中各窯爐子系統(tǒng)的熱平衡能量構(gòu)成項(xiàng),以構(gòu)建馬蹄窯的分層能耗模型,如圖2所示。
圖2 馬蹄窯分層能耗模型
在熱平衡方程式中,池窯有效熱是評(píng)價(jià)窯爐能源效率的有效指標(biāo)。已知國(guó)外先進(jìn)玻璃窯爐的池窯熱效率達(dá)40%~45%[14],而本文研究的馬蹄窯經(jīng)實(shí)地調(diào)研結(jié)果顯示,其池窯熱效率達(dá)35%~40%。過(guò)高或過(guò)低的熱效率都反映窯爐的能耗存在異常,因此池窯熱效率可作為馬蹄窯的能耗異常檢測(cè)指標(biāo)。
評(píng)價(jià)池窯熱效率的公式為:
池窯有效熱包含玻璃液帶走熱量、玻璃反應(yīng)形成熱以及玻璃反應(yīng)生產(chǎn)氣體帶走熱量,如下式所示:
池窯總輸入熱量包含燃料燃燒熱、燃料物理顯熱、預(yù)熱助燃空氣顯熱,如下式所示:
聯(lián)立式(5)~(7)可知,理想條件下較高的池窯有效熱,表示池窯能夠以穩(wěn)定的燃料燃燒能耗獲得較高的玻璃液生成率。
從馬蹄窯子系統(tǒng)的熱平衡能量構(gòu)成可得,能源消耗大致可分為:(1) 玻璃液吸收并帶走熱,表示窯爐的有效熱;(2) 排除廢氣帶走熱,表示窯爐的損失熱,但部分熱量可被回收利用;(3) 窯墻散熱損失熱,則是窯爐的純粹損失熱。分析熱平衡能量構(gòu)成的實(shí)際數(shù)據(jù)和各損失熱的大小和所占比例,發(fā)現(xiàn)熔窯運(yùn)行中的一些問(wèn)題,以尋找一些切實(shí)可行的解決辦法。例如傳感器異常、窯體散熱異常以及玻璃熔融反應(yīng)異常等[15]。
(1) 符號(hào)定義
DPC算法[16]相關(guān)符號(hào)及描述如表5所示。
表5 DPC算法的符號(hào)描述
(2) 算法描述
DPC 算法思想:任意簇中心被具有較低局部密度的鄰居點(diǎn)包圍,且與較高密度的任何樣本點(diǎn)有著相對(duì)較大距離。為此,對(duì)每個(gè)樣本點(diǎn)i要計(jì)算2個(gè)量,局部密度 ρi和該點(diǎn)到更高局部密度點(diǎn)的距離δi。
計(jì)算樣本點(diǎn)的局部密度 ρi:
式中:dij為樣本之間的距離; χ (·)為密度估計(jì)函數(shù),默認(rèn)可選截?cái)嗪撕透咚购诵螒B(tài),分別如式(9)~(10)所示。
計(jì)算樣本點(diǎn)i到較高密度點(diǎn)j的最近鄰距離δi:
(1)設(shè)定Q={q1,q2,...,qn}為局部密度集P降序排序后取其下標(biāo)組成的索引集合,則其滿(mǎn)足:
(2)依索引集Q中順序依次計(jì)算δi,如下式所示:
綜合式(8)~(12),對(duì)于數(shù)據(jù)集S中的每個(gè)樣本點(diǎn)xi可計(jì)算 (ρi,δi)。令 Z={(ρi,δi)}in=1,并把 Z 作為繪制 DPC決策圖的輸入空間,繪制效果如圖3所示。由圖可知,各個(gè)索引數(shù)字表示樣本序號(hào),即偏左區(qū)域是可能成為離群點(diǎn)的序號(hào),或者偏右區(qū)域是可能成為簇中心的序號(hào)。從樣本集中篩選出較小ρi且δi較大的樣本點(diǎn)判定為離群點(diǎn),或篩選出較大ρi且較大δi的樣本點(diǎn)判定為簇中心。確認(rèn)簇中心后,將其他樣本點(diǎn)歸類(lèi)到距離其最近的簇中心所屬簇群,完成聚類(lèi)過(guò)程。
圖3 DPC算法決策圖
原始DPC 算法是通過(guò)經(jīng)驗(yàn)值來(lái)設(shè)定截?cái)嗑嚯xdc參數(shù)的,并且聚類(lèi)效果對(duì)于不同核函數(shù)、不同dc取值較為敏感。已知dc是一個(gè)超參數(shù),與樣本點(diǎn)i相距小于δ內(nèi)的鄰居點(diǎn)個(gè)數(shù)總和等于i的局部密度ρ。當(dāng)dc過(guò)大時(shí),ρ值區(qū)分度不高,且ρ值之間非常接近,致使多個(gè)類(lèi)簇被劃分在一起,聚類(lèi)個(gè)數(shù)少于真實(shí)簇群數(shù);同理ρ過(guò)小時(shí),聚類(lèi)個(gè)數(shù)多于真實(shí)簇群數(shù)[17-19]。
為解決DPC 算法聚類(lèi)效果依賴(lài)主觀經(jīng)驗(yàn)設(shè)定參數(shù)的不足,本文提出基于ABC 算法的dc參數(shù)自適應(yīng)的優(yōu)選策略,其主要思想是通過(guò)ABC 算法優(yōu)秀的尋優(yōu)能力進(jìn)行最優(yōu)解搜索。然而不同dc取值對(duì)聚類(lèi)結(jié)果影響不一,為此還需要具體聚類(lèi)性能度量指標(biāo)作為適應(yīng)值,即dc求解過(guò)程的收斂條件。本文的改進(jìn)算法采用輪廓系數(shù)[20](Sihouette,Sil)作為適應(yīng)值目標(biāo)函數(shù),結(jié)合內(nèi)聚度和分離度兩種因素,以評(píng)價(jià)不同dc取值的聚類(lèi)效果表現(xiàn)。
鑒于ABC算法優(yōu)秀的求最優(yōu)解能力,本文將結(jié)合ABC算法實(shí)現(xiàn)截?cái)嗑嚯x自適應(yīng)優(yōu)選過(guò)程,算法步驟如下。
輸入:數(shù)據(jù)集S。
輸出:最優(yōu)Sil指標(biāo)的截?cái)嗑嚯xdc。
(1)步驟1:計(jì)算所有樣本點(diǎn)之間的歐氏距離,并按照升序排序得到距離集合E={dc1,dc2,…,dcL},根據(jù)原始DPC 算法指出,樣本點(diǎn)附近鄰居點(diǎn)個(gè)數(shù)不超過(guò)總數(shù)的2%[16],因此可設(shè)定dc的搜索空間為E的前2%,故L為E的前2%的距離值個(gè)數(shù)統(tǒng)計(jì)量。初始化解空間為:
式中:φ為[0,1]內(nèi)的隨機(jī)數(shù);為構(gòu)成解每維度的取值范圍,即[]。
(2)步驟2:執(zhí)行DPC 算法,并根據(jù)聚類(lèi)結(jié)果計(jì)算Sil 指標(biāo)作為每個(gè)解的適應(yīng)值,以及記錄當(dāng)前解為最優(yōu)解。Sil指標(biāo)由式(14)計(jì)算得:
(3)步驟3:雇傭蜂階段,在當(dāng)前解的鄰近解中進(jìn)行搜索以更新解,搜索公式為:
式中:τ為[-1,1]內(nèi)的隨機(jī)數(shù);dck為在種群中隨機(jī)選擇的鄰居解,且dck≠dci;當(dāng)產(chǎn)生新解vi時(shí),同時(shí)計(jì)算其適應(yīng)值。由于Sil 取值范圍為[-1,1],Sil 取值越接近1 表示聚類(lèi)效果越好。適應(yīng)度目標(biāo)函數(shù)如式(16)所示。
(4)步驟4:跟隨蜂階段,跟隨蜂是根據(jù)雇傭蜂帶回的適應(yīng)值進(jìn)行隨機(jī)選擇,即通過(guò)式(16)~(17)計(jì)算被選中概率P,以輪盤(pán)賭方式選擇新解。若新解優(yōu)于被更新解dci,則讓 vi替換dci。
(5)步驟5:偵查蜂時(shí)期,再次利用式(13)隨機(jī)產(chǎn)生新的解,并依次執(zhí)行步驟(2)~(4),若迭代次數(shù)達(dá)到預(yù)設(shè)的limit 次,仍然沒(méi)有產(chǎn)生更好Sil 指標(biāo)的新解,輸出最優(yōu)解dc,算法正式結(jié)束。
圖4 基于ABC算法的截?cái)嗑嚯x優(yōu)選算法流程圖
原始DPC 算法是采用觀測(cè)決策圖形式確定離群點(diǎn)或者簇中心的,選擇標(biāo)準(zhǔn)很大程度受到使用者的主觀因素影響,容易導(dǎo)致干擾對(duì)象誤判為目標(biāo)對(duì)象的情況發(fā)生??紤]到人為決策的不足,本文將模擬人為觀測(cè)決策圖的篩選策略,定義一個(gè)離群系數(shù)γi,如式(18)所示。
式中:f(ρi,δi)為二元分段函數(shù),ρθ為邊界條件。由 DPC 算法思想與決策圖的特征可知,決策圖可大致分成左右兩部分,同一左側(cè)越往左上方偏移則樣本越有可能成為離群點(diǎn),同一右側(cè)越往右上方偏移則樣本越適合成為簇中心。然而,實(shí)現(xiàn)自動(dòng)識(shí)別離群點(diǎn)或簇中心的關(guān)鍵問(wèn)題是使得二元分段函數(shù)的計(jì)算方式生效,即尋找合適的邊界條件值ρθ,方法步驟如下。
(1)步驟1:設(shè)定樣本集決策圖的輸入空間為Z,并將其歸一化到數(shù)據(jù)空間[0,1]2∈R2內(nèi)。
(2)步驟2:將Z經(jīng)高斯核密度估計(jì)變換,得到?jīng)Q策圖的概率密度分布曲線,如圖5所示。
圖5 決策圖的概率密度分布曲線
圖6 離群系數(shù)升序趨勢(shì)圖
其概率密度函數(shù)PK(y)由式(20)~(21)計(jì)算而得。在數(shù)學(xué)上,核是由帶寬參數(shù)σ控制的正值函數(shù)K(ρ,δ)。
(3)步驟3:觀察圖5的概率密度分布曲線,其在形態(tài)上是較符合正態(tài)分布,與DPC 決策圖的特征表現(xiàn)基本一致。即曲線以ρb為分界處分成左右兩部分區(qū)域,較低與較高密度點(diǎn)的頻數(shù)都相對(duì)較低,其中局部密度較低點(diǎn)位于左側(cè),局部密度較高點(diǎn)位于右側(cè)。概率密度分布代表了樣本的分布頻數(shù),以ρb值劃分的左側(cè)區(qū)域?yàn)槌霈F(xiàn)頻率較低的樣本分布區(qū)域,在該區(qū)域內(nèi)所有對(duì)象點(diǎn)均有可能成為離群點(diǎn),為此設(shè)定離群系數(shù)公式的邊界條件ρθ=ρb。
(4)步驟4:將離群系數(shù)集G升序排序后,取其下標(biāo)組成索引集合Y={y1,y2,…,yn}。則其滿(mǎn)足:
(5)步驟5:按照式(22)繪制離群系數(shù)升序圖,如圖6所示。由圖可知,簇中心或離群點(diǎn)與大部分樣本的γ差值較大,即存在明顯的“跳躍點(diǎn)”。非簇中心的γ值之間差值較小且變化趨于平滑。由此,在“跳躍點(diǎn)”位置設(shè)定閾值邊界,讓算法識(shí)別閾值邊界以自動(dòng)識(shí)別出離群點(diǎn)和簇中心。
操作步驟:讓相鄰的γ值兩兩相減得到差值集合。從小到依次搜索差值集合,尋找差值小于設(shè)定閾值的位置序號(hào)k。然后,從式(22)中導(dǎo)出前k個(gè)離群點(diǎn){γy1,γy2,γyk}。
因馬蹄窯的分層能耗模型的基礎(chǔ)是各個(gè)窯爐子系統(tǒng)的熱平衡方程式。在分層能耗模型中,各個(gè)能量構(gòu)成項(xiàng)與池窯熱效率指標(biāo)代表著窯爐整體及其子系統(tǒng)的能耗信息和設(shè)備狀態(tài)。其次,由于監(jiān)控玻璃窯爐的工況信息是通過(guò)傳感儀器測(cè)量及采集的,傳感儀器由于安裝位置、網(wǎng)絡(luò)環(huán)境、使用壽命等因素,可能造成數(shù)據(jù)采集偏差問(wèn)題。
由此,以能量構(gòu)成項(xiàng)和池窯熱效率構(gòu)造特征值,并作為ABC-DPC 算法的數(shù)據(jù)輸入空間,不僅避免部分?jǐn)?shù)據(jù)干擾影響,而且可直接反映窯爐整體及其子系統(tǒng)的能耗狀況?;贏BC-DPC的馬蹄窯能耗異常檢測(cè)算法的步驟如下。
輸入:數(shù)據(jù)集S。
輸出:異常能耗樣本集B。
(1)步驟1:提取馬蹄窯分層能耗模型中的14 個(gè)能量構(gòu)成項(xiàng)以及池窯熱效率,計(jì)算并構(gòu)造特征值。記作輸入空間C。
(2)步驟2:為排除不同量綱差異帶來(lái)的影響,對(duì)C進(jìn)行最大-最小歸一化處理。
對(duì)矩陣C進(jìn)行轉(zhuǎn)置:
對(duì)每一特征i進(jìn)行最大-最小值歸一化:
(3)步驟3:?jiǎn)⒂萌斯し淙核惴ǖ慕財(cái)嗑嚯x參數(shù)優(yōu)選算法,計(jì)算最優(yōu)Sil指標(biāo)的截?cái)嗑嚯x,輸出dc。
(4)步驟4:設(shè)定最優(yōu)dc,并初始化密度峰值算法。開(kāi)始聚類(lèi)運(yùn)算得到C的局部密度集P和最近鄰距離集Δ。
(5)步驟5:?jiǎn)⒂秒x群系數(shù)算法,計(jì)算C中每個(gè)能耗樣本的離群系數(shù),并輸出離群系數(shù)集Γ。
(6)步驟6:升序排序Γ,并讓相鄰的值兩兩相減得到差值集。檢索差值集合中小于設(shè)定閾值的索引位置k。從升序排序的Γ 中取得前k位的樣本索引序號(hào){y1,y2,…,yk},然后根據(jù)索引序號(hào)依序從C中導(dǎo)出異常能耗樣本,記作B={cy1,cy2,…,cyk}。
ABC-DPC的馬蹄窯能耗異常檢測(cè)模型如圖7所示。
圖7 ABC-DPC的馬蹄窯能耗異常檢測(cè)模型
為了驗(yàn)證所提出的馬蹄窯異常聚類(lèi)檢測(cè)模型的有效性,本實(shí)驗(yàn)將以廣東省佛山市某玻璃廠的蓄熱式馬蹄窯為研究對(duì)象,具體從馬蹄窯生產(chǎn)控制系統(tǒng)的數(shù)據(jù)庫(kù)中提取2019年1~2 月中的22 880 條原始工況數(shù)據(jù)作為樣本,以開(kāi)展本課題的聚類(lèi)異常檢測(cè)實(shí)驗(yàn)研究。其中,本文的算法均在PC 上完成實(shí)驗(yàn)的。實(shí)驗(yàn)軟件環(huán)境為Windows 10;實(shí)驗(yàn)編程環(huán)境為Python 3.7.1。
根據(jù)ABC-DPC的能耗異常檢測(cè)結(jié)果,即異常能耗樣本集B={cy1,cy2,…,cyk}。聯(lián)立集合Γ、S 以及C,根據(jù)索引序號(hào){y1,y2,…,yk}導(dǎo)出對(duì)應(yīng)的數(shù)據(jù),S中只取標(biāo)簽值(1表示正常,0表示異常),得到能耗異常檢測(cè)參考表,如表6~7所示。
表6 能耗異常檢測(cè)參考表
表7 異常能耗樣本集B
聯(lián)立表6~7可以分析樣本點(diǎn)的池窯熱效率與離群系數(shù)的關(guān)系。離群系數(shù)越大,樣本的池窯熱效率接近于較中心樣本點(diǎn)平均水平。同理,離群系數(shù)越小,樣本池窯熱效率越低,說(shuō)明樣本越有可能存在能耗異常,即樣本點(diǎn)的池窯熱效率與其離群系數(shù)成正比例關(guān)系。經(jīng)多組實(shí)驗(yàn)結(jié)果表明,基于ABC-DPC的馬蹄窯能耗異常檢測(cè)模型的聚類(lèi)結(jié)果接近于調(diào)研結(jié)果的池窯熱效率水平,符合實(shí)際生產(chǎn)條件。
Sil系數(shù)的值域范圍為[-1,1]。對(duì)于不正確的聚類(lèi),Sil系數(shù)越接近-1;Sil 系數(shù)接近1 時(shí),表示該樣本越適合被劃分到當(dāng)前簇。當(dāng)簇內(nèi)分布密集且簇間分離較好時(shí),則分?jǐn)?shù)更高,符合簇的標(biāo)準(zhǔn)概念定義。Fowlkes-Mallows(FM)指數(shù)被定義為成對(duì)查準(zhǔn)率和查全率的幾何平均值。FM 指數(shù)的值域范圍為[0,1],該指數(shù)表示經(jīng)聚類(lèi)劃分的標(biāo)簽集和真實(shí)標(biāo)簽集之間的相似性,值越高表示越相似,即聚類(lèi)劃分效果越好。
以Sil 系數(shù)與FM 指數(shù)度量聚類(lèi)算法的性能表現(xiàn),效果如表8 所示。分析實(shí)驗(yàn)結(jié)果可得結(jié)論,ABC-DPC 較于經(jīng)典聚類(lèi)算法的聚類(lèi)有效性指標(biāo)是最優(yōu)的,特別是隨著數(shù)據(jù)規(guī)模增加,效果愈明顯。
表8 不同聚類(lèi)算的Sil與FM指標(biāo)對(duì)比
數(shù)據(jù)規(guī)模572 1 144 2 288 4 576 11 440 22 880 DBSCAN Sil 0.190 0.223 0.242 0.261 0.278 0.284 FM 0.751 0.767 0.766 0.773 0.772 0.770 K-means Sil 0.239 0.244 0.243 0.249 0.252 0.253 FM 0.658 0.663 0.690 0.708 0.724 0.759
同樣地,算法運(yùn)行時(shí)間也是值得關(guān)注的統(tǒng)計(jì)量,如圖8所示。ABC-DPC與其他聚類(lèi)算法運(yùn)行時(shí)間水平相當(dāng),但取得最佳聚類(lèi)有效性指標(biāo)。
圖8 不同聚類(lèi)算法的運(yùn)行時(shí)間
本文是以工業(yè)應(yīng)用為研究背景,針對(duì)傳統(tǒng)的玻璃窯爐異常檢測(cè)方法易受主觀因素干擾、冗余報(bào)錯(cuò)的情況,首先通過(guò)熱平衡分析得到馬蹄窯的分層能耗模型,并以此構(gòu)造能耗特征值,然后應(yīng)用ABC-DPC算法實(shí)現(xiàn)馬蹄窯的能耗樣本快速聚類(lèi)異常檢測(cè)過(guò)程。實(shí)驗(yàn)結(jié)果表明,ABC-DPC算法能高效地檢測(cè)窯爐的異常能耗樣本,并與DPC、K-Means 以及DBSCAN算法比較,在算法運(yùn)行時(shí)間相當(dāng)?shù)那闆r下,具有最好的聚類(lèi)性能表現(xiàn)。