馬福軍 胡力勤
摘要:為了準(zhǔn)確、實(shí)時(shí)發(fā)現(xiàn)地下綜合管廊運(yùn)行和維護(hù)中的風(fēng)險(xiǎn),將密度峰值聚類(lèi)算法分析應(yīng)用到地下綜合管廊異常數(shù)據(jù)挖掘。密度峰值聚類(lèi)算法分3個(gè)環(huán)節(jié),離群數(shù)據(jù)的取舍、聚類(lèi)中心的確定和以Voronoi圖單元為基礎(chǔ)的數(shù)據(jù)映射分配。通過(guò)實(shí)驗(yàn)分析,成功實(shí)現(xiàn)地下綜合管廊環(huán)境中氧氣濃度的大數(shù)據(jù)聚類(lèi),并得到不同氧氣濃度數(shù)據(jù)聚類(lèi)簇圖像,直觀地觀察到氧氣濃度的數(shù)據(jù)狀態(tài),通過(guò)該算法得到的數(shù)據(jù)簇聚類(lèi)效果非常具有工程實(shí)際意義,能準(zhǔn)確、實(shí)時(shí)預(yù)測(cè)管廊風(fēng)險(xiǎn)。
關(guān)鍵詞:密度峰值聚類(lèi);地下綜合管廊;大數(shù)據(jù)挖掘
中圖分類(lèi)號(hào):TP311.1
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1009-9492f 2022)02-0094-04
0 引言
地下綜合管廊是指在地下空間設(shè)置專供各種公用事業(yè)管線敷設(shè)的隧道或溝道,如電力、燃?xì)?、通訊、供水排水、熱力等各種管線。地下綜合管廊密閉空間內(nèi),各種管線的相互干擾,容易發(fā)生電纜火災(zāi)、燃?xì)庑孤┰斐傻谋ǖ扔绊懝芾劝踩\(yùn)行和周邊環(huán)境的安全[1]。因此,挖掘管廊運(yùn)維大數(shù)據(jù)中的異常數(shù)據(jù),及早發(fā)出管廊運(yùn)維的風(fēng)險(xiǎn)預(yù)警和報(bào)警具有非常重要的現(xiàn)實(shí)意義。目前,地下綜合管廊風(fēng)險(xiǎn)預(yù)警的研究比較少,研究成果的應(yīng)用性不強(qiáng)。
張勇等[1]利用模糊數(shù)理論、專家權(quán)重法和貝葉斯網(wǎng)絡(luò)理論對(duì)管廊風(fēng)險(xiǎn)給出確定的風(fēng)險(xiǎn)概率。莊麗等[2]用耦合協(xié)調(diào)理論在地下綜合管廊風(fēng)險(xiǎn)評(píng)價(jià)中的研究,用管廊內(nèi)風(fēng)險(xiǎn)因素之間的耦合度高低,用熵權(quán)法給風(fēng)險(xiǎn)因素客觀賦權(quán),推斷管廊發(fā)生某一風(fēng)險(xiǎn)的大小。柴康等[3]提出模糊聚類(lèi)方法和多災(zāi)種耦合理論預(yù)測(cè)管廊風(fēng)險(xiǎn)概率,從而采取措施降低事故概率。本文提出用密度峰值聚類(lèi)算法挖掘管廊大數(shù)據(jù),發(fā)現(xiàn)管廊數(shù)據(jù)的異常變化,從而及時(shí)發(fā)現(xiàn)地下綜合管廊險(xiǎn)情并預(yù)警。王新穎、尹文君等[4-5]提出了基于深度置信網(wǎng)絡(luò)深度學(xué)習(xí)的預(yù)測(cè)方法,可以實(shí)現(xiàn)城市燃?xì)夤艿赖娘L(fēng)險(xiǎn)模式識(shí)別和大氣污染識(shí)別。王玉琪等[6]通過(guò)數(shù)值模擬研究提出綜合管廊燃?xì)庑孤r(shí),在燃?xì)馀撝腥細(xì)鉂舛确植寂c艙室結(jié)構(gòu)、時(shí)間、氣流等參數(shù)相關(guān)。Damodar Reddy等[7—8]報(bào)道了不同的聚類(lèi)算法,一種基于Voronoi圖的新型聚類(lèi)算法,利用最大的空Voronoi圓來(lái)定位由Voronoi頂點(diǎn)表示的更接近的點(diǎn),然后通過(guò)迭代構(gòu)造新的Voronoi圖來(lái)有效地合并這些原型所表示的點(diǎn),從而產(chǎn)生所需的簇;一種基于截?cái)嗑嚯x和自適應(yīng)的聚類(lèi)算法。
國(guó)內(nèi)外對(duì)地下綜合管廊的運(yùn)行風(fēng)險(xiǎn)研究是當(dāng)前的熱點(diǎn),但風(fēng)險(xiǎn)的預(yù)測(cè)基于有限的風(fēng)險(xiǎn)因素作為預(yù)測(cè)模型的輸入?yún)?shù),導(dǎo)致風(fēng)險(xiǎn)預(yù)測(cè)的準(zhǔn)確度受限;或基于風(fēng)險(xiǎn)的概率統(tǒng)計(jì)與分析,也同樣存在風(fēng)險(xiǎn)因素的設(shè)計(jì)不全面科學(xué)而導(dǎo)致預(yù)測(cè)結(jié)果失真。同時(shí),所查閱到文獻(xiàn)描述方法,在風(fēng)險(xiǎn)預(yù)測(cè)的實(shí)時(shí)性方面沒(méi)有得到解決。本文通過(guò)有效的峰值密度聚類(lèi)算法實(shí)現(xiàn)數(shù)據(jù)挖掘,提高風(fēng)險(xiǎn)預(yù)測(cè)的準(zhǔn)確度,同時(shí),通過(guò)對(duì)實(shí)時(shí)數(shù)據(jù)的挖掘,從而提高風(fēng)險(xiǎn)預(yù)測(cè)的實(shí)時(shí)性。
1 綜合管廊大數(shù)據(jù)密度峰值聚類(lèi)算法
1.1 管廊設(shè)計(jì)運(yùn)行數(shù)據(jù)聚類(lèi)中心的確定
綜合管廊中各類(lèi)運(yùn)行大數(shù)據(jù),都會(huì)有聚類(lèi)中心,數(shù)據(jù)聚類(lèi)中心代表管廊的運(yùn)行狀態(tài)。管廊某監(jiān)測(cè)指標(biāo)(例如管廊空氣的氧氣含量)數(shù)據(jù)集合Oi聚類(lèi)中心的確定需要數(shù)據(jù)的密度峰值p。在聚類(lèi)中心數(shù)據(jù)集合Oi={Oj},Oi為管廊某一類(lèi)傳感器采樣的數(shù)據(jù)點(diǎn),是聚類(lèi)中心數(shù)據(jù)集合的元素,j=1,2,…,n。在集合數(shù)據(jù)中,在管廊正常運(yùn)行狀態(tài)下,必然存在數(shù)據(jù)Oij,數(shù)據(jù)Oij是管廊設(shè)計(jì)運(yùn)行數(shù)據(jù)。本文采用k近鄰方法,計(jì)算數(shù)據(jù)集合Oi的數(shù)據(jù)密度。考慮k近鄰內(nèi)數(shù)據(jù)點(diǎn)之間的距離,數(shù)據(jù)Oij與周?chē)鷶?shù)據(jù)點(diǎn)的距離與數(shù)據(jù)Oij密度p成反比例的數(shù)據(jù)關(guān)系。其關(guān)系式可表達(dá)為:
考慮管廊環(huán)境下傳感器數(shù)據(jù)的干擾度因素,數(shù)據(jù)集合Oi中數(shù)據(jù)呈現(xiàn)正態(tài)分布,該集合的聚類(lèi)中心的密度是最大的。根據(jù)第k近鄰方法和密度p計(jì)算公式,計(jì)算數(shù)據(jù)集合Oi數(shù)據(jù)的密度,并將計(jì)算所得的密度數(shù)據(jù)放入集合Density0,再把集合Density0中的數(shù)據(jù)進(jìn)行兩兩比對(duì).直至得到聚類(lèi)中心ClusterC。結(jié)合上述分析,給出管廊數(shù)據(jù)聚類(lèi)中心的算法ClusterA (Oi,k):
1.2 離群點(diǎn)的判別與取舍
綜合管廊數(shù)據(jù)依據(jù)統(tǒng)計(jì)規(guī)律呈現(xiàn)正態(tài)分布,數(shù)據(jù)集合Oi={Oj}中數(shù)據(jù)的局部密度有大有小,按照數(shù)據(jù)的分布規(guī)律,離群點(diǎn)的數(shù)據(jù)其局部密度必定在整個(gè)集合數(shù)據(jù)的平均密度之下,因此,離群點(diǎn)數(shù)據(jù)的范圍是可以確定的。本文提出用Voronoi圖[9]進(jìn)行離群數(shù)據(jù)點(diǎn)的查找。Voronoi圖以空間劃分作為基本數(shù)據(jù)結(jié)構(gòu),可以實(shí)現(xiàn)數(shù)據(jù)查詢查找,并且有明顯優(yōu)勢(shì)。對(duì)于管廊數(shù)據(jù)集合Oi,可以生成許多Voronoi單元,數(shù)據(jù)OJ的Voronoi單元,可表示為VU(Oj)。Voronoi圖中的Voronoi多邊形稱為鄰接多邊形[10],鄰接多邊形的生成點(diǎn)稱為鄰接生成點(diǎn)。數(shù)據(jù)Oj的鄰接生成點(diǎn)可分為一級(jí)鄰接生成點(diǎn)和h(h≥2)級(jí)鄰接生成點(diǎn)。
管廊數(shù)據(jù)集合Oi,要對(duì)其中的離群點(diǎn)進(jìn)行查詢判別和取舍可以按如下思路進(jìn)行。先計(jì)算集合Oj數(shù)據(jù)的局部密度,從而得到所有數(shù)據(jù)的平均密度,刷選出比平均密度低的數(shù)據(jù)點(diǎn),然后逐個(gè)判斷低于平均密度的數(shù)據(jù)點(diǎn)是否為離群點(diǎn)。離群點(diǎn)的判別與取舍算法oda0 (Oj,k)。
算法輸入:管廊數(shù)據(jù)集合
//如果數(shù)據(jù)集合中數(shù)據(jù)點(diǎn)的反向最近鄰是0,則該數(shù)據(jù)點(diǎn)是離群點(diǎn);如果數(shù)據(jù)點(diǎn)的一級(jí)近鄰都是離群點(diǎn),則該數(shù)據(jù)點(diǎn)是個(gè)離群點(diǎn)。
Step12. if (Oj is Outlier) then
Step13. odM←delete (Oj)
Step14. end if
Step15.end for
Step16.return Oj
1.3 非離群點(diǎn)(除聚類(lèi)中心數(shù)據(jù)點(diǎn))數(shù)據(jù)分配
通過(guò)上述1.1和1.2的分析,找到數(shù)據(jù)聚類(lèi)中心,并且排除離群點(diǎn)數(shù)據(jù)后,還需要對(duì)其余的數(shù)據(jù)進(jìn)行類(lèi)簇分配。數(shù)據(jù)的類(lèi)簇分配,本文利用Voronoi圖的性質(zhì),應(yīng)用Voronoi圖進(jìn)行數(shù)據(jù)分配。
Voronoi圖的性質(zhì):Voronoi圖中,Voronoi單元互不交疊,沒(méi)有公共區(qū)域;每一個(gè)Voronoi單元內(nèi)數(shù)據(jù)與數(shù)據(jù)生成點(diǎn)的距離最近;Voronoi單元之間的邊界數(shù)據(jù)與鄰接生成點(diǎn)之間的距離相等。
通過(guò)數(shù)據(jù)點(diǎn)映射的方法,將非離群數(shù)據(jù)點(diǎn)映射到以初始聚類(lèi)中心為生成點(diǎn)的Voronoi圖當(dāng)中。另外,根據(jù)Voronoi圖的性質(zhì),在Voronoi單元之間的邊界數(shù)據(jù)可以分配到任意一個(gè)Voronoi單元中。
對(duì)于通過(guò)Voronoi圖獲得數(shù)據(jù)簇,如果數(shù)據(jù)簇相似,則必須進(jìn)行合并。本文利用jaccard相似系數(shù)[11],比較兩個(gè)數(shù)據(jù)簇的相似性。對(duì)于兩個(gè)管廊數(shù)據(jù)集合A和B,對(duì)應(yīng)兩個(gè)數(shù)據(jù)簇,則集合A和B的數(shù)據(jù)相似性可定義為: 式中:IAnBl為數(shù)據(jù)簇A和數(shù)據(jù)簇B,在k近鄰數(shù)據(jù)點(diǎn)與A和B數(shù)據(jù)中心為半徑的相交圓內(nèi)的數(shù)據(jù)個(gè)數(shù);|A ∪B|為兩個(gè)網(wǎng)的并集數(shù)據(jù)個(gè)數(shù)。
J(A,B)的值越大,說(shuō)明兩個(gè)數(shù)據(jù)簇的相似性越大,則數(shù)據(jù)簇A和B應(yīng)該合并。在實(shí)際應(yīng)用中,可設(shè)置jacca-rd相似系數(shù)一個(gè)閥值盧。如果相似系數(shù)大于閥值盧,則兩個(gè)數(shù)據(jù)簇應(yīng)該合并。
基于對(duì)聚類(lèi)中心的算法處理和離群數(shù)據(jù)的算法處理,結(jié)合利用Voronoi圖數(shù)據(jù)分配(包括其中相似數(shù)據(jù)簇的處理),提出獲得最終數(shù)據(jù)簇的算法如下。
算法輸入:管廊數(shù)據(jù)集合
Oi={O1,O2,O3,…,On),近鄰參數(shù)k,閥值p。
輸出:數(shù)據(jù)簇ClusterD
//去除離群點(diǎn)數(shù)據(jù)
Stepl: Oi←oda0 (Oi,k)
//通過(guò)聚類(lèi)算法獲取聚類(lèi)中心ClusterC
Step2:
ClusterC←ClusterA( Oj,k)
Step3:依據(jù)初始聚類(lèi)中心生成Voronoi圖
Step4:映射數(shù)據(jù)集合Oi到Voronoi圖
Step5:生成Voronoi單元VU
//依據(jù)jaccard相似系數(shù),合并數(shù)據(jù)簇
Step6: fori=l to VU length do:
Step7:forj=l to VU length do:
If (jaccard (VUi,VUj)》β) then:
ClusterD← (VU,,VUj)
Step8:
end if
Step9: end for
Stepl0:其余不合并的數(shù)據(jù)簇放人ClusterD
Stepll: end for
Step12: return ClusterD
2 綜合管廊大數(shù)據(jù)密度峰值聚類(lèi)分析實(shí)驗(yàn)
地下綜合管廊在運(yùn)行和維護(hù)中產(chǎn)生海量的數(shù)據(jù),形成大數(shù)據(jù)。一是管廊本體的屬性數(shù)據(jù)和管廊本體的監(jiān)測(cè)數(shù)據(jù)。二是管廊的附屬設(shè)施和環(huán)境監(jiān)測(cè)數(shù)據(jù),例如管廊的消防、通風(fēng)、排水系統(tǒng)數(shù)據(jù)、管廊的環(huán)境數(shù)據(jù)如氧氣含量、甲烷含量、溫度濕度等。利用密度峰值聚類(lèi)大數(shù)據(jù)挖掘能及早發(fā)現(xiàn)異常數(shù)據(jù)簇,并發(fā)出預(yù)警,從而降低災(zāi)害損失。本文應(yīng)用白行研究設(shè)計(jì)的管廊自學(xué)習(xí)綜合控制盤(pán)網(wǎng)絡(luò)平臺(tái),進(jìn)行管廊數(shù)據(jù)的峰值聚類(lèi)分析。圖1所示為自學(xué)習(xí)綜合控制盤(pán)網(wǎng)絡(luò)平臺(tái)數(shù)據(jù)架構(gòu)。圖中自學(xué)習(xí)控制盤(pán)通過(guò)前端傳感器收集管廊大數(shù)據(jù),并通過(guò)網(wǎng)絡(luò)層將傳輸至數(shù)據(jù)中心存儲(chǔ),配置和運(yùn)維平臺(tái)可以讀取數(shù)據(jù)中心數(shù)據(jù),進(jìn)行峰值聚類(lèi)分析。圖中白學(xué)習(xí)控制盤(pán)分布在管廊不同艙室空間,收集包括環(huán)境參數(shù)在內(nèi)的各類(lèi)管廊運(yùn)行數(shù)據(jù),同時(shí)通過(guò)環(huán)形CAN總線實(shí)現(xiàn)自學(xué)習(xí)控制盤(pán)之間的數(shù)據(jù)交換。
本次實(shí)驗(yàn)數(shù)據(jù)分析對(duì)管廊氧氣濃度變化進(jìn)行密度峰值聚類(lèi)分析模擬實(shí)驗(yàn)。在標(biāo)準(zhǔn)狀態(tài)下,空氣中氧氣的體積百分比為21.7%,用1.3節(jié)所述的數(shù)據(jù)分配聚類(lèi)算法可得數(shù)據(jù)聚類(lèi)簇圖形。隨后增加空氣中的氧氣濃度到多個(gè)穩(wěn)定濃度如30%和50%,觀察數(shù)據(jù)聚類(lèi)簇圖形發(fā)生變化情形。
本次實(shí)驗(yàn)采用windows10系統(tǒng),64位操作系統(tǒng),系統(tǒng)內(nèi)存16C,處理器Intel (R) Core (TM) i5-1035CICPU@1.00 CHz l.19 CHz,程序采用Java語(yǔ)言。每個(gè)穩(wěn)定的氧氣濃度狀態(tài),通過(guò)800個(gè)數(shù)據(jù)形成數(shù)據(jù)簇。實(shí)驗(yàn)中Voronoi圖的算法實(shí)現(xiàn)參考文獻(xiàn)[12]。3個(gè)氧氣濃度狀態(tài)21.7%、30%、50%;從左到右對(duì)應(yīng)3個(gè)數(shù)據(jù)聚類(lèi)簇如圖2所示。實(shí)驗(yàn)過(guò)程中針對(duì)不同的氧氣濃度,仿真圖像上顯示數(shù)據(jù)有較好的集中度,同時(shí)在實(shí)驗(yàn)過(guò)程中氧傳感器由于受氣流的干擾,數(shù)據(jù)聚類(lèi)過(guò)程中存在少量的發(fā)散,但這不改變整體數(shù)據(jù)的聚類(lèi)分析。在工程實(shí)踐中,當(dāng)確定一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)聚類(lèi)作為正常數(shù)據(jù)后,可以設(shè)定不同的偏差作為異常數(shù)據(jù)的判定,不同的偏差等級(jí)可與不同的風(fēng)險(xiǎn)等級(jí)相對(duì)應(yīng)。
3 結(jié)束語(yǔ)
通過(guò)對(duì)管廊內(nèi)氧氣濃度變化的大數(shù)據(jù)密度峰值聚類(lèi)算法實(shí)驗(yàn)分析,可以得出本文所述數(shù)據(jù)挖掘方法是可行的,能有效監(jiān)測(cè)地下綜合管廊運(yùn)行的數(shù)據(jù)簇,解決了地下綜合管廊風(fēng)險(xiǎn)數(shù)據(jù)的實(shí)時(shí)監(jiān)測(cè)難題,對(duì)依靠風(fēng)險(xiǎn)概率統(tǒng)計(jì)與分析的手段監(jiān)測(cè)地下綜合管廊運(yùn)行風(fēng)險(xiǎn)創(chuàng)新性的給出了新的解決方案。利用大數(shù)據(jù)密度峰值聚類(lèi)算法對(duì)地下綜合管廊異常數(shù)據(jù)的監(jiān)測(cè),為后續(xù)建立管廊風(fēng)險(xiǎn)一措施行為模型研究做好準(zhǔn)備,最終實(shí)現(xiàn)地下綜合管廊風(fēng)險(xiǎn)的實(shí)時(shí)發(fā)現(xiàn)和實(shí)時(shí)管控,最大化減少因風(fēng)險(xiǎn)引起的各種損失。
參考文獻(xiàn):
[1]張勇,謝霞霞,王祥宇,等.基于BN-bow-tie的智慧城市地下綜合管廊運(yùn)維在還分析[J].建設(shè)科技,2020(23):58-61.
[2]莊麗,馬婷婷。劉蘭梅,等.耦合協(xié)調(diào)理論下綜合管廊運(yùn)維災(zāi)害風(fēng)險(xiǎn)研究[J].佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,38(5):122-125.
[3]柴康,劉鑫.基于模糊聚類(lèi)分析的綜合管廊多災(zāi)種耦合預(yù)測(cè)模型[J].災(zāi)害學(xué),2020,35(4):206-209.
[4]王新穎,張惠然,張瑞程,等.基于深度學(xué)習(xí)的大數(shù)據(jù)管網(wǎng)風(fēng)險(xiǎn)評(píng)價(jià)方法[J].消防科學(xué)與技術(shù),2019,38(6):902-904.
[5]尹文君,張大偉,嚴(yán)京海,等.基于深度學(xué)習(xí)的大數(shù)據(jù)空氣污染預(yù)報(bào)[J].中國(guó)環(huán)境管理,2015,7(6):46-52.
[6]王玉琪,戚承志,屈小磊,等.地下綜合管廊燃?xì)庑孤┠M研究[J].消防科學(xué)與技術(shù),2018,37(10):1348-1353.
[7] Damodar Reddy.Prasanta K Jana. Intemational Journal of dataMining[J].Modelling and Management,2014(6):49-64.
[8]楊震,王紅軍,周宇.一種截?cái)嗑嚯x和聚類(lèi)中心自適應(yīng)的聚類(lèi)算法[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2018,2(3):39-48.
[9]郝忠孝.空間數(shù)據(jù)庫(kù)理論基礎(chǔ)[M].北京:科學(xué)出版社,2013.
[10]張麗平,劉蕾,郝曉紅,等.障礙空間中基于Voronoi圖的組反K最近鄰查詢研究[J].計(jì)算機(jī)研究與發(fā)展,2017,54(4):861-871.
[11]張曉琳,付英姿,褚培肖.杰卡德相似系數(shù)在推薦系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015,25 (4):158-161.
[12]張艷,李強(qiáng).基于逐點(diǎn)插入法生成Voronoi圖的算法研究及實(shí)現(xiàn)[J].黑龍江工程學(xué)院學(xué)報(bào),2016,30(5):22-24.