朱秀莉,顧洪博,楊冬黎
(東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江大慶163318)
孤立點(diǎn)檢測是數(shù)據(jù)挖掘領(lǐng)域中一個(gè)重要的研究方向。其任務(wù)是發(fā)現(xiàn)數(shù)據(jù)集中明顯不同于其他數(shù)據(jù)的對象。孤立點(diǎn)的應(yīng)用主要有信用卡與保險(xiǎn)欺詐、入侵檢測、氣象預(yù)報(bào)、病例分析與診斷等[1]。孤立點(diǎn)檢測一般包括:孤立點(diǎn)的定義、尋找孤立點(diǎn)?,F(xiàn)有的孤立點(diǎn)算法根據(jù)孤立點(diǎn)定義的角度不同,分為基于統(tǒng)計(jì)的、基于距離的、基于密度的、基于深度的和基于偏離的算法[2]。煤礦安全預(yù)警系統(tǒng)需要從不完整的、模糊的、隨機(jī)的大量數(shù)據(jù)中,挖掘有用的信息和知識,直觀表征采煤區(qū)域的總體狀況,為煤礦安全生產(chǎn)提供可靠依據(jù)[3]。本文采用孤立點(diǎn)檢測的方法對瓦斯?jié)舛鹊漠惓?shù)據(jù)進(jìn)行處理,保證預(yù)警的準(zhǔn)確性。
基于統(tǒng)計(jì)的孤立點(diǎn)檢測算法主要思想是假定數(shù)據(jù)集服從某種分布或概率模型,通過不一致檢驗(yàn)把那些嚴(yán)重偏離分布曲線的數(shù)據(jù)視為孤立點(diǎn)[4]。從已知值的分布找出統(tǒng)計(jì)參數(shù),如均值和方差,再根據(jù)統(tǒng)計(jì)參數(shù)和孤立點(diǎn)期望數(shù)目建立閾值。閾值之外的可能是孤立點(diǎn),如:閾值=均值± 2×標(biāo)準(zhǔn)差。
若已知數(shù)據(jù)集的概率分布(如正態(tài)分布,均值)時(shí),用基于統(tǒng)計(jì)的方法。此方法主要局限在科研計(jì)算領(lǐng)域,它適用于數(shù)值型數(shù)據(jù),而不適用于高維、分類數(shù)據(jù)的挖掘。
1998年,Konr提出基于距離的孤立點(diǎn)檢測算法[5],2000年Ng進(jìn)行了更新[6],因此孤立點(diǎn)的定義是:數(shù)據(jù)集D中,至少有p部分對象與對象O的距離大于d,那么對象O就是一個(gè)帶參數(shù)p和d的基于距離的孤立點(diǎn),記為DB(p,d)。
此方法使用全局閾值故不能處理具有不同密度的數(shù)據(jù)集。此外,算法需要事先確定參數(shù)pct和dmin,這是比較困難的。對于給定的不同參數(shù)dmin,檢測結(jié)果通常具有很大的波動(dòng)性。后來又提出基于距離和[7]、基于屬性距離和[8]的孤立點(diǎn)檢測算法。
密度常用鄰近度是指任意一點(diǎn)和p點(diǎn)距離小于給定半徑r的鄰域空間內(nèi)的數(shù)據(jù)點(diǎn)的個(gè)數(shù)。一般定義是點(diǎn)到其 k近鄰的平均距離,平均距離小則密度小。基于密度的孤立點(diǎn)檢測,就是探測局部密度,認(rèn)為孤立點(diǎn)是在低密度區(qū)域中的對象。經(jīng)典的基于密度的孤立點(diǎn)檢測算法是LOF算法[9]
基于密度的方法,給出了對象是孤立點(diǎn)程度的定量度量,并且即使數(shù)據(jù)具有不同密度的區(qū)域也能很好地處理。但這些方法必然具有O(n2)的時(shí)間復(fù)雜度,其參數(shù)選擇也是困難的。最近又提出基于平均密度[10]的和基于K-距離[11]的孤立點(diǎn)檢測算法。
總之,現(xiàn)有的孤立點(diǎn)檢測算法能夠檢測出孤立點(diǎn),但也存在局限性。主要是:高維數(shù)據(jù)孤立點(diǎn)檢測的算法效率的下降、最近鄰概念的失效、對背景知識的依賴較多。
針對孤立點(diǎn)檢測算法的一些弊端,采用一個(gè)基于距離和(Distance Sum,DS)的孤立點(diǎn)檢測算法。首先計(jì)算數(shù)據(jù)集中對象兩兩間的距離,然后計(jì)算每個(gè)對象與其它對象的距離之和,計(jì)算所有對象的距離和均值H,則距離之和大于H的對象即為部分孤立點(diǎn)。
從定義1可以看出,所有對象的距離和組成一個(gè)主對角線為0的對稱矩陣。
定義3孤立點(diǎn)數(shù)據(jù)集D中,若對象xi(維數(shù)為d)的偏離度D(i)>0,則稱對象 xi就是一個(gè)帶參數(shù)si和d的基于距離的孤立點(diǎn),記為DB(si,d)。
1)對原始數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化后,計(jì)算n個(gè)對象兩兩之間的距離,并計(jì)算出每個(gè)對象的偏離度。
2)若對象xi滿足定義3,則稱對象xi是孤立點(diǎn)。
3)對檢測出的孤立點(diǎn)進(jìn)行分析。
瓦斯檢測對精度要求不高,但對其可靠性要求非常高。能夠連續(xù)檢測,并在設(shè)定的百分比濃度點(diǎn)準(zhǔn)確報(bào)警。由于井下環(huán)境復(fù)雜,存在著各種干擾源,傳感器輸出的信號極易受到污染。因此,經(jīng)常會(huì)出現(xiàn)瓦斯異常數(shù),但實(shí)際值并不高。系統(tǒng)計(jì)算機(jī)根本無辦法識別這些干擾信號,系統(tǒng)頻頻發(fā)生誤報(bào)警。一旦報(bào)警,井下電源就自動(dòng)切斷,生產(chǎn)停止。據(jù)統(tǒng)計(jì),誤報(bào)警高達(dá)70%,正常生產(chǎn)因?yàn)轭l繁的誤報(bào)警而受到很大影響,給企業(yè)造成很大的損失[12]。
難以克服的“大數(shù)污染”問題普遍存在于目前使用的各種系統(tǒng)中。采用孤立點(diǎn)檢測的方法對瓦斯?jié)舛鹊臄?shù)據(jù)進(jìn)行處理,防止誤報(bào)警,保證報(bào)警的準(zhǔn)確性。
本實(shí)驗(yàn)所用數(shù)據(jù)為8個(gè)礦井某天瓦斯?jié)舛葦?shù)據(jù),其中包含瓦斯涌出以及異常數(shù)據(jù)。每個(gè)傳感器采集到400多個(gè)數(shù)據(jù),共搜集了3 000多個(gè)數(shù)據(jù)。瓦斯正常濃度在0~l%之間。為了便于實(shí)驗(yàn),將獲得的數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理(各乘100)得到一個(gè)樣本集。其中部分?jǐn)?shù)據(jù)如表1。
依照定義1,可以計(jì)算出每個(gè)礦井的各個(gè)距離和數(shù)據(jù),如表2。
表1 標(biāo)準(zhǔn)化后的部分?jǐn)?shù)據(jù)Tab.1 Partial database after standardization
表2 各個(gè)礦井的距離和Tab.2 The distance sum of each mines
依據(jù)定義2,得到每個(gè)對象的偏離度,如表3。
表3 各個(gè)礦井的偏離度Tab.3 The distance deviation of each mines
依據(jù)定義3,從表3中可以看出,井號A、D、H為孤立點(diǎn)。
根據(jù)瓦斯檢測數(shù)據(jù),采用基于聚類的孤立點(diǎn)分析,大致得到3類孤立點(diǎn)。
瓦斯?jié)舛冗h(yuǎn)遠(yuǎn)大于其它時(shí)段的濃度。這其實(shí)是一種噪聲數(shù)據(jù)。一般由于井下機(jī)電設(shè)備啟停時(shí)發(fā)出的電磁干擾造成的,或者井下監(jiān)控設(shè)備所接的電網(wǎng)的強(qiáng)烈電磁干擾。強(qiáng)干擾脈沖能在瞬間完全淹沒傳感器信號,結(jié)果就造成了“大數(shù)”異常現(xiàn)象。頻繁的電磁啟動(dòng)脈沖與信號疊加后更會(huì)造成嚴(yán)重的“大數(shù)”干擾。對這類數(shù)據(jù)可以不予考慮。
表4 噪聲數(shù)據(jù)Tab.4 The data of noisy
瓦斯?jié)舛扔休^少次高于其它時(shí)段的濃度。且這類數(shù)據(jù)變化幅度不大。這種數(shù)據(jù)的來源是因?yàn)楸O(jiān)控系統(tǒng)傳感器信號抗干擾能力很差,遇有線路接觸不良或電磁干擾就會(huì)造成假象信號。如傳感器插頭氧化、電纜接線盒松動(dòng)、信號接觸不良等造成隨機(jī)出現(xiàn)的異常現(xiàn)象。
表5 設(shè)備異常孤立點(diǎn)數(shù)據(jù)Tab.5 The outliers based in the abnormal equipment
瓦斯?jié)舛扔休^多次高于其它時(shí)段的濃度。其高的次數(shù)越來越多,可以考慮這是瓦斯突出,應(yīng)報(bào)警斷電。
表6 瓦斯突出孤立點(diǎn)數(shù)據(jù)Tab.6 The abnormity data of gas concentration
瓦斯突出是指隨著煤礦開采深度的增加、瓦斯含量的增加,在煤層中形成了在地應(yīng)力作用下,瓦斯釋放的引力作用下,使軟弱煤層突破抵抗線,瞬間釋放大量瓦斯和煤而造成的一種地質(zhì)災(zāi)害。
本文中采用的孤立點(diǎn)檢測方法對煤礦井瓦斯監(jiān)測數(shù)據(jù)處理,濾除大數(shù)干擾,保證正確的報(bào)警。將孤立點(diǎn)技術(shù)用在煤礦安全監(jiān)測中,提高了數(shù)據(jù)分析的效率,以有效地挖掘出事故的隱患,這在保證煤礦的安全生產(chǎn)上有一定的價(jià)值。
[1]牛琨.聚類分析中若干關(guān)鍵技術(shù)及其在電信領(lǐng)域的應(yīng)用研究[D].北京:北京郵電大學(xué),2007.
[2]楊蘭倉.數(shù)據(jù)挖掘中聚類和孤立點(diǎn)檢測算法的研究[D].濟(jì)南:山東大學(xué),2008.
[3]蔡曉明.基于地理信息系統(tǒng)的煤礦瓦斯突出預(yù)測研究[D].昆明:昆明理工大學(xué),2006.
[4]楊永銘,王吉吉.孤立點(diǎn)挖掘算法研究[J].計(jì)算機(jī)與數(shù)字工程,2008(1):11-15.
[5]KNORR E,NG R.Algorithms for mining distance-based outliers in large datasets[C].Proc of the VLDB Conf,1998:392-403.
[6]KNORR E M,NG R T,TUCAKOV V.Distance-based outliers:algorithms and applications[J].VLDB Journal:Very Large Databases,2000,8(3-4):237-253.
[7]陸聲鏈,林士敏.基于距離的孤立點(diǎn)檢測研究[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(33):73-75.
[8]張忠平,宋少英,宋曉輝.ISAD:一種新的基于屬性距離和的孤立點(diǎn)檢測算法[J].計(jì)算機(jī)工程與科學(xué), 2009,31(3):83-85.
[9]BREUNIG M M,KRIEGEL H P,NG R T,et al.LOF:identifying density-based local outliers[C].Proceedings of SIGMOD'00,Dallas,Texas,2000:427-438
[10]施化吉,周書勇,李星毅.基于平均密度的孤立點(diǎn)檢測研究[J].電子科技大學(xué)學(xué)報(bào),2007,36(6):1286-1288.
[11]賈晨科.基于K-距離的孤立點(diǎn)和聚類算法研究[D].鄭州:鄭州大學(xué),2006.
[12]肖仁鑫.煤礦安全預(yù)測的研究與集成[D].昆明:昆明理工大學(xué),2006.