趙福龍
摘要:針對(duì)井下作業(yè)人員軌跡數(shù)據(jù)信息多維度和稀疏性等問題,提出了基于離群點(diǎn)的異常軌跡篩選ZFMTRAOD算法,首先通過對(duì)軌跡子段建立R-tree索引提升檢索速度,然后利用離群檢測(cè)思想對(duì)鄰域半徑內(nèi)軌跡子段的數(shù)量和平均時(shí)間判斷軌跡是否異常,最后利用井下作業(yè)人員的軌跡數(shù)據(jù)對(duì)算法的性能進(jìn)行比較,發(fā)現(xiàn)基于離群點(diǎn)的井下人員軌跡分析算法不僅能判別出井下作業(yè)人員異常軌跡的類型,還提高了異常軌跡判別的準(zhǔn)確率。
關(guān)鍵詞:離群點(diǎn);ZFMTRAOD算法;軌跡分析;R-tree索引
中圖分類號(hào):TP311? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)09-0205-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Research On Abnormal Trajectory Analysis Method Based on Downhole Personnel
ZHAO Fu-long
(Hebei University of Engineering, Handan 056038, China)
Abstract:For trajectory data underground work personnel information and multi-dimensional sparse sexual problems, such as abnormal trajectory of outliers is proposed based on screening ZFMTRAOD algorithm, first of all, through the path son sets up R - tree index increases the retrieval speed, and then use the ideological within the neighborhood radius on outlier detection sub section number and the average time to determine whether a trajectory is unusual, the use of underground work personnel's trajectory data to compare the performance of the algorithm, mine personnel find outliers based on trajectory analysis algorithm can not only identify abnormal track the type of underground work personnel, also raised the exception path discriminant accuracy.
Key words: outliers; ZFMTRAOD algorithm; Path analysis; R-tree indexes
國(guó)家在煤礦安全生產(chǎn)環(huán)節(jié)一直給予高度重視,要求所有煤礦企業(yè)必須安裝井下安全避險(xiǎn)六大系統(tǒng),但在分析煤礦特大事故發(fā)生的原因時(shí),我們能夠發(fā)現(xiàn)大多數(shù)事故的發(fā)生并不是由于井下環(huán)境惡劣等其他客觀因素引發(fā)的,反而是人的主觀行為因素。據(jù)有關(guān)數(shù)據(jù)表明,在煤礦大型事故中,人的主觀行為因素占比高達(dá)97.67%,其中55.37%是由礦工的違規(guī)作業(yè)導(dǎo)致的[1-2],因此如何加強(qiáng)對(duì)井下人員的異常行為監(jiān)管才是煤礦安全生產(chǎn)環(huán)節(jié)的重中之重。
目前已有不少科研人員將異常軌跡檢測(cè)作為軌跡分析的重點(diǎn),提出了許多異常軌跡篩選方法,Knorr[3-5]等人通過定義軌跡速度(平均速度、最小速度、最大速度)、位置(由軌跡點(diǎn)起始位置和結(jié)束位置組成)等屬性作為軌跡的標(biāo)志,提出了基于加權(quán)距離的異常軌跡判別方法,此方法是根據(jù)軌跡整體的屬性來定義的距離函數(shù),因此忽略了軌跡部分屬性間的差別,導(dǎo)致判別結(jié)果不準(zhǔn)確。Li[6]等人提出了基于分類思想的軌跡判別算法,利用提出新的框架ROAM提取motif,對(duì)異常的軌跡進(jìn)行篩選、過濾。Lee[7]等人提出了基于劃分的異常軌跡判別方法TRAOD,此方法采用分段的方式對(duì)每條軌跡劃分為若干子軌跡線段,利用Hausdorrf[8-9]測(cè)距方法測(cè)量子軌跡線段的距離,該算法較好地解決了全局軌跡之間篩選的問題,但還是存在無法有效判別出軌跡局部屬性以及需要計(jì)算大量的Hausdorrf距離的問題。在檢測(cè)一些具有相似屬性的軌跡時(shí)還具有一定的困難。
以上這些算法為本文提供了良好的想法,對(duì)提出一種適合井下人員軌跡的判別方法打下了基礎(chǔ),因此本文根據(jù)井下人員軌跡數(shù)據(jù)具有多維度和稀疏性的特點(diǎn),提出了基于離群點(diǎn)的異常軌跡判別算法。
1相關(guān)理論
1.1基于離群點(diǎn)的異常軌跡判別算法
如圖1所示是本文提出的基于離群點(diǎn)的異常軌跡判別算法是流程圖,它能夠判別出三種類型的異常軌跡,一是空間異常軌跡,根據(jù)井下人員空間位置數(shù)據(jù)與正常行走的軌跡信息作比較進(jìn)行判別。二是時(shí)間異常軌跡,根據(jù)井下人員在某地點(diǎn)停留的時(shí)間判別出該點(diǎn)是否為異常點(diǎn),三是根據(jù)以上兩種判別方法得出該軌跡是否為時(shí)空間異常軌跡。
此算法首先對(duì)分離出的每個(gè)軌跡子段建立R-tree索引,為的是能快速地查找到目標(biāo)子段鄰域半徑[ω]內(nèi)的其他軌跡子段,然后利用Hausdorff測(cè)距方法對(duì)軌跡子段進(jìn)行遍歷,利用離群點(diǎn)思想將距離軌跡子段[Si]小于h的軌跡數(shù)量[NUMSi,h]查詢出來,當(dāng)[NUMSi,h]小于設(shè)定的閾值[K×m]時(shí),則可以判斷該軌跡為空間異常,然后利用時(shí)間準(zhǔn)則[Tμ]判斷該軌跡是否為時(shí)間異常。此算法利用R-tree索引不僅提高了異常軌跡判別速度,還可以判斷出異常軌跡的異常類型。
1.2構(gòu)建R-tree
R-tree樹結(jié)構(gòu)可以對(duì)距離目標(biāo)子段一定距離的子軌跡段進(jìn)行檢索,通過設(shè)置合適的索引半徑[ω]可以找出所有距離目標(biāo)子段為d(d<[ω])的子軌跡段,將整體的軌跡距離比較轉(zhuǎn)化為局部的子軌跡段比較,其中[ω]的選取對(duì)索引結(jié)果有很大影響,如果[ω]較大,索引速度降低,如果[ω]較小,索引出的子軌跡段不完整,因此取兩種極端情況進(jìn)行考慮。
(1)當(dāng)目標(biāo)子段與其他軌跡處于平行狀態(tài)時(shí),Hausdorff距離公式為[d=d2∥(Li,Lj)] ,[ω]取值為[ω∥=Lmax+d+12*Length(Li)],[Length(Li)]表示目標(biāo)子段[Li]的長(zhǎng)度,[Lmax]表示距離目標(biāo)子段最長(zhǎng)的軌跡。
(2)當(dāng)目標(biāo)子段與其他軌跡處于垂直狀態(tài)時(shí),Hausdorff距離公式為[d=d2⊥(Li,Lj)]
[ω]取值為[ω⊥=d2Li,Lj+14*(Length(Li))2]
當(dāng)把兩種極端情況都考慮到時(shí),只需取[ω]的最大值,所有的距離目標(biāo)子段的子軌跡段都能被檢索到。因此[ω]的定義公式為:
[ω=max (ω∥,ω⊥)]
從圖3我們能看到紅色代表目標(biāo)軌跡,總體長(zhǎng)度為H。藍(lán)色代表的其他軌跡,是利用鄰域半徑為[ω]的索引方式檢索到的,首先對(duì)目標(biāo)子段進(jìn)行分離,分離出的結(jié)果為{[h1,h2]},{[h2,h3]},{[h3,h4]},然后檢測(cè)被分離的軌跡段是否為異常軌跡。從圖中我們能得知被檢索到的軌跡子段為:
[Hωh1,h2={l12,l21,l22,l31,l32}]
[Hωh1,h2={l14,l22,l23,l32,l33}]
[Hωh1,h2={l15,l23,l24,l33,l34}]
我們所獲得的軌跡子段還不能確定是否為軌跡線段,只能作為是符合[ω]鄰域半徑的軌跡點(diǎn)的集合。必須滿足[li]和[jj]兩個(gè)點(diǎn)在同一條軌跡上且[li]和[lj]必須是相鄰點(diǎn)這兩組條件才能確定為軌跡線段,因此,符合條件的軌跡線段為:
[Hωh1,h2={l21,l22,(l31,l32)}]
[Hωh2,h3={l22,l23,(l32,l33)}]
[Hωh3,h4={l23,l24,(l33,l34)}]
1.3井下人員異常軌跡的篩選
利用基于距離測(cè)量離群點(diǎn)的檢測(cè)思想對(duì)空間異常進(jìn)行篩選,該方法DB(P,D)是由Knorr等人[3]提出的,由于方法簡(jiǎn)單,易于理解,被許多科研人員廣泛引用,因此利用此算法的思想,提出了公式1-1來檢測(cè)。
[NUMSi,h [Si]用來表示目標(biāo)軌跡子段,h表示距離目標(biāo)軌跡子段[Si]的距離,[NUMSi,h]表示其他軌跡子段到目標(biāo)子段的距離小于h的軌跡數(shù)量,m表示距離目標(biāo)軌跡子段的距離為[ω]的軌跡數(shù)量,K表示用來調(diào)節(jié)距離關(guān)系的參數(shù)。當(dāng)滿足上式關(guān)系時(shí),可以判定此目標(biāo)軌跡子段[Si]為正??臻g軌跡,否則為異常軌跡。 利用Jiang等人[10]提出的GOLF方法來檢測(cè)時(shí)間異常軌跡,首先要設(shè)置“[Tμ]”時(shí)間準(zhǔn)則,然后計(jì)算出時(shí)間閾值,假設(shè)有一組集合[S={s1,s2,…,sn}],如果集合中的任意的數(shù)都滿足式1-2,則此數(shù)為異常。 [si-s>Tμ]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 1-2 [s]用來表示集合S的平均值,[μ]用來表示集合S的方差,用式子1-3,1-4表示 [s=i=1nSi/n]1-3 [μ=i=1nsi-s2/(n-1)]? ? ? ? ? ? ? ? ? ? ? ? ? ? ?1-4 Jiang等人用實(shí)驗(yàn)數(shù)據(jù)表明,當(dāng)[Tμ]中T為2或1.645時(shí),異常軌跡的判別率較高,對(duì)于本文實(shí)驗(yàn)采用k=1.645的效果更好,因此設(shè)置閾值為[Tthr=s+Tμ],如果經(jīng)過該子軌跡段的時(shí)間大于所設(shè)置的閾值則認(rèn)為該軌跡可能時(shí)間異常。 2實(shí)驗(yàn)分析 2.1案例分析 從圖4我們能夠看出是利用ZFTRAOD算法檢測(cè)出的某礦井作業(yè)人員的異常軌跡,其中包含了三種異常軌跡狀態(tài),用三種不同的顏色分別代表不同的異常軌跡類型,其中藍(lán)色代表時(shí)間異常,黑色代表空間異常,紅色代表時(shí)空異常。 從圖5中我們能夠看出,這是某采區(qū)井下作業(yè)人員的活動(dòng)范圍,其中藍(lán)色的方點(diǎn)代表井下關(guān)鍵位置的站點(diǎn),該站點(diǎn)設(shè)有定位基站,對(duì)經(jīng)過的井下作業(yè)人員進(jìn)實(shí)時(shí)行定位,每個(gè)定位基站都有獨(dú)立的位置編碼對(duì)移動(dòng)的人員進(jìn)行具體的位置定位。分析圖2中的軌跡①,通過對(duì)比采區(qū)的活動(dòng)示意圖,我們發(fā)現(xiàn)該作業(yè)人員直接從編號(hào)為15121的工作面的CH4傳感器基站移動(dòng)到了配電硐室附近,此軌跡的開始日期為2019年9月8日12點(diǎn)30分30秒,隨后在16點(diǎn)20分25秒處結(jié)束,姓名為李洪剛(假名),查詢當(dāng)天該人員對(duì)應(yīng)的軌跡得知,此工作人員沒有走正常路線,跳過了聯(lián)絡(luò)巷2等其他基站,直接從15121工作面走到了配電硐室,正常的行走軌跡應(yīng)該是從15121工作面經(jīng)過聯(lián)絡(luò)巷2到達(dá)變電所或經(jīng)過消防材料庫到達(dá)配電硐室,因此,該段軌跡存在空間異常。 如圖4所示,軌跡②是一條時(shí)間異常軌跡,表示作業(yè)人員從回風(fēng)立井的水泵房到主斜井的配電硐室花費(fèi)的時(shí)間存在較大的差異,根據(jù)時(shí)間差異準(zhǔn)則計(jì)算出的時(shí)間差為1355,但是從異常信息表中發(fā)現(xiàn),該軌跡子段汪強(qiáng)(假名)行走的時(shí)間在2019年9月7日為3982秒,另外在其他兩天的行走時(shí)間分別為1298秒和1309秒,因此,該段軌跡的異常類別為時(shí)間異常。 2.2算法性能比較 我們分別從三個(gè)方面對(duì)三種算法進(jìn)行對(duì)別,分別是檢率、漏檢率、正確率。得出的結(jié)果如表1所示。 通過上表可以發(fā)現(xiàn)ZFTRAOD算法比R-TRAOD算法和TRAOD算法性能更好,在正確率上要比其他兩種算法高,在漏檢率和誤檢率上要比其他兩種算法低,因此,表明ZFTRAOD算法不僅可以判別異常軌跡的類型,在性能上也比其他兩種算法好。 將ZFTRAOD算法與其他兩種算法在時(shí)間上進(jìn)行比較,得到的結(jié)果見表2,SD1、SD2、SD3分別代表井下瓦檢員的軌跡、安全員的軌跡和系統(tǒng)維護(hù)人員的軌跡數(shù)據(jù),5990、20366、137731分別代表定位點(diǎn)的個(gè)數(shù)。通過分析表2我們能發(fā)現(xiàn)TRAOD算法的運(yùn)行時(shí)間明顯慢于ZFTRAOD算法,雖然ZFTRAOD算法要比R-TRAOD算法稍慢一些,那是因?yàn)閆FTRAOD算法在對(duì)軌跡進(jìn)行判斷的基礎(chǔ)上還要進(jìn)行軌跡異常類型的判別,因此,從總體來說ZFTRAOD算法的整體性能要優(yōu)于TRAOD算法和R-TRAOD算法。 3結(jié)束語 本文針對(duì)井下作業(yè)人員的異常軌跡檢測(cè)問題,提出了基于離群點(diǎn)的異常軌跡篩選ZFTRAOD算法,利用R-Tree索引來檢索出距離目標(biāo)子段一定距離內(nèi)的所有軌跡子段,提升了異常軌?跡的查找效率,利用離群點(diǎn)思想查找鄰域半徑內(nèi)的軌跡子段的數(shù)量和平均時(shí)間來判斷軌跡是否異常。該算法在判別軌跡異常類型的基礎(chǔ)上提升了判別準(zhǔn)確率,能更加有效地對(duì)井下人員的日常軌跡進(jìn)行分析。 參考文獻(xiàn): [1] 盧寧.煤礦安全管理與礦工違章行為進(jìn)化博弈分析[J].現(xiàn)代經(jīng)濟(jì)信息,2016(22):75. [2] 栗繼祖,楊佳麗,弋永杰.礦工違章行為影響因素及防控[J].現(xiàn)代職業(yè)安全,2016(10):111-113. [3]KnorrE M,Ng R T.Finding intensions knowledge of distance-based outliers[C]//Proceedings of 25th VLDB,Edinburgh,Scotland,1999:211-222. [4]Knorr E M,Ng R T.Algorithms for mining distance-based outliers in large datasets[C]//Proceedings of 24th VLDB,New York City,1998:392-403. [5] Knorr E M,Ng R T,TucakovV.Distance-based outliers:algorithms and applications[J].The VLDB Journal,2000,8(3/4):237-253. [6] Li X L,Han J W,KimS,etal.ROAM:rule- and motif-based anomaly detection in massive moving object data sets[C]//Proceedings of the 2007 SIAM International Conference on Data Mining.Philadelphia,PA:Societyfor Industrial and AppliedMathematics,2007:273-284. [7] Lee J G,Han J W,Li X L.Trajectoryoutlier detection:apartition-and-detect framework[C]//2008 IEEE 24th International Conference on Data Engineering.April7-12,2008,Cancun,Mexico.IEEE,2008:140-149. [8] 王培,江南,萬幼,等.應(yīng)用Hausdorff距離的時(shí)空軌跡相似性度量方法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2019,31(4):647-658. [9] 張曉濱,楊東山.基于時(shí)間約束的Hausdorff距離的時(shí)空軌跡相似度量[J].計(jì)算機(jī)應(yīng)用研究,2017,34(7):2077-2079. [10] Jiang S Y,Li Q H,Li K L,etal.GLOF:a new approach for mining local outlier[C]//Proceedingsofthe 2003 International Conference on Machine Learning and Cybernetics (IEEE Cat.No.03EX693).November5-5,2003,Xi'an,China.IEEE,2003:157-162. 【通聯(lián)編輯:梁書】