摘 要:大數(shù)據(jù)時(shí)代,各行各業(yè)均產(chǎn)生海量信息,面臨大量的信息,如何準(zhǔn)確而高效地獲取數(shù)據(jù)中的潛在規(guī)律和蘊(yùn)含價(jià)值成為企業(yè)信息化的重點(diǎn)。為提升煤礦企業(yè)對(duì)安全監(jiān)測(cè)數(shù)據(jù)的理解和監(jiān)控能力,改善隱患排查治理工作水平,本文提出基于類別關(guān)鍵詞權(quán)重的短文本分類模型,有效緩解了文本分類中特征稀疏的問題。該方法首先基于樸素貝葉斯算法,對(duì)不符合規(guī)范的非法數(shù)據(jù)進(jìn)行篩選,然后構(gòu)建基于關(guān)鍵詞權(quán)重的短文本分類模型,利用中文分詞技術(shù)、卡方檢驗(yàn)方法構(gòu)建關(guān)鍵詞庫(kù),最后建立得分模型實(shí)現(xiàn)對(duì)隱患數(shù)據(jù)的分類。結(jié)果表明,該模型能較為準(zhǔn)確地對(duì)礦業(yè)安全隱患數(shù)據(jù)進(jìn)行有效的評(píng)級(jí)分類,進(jìn)一步地改善隱患排查和治理的針對(duì)性和有效性。
關(guān)鍵詞:關(guān)鍵詞權(quán)重;短文本分類;煤礦安全隱患;樸素貝葉斯
中圖分類號(hào):TP181;TD76
文獻(xiàn)標(biāo)識(shí)碼: A
生產(chǎn)安全永遠(yuǎn)是一個(gè)企業(yè)生產(chǎn)環(huán)節(jié)的重中之重,對(duì)于煤礦生產(chǎn)企業(yè)尤其如此。中國(guó)是傳統(tǒng)煤炭大國(guó),煤炭產(chǎn)業(yè)是工業(yè)生產(chǎn)的龍頭,從政府到企業(yè),對(duì)煤炭生產(chǎn)安全問題都非常重視。煤礦安全事故的引發(fā)多由于不規(guī)范生產(chǎn)導(dǎo)致的安全隱患,隱患管理工作已成為了煤礦企業(yè)安全監(jiān)管的核心部分。隨著安全管理工作的不斷發(fā)展以及信息化技術(shù)的普及,據(jù)統(tǒng)計(jì),僅2013年中國(guó)煤礦企業(yè)產(chǎn)生安全隱患523.1萬(wàn)項(xiàng),數(shù)據(jù)量127.3 G[1]。如何從海量的安全隱患數(shù)據(jù)中挖掘有益信息,捕獲重要安全隱患的特點(diǎn)及類型,最終形成可供輔助決策的可用知識(shí)集,成為了煤礦企業(yè)安全隱患管理的工作重點(diǎn)。
隨著數(shù)字化礦山的不斷發(fā)展與數(shù)據(jù)挖掘技術(shù)的普遍應(yīng)用,煤礦安全隱患信息的分類與評(píng)級(jí)受到學(xué)術(shù)界的普遍關(guān)注和研究。KIM等[2]將樸素貝葉斯算法應(yīng)用于文本分類領(lǐng)域,取得了很好效果,但受限于詞袋模型的缺點(diǎn),特征稀疏且維度高,導(dǎo)致計(jì)算較復(fù)雜;黃章樹等[3]運(yùn)用詞頻和卡方統(tǒng)計(jì)方法捕獲短文本特征,但由于短文本長(zhǎng)度限制,導(dǎo)致性能不高。譚章祿等[4-5]利用詞云等數(shù)據(jù)可視化技術(shù),從總體安全隱患概況入手,基于社會(huì)網(wǎng)絡(luò)分析等數(shù)據(jù)挖掘技術(shù)分析了煤礦安全隱患之間潛在的關(guān)聯(lián)信息,并基于潛在狄利克雷主題模型挖掘煤礦安全隱患主題,并利用?;鶊D展示了安全隱患與隱患致因及責(zé)任人之間的潛在聯(lián)系;陳運(yùn)啟[6]、張大偉[1]、劉雙躍等[7]挖掘并分析了維間關(guān)聯(lián)規(guī)則。XU等[8]基于防護(hù)層模型討論了事故隱患的定義、分類、分級(jí)、指標(biāo)及評(píng)估等問題,建立了事故隱患分類分級(jí)框架。趙東風(fēng)等[9]提出了基于事故發(fā)展與控制的隱患分級(jí)方法,引入隱患暴露頻率、隱患糾正系數(shù)、事故后果初始分值等評(píng)價(jià)指標(biāo),利用隱患致因事故風(fēng)險(xiǎn)計(jì)算解決了具體隱患的風(fēng)險(xiǎn)分級(jí)與評(píng)估問題。
文本分類作為一種典型無監(jiān)督的方法,可以實(shí)現(xiàn)文本的有效管理、信息的充分聚合以及潛在規(guī)律的捕獲。煤礦安全隱患信息分類本質(zhì)上屬于短文本分類[10]。本文提出了一種基于類別關(guān)鍵詞權(quán)重的短文本分類方法,可以表征更多的語(yǔ)義信息,可有效實(shí)現(xiàn)煤礦安全隱患的分類和評(píng)級(jí)。
1"數(shù)據(jù)來源及特征
選取來自煤礦企業(yè)專項(xiàng)檢查、日常檢查、安全大檢查的37 584條安全隱患內(nèi)容的檢查記錄。安全隱患內(nèi)容是以自然語(yǔ)言描述的包括所在公司、檢查形式、檢查時(shí)間、隱患記錄等文本內(nèi)容,包含隱患狀態(tài)、特點(diǎn)或致因。樣例如表1所示。
按照《國(guó)家煤礦安全隱患等級(jí)評(píng)定標(biāo)準(zhǔn)》,各級(jí)煤炭行業(yè)管理部門、煤礦安全監(jiān)察機(jī)構(gòu)和煤礦企業(yè)(含新建煤礦)在自查、執(zhí)法檢查、舉報(bào)等過程中發(fā)現(xiàn)的各類安全隱患,根據(jù)安全隱患唯一性、通用性、穩(wěn)定性和可擴(kuò)展性原則,煤礦安全隱患分4大類,45小類。樣例如表2所示。
2"基于樸素貝葉斯的數(shù)據(jù)規(guī)范方法
安全隱患的檢查形式和內(nèi)容均由專職人員負(fù)責(zé),由于記錄方式和態(tài)度的差異,導(dǎo)致安全隱患記錄中存在不規(guī)范數(shù)據(jù)。如“部分通信線路故障”,“adsfg”,“30031”等,即包含表意不明詞語(yǔ)(如“部分”)、主體詞(煤礦專業(yè)術(shù)語(yǔ))、完全由數(shù)字或字母組成,含有此類詞語(yǔ)的隱患記錄數(shù)據(jù)很大概率屬于不規(guī)范記錄。不規(guī)范記錄的存在將對(duì)安全隱患記錄的分級(jí)性能帶來不良影響。
分析規(guī)范數(shù)據(jù)的特點(diǎn)可知,對(duì)于陌生數(shù)據(jù),無法通過正則表達(dá)式等傳統(tǒng)數(shù)據(jù)清洗手段進(jìn)行數(shù)據(jù)預(yù)處理,據(jù)此,本文運(yùn)用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法進(jìn)行隱患數(shù)據(jù)的分類,已達(dá)到自動(dòng)清洗非法記錄的目的。
樸素貝葉斯算法是經(jīng)典統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法,由貝葉斯算法推廣而來。樸素貝葉斯算法以屬性的類條件獨(dú)立性假設(shè)為前提,具有算法邏輯簡(jiǎn)單,主體結(jié)構(gòu)清晰,訓(xùn)練時(shí)間短,運(yùn)算速度快的優(yōu)點(diǎn),并且在大多數(shù)應(yīng)用場(chǎng)景下表現(xiàn)良好。本文采用樸素貝葉斯對(duì)煤礦安全隱患數(shù)據(jù)進(jìn)行自動(dòng)化篩選,過濾非法數(shù)據(jù),以增強(qiáng)安全隱患分類效果。
3"基于類別關(guān)鍵詞權(quán)重的短文本分類模型
一直以來,文本分類都作為信息檢索的核心研究技術(shù),在數(shù)據(jù)挖掘和自然語(yǔ)言處理等領(lǐng)域有著廣泛的應(yīng)用。文本分類主要包括文本預(yù)處理、文本表示、文本特征選擇和分類算法四個(gè)部分 ,文本特征選擇主要有卡方檢驗(yàn)方法、信息增益方法、互信息等算法;文本分類算法主要有決策樹、貝葉斯、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、KNN 等算法。
本文根據(jù)煤礦安全隱患數(shù)據(jù)的形式與特點(diǎn),并基于短文本分類的思想建立了基于類別關(guān)鍵詞權(quán)重的短文本分類模型,對(duì)工礦企業(yè)記錄的安全隱患數(shù)據(jù)進(jìn)行分類,捕獲每一個(gè)類別隱患的狀態(tài)和潛在規(guī)律,為煤礦安全隱患管控和安全事故的預(yù)防提供預(yù)防性支撐。所建分類模型針對(duì)的短文本形式如表 3所示。
基于短文本分類的思想,實(shí)現(xiàn)煤礦安全隱患的自動(dòng)分類,即將煤礦生產(chǎn)中實(shí)際產(chǎn)生的安全隱患記錄進(jìn)行標(biāo)準(zhǔn)隱患內(nèi)容、隱患小類和隱患大類的分類。以安全隱患樣本為頂點(diǎn),以其與標(biāo)準(zhǔn)隱患內(nèi)容之間的相似性關(guān)系為邊,通過構(gòu)建基于類別關(guān)鍵詞權(quán)重的關(guān)鍵詞庫(kù),利用樣本隱患記錄和標(biāo)準(zhǔn)隱患內(nèi)容之間的相似度進(jìn)行構(gòu)建短文本分類模型,模型結(jié)構(gòu)如圖1所示。
3.1"關(guān)鍵詞庫(kù)構(gòu)建
首先,針對(duì)表3中隱患大類、隱患小類、標(biāo)準(zhǔn)隱患內(nèi)容,利用中文分詞技術(shù)獲取初始關(guān)鍵詞庫(kù);然后,進(jìn)行初始關(guān)鍵詞庫(kù)去燥,清除無關(guān)關(guān)鍵詞、表意不明詞等去燥操作;最后,利用卡方檢驗(yàn)方法對(duì)關(guān)鍵詞庫(kù)進(jìn)行降維,流程見圖 2。
符號(hào)說明如表4所示。
分類文本的特征提取算法對(duì)模型最終效果有著巨大影響,本文采取卡方檢驗(yàn)方法進(jìn)行關(guān)鍵詞特征選取??ǚ綑z驗(yàn)最基本的思想就是通過觀察實(shí)際值與理論值的偏差來確定理論的正確與否,即建立假設(shè)檢驗(yàn)問題,卡方檢驗(yàn)列聯(lián)表見表5。
E11=A11+A12P0,
(3)
E12,E21,E22同理可求。
綜上:
χ2(Key1,T)=∑i,jEi,j,
(4)
得到的卡方值越大,則拒絕原假設(shè)的把握性也就越大,得到的卡方值作為關(guān)鍵詞Key1在類別T下的得分point1。
對(duì)于關(guān)鍵詞Key1,Key2,…,Keyn,重復(fù)上述步驟可得到N個(gè)得分值:Point1,Point 2…Pointn,對(duì)這N個(gè)值按照從小到大的排序即可得到以上N個(gè)關(guān)鍵詞重要性排序的結(jié)果。按照N個(gè)關(guān)鍵詞的得分情況選擇關(guān)鍵詞個(gè)數(shù)。
3.2"類別關(guān)鍵詞權(quán)重
短文本分類問題,常常具有如下特征,每個(gè)關(guān)鍵詞重要性常與其頻率大小呈現(xiàn)出相反特征,本文由以下三個(gè)權(quán)重入手,建立得分模型。
1.整體權(quán)重
整體權(quán)重可看作是每個(gè)關(guān)鍵詞對(duì)標(biāo)準(zhǔn)隱患內(nèi)容的重要性程度,定義:
wi′=1ni∑N0j=1
Nnj。
(5)
其中,N為標(biāo)準(zhǔn)隱患內(nèi)容中關(guān)鍵詞出現(xiàn)的次數(shù),nj為第j個(gè)關(guān)鍵詞頻率。
2.隱患小類權(quán)重
定義:
wi″=wi′Ni,kni。
(6)
該權(quán)重可看作是隱患小類對(duì)每個(gè)關(guān)鍵詞的影響程度,其中,Ni,k為第i個(gè)關(guān)鍵詞在第k個(gè)隱患大類的數(shù)目,i=1,2,…,N0。
3.標(biāo)準(zhǔn)隱患內(nèi)容權(quán)重
定義:
wi=NNj′∑N1k=1NNk′。
(7)
即標(biāo)準(zhǔn)隱患內(nèi)容對(duì)每個(gè)關(guān)鍵詞的影響程度,其中:N1為標(biāo)準(zhǔn)隱患內(nèi)容數(shù)目,Nj′、Nk′分別為標(biāo)準(zhǔn)隱患內(nèi)容中第j、k個(gè)對(duì)象所包含關(guān)鍵詞數(shù)目。
3.3"得分模型
據(jù)上述所得權(quán)重,由式(5)、(6)和(7)得到得分模型:
key_pointj=∑N0i=1frei(wij′+wij″+wij)。(8)
其中:key_pointj為給定樣本所在標(biāo)準(zhǔn)隱患內(nèi)容中的第j個(gè)對(duì)象的得分;frei 為第i個(gè)關(guān)鍵詞在給定樣本中出現(xiàn)次數(shù);對(duì)于wi′,固定i可得wij′,wij″和wij同理可得。
本文采用誤判率作為最終分類的評(píng)價(jià)標(biāo)準(zhǔn),定義誤判率:
ER=n0′N1。
(9)
其中,n0′為誤判數(shù)。
4"實(shí)驗(yàn)
4.1"數(shù)據(jù)
本模型實(shí)例數(shù)據(jù)包含國(guó)標(biāo)數(shù)據(jù)和煤礦企業(yè)實(shí)際隱患樣本數(shù)據(jù)兩部分。其中國(guó)標(biāo)數(shù)據(jù)包含隱患大類、隱患小類、標(biāo)準(zhǔn)隱患內(nèi)容、隱患等級(jí)等 4 項(xiàng)指標(biāo),共4大類,45小類,共 487 條數(shù)據(jù);隱患樣本數(shù)據(jù)包含企業(yè)編號(hào)、檢查形式、檢查時(shí)間和隱患內(nèi)容等 4 項(xiàng)指標(biāo),共37 584條數(shù)據(jù)。
4.2"非法數(shù)據(jù)過濾
選取數(shù)據(jù)集中的5 387條數(shù)據(jù)作為測(cè)試集,其余作為訓(xùn)練集。在測(cè)試集中共有合法數(shù)據(jù)4 763條,非法數(shù)據(jù)624條,訓(xùn)練樸素貝葉斯分類器識(shí)別非法數(shù)據(jù)。
根據(jù)表6,在4 763條合法數(shù)據(jù)中,共有7 條數(shù)據(jù)沒有被正確分類,準(zhǔn)確率99.8%。在624條非法數(shù)據(jù)中,僅有4條被錯(cuò)誤識(shí)別,準(zhǔn)確率99.3%。實(shí)驗(yàn)結(jié)果證明,基于樸素貝葉斯的分類器可以有效地篩選非法數(shù)據(jù)。
4.3"關(guān)鍵詞提取及其特征選擇
首先,使用python ̄jieba中文分詞工具,將國(guó)標(biāo)數(shù)據(jù)中隱患大類、隱患小類和標(biāo)準(zhǔn)隱患內(nèi)容進(jìn)行分詞,經(jīng)過降噪處理,得到初始關(guān)鍵詞庫(kù),示例見表7。
為了獲取國(guó)標(biāo)隱患小類之間的差異性,通過卡方檢驗(yàn)方法對(duì)初始化關(guān)鍵詞庫(kù)降維。關(guān)鍵詞的選擇遵循如下規(guī)則:當(dāng)標(biāo)準(zhǔn)隱患內(nèi)容的關(guān)鍵詞數(shù)目小于等于6時(shí),選取所有關(guān)鍵詞加入關(guān)鍵詞庫(kù);當(dāng)標(biāo)準(zhǔn)隱患內(nèi)容的關(guān)鍵詞數(shù)目大于6時(shí),據(jù)卡方得分從大到小的排序結(jié)果,取總體關(guān)鍵詞數(shù)目的前 75%加入關(guān)鍵詞庫(kù)。
4.4"計(jì)算得分權(quán)重
通過對(duì)關(guān)鍵詞庫(kù)降維計(jì)算,可知國(guó)標(biāo)隱患小類之間的差異性體現(xiàn)在兩個(gè)方面:首先,就重要性而言,頻率較低的關(guān)鍵詞大于高頻率關(guān)鍵詞;其次,就國(guó)標(biāo)隱患大類而言,每個(gè)關(guān)鍵詞的權(quán)重是不同的;再次,國(guó)標(biāo)隱患小類包含的關(guān)鍵詞數(shù)目對(duì)最終分類結(jié)果有著一定影響。
為了描述上述差別,需要進(jìn)行得分權(quán)重的計(jì)算。為了得到安全隱患樣本與國(guó)標(biāo)隱患小類的相似得分,分別計(jì)算整體權(quán)重w′、國(guó)標(biāo)隱患小類權(quán)重w″與標(biāo)準(zhǔn)隱患內(nèi)容權(quán)重w得分權(quán)重,計(jì)算示例見表8。
4.5"安全隱患分類
通過上述關(guān)鍵詞庫(kù)構(gòu)建、特征選取與類別權(quán)重得分計(jì)算,根據(jù)得分權(quán)重公式計(jì)算分?jǐn)?shù)。分類結(jié)果示例見表9。其中,“Rank”列表示漸次得分個(gè)數(shù),從高到低選取;標(biāo)準(zhǔn)隱患內(nèi)容正確率表示分類正確的數(shù)目占總樣本的比例;如當(dāng)Rank=2時(shí),表明選擇得分前二個(gè)結(jié)果中必定存在一個(gè)判別結(jié)果為真實(shí)類別的概率為1;隱患小類誤判率表示標(biāo)準(zhǔn)隱患內(nèi)容判別結(jié)果誤判率,如當(dāng)隱患小類誤判率=0時(shí),表示如果選擇得分最高的結(jié)果作為決策依據(jù),那么國(guó)標(biāo)隱患小類判別結(jié)果的準(zhǔn)確率是100%。
5"結(jié)語(yǔ)
本文根據(jù)煤礦安全隱患數(shù)據(jù)的形式和特點(diǎn),以短文本分類為基礎(chǔ),提出了一種基于關(guān)鍵詞權(quán)重的煤礦安全隱患分類方法。該方法將中文分詞、權(quán)重確定、卡方檢驗(yàn)等技術(shù)方法應(yīng)用于短文本分類,具有算法邏輯簡(jiǎn)單、體系結(jié)構(gòu)清晰、易于實(shí)現(xiàn)等特點(diǎn),且具有較高的準(zhǔn)確度。但由于未考慮隱患數(shù)據(jù)的上下文信息,本方法在健壯性和泛化性方面有待改進(jìn),這將成為我們下一步工作的重點(diǎn)。
參考文獻(xiàn):
[1]張大偉.基于OLAM的煤礦企業(yè)安全隱患趨勢(shì)分析[J].煤炭工程,2015,47(5):139-142.
[2]KIM S B,HAN K S,RIM H C ,et al. Some effective techniques for naive bayes text classification[J]. IEEE transactions on knowledge and data engineering,2006,18(11): 1457-1466.
[3]黃章樹,葉志龍.基于改進(jìn)的CHI統(tǒng)計(jì)方法在文本分類中的應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(11):136-140.
[4]譚章祿,王澤,陳曉,等.基于LDA的煤礦安全隱患主題發(fā)現(xiàn)研究[J].中國(guó)安全科學(xué)學(xué)報(bào),2016,26(6):123-128.
[5]譚章祿,陳曉,宋慶正,等.基于文本挖掘的煤礦安全隱患分析[J].安全與環(huán)境學(xué)報(bào),2017,17(4): 1262-1266.
[6]陳運(yùn)啟.數(shù)據(jù)挖掘技術(shù)在煤礦隱患管理中的應(yīng)用[J].工礦自動(dòng)化,2016,42(2):27-30.
[7]劉雙躍,楊蕾,彭麗.基于改進(jìn)Apriori算法的煤礦物態(tài)隱患系統(tǒng)設(shè)計(jì)與應(yīng)用[J].煤炭技術(shù),2015,34(4): 318-320.
[8]XU M,WU Z Z,LUO Y,et al. Study on classification and ranking of APs based on LOP model[J]. China Safety Science Journal,2014,24(7):15-20.
[9]趙東風(fēng),申玉琪,趙志強(qiáng),等.基于事故發(fā)展與控制的隱患分級(jí)方法[J].中國(guó)安全科學(xué)學(xué)報(bào),2012,22(4):71-76.
[10]謝斌紅,馬非,潘理虎,等.煤礦安全隱患信息自動(dòng)分類方法[J].工礦自動(dòng)化,2018,44(10):10-14.
Classification Method of Hidden Danger in Coal Mine
Safety Based on Weight of Category Keyword
LIN Chuan1,WU Yuefei1,DAI Jiajia2*
(1.College of Computer Science and Technology,Guizhou University,Guiyang 550025, China;
2.College of Mathematics and Statistics,Guizhou University,Guiyang 550025, China)
Abstract:
In the era of big data, all walks of life generate a large amount of information and produce a large amount of information, and how to accurately and efficiently obtain the potential rules and hidden values in data has become the focus of enterprise informatization. In order to improve the understanding and monitoring ability of coal mine enterprises on safety monitoring data and improve the level of hidden dangers investigation and control, this paper presents a short text classification model based on category keyword weights, which effectively alleviates the problem of sparse features in text classification. Firstly, based on Naive Bayesian algorithm, this method screens the illegal data that does not conform to the norm, and then constructs a short text classification model based on keyword weights. And then the Chinese word segmentation technique and the chi ̄square test method are used to construct the keyword database. Finally the scoring model is established and the classification of hidden danger data is conducted. The results indicate that the model can accurately classify mining safety hazard data and further improve the pertinence and effectiveness of hazard investigation and management.
Key words:
keyword weight; short text classification; hidden dangers of coal mine safety; Naive Bayes