長慶油田公司 許斌 張亮 陳喆
作業(yè)許可的本質(zhì)與核心是風(fēng)險(xiǎn)管理,作業(yè)前危害辨識與風(fēng)險(xiǎn)分析是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作,過于依賴人的專業(yè)經(jīng)驗(yàn)。隨著信息化的發(fā)展,大量作業(yè)許可風(fēng)險(xiǎn)數(shù)據(jù)被保存下來,但這些數(shù)據(jù)多以文本形式存在,難以提取有用信息實(shí)現(xiàn)共享和復(fù)用。針對此問題,本文提出一種基于RoBert的多標(biāo)簽作業(yè)許可文本分類模型,可實(shí)現(xiàn)對高危作業(yè)的作業(yè)類型、危害因素、安全措施等信息的多標(biāo)簽自動(dòng)分類和提取。最后在中石油某企業(yè)近10萬條作業(yè)許可數(shù)據(jù)集上進(jìn)行模型訓(xùn)練與測試,實(shí)驗(yàn)結(jié)果表明,該多標(biāo)簽分類模型在測試數(shù)據(jù)集上的平均F1值達(dá)到86%,可有效提取高危作業(yè)風(fēng)險(xiǎn)信息。
作業(yè)許可是指在從事高風(fēng)險(xiǎn)作業(yè)及在生產(chǎn)或施工作業(yè)區(qū)域內(nèi)工作規(guī)程未涵蓋到的非常規(guī)作業(yè)(簡稱高危作業(yè))等之前,為保證作業(yè)安全,必須取得授權(quán)許可方可實(shí)施作業(yè)的一種制度[1],是開展危害識別和作業(yè)前風(fēng)險(xiǎn)分析的前提和保障,是減少和避免事故發(fā)生的重要措施之一[2]。
高危作業(yè)實(shí)行作業(yè)許可制度的核心和靈魂是風(fēng)險(xiǎn)辨識與評估,然而風(fēng)險(xiǎn)辨識與評估是一個(gè)專業(yè)、費(fèi)時(shí)且以人為中心的分析過程,其本質(zhì)上是主觀的,依賴于專業(yè)經(jīng)驗(yàn)與能力。當(dāng)前作業(yè)許可的管理過程中,存在許多走過場的現(xiàn)象,如在危害因素辨識時(shí),大多是簡單標(biāo)注一下許可證上羅列的有關(guān)風(fēng)險(xiǎn),沒有真正開展危害因素辨識和風(fēng)險(xiǎn)評估工作,所制定的措施也多是抽象型內(nèi)容,不具可操作性[3]。隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,國內(nèi)大多數(shù)石油化工企業(yè)建立了作業(yè)許可管理信息系統(tǒng),積累了大量作業(yè)許可證數(shù)據(jù),但這些數(shù)據(jù)大多處于靜態(tài)數(shù)據(jù)庫中,且大量數(shù)據(jù)以文本形式保存,無法實(shí)現(xiàn)共享和復(fù)用[4]。
通過研發(fā)基于RoBert的多標(biāo)簽作業(yè)許可文本分類模型,挖掘現(xiàn)有作業(yè)許可風(fēng)險(xiǎn)數(shù)據(jù),提煉和聚合大量風(fēng)險(xiǎn)評估專家的知識和經(jīng)驗(yàn),實(shí)現(xiàn)對高危作業(yè)的作業(yè)類型、危害因素、安全措施等信息的多標(biāo)簽自動(dòng)分類和提取,解決作業(yè)許可風(fēng)險(xiǎn)辨識不全面、安全措施不具體的問題,從而提升作業(yè)許可管理水平。
目前主流的多標(biāo)簽文本分類模型為端到端的模型,模型結(jié)構(gòu)分為文本特征提取器和分類器。其中對性能影響最大的是文本特征提取器部分,目前主流的文本特征提取器有卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)與預(yù)訓(xùn)練語言模型。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)簡稱為CNN,與普通的全連接神經(jīng)網(wǎng)絡(luò)相比,卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)有很大不同,可以看成是一種對全連接神經(jīng)網(wǎng)絡(luò)的改進(jìn),通過添加一種被稱為卷積核的特殊結(jié)構(gòu)來提取圖像的局部特征。卷積核相當(dāng)于一個(gè)濾波器,卷積操作就相當(dāng)于對圖像使用濾波器進(jìn)行濾波,得到該濾波器對應(yīng)的特征圖。在傳統(tǒng)的圖像處理中,濾波器也就是卷積核都是經(jīng)過特殊設(shè)計(jì)的,而在卷積神經(jīng)網(wǎng)絡(luò)中每一個(gè)卷積核只需要進(jìn)行隨機(jī)初始化,卷積核的參數(shù)會(huì)在訓(xùn)練過程中自動(dòng)優(yōu)化。
一般來講,圖像的特征向量的維度等于該圖像所包含的像素的數(shù)量,一張100×100的三通道圖像的像素點(diǎn)有30000個(gè),該圖像的特征向量有30000維,若使用全連接神經(jīng)網(wǎng)絡(luò)則網(wǎng)絡(luò)的參數(shù)量會(huì)特別龐大,不僅會(huì)大大提高訓(xùn)練的難度還會(huì)導(dǎo)致過擬合,并且真實(shí)場景中的圖像大小會(huì)遠(yuǎn)遠(yuǎn)超過100×100。卷積神經(jīng)網(wǎng)絡(luò)使用了參數(shù)共享機(jī)制來解決這一問題,同一個(gè)卷積核所做的卷積操作本質(zhì)上就是使用同一套參數(shù)在整張圖像滑動(dòng)做內(nèi)積,以此達(dá)到參數(shù)共享的目的,這大大減少了模型的參數(shù)量。這一操作的依據(jù)為圖像數(shù)據(jù)具有一種叫做局部感知野的特性,即在圖像中距離近的像素往往關(guān)系并具有相同的語義特征。
卷積神經(jīng)網(wǎng)絡(luò)同樣可以應(yīng)用于自然語言處理中[5],因?yàn)槿祟愓Z言同樣具備一定的局部感知野,在一句話中往往鄰近的漢字之間具有更加緊密的關(guān)系。在自然語言處理中,每一個(gè)漢字或詞語都對應(yīng)一個(gè)N維的字向量或者詞向量,一個(gè)包含M個(gè)字或詞的句子可以表示為一個(gè)MxN的矩陣,可以進(jìn)行卷積操作。不同的是對于圖像的卷積是二維卷積,卷積核可以在整張圖片的X軸和Y軸上移動(dòng),而對詞向量矩陣的卷積是一維卷積,這是因?yàn)榫矸e核必須有一個(gè)維度與詞向量的維度相同,即卷積核只能在代表句子長度的維度上做卷積運(yùn)算,以確保句子中每一個(gè)詞語的信息不丟失。如圖1所示是用于作業(yè)許可數(shù)據(jù)文本分類的卷積神經(jīng)網(wǎng)絡(luò)模型,其中Embedding層為雙通道,兩個(gè)通道都使用了CNPC詞向量進(jìn)行映射,不同的是其中一個(gè)通道的數(shù)值隨著模型的訓(xùn)練一起更新,而另一個(gè)通道的參數(shù)保持不變。卷積層使用了3個(gè)不同長度的一維卷積核來提取文本數(shù)據(jù)的N-Gram特征,最后將三個(gè)不同的卷積核提取的特征拼接起來接入一個(gè)線性分類器進(jìn)行分類。本章節(jié)中的基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型參考了TextCNN的模型結(jié)構(gòu)。
圖1 CNN文本分類模型Fig.1 CNN text classification model
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)簡稱為RNN。不同于卷積神經(jīng)網(wǎng)絡(luò)和全連接神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)主要用于處理序列數(shù)據(jù),即在時(shí)間或空間上有先后順序的數(shù)據(jù),例如人類的語言文字、股票的走勢等。卷積神經(jīng)網(wǎng)絡(luò)和全連接神經(jīng)網(wǎng)絡(luò)并不適合處理這類序列數(shù)據(jù),因?yàn)檫@類網(wǎng)絡(luò)無法捕捉到序列數(shù)據(jù)在時(shí)間和空間上的關(guān)系,模型在處理某一個(gè)序列的某一個(gè)時(shí)間點(diǎn)上的數(shù)據(jù)時(shí)只會(huì)關(guān)注該時(shí)間點(diǎn)上的數(shù)據(jù),這意味著該數(shù)據(jù)會(huì)被孤立。循環(huán)神經(jīng)網(wǎng)絡(luò)能夠回顧序列中當(dāng)前時(shí)間點(diǎn)之前的數(shù)據(jù)來產(chǎn)生當(dāng)前時(shí)間點(diǎn)的輸出,通過回顧可以了解所有之前的輸入。但從實(shí)際操作中看,它只能回顧最后幾步。如圖2所示為本論文設(shè)計(jì)的用于作業(yè)許可數(shù)據(jù)文本分類的循環(huán)神經(jīng)網(wǎng)絡(luò)模型。RNN同樣可以用于文本分類任務(wù)[6],本論文使用Bi-LSTM來提取作業(yè)許可文本的上下文特征,最后接入全連接層與Softmax層進(jìn)行分類并輸出分類結(jié)果。該基于循環(huán)神經(jīng)網(wǎng)絡(luò)的文本分類模型參考了TextRNN的模型結(jié)構(gòu)。
圖2 RNN文本分類模型Fig.2 RNN text classification model
深度學(xué)習(xí)技術(shù)在NLP任務(wù)中已有廣泛應(yīng)用,基于人工神經(jīng)網(wǎng)絡(luò)的NLP方法正在逐步取代傳統(tǒng)的NLP方法。傳統(tǒng)的NLP文本分類方法需要人工設(shè)計(jì)文本特征,人工設(shè)計(jì)特征效率低下且分類效果并不理想,而基于神經(jīng)網(wǎng)絡(luò)的NLP方法能夠從大量的訓(xùn)練樣本中自動(dòng)提取文本特征,相比于傳統(tǒng)NLP方法,基于人工神經(jīng)網(wǎng)絡(luò)的NLP方法更加高效且分類準(zhǔn)確率更高,人工神經(jīng)網(wǎng)絡(luò)技術(shù)大大簡化了各類NLP系統(tǒng)的開發(fā)難度。盡管已經(jīng)能夠?qū)⑸窠?jīng)網(wǎng)絡(luò)模型應(yīng)用于NLP任務(wù)中,但由于缺少像ImageNet那樣的大規(guī)模的經(jīng)過人工標(biāo)注的數(shù)據(jù)集,與計(jì)算機(jī)視覺領(lǐng)域相比,神經(jīng)網(wǎng)絡(luò)模型為NLP任務(wù)帶來的性能改進(jìn)并不顯著。而且深度神經(jīng)網(wǎng)絡(luò)通常具有大量的參數(shù),使得它們在這些小的訓(xùn)練數(shù)據(jù)上過于擬合,在實(shí)際應(yīng)用中不能很好地推廣,所以早期NLP任務(wù)的模型結(jié)構(gòu)相對簡單(淺層神經(jīng)網(wǎng)絡(luò))。本論文所研究的作業(yè)許可文本分類任務(wù)同樣是一個(gè)有監(jiān)督的學(xué)習(xí)任務(wù)且訓(xùn)練樣本較少、獲取成本較高,本論文使用的前3種網(wǎng)絡(luò)均為淺層神經(jīng)網(wǎng)絡(luò)。
目前機(jī)器在自然語言閱讀理解上的表現(xiàn)甚至已經(jīng)超越了人類的表現(xiàn),這都?xì)w功于新的模型結(jié)構(gòu)的提出,那就是基于Self-attention機(jī)制的Transformer模型[7]。Transformer是由谷歌公司提出的一種Seq2Seq模型,在原始論文中用于語言翻譯任務(wù)。Transformer相對于LSTM來說最大的不同點(diǎn)就是LSTM是迭代計(jì)算的,即計(jì)算得出前一個(gè)字符的隱狀態(tài)后才能計(jì)算下一個(gè)字符的隱狀態(tài)。而Transformer是并行計(jì)算的,即能夠同時(shí)計(jì)算整個(gè)序列中所有字符的隱狀態(tài),本質(zhì)上就是能夠轉(zhuǎn)化為張量運(yùn)算。這一特征使得Transformer能夠很好地利用GPU進(jìn)行加速,從而使得訓(xùn)練大型模型成為可能。目前在自然語言處理領(lǐng)域的各項(xiàng)任務(wù)中表現(xiàn)最好的模型都是基于Transformer模型結(jié)構(gòu)在大規(guī)模語料數(shù)據(jù)上訓(xùn)練得到的,如BERT、XLNet、RoBERTa 等。
Transformer相較于LSTM的另一個(gè)明顯優(yōu)勢就是Transformer能夠解決長期依賴問題,盡管LSTM相較于經(jīng)典RNN模型在長期依賴方面有所改善,但依然不能完全解決長期依賴問題。Transformer中使用的自注意力機(jī)制能夠使序列中每一個(gè)字符的隱狀態(tài)都包含序列中其他字符的信息,無論該字符與序列中其他字符距離多遠(yuǎn)都能夠等價(jià)編碼。Transformer有編碼器和解碼器兩部分組成,而基于Transformer的預(yù)訓(xùn)練語言模型僅使用了其編碼器部分。下面對Transformer模型的編碼器進(jìn)行詳細(xì)介紹。
如圖3所示為Transformer編碼器的模型結(jié)構(gòu)。其中“位置信息”節(jié)點(diǎn)代表的操作是為對輸入向量添加位置編碼,因?yàn)閷τ赥ransformer來說一個(gè)序列中的所有字符在位置上都是等價(jià)的,但對于自然語言來說字符的位置信息至關(guān)重要,包含相同漢字的兩段中文其含義可能截然不同。所以要為輸入字符向量添加位置編碼,一般使用正弦函數(shù)進(jìn)行位置編碼?!岸囝^自注意力”節(jié)點(diǎn)所代表的操作為對輸入向量進(jìn)行Self-attention操作,這是Transformer模型的核心操作,通過該操作使得每個(gè)字符的隱狀態(tài)包含有該句子中其他所有字符的信息?!癆dd&Norm”節(jié)點(diǎn)所代表的操作為Layer Nomalization和殘差連接。在反向傳播的過程中,殘差連接梯度可以直接傳到初始層。Layer Nomalization的作用是將隱狀態(tài)歸一為標(biāo)準(zhǔn)正態(tài)分布。通過添加這兩個(gè)特殊的層,能夠加快訓(xùn)練過程中模型的收斂速度。下面為各個(gè)步驟的主要數(shù)學(xué)表示:
圖3 Transformer編碼器模型結(jié)構(gòu)Fig.3 Transformer encoder architecture
(1)字向量與位置編碼
(2)自注意力機(jī)制
(3)殘差連接與Layer Normalization
(4)Feed Forward
圖3為一個(gè)處理單元,Transformer的編碼器由多個(gè)這樣的單元組成,通過增加層數(shù)來增加參數(shù)量,提高模型特征提取能力和泛化能力。
BERT[8]是最具代表性的一種預(yù)訓(xùn)練語言模型,其模型架構(gòu)本質(zhì)上就是Transformer的編碼器部分。BERT首先在大規(guī)模公開語料上進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)語言的通用特征,然后再將該預(yù)訓(xùn)練模型在具體的下游任務(wù)中進(jìn)行微調(diào)。BERT的預(yù)訓(xùn)練過程是無監(jiān)督的,即無需人工標(biāo)注的訓(xùn)練數(shù)據(jù),這意味著能夠充分利用互聯(lián)網(wǎng)上的各種文本數(shù)據(jù)。
預(yù)訓(xùn)練語言模型有上下文相關(guān)模型和上下文無關(guān)模型兩種。上下文無關(guān)模型為詞典中的每一個(gè)詞都生成一個(gè)向量表示,即詞向量。但上下文無關(guān)模型會(huì)存在一詞多義的問題,即同一個(gè)詞向量編碼了多種語義,Word2Vec和GloVe是最具有代表性的上下文無關(guān)模型。與上下文相關(guān)語言模型不同,上下文相關(guān)的預(yù)訓(xùn)練語言模型能夠根據(jù)句子的上下文來為詞語生成詞向量,BERT是最具有代表性的上下相關(guān)模型。
BERT的模型架構(gòu)與Transformer的編碼器部分基本一致。該模型使用了兩種特殊的訓(xùn)練方式,第一種是將輸入序列中15%的單詞(中文以漢字為單位)屏蔽掉,然后使用一個(gè)深層的Transformer編碼器來預(yù)測被屏蔽掉的單詞;第二種是判斷兩個(gè)隨機(jī)抽取的句子是否存在上下文關(guān)系。
二元交叉熵?fù)p失簡稱為BCELoss(Binary Cross Entropy Loss),主要用于作為多標(biāo)簽文本分類的損失函數(shù)。單標(biāo)簽文本分類的目標(biāo)是根據(jù)輸入序列,找出概率最高的一個(gè)標(biāo)簽。多標(biāo)簽文本分類的目標(biāo)是根據(jù)輸入序列找出所有與輸入序列相關(guān)的標(biāo)簽。在模型構(gòu)造層面的區(qū)別是,單標(biāo)簽分類模型使用Softmax函數(shù)將神經(jīng)網(wǎng)絡(luò)最后一層的輸出映射到和為1的0~1區(qū)間上,并使用CELoss(Cross Entropy Loss)作為損失函數(shù)。與單標(biāo)簽分類不同,多標(biāo)簽分類使用Sigmoid將神經(jīng)網(wǎng)絡(luò)最后一層每一個(gè)神經(jīng)元的輸出獨(dú)立的映射到0~1區(qū)間,使用BCELoss(Binary Cross Entropy Loss)作為損失函數(shù),單獨(dú)計(jì)算一每個(gè)標(biāo)簽的二分類損失并求均值,BCELoss的計(jì)算公式如式(9)所示:
由于作業(yè)許可數(shù)據(jù)中所涉及的與審核主題相關(guān)的要素較多,并且作業(yè)許可數(shù)據(jù)大多記錄不規(guī)范,存在大量的噪聲數(shù)據(jù),所以淺層的神經(jīng)網(wǎng)絡(luò)模型較難取得理想的分類效果。為盡可能提高作業(yè)許可數(shù)據(jù)分類的準(zhǔn)確率,本論文使用由Brightmart開源的Large版本的中文RoBERTa預(yù)訓(xùn)練模型[9,10],該模型在多個(gè)中文文本分類數(shù)據(jù)集上取得了state-of-the-art的成績。RoBERTa的模型結(jié)構(gòu)與BERT基本一致,與谷歌的原版BERT模型相比在如下幾個(gè)方面做出了改進(jìn):
(1)改進(jìn)訓(xùn)練數(shù)據(jù)的生成方式和預(yù)訓(xùn)練任務(wù):使用全詞遮蓋來代替字符遮蓋。首先將訓(xùn)練語料進(jìn)行分詞,然后隨機(jī)選取10%的詞進(jìn)行遮蓋操作,除進(jìn)行全詞遮蓋之外還取消了句子預(yù)測任務(wù)。
(2)使用豐富的訓(xùn)練語料:訓(xùn)練語料涵蓋了多個(gè)領(lǐng)域共計(jì)超過30G中文文本數(shù)據(jù)。
(3)訓(xùn)練更久:總共訓(xùn)練了近20萬個(gè)Epoch,總計(jì)約近16億個(gè)訓(xùn)練樣本。
(4)增大預(yù)訓(xùn)練Bach Size:使用8k的Batch Size進(jìn)行預(yù)訓(xùn)練。
在此基礎(chǔ)上,本論文對該預(yù)訓(xùn)練語言模型做出了如下改進(jìn)[11]:
在RoBERTa模型中,越靠近輸入層就能夠提取越底層的通用的語義和語法信息。基于此,在微調(diào)過程中凍結(jié)前3層的參數(shù)且后續(xù)的層不再使用固定的學(xué)習(xí)率,而是對于較低的層次使用較小的學(xué)習(xí)率,較高的層次使用較大的學(xué)習(xí)率,即使用線性衰減學(xué)習(xí)率。通過實(shí)驗(yàn)得出當(dāng)初始學(xué)習(xí)率設(shè)為2e-5,衰減系數(shù)設(shè)為0.9時(shí)可以獲得較好的效果。
如圖4所示為基于RoBERTa的多標(biāo)簽作業(yè)許可文本分類模型,在該模型中RoBERTa可以看做輸入文本的上下文特征提取器,該特征提取器可以用來獲得整個(gè)輸入句子的特征。
圖4 多標(biāo)簽RoBERTa文本分類模型Fig.4 Multi-label RoBERTa text classification model
RoBERTa模型在使用時(shí)需要預(yù)先指定輸入序列的最大長度,超過最大長度需要進(jìn)行截?cái)嗵幚?,不足則補(bǔ)0,若最大長度設(shè)置過大會(huì)導(dǎo)致顯存溢出,無法進(jìn)行訓(xùn)練。本論文通過計(jì)算得出作業(yè)許可數(shù)據(jù)的平均文本長度為231,結(jié)合實(shí)驗(yàn)中使用的GPU的顯存大小,本論文設(shè)置輸入序列的最大長度為256。
RoBERTa在輸出句子每個(gè)字符對應(yīng)的上下文相關(guān)詞向量的同時(shí)還會(huì)輸出一個(gè)特殊標(biāo)記CLS對應(yīng)的向量。CLS中包含有整個(gè)輸入文本的文本特征,可以將CLS視為整個(gè)句子的特征向量。使用模型進(jìn)行多標(biāo)簽預(yù)測時(shí)只要將CLS向量接入一個(gè)線性分類器(即一個(gè)全連接層與一個(gè)Sigmoid層的組合)獲得模型在各個(gè)標(biāo)簽上的預(yù)測得分,將得分大于0.5的標(biāo)簽作為最終預(yù)測結(jié)果。
實(shí)驗(yàn)選取中石油某企業(yè)2019—2021年10萬條作業(yè)許可證數(shù)據(jù)集,每一條作業(yè)許可數(shù)據(jù)樣本均為人工填報(bào),已被標(biāo)注為多個(gè)類別標(biāo)簽,是典型的多標(biāo)簽多分類任務(wù)。數(shù)據(jù)包括工作內(nèi)容文本描述和每條文本對應(yīng)的工作類型、危害識別、安全措施多個(gè)主題類別,數(shù)據(jù)具體形式如表1所示。
表1 作業(yè)許可證數(shù)據(jù)形式Tab.1 Data forms of operation permits
多標(biāo)簽分類就是要將作業(yè)許可證工作內(nèi)容描述標(biāo)記為臨時(shí)用電、高處作業(yè)等7類工作類型的一種或多種;觸電、墜落等15類危害因素的一種或多種;絕緣服、安全帶等29類安全措施的一種或多種;共計(jì)51個(gè)標(biāo)簽。每類標(biāo)簽的樣本數(shù)統(tǒng)計(jì)如表2、表3和表4所示。
表2 各類工作類型樣本數(shù)統(tǒng)計(jì)Tab.2 Statistics of samples of various types of jobs
表3 各類危害因素樣本數(shù)統(tǒng)計(jì)Tab.3 Sample number statistics of various hazard factors
表4 各類安全措施樣本數(shù)統(tǒng)計(jì)Tab.4 Statistics on samples of various security measures
本文選取全連接神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)與本文提出的基于RoBERTa的多標(biāo)簽分類模型進(jìn)行對比實(shí)驗(yàn)。在模型訓(xùn)練過程中,4種模型均使用AdamW算法作為優(yōu)化算法更新模型權(quán)重。除此之外,在模型調(diào)優(yōu)過程中使用貝葉斯優(yōu)化算法與十折交叉驗(yàn)證選取最優(yōu)的超參數(shù)組合,相比于網(wǎng)格搜索與隨機(jī)搜索,基于高斯過程貝葉斯優(yōu)化算法可以從概率上找到一個(gè)“很可能”更好的超參數(shù)。
多標(biāo)簽分類可以看作多個(gè)單標(biāo)簽二分類問題,二分類問題最常使用的評價(jià)指標(biāo)為F1值。因此,本論文使用平均F1值(macro F1)作為多標(biāo)簽文本分類的評價(jià)指標(biāo)。原始的F1值只針對二分類問題,包括2個(gè)指標(biāo):精確率(precision)和召回率(recall)。如式(10)、式(11)、式(12)所示分別為精確率、召回率和F1值的數(shù)學(xué)表達(dá)式。
其中TP和FP分別代表真陽性和假陽性的預(yù)測結(jié)果數(shù)目,F(xiàn)N代表真陰性和假陰性的預(yù)測結(jié)果數(shù)目。宏平均F1值為各個(gè)類別的F1值的平均值,宏平均F1值的數(shù)學(xué)表達(dá)式如式(13)所示,其中N為類別總數(shù)。
本論文在多標(biāo)簽作業(yè)許可文本分類任務(wù)上分別嘗試了全連接神經(jīng)網(wǎng)絡(luò)(FCNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和預(yù)訓(xùn)練語言模型。如表5所示展示了不同的模型在測試集上的實(shí)驗(yàn)結(jié)果,其中各個(gè)模型的超參數(shù)均為經(jīng)過貝葉斯優(yōu)化與十折交叉驗(yàn)證所獲得的超參數(shù)組合,在本小節(jié)中將這些通過該種方法得到的超參數(shù)組合稱為最優(yōu)超參數(shù)組合。
表5 多標(biāo)簽文本分類實(shí)驗(yàn)結(jié)果Tab.5 Multi-label text classification experiment results
其中RoBERTa為由Brightmart開源的中文RoBERTa模型,從實(shí)驗(yàn)結(jié)果可以明顯看出,預(yù)訓(xùn)練語言模型都具有顯著優(yōu)勢。其中一個(gè)重要的原因是RoBERTa預(yù)訓(xùn)練語言模型含有更多的參數(shù)。已有研究表明,模型的參數(shù)量越大,其擬合能力越強(qiáng),也越容易發(fā)生過擬合。在訓(xùn)練樣本較少的情況下,全連接神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)采用深層結(jié)構(gòu)會(huì)造成較為嚴(yán)重的過擬合,故而只能采用淺層網(wǎng)絡(luò)結(jié)構(gòu)。本實(shí)驗(yàn)中使用的RoBERTa模型的參數(shù)量遠(yuǎn)大于其他3個(gè)模型,且RoBERTa在大量的公開語料上進(jìn)行過預(yù)訓(xùn)練,在下游任務(wù)微調(diào)的過程中能夠有效地防止過擬合。在體系審核數(shù)據(jù)文本分類任務(wù)中,由于訓(xùn)練樣本獲取成本較高、可使用的訓(xùn)練樣本較少,使用RoBERTa預(yù)訓(xùn)練模型能夠獲得明顯超過全連接神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的分類效果。
在本次實(shí)驗(yàn)中,RoBERTa模型的分類效果最佳,平均F1值達(dá)到0.8605,超過了未經(jīng)過專業(yè)培訓(xùn)人員人工分類的加權(quán)F1值(0.72),并且接近經(jīng)過專業(yè)培訓(xùn)人員的分類的加權(quán)F1值(0.88)。
本文主要針對多標(biāo)簽作業(yè)許可文本分類問題進(jìn)行了研究,在給定許可工作內(nèi)容描述時(shí)能夠?qū)υ摂?shù)據(jù)所屬的類別進(jìn)行預(yù)測。分別使用了全連接神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、BERT與RoBERTa進(jìn)行多標(biāo)簽文本分類,并且針對RoBERTa做出了進(jìn)一步優(yōu)化。與其他模型相比,優(yōu)化后的RoBERTa模型的宏平均F1值最高。實(shí)驗(yàn)結(jié)果表明本文提出的方法是可行的,在節(jié)省人力和時(shí)間上做出了巨大貢獻(xiàn)。目前自然語言處理還在發(fā)展階段,作業(yè)安全問題卻不容小覷,因此將深度學(xué)習(xí)技術(shù)和作業(yè)安全問題相結(jié)合是時(shí)代發(fā)展的需求,為進(jìn)一步降低人力成本,減少作業(yè)現(xiàn)場事故的發(fā)生,我們還需要做出更進(jìn)一步的研究。
引用
[1]劉沖,范偉,姜春豐,等.基于風(fēng)險(xiǎn)控制的作業(yè)許可管理系統(tǒng)開發(fā)與應(yīng)用[J].云南化工,2018,45(2):226-229.
[2]胡月亭.正確使用作業(yè)許可有效防范高危作業(yè)事故發(fā)生[J].工業(yè)安全與環(huán)保,2014,40(1):96-98.
[3]尚鴻志,劉玉東.國內(nèi)外作業(yè)許可制度建立與實(shí)施的初步探討[J].中國安全生產(chǎn)科學(xué)技術(shù),2012,8(S2):140-143.
[4]于菲菲,王廷春,蔡寶華,等.煉化企業(yè)作業(yè)許可體系探析[J].中國安全生產(chǎn)科學(xué)技術(shù),2012,8(07):194-199.
[5]RAKHLIN A.Convolutional Neural Networks for Sentence Classification[J].GitHub,2016.
[6]LAI S,XU L,LIU K,et al.Recurrent convolutional Neural Networks for Text Classification[C].Proceedings of the AAAI Conference on Artificial Intelligence,2015.
[7]VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all You Need[J].ArXiv preprint ArXiv:1706.03762,2017.
[8]DEVLIN J,CHANG M W,LEE K,et al.Bert:Pre-training of Deep Bidirectional Transformers for Language Understanding[J].ArXiv Preprint ArXiv:1810.04805,2018.
[9]CUI Y,CHE W,LIU T,et al.Pre-training with Whole Word Masking for Chinese Bert[J].ArXiv Preprint ArXiv:1906.08101,2019.
[10]LIU Y,OTT M,GOYAL N,et al.Roberta:A Robustly Optimized Bert Pretraining Approach[J].ArXiv Preprint ArXiv:1907.11692,2019.
[11]SUN C,QIU X,XU Y,et al.How to Fine-tune BERT for Text Classification?[C]//China National Conference on Chinese Computational Linguistics,2019:194-206.