• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學習的警情記錄關鍵信息自動抽取

      2022-12-02 05:29:12崔雨萌王靖亞閆尚義陶知眾
      大數(shù)據(jù) 2022年6期
      關鍵詞:警情集上注意力

      崔雨萌,王靖亞,閆尚義,陶知眾

      中國人民公安大學信息網(wǎng)絡安全學院,北京 100038

      0 引言

      隨著基層公安機關對社會管控的增強,群眾報案的手段從單一的電話報警擴展到語音留言、短信、手機App和微信等,警方接收大量語音、文本等非結構化信息??焖贉蚀_地提取報警信息中的關鍵信息并進行指揮調(diào)度成為公安機關亟須解決的業(yè)務痛點。因此,公安機關迫切地需要科技手段輔助提取出關鍵信息以便進行快速地指揮調(diào)度。命名實體識別(named entity recognition,NER)是自然語言處理(natural language processing,NLP)的一個重要分支,它是信息提取、機器翻譯、信息檢索等技術的關鍵[1],也是處理和分析警情數(shù)據(jù)的基礎。命名實體識別主要負責對原始文本中具有特定意義的實體進行提取和分類,然后將非結構化的信息轉(zhuǎn)換成半結構化或結構化的信息,最后將信息提供給其他技術,并用于特定領域[2]。在公安實戰(zhàn)中,命名實體識別可以從報警記錄中提取報警人姓名、案發(fā)地址、涉案機構等實體,并將其應用于后續(xù)的工作中,如管理涉疫人員、匹配出警單位、分析區(qū)域案件趨勢、多次報案提醒、累犯重犯記錄等。

      近年來,在深度學習的基礎上實現(xiàn)命名實體識別已成為主流,通過循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)、卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)或其他神經(jīng)網(wǎng)絡模型提取輸入文本的特征,通過非線性激活函數(shù)學習特征[2],然后通過條件隨機場(conditional random field,CRF)[3]求解最優(yōu)標注序列。與英文不同,中文文本沒有明顯的詞邊界,依賴傳統(tǒng)的字符詞向量無法解決一詞多義問題,分詞方法也無法解決分詞錯誤造成的傳遞錯誤。因此,找到一種合適的中文分詞方法是實現(xiàn)中文警情命名實體識別任務的一個重要研究方向。此外,報警記錄的保密性和敏感性導致當前缺少警情實體識別數(shù)據(jù)集,并且公安領域缺乏統(tǒng)一的標注標準,這極大地增加了本文實施的難度。

      鑒于以上問題,本文對中國某市公安局的300條、包括12 513個漢字的實際報警記錄進行人工標注,構建標準化警情命名實體識別數(shù)據(jù)集PRD-PSB;并提出了一種融合自注意力機制(self-attention mechanism)和BERT-BiGRU-CRF的警情實體識別模型——BERT-BiGRU-SelfAtt-CRF。該模型引入BERT(bidirectional encoder representations from transformers)預訓練模型來生成包含豐富語義信息的詞向量,使用BiGRU(bidirectional gated recurrent unit)來捕捉文本序列的時序特征和上下文語義,并融合了自注意力機制來挖掘文本間的潛在依賴關系,最后使用CRF完成序列標注。在自行標注的警情數(shù)據(jù)集上進行實驗,結果表明,本模型的精確率(precision,P)、召回率(recall,R)和F1值(F1 value,F(xiàn)1)分別達到了82.45%、79.03%和80.72%,該模型的表現(xiàn)較其他基線模型更優(yōu)。

      1 相關工作

      在早期,命名實體識別主要是基于字典和規(guī)則的(如規(guī)則構建或特征工程),但這些方法開銷較大且十分依賴具體知識庫。之后,命名實體識別逐漸發(fā)展成為基于傳統(tǒng)機器學習的方法,其通常被轉(zhuǎn)化為序列標注問題。傳統(tǒng)機器學習方法主要基于支持向量機(support vector machine,SVM)[4]、CRF[5-6]、隱馬爾可夫模型(hidden Markov model,HMM)[7-8]和最大熵(maximum entropy,ME)[9-10]。近年來,隨著詞嵌入技術的提出及算力的發(fā)展,神經(jīng)網(wǎng)絡能夠有效地處理多種命名實體識別任務。在深度學習的基礎上,神經(jīng)網(wǎng)絡模型的訓練不再依靠傳統(tǒng)的特征工程或流水線模式,而是成為一個端到端的過程。這一特點使命名實體識別能夠適用于非線性轉(zhuǎn)換,節(jié)約成本開銷,并能夠構建更復雜的網(wǎng)絡。

      隨著深度學習在命名實體識別各方面的廣泛使用,能夠獲取上下文相關信息的RNN模型也被應用于該領域[11]。與RNN相比,長短期記憶(long short-term memory,LSTM)增強了序列記憶能力,并結合CRF組成LSTM-CRF架構,該架構已被廣泛應用于中文命名實體識別領域[12-15]。Huang Z H等人[16]提出用BiLSTM和CRF相結合的方式解決序列標注問題,其中BiLSTM可以高效地使用過去和未來的輸入特征,CRF則確保模型可以利用句子級的標簽信息。Chen Y等人[17]將基于詞特征的BiLSTM-CRF應用于中文不良藥品實體提取,發(fā)現(xiàn)模型的平均F1值高達94.35%。李一斌等人[18]將基于BiGRU-CRF的識別方法應用在中文包裝產(chǎn)品實體識別中,實驗結果表明,該方法F1值最高可達81.40%,相較于傳統(tǒng)序列標注結構和RNN,有更高的準確率和召回率。在人工神經(jīng)網(wǎng)絡的基礎上,參考文獻[14-15]引進了中文偏旁信息以提高識別準確率,并且參考文獻[15,19-20]還采用了注意力機制來增強實體和標簽之間的語義關系,進一步優(yōu)化模型效果。

      除此之外,輸入數(shù)據(jù)應轉(zhuǎn)換為計算機可以識別的格式,而且詞向量的訓練和生成對整個模型提取效果有顯著影響。盡管傳統(tǒng)的獨熱編碼方式簡單,但產(chǎn)生的向量維度高且稀疏,并不能表達出詞之間的關系。Mikolov T等人[21]提出的基于分布表示的Word2vec是詞嵌入應用的典型,但它不能解決一詞多義和詞的多層特征問題。在2018年被提出的BERT預訓練語言模型[22]可以通過微調(diào)為大量任務提供高級模型,并且針對特定任務,只需要新增一個輸出層,而不用對模型結構進行大量修改。在中文命名實體識別任務中,將BERT作為詞向量層可以出色地提取單詞之間的上下文關系,并為特定的子任務提供支持,因此它已被廣泛應用于許多中文命名實體識別任務中[3,23-26]。

      2 模型構建

      神經(jīng)網(wǎng)絡模型的實現(xiàn)和構建需要綜合考慮警情文本的短文本性、中文詞語邊界的模糊性、實體語境的關聯(lián)性和警情實體識別的實時性等要求。本文以BiGRUCRF為基本框架,采用BERT預訓練語言模型生成中文詞向量,并融合自注意力機制來增加上下文相關的語義信息,捕捉文本之間的潛在語義特征。BERT-BiGRUSelfAtt-CRF的基本架構如圖1所示,整體提取模型可分為4層。首先,每個輸入的文字由3個詞嵌入共同表示,BERT層根據(jù)每個文字的3個詞嵌入的加和生成對應的詞向量。之后,通過BiGRU層(前向GRU和后向GRU)模型可以更好地利用輸入的過去和未來的特征。然后,自注意力層可以加強對重要信息的捕捉,更好地獲取文本長距離依賴關系。最后,利用CRF層實現(xiàn)序列標注,使模型學習到句子的約束條件,有效地利用句子級別的標記信息。

      本文的目標是從電子報警記錄中提取出報警人姓名、案發(fā)地點和涉案機構3類警情實體。具體的流程如下。

      第一,對警情數(shù)據(jù)集進行預處理。數(shù)據(jù)集R= {r1,r2,…,rn},其中R表示整個記錄數(shù)據(jù)集,第i個記錄ri由組成,wik表示第i個記錄中的第k個中文文字。

      第二,構建警情訓練數(shù)據(jù)集。在本文中,采用BIO標記體系來標注訓練數(shù)據(jù)集,其實體類別數(shù)據(jù)集C={B-PER,I-PER, B-LOC,I-LOC,B-ORG,I-ORG,O}。標記是針對字級別文本進行的,訓練數(shù)據(jù)集中的每一個漢字都用換行符分隔,然后用空格將漢字和對應的標注類別分隔。

      第三,訓練BERT-BiGRU-SelfAtt-CRF模型。將已標記的訓練數(shù)據(jù)集Dtraining= {w1,w2,…,wn}輸入模型,其中wi表示訓練數(shù)據(jù)集中的第i個中文文字。之后,輸出結果集合Ppredict={,,…,},其中ci表示第i個中文文字的預測類別。然后結合預定義標注類別集合Pdefine,根據(jù)精確率、召回率和F1值,對模型進行訓練和調(diào)整。

      2.1 BERT層

      BERT是一種深度無監(jiān)督的雙向語言表示模型,在原始未標注文本中,通過對上下文語境進行共同條件化,對所有層進行預訓練[22]。如圖1所示,對于每個給定的漢字,BERT的輸入表示由3個詞嵌入部分的總和組成,即詞嵌入、段嵌入和位置嵌入。圖1中,Ei為位置嵌入,代表在輸入語句中的第i個位置;EA為段嵌入,A表示屬于第1句話。此外,Transformer采用了位置編碼方式,并加入編碼和嵌入數(shù)據(jù),從而加入相對位置信息。最終,BERT輸出生成的詞向量Xi。

      與傳統(tǒng)的單向語言模型或簡單地拼接兩個單向模型進行預訓練不同,BERT采用一種新的掩碼語言模型(masked language model,MLM)來生成深層雙向語言表征。此外,其采用深度雙向Transformer編碼器來構建整個模型架構。Transformer[27]采用了自注意力機制,以確保模型的并行計算能力,多頭自注意力機制(multi-head self-attention mechanism)使模型能夠捕獲更豐富的特征,還采用了殘差機制來保證計算兩個位置之間的相關性所需的操作不會隨著距離增加而增加。另外,在預訓練階段,BERT采用了兩個訓練任務:MLM和下一句預測(next sentence prediction,NSP)。由于其龐大的參數(shù)和強大的特征提取能力,BERT可以有效地從大量的語料庫中學習到語義信息。

      2.2 BiGRU層

      GRU是原始RNN的一個改進版本,旨在解決RNN中的梯度消失問題,并且由于其相似的基本概念,它也可以被視為LSTM的一個變體[28]。一般來說,為了保證重要信息在長期傳播過程中不會丟失,并解決標準RNN中的梯度消失問題,GRU和LSTM都使用多種門函數(shù)來保留關鍵特征。此外,GRU的結構和組成比LSTM更加簡潔,因此其參數(shù)更少,訓練速度更快。在單向GRU網(wǎng)絡中,狀態(tài)有規(guī)律地從前向后傳遞。然而,在警情實體識別領域,實體與其前后文本具有很強的關聯(lián)性。因此,本文試圖將當前時間的輸出與未來的狀態(tài)結合起來。需要BiGRU來建立這些連接,BiGRU模型結構如圖2所示。在BiGRU中,輸入將同時提供給兩個相反方向的GRU,輸出由兩個單向GRU共同決定。因此,BiGRU的當前隱藏層狀態(tài)由3個部分決定:當前時刻t輸入xt,t-1時刻前向隱藏層 狀 態(tài) 的輸出,t-1時刻后向狀態(tài)的輸出。相應計算式如式(1)~式(3)所示。最終狀態(tài)ht將是從輸入的每個警情記錄文字提取出來的特征,bt表示t時刻隱藏層狀態(tài)的偏置。

      圖2 BiGRU模型結構

      2.3 自注意力層

      注意力機制最早被應用于視覺圖像領域,其思想來源于人類視覺注意力機制,即人類視覺在感知物體的時候會先將注意力放于某個特定最重要的部分。Bahdanau D等人[29]將注意力機制應用于神經(jīng)機器翻譯模型,首次在自然語言處理領域引入了注意力機制。自注意力機制[30]屬于一種特殊的注意力機制,其將每一個詞都和文本內(nèi)部的所有詞進行縮放點積注意力(scaled dot-product attention)計算,以捕獲文本內(nèi)部結構,學習內(nèi)部的依賴關系??s放點積注意力計算式如式(4)所示,其中Q、K和V分別代表查詢矩陣、鍵矩陣和值矩陣,dK為輸入向量的維度。且在自注意力機制中,Q、K、V都等于BiGRU輸出的結果向量。

      單一自注意力機制的性能往往是有限的,因此本文所使用的自注意力機制是多頭自注意力機制。其是基于自注意力機制進行改善的,通過多次計算,可以使模型從多個角度提取文本中的隱含依賴關系,在不同的表示子空間中學習到相關信息[27]。多頭自注意力機制的結構如圖3所示,其中h代表多頭自注意力機制的頭數(shù),Q、K、V首先經(jīng)過h次不同參數(shù)的線性變換,然后分別輸入h個縮放點積注意力進行計算,并將結果進行拼接。最后,再進行一次線性變換,得到多頭自注意力機制的輸出結果。計算式如式(5)和式(6)所示,其中i表示第i個頭。WiQ、WiK和WiV分別代表第i個頭中Q、K和V的參數(shù)矩陣,WO代表輸出時線性變化的參數(shù)矩陣。

      圖3 多頭自注意力機制的結構

      2.4 CRF層

      在BiGRU層,對BiGRU網(wǎng)絡的最終隱藏狀態(tài)進行拼接和計算,以獲得每個文字屬于各個標簽的分數(shù)。命名實體識別可以被視為序列標記問題,如果沒有CRF層,直接選擇BiGRU層中得分最高的標簽也是可以理解的。然而,BiGRU只考慮警情記錄中的上下文信息,而不考慮標簽之間的依賴關系,因此無法保證能夠輸出有意義的標簽序列。CRF[30]是一種判別式無向圖機器學習模型,其可以添加很多約束條件,以確保最終的預測是有價值的。CRF層的輸入是報警記錄序列x=(x1,x2,…,xt),輸出是最佳標簽序列y=(y1,y2,…,yt)。首先,式(7)用于計算標簽序列位置分數(shù)。在式(7)中,P是BiGRU層的輸出矩陣,A是轉(zhuǎn)移分數(shù)矩陣,其中Ai,j表示從標簽i到標簽j的轉(zhuǎn)移分數(shù)。

      預測序列y的歸一化概率如式(8)所示。此外,對于每個訓練樣本,將通過式(9)計算對數(shù)似然函數(shù)。

      最終,通過最大化對數(shù)似然函數(shù)和式(10)中的維特比算法,將得分最高的標簽序列作為預測結果。

      3 實驗

      3.1 實驗環(huán)境

      在本文中,BERT-BiGRU-SelfAtt-CRF模型的開發(fā)語言是Python 3.7,該模型是在深度學習框架Tensorflow的基礎上實現(xiàn)的。硬件環(huán)境采用6核Intel Xeon E5-2620 v3 2.40 GHz CPU,64 GB RAM和Windows Server 2012 R2 64位操作系統(tǒng)。該模型相關參數(shù)設置見表1。

      表1 BERT-BiGRU-SelfAtt-CRF模型參數(shù)設置

      3.2 數(shù)據(jù)準備

      本文的實驗數(shù)據(jù)由兩組構成。第一組是兩個公開數(shù)據(jù)集,目的是更全面地驗證本模型在大數(shù)據(jù)集上的性能和可提升空間以及在不同領域上的泛化能力。其中一個公開數(shù)據(jù)集是北京大學根據(jù)1998年《人民日報》數(shù)據(jù)建立的語料庫,并從其中抽取出20 864條訓練樣本、4 636條測試樣本和2 318條驗證樣本;另一個數(shù)據(jù)集為微軟亞洲研究院提供的MSRA數(shù)據(jù)集[31],并從其中抽取46 364句文本組成訓練集,抽取4 365句文本組成測試集。

      第二組是本文基于中國某市公安局的300條電子警情記錄進行人工標注而構建的報警記錄數(shù)據(jù)集PRD-PSB,目的是驗證本模型在警情領域小數(shù)據(jù)集上的可行性和可推廣性。由于在公安實戰(zhàn)中,不同城市的地名和機構名存在很大的差異,因此在實際應用中,部署模型前需要根據(jù)當?shù)鼐橛涗涍M行標注和訓練。而且,公安領域缺少標準的警情實體識別數(shù)據(jù)集和統(tǒng)一的實體數(shù)據(jù)標注規(guī)范,在實體數(shù)據(jù)標注中需要消耗很大的成本。因此,為了便于實戰(zhàn)應用,本文在小規(guī)模警情數(shù)據(jù)集上進行驗證,雖然小規(guī)模語料訓練會在一定程度上限制模型的表現(xiàn),但符合一線公安工作需求,便于各地普及應用。而且,在小規(guī)模數(shù)據(jù)集上滿足基本實體提取需求后,各地公安機關前期只需要花費很少的標注成本就可以實際應用此模型,并可以在后期針對性地對實體進行擴充。

      考慮報警信息文本的結構、各實體出現(xiàn)的頻率以及實際警務工作的需要,將報警信息文本的內(nèi)容分為4類:報警人姓名、案發(fā)地址、涉案機構和非實體。在模型訓練之前,本文對數(shù)據(jù)進行了預處理,包括去除非法字符、無效空格、無意義的換行符等。最終從300條電子警情記錄中篩選出395個句子和12 513個字。經(jīng)過統(tǒng)計,PRDPSB數(shù)據(jù)集的非實體文字共8 290個,中文實體文字共4 223個,其中案發(fā)地址3 447個字,報警人姓名585個字,涉案機構191個字。PRD-RSB數(shù)據(jù)集的占比分布如圖4所示。

      圖4 PRD-PSB數(shù)據(jù)集的占比分布

      接下來,處理過的數(shù)據(jù)被逐字標記并分類到單獨的訓練文本文檔中。其次,將所有數(shù)據(jù)按照8:1:1的比例拆分為訓練、測試和驗證集。警情數(shù)據(jù)標注格式如圖5所示,數(shù)據(jù)按照這種格式進行處理和標注,文字之間用換行符分隔,文字和標簽之間用空格分隔。本文采用BIO標注方案,有7個標簽:B-LOC、I-LOC、B-PER、I-PER、B-ORG、I-ORG和O。BIO機制各個標簽的文本實例和含義見表2。

      表2 BIO機制實例

      圖5 警情數(shù)據(jù)標注格式

      3.3 評價指標

      在可靠性方面,本文將精確率、召回率和F1值作為評價指標。此外,考慮到模型的性能和應用價值,本文還統(tǒng)計了每個模型訓練所消耗的時間。精確率和召回率均保持在較高水平是最理想的,但實際上,兩者在某些情況下是矛盾的。在不同的情況下,要判斷需要高準確率還是高召回率。因此,評估方法中引入了F1值作為另一個評估指標,它同時考慮了準確率和召回率,可以看作二者的加權平均值。

      4 結果與分析

      在實驗階段,本模型對比了CNNLSTM、BiLSTM-CRF和BiGRU-CRF,測試了三者在公開數(shù)據(jù)集和PRD-PSB數(shù)據(jù)集上的性能。另外,實驗部分還分別對比了Word2vec和BERT兩種詞嵌入方法對每個模型表現(xiàn)的影響以及引入自注意力機制的效果。表3展示了8個模型在公開數(shù)據(jù)集上的結果。很明顯,在大型公開數(shù)據(jù)集中,未引入自注意力機制的基線模型中,除CNN-LSTM之外,其余5個模型均表現(xiàn)優(yōu)良,且BiLSTM-CRF和BiGRU-CRF的3個評價指標基本上高于其他模型。在F1值大致相同的情況下,BiGRU-CRF的時間成本遠低于BiLSTM-CRF。雖然BiGRUCRF和BiLSTM-CRF在公開數(shù)據(jù)集上的評價指標差別不大,但BiGRU-CRF的訓練時間卻比BiLSTM-CRF縮短了153 min,原因可能是BiGRU的模型結構比BiLSTM簡單,參數(shù)較少,因此BiGRU-CRF最適合公開數(shù)據(jù)集。因此,在BiGRU-CRF的基礎上,本文對比了自注意力機制的效果,但在語料規(guī)模較大的數(shù)據(jù)集中,自注意力機制的引入對模型的性能提升不是十分明顯。

      表3 在《人民日報》和MSRA數(shù)據(jù)集上的實驗結果

      表4描述了基于PRD-PSB數(shù)據(jù)集的實驗結果,由于PRD-PSB數(shù)據(jù)集的樣本量遠小于公開語料庫,因此訓練的時間大大降低。BERT的引入會極大地提高模型的性能,雖然加載BERT可能會花費時間,但引入BERT后,模型可以以較短的訓練周期獲得更出色的識別效果。另外,在小數(shù)據(jù)集上,自注意力機制能幫助模型更好地捕獲文本潛在的語義信息,在F1值方面,對BiGRU-CRF模型提升了2.23個百分點,對BERT-BiGRU-CRF模型提升了2.86個百分點。實驗結果顯示,在所有基線模型中,BERT-BiGRU-CRF的精確率、召回率和F1值最高,其時間成本也可以接受,僅需10個訓練周期。因此,BERT-BiGRU-CRF是所有基線模型中最適合警情實體識別任務的。本文在此基礎上,引入自注意力機制構建了BERT-BiGRU-SelfAtt-CRF模型,對模型的效果有了進一步的提升。

      表4 在PRD-PSB數(shù)據(jù)集上的實驗結果

      圖6分別比較了在兩種數(shù)據(jù)集中引入自注意力機制對模型整體表現(xiàn)的影響。首先,如圖6(a)所示,在公開數(shù)據(jù)集上引入自注意力機制對模型效果的提升較為有限。結合表3可知,引入自注意力機制,BiGRU-CRF和BERT-BiGRU-CRF的F1值僅提高了0.07個百分點和0.06個百分點。這可能是由于大規(guī)模語料庫中存在大量樣本、豐富的語義信息和充足的詞特征,并且BERT在大量數(shù)據(jù)中可以有效地生產(chǎn)包含豐富語義的詞向量。因此,自注意力機制的幫助不是特別明顯。而由圖6(b)可知,在小規(guī)模的警情數(shù)據(jù)集上,引入自注意力機制的效果較為明顯。結合表4可知,BiGRU-CRF在引入自注意力機制后,F(xiàn)1值提高了2.23個百分點。對于BERT-BiGRU-SelfAtt-CRF模型,較引入自注意力機制之前,精確率、召回率和F1值分別提升了2.76個百分點、2.91個百分點和2.86個百分點,并且精確率和F1值都提升到了80%以上。因此,當模型被應用于規(guī)模較小的數(shù)據(jù)集時,引入自注意力機制是很有必要的,模型的整體表現(xiàn)都有較為明顯的提升,對警情實體識別任務有重要的意義。

      圖6 在數(shù)據(jù)集中引入自注意力機制對模型整體表現(xiàn)的影響

      本文基于PRD-PSB數(shù)據(jù)集,對3個模型進行了訓練,訓練過程中未引入BERT的模型準確率隨訓練周期的變化如圖7(a)所示。綜合來看,BiGRU-CRF的準確率最高,其次是BiLSTM-CRF,最后是CNNLSTM。因此,將BiGRU-CRF作為本文警情實體識別模型的基本架構進行改進。此外,圖7(b)展示了在BiGRU-SelfAtt-CRF模型中引入BERT在30個訓練周期對識別準確率的影響。由圖7(b)可知,引入BERT后,模型可以在3個訓練周期內(nèi)將模型準確率快速提高到95%以上,而未引入BERT的模型則需要15個訓練周期才能將準確率穩(wěn)定在95%以上。并且,引入了BERT的模型,整體準確率要更高。另外,根據(jù)圖6(b)及表4可知,在PRD-PSB數(shù)據(jù)集上,引入BERT可以將BiGRU-SelfAtt-CRF的F1值提高13.98個百分點。因此,在小規(guī)模的警情數(shù)據(jù)集上,引入BERT可以使模型的準確率提高得更快,而且可以明顯優(yōu)化模型整體效果。

      圖7 在PRD-PSB數(shù)據(jù)集上引入BERT對模型準確率變化的影響

      5 結束語

      為了準確有效地提取電子報警記錄中的報警人姓名、案發(fā)地址和涉案機構,本文構建了BERT-BiGRU-SelfAtt-CRF模型來完成報警信息的命名實體識別任務。此外,本文還比較了3種經(jīng)典的命名實體識別框架:CNN-LSTM、BiLSTM-CRF和BiGRU-CRF。在《人民日報》語料庫、MSRA和PRD-PSB數(shù)據(jù)集上,BiGRUCRF和BiLSTM-CRF具有相似的識別效果,并且比CNN-LSTM的效果更好。另外,本文還探究了引入BERT和自注意力機制對實驗效果的影響。最終,本文通過實驗得出如下結論。

      (1)在大規(guī)模公開數(shù)據(jù)集上,由于數(shù)據(jù)量充足,語義信息豐富,BERT并沒有提高模型性能,反而增加了時間成本。而在小規(guī)模警情數(shù)據(jù)集中,BERT能在很短的訓練周期內(nèi)顯著提升各項指標。在PRD-PSB數(shù)據(jù)集上的實驗結果表明,對于BiGRU-CRF模型來說,引入BERT將其F1值提高了13.35個百分點。因此,在數(shù)據(jù)集有限的情況下,BERT可以生成包含更豐富語義信息的詞向量,提高后續(xù)實體識別的性能。

      (2)類似地,自注意力機制也是在小規(guī)模警情數(shù)據(jù)集上的效果更加明顯。對于BERT-BiGRU-CRF模型來說,在PRDPSB數(shù)據(jù)集中引入自注意力機制后,精確率、召回率和F1值分別提升了2.76、2.91和2.86個百分點。多頭自注意力機制可以從多個方向、多個表示子空間中提取文本的隱藏依賴關系,捕捉文本結構,提高模型識別的表現(xiàn)。

      (3)BiGRU模型在保證BiLSTM模型效果的基礎上,結構更加簡單,參數(shù)更少。本文模型采用BiGRU模型,能加快模型的收斂速度,降低時間成本,符合實際公安工作的需求。另外,本文提出的BERTBiGRU-SelfAtt-CRF模型在標注體量有限的警情數(shù)據(jù)集上,實體提取的精確率和F1值都達到了80%以上,可以滿足公安實戰(zhàn)中的準確率要求。并且在小規(guī)模警情數(shù)據(jù)集上進行驗證,可以證明模型的可行性,并證明在實戰(zhàn)部署中具備可推廣性,不需要消耗大量的標注成本。此外,也在大規(guī)模的公開數(shù)據(jù)集上驗證了此模型的性能,其各方面指標都可以達到90%以上,可以泛化到不同領域,隨著數(shù)據(jù)集的增大,模型有提升的空間。

      綜上所述,BERT模型中的多頭自注意力機制與BiGRU模型中的雙向結構保證了該模型能夠充分考慮報警信息中的上下文關系,解決中文詞邊界模糊的問題,從而增加實體提取準確性。自注意力機制可以保證模型學習到文本內(nèi)部結構,捕獲文本中的長距離依賴關系。另外,BiGRU模型結構簡單,參數(shù)較少,節(jié)約了模型的訓練時間。最后,CRF層可以從實際訓練數(shù)據(jù)中學習約束條件。在標簽層面,其考慮了標簽之間的順序,優(yōu)化了提取效果。該項目總體上能夠滿足公安實戰(zhàn)工作的需要,填補了當前警務工作信息化的空白。

      但實際警情數(shù)據(jù)中也存在著各類實體比例不均衡等問題,在未來的工作中,筆者將在數(shù)據(jù)集方面豐富實體類別,著重增加稀疏實體數(shù)量。在模型方面,筆者將嘗試構建更優(yōu)秀的深度學習模型來完成警情命名實體識別任務,探索出效果更優(yōu)的模型。

      猜你喜歡
      警情集上注意力
      讓注意力“飛”回來
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      復扇形指標集上的分布混沌
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      不能吃的餃子
      派出所工作(2017年9期)2017-05-30 10:48:04
      “霉神”彥哥
      派出所工作(2017年9期)2017-05-30 10:48:04
      警情多,賴別人的嘴?
      派出所工作(2017年9期)2017-05-30 10:48:04
      A Beautiful Way Of Looking At Things
      警情支持系統(tǒng)之構建研究
      武清区| 石门县| 洪江市| 合川市| 石门县| 遂川县| 根河市| 睢宁县| 农安县| 榆树市| 明光市| 丰镇市| 道真| 丹巴县| 德化县| 廉江市| 红河县| 信宜市| 楚雄市| 鄂托克旗| 北宁市| 巫山县| 泽普县| 南陵县| 清流县| 沛县| 东丰县| 巴林左旗| 五台县| 侯马市| 汽车| 江油市| 开鲁县| 广平县| 方城县| 皮山县| 龙海市| 长乐市| 金华市| 德江县| 垣曲县|