王德志,陳靖耀
(華北科技學(xué)院 計(jì)算機(jī)學(xué)院,北京 東燕郊 065201)
突發(fā)事件[1]是指突然發(fā)生,造成或者可能造成嚴(yán)重社會(huì)危害,需要采取應(yīng)急處置措施予以應(yīng)對(duì)的自然災(zāi)害、事故災(zāi)難、公共衛(wèi)生事件和社會(huì)安全事件。將突發(fā)事件新聞的自動(dòng)標(biāo)注應(yīng)用于應(yīng)急管理響應(yīng)體系的最大挑戰(zhàn)之一是突發(fā)事件類(lèi)型繁多,如何進(jìn)行有效的歸納整合成為首先要面對(duì)的問(wèn)題。如礦山事故類(lèi)型分為坍塌、透水、冒頂、中毒等多種類(lèi)型[2],每種類(lèi)型的事故對(duì)應(yīng)不同的處置預(yù)案。針對(duì)這一問(wèn)題,自然語(yǔ)言處理技術(shù)[3]一定程度上解決了社交媒體上的新聞[4]人工分類(lèi)主觀性強(qiáng)、分類(lèi)細(xì)粒度的問(wèn)題。
在涉及應(yīng)急管理和突發(fā)事件處理等相關(guān)領(lǐng)域,自然語(yǔ)言處理技術(shù)主要在前期預(yù)防與準(zhǔn)備、后期善后與恢復(fù)兩個(gè)方面展開(kāi)[5]。例如,楊辰等[6]應(yīng)用主題模型文本挖掘的方式,通過(guò)分析上海市近年的氣象災(zāi)害數(shù)據(jù),提升氣象災(zāi)害的預(yù)警能力;胡立偉等[7]通過(guò)構(gòu)造關(guān)系網(wǎng)絡(luò)的方式,分析貨運(yùn)貨車(chē)交通事故的原因。但由于數(shù)據(jù)集來(lái)源單一,這兩類(lèi)研究無(wú)法滿足對(duì)種類(lèi)復(fù)雜的突發(fā)事件的標(biāo)注需求。
隨著深度學(xué)習(xí)的快速發(fā)展,基于深度學(xué)習(xí)的自然語(yǔ)言處理技術(shù)逐漸成為主流[8],近年來(lái)主流的文本分類(lèi)技術(shù)有:(1)基于詞向量的分類(lèi)模型,這種方法至今廣泛使用。吳德平等[9]基于Word2Vec 模型獲取詞向量,運(yùn)用聚類(lèi)模型進(jìn)行安全生產(chǎn)事故文本案例分類(lèi);謝斌紅等[10]提出基于Word2Vec和卷積神經(jīng)網(wǎng)絡(luò)的分類(lèi)方法將煤礦的安全隱患信息進(jìn)行分類(lèi);(2)基于記憶儲(chǔ)存模型:循環(huán)神經(jīng)網(wǎng)絡(luò)、循環(huán)卷積神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶網(wǎng)絡(luò)等,宋英華等[11]基于卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)提出新模型對(duì)突發(fā)事故新聞文本進(jìn)行分類(lèi);(3)基于注意力機(jī)制的分類(lèi)模型,葛艷等[12]提出一種基于注意力機(jī)制雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型對(duì)化工事故進(jìn)行分類(lèi)(4)基于遷移語(yǔ)言模型的文本分類(lèi)模型。預(yù)訓(xùn)練語(yǔ)言模型在近年來(lái)取得很大的突破,通過(guò)上游海量的語(yǔ)料數(shù)據(jù)訓(xùn)練出的語(yǔ)言模型可直接用于任務(wù)中,即節(jié)省了下游訓(xùn)練時(shí)間又帶來(lái)較為理想的效果。吳雪華等[13]將BERT-TextCNN組合模型運(yùn)用于社交媒體信息分類(lèi),以緩解應(yīng)急行動(dòng)的信息過(guò)載問(wèn)題。
綜上,多種分類(lèi)技術(shù)為研究的打下基礎(chǔ)。權(quán)衡預(yù)訓(xùn)練語(yǔ)言模型的特點(diǎn)和詞嵌入模型性質(zhì),本文的研究基于詞嵌入模型的設(shè)計(jì)開(kāi)展,具體思路為:利用預(yù)訓(xùn)練語(yǔ)言模型在多項(xiàng)自然語(yǔ)言處理任務(wù)中取得的良好效果,使用BERT等預(yù)訓(xùn)練模型分作為embedding層進(jìn)行詞向量矩陣提取,提升后續(xù)主題建模和文本分類(lèi)的精度。
前期的數(shù)據(jù)集構(gòu)建和后期文本標(biāo)注任務(wù)都基于預(yù)訓(xùn)練語(yǔ)言模型BERT(Bi-Directional Transformer Model)進(jìn)行,利用了BERT夠獲得準(zhǔn)確的、帶有上下文信息的詞嵌入和句嵌入信息的特點(diǎn),使其作為嵌入層能進(jìn)入主題建模模型和分類(lèi)模型中能夠發(fā)揮良好的效果。
BERT能夠獲取上下文信息的詞嵌入和句嵌入主要主要依賴(lài)于Transformer中編碼器(Encoder)的自注意力機(jī)制(Self-attention)。一個(gè)Encoder由全連接層和Self-Attention組成。在Self-Attention中每個(gè)詞語(yǔ)分別由三個(gè)長(zhǎng)度為64的向量Query(Q)、Key(K)和Value(V)組成。這三個(gè)向量由詞嵌入向量乘以三個(gè)不同權(quán)值的矩陣,矩陣大小為大小為(64,512)。如公式(1)所示[14]。
(1)
Attention機(jī)制用于區(qū)分不同輸入對(duì)輸出的影響。Self-Attention將輸入的每個(gè)目標(biāo)字經(jīng)過(guò)向量變換后作為Query,上下文各字向量作為Key,未經(jīng)過(guò)線性變換的目標(biāo)字和上下字原始信息作為Value(通常key=value)。通過(guò)相似度計(jì)算將Query和Key的相似度作為權(quán)重,通過(guò)加權(quán)計(jì)算的方式將整段文本每個(gè)字的信息融入單字之中,重新獲取該字的新表征,從而使每個(gè)字互相關(guān)聯(lián),最后作為Attention的輸出值。
為了增強(qiáng)注意力機(jī)制的能力,Transformer將多個(gè)不同的Self-Attention模塊組合在一起,獲取每個(gè)字在不同語(yǔ)言空間下的向量,再將其進(jìn)行線性組合獲取與原始長(zhǎng)度相同的向量表征,該結(jié)構(gòu)即多頭注意力機(jī)制(Multi-Head Attention)。
多頭注意力機(jī)制與殘差連接、層正則化和線性轉(zhuǎn)換共同組成單個(gè)編碼器,結(jié)合輸入和位置編碼組成Transformer Block單元(圖1)。
圖1 Transformer Block結(jié)構(gòu)
將多個(gè)Transformer Block進(jìn)行堆疊得到BERT模型(圖2),一個(gè)Transformer Block對(duì)應(yīng)BERT中的一個(gè)Trm。其中L表示網(wǎng)絡(luò)層數(shù)即Trm單元的數(shù)量,A表示多頭注意力機(jī)制中Self-Attention的數(shù)量,H為隱藏層的大小。
圖2 BERT結(jié)構(gòu)
由BERT結(jié)構(gòu)圖可以看出,Transformer中的Attention機(jī)制將任意兩個(gè)位置的詞語(yǔ)距離轉(zhuǎn)換為1,使得BERT對(duì)詞語(yǔ)進(jìn)行分析時(shí)能夠提取其所在層中左右兩側(cè)的語(yǔ)境,有效地解決其它模型難以應(yīng)付的長(zhǎng)文本的距離的依賴(lài)問(wèn)題。
由于構(gòu)建的突發(fā)事件數(shù)據(jù)集整體文本較短,而B(niǎo)ERT模型在處理局部上下文關(guān)系的能力較差,對(duì)于短文本的處理達(dá)不到最好的效果。故使用BERT-DPCNN進(jìn)行突發(fā)事件的標(biāo)注,將BERT與多層卷積的網(wǎng)絡(luò)和殘差連接融合在一起,在使得單模型計(jì)算效率提升的同時(shí),最大限度的獲取全文上下文關(guān)系和局部上下文關(guān)系。
相較于TextCNN不能通過(guò)卷積獲取文本長(zhǎng)距離的依賴(lài)關(guān)系,DPCNN(深度金字塔卷積神經(jīng)網(wǎng)絡(luò),Deep Pyramid Convolutional Neural Networks)通過(guò)不斷加深網(wǎng)絡(luò)模型獲取文本長(zhǎng)距離依賴(lài)關(guān)系,因其每層計(jì)算時(shí)間呈金字塔形下降,故稱(chēng)為深度金字塔卷積神經(jīng)網(wǎng)絡(luò)。論文中的實(shí)驗(yàn)證明在不增加太多計(jì)算成本的情況下,增加網(wǎng)絡(luò)深度就可以使準(zhǔn)確率提升。其最主要的特點(diǎn)是等長(zhǎng)卷積和殘差連接。等長(zhǎng)卷積相比普通卷積處理過(guò)后不會(huì)使得文本信息丟失,殘差連接解決了初始輸入的小權(quán)重對(duì)后續(xù)梯度傳播的阻礙和梯度爆炸或彌散問(wèn)題。
路凱峰[15]等和楊文浩[16]等利用BERT-DPCNN分別Web服務(wù)和基于大類(lèi)新聞的分類(lèi)研究中取得了一定的成果。基于此,使用BERT-DPCNN對(duì)標(biāo)注特定領(lǐng)域短文本,進(jìn)行效果研究。
針對(duì)突發(fā)事件的標(biāo)注預(yù)警的相關(guān)研究較少,面向復(fù)雜的突發(fā)事件類(lèi)型,提出一種基于訓(xùn)練語(yǔ)言模型的標(biāo)注方法,具體工作有(圖3):
圖3 突發(fā)事件標(biāo)注方法
(1) 數(shù)據(jù)獲?。菏褂镁W(wǎng)絡(luò)爬蟲(chóng)大范圍搜尋自然災(zāi)害和事故災(zāi)難的相關(guān)新聞文章,構(gòu)成原始數(shù)據(jù)集資料;
(2) 主題建模:使用基于預(yù)訓(xùn)練語(yǔ)言模型的BERTopic對(duì)數(shù)據(jù)進(jìn)行提取類(lèi)別關(guān)鍵詞與主題聚類(lèi)建模,構(gòu)造突發(fā)事件相關(guān)的標(biāo)注數(shù)據(jù)集;
(3) 事件標(biāo)注:基于BERT-DPCNN的模型,訓(xùn)練標(biāo)注數(shù)據(jù)模型,展開(kāi)模型效果比較和評(píng)估,驗(yàn)證整體標(biāo)注方法的有效性和可用性。
通過(guò)爬取中文新聞網(wǎng)站的國(guó)內(nèi)、國(guó)際相關(guān)新聞標(biāo)題作為基礎(chǔ)研究資料。在設(shè)計(jì)爬蟲(chóng)算法爬取數(shù)據(jù)時(shí),首先對(duì)新聞進(jìn)行初篩,獲取“自然災(zāi)害”和“意外事故”兩大類(lèi)別的新聞標(biāo)題形成初始數(shù)據(jù)。時(shí)間跨度上,暴雨、火災(zāi)等大多數(shù)類(lèi)別的突發(fā)事件頻發(fā),故選取2020年6月-10月之間的新聞;而如建筑坍塌等事件較少發(fā)生,故選取跨度為2019-2020年的新聞標(biāo)題數(shù)據(jù)。總計(jì)獲取未分類(lèi)的原始數(shù)據(jù)48579條。
雖然LDA(Linear Discriminant Analysis)和NMF(Non-negative matrix factorization)等主題建模方法在過(guò)去的研究中取得了良好的效果,但面對(duì)大量短文本進(jìn)行高效建模、確定主題數(shù)等問(wèn)題,機(jī)器學(xué)習(xí)的主題建模方法需要將大量精力投入調(diào)參調(diào)優(yōu)之中?;贐ERT的性質(zhì),使用BERTopic進(jìn)行突發(fā)事件短文本的聚類(lèi)任務(wù)。這是一種支持無(wú)監(jiān)督的動(dòng)態(tài)主題建模的技術(shù),不需要進(jìn)行人工檢查文檔或文本粒度,而能夠更容易、準(zhǔn)確地獲取可解釋的主題。
圖4 BERTopic主題建模流程
2.3.1 分詞與去除停用詞
使用Jieba工具包進(jìn)行分詞,分詞目的是將名詞區(qū)分開(kāi),如地名、事故名稱(chēng)、災(zāi)害特征等;由于新聞標(biāo)題本身信息量較大,故使用自定義的停用詞詞典,去除標(biāo)點(diǎn)、“的”等中文中大量出現(xiàn)又沒(méi)有實(shí)際意義的詞項(xiàng),盡可能多的保留文字信息。
2.3.2 嵌入層的構(gòu)建
BERTopic的關(guān)鍵是構(gòu)建Embedding層,Embedding層的作用是將非結(jié)構(gòu)的文字信息轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)字信息,即文檔向量化。嵌入層中許多模型可以選擇,如傳統(tǒng)詞嵌入模型Word2Vec、ELMO等。為了達(dá)到良好的效果,使用BERT作為嵌入層模型。
2.3.3 UMAP降維
經(jīng)過(guò)了BERT進(jìn)行文檔向量化處理后此時(shí)嵌入的維數(shù)較高,但是大部分的聚類(lèi)算法難以處理高維度數(shù)據(jù),故需要首先對(duì)數(shù)據(jù)進(jìn)行降維。降維使用UMAP(Uniform Manifold Approximation and Projection)算法,其降維過(guò)后能在低緯度上保持相當(dāng)一部分高維度的結(jié)構(gòu),將語(yǔ)義信息的改變降到最低。過(guò)低的維度會(huì)導(dǎo)致信息大量丟失,過(guò)高的維度會(huì)影響聚類(lèi)的效果。
2.3.4 HDBSAN聚類(lèi)
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一種基于密度的算法,將密度足夠高的地方聚合為簇。與K-means方法相比,不需要事先設(shè)置形成聚類(lèi)的數(shù)量,并且能夠在空間中發(fā)現(xiàn)任意形狀的聚類(lèi)。經(jīng)過(guò)UMAP算法進(jìn)行降維之后,保留了一部分高維度的結(jié)構(gòu),而HDBSAN是一種基于密度的算法,通過(guò)其尋找高密度特征,HDBSAN不會(huì)強(qiáng)制數(shù)據(jù)進(jìn)入這些高密簇之中,能夠有效的提取數(shù)據(jù)特征。HDBSAN聚類(lèi)算法中重要參數(shù)是使用歐式距離進(jìn)行空間點(diǎn)的計(jì)算,因?yàn)槠洳粫?huì)受維度的影響。如圖5可見(jiàn)生成的主題數(shù)眾多,但相當(dāng)大一部分主題語(yǔ)句數(shù)量過(guò)少無(wú)法構(gòu)成數(shù)據(jù)集,在之后的工作中將選取語(yǔ)句數(shù)較多的主題進(jìn)行識(shí)別。
圖5 聚類(lèi)結(jié)果
2.3.5 主題確定
傳統(tǒng)的TF-IDF(term frequency-inverse document frequency)比較一組文檔中,文檔與文檔之間詞語(yǔ)的重要性。使用經(jīng)過(guò)改進(jìn)的c-TF-IDF(class-based TF-IDF),當(dāng)突發(fā)事故文本形成聚類(lèi)后,將聚類(lèi)形成的每個(gè)事件的簇視為一個(gè)TF-IDF中的一個(gè)文檔,得到每個(gè)簇中詞語(yǔ)重要性的得分。 如公式(2)所示,含義分別是提取類(lèi)i的單詞頻率t除以總單詞數(shù)w和每類(lèi)平均單詞數(shù)m除以總共n個(gè)類(lèi)中單詞的總頻率。
(2)
通過(guò)聚類(lèi)和c-TF-IDF處理過(guò)后,提取大小前9的簇結(jié)果如表1所示,主題編號(hào)為0的詞簇是HDBSCAN聚類(lèi)處理后沒(méi)有主題含義的離散簇,它們沒(méi)有被強(qiáng)制放入其他有主題的集群中。查看大類(lèi)下的主題詞,選取得分最高或者接近的詞語(yǔ),進(jìn)行人工類(lèi)名標(biāo)識(shí)。以集群90為例,如圖6所示。
表1 主題集群
圖6 主題示例
BERT-DPCNN模型(如圖7所示)由BERT構(gòu)成的詞嵌入層、局部語(yǔ)義嵌入層(Region Embedding)、等長(zhǎng)卷積層、池化層和全連接層組成。模型對(duì)應(yīng)完成的工作有:
圖7 BERT-DPCNN結(jié)構(gòu)
(1) 突發(fā)事件文本經(jīng)過(guò)Token嵌入、位置嵌入和段落嵌入處理后得到等長(zhǎng)的向量化表示,輸入詞嵌入層的BERT生成大小為l*768的詞向量矩陣, 其中‘l’為輸入長(zhǎng)度,‘768’為BERT的詞向量維度。
(2) 預(yù)處理的文本經(jīng)過(guò)BERT層獲取全文上下文信息關(guān)系的輸出,進(jìn)入局部語(yǔ)義嵌入層。由250個(gè)尺寸為3的卷積核進(jìn)行卷積提取局部語(yǔ)義,得到局部文本的特征圖作為嵌入向量。
(3) 接入由每層250個(gè)大小為3的卷積核組成的等長(zhǎng)卷積層,保證文本前后序列不變,輸出序列長(zhǎng)度為‘l-3+1’。等長(zhǎng)卷積將每個(gè)詞語(yǔ)與前后相鄰詞語(yǔ)的上下文信息進(jìn)行壓縮,進(jìn)一步加深每個(gè)詞語(yǔ)的語(yǔ)義,提高了詞嵌入的語(yǔ)義豐富性。
(4) 由大小為3、步長(zhǎng)為2的池化進(jìn)行下采樣,把序列壓縮到原始長(zhǎng)度的二分之一,擴(kuò)大局部語(yǔ)義提取范圍,減少總體計(jì)算復(fù)雜度;接著將局部語(yǔ)義嵌入層用殘差連接的方式與最終的池化層相連,殘差連接讓梯度忽略卷積層權(quán)重的影響,緩解梯度消散的問(wèn)題。
聚類(lèi)過(guò)后的文本,進(jìn)行歸類(lèi)、剔除了長(zhǎng)度較短、文本混亂的類(lèi)別,最終創(chuàng)建的數(shù)據(jù)集情況見(jiàn)表1,設(shè)定包含暴雨、大霧等九個(gè)類(lèi)別。以8∶1∶1的比例劃分訓(xùn)練集、測(cè)試集和驗(yàn)證集。
表2 應(yīng)急事故數(shù)據(jù)集
圖8 部分已標(biāo)注數(shù)據(jù)
為了驗(yàn)證BERT-DPCNN在標(biāo)注突發(fā)事件文本的針對(duì)性和有效性,選取BERT、BERT-TextCNN和Word2Vec-DPCNN作為基線模型進(jìn)行效果比較。
表3 實(shí)驗(yàn)配置條件
表4 實(shí)驗(yàn)參數(shù)
本實(shí)驗(yàn)使用網(wǎng)絡(luò)遠(yuǎn)程云主機(jī)進(jìn)行計(jì)算。
在本算法中主要采用正確率(Acc)作為評(píng)價(jià)指標(biāo),同時(shí)列出精確率(Precision)、召回率(Recall)和F1-Score值。假定短文本i的預(yù)測(cè)標(biāo)簽集合為S,以分類(lèi)需求正確的類(lèi)為正類(lèi),其余為負(fù)類(lèi)。TP個(gè)正類(lèi)文本正確歸到正類(lèi)標(biāo)簽,F(xiàn)N個(gè)正類(lèi)文本錯(cuò)誤歸到負(fù)類(lèi)標(biāo)簽,F(xiàn)P個(gè)負(fù)類(lèi)文本錯(cuò)誤歸到負(fù)類(lèi)標(biāo)簽,TN個(gè)負(fù)類(lèi)文本正確歸到負(fù)類(lèi)標(biāo)簽。
F1-Score是召回率和精確率的調(diào)和平均值:
(3)
正確率是判斷正確的數(shù)量占總量的比例:
(4)
精確率是判斷為正類(lèi)的數(shù)量占所有判斷結(jié)果的比例:
(5)
召回率是判斷為正類(lèi)的數(shù)量占所有正類(lèi)的比例:
(6)
在實(shí)驗(yàn)中Word2Vec-DPCNN模型使用了使用搜狗新聞作為訓(xùn)練語(yǔ)料的開(kāi)源詞向量,大小為300維(https://github.com/Embedding/Chinese-Word-Vectors)。
表5中BERT-DPCNN模型的正確率高于其他比較模型,表明了BERT-DPCNN模型對(duì)突發(fā)事故文本分類(lèi)的良好效果。F1值綜合了召回率和精確率,能夠更全面反映模型性能。分析表6和圖7中的F1值得出:在8個(gè)種類(lèi)的標(biāo)注表現(xiàn)中BERT-DPCNN模型性能全面優(yōu)于其他模型。通過(guò)與BERT模型的比較發(fā)現(xiàn),實(shí)驗(yàn)結(jié)果與前文所做的假設(shè)一致:BERT對(duì)處理全文上下文的良好能力與DPCNN處理局部上下文的能力相互彌補(bǔ),使得BERT-DPCNN模型取得對(duì)比實(shí)驗(yàn)中最好的效果,BERT模型次之。與基于傳統(tǒng)詞向量模型的Word2Vec-DPCNN模型相比,體現(xiàn)了預(yù)訓(xùn)練語(yǔ)言模型強(qiáng)大的語(yǔ)言處理優(yōu)勢(shì)和遷移泛化能力。而B(niǎo)ERT-TextCNN的效果較差,結(jié)合TextCNN的池化特點(diǎn),表明在整體突發(fā)事故文本的標(biāo)注任務(wù)下,對(duì)于上下文特征的依賴(lài)要大于對(duì)局部文本特征的依賴(lài),與使用的數(shù)據(jù)集長(zhǎng)度較短、全文語(yǔ)義理解的作用大于局部語(yǔ)義理解的作用特征相符。
表5 正確率
表6 BERT模型的實(shí)驗(yàn)結(jié)果
從模型反饋的標(biāo)注數(shù)據(jù)可以發(fā)現(xiàn):
(1) 所有模型對(duì)暴雨、地震、和颶風(fēng)文本標(biāo)注處理上差異較小,說(shuō)明在進(jìn)行主題建模時(shí),與其他文本相比這三類(lèi)突發(fā)事件確定的特征明顯,實(shí)施緊急預(yù)案時(shí)可采取針對(duì)性強(qiáng)的手段。對(duì)這三類(lèi)突發(fā)事件進(jìn)行單獨(dú)標(biāo)注時(shí),選擇參數(shù)較少的模型以節(jié)約運(yùn)算成本。
(2) 在標(biāo)注大霧、道路交通、溫度和工商貿(mào)火災(zāi)突發(fā)事件上,模型之間效果差別較大,出現(xiàn)一定程度的過(guò)擬合。反應(yīng)了標(biāo)注模型對(duì)這幾類(lèi)突發(fā)事件確定的主題辨識(shí)不明顯,后續(xù)研究中考慮對(duì)幾類(lèi)突發(fā)事件有針對(duì)性的重新建模或適度擴(kuò)大標(biāo)注數(shù)據(jù)集。但BERT-DPCNN和BERT依然取得較好的效果,證明了預(yù)訓(xùn)練語(yǔ)言模型對(duì)文本強(qiáng)大的處理能力。
數(shù)據(jù)集的構(gòu)建是精確識(shí)別突發(fā)事件類(lèi)型的前提和基礎(chǔ),本文基于預(yù)訓(xùn)練語(yǔ)言模型BERT通過(guò)BERTopic和人工去噪構(gòu)建主題模型建立數(shù)據(jù)集,以應(yīng)對(duì)突發(fā)事件新聞知識(shí)量大、專(zhuān)業(yè)細(xì)分強(qiáng)、種類(lèi)繁多等對(duì)自然語(yǔ)言處理帶來(lái)的困難。例如前文提到的礦山事故的分類(lèi);化學(xué)品事故可分為泄露、火災(zāi)和爆炸等類(lèi)型。相比于人工標(biāo)注,用主題建模的技術(shù)提高了數(shù)據(jù)集的質(zhì)量,基于突發(fā)事件數(shù)據(jù)集訓(xùn)練的BERT-DPCNN模型在測(cè)試集中加權(quán)平均的F1值達(dá)到了0.9741。
在標(biāo)注模型方面,基于預(yù)訓(xùn)練語(yǔ)言模型的BERT-DPCNN在突發(fā)事件短文本新聞的標(biāo)注中展現(xiàn)了有效性和可行性,平均每類(lèi)突發(fā)事件使用的訓(xùn)練集為1400條左右即可獲得0.97的算法性能,結(jié)合數(shù)據(jù)獲取的難度,BERT-DPCNN相比于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練成本更低;在9類(lèi)突發(fā)事件標(biāo)注中,BERT-DPCNN相比于BERT均有一定程度的提升,進(jìn)一步發(fā)揮預(yù)訓(xùn)練語(yǔ)言模型的能力。
圖9 F1-Score值對(duì)比
(1) 本文提出對(duì)突發(fā)事件新聞進(jìn)行爬取與清洗,利用遷移模型進(jìn)行主題建模,構(gòu)建數(shù)據(jù)集,實(shí)現(xiàn)對(duì)突發(fā)事件標(biāo)注的方法。
(2) 研究圍繞著基于突發(fā)事件新聞文本短、信息量大的特點(diǎn)展開(kāi),基于自然語(yǔ)言處理中詞嵌入的特性,用BERT模型分別完成了主題建模和文本標(biāo)注模型中的詞向量輸出,利用DPCNN網(wǎng)絡(luò)和BERT進(jìn)行優(yōu)勢(shì)互補(bǔ)進(jìn)一步處理短文本。
(3) 雖然研究中只驗(yàn)證在突發(fā)事件標(biāo)注上該方法的有效性和可行性,但利用預(yù)訓(xùn)練模型對(duì)采集的數(shù)據(jù)進(jìn)行主題建模和分類(lèi)標(biāo)注具有遷移性,具備在其他領(lǐng)域進(jìn)一步研究的基礎(chǔ)。
(4) 本研究中也存在著不足:BERT模型復(fù)雜度較高,性能較好的同時(shí)也帶來(lái)了訓(xùn)練時(shí)間的增長(zhǎng)。下階段將選取BERT的知識(shí)蒸餾模型或其他預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行研究,在兼顧良好效果的同時(shí)縮短訓(xùn)練的時(shí)間成本。