陳錕 裴雷 范濤
關(guān)鍵詞: 突發(fā)事件; 多模態(tài)分類; 混合融合; 特征抽取
DOI:10.3969 / j.issn.1008-0821.2023.06.003
〔中圖分類號(hào)〕D63; TP391.3 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2023) 06-0024-11
隨著信息技術(shù)的迅猛發(fā)展, 網(wǎng)絡(luò)已然成為當(dāng)下人們所依賴的虛擬世界。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(China Internet Network Information Center, CNNIC)發(fā)布的第50 次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》中顯示, 截至2022 年6 月, 我國的網(wǎng)民規(guī)模已經(jīng)達(dá)到10 51 億人次, 網(wǎng)絡(luò)新聞?dòng)脩敉黄疲?88億, 占總體的75 0%[1] 。由于網(wǎng)民數(shù)量規(guī)模的龐大, 一旦在網(wǎng)絡(luò)環(huán)境中產(chǎn)生突發(fā)事件的新聞并傳播, 其傳播速度之快、輻射面之廣極易引起群體性事件的發(fā)生, 這對(duì)于社會(huì)秩序是極具破壞力的, 同時(shí)也會(huì)對(duì)政府公信力和執(zhí)政能力提出挑戰(zhàn), 網(wǎng)絡(luò)輿情也會(huì)在此過程中持續(xù)發(fā)酵。在中國共產(chǎn)黨第二十次全國代表大會(huì)中, 習(xí)總書記明確指出: “要提高公共安全治理水平。堅(jiān)持安全第一、預(yù)防為主, 建立大安全大應(yīng)急框架, 完善公共安全體系, 推動(dòng)公共安全治理模式向事前預(yù)防轉(zhuǎn)型”[2] 。《中華人民共和國突發(fā)事件應(yīng)對(duì)法》也指出: “要預(yù)防和減少突發(fā)事件的發(fā)生, 控制、減輕和消除突發(fā)事件引起的嚴(yán)重社會(huì)危害, 規(guī)范突發(fā)事件應(yīng)對(duì)活動(dòng)”[3] 。突發(fā)事件事態(tài)預(yù)防、輿情治理的前提工作便是對(duì)突發(fā)事件新聞進(jìn)行識(shí)別分類, 高效精確的分類能夠幫助相關(guān)部門搜集信息以及跟蹤其發(fā)展趨勢(shì), 當(dāng)某類突發(fā)事件的新聞數(shù)量陡然上升時(shí), 政府部門就可以及時(shí)關(guān)注和處理, 這不僅能提前預(yù)警, 為政府采取對(duì)應(yīng)的措施提供寶貴時(shí)間, 也能有效避免負(fù)面輿情升溫, 提升政府在人民群眾中的公信力。
突發(fā)事件的突發(fā)性、破壞性和衍生性等典型特征在傳播過程中會(huì)給社會(huì)帶來巨大的潛在威脅, 因此如何快速有效地識(shí)別分類突發(fā)事件信息成為目前的研究熱點(diǎn)。梳理突發(fā)事件分類相關(guān)研究, 可以發(fā)現(xiàn)以下兩個(gè)問題: ①多模態(tài)新聞在社交媒體中流行度較高[4] , 從筆者粗略統(tǒng)計(jì)的突發(fā)事件新聞數(shù)據(jù)來看, 多模態(tài)內(nèi)容所占比例達(dá)到約四成左右, 而現(xiàn)有的突發(fā)事件分類研究主要以文本模態(tài)為主[5-6] , 缺乏結(jié)合多模態(tài)特征的研究, 忽略了多模態(tài)信息能夠有效幫助提升突發(fā)事件分類模型性能的事實(shí); ②在突發(fā)事件新聞中, 存在模態(tài)缺失或單個(gè)文本對(duì)應(yīng)多張圖片的情況, 現(xiàn)有的多模態(tài)分類研究缺乏針對(duì)此問題的解決方案[7] 。鑒于此, 本文設(shè)計(jì)了一種基于多模態(tài)混合融合的突發(fā)事件分類模型(EmergencyClassification Model with Hybrid Fusion, ECMHF),該模型基于預(yù)訓(xùn)練的BERT 模型和VGG19 模型對(duì)采集的新聞數(shù)據(jù)進(jìn)行文本描述特征和圖片語義特征抽取, 并對(duì)其采取級(jí)聯(lián)拼接操作構(gòu)成多模態(tài)模型的輸入, 最后將單模態(tài)模型和多模態(tài)模型的決策層輸出賦予權(quán)重, 進(jìn)一步提升整體模型的檢測(cè)性能和魯棒性, 從而實(shí)現(xiàn)混合模態(tài)下的突發(fā)事件分類。
1研究現(xiàn)狀
突發(fā)事件的分類研究是應(yīng)急決策系統(tǒng)中的關(guān)鍵環(huán)節(jié), 對(duì)于開展應(yīng)急響應(yīng)工作有著至關(guān)重要的作用。本節(jié)將從突發(fā)事件現(xiàn)有研究和多模態(tài)混合融合研究兩個(gè)方面展開述評(píng)。
1.1突發(fā)事件分類研究
如何高效精準(zhǔn)分類突發(fā)事件信息的關(guān)鍵在于信息特征的表示和模型的學(xué)習(xí)能力, 為此國內(nèi)外眾多學(xué)者開展了大量研究, 大體上可以分為兩個(gè)階段:第一階段是利用傳統(tǒng)的機(jī)器學(xué)習(xí)方法; 第二階段是采用層次結(jié)構(gòu)緊密的深度學(xué)習(xí)方法。在機(jī)器學(xué)習(xí)階段, 學(xué)者通過自主研究設(shè)計(jì)特征提取規(guī)則來將非結(jié)構(gòu)化的信息處理成形式一致的特征, 再利用分類器實(shí)現(xiàn)進(jìn)一步的分類工作。例如, Liu Y 等[8] 考慮到單詞的順序和語義關(guān)系的重要性, 使用可變長度的n-gram 來表示文本特征, 利用支持向量機(jī)(SupportVector Machine, SVM)實(shí)現(xiàn)對(duì)突發(fā)事件文本分類;Wei B B 等[9] 在公共安全三角理論的基礎(chǔ)上構(gòu)建相應(yīng)的事件規(guī)則庫, 將此輸入到最大熵模型(MaximumEntropy Model, MEM)中進(jìn)行訓(xùn)練, 構(gòu)造出突發(fā)事件分類模型; 陳國蘭[10] 采用相對(duì)詞頻、詞頻增長率和爆發(fā)詞權(quán)重來提取爆發(fā)詞特征, 采用共詞分析的方法實(shí)現(xiàn)爆發(fā)詞聚類, 以此達(dá)到突發(fā)事件識(shí)別分類的目的; 張馨月等[11] 構(gòu)建領(lǐng)域?qū)S猛S迷~表后利用TF-IDF 方法抽取文本特征, 再利用支持向量機(jī)在公開數(shù)據(jù)集上進(jìn)行文本分類; 閆宏麗等[12] 將突發(fā)事件新聞中成組出現(xiàn)的類別關(guān)鍵詞作為決策樹的屬性項(xiàng), 通過判定類別組合情況實(shí)現(xiàn)分類。然而,這些提取方法通常只能抽取到表層的信息特征, 遺漏掉高層次的抽象語義信息, 難以表達(dá)詞與詞之間的相互關(guān)系和詞序特征, 同時(shí)對(duì)于高維數(shù)據(jù)的泛化學(xué)習(xí)能力較差, 使得模型在識(shí)別分類的準(zhǔn)確率上達(dá)到瓶頸階段。
近些年隨著技術(shù)和理論的不斷發(fā)展, 深度學(xué)習(xí)逐漸成為研究熱點(diǎn), 與傳統(tǒng)的機(jī)器學(xué)習(xí)相比, 前者更能全面地挖掘深層次的語義特征信息。深度學(xué)習(xí)是由Hinton G E 等[13] 在2006 年提出的概念, 主要是通過深層結(jié)構(gòu)的學(xué)習(xí)模型從數(shù)據(jù)中提取出高度抽象的具備語義屬性特征的信息, 解決了淺層結(jié)構(gòu)網(wǎng)絡(luò)對(duì)復(fù)雜函數(shù)表達(dá)效果欠佳的問題, 因其性能優(yōu)越而被廣泛應(yīng)用于自然語言處理的多個(gè)任務(wù)中, 其中突發(fā)事件分類任務(wù)也因利乘便, 日臻完善。例如,Lai S W 等[14] 首先將文本特征進(jìn)行詞向量處理, 并將其輸入到RNN 和CNN 聯(lián)合組成的RCNN 神經(jīng)網(wǎng)絡(luò)中去, 最后可以觀察到分本分類的效果顯著提升;Zhou B 等[15] 利用多個(gè)基于BERT 模型對(duì)特定突發(fā)事件的推文進(jìn)行分類, 實(shí)驗(yàn)結(jié)果顯示基于BERT 的模型其準(zhǔn)確率均有所上升; 胡庭愷等[16] 利用BERT模型抽取文本特征, 采用自適應(yīng)決策邊界模型來學(xué)習(xí)突發(fā)事件類別在高維語義空間上的決策邊界, 該模型的有效性在公開數(shù)據(jù)集上被得以驗(yàn)證; 范昊等[17] 以新聞標(biāo)題為研究對(duì)象, 構(gòu)建融合詞嵌入信息、文本特征信息和上下文信息的BERT-TEXTC?NN-BiLSTM 模型, 模型泛化能力和分類效果相較于傳統(tǒng)模型有明顯上升; 宋英華等[5] 考慮到詞語間或詞語與類別間相互關(guān)系, 在關(guān)鍵詞特征的研究基礎(chǔ)上提出了DCLSTM-MLP 的深度學(xué)習(xí)新聞文本分類模型, 以實(shí)現(xiàn)突發(fā)事件的識(shí)別和分類。
雖然深度學(xué)習(xí)方法在突發(fā)事件分類研究中獲得巨大成功, 但從以上文獻(xiàn)可以看出, 目前該領(lǐng)域的分類研究仍然局限于單模態(tài)分類, 未考慮到圖片語義特征對(duì)分類模型研判性能的提升作用, 從而導(dǎo)致特征信息捕捉不充分、模型學(xué)習(xí)能力較弱的問題。針對(duì)此問題, 本文擬在突發(fā)事件分類研究中引入多模態(tài)融合思想, 結(jié)合突發(fā)事件文本和對(duì)應(yīng)的圖片展開分類研究。
1.2混合融合分類研究
混合融合是特征級(jí)融合和決策級(jí)融合的結(jié)合體[18] 。特征級(jí)融合指對(duì)多模態(tài)數(shù)據(jù)進(jìn)行特征信息提取后將其融合在一起的方式; 決策級(jí)融合是指將對(duì)數(shù)據(jù)進(jìn)行推理或評(píng)估得到的初步?jīng)Q策信息進(jìn)行融合的方式。多模態(tài)混合融合方法雖然使得模型的復(fù)雜度增加, 學(xué)習(xí)難度加大, 但結(jié)合了兩種策略的優(yōu)勢(shì), 在深度學(xué)習(xí)模型搭建中較為常用。例如, Lan ZZ 等[19] 將混合融合方法應(yīng)用于多媒體事件的檢測(cè),設(shè)計(jì)雙融合的方案解決了過擬合問題, 并在該領(lǐng)域取得SOTA 效果; 陶霄等[20] 從文本、視覺和用戶3個(gè)特征維度切入口搭建謠言檢測(cè)模型, 并在前后期融合以實(shí)現(xiàn)特征和決策的自動(dòng)加權(quán), 最后將模型運(yùn)用于微博和Twitter 數(shù)據(jù)集檢驗(yàn)自身的準(zhǔn)確率; HuangF 等[21] 利用視覺與語義內(nèi)容之間的內(nèi)在聯(lián)系和特征, 通過混合融合框架搭建起一種新的圖文情感識(shí)別模型, 即深度多模態(tài)關(guān)注融合模型; Tashu T M等[22] 以藝術(shù)繪畫為研究對(duì)象, 利用CNN 抽取圖像特征, 利用BERT 聯(lián)動(dòng)Bi-GRU 捕捉具有上下文關(guān)系的文本特征, 最后進(jìn)行多級(jí)融合后, 構(gòu)造出藝術(shù)繪畫多模態(tài)情感識(shí)別框架; Yucel C 等[23] 在情感識(shí)別領(lǐng)域也提出一種混合融合策略, 尋找相同的潛在空間來融合視頻和音頻兩者的特征, 并采用D-S證據(jù)理論來融合視聽空間和文本模態(tài)特征; 張繼東等[24] 以旅游評(píng)論為研究對(duì)象, 將融合后的文本表情特征以及提取的圖片特征分別放入分類器中進(jìn)行反諷識(shí)別, 再將二者的識(shí)別概率進(jìn)行融合, 構(gòu)建出多模態(tài)旅游評(píng)論中反諷識(shí)別模型。
考慮到現(xiàn)有的突發(fā)事件分類研究中模態(tài)單一致使分類效果差、突發(fā)事件信息結(jié)構(gòu)不統(tǒng)一導(dǎo)致模態(tài)缺失或單文本對(duì)應(yīng)多圖片的問題, 本文將在多模態(tài)思想的基礎(chǔ)上加入混合融合策略, 即用深度學(xué)習(xí)方法提取出突發(fā)事件新聞的文本描述特征和圖像語義特征后, 利用加權(quán)平均策略將指向同一條文本的所有圖片特征處理為一個(gè)特征向量, 然后在前后期分別對(duì)特征信息和決策信息進(jìn)行融合, 并將收集的真實(shí)新聞數(shù)據(jù)輸入到模型中進(jìn)行訓(xùn)練和測(cè)試, 以此構(gòu)建起魯棒性強(qiáng)、分類效果優(yōu)越的突發(fā)事件分類模型。
2基于多模態(tài)融合的突發(fā)事件分類模型構(gòu)建
2.1模型總體架構(gòu)
本文將采集的突發(fā)事件新聞數(shù)據(jù)拆分為文本數(shù)據(jù)和圖片數(shù)據(jù), 然后分別輸入到特征提取模型中進(jìn)行特征提取, 再將提取的文本特征和圖片特征輸入到特征融合模型中進(jìn)行信息融合, 最后將單模態(tài)模型和多模態(tài)模型的決策層輸出賦予對(duì)應(yīng)權(quán)重, 以實(shí)現(xiàn)混合融合策略下的突發(fā)事件分類。
具體地, 構(gòu)建多模態(tài)融合的突發(fā)事件分類模型ECMHF, 該模型由4 個(gè)部分組成, 分別是突發(fā)事件文本特征抽取分類模型、突發(fā)事件圖像特征抽取分類模型、突發(fā)事件多模態(tài)融合分類模型和突發(fā)事件混合融合策略, 其中混合融合由前期特征融合和后期各模型決策層輸出的概率分布及對(duì)應(yīng)權(quán)重組成, 模型總體架構(gòu)如圖1 所示。在文本模塊, 利用預(yù)訓(xùn)練模型BERT 對(duì)其進(jìn)行特征抽取, 然后聯(lián)動(dòng)BiLSTM 網(wǎng)絡(luò)捕捉上下文語義特征信息; 在圖片模塊, 利用遷移學(xué)習(xí)的思想將VGG19 卷積神經(jīng)網(wǎng)絡(luò)作為特征抽取的基礎(chǔ)模型; 在特征級(jí)融合模塊, 采用Concatenate 特征拼接技術(shù)融合文本特征和圖像特征; 最后利用3 個(gè)分類模型的決策層輸出進(jìn)行權(quán)重分配, 構(gòu)建出ECMHF 模型。
2.2突發(fā)事件文本特征抽取分類模型
BERT(Bidirectional Encoder Representations fromTransformers)[25] 是谷歌團(tuán)隊(duì)的Devlin J 等在2018 年提出的預(yù)訓(xùn)練語言模型, 因掩碼語言模型(MaskedLanguage Model, MLM)和下一句預(yù)測(cè)(Next SentencePrediction, NSP)的獨(dú)特設(shè)計(jì)而在眾多的自然語言處理任務(wù)中表現(xiàn)突出。預(yù)訓(xùn)練的BERT 模型可以很好地提取詞語級(jí)、句子級(jí)和句子之間關(guān)系的特征, 在文本分類任務(wù)[26] 、序列標(biāo)注任務(wù)[27] 以及問答系統(tǒng)領(lǐng)域[28] 等都取得了很好的效果。在Jawahar G 等[29]對(duì)BERT 模型的內(nèi)置推理研究中表明, 各編碼層學(xué)習(xí)到的特征不盡相同, 從低向上分別是短語級(jí)特征、句法結(jié)構(gòu)特征和語義特征, 層次越高, 學(xué)習(xí)到的特征就越抽象。因此, 本文采用BERT 模型對(duì)突發(fā)事件的文本信息進(jìn)行描述特征抽取, 同時(shí)引入BiL?STM 網(wǎng)絡(luò)來捕捉文本中長距離的上下文語義信息,獲取能為分類提供決策的優(yōu)質(zhì)特征。具體流程如圖2 所示。
2.3突發(fā)事件圖像特征抽取分類模型
在突發(fā)事件識(shí)別中, 除文本以外, 圖片同樣包含著豐富的視覺語義信息, 有助于精確識(shí)別突發(fā)事件類型, 因此在多模態(tài)分析過程中, 圖片的特征抽取也很重要。大量研究表明, 卷積神經(jīng)網(wǎng)絡(luò)在圖像特征抽取方面卓有成效, 在計(jì)算機(jī)視覺領(lǐng)域表現(xiàn)突出。本文選?。郑牵牵保?網(wǎng)絡(luò)作為突發(fā)事件圖像特征抽取器, VGG19 模型是在ImageNet 數(shù)據(jù)集(含有1 400多萬張圖片, 超過2 萬多個(gè)分類)上進(jìn)行預(yù)訓(xùn)練, 取最后一層作為圖像特征輸出, 其優(yōu)勢(shì)在于在感受也相同時(shí), 采用迭代效率更高的3×3 小卷積減少參數(shù)量, 增加多個(gè)非線性層來保證復(fù)雜的模型學(xué)習(xí), 同時(shí)其付出代價(jià)更?。郏常保?。
本文利用開源計(jì)算機(jī)視覺庫OpenCV[32] 內(nèi)置的resize()函數(shù)將圖片尺寸統(tǒng)一設(shè)置為224×224, 帶有RGB 彩色三通道, 作為VGG19 模型的輸入。再將深度學(xué)習(xí)庫Keras 中封裝的VGG19 載入, 其結(jié)構(gòu)包含16 個(gè)卷積層, 5 個(gè)最大池化層和3 個(gè)全連接層, 為保證實(shí)現(xiàn)領(lǐng)域遷移下的特征學(xué)習(xí)效果, 將VGG19 模型的權(quán)重參數(shù)Weights 設(shè)置為Imagenet,隨后將訓(xùn)練得到的特征向量輸入到以ReLU 為激活函數(shù)的Dense 層。為防止出現(xiàn)過擬合現(xiàn)象, 增強(qiáng)模型泛化能力, 本文加入Dropout 層隨機(jī)丟棄網(wǎng)絡(luò)單元, 最后將結(jié)果輸入到Softmax 函數(shù)中獲得圖像的分類標(biāo)簽。具體模型如圖3 所示。
2.4突發(fā)事件多模態(tài)融合分類模型
多模態(tài)特征融合能夠捕捉不同模態(tài)之間的信息交互, 是提升多模態(tài)分類模型性能的關(guān)鍵步驟[33] 。特征融合的方式有簡單的級(jí)聯(lián)融合和加權(quán)融合, 雖然特征級(jí)聯(lián)融合比較簡單, 但在識(shí)別任務(wù)中也能有效提升模型性能[34] 。本文選取級(jí)聯(lián)拼接的方式來融合突發(fā)事件的文本和圖片特征, 即用Concatenate操作將兩者聯(lián)合起來。
對(duì)于上游任務(wù)中獲取的文本描述特征H 和圖片語義特征V 進(jìn)行拼接, 得到多模態(tài)向量表示M,如式(8) 所示。
3實(shí)驗(yàn)與結(jié)果分析
3.1數(shù)據(jù)獲取及數(shù)據(jù)預(yù)處理
在國家標(biāo)準(zhǔn)化管理委員會(huì)發(fā)布的《突發(fā)事件分類與編碼》中將突發(fā)事件分為4 類: 自然災(zāi)害事件、公共衛(wèi)生事件、社會(huì)安全事件和事故災(zāi)難事件。本文將全球網(wǎng)、中國法院網(wǎng)、百度新聞以及澎湃新聞等新聞媒體作為數(shù)據(jù)源頭, 以4 類事件名稱為關(guān)鍵詞檢索, 采用爬蟲工具與人工結(jié)合的方法,共采集文本2 125條, 圖片2 137張, 文本與圖片存在一對(duì)多情況, 數(shù)據(jù)示例如圖4 所示。
對(duì)獲取的突發(fā)事件新聞進(jìn)行預(yù)處理, 采用以下手段措施來檢驗(yàn)數(shù)據(jù)可用性和降低噪音: ①檢查圖片與文本的契合度, 對(duì)圖文不符的進(jìn)行剔除; ②利用Python 對(duì)文本去除特殊字符和停用詞; ③導(dǎo)入CV2 庫檢測(cè)圖片是否可讀取和修改為224×224 尺寸,對(duì)不符合要求的圖片進(jìn)行剔除; ④以圖片存儲(chǔ)路徑字符串為基礎(chǔ)對(duì)象, 對(duì)其進(jìn)行特定修改后獲得對(duì)應(yīng)文本位置, 再一一對(duì)應(yīng)讀??; ⑤為不同事件類型貼上數(shù)字標(biāo)簽, 通過fit_transform 方法轉(zhuǎn)換為one-hot形式; ⑥將清洗后的文本、圖像和標(biāo)簽數(shù)據(jù)存儲(chǔ)為Pickle 文件。經(jīng)過清洗篩選最終獲得符合條件的文本圖片2 111對(duì), 各類別文本和圖片數(shù)量如表1 所示, 再將數(shù)據(jù)按照4 ∶1 劃分為訓(xùn)練集和測(cè)試集, 分別為1 688對(duì)和423對(duì)。
3.2實(shí)驗(yàn)設(shè)計(jì)
3.2.1實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置
本文的所有實(shí)驗(yàn)均使用Python3.8 進(jìn)行編寫運(yùn)行, 使用的深度學(xué)習(xí)框架為Tensorflow2.10.0, 實(shí)驗(yàn)運(yùn)行設(shè)備的內(nèi)存為16.0GB, Intel(R) Iris(R) XeGraphics 顯卡, CPU 型號(hào)為Intel(R) Core(TM) i5-12500H。
在本文的ECMHF 模型中, BERT 預(yù)訓(xùn)練參數(shù)使用谷歌提供的基于維基百科中文預(yù)料訓(xùn)練好的模型參數(shù), 句子長度設(shè)置為128, 若長度大于該值則從左向右截?。保玻?字符作為輸入數(shù)據(jù), 若不足則采用Padding 方法補(bǔ)充為0, 抽取模型的sequence_output 特征作為文本特征向量表示。在BiLSTM 中,將LSTM 的Units 設(shè)置為128, 優(yōu)化器采用隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)[35] , 學(xué)習(xí)率設(shè)置為0.001, 動(dòng)量大小為0.9, 同時(shí)采用Drop?out 技術(shù)防止模型訓(xùn)練過擬合, 其值設(shè)置為0.5,全連接層使用激活函數(shù)ReLU。利用Earlystopping方法監(jiān)測(cè)損失值, 當(dāng)損失值在10 個(gè)輪次中沒有進(jìn)展時(shí)自動(dòng)終止訓(xùn)練。VGG19 模型訓(xùn)練時(shí)設(shè)置輸入張量為(224,224,3), 抽取模型最后一個(gè)全連接層輸出作為圖像特征。經(jīng)多次實(shí)驗(yàn)發(fā)現(xiàn), 文本特征抽取分類模型在訓(xùn)練輪數(shù)為45 左右便穩(wěn)定, 故將Epochs 設(shè)置為50, 批次大小設(shè)置為8; 圖片特征抽取分類模型Epochs 設(shè)置為100, 批次大小設(shè)置為8; 特征融合分類模型Epochs 設(shè)置為25, 批次大小設(shè)置為128。損失函數(shù)設(shè)置為交叉熵?fù)p失函數(shù)。
經(jīng)過多次動(dòng)態(tài)調(diào)整權(quán)重的實(shí)驗(yàn)對(duì)比, 本文提出的ECMHF 模型在α =0.4、β =0. 4、γ =0.2 時(shí)識(shí)別性能最好, 即決策層融合階段文本分類模型輸出概率分布權(quán)重為0.4, 多模態(tài)分類模型輸出概率分布權(quán)重為0.4, 圖像分類模型概率分布權(quán)重為0.2。
3.2.2評(píng)價(jià)指標(biāo)
本文選擇精確率(Precision)、召回率(Recall)和F1 值(F1-score)來對(duì)突發(fā)事件的分類結(jié)果進(jìn)行評(píng)估, 精確率是衡量模型不將負(fù)類樣本預(yù)測(cè)為正的能力, 召回率是衡量模型找出真樣本的能力, F1 值是衡量模型的穩(wěn)健能力, 其值越大, 模型穩(wěn)健能力越強(qiáng)。具體計(jì)算方式如式(12)~式(14) 所示。
其中TP 表示樣本為正且預(yù)測(cè)為正, FP 表示樣本為負(fù)但預(yù)測(cè)為正, FN 表示樣本為正預(yù)測(cè)為負(fù)。
3.2.3基線模型
為驗(yàn)證本文模型的有效性, 選取以下模型作為對(duì)比的基線模型, 這些模型在之前研究中都達(dá)到過優(yōu)越效果, 具有一定的對(duì)比性。
1) BERT-BiLSTM。為驗(yàn)證提出模型的有效性,本文設(shè)計(jì)BERT 聯(lián)動(dòng)BiLSTM 的對(duì)比模型來對(duì)文本特征進(jìn)行抽取, 后接一個(gè)維度為256、激活函數(shù)為ReLU 的全連接層, 以及一個(gè)分類的Softmax 層。
2) VGG19[36] 。VGG19 模型在眾多計(jì)算機(jī)視覺任務(wù)中取得過最優(yōu)效果, 為探索該模型在領(lǐng)域遷移后的效果, 將收集的突發(fā)事件圖片數(shù)據(jù)處理后輸入模型獲得圖像語義特征, 后接一個(gè)維度為256、激活函數(shù)為ReLU 的全連接層, 以及一個(gè)分類的Softmax 層。
3) ECMMF。為與混合模態(tài)模型性能對(duì)比, 構(gòu)建文本圖片融合的多模態(tài)分類模型, 將突發(fā)事件的文本和圖片特征進(jìn)行拼接, 后接一個(gè)維度為256、激活函數(shù)為ReLU 的全連接層和用于分類的Softmax層。
4) SVM(text)[11] 。SVM 在傳統(tǒng)的機(jī)器學(xué)習(xí)任務(wù)中性能優(yōu)越, 將BERT 模型抽取的文本特征降維后作為該模型輸入, 對(duì)文本進(jìn)行分類。
5) SVM(img)。將VGG19 模型抽取的圖片特征作為SVM 輸入, 對(duì)圖片進(jìn)行分類。
6) SVM(text+img)。級(jí)聯(lián)拼接降維后的文本描述特征和圖片語義特征, 作為SVM 的多模態(tài)特征輸入。
3.3實(shí)驗(yàn)結(jié)果分析
本文通過在搜集的突發(fā)事件新聞數(shù)據(jù)集上實(shí)驗(yàn)評(píng)估模型的性能效果, 通過消融實(shí)驗(yàn)和不同模型對(duì)比實(shí)驗(yàn)來比較模型的評(píng)價(jià)指標(biāo)以及細(xì)粒度事件上的分類效果, 以此達(dá)到驗(yàn)證本文提出的基于多模態(tài)融合的突發(fā)事件分類模型(ECMHF)有效性的目的。
3.3.1消融實(shí)驗(yàn)
為驗(yàn)證本文提出模型的有效性, 進(jìn)行消融實(shí)驗(yàn)對(duì)比, 實(shí)驗(yàn)結(jié)果如表2 所示。
從實(shí)驗(yàn)結(jié)果可以看出: 在融合文本特征和圖片特征后, 模型的表現(xiàn)均優(yōu)于單模態(tài)模型的表現(xiàn), 驗(yàn)證了信息融合策略的有效性。同時(shí), 為驗(yàn)證本文提出的混合融合策略的有效性, 繪制ECMHF 模型與單文本模態(tài)分類模型BERT-BiLSTM 與單圖像模態(tài)分類模型VGG19 的分類效果對(duì)比圖, 如圖5 所示。在突發(fā)事件4 類新聞的分類效果中, 最差的是基于圖像特征的VGG19 模型, 其F1 值遠(yuǎn)低于BERTBiLSTM模型和ECMHF 模型, 說明突發(fā)事件新聞識(shí)別分類任務(wù)中單一的圖像語義特征在信息表征能力上比文本描述特征弱。此外, 在自然災(zāi)害類事件新聞中BERT-BiLSTM 模型分類效果最佳, 比EC?MHF 模型的F1 值高出0.38%, 但在事故災(zāi)難、公共衛(wèi)生、社會(huì)安全3 類突發(fā)事件的識(shí)別分類任務(wù)中均為ECMHF 模型最佳, 其F1 值分別高出BERTBiLSTM模型0.888%、1.255%和4.685%。總體而言, ECMHF 模型識(shí)別分類綜合效果最佳, 說明混合融合策略極大地提升了模型在突發(fā)事件新聞上的分類性能。
3.3.2不同模型對(duì)比實(shí)驗(yàn)
本文設(shè)計(jì)的其余基線模型對(duì)突發(fā)事件整體識(shí)別分類的結(jié)果如表3 所示。結(jié)合表1 分析, 在實(shí)驗(yàn)結(jié)果對(duì)比中發(fā)現(xiàn): 捕捉長距離雙向語義信息的BERTBiLSTM模型性能優(yōu)于SVM 模型, 這說明融合文本上下文語義信息能夠提升文本分類器的識(shí)別效果。SVM 模型在圖片分類上的效果優(yōu)于深層次網(wǎng)絡(luò)結(jié)構(gòu)的VGG19 模型, 原因在于VGG19 提取圖像語義特征屬于高維特征, 且最后連接Softmax 分類器, 將提取的特征輸入到兩個(gè)分類器模型時(shí), SVM 對(duì)高維特征的效果分類會(huì)比Softmax 好[37] 。融合文本圖片特征的多模態(tài)突發(fā)事件識(shí)別模型(Emergency Clas?sification Method with Multimodal Model, ECMMF)和基于SVM 的多模態(tài)識(shí)別模型均比單一模態(tài)識(shí)別模型在各項(xiàng)指標(biāo)上略勝一籌, 這充分展現(xiàn)出多模態(tài)融合在突發(fā)事件識(shí)別中的優(yōu)勢(shì)。值得關(guān)注的是, 本文提出的ERMHF 模型在各項(xiàng)指標(biāo)中均達(dá)到最優(yōu)效果, 與次優(yōu)模型相比, Precision 高出0.466%, Re?call 高出0.898%, F1-score 高出0.51%, 這充分說明ECMHF 模型性能優(yōu)越, 在突發(fā)事件新聞研究中提升了分類效果。
為對(duì)比各個(gè)模型在細(xì)粒度事件上的分類性能,繪制本文單模態(tài)分類模型和多模態(tài)分類模型在具體突發(fā)事件新聞上的識(shí)別效果, 得到各模型分類效果圖, 如圖6 所示。在自然災(zāi)害類事件新聞中, 識(shí)別分類效果最好的是BERT-BiLSTM 模型, F1 值達(dá)到99.231%; 在事故災(zāi)難類和社會(huì)安全類事件新聞中, 識(shí)別分類效果最好的是ECMHF 模型, F1 值分別為98.605%、99.259%; 在公共衛(wèi)生類事件新聞中, 識(shí)別分類效果最好的是ECMMH 模型和ECM?HF 模型, 兩者的F1 值均達(dá)到99.574%。在單模態(tài)文本分類中, BERT-BiLSTM 模型在自然災(zāi)害和公共衛(wèi)生事件中分類效果均優(yōu)于SVM 模型, 但二者在社會(huì)安全類事件新聞的分類效果遠(yuǎn)低于其他3類事件, 究其原因, 筆者認(rèn)為是由于訓(xùn)練樣本量偏少, 其訓(xùn)練樣本僅為257 對(duì)新聞數(shù)據(jù), 致使模型學(xué)習(xí)不充分, 分類效果相比其他3 類事件較差一點(diǎn);在單模態(tài)圖片分類中, SVM 模型在自然災(zāi)害類、事故災(zāi)難類和社會(huì)安全類事件新聞的分類效果均優(yōu)于基于VGG19 的分類模型, 但在公共衛(wèi)生類事件新聞上基于VGG19 的模型識(shí)別效果高出SVM 模型0.619%, 但兩個(gè)模型的分類效果均遠(yuǎn)低于文本分類效果。此外, 在數(shù)據(jù)量充足的情況下, 兩個(gè)模型在自然災(zāi)害類和事故災(zāi)難類事件新聞的識(shí)別效果仍然低于66%, 筆者對(duì)此進(jìn)行圖像數(shù)據(jù)整理與核對(duì)時(shí)發(fā)現(xiàn), 兩類事件新聞中部分圖片在不依賴文本的情況下極難區(qū)分, 例如自然災(zāi)害類新聞中的火災(zāi)圖片、不可抗力導(dǎo)致的建筑坍塌圖片與事故災(zāi)害類新聞中的房屋火災(zāi)圖片、撞擊導(dǎo)致建筑毀壞圖片, 這也致使計(jì)算機(jī)在提取兩類新聞圖片特征時(shí)因相似度高存在極高的難度, 導(dǎo)致分類模型不易區(qū)分; 在多模態(tài)分類中, 加入混合融合策略的ECMHF 模型在各類具體事件新聞識(shí)別分類效果都達(dá)到了98.6%以上,除了在公共衛(wèi)生類事件新聞中與僅融合特征的EC?MMF 模型識(shí)別效果持平外, 其余各項(xiàng)指標(biāo)均高出SVM 模型和ECMMF 模型, 說明本文提出的模型在真實(shí)實(shí)驗(yàn)數(shù)據(jù)中表現(xiàn)出較強(qiáng)的識(shí)別分類性能。
繪制ECMHF 模型accuracy 準(zhǔn)確率曲線和loss損失曲線, 如圖7 和圖8 所示。從圖7 中可以看出,準(zhǔn)確率在前10 輪迭代中穩(wěn)步上升, 在20 輪迭代后呈現(xiàn)出穩(wěn)定趨勢(shì), 維持在98%以上, 表明模型學(xué)習(xí)能力穩(wěn)定, 同時(shí)模型訓(xùn)練也未出現(xiàn)過擬合現(xiàn)象。從圖8 的損失曲線走勢(shì)中可以看出, 迭代初期模型loss 值下降趨勢(shì)明顯, 表明深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)能力突出, 在20 輪后呈現(xiàn)出穩(wěn)定狀態(tài), 趨于收斂。
4結(jié)語
本文針對(duì)目前突發(fā)事件分類研究的模態(tài)單一、分類效果不理想的問題, 同時(shí)考慮到新聞媒體中承載著形式各異的新聞, 設(shè)計(jì)了一種在特征級(jí)和決策級(jí)混合融合的多模態(tài)突發(fā)事件分類模型ECMHF。該模型利用預(yù)訓(xùn)練的BERT 模型對(duì)新聞提取文本特征, 引用VGG19 模型對(duì)新聞提取圖像特征, 再以此為基礎(chǔ)構(gòu)建文本單模態(tài)、圖像單模態(tài)和特征融合多模態(tài)的分類模型, 最后將各模型的結(jié)果輸出進(jìn)行決策級(jí)融合。本文在真實(shí)的突發(fā)事件新聞數(shù)據(jù)集中展開實(shí)證研究, 實(shí)驗(yàn)結(jié)果表明, 混合融合的策略能夠較好地結(jié)合前期融合和后期融合的優(yōu)勢(shì), 具備一定的魯棒性和可拓展性, 該方法應(yīng)用于真實(shí)場(chǎng)景下突發(fā)事件新聞數(shù)據(jù)集所取得的分類效果均優(yōu)于其他基線模型, 表明ECMHF 模型在突發(fā)事件的分類中具有一定的優(yōu)勢(shì)。盡管本文提出的模型在采集的新聞數(shù)據(jù)集上效果良好, 但仍需在更多樣、更復(fù)雜的突發(fā)事件新聞環(huán)境進(jìn)一步驗(yàn)證, 尤其在針對(duì)圖片模態(tài)的研究中, 為更加精準(zhǔn)識(shí)別出不同類別的突發(fā)事件, 需要擴(kuò)大樣本數(shù)據(jù)量。在未來研究中, 將嘗試設(shè)計(jì)能夠有效學(xué)習(xí)突發(fā)事件多模態(tài)數(shù)據(jù)特征的算法, 增強(qiáng)模型表示能力, 從而能更為精準(zhǔn)地判別突發(fā)事件類型。