陳健瑤 夏立新 舒怡嫻
摘 要:[目的/意義]從事件文本句法特征視角出發(fā),提出一種面向突發(fā)自然災(zāi)害的網(wǎng)絡(luò)輿情事件識別方法,使得從小規(guī)模數(shù)據(jù)集中精準(zhǔn)的識別事件成為一種可能。[方法/過程]通過數(shù)據(jù)采集和事件語義標(biāo)注構(gòu)造訓(xùn)練集,接著提出了一種面向突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情事件識別的句法特征提取方法,利用句法特征提取方法從訓(xùn)練集中提取事件句法構(gòu)造事件句法特征庫,同時以句法向量的形式表示待測事件文本,最后利用事件句法與待測句法的句法相似度計算識別事件。[結(jié)果/結(jié)論]以“臺風(fēng)利奇馬”事件為例,證明了本研究提出的事件識別方法能夠精準(zhǔn)地從突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情文本中識別事件,同時通過對照試驗證明了在訓(xùn)練集規(guī)模較小的情況下,句法特征優(yōu)于文本特征的事件識別方法。
關(guān)鍵詞:事件識別;突發(fā)自然災(zāi)害;網(wǎng)絡(luò)輿情;句法相似度
DOI:10.3969/j.issn.1008-0821.2022.06.002
〔中圖分類號〕G250.2 〔文獻標(biāo)識碼〕A 〔文章編號〕1008-0821(2022)06-0017-10
Abstract:[Purpose/Significance]This paper proposes a method for network public opinion event recognition of sudden natural disasters based on syntactic features.[ Methods/Process]The training set was constructed through data collection and event semantic annotation,and then a syntactic feature extraction method for network public opinion event recognition of sudden natural disasters was proposed.The syntactic feature extraction method was used to extract the event syntax from the training set,construct the event syntax feature library,and represent the event text in the form of syntactic vector;Finally,the syntactic similarity between event syntax and the syntax to be tested was used to calculate and identify events.[ Results/Conclusion]Taking“typhoon lichima”as an example,through test set D2.It is determined that the optimal similarity of“typhoon lichma”event recognition was 0.93.Under this similarity,from the test set D2 55 events and 82 non events were identified in test set D2、D3 the F1 values of the experimental results were 0.851 and 0.929 respectively.At the same time,the comparative experiment shows that the syntactic feature is better than the text feature in the case of small training set.It provides a new reference for the research of network public opinion of sudden natural disasters.
Key words:event identification;sudden natural disaster;internet public opinion;syntactic similarity
我國是世界上突發(fā)自然災(zāi)害事件頻發(fā)的國家之一,且災(zāi)害事件種類多、災(zāi)情造成損失嚴(yán)重。僅在2019年一季度,我國發(fā)生的各種自然災(zāi)害就造成全國139.6萬人次受災(zāi),87人死亡,1.3萬人次緊急轉(zhuǎn)移安置,直接經(jīng)濟損失27.9億元[1],頻發(fā)的自然災(zāi)害給廣大人民群眾的生命和財產(chǎn)安全帶來了極大的威脅。突發(fā)自然災(zāi)害事件發(fā)生后,經(jīng)由社交媒體的傳播,相關(guān)災(zāi)害事件在網(wǎng)絡(luò)上引起網(wǎng)民熱烈的討論,得益于社交媒體平臺的廣泛參與性,網(wǎng)民們在網(wǎng)絡(luò)上發(fā)表著自己對災(zāi)害事件的看法或是評論,形成了災(zāi)害網(wǎng)絡(luò)輿情。一方面,災(zāi)害網(wǎng)絡(luò)輿情有利于相關(guān)受災(zāi)情況和求助信息的傳播,在一定程度上緩解了信息閉塞的問題;另一方面,一些未經(jīng)證實的信息容易在網(wǎng)絡(luò)上引起一系列的鏈?zhǔn)椒磻?yīng),進而演變成網(wǎng)絡(luò)謠言,如果這些網(wǎng)絡(luò)謠言不及時得到處理,將會引發(fā)社會公眾的恐慌,甚至影響到地區(qū)和國家的和諧穩(wěn)定。
突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情事件識別能夠很好地解決災(zāi)害信息中的謠言問題,輿情管理工作者利用事件識別方法從海量的災(zāi)害輿情網(wǎng)絡(luò)文本中識別出網(wǎng)民們熱烈討論的事件,通過對真實災(zāi)害情況進行比對,就能發(fā)現(xiàn)網(wǎng)民所關(guān)注熱點中所存在的謠言或者可能潛在成為謠言的信息,進而阻止這類信息的進一步傳播。除此之外,利用事件識別方法還能夠從災(zāi)害網(wǎng)絡(luò)輿情文本中識別能反映公眾態(tài)度、輿論走向的事件,進而理清災(zāi)害網(wǎng)絡(luò)輿情的來龍去脈。
因此,事件識別方法對于災(zāi)害網(wǎng)絡(luò)輿情研究工作十分重要。本文通過對網(wǎng)絡(luò)輿情事件文本句法特征進行研究,以句法特征表示事件文本的內(nèi)在特征,提出一種適用于特定災(zāi)害網(wǎng)絡(luò)輿情的事件識別方法,從海量的災(zāi)害網(wǎng)絡(luò)輿情文本中識別出輿情事件,為災(zāi)害網(wǎng)絡(luò)輿情的進一步研究提供參考。684ED746-DECC-4521-AA5E-60CB09745A21
1 相關(guān)研究
突發(fā)自然災(zāi)害事件關(guān)乎人民群眾的人身安全和財產(chǎn)安全,因此其所對應(yīng)的突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情所需要的政府引導(dǎo)與監(jiān)督要高于其他領(lǐng)域的網(wǎng)絡(luò)輿情,社交媒體在突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情的演化中應(yīng)當(dāng)扮演信息傳遞和信息交流的角色,而不是謠言和恐慌制造的平臺。對于突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情,事件識別研究能夠提升政府部門應(yīng)對突發(fā)自然災(zāi)害的網(wǎng)絡(luò)輿情的管理能力,降低為應(yīng)對突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情中虛假信息所耗費的成本,防止災(zāi)害輿情“二次傷害”,合理引導(dǎo)疏解民眾負面情緒。
1.1 突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情研究現(xiàn)狀
相關(guān)學(xué)者對我國突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情的研究已取得一定的進展。在突發(fā)自然災(zāi)害事件網(wǎng)絡(luò)輿情情感研究方面,金占勇等[2]構(gòu)建基于LSTM和Word2vec的突發(fā)災(zāi)害事件網(wǎng)絡(luò)輿情多情感識別模型,實驗結(jié)果表明,其所建立的模型在情感識別效果上優(yōu)于TF-IDF文本向量化方法、基于卷積神經(jīng)網(wǎng)絡(luò)以及傳統(tǒng)的機器學(xué)習(xí)方法。陳凌等[3]構(gòu)建一種用于分析用戶情緒上下文的長短期記憶模型(LSTM),對網(wǎng)絡(luò)輿情用戶情感傾向性和公眾情感趨勢進行分析與預(yù)測。劉雯等[4]將情感分析和時間序列分析共同引入到對災(zāi)害網(wǎng)絡(luò)輿情的分析中,以雅安地震為例,建立不同情感輿情走勢的時間序列模型并進行預(yù)測。
在突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情風(fēng)險監(jiān)測研究方面,秦琴等[5]從突發(fā)自然災(zāi)害的災(zāi)害要素、信息特征、媒體傳播和受眾傾向4個角度,構(gòu)建了網(wǎng)絡(luò)輿情風(fēng)險監(jiān)測指標(biāo)體系,并通過具體的量化分析方法保證了指標(biāo)體系的合理性。張宇等[6]在輿情監(jiān)測指標(biāo)構(gòu)建基礎(chǔ)上,提出基于加速遺傳算法的BP神經(jīng)網(wǎng)絡(luò)(AGABP)風(fēng)險評估方法,實驗結(jié)果顯示,其所構(gòu)建的AGABP模型在收斂速度、評估準(zhǔn)確度方面優(yōu)于BP神經(jīng)網(wǎng)絡(luò)、邏輯斯蒂曲線,能夠用于震災(zāi)網(wǎng)絡(luò)輿情風(fēng)險管理實踐中。劉悅等[7]提出并設(shè)計了基于大數(shù)據(jù)分析法的重大自然災(zāi)害事件網(wǎng)絡(luò)輿情信息智能監(jiān)測平臺,實驗結(jié)果表明,改進設(shè)計平臺可有效對自然災(zāi)害網(wǎng)絡(luò)輿情信息進行監(jiān)測,效果遠勝于傳統(tǒng)監(jiān)測平臺。
在突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情傳播演化及路徑分析方面,張巖等[8]將情感分析模型、動態(tài)演化模型、話題聚類模型、網(wǎng)絡(luò)社團模型結(jié)合地理可視化技術(shù)應(yīng)用到臺風(fēng)的災(zāi)害評估中,并以臺風(fēng)“山竹”事件為例,從情感值與討論熱度兩個角度入手,完整地展示本次事件網(wǎng)絡(luò)輿情的演化過程。李綱等[9]采用生存分析法和內(nèi)容分析法,描述地震災(zāi)害事件和臺風(fēng)災(zāi)害事件的網(wǎng)絡(luò)媒體報道的生命周期,探索影響生存過程的因素,并總結(jié)了兩類災(zāi)害的媒體報道周期特征。王晰巍等[10]應(yīng)用社會網(wǎng)絡(luò)分析方法,以“雅安地震”事件為例對新媒體環(huán)境下自然災(zāi)害輿情傳播路徑及網(wǎng)絡(luò)結(jié)構(gòu)進行實證研究,結(jié)論顯示,自然災(zāi)害網(wǎng)絡(luò)輿情傳播受到傳播媒介類型的影響。金占勇等[11]運用全面數(shù)據(jù)分析法,對6·23鹽城龍卷風(fēng)襲擊事件的網(wǎng)絡(luò)輿情傳播進行實證研究,得出網(wǎng)絡(luò)輿情傳播具有信息老化、官方傳媒信息掌控力更強、輿論引導(dǎo)者輿情傳播動力機制不同、輿情傳播內(nèi)容選擇多樣化等結(jié)論。馮小東等[12]將自然災(zāi)害的影響程度與網(wǎng)絡(luò)輿情熱度聯(lián)系起來,指出自然災(zāi)害的影響程度與網(wǎng)絡(luò)輿情熱度在時間和空間兩個方面存在相關(guān)性,并且相關(guān)性隨著自然災(zāi)害強度的增加而增加。
從近些年學(xué)者的研究可以看出,關(guān)于突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情研究已取得較大的進展,但是關(guān)于突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情事件識別的研究較少。因此,本文試圖探究一種適用于突發(fā)自然災(zāi)害下的網(wǎng)絡(luò)輿情事件識別方法。
1.2 事件識別方法研究現(xiàn)狀
事件抽取任務(wù)于2005年起被納入ACE評測會議[13],ACE認為,事件是事物狀態(tài)的改變或事情的發(fā)生,并將事件抽取任務(wù)定義為從非結(jié)構(gòu)化的文本中識別并抽取事件信息并結(jié)構(gòu)化表示,包括事件觸發(fā)詞、事件類型、事件元素、元素角色[14]。在框架表示事件抽取的研究中,Petroni F等[15]提出一種從新聞報道和社交媒體中抽取突發(fā)事件的框架表示,用于公共安全預(yù)警、政府組織決策支持等。Yang H等[16]在2018年提出一種從金融機構(gòu)的公告信息中抽取金融事件的框架表示方法,用于輔助決策和市場預(yù)測等。劉振[17]采用條件隨機場方法和語義角色標(biāo)注技術(shù),構(gòu)建模型進行訓(xùn)練和學(xué)習(xí),提出科技事件抽取框架,實現(xiàn)科技事件抽取系統(tǒng),取得了一定的抽取效果。在實例表示事件抽取的研究中,Huang L等[18]提出一種全新的自由事件抽取范式,可以同時從任意輸入語料中抽取事件和發(fā)現(xiàn)事件模式,利用符號特征和分布式語義來檢測和表示事件結(jié)構(gòu);Zhou D等[19]提出一種基于詞嵌入的非參數(shù)貝葉斯混合模型用于事件抽取,其中,事件的數(shù)目可以自動推斷,并且可以正確地處理同一命名實體的詞法變化問題。
在中文事件抽取任務(wù)方面,Chen Z等[20]提出一個中文事件抽取系統(tǒng),指出漢語觸發(fā)標(biāo)記中一個特定語言問題,然后致力于討論詞法、句法和語義特征在觸發(fā)標(biāo)記和參數(shù)標(biāo)注中的貢獻;Zeng Y等[21]在Chen Z等[20]的字符序列標(biāo)注方法基礎(chǔ)上,使用雙向長短期記憶網(wǎng)絡(luò)和條件隨機場[22]抽取句子特征,通過卷積神經(jīng)網(wǎng)絡(luò)抽取上下文語義特征,進而實現(xiàn)中文事件的抽取;Lin H等[23]提出一種Nugget Proposal Networks(NPNs)方法,它可以直接提出以每個字符為中心的、不受單詞邊界限制的整個金塊來解決單詞觸發(fā)不匹配問題;Li P等[24]提出兩種新的推理機制,通過漢語觸發(fā)器內(nèi)部的合成語義和觸發(fā)器之間的語篇一致性來探索漢語的特殊性。
從現(xiàn)有的事件識別研究可以看出,當(dāng)前有關(guān)事件識別技術(shù)已取得一定的進展,且國內(nèi)學(xué)者對于中文事件抽取的研究也取得較為成熟的進步,但同時有關(guān)中英文事件抽取的研究也存在一定的問題,就是大多數(shù)方法依賴于大規(guī)模的訓(xùn)練數(shù)據(jù)集以保證識別結(jié)果的準(zhǔn)確性。如果將這些方法直接應(yīng)用于突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情事件的識別中,可能會在輿情初期面臨數(shù)據(jù)量不足的問題。
1.3 句法特征相關(guān)研究
當(dāng)前關(guān)于句法特征的研究大多為利用依存句法分析進行信息抽取或識別,在這方面的研究中,李綱等[26]利用句法特征依存句法分析,設(shè)計情感標(biāo)簽抽取算法,實現(xiàn)對抽取出的情感標(biāo)簽地過濾。王娟等[27]利用短語的內(nèi)部結(jié)構(gòu)和句法功能,分析情感評價對象及其對應(yīng)的評價短語在句中的句法位置,并結(jié)合情感句中詞性和詞對間的依存關(guān)系進行情感評價單元的抽取,最終提升情感評價的整體準(zhǔn)確率。任彬等[28]利用依存句法分析,從社交媒體中匹配相關(guān)信息,實驗證明該方法相比傳統(tǒng)方法提升信息抽取準(zhǔn)確率?;衄B等[29]采用空間句法分析,為圖書館內(nèi)部空間在可達性方面的效能評價提供一種客觀、量化、圖示化的手段。唐曉波等采用依存句法分析來改進傳統(tǒng)文本相似矩陣,在此基礎(chǔ)上運行聚類算法,挖掘出熱點主題。俞琰等[30]利用依存句法分析抽取中文專利術(shù)語,過程包括依存句法分析、剪枝、生成依存子樹3個主要步驟。684ED746-DECC-4521-AA5E-60CB09745A21
可以看出,依存句法分析利用句法特征能夠有效地提升信息抽取的準(zhǔn)確率,這是因為句法特征能夠直觀地表達事件內(nèi)部的語義結(jié)構(gòu)和語法邏輯。因此,本研究認為,句法特征也能夠較好地表示事件特征,并提出一種基于句法特征的輿情事件識別方法,以事件的句法特征表示事件語義結(jié)構(gòu)的邏輯關(guān)系,使得事件識別重心繞過了文本特征,聚焦于事件語詞之間的句法結(jié)構(gòu),增強突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情事件識別方法的廣泛適用性,為突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情進一步研究提供參考。
2 基于句法特征的突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情事件識別模型構(gòu)建
本文構(gòu)建基于句法特征的突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情事件識別模型,如圖1所示,該模型的核心內(nèi)容是以事件的句法特征表示事件內(nèi)部的語義邏輯結(jié)構(gòu)從而達到事件識別的目的。模型分為突發(fā)自然災(zāi)害語料采集與事件語義標(biāo)注、面向災(zāi)害網(wǎng)絡(luò)輿情事件識別的句法特征提取和基于句法相似度的事件識別方法。首先通過網(wǎng)絡(luò)爬蟲獲取訓(xùn)練集語料和測試集語料,測試集語料也就是待識別所包含事件的文本,對語料進行清洗,并對訓(xùn)練集進行人工事件語義標(biāo)注,獲取其中的事件與非事件文本;接著對所標(biāo)注的事件文本進行句法特征的提取,通過人工識別錯誤句法特征來降低獲取事件句法特征的誤差率,最終獲得的句法形成事件句法特征庫;最后對測試集中的待測文本也進行句法特征提取,將所獲取的測試集句法特征與事件句法庫中的句法進行相似度計算,句法特征是某一文本本身的特征,而句法相似度是兩個不同文本之間通過一定方法所獲得的句法特征相似度,相似度越高說明兩個文本之間句法特征越為接近,當(dāng)待測文本與已知事件句法相似度超出模型所設(shè)定的閾值時,就可以認為待測文本屬于事件文本,相似度閾值通過多次實驗確定。
2.1 突發(fā)自然災(zāi)害語料采集與事件語義標(biāo)注
通過網(wǎng)絡(luò)爬蟲采集特定突發(fā)自然災(zāi)害語料,再經(jīng)由事件語義標(biāo)注從災(zāi)害網(wǎng)絡(luò)輿情語料中提取一定數(shù)量的已知事件作為訓(xùn)練集。災(zāi)害網(wǎng)絡(luò)輿情文本包含大量的實體信息,例如地點實體、時間實體、人物實體、動作實體等一系列的信息,這些信息相互組合形成了災(zāi)害網(wǎng)絡(luò)輿情事件。同時,由于社交媒體文本的隨意性和不規(guī)范性,一些無實際意義的文本和不能表達出事件信息的文本也充斥在這些實體信息的周圍,事件語義標(biāo)注將這些由實體信息組成的事件從非事件的文本中提取出來。
事件語義標(biāo)注的過程由人工進行,為了確保標(biāo)注結(jié)果的一致性和無人為差異性,本文定義以下幾條事件語義標(biāo)注注意事項,如表1所示。
2.2 面向災(zāi)害網(wǎng)絡(luò)輿情事件識別的句法特征提取
句法特征提取的目的是為了將已知事件或未知語句中的句法提取出來,方便進行下一步的事件識別。已知事件或未知語句都可以通過分詞操作形成一個由詞語組成的集合,每一個詞語都對應(yīng)著相應(yīng)的詞性,按照語句分詞順序所構(gòu)成的詞性序列就形成了語句的句法特征。語句的句法特征從語義邏輯層面表達了句子的內(nèi)在邏輯,這與事件具備一定的語法邏輯是相吻合的,因此可以使用語句的句法特征進行事件識別。同時,使用句法表達事件特征有效地降低了事件的文本維度,使得由成千上百個單詞排列組合形成的事件簡化為由十幾個詞性排列組合形成的句法,這也降低了事件識別對于訓(xùn)練集規(guī)模的要求,有利于解決災(zāi)害網(wǎng)絡(luò)輿情初期文本語料不足的問題。
對已知事件或未知語句進行句法特征的提取,例如已經(jīng)經(jīng)過詞性標(biāo)注的事件文本:
E=[“利奇馬”:n,“移出”:v,“浙江”:n,“向”:p,“偏北”:f,“方向”:n,“移動”:v]
對其進行特征提取后得到事件句法特征向量:
P=[n,v,n,p,f,n,v]
在進行事件的句法特征提取時,通過人工糾錯的方式減少事件句法特征的誤差。例如某些詞語存在一詞多義的現(xiàn)象,不同的分詞工具可能對于一詞多義的詞語默認詞性不同,這就造成人工語義標(biāo)注的正確事件經(jīng)過句法特征提取后產(chǎn)生了錯誤的句法特征,因此通過人工檢查出這些錯誤的句法特征,將其加入到“wrong_pattern.txt”錯誤句法詞典中,使程序再次遇到相同的錯誤句法后不再提取;根據(jù)2.1所定義的事件語義標(biāo)注注意事項第2條,所推導(dǎo)出的事件是真實發(fā)生過或正在發(fā)生的事件,一些未來發(fā)生或者否定式的觸發(fā)詞可能會給事件識別的過程帶來偏差,例如Jieba分詞工具將“不能”“希望”的詞性都定義為“v”,這樣程序會將這些詞語與其他觸發(fā)詞等同起來。為了減少這類詞語帶來的誤差,本文將這類不能表示事件是真實發(fā)生過或正在發(fā)生的觸發(fā)詞定義為詞性“o”,通過區(qū)分開這類詞語詞性來提升模型識別事件的精確性。本文所進行事件句法模式提取的具體過程如算法1所示。
算法1:語句句法特征提取
輸入:sentences[0..n-1]:包含n條待處理語句(sentence)的數(shù)組;wrong_patterns[0..m-1]:包含m條人工識別錯誤句法(wrong_pattern)的數(shù)組;f1(sentence):對文本進行分詞的函數(shù);f2(word):對語詞進行詞性標(biāo)注的函數(shù);
輸出:patterns事件句法集
1: function Pattern(sentences[0..n-1]:array of sentence;wrong_patterns[0..m-1]:array of wrong_pattern;f1:function;f2:function):patterns;
2: var
3: ? words[0..m-1]:包含m個詞的數(shù)組;
4: ? nominal:詞性標(biāo)注序列;
5: begin
6: ? for i←0 to n-1 do
7: ? ? pattern ← null
8: ? ? words[0..m-1]← f1 (sentences[i])684ED746-DECC-4521-AA5E-60CB09745A21
9: ? ? for i←0 to m-1 do
10: ? ? ? nominal ← f2(words[i])
11: ? ? ? pattern ← pattern + nominal
12: ? ? if pattern not in patterns and not in wrong_patterns then
13: ? ? ? patterns ← patterns+pattern
14: ? ? end if
15: ? return patterns
16: end
2.3 基于句法相似度的事件識別方法
句法相似度計算的目的是為了得到待測事件與事件句法庫中已知事件句法特征的相似度。相似度計算度量方法中,余弦相似度度量最為貼近本研究的句法相似度計算方法,因此,本文選用余弦相似度作為相似度計算方法。由于事件文本中必定包含表示一個或多個動作或者狀態(tài)改變的觸發(fā)詞,因此選用σ作為觸發(fā)詞變量,若待測事件句法Pd=[x1,x2,…,xi]中不包含觸發(fā)詞,觸發(fā)詞變量賦值為0;反之,觸發(fā)詞變量賦值為1。同時待測事件句法與事件句法庫Pt={P1,P2,…,Pn|Pi=[y1,y2,…,yi],i≤n}進行余弦相似度計算,取Pd和Pi最大余弦值為最終相似度,計算方法如式(1)。
cos(θ)=∑ni=1(xj·yj)∑ni=1x2i·∑ni=1y2i·σ(1)
句法特征向量的相似度能夠從語義層面表達兩個事件在語法規(guī)則和語言形式描述方面的相似度,句法相似度越大表明待測事件句法與事件句法庫中的事件句法越接近,當(dāng)相似度為100%時,表明相同的事件句法已經(jīng)存在于句法庫中,因此設(shè)置適當(dāng)?shù)南嗨贫乳撝底鳛樽罱K的判斷標(biāo)準(zhǔn)十分重要,最終所計算的句法相似度大于閾值,即可判定待測文本為事件文本,相似度閾值利用訓(xùn)練集通過多次實驗獲得,取最優(yōu)相似度為最終閾值。
事件句法相似度計算算法如算法2所示。
算法2:事件句法相似度計算
輸入:patterns[0..n-1]:包含n條事件句法特征(pattern)的數(shù)組;sentence:待測文本的語句句法;f1(sentence):輸入句法中含有觸發(fā)詞σ,返回1,否則返回0;f2(pattern,sentence):計算兩個事件句法的余弦相似度;
輸出:cos事件句法相似度
1: function Cos(patterns[0..n-1]:array of pattern;sentences:text to be tested;f1:function;f2:function):cos;
2: var
3: ? σ:觸發(fā)詞識別變量;
4: ? cos:句法相似度;
5: ? temp:臨時變量;
6: begin
7: ? for i←0 to n-1 do
8: ? ? pattern ← patterns[i]
9: ? ? σ ← f1 (sentence)
10: ? ? temp ← f2(pattern,sentence)
11: ? ? temp ← temp·σ
12: ? ? if temp>cos then
13: ? ? ? cos ← temp
14: ? ? end if
15: ? return cos
16: end
3 基于事件識別模型的突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情事件識別實證研究——以“臺風(fēng)利奇馬”為例
2019年,第9號臺風(fēng)“利奇馬”在浙江省溫嶺市城南鎮(zhèn)沿海登陸[25],因其巨大的破壞力和持久性在社交媒體中引發(fā)了長時間的討論,產(chǎn)生了豐富的突發(fā)自然災(zāi)害下的網(wǎng)絡(luò)輿情語料。因此,本文以“臺風(fēng)利奇馬”事件為例,借助本文構(gòu)建的基于句法特征的突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情事件識別模型進行實證研究,驗證所提出的災(zāi)害網(wǎng)絡(luò)輿情事件識別模型的有效性,將模型轉(zhuǎn)化為“臺風(fēng)利奇馬”網(wǎng)絡(luò)輿情事件識別的具體識別步驟,如圖2所示。
3.1 數(shù)據(jù)采集與句法模式提取
通過自主編寫Python爬蟲從新浪微博采集“臺風(fēng)利奇馬”相關(guān)話題下的微博文本語料信息,共得到3 556條有效微博內(nèi)容。針對事件識別模型對訓(xùn)練集和測試集的不同要求,將所采集到的微博內(nèi)容劃分為3個文檔:訓(xùn)練集D1、測試集D2、測試集D3,其中,訓(xùn)練集D1用以構(gòu)造災(zāi)害輿情事件句法庫,測試集D2用以確定最優(yōu)相似度閾值,測試集D3用以從中識別出災(zāi)害輿情事件。
訓(xùn)練集D1按照2.1所提出的事件標(biāo)注注意事項,共標(biāo)注事件2 027件。再通過2.2所提出的句法特征提取方法,將這些事件轉(zhuǎn)換為句法特征,經(jīng)過人工糾錯以及排除因分詞工具產(chǎn)生的錯誤句法后,成功構(gòu)造了一個包含1 752條有效句法的句法特征庫,句法特征庫中的句法特征集用P1={P1,P2,…,Pn|Pi=[x1,x2,…,xi],i≤n}表示。事件與句法庫中句法對應(yīng)情況(部分)如圖3所示,其中,空白部分表示因誤差產(chǎn)生錯誤句法而不進入句法庫的情況。684ED746-DECC-4521-AA5E-60CB09745A21
3.2 相似度閾值確定
句法相似度衡量當(dāng)前待測事件句法與已知事件句法庫中的最高相似度,因此設(shè)定一個相似度閾值作為待測事件是否是真的事件顯得尤為重要。筆者認為,針對不同特定突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情,其最優(yōu)相似度有所差別,需要通過實驗獲得特定突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情下的相似度閾值。
測試集D2經(jīng)過事件標(biāo)注后得到99件事件、102件非事件,對標(biāo)注結(jié)果進行句法特征提取獲得句法特征集P2=[x1,x2,…,xi],部分標(biāo)注事件結(jié)果及對應(yīng)句法如圖4所示。
根據(jù)2.2所提出的句法相似度計算方法計算P2=[x1,x2…,xi]與句法特征庫P1={P1,P2,…,Pn|Pi=[x1,x2,…,xi],i≤n}的相似度,取最高相似度為最終相似度,部分計算結(jié)果如表2所示,其中id范圍1~99為事件、id范圍100~201為非事件。
根據(jù)測試集D2句法相似度計算結(jié)果,確定適用于突發(fā)自然災(zāi)害事件“臺風(fēng)利奇馬”的最優(yōu)相似度。按照步長0.01在區(qū)間[0,1]中依次取最優(yōu)相似度值,以F1值為判斷指標(biāo),能獲得最高F1值的相似度即為最優(yōu)相似度,F(xiàn)1值的計算方法如式(2)所示:
F1=2PRP+R(2)
其中,P、R分別代表查準(zhǔn)率和查全率。
經(jīng)實驗計算,以“臺風(fēng)利奇馬”突發(fā)自然災(zāi)害事件為例的文本語料中,最優(yōu)相似度的值為0.93,在此基礎(chǔ)上測試集D2的F1值、P值、R值分別為0.851、0.835、0.869,具體實驗結(jié)果如圖5所示。從圖5可以看出,P值隨著相似度的增大而減小,而R值隨著相似度的增大而增大,這就說明相似度越大就有越多的事件能被識別出來,但是也降低了其準(zhǔn)確性,只有當(dāng)相似度閾值為0.93時,才能達到最優(yōu)結(jié)果。
3.3 事件識別結(jié)果分析
通過測試集D2確定“臺風(fēng)利奇馬”事件識別最優(yōu)相似度為0.93,因此接下來以最優(yōu)相似度0.93為度量標(biāo)準(zhǔn)去識別測試集D3語料中的事件。測試集D3提前不進行事件語義標(biāo)注而進行語句分句,用以模擬從未知文本中識別事件的過程。對待測事件文本進行分句的過程需要注意,由于提前并不清楚事件在文本中的位置和結(jié)構(gòu)關(guān)系,無法通過一次性的分句確定其中的事件結(jié)構(gòu),事件本身也可以作為另一個事件的一部分,例如:在文本“臺風(fēng)利奇馬登陸山東,使東營普降暴雨”中,“臺風(fēng)利奇馬登陸山東”是一個事件,同時“臺風(fēng)利奇馬登陸山東”作為一個事件實體也是“使東營普降暴雨”事件的施事者,因此,本文通過重復(fù)分句的方式確保識別盡可能多的事件。
對測試集D3進行重復(fù)分句操作得到分句結(jié)果S3={s1,s2,…,sn},再對分句結(jié)果進行句法特征提取得到測試集D3的句法特征集P3={,
在以“臺風(fēng)利奇馬”為例的突發(fā)自然災(zāi)害事件中,通過人工標(biāo)注的測試集D2,確定在該災(zāi)害網(wǎng)絡(luò)輿情中,最優(yōu)相似度為0.93,同時F1值達到了0.851;利用最優(yōu)相似度成功從未經(jīng)人工標(biāo)注的測試集D3中識別出事件和非事件,實驗結(jié)果的F1值達到了0.93;同時,為證明本文所提出基于句法特征的事件識別方法在訓(xùn)練集語料規(guī)模不大的情況下的優(yōu)越性,將基于文本特征的事件識別方法作為對照組,采用相同的數(shù)據(jù)集和實驗步驟,實驗結(jié)果證明本文所提出的方法優(yōu)于基于文本特征的識別方法。
面對突發(fā)自然災(zāi)害事件,社交媒體往往承擔(dān)著信息交流平臺的作用,其信息交流強度要遠高于傳統(tǒng)的新聞報刊,因此,社交媒體成為了折射網(wǎng)絡(luò)輿情的傳感器??焖俑咝У刈R別出社交媒體災(zāi)害網(wǎng)絡(luò)輿情文本中所包含的事件,有助于政府管理部門及時發(fā)現(xiàn)網(wǎng)絡(luò)中存在的謠言,幫助網(wǎng)絡(luò)輿情研究人員厘清災(zāi)害網(wǎng)絡(luò)輿情發(fā)展的來龍去脈。本文提出了一種基于句法特征的突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情事件識別方法,為突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情的進一步研究提供參考。同時,本研究也存在一定的局限性,本文所研究的事件識別方法在小規(guī)模數(shù)據(jù)集中能表現(xiàn)出較大的優(yōu)勢,但在大規(guī)模數(shù)據(jù)集中存在一定的劣勢,因此當(dāng)前研究方法適用于突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情初期的事件識別,在后續(xù)研究中將考慮結(jié)合句法特征與傳統(tǒng)的事件識別方法,使其能夠在大規(guī)模數(shù)據(jù)集中展現(xiàn)出較大的優(yōu)勢。
參考文獻
[1]新華社.應(yīng)急管理部發(fā)布2019年一季度全國自然災(zāi)害情況[EB/OL].https://baijiahao.baidu.com/s?id=163014200439994 6578&wfr=spider&for=pc,2019-04-07.
[2]金占勇,田亞鵬,白莽.基于長短時記憶網(wǎng)絡(luò)的突發(fā)災(zāi)害事件網(wǎng)絡(luò)輿情情感識別研究[J].情報科學(xué),2019,37(5):142-147,154.
[3]陳凌,宋衍欣.基于公眾情緒上下文的LSTM情感分析研究——以臺風(fēng)“利奇馬”為例[J].現(xiàn)代情報,2020,40(6):98-105.
[4]劉雯,高峰,洪凌子.基于情感分析的災(zāi)害網(wǎng)絡(luò)輿情研究——以雅安地震為例[J].圖書情報工作,2013,57(20):104-110.
[5]秦琴,湯書昆.突發(fā)自然災(zāi)害網(wǎng)絡(luò)輿情風(fēng)險監(jiān)測指標(biāo)體系研究[J/OL].電子科技大學(xué)學(xué)報:社會科學(xué)版:1-9[2020-06-14].https://doi.org/10.14071/j.1008-8105(2019)-3023.
[6]張宇,傅敏,羅加蓉.震災(zāi)網(wǎng)絡(luò)輿情風(fēng)險監(jiān)測指標(biāo)及其評估方法[J].重慶大學(xué)學(xué)報:社會科學(xué)版,2018,24(6):33-44.
[7]劉悅,楊樺.基于大數(shù)據(jù)的自然災(zāi)害事件網(wǎng)絡(luò)輿情信息監(jiān)測平臺[J].災(zāi)害學(xué),2018,33(4):13-17.
[8]張巖,李英冰,鄭翔.基于微博數(shù)據(jù)的臺風(fēng)“山竹”輿情演化時空分析[J/OL].山東大學(xué)學(xué)報:工學(xué)版:1-9[2020-06-14].http://kns.cnki.net/kcms/detail/37.1391.T.20200221.1529.004.html.
[9]李綱,海嵐,陳璟浩.突發(fā)自然災(zāi)害事件網(wǎng)絡(luò)媒體報道的周期特征分析——以地震和臺風(fēng)災(zāi)害為例[J].信息資源管理學(xué)報,2015,5(3):18-24.
[10]王晰巍,文晴,趙丹,等.新媒體環(huán)境下自然災(zāi)害輿情傳播路徑及網(wǎng)絡(luò)結(jié)構(gòu)研究——以新浪微博“雅安地震”話題為例[J].情報雜志,2018,37(2):110-116.
[11]金占勇,田亞鵬,張洋.突發(fā)災(zāi)害事件網(wǎng)絡(luò)輿情特征分析——以6·23鹽城龍卷風(fēng)事件為例[J].吉首大學(xué)學(xué)報:社會科學(xué)版,2018,39(S2):72-78.
[12]馮小東,李卓雅,史志慧.基于網(wǎng)絡(luò)輿情熱度的自然災(zāi)害影響評估分析[J].情報探索,2020,(1):16-22.
[13]Aguilar J,Beller C,McNamee P,et al.A Comparison of the Events and Relations Across Ace,Ere,Tac-kbp,and Framenet Annotation Standards[C]//Proceedings of the Second Workshop on EVENTS:Definition,Detection,Coreference,and Representation,2014:45-53.
[14]Doddington G R,Mitchell A,Przybocki M A,et al.The Automatic Content Extraction(ACE)Program-Tasks,Data,and Evaluation[C]//Lrec,2004,2:1.
[15]Petroni F,Raman N,Nugent T,et al.An Extensible Event Extraction System With Cross-Media Event Resolution[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.ACM,2018:626-635.
[16]Yang H,Chen Y,Liu K,et al.DCFEE:A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Training Data[C]//Proceedings of ACL 2018,System Demonstrations,2018:50-55.684ED746-DECC-4521-AA5E-60CB09745A21
[17]劉振.基于網(wǎng)絡(luò)科技信息的事件抽取研究[J].情報科學(xué),2018,36(9):115-117,122.
[18]Huang L,Cassidy T,F(xiàn)eng X,et al.Liberal Event Extraction and Event Schema Induction[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers),2016:258-268.
[19]Zhou D,Zhang X,He Y.Event Extraction from Twitter Using Non-parametric Bayesian Mixture Model with Word Embeddings[C]//Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics:Volume 1,Long Papers,2017:808-817.
[20]Chen Z,Ji H.Language Specific Issue and Feature Exploration in Chinese Event Extraction[C]//Proceedings of Human Language Technologies:The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics,Companion Volume:Short Papers,2009:209-212.
[21]Zeng Y,Yang H,F(xiàn)eng Y,et al.A Convolution BiLSTM Neural Network Model for Chinese Event Extraction[M].Natural Language Understanding and Intelligent Applications.Springer,Cham,2016:275-287.
[22]Lafferty J,McCallum A,Pereira F C N.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proc of the 18th Intelligence Conference on Machine Learning.Francisco,CA,USA:Morgan Kaufmann Publishers Inc,2001:282-289.
[23]Lin H,Lu Y,Han X,et al.Nugget Proposal Networks for Chinese Event Detection[C]//Proc of the 56th ACL,Volume 1:Long Papers.Melbourne,Australia:ACL,2018:1565-1574.
[24]Li P,Zhou G,Zhu Q,et al.Employing Compositional Semantics and Discourse Consistency in Chinese Event Extraction[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,2012:1006-1016.
[25]中國氣象局.超強臺風(fēng)“利奇馬”在浙江溫嶺市城南鎮(zhèn)登陸[EB/OL].http://www.cma.gov.cn/2011xwzx/zdbk/jdbkxw/2019 08/t20190810_532548.html,2021-09-11.
[26]李綱,劉廣興,毛進,等.一種基于句法分析的情感標(biāo)簽抽取方法[J].圖書情報工作,2014,58(14):12-20.
[27]王娟,曹樹金,謝建國.基于短語句法結(jié)構(gòu)和依存句法分析的情感評價單元抽取[J].情報理論與實踐,2017,40(3):107-113.
[28]任彬,車萬翔,劉挺.基于依存句法分析的社會媒體文本挖掘方法——以飲食習(xí)慣特色分析為例[J].中文信息學(xué)報,2014,28(6):208-215.
[29]霍珺,盧章平.基于空間句法分析的高校圖書館建筑空間可達性研究[J].圖書情報工作,2017,61(6):53-60.
[30]俞琰,陳磊,姜金德,等.基于依存句法分析的中文專利候選術(shù)語選取研究[J].圖書情報工作,2019,63(18):109-118.
(責(zé)任編輯:陳 媛)684ED746-DECC-4521-AA5E-60CB09745A21