• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      突發(fā)事件應(yīng)急行動(dòng)支撐信息的自動(dòng)識(shí)別與分類(lèi)研究

      2021-09-09 03:18:14吳雪華毛進(jìn)陳思菁謝豪李綱
      情報(bào)學(xué)報(bào) 2021年8期
      關(guān)鍵詞:突發(fā)事件分類(lèi)特征

      吳雪華,毛進(jìn),陳思菁,謝豪,李綱

      (武漢大學(xué)信息資源研究中心,武漢 430072)

      1 引言

      突發(fā)事件具有高度的不可預(yù)期性和復(fù)雜性,態(tài)勢(shì)演化迅速,影響范圍廣,給應(yīng)急管理帶來(lái)巨大挑戰(zhàn)[1]。在有限時(shí)間內(nèi),迅速掌握緊急需求、事件態(tài)勢(shì)等信息,是高效開(kāi)展應(yīng)急工作的關(guān)鍵。社交媒體具有信息實(shí)時(shí)生成、多向交流、傳播迅速等優(yōu)勢(shì),允許用戶在突發(fā)事件期間承擔(dān)“社會(huì)傳感器”的角色,第一時(shí)間發(fā)布人員傷亡、設(shè)施毀壞等現(xiàn)場(chǎng)情況,從而緩解在事件發(fā)生初期的可用信息匱乏、交流渠道不暢等問(wèn)題[2]。因此,社交媒體信息在協(xié)助突發(fā)事件應(yīng)急管理上具有不可忽視的潛在價(jià)值。

      將社交媒體應(yīng)用到突發(fā)事件場(chǎng)景的挑戰(zhàn)之一在于信息過(guò)載問(wèn)題。突發(fā)事件的公共危害性引發(fā)大量社交媒體用戶集中發(fā)布信息,產(chǎn)生價(jià)值密度低的海量實(shí)時(shí)數(shù)據(jù),難以直接利用。在這一問(wèn)題上,一方面,技術(shù)探索至關(guān)重要,越來(lái)越多的文獻(xiàn)探究如何將機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等先進(jìn)技術(shù)應(yīng)用于社交媒體中突發(fā)事件信息的自動(dòng)處理[3];另一方面,在考慮“如何識(shí)別信息”的同時(shí),也需明確“識(shí)別什么信息”,了解何種信息對(duì)應(yīng)急管理更具價(jià)值。目前,危機(jī)信息學(xué)領(lǐng)域廣泛關(guān)注的是態(tài)勢(shì)感知信息(situational information)[4]。這類(lèi)信息從全局角度提供了突發(fā)事件復(fù)雜情境的“綜合視圖”,有助于應(yīng)急管理機(jī)構(gòu)把握事件的發(fā)展全貌,為決策和協(xié)調(diào)應(yīng)急響應(yīng)提供支持。然而,其忽略了各類(lèi)主體在人員搜救、資源配置等特定應(yīng)急任務(wù)場(chǎng)景下的信息需求,無(wú)法直接作用于具體的應(yīng)急行動(dòng)。因此,部分文獻(xiàn)呼吁將研究視角從態(tài)勢(shì)感知轉(zhuǎn)向應(yīng)急行動(dòng)支撐信息(actionable information),探討如何在正確的時(shí)間將合適的信息傳遞給合適的人,從而將社交媒體信息轉(zhuǎn)化為每個(gè)應(yīng)急行動(dòng)者的行動(dòng)參考[5-6]。

      突發(fā)事件各類(lèi)主體對(duì)應(yīng)急行動(dòng)支撐信息均具有廣泛的需求:應(yīng)急管理機(jī)構(gòu)需要第一時(shí)間獲取事件發(fā)生地點(diǎn)、傷亡、損失等行動(dòng)支撐信息,用于人員派遣和資源調(diào)度[7];受影響人群依賴(lài)于官方預(yù)警、求助渠道等信息,用于事前準(zhǔn)備和事后獲助[8];公益組織、志愿者等需實(shí)時(shí)掌握物資需求和供應(yīng)進(jìn)展,以有序開(kāi)展志愿捐贈(zèng)活動(dòng),避免資源供應(yīng)不足、過(guò)?;虿划?dāng)分配帶來(lái)的“二次災(zāi)難”[9]。因此,從社交媒體中快速識(shí)別不同類(lèi)型的應(yīng)急行動(dòng)支撐信息,對(duì)各類(lèi)主體及時(shí)響應(yīng)、敏捷動(dòng)員、高效配置資源、最小化傷亡損失等具有重要意義。

      目前,針對(duì)突發(fā)事件應(yīng)急行動(dòng)支撐信息的研究相對(duì)不足[6]。已有文獻(xiàn)尚未系統(tǒng)界定這類(lèi)信息的判斷標(biāo)準(zhǔn)和具體范圍,限制了后續(xù)的自動(dòng)識(shí)別和細(xì)粒度分類(lèi)。鑒于此,本文梳理了應(yīng)急行動(dòng)支撐信息的概念、特征和類(lèi)別,并提出基于社交媒體數(shù)據(jù)的應(yīng)急行動(dòng)支撐信息自動(dòng)識(shí)別與分類(lèi)的方法。具體工作如下:①界定應(yīng)急行動(dòng)支撐信息的概念與特點(diǎn),基于主體、行動(dòng)和主題維度構(gòu)建分類(lèi)體系;②對(duì)突發(fā)事件相關(guān)Twitter帖子進(jìn)行人工標(biāo)注;③從文本向量表示、語(yǔ)言、形式和用戶四個(gè)維度構(gòu)建應(yīng)急行動(dòng)支撐信息的特征體系;④提出基于機(jī)器學(xué)習(xí)的應(yīng)急行動(dòng)支撐信息識(shí)別與分類(lèi)的兩階段實(shí)現(xiàn)框架,并在標(biāo)注數(shù)據(jù)集上開(kāi)展評(píng)估。

      2 相關(guān)研究

      2.1 社交媒體突發(fā)事件信息分類(lèi)研究

      針對(duì)突發(fā)事件期間產(chǎn)生的海量社交媒體信息,危機(jī)信息學(xué)領(lǐng)域的學(xué)者從不同視角對(duì)突發(fā)事件信息的分類(lèi)展開(kāi)研究。

      (1)突發(fā)事件信息的相關(guān)性分類(lèi)研究。社交媒體檢索結(jié)果中存在大量噪聲,不少文獻(xiàn)構(gòu)建分類(lèi)器過(guò)濾與突發(fā)事件無(wú)關(guān)的信息,將其作為后續(xù)處理和分析的起點(diǎn)。例如,Sit等[10]利用深度學(xué)習(xí)將Twitter帖子劃分為災(zāi)害相關(guān)和無(wú)關(guān)的信息,在此基礎(chǔ)上分析災(zāi)害影響和時(shí)空模式。仇培元等[11]利用主題模型,從訓(xùn)練語(yǔ)料中提取暴雨事件相關(guān)的核心詞,基于詞向量計(jì)算微博文本與核心詞的相似度,進(jìn)而識(shí)別暴雨事件相關(guān)微博。

      (2)突發(fā)事件信息的態(tài)勢(shì)感知分類(lèi)研究。相關(guān)性分類(lèi)識(shí)別出的信息之間價(jià)值差異較大,需從中提煉出對(duì)應(yīng)急管理具有實(shí)際意義的信息。其中,廣受關(guān)注的是突發(fā)事件態(tài)勢(shì)感知信息,即為個(gè)體、組織、社區(qū)或地區(qū)掌握突發(fā)事件整體態(tài)勢(shì)提供支持的信息[4]。Imran等[12]將這類(lèi)信息劃分為預(yù)警建議、傷亡損失、物資捐贈(zèng)與志愿服務(wù)、人員失蹤與發(fā)現(xiàn)以及信息來(lái)源五類(lèi)。李綱等[13]基于態(tài)勢(shì)感知理論,將自然災(zāi)害事件微博熱點(diǎn)話題劃分為社會(huì)環(huán)境、建設(shè)環(huán)境、物理環(huán)境和非態(tài)勢(shì)感知四類(lèi)。Rudra等[14]指出,非態(tài)勢(shì)感知信息包括情感觀點(diǎn)、事件分析和慈善機(jī)構(gòu)相關(guān)帖子三類(lèi),并進(jìn)行了跨事件態(tài)勢(shì)感知信息的自動(dòng)識(shí)別和摘要。

      (3)突發(fā)事件信息的應(yīng)急行動(dòng)支撐分類(lèi)研究。態(tài)勢(shì)感知信息更關(guān)注突發(fā)事件的發(fā)展全貌,無(wú)法解決具體應(yīng)急行動(dòng)中的信息過(guò)載問(wèn)題,因此,需探索面向應(yīng)急行動(dòng)信息需求的分類(lèi)體系。目前,僅有少量研究關(guān)注這一分類(lèi)視角,對(duì)應(yīng)急行動(dòng)支撐信息的界定尚不明確。Munro[15]較早開(kāi)展了應(yīng)急行動(dòng)支撐信息的自動(dòng)識(shí)別研究,但未給出這類(lèi)信息的定義。Baweja等[16]和Kiatpanont等[17]將需求信息作為應(yīng)急行動(dòng)支撐信息的類(lèi)型之一。Nguyen等[18]將應(yīng)急行動(dòng)支撐信息等同于有用信息(informative informa‐tion),并將其劃分為傷亡損失、預(yù)警建議和捐贈(zèng)幫助信息三類(lèi)。Ghosh等[19]認(rèn)為,應(yīng)急行動(dòng)支撐信息包括資源需求和供應(yīng)、相關(guān)機(jī)構(gòu)的應(yīng)急活動(dòng)、基礎(chǔ)設(shè)施損壞和恢復(fù)等類(lèi)別。

      (4)其他視角的突發(fā)事件信息分類(lèi)研究。部分研究從信息來(lái)源[20]、事件類(lèi)型[21]、地理位置[22]等視角展開(kāi)分類(lèi)。文獻(xiàn)[3]對(duì)這些分類(lèi)體系進(jìn)行了詳細(xì)介紹。

      2.2 社交媒體突發(fā)事件信息分類(lèi)的主要方法

      當(dāng)前,機(jī)器學(xué)習(xí)被廣泛應(yīng)用于社交媒體中突發(fā)事件信息的分類(lèi),其中大部分采用監(jiān)督學(xué)習(xí),為達(dá)到較好的分類(lèi)效果,需要構(gòu)建清晰的分類(lèi)體系和獲取足夠的標(biāo)注數(shù)據(jù)[23]。少數(shù)研究使用了主動(dòng)學(xué)習(xí)等半監(jiān)督學(xué)習(xí)方式,用于解決事件初期標(biāo)注樣本不足的問(wèn)題[24-25]。

      在分類(lèi)算法上,大量研究對(duì)支持向量機(jī)、邏輯回歸等傳統(tǒng)算法在該領(lǐng)域的有效性開(kāi)展了評(píng)估。例如,Huang等[26]對(duì)比了K近鄰、樸素貝葉斯和邏輯回歸在突發(fā)事件態(tài)勢(shì)感知分類(lèi)中的效果,發(fā)現(xiàn)邏輯回歸能較好地識(shí)別出大部分信息類(lèi)別。王艷東等[27]采用支持向量機(jī)訓(xùn)練突發(fā)事件應(yīng)急主題分類(lèi)模型,達(dá)到0.875的準(zhǔn)確率。傳統(tǒng)分類(lèi)算法依賴(lài)于人工構(gòu)建特征體系。由于社交媒體文本不僅在語(yǔ)言上具有篇幅短、口語(yǔ)化等特殊性,并且攜帶了大量的元數(shù)據(jù)信息,因此,相關(guān)研究除了采用常見(jiàn)的詞袋模型、TF-IDF(term frequency-inverse document frequency)向量之外,還構(gòu)建了語(yǔ)言、形式和用戶等多種類(lèi)型的特征。例如,Rudra等[14]采用了人稱(chēng)代詞、感嘆號(hào)等語(yǔ)言特征,這類(lèi)特征不依賴(lài)于具體事件,故在跨事件社交媒體信息分類(lèi)上優(yōu)于詞袋模型。Imran等[12]結(jié)合URL(uniform resource locator)、數(shù)字、詞性等形式和語(yǔ)言特征訓(xùn)練突發(fā)事件態(tài)勢(shì)感知分類(lèi)模型。Kozlowski等[28]發(fā)現(xiàn),發(fā)博數(shù)、粉絲數(shù)等用戶特征在社交媒體突發(fā)事件信息分類(lèi)中具有高貢獻(xiàn)度。

      傳統(tǒng)分類(lèi)技術(shù)在社交媒體短文本分類(lèi)上存在著特征高維稀疏、無(wú)法捕捉語(yǔ)義關(guān)聯(lián)等局限性。深度學(xué)習(xí)能夠通過(guò)多層非線性處理單元,從原始文本中自動(dòng)提取隱含語(yǔ)義信息,并表示為低維稠密向量,有效彌補(bǔ)了上述不足,因此,近年來(lái),深度學(xué)習(xí)成為該領(lǐng)域的重要研究方法。劉淑涵等[29]通過(guò)word2vec模型獲取社交媒體文本的詞向量表示,然后輸入卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)提取暴雨災(zāi)害信息。Yu等[30]發(fā)現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)在單個(gè)突發(fā)事件和跨事件信息分類(lèi)中均優(yōu)于支持向量機(jī)和邏輯回歸。Sit等[10]發(fā)現(xiàn),在颶風(fēng)事件信息的相關(guān)性分類(lèi)中,長(zhǎng)短期記憶網(wǎng)絡(luò)優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)機(jī)器學(xué)習(xí)模型。此外,BERT(bi‐directional encoder representations from transformers)等[31]預(yù)訓(xùn)練語(yǔ)言模型也開(kāi)始在該領(lǐng)域得到應(yīng)用。大部分基于深度學(xué)習(xí)的研究?jī)H使用詞向量作為輸入,而忽略了語(yǔ)言、形式和用戶等其他特征的作用。

      綜上,針對(duì)社交媒體中的突發(fā)事件信息,現(xiàn)有研究提供了多種分類(lèi)視角,并探索了將機(jī)器學(xué)習(xí)應(yīng)用到該領(lǐng)域的適用性,為后續(xù)研究打下了基礎(chǔ)。其局限在于,已有的分類(lèi)體系主要基于態(tài)勢(shì)感知角度,直接以應(yīng)急行動(dòng)支撐信息為對(duì)象的研究十分有限,對(duì)這一重要信息的概念、類(lèi)型及識(shí)別和分類(lèi)方案的探索尚不充分。

      3 應(yīng)急行動(dòng)支撐信息分類(lèi)體系構(gòu)建

      3.1 應(yīng)急行動(dòng)支撐信息的概念定義與特點(diǎn)

      行動(dòng)支撐信息的界定通常與特定應(yīng)用場(chǎng)景結(jié)合。在信息安全領(lǐng)域,行動(dòng)支撐信息是指可直接用于解決現(xiàn)存安全問(wèn)題或減輕未來(lái)威脅的信息[32]。在商業(yè)管理中,行動(dòng)支撐信息是指可由企業(yè)回應(yīng)的、包含明確行動(dòng)請(qǐng)求或問(wèn)題的信息[33]。領(lǐng)域驅(qū)動(dòng)數(shù)據(jù)挖掘?qū)⑾嘟拍钚袆?dòng)支撐知識(shí)(actionable knowledge)界定為兼顧技術(shù)意義和業(yè)務(wù)需求、為相應(yīng)領(lǐng)域采取行動(dòng)提供依據(jù)的知識(shí)[34]。這些定義揭示了不同領(lǐng)域的行動(dòng)支撐信息的共同點(diǎn),即直接促使相關(guān)主體采取行動(dòng),以解決實(shí)際問(wèn)題。鑒于此,本文將應(yīng)急行動(dòng)支撐信息定義為:與突發(fā)事件應(yīng)急管理有關(guān)的、能夠?yàn)槔嫦嚓P(guān)者的應(yīng)急行動(dòng)提供決策支撐的可用信息。

      參考已有文獻(xiàn)并結(jié)合實(shí)際數(shù)據(jù),本研究梳理了應(yīng)急行動(dòng)支撐信息的特點(diǎn),用于指導(dǎo)人工標(biāo)注和特征體系構(gòu)建。①行動(dòng)/問(wèn)題導(dǎo)向。應(yīng)急行動(dòng)支撐信息通常表達(dá)了待解決的問(wèn)題、緊急情況以及期待他人采取行動(dòng)的意圖;或提供了開(kāi)展應(yīng)急行動(dòng)所需的參考信息[6,17,33,35]。②情境/主體依賴(lài)。針對(duì)不同的任務(wù)情境和主體,具體范圍不同[5,15]。③具體性。態(tài)勢(shì)感知信息側(cè)重于將所有信息整合成全面連貫的事件圖,為應(yīng)急管理機(jī)構(gòu)提供事件全貌;而應(yīng)急行動(dòng)支撐信息則面向各主體在人員搜救、資源配置等特定任務(wù)中的具體信息需求,包含細(xì)粒度、可操作的信息[5-6,19,33]。④相關(guān)性。與當(dāng)前突發(fā)事件相關(guān)[32]。⑤時(shí)效性。面向各主體的即時(shí)信息需求,能夠快速作用于當(dāng)前的應(yīng)急行動(dòng)[32]。⑥準(zhǔn)確性。反映真實(shí)情況[32]。⑦事實(shí)性。排除僅用于表達(dá)情緒和觀點(diǎn)的信息[14]。⑧非個(gè)人化。排除僅作用于個(gè)人社交范圍、無(wú)公共影響的信息[12]。⑨可理解性。表述明確、完整、無(wú)歧義[32]。

      3.2 應(yīng)急行動(dòng)支撐信息的類(lèi)別設(shè)置

      綜合考慮主體、行動(dòng)和主題等維度,本文將應(yīng)急行動(dòng)支撐信息劃分為預(yù)警和建議、求助信息、幫助信息、事件基本信息、建筑設(shè)施及公共事業(yè)、受影響人群、應(yīng)急行動(dòng)進(jìn)展以及其他八類(lèi)(表1)。其中,前三類(lèi)為顯式信息,即明確提出了待解決的問(wèn)題或要求他人采取應(yīng)急行動(dòng);后五類(lèi)為隱式信息,即信息發(fā)布者未直接表達(dá)請(qǐng)求行動(dòng)的意圖[6]。部分文獻(xiàn)在設(shè)置應(yīng)急行動(dòng)支撐信息的類(lèi)別時(shí),并未考慮隱式信息[16-17,36],雖然這類(lèi)信息的直接可行動(dòng)性(actionability)較顯式信息弱,但包含的各類(lèi)情況更新允許相關(guān)主體預(yù)判形勢(shì)、衡量風(fēng)險(xiǎn)和分工協(xié)調(diào),對(duì)行動(dòng)的順利開(kāi)展具有重要價(jià)值[37],因此,本研究也將其納入應(yīng)急行動(dòng)支撐信息的范疇。

      表1 應(yīng)急行動(dòng)支撐信息的類(lèi)別

      4 基于機(jī)器學(xué)習(xí)的應(yīng)急行動(dòng)支撐信息識(shí)別與分類(lèi)方法

      4.1 方法框架

      為了滿足各類(lèi)主體在應(yīng)急行動(dòng)中的信息需求,本文提出了基于機(jī)器學(xué)習(xí)的應(yīng)急行動(dòng)支撐信息識(shí)別與分類(lèi)的兩階段方法框架(圖1),主要流程如下:第一階段,基于標(biāo)注數(shù)據(jù)集訓(xùn)練應(yīng)急行動(dòng)支撐信息識(shí)別模型(二分類(lèi)模型),將來(lái)自社交媒體等渠道的突發(fā)事件相關(guān)信息作為輸入,從中識(shí)別出能夠作用于應(yīng)急行動(dòng)的信息。然后,一方面,傳遞至應(yīng)急管理機(jī)構(gòu)等主體,用于綜合研判;另一方面,輸入第二階段模型進(jìn)行后續(xù)處理。第二階段,基于標(biāo)注數(shù)據(jù)集訓(xùn)練應(yīng)急行動(dòng)支撐信息分類(lèi)模型(多分類(lèi)模型),將第一階段識(shí)別出的應(yīng)急行動(dòng)支撐信息轉(zhuǎn)化為預(yù)警和建議、求助信息、幫助信息等細(xì)粒度的類(lèi)別,然后傳遞至突發(fā)事件各類(lèi)主體,為其開(kāi)展應(yīng)急行動(dòng)提供有針對(duì)性的信息支持。

      圖1 應(yīng)急行動(dòng)支撐信息識(shí)別與分類(lèi)的兩階段方法框架

      該方法框架可作為突發(fā)事件信息處理和分析整體框架的一部分,與突發(fā)事件信息相關(guān)性分類(lèi)等上游環(huán)節(jié)及信息抽取、專(zhuān)家分析等后續(xù)環(huán)節(jié)銜接。在實(shí)際應(yīng)用時(shí),無(wú)須了解具體信息類(lèi)別的環(huán)節(jié)(如綜合分析等),可僅采用第一階段模型;其他情況下可將兩階段模型組合起來(lái),獲取不同粒度的應(yīng)急行動(dòng)支撐信息。

      4.2 特征體系構(gòu)建

      基于已有研究和應(yīng)急行動(dòng)支撐信息的特點(diǎn),從文本向量表示、語(yǔ)言、形式和用戶四個(gè)維度構(gòu)建應(yīng)急行動(dòng)支撐信息識(shí)別和分類(lèi)模型的特征體系(表2),主要特征描述如下。

      表2 應(yīng)急行動(dòng)支撐信息識(shí)別與分類(lèi)模型的特征體系

      (1)文本向量表示:機(jī)器學(xué)習(xí)模型以TF-IDF向量為特征。深度學(xué)習(xí)模型使用預(yù)訓(xùn)練的GloVe(global vectors)[38]和BERT[39]模型提取文本的嵌入表示(embedding)。

      (2)語(yǔ)言特征:不同類(lèi)別信息在詞匯類(lèi)型、標(biāo)點(diǎn)符號(hào)等語(yǔ)言特征上存在差異。例如,應(yīng)急行動(dòng)支撐信息具有較強(qiáng)的事實(shí)性,故主觀認(rèn)知詞匯相對(duì)少見(jiàn);感嘆號(hào)更有可能用于緊急情況下的預(yù)警等。本文使用linguistic inquiry and word count(LIWC)工具①http://liwc.wpengine.com/提取語(yǔ)言特征。LIWC從語(yǔ)言學(xué)、心理特性等維度將詞匯分成人稱(chēng)代詞、疑問(wèn)詞、數(shù)字等73類(lèi),進(jìn)行詞頻統(tǒng)計(jì);另外,還提供了4個(gè)總結(jié)性指標(biāo)(情感語(yǔ)調(diào)、分析性思維等)、12種標(biāo)點(diǎn)符號(hào)的頻次以及文本長(zhǎng)度特征②詳細(xì)類(lèi)別見(jiàn)官方指南:http://liwc.wpengine.com/wpcontent/uploads/2015/11/LIWC2015_LanguageManual.pdf。此外,考慮到包含可操作要素的信息更有可能為應(yīng)急行動(dòng)提供支撐[5,7],本文也將電話號(hào)碼的出現(xiàn)頻次作為特征。

      (3)形式特征:不同類(lèi)別的信息在話題標(biāo)簽(hashtag)、圖片、超鏈接(URL)、表情符號(hào)、定位等元素的使用上可能存在差異。例如,表情符號(hào)常見(jiàn)于情感表達(dá)類(lèi)信息,而圖片和URL常用于報(bào)道事件情況等。

      (4)用戶特征:應(yīng)急行動(dòng)支撐信息的類(lèi)別與發(fā)布者類(lèi)型之間存在聯(lián)系。例如,官方機(jī)構(gòu)發(fā)布預(yù)警建議的可能性更大,求助信息的發(fā)布者更可能為普通用戶。有些社交媒體未區(qū)分用戶類(lèi)型,因此,本文使用認(rèn)證信息、用戶描述、粉絲數(shù)等輔助判斷。當(dāng)信息發(fā)布者希望他人采取行動(dòng)時(shí),更有可能提及(@)相關(guān)用戶;如果一條突發(fā)事件信息被有影響力的用戶轉(zhuǎn)發(fā),那么代表其重要性更高,因此,也將提及和轉(zhuǎn)發(fā)用戶情況作為特征。

      4.3 識(shí)別與分類(lèi)算法

      本文將相關(guān)研究中表現(xiàn)較好的支持向量機(jī)(support vector machine,SVM)、邏輯回歸(logis‐tics regression,LR)和文本卷積神經(jīng)網(wǎng)絡(luò)(text convolutional neural networks,TextCNN)應(yīng)用于應(yīng)急行動(dòng)支撐信息的識(shí)別和分類(lèi)[16-17,30]。此外,鑒于預(yù)訓(xùn)練語(yǔ)言模型在自然語(yǔ)言處理任務(wù)中的優(yōu)越性,也 將BERT[39]及BERT和TextCNN的 組 合 模 型(BERT+TextCNN)用于研究。各算法簡(jiǎn)要介紹如下。

      SVM的基本思想是通過(guò)映射函數(shù)將輸入空間變換至更高維的特征空間,在新空間中尋找具有最大間隔的劃分超平面,能夠較好地應(yīng)對(duì)非線性、小樣本和局部極小值等問(wèn)題。LR是一種廣義線性模型,通過(guò)Sigmoid函數(shù)將線性回歸結(jié)果映射到0和1之間,擬合真實(shí)標(biāo)記的對(duì)數(shù)幾率,具有可解釋性強(qiáng)和復(fù)雜度低的優(yōu)點(diǎn)。TextCNN通過(guò)一維卷積提取不同窗口大小的文本局部特征,然后采用時(shí)序最大池化獲取文本序列的定長(zhǎng)向量表示,經(jīng)由帶Softmax的全連接層輸出分類(lèi)結(jié)果。BERT是基于雙向Trans‐former架構(gòu)的深度預(yù)訓(xùn)練語(yǔ)言模型,通過(guò)掩碼語(yǔ)言模型和下一句預(yù)測(cè)兩個(gè)自監(jiān)督任務(wù)在大規(guī)模語(yǔ)料上深度建模文本雙向語(yǔ)義信息,能夠?qū)W習(xí)泛化能力更強(qiáng)的上下文嵌入表示(contextual embedding),有效地解決一詞多義的問(wèn)題。BERT+TextCNN組合模型通過(guò)BERT獲取文本的上下文嵌入表示,然后輸入TextCNN提取關(guān)鍵局部特征,從而學(xué)習(xí)更為豐富的語(yǔ)義信息。

      相關(guān)文獻(xiàn)表明,加入除文本向量表示之外的特征后,基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的文本分類(lèi)模型效果均有可能提升[28]。為了學(xué)習(xí)表2中的語(yǔ)言、形式和用戶特征,需對(duì)深度學(xué)習(xí)模型做一定調(diào)整。以TextCNN為例,本文在TextCNN外部添加兩個(gè)帶激活函數(shù)的全連接層對(duì)語(yǔ)言、形式和用戶特征進(jìn)行非線性變換,將得到的向量與TextCNN時(shí)序最大池化層的輸出拼接,然后將拼接后的包含所有特征信息的向量送入網(wǎng)絡(luò)的輸出層進(jìn)行分類(lèi)。其他深度學(xué)習(xí)模型也做類(lèi)似調(diào)整。

      5 實(shí)驗(yàn)及結(jié)果分析

      5.1 數(shù)據(jù)集

      本文研究數(shù)據(jù)來(lái)自突發(fā)事件領(lǐng)域的公開(kāi)數(shù)據(jù)平臺(tái)CrisisLex①http://www.crisislex.org/和CrisisNLP②https://crisisnlp.qcri.org/。CrisisLex中 的Cri‐sisLexT26數(shù)據(jù)集收集了2012—2013年26個(gè)突發(fā)事件的Twitter帖子,按信息量分為相關(guān)且有用、相關(guān)但無(wú)用、不相關(guān)三類(lèi);按信息內(nèi)容分為預(yù)警建議、受影響人群、設(shè)施與公共事業(yè)、捐贈(zèng)與志愿活動(dòng)、同情和情感支持以及其他六類(lèi)[40]。CrisisNLP整合了突發(fā)事件領(lǐng)域多個(gè)研究的公開(kāi)數(shù)據(jù),Imran等[41]提供了2013—2015年19個(gè)危機(jī)事件的Twitter標(biāo)注數(shù)據(jù)集,其中10個(gè)事件的標(biāo)注體系與CrisisLexT26大致相同。該數(shù)據(jù)集由付費(fèi)人員和志愿者標(biāo)注,這里選擇類(lèi)別分布更平衡的付費(fèi)人員標(biāo)注數(shù)據(jù)。綜合考慮數(shù)據(jù)量、語(yǔ)種和分類(lèi)體系,本文從上述數(shù)據(jù)集中選取28個(gè)突發(fā)事件的標(biāo)注數(shù)據(jù),包含37706條Twit‐ter帖子??紤]到突發(fā)事件信息相關(guān)性分類(lèi)的研究已較為成熟,因此,只選用標(biāo)注為相關(guān)的帖子(31396條)。為符合研究要求,對(duì)該份數(shù)據(jù)做如下篩選和補(bǔ)充:①去除非英語(yǔ)帖子;②利用Twitter API獲取帖子全文及元數(shù)據(jù)。此外,為避免冗余,采集每條轉(zhuǎn)發(fā)數(shù)據(jù)對(duì)應(yīng)的原創(chuàng)帖子,并進(jìn)行去重。部分帖子由于發(fā)布時(shí)間過(guò)早已無(wú)法獲取,將其從研究數(shù)據(jù)中剔除。

      處理后剩下18213條數(shù)據(jù)。在比較了數(shù)據(jù)集中的信息類(lèi)別與本文分類(lèi)體系后,將該份數(shù)據(jù)分為兩部分處理:“相關(guān)但無(wú)用”(提及當(dāng)前事件,但無(wú)益于了解事件情況)、“同情和情感支持”(表達(dá)對(duì)事件的想法和情感態(tài)度)和“其他”類(lèi)信息大部分不屬于應(yīng)急行動(dòng)支撐信息。經(jīng)檢查后,從8037條數(shù)據(jù)中人工篩選出5381條非應(yīng)急行動(dòng)支撐信息;剩下10176條數(shù)據(jù)的類(lèi)別定義與本文存在一定差異,因此人工進(jìn)行再標(biāo)注。

      5.2 數(shù)據(jù)標(biāo)注

      數(shù)據(jù)標(biāo)注分為兩個(gè)任務(wù):根據(jù)第3.1節(jié)中的定義與特點(diǎn),判斷一條數(shù)據(jù)是否為應(yīng)急行動(dòng)支撐信息;若是,則進(jìn)一步判斷屬于表1中的哪一類(lèi)別。兩個(gè)任務(wù)都為單標(biāo)簽分類(lèi)。

      為保證客觀性,正式標(biāo)注前進(jìn)行如下準(zhǔn)備:①標(biāo)注體系構(gòu)建:研究人員A和B在查閱文獻(xiàn)、分析數(shù)據(jù)和討論的基礎(chǔ)上,構(gòu)建初步的標(biāo)注體系;然后,各標(biāo)注100條數(shù)據(jù),針對(duì)結(jié)果展開(kāi)討論,并修改標(biāo)注體系。在新標(biāo)注體系的指導(dǎo)下,兩人繼續(xù)獨(dú)立標(biāo)注50條數(shù)據(jù),并計(jì)算Cohen's kappa,兩個(gè)任務(wù)的Cohen's kappa分別為0.769和0.774,屬于基本一致(0.61~0.80)[42]的范疇,表明該標(biāo)注體系可用于指導(dǎo)后續(xù)標(biāo)注。②標(biāo)注訓(xùn)練:研究人員A向研究人員C解釋標(biāo)注體系。兩人隨后進(jìn)行三輪訓(xùn)練,分別標(biāo)注50、100、100條數(shù)據(jù),并計(jì)算Cohen's kappa,若未達(dá)到0.7,則討論分析,完善判斷標(biāo)準(zhǔn)。第三輪訓(xùn)練中兩個(gè)任務(wù)的Cohen's kappa分別為0.753和0.804,一致性達(dá)到要求。

      正式標(biāo)注時(shí),研究人員A和C各標(biāo)注一半數(shù)據(jù),任務(wù)完成后互相檢查。對(duì)有爭(zhēng)議的標(biāo)注結(jié)果進(jìn)行討論,并確定最終標(biāo)簽。標(biāo)注結(jié)果包括8958條應(yīng)急行動(dòng)支撐信息,1019條非應(yīng)急行動(dòng)支撐信息,199條不相關(guān)或無(wú)法判斷的數(shù)據(jù)。為保證應(yīng)急行動(dòng)支撐信息的質(zhì)量,利用Python botometer工具①過(guò)濾垃圾賬號(hào)發(fā)布的帖子,最終得到8313條應(yīng)急行動(dòng)支撐信息。

      由于人工檢查和標(biāo)注得到的非應(yīng)急行動(dòng)支撐信息總量(6400條)與應(yīng)急行動(dòng)支撐信息數(shù)據(jù)量存在一定差距,為保證模型訓(xùn)練效果,從crisisNLP數(shù)據(jù)集里由志愿者標(biāo)注的相同事件數(shù)據(jù)中,隨機(jī)篩選部分進(jìn)行人工檢查,得到1500條非應(yīng)急行動(dòng)支撐信息。最終各類(lèi)別數(shù)據(jù)量如表3所示。

      表3 研究數(shù)據(jù)的類(lèi)別分布情況

      5.3 數(shù)據(jù)預(yù)處理

      數(shù)據(jù)預(yù)處理步驟如下:①為獲取文本向量表示,首先去除原始帖子中URL、@信息和特殊字符,將單詞統(tǒng)一轉(zhuǎn)化成小寫(xiě)。BERT相關(guān)模型中,使用WordPiece模型[43]進(jìn)行分詞,其余模型使用Py‐thon中的NLTK(natural language toolkit)包進(jìn)行分詞。此外,在轉(zhuǎn)換成TF-IDF向量前,額外進(jìn)行了詞形還原。②為獲取語(yǔ)言、形式和用戶特征,將原始帖子中的URL、hashtag、@信息等替換成統(tǒng)一標(biāo)志后,輸入LIWC工具,提取語(yǔ)言特征。電話號(hào)碼、表情符號(hào)以及用戶描述特征中的表情符號(hào)、hashtag和提及用戶通過(guò)正則表達(dá)式識(shí)別。其余形式和用戶特征從Twitter元數(shù)據(jù)中直接獲取。

      5.4 模型訓(xùn)練與評(píng)估

      為評(píng)估本研究所提出的基于機(jī)器學(xué)習(xí)的應(yīng)急行動(dòng)支撐信息識(shí)別與分類(lèi)兩階段方法框架的有效性,實(shí)驗(yàn)中分別訓(xùn)練應(yīng)急行動(dòng)支撐信息識(shí)別和分類(lèi)兩個(gè)階段的模型,通過(guò)十折交叉驗(yàn)證評(píng)估不同算法在各階段任務(wù)以及整體流程上的性能(下文稱(chēng)其為“兩階段方法”,如圖2所示)。同時(shí),針對(duì)本文的二級(jí)分類(lèi)體系,另一種解決思路是訓(xùn)練單個(gè)多分類(lèi)器,一次性對(duì)所有葉子標(biāo)簽進(jìn)行分類(lèi)(下文稱(chēng)其為“N+1方法”,其中N表示應(yīng)急行動(dòng)支撐信息的細(xì)分類(lèi)別,1表示非應(yīng)急行動(dòng)支撐信息),本文也對(duì)N+1方法進(jìn)行評(píng)估,其流程如圖3所示。接下來(lái),分別對(duì)上述兩種分類(lèi)方法的模型訓(xùn)練與評(píng)估步驟進(jìn)行介紹。

      圖2 兩階段方法的模型訓(xùn)練與評(píng)估流程

      圖3 N+1方法的模型訓(xùn)練與評(píng)估流程

      1)兩階段方法的模型訓(xùn)練與評(píng)估步驟

      Step1.劃分訓(xùn)練集和驗(yàn)證集:將標(biāo)注和預(yù)處理后的研究樣本集分層隨機(jī)劃為10個(gè)分區(qū)。對(duì)于每一分區(qū),將該分區(qū)作為驗(yàn)證集,剩余9個(gè)分區(qū)作為訓(xùn)練集。

      Step2.訓(xùn)練應(yīng)急行動(dòng)支撐信息識(shí)別模型(二分類(lèi)器):基于Step1的數(shù)據(jù)進(jìn)行應(yīng)急行動(dòng)支撐信息識(shí)別模型的訓(xùn)練與調(diào)參。根據(jù)十折評(píng)估均分,選擇最優(yōu)的超參數(shù)組合。

      Step3.訓(xùn)練應(yīng)急行動(dòng)支撐信息分類(lèi)模型(多分類(lèi)器):操作與Step2一致。兩者區(qū)別在于該任務(wù)的訓(xùn)練數(shù)據(jù)由Step1中訓(xùn)練集的正樣本(即屬于應(yīng)急行動(dòng)支撐信息的樣本)組成;驗(yàn)證數(shù)據(jù)同理。

      Step4.評(píng)估整體流程:使用Step1中的驗(yàn)證集,評(píng)估兩階段任務(wù)的整體效果。對(duì)每一折的驗(yàn)證集,首先,調(diào)用Step2中在對(duì)應(yīng)的訓(xùn)練集上訓(xùn)練出的識(shí)別模型進(jìn)行二分類(lèi);其次,調(diào)用Step3中在對(duì)應(yīng)的訓(xùn)練集上訓(xùn)練出的分類(lèi)模型,對(duì)二分類(lèi)中預(yù)測(cè)為正的樣本進(jìn)行多分類(lèi);再次,將兩階段的預(yù)測(cè)結(jié)果與驗(yàn)證集真實(shí)標(biāo)簽對(duì)比,計(jì)算該折的評(píng)估分?jǐn)?shù)。最后,平均十折分?jǐn)?shù)作為評(píng)估結(jié)果。

      2)N+1方法的模型訓(xùn)練與評(píng)估步驟

      將非應(yīng)急行動(dòng)支撐信息與應(yīng)急行動(dòng)支撐信息的8個(gè)細(xì)分類(lèi)別并列,作為分類(lèi)任務(wù)的目標(biāo)標(biāo)簽,然后訓(xùn)練一個(gè)多分類(lèi)器進(jìn)行預(yù)測(cè)。為與兩階段方法進(jìn)行對(duì)比,同樣采用十折交叉驗(yàn)證評(píng)估該方法的效果。

      模型訓(xùn)練時(shí),基于信息增益進(jìn)行特征選擇。對(duì)于數(shù)據(jù)不平衡的分類(lèi)任務(wù),采用加權(quán)損失,對(duì)樣本少的類(lèi)別的損失賦予更大的權(quán)重。機(jī)器學(xué)習(xí)模型的訓(xùn)練基于Scikit-learn工具,重點(diǎn)調(diào)整優(yōu)化算法、正則化項(xiàng)、類(lèi)別權(quán)重和特征個(gè)數(shù)等超參數(shù)。深度學(xué)習(xí)模型的訓(xùn)練基于PyTorch框架,各模型基本配置如下:TextCNN使用窗口大小分別為3、4、5的卷積核,每種尺寸下卷積核的輸出特征圖個(gè)數(shù)為100,優(yōu)化器使用Adam;BERT使用基礎(chǔ)版預(yù)訓(xùn)練模型(BERT-Base),優(yōu) 化 器 使 用BertAdam。BERT+TextCNN取BERT最后一個(gè)編碼層的輸出作為特征輸入TextCNN。其余超參數(shù),如學(xué)習(xí)率、丟棄比例、epoch等在訓(xùn)練時(shí)調(diào)優(yōu)。模型評(píng)估采用精準(zhǔn)率(precision)、召回率(recall)、F1值和正確率(ac‐curacy),多分類(lèi)任務(wù)的整體精準(zhǔn)率、召回率和F1采用宏平均計(jì)算。

      5.5 結(jié)果與分析

      5.5.1 兩個(gè)階段分類(lèi)器的評(píng)估結(jié)果

      實(shí)驗(yàn)分別對(duì)兩個(gè)階段的分類(lèi)器進(jìn)行評(píng)估,結(jié)果如表4所示。第一階段中,BERT和BERT+TextCNN的F1均在0.93以上,明顯高于其他模型。TextCNN、SVM和LR的表現(xiàn)相當(dāng)。隨著任務(wù)復(fù)雜性的提升,第二階段中,各模型的性能差距加大:表現(xiàn)最佳的是BERT,其macro-F1達(dá)到0.839,比BERT+TextCNN高出0.01;其余模型的macro-F1均在0.8以下。兩個(gè)階段最佳模型的超參數(shù)調(diào)優(yōu)結(jié)果如表5所示。

      表4 應(yīng)急行動(dòng)支撐信息識(shí)別和分類(lèi)兩個(gè)階段分類(lèi)器的評(píng)估結(jié)果

      表5 兩個(gè)階段最佳模型的超參數(shù)調(diào)優(yōu)結(jié)果

      為進(jìn)一步判斷上述模型的性能差異是否具有顯著性,本文采用配對(duì)樣本t檢驗(yàn)進(jìn)行比較檢驗(yàn)。具體方法為:對(duì)模型A和B在K折交叉驗(yàn)證中的K對(duì)結(jié)果分別求差,檢驗(yàn)差值的均值是否為零。若均值為零,則表明兩個(gè)模型性能相同。由于K折交叉驗(yàn)證中不同輪次的訓(xùn)練集樣本存在交叉,使得K個(gè)測(cè)試結(jié)果之間并不獨(dú)立,違背了假設(shè)檢驗(yàn)的獨(dú)立采樣原則[44],因此,在估計(jì)差值的方差時(shí),引入額外的相關(guān)性系數(shù)ρ進(jìn)行修正,ρ=測(cè)試樣本數(shù)/(訓(xùn)練樣本數(shù)+測(cè)試樣本數(shù))[45]。此外,由于進(jìn)行了多重假設(shè)檢驗(yàn),使用BH(Benjamini-Hochberg)法[46]校正p值。

      表6為兩階段中各模型F1值的比較檢驗(yàn)結(jié)果。BERT和BERT+TextCNN的性能在兩個(gè)階段均無(wú)顯著差異,且均在0.001的顯著性水平下優(yōu)于其他模型。TextCNN、SVM和LR在第一階段的表現(xiàn)無(wú)顯著差異,但第二階段TextCNN在0.01的顯著性水平下優(yōu)于LR。

      表6 兩階段任務(wù)中各模型F1值的比較檢驗(yàn)結(jié)果(p值)

      5.5.2 整體流程評(píng)估結(jié)果

      本文所提方法在應(yīng)用時(shí),可將兩個(gè)階段分類(lèi)器組合使用,因此,實(shí)驗(yàn)進(jìn)一步對(duì)整體流程效果進(jìn)行評(píng)估,結(jié)果如表7所示。macro-F1最高的為BERT,達(dá)到0.789,其次為BERT+TextCNN。表8列出了各模型macro-F1的比較檢驗(yàn)結(jié)果。BERT和BERT+TextCNN的性能無(wú)顯著差異,且兩者性能均在0.001的顯著性水平下高于其他模型。TextCNN和SVM、LR的性能無(wú)顯著差異。

      表7 整體流程評(píng)估結(jié)果

      表8 整體流程評(píng)估中各模型macro-F1值的比較檢驗(yàn)結(jié)果(p值)

      圖4為BERT在各類(lèi)別信息上的評(píng)估得分,可以看出樣本量對(duì)分類(lèi)效果有較大影響。非應(yīng)急行動(dòng)支撐信息和受影響人群信息的分類(lèi)效果最好,F(xiàn)1均高于0.9,這與兩者樣本量充足有關(guān)。其他類(lèi)信息的F1僅有0.322,原因在于這類(lèi)信息樣本量最少,且內(nèi)部細(xì)分類(lèi)型相對(duì)復(fù)雜,模型難以充分學(xué)習(xí)。其余類(lèi)別的F1均在0.75以上,處于可接受范圍。

      圖4 整體流程評(píng)估中各類(lèi)別信息的分類(lèi)效果(基于BERT)

      為了橫向?qū)Ρ葍呻A段方法的效果,實(shí)驗(yàn)也對(duì)第5.4節(jié)中提及的N+1方法進(jìn)行評(píng)估。表9為N+1方法中各模型的評(píng)估結(jié)果。在SVM和LR上,N+1方法的macro-F1比兩階段方法高出近0.01;在TextCNN、BERT和BERT+TextCNN上,兩種方法的macro-F1十分接近。表10中的比較檢驗(yàn)結(jié)果表明,兩種方法的macro-F1在除LR之外的4個(gè)模型上均無(wú)顯著差異。

      表9 N+1方法中各模型的評(píng)估結(jié)果

      表10 兩階段方法和N+1方法macro-F1值的比較檢驗(yàn)結(jié)果

      5.5.3 特征對(duì)比結(jié)果

      為探究語(yǔ)言、形式和用戶特征對(duì)本文任務(wù)的貢獻(xiàn),在兩個(gè)階段的最優(yōu)模型上構(gòu)造了不同特征組合進(jìn)行對(duì)比。與用戶特征相比,語(yǔ)言和形式特征皆從文本信息內(nèi)容角度出發(fā),且形式特征維度較少,難以單獨(dú)發(fā)揮作用,因此,將兩類(lèi)特征合并為“內(nèi)容特征”,以得到更清晰的比較結(jié)果。最終構(gòu)造了如下四種特征組合進(jìn)行對(duì)比:僅使用embedding、em‐bedding+用戶特征、embedding+內(nèi)容特征(語(yǔ)言、形式)、所有類(lèi)型特征,結(jié)果如表11所示。第一階段中,使用所有特征的F1達(dá)到0.937,略高于其他特征組合;第二階段中,與僅使用embedding相比,加入內(nèi)容特征或用戶特征后模型效果均有所提升,其中,使用所有類(lèi)型特征的macro-F1達(dá)到0.839,提升幅度最大。

      表11 兩階段任務(wù)中不同特征組合的評(píng)估結(jié)果

      表12為兩階段任務(wù)中不同特征組合下F1值的比較檢驗(yàn)結(jié)果。在第一階段中,加入內(nèi)容特征、用戶特征后模型的性能與僅使用embedding無(wú)顯著差異;在第二階段中,使用所有類(lèi)型特征的效果在0.05顯著性水平下優(yōu)于僅使用embedding,這表明內(nèi)容特征和用戶特征雖然無(wú)法單獨(dú)發(fā)揮作用,但進(jìn)行組合后能夠共同提升應(yīng)急行動(dòng)支撐信息分類(lèi)任務(wù)的效果。

      表12 兩階段任務(wù)中不同特征組合下F1值的比較檢驗(yàn)結(jié)果(p值)

      為進(jìn)一步了解單個(gè)特征的貢獻(xiàn)情況,本文計(jì)算了特征的信息增益,并通過(guò)特征均值比較同一特征在不同類(lèi)別信息中的差異。圖5為第一階段任務(wù)中部分具有貢獻(xiàn)的特征。①語(yǔ)言特征中,與宗教信仰有關(guān)的詞匯、代詞、第一人稱(chēng)代詞單數(shù)、將來(lái)時(shí)態(tài)、認(rèn)知過(guò)程詞匯、積極情感詞等具有較大區(qū)分度。上述特征常用于表達(dá)觀點(diǎn)、傳遞同情和祈禱、闡述個(gè)人經(jīng)歷等,在非應(yīng)急行動(dòng)支撐信息中的平均出現(xiàn)次數(shù)更高[47]。數(shù)字以及與死亡有關(guān)的詞匯也具有較高貢獻(xiàn)度,兩者在應(yīng)急行動(dòng)支撐信息中出現(xiàn)更為頻繁,用于報(bào)道情況更新等。②形式特征中,URL和表情符號(hào)具有一定貢獻(xiàn)。前者在應(yīng)急行動(dòng)支撐信息中更常見(jiàn),用于補(bǔ)充事件詳情等;后者在非應(yīng)急行動(dòng)支撐信息中使用頻率更高,用于表達(dá)情感態(tài)度。③用戶特征中,發(fā)博數(shù)、粉絲數(shù)、認(rèn)證情況具有一定貢獻(xiàn)。上述特征在應(yīng)急行動(dòng)支撐信息中的均值皆高于非應(yīng)急行動(dòng)支撐信息,說(shuō)明兩類(lèi)信息的發(fā)布用戶類(lèi)型存在差異。

      圖5 應(yīng)急行動(dòng)支撐信息識(shí)別任務(wù)中部分具有貢獻(xiàn)的特征

      圖6為第二階段任務(wù)中部分具有貢獻(xiàn)的特征。①語(yǔ)言特征中,與死亡有關(guān)的詞匯具有高貢獻(xiàn)度,其在受影響人群信息中更為常見(jiàn)。歸屬動(dòng)機(jī)詞匯(如“支持”)、社會(huì)過(guò)程詞匯(如“朋友”)、第一人稱(chēng)代詞復(fù)數(shù)更常出現(xiàn)在求助和幫助信息中,用于強(qiáng)調(diào)同理心、共情和社會(huì)合作;同時(shí),由于求助和幫助時(shí),通常伴隨著感激、希望等積極情感,因此,這兩類(lèi)信息的情感語(yǔ)調(diào)更高。感嘆號(hào)、與金錢(qián)有關(guān)的詞匯在求助信息中使用頻率更高;電話號(hào)碼則在幫助信息中最常出現(xiàn)。第二人稱(chēng)代詞在三類(lèi)顯式信息中的使用頻率更高,符合我們對(duì)顯式信息的定義——直接要求他人采取行動(dòng)。數(shù)字和比較級(jí)在事件基本信息和受影響人群信息中出現(xiàn)頻率更高;與風(fēng)險(xiǎn)有關(guān)的詞匯在預(yù)警和建議中最常出現(xiàn);感官詞匯在事件基本信息中使用更頻繁,原因在于這類(lèi)信息較多來(lái)自目擊者報(bào)告。②形式特征中,hashtag在預(yù)警和建議中使用頻率更高,起強(qiáng)調(diào)和提醒的作用;URL和圖片更常出現(xiàn)在建筑設(shè)施及公共事業(yè)、受影響人群等情況更新中,用于補(bǔ)充詳細(xì)信息。③用戶特征中,事件基本信息的發(fā)布用戶擁有更高的發(fā)博數(shù),表明這類(lèi)信息來(lái)自媒體或官方宣傳機(jī)構(gòu)的比例較大。提及用戶數(shù)在求助信息中的均值更高,用于顯式請(qǐng)求幫助。

      圖6 應(yīng)急行動(dòng)支撐信息分類(lèi)任務(wù)中部分具有貢獻(xiàn)的特征

      5.6 討論

      本文提出的兩階段方法在多數(shù)模型上與N+1方法的效果并無(wú)顯著差異。而在實(shí)際應(yīng)用中,兩階段方法具有如下優(yōu)勢(shì):①能提供層次豐富的應(yīng)急行動(dòng)支撐信息,適用場(chǎng)景和對(duì)象更為廣泛:第一階段的信息識(shí)別模型F1值均在0.915以上,可為應(yīng)急管理機(jī)構(gòu)提供全面而準(zhǔn)確的行動(dòng)支撐信息,適合基于所有信息進(jìn)行綜合研判,而無(wú)需了解具體信息類(lèi)別的場(chǎng)景。第二階段的信息分類(lèi)模型能夠面向各類(lèi)應(yīng)急任務(wù)執(zhí)行者提供有針對(duì)性的支撐信息,例如,向搜救隊(duì)伍提供受困人員地點(diǎn)等。因此,兩階段方法可滿足不同應(yīng)急環(huán)節(jié)的信息需求。②針對(duì)兩個(gè)任務(wù)訓(xùn)練單獨(dú)的分類(lèi)器,能夠更好地捕捉應(yīng)急行動(dòng)支撐和非應(yīng)急行動(dòng)支撐信息、應(yīng)急行動(dòng)支撐信息細(xì)分類(lèi)別之間的區(qū)別,把握各自任務(wù)上的最優(yōu)特征,增強(qiáng)模型的可解釋性,為之后的模型調(diào)優(yōu)提供思路;不足在于需要訓(xùn)練兩個(gè)模型,會(huì)消耗更多的時(shí)間和計(jì)算資源。

      綜合兩階段任務(wù)來(lái)看,BERT相關(guān)模型具有顯著優(yōu)勢(shì),印證了雙向Transformer結(jié)構(gòu)和預(yù)訓(xùn)練語(yǔ)言模型在文本分類(lèi)中的優(yōu)越性。BERT+TextCNN的組合未帶來(lái)性能的明顯改進(jìn),原因可能在于BERT復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)已能夠充分學(xué)習(xí)本文任務(wù),加入TextCNN反而會(huì)增加過(guò)擬合風(fēng)險(xiǎn)。SVM和LR的性能雖不及BERT,但耗費(fèi)的時(shí)間和計(jì)算資源相對(duì)較少,適合時(shí)間緊迫和資源有限的場(chǎng)景。特征對(duì)比結(jié)果表明,語(yǔ)言、形式和用戶特征的組合能顯著提升應(yīng)急行動(dòng)支撐信息分類(lèi)任務(wù)的效果;多數(shù)高貢獻(xiàn)度的特征能夠較好反映應(yīng)急行動(dòng)支撐信息以及其細(xì)分類(lèi)別的特點(diǎn),這說(shuō)明本文構(gòu)建的特征體系較為合理。

      6 結(jié)論

      本文在系統(tǒng)界定應(yīng)急行動(dòng)支撐信息概念、特點(diǎn)與類(lèi)別的基礎(chǔ)上,提出了基于機(jī)器學(xué)習(xí)的應(yīng)急行動(dòng)支撐信息自動(dòng)識(shí)別和分類(lèi)的兩階段方法,并在標(biāo)注數(shù)據(jù)集上對(duì)不同分類(lèi)方法、算法和特征組合的效果進(jìn)行評(píng)估。研究結(jié)果發(fā)現(xiàn),兩階段方法與N+1方法的效果在多數(shù)模型上無(wú)顯著差異。前者優(yōu)勢(shì)在于能夠提供不同層次的應(yīng)急行動(dòng)支撐信息,適用的場(chǎng)景更加廣泛;而其不足在于需消耗更多的時(shí)間和計(jì)算資源,因此,在實(shí)際應(yīng)用時(shí),可根據(jù)現(xiàn)實(shí)條件和需求對(duì)兩類(lèi)方法進(jìn)行選擇。BERT和BERT+TextCNN在兩個(gè)階段任務(wù)中均優(yōu)于其他模型。語(yǔ)言、形式和用戶特征的組合對(duì)應(yīng)急行動(dòng)支撐信息識(shí)別任務(wù)無(wú)明顯作用,但能顯著提升應(yīng)急行動(dòng)支撐信息分類(lèi)任務(wù)的效果。本文的意義在于針對(duì)具體應(yīng)急行動(dòng)中的信息過(guò)載問(wèn)題提供了初步的解決方案,對(duì)面向應(yīng)急行動(dòng)信息需求的研究視角進(jìn)行了補(bǔ)充。

      本文的局限性如下:一是未考慮圖片在應(yīng)急行動(dòng)支撐信息識(shí)別和分類(lèi)中的作用。未來(lái)將融合文本、圖片等多模態(tài)信息展開(kāi)研究。二是僅判斷一條信息能否為應(yīng)急行動(dòng)提供支撐,而未進(jìn)一步考慮信息可行動(dòng)性的高低[5]。信息的可行動(dòng)性因其包含的要素不同而具有差異,例如,帶有地點(diǎn)、需求類(lèi)型、數(shù)量等要素的信息,更有利于相關(guān)主體采取行動(dòng)[48]。未來(lái)可制定信息可行動(dòng)性的度量指標(biāo),結(jié)合命名實(shí)體識(shí)別等技術(shù)進(jìn)行評(píng)估或預(yù)測(cè)。三是未考慮應(yīng)急行動(dòng)支撐信息分類(lèi)中的類(lèi)別重疊問(wèn)題,未來(lái)將通過(guò)多標(biāo)簽分類(lèi)等方法予以解決。

      猜你喜歡
      突發(fā)事件分類(lèi)特征
      分類(lèi)算一算
      如何表達(dá)“特征”
      不忠誠(chéng)的四個(gè)特征
      分類(lèi)討論求坐標(biāo)
      數(shù)據(jù)分析中的分類(lèi)討論
      教你一招:數(shù)的分類(lèi)
      抓住特征巧觀察
      突發(fā)事件的輿論引導(dǎo)
      清朝三起突發(fā)事件的處置
      文史春秋(2016年8期)2016-02-28 17:41:32
      突發(fā)事件
      慈溪市| 华坪县| 通州市| 开阳县| 石柱| 盐池县| 土默特左旗| 宿松县| 通城县| 闽清县| 巩义市| 德保县| 仁化县| 青神县| 岐山县| 志丹县| 易门县| 巴塘县| 长沙县| 汉川市| 新乡县| 德化县| 杭锦后旗| 宁河县| 革吉县| 南澳县| 大丰市| 津南区| 玉林市| 南京市| 双牌县| 基隆市| 长顺县| 濉溪县| 马公市| 博客| 汝城县| 富川| 泰安市| 玛沁县| 泸西县|