王志宇 劉雨薇
關鍵詞:政務微博:自然災害;LDA主題模型;知識圖譜:知識可視化
自然災害是當今世界人類最為關注的全球性問題之一,人類社會面臨著很多自然災害的威脅。如何有效做好防災、減災、救災工作,最大限度地降低自然災害造成的財產損失和人員傷亡,是目前普遍關注的焦點之一。據《應急管理部發(fā)布2022年全國自然災害基本情況》顯示,2022年我國各類自然災害共造成1.12億人次受災,因災死亡失蹤554人,緊急轉移安置242.8萬人次,直接經濟損失2386.5億元。在此情形下,分析災害信息,加強對自然災害的管理顯得尤為重要。面對自然災害事件,社交媒體往往承擔著信息交流平臺的作用,現如今,微博已經成為推動我國社會公共事件爆發(fā)式傳播的重要力量,政務微博作為國家機關發(fā)布政務信息的平臺,在政務信息傳遞及與用戶的交流中發(fā)揮重要作用,能發(fā)布關于災害事件的第一手信息,是人們了解災害事件的重要平臺。但由于各個政務平臺發(fā)布的信息較為分散,用戶要了解某一災害事件的全貌還需要從多種渠道獲取信息,且內容信息冗余度比較高,這樣不僅不利于用戶閱讀,而且也不利于政務機關對災害事件的信息資源進行管理與利用。知識圖譜的概念是由谷歌公司于2012年首次提出的,知識圖譜通過對數據整合與規(guī)范,向人們提供有價值的結構化信息,已被廣泛應用于信息搜索、自動問答、決策分析等領域,是推動數據價值挖掘和支撐智能信息服務的重要基礎技術。因此,將知識圖譜技術應用在政務微博發(fā)布的關于自然災害事件的信息組織與可視化利用中,對研究政務微博關于災害事件的信息組織與開發(fā)具有重要意義。
1相關研究
一方面,結合政務微博與自然災害事件信息展開的相關學術研究,首先集中于微博輿情方面,例如,安璐等以政務微博的博文及評論數據為研究對象,通過構建政務微博輿情引導能力評價指標體系,對突發(fā)事件情境下的輿情引導能力進行成熟度診斷,研究影響輿情引導效果的關鍵因素。劉曉娟等以政務微博的新冠肺炎疫情信息為例,分析了信息公開與輿情演化之間的關系;其次,也有學者對政務微博災害事件的信息特征進行分析,如翟冉冉等采用內容分析法對政務微博的突發(fā)公共事件回應樣本的規(guī)律和特征進行分析,從而為政府網絡輿情的應對工作提供理論參考。楊光等以《人民日報》發(fā)布的河南省暴雨信息為例,探究其發(fā)布信息的極值特征、發(fā)布特征與關鍵詞特征,研究政務微博在重大公共事件中發(fā)布信息的特點和規(guī)律:最后,部分學者結合系統(tǒng)模型對微博災害信息進行識別與抽取,Basu M等提出了識別與提取微博平臺發(fā)布的內容流中對災后救援有用信息的方法。YunH W構建了災害事件檢測系統(tǒng),并展示從Twitter數據中檢測目標災害事件的方法。Ye P等構建了一個考慮信息多顆粒性和動態(tài)特性的臺風事件信息模型,能夠全面檢測臺風事件過程中任意時空節(jié)點上的不同對象的信息。
另一方面,圍繞知識圖譜在圖情檔領域開展的相關研究中,學者們更集中于將知識圖譜技術應用在領域中實現知識的細?;诰?。在圖書館領域,彭博構建了網絡文物信息資源知識圖譜,實現信息資源中的文物實體關系抽取、文物知識抽取與文物命名實體識別等應用研究。陳海玉等以徽州文書為例,構建了徽州文書知識圖譜,實現文書知識信息的可視化呈現與檢索。沈旺等構建了面向梅蘭芳的民國報紙知識圖譜,實現面向梅蘭芳的知識挖掘。在情報領域,王阮等構建了口述記憶資源知識圖譜模型,實現了口述記憶資源的實例可視化展示與多維語義查詢。宋雪雁等構建了清代祭祀禮器知識圖譜,清晰地呈現了清代祭祀禮器間的知識關聯。高晨翔等構建了基于主題劃分的區(qū)域政務微博知識圖譜,實現區(qū)域政務微博內容的知識組織與可視化展示。在檔案領域,趙雪芹等構建了可視化的工程檔案知識圖譜,實現工程檔案數據知識層面的數據融合與集成。舒忠梅等構建了中大記“疫”檔案知識圖譜.實現抗疫專題檔案實體的知識關聯與推理。
綜上所述,對于結合政務微博與自然災害事件的研究,學者們多集中于對微博輿情和信息特征等方面,雖然有學者對微博災害信息的識別與抽取進行研究,但較少結合本體、知識圖譜等技術實現對微博災害信息的知識組織與可視化,相關研究成果中關于社交平臺信息的知識組織與挖掘方面的研究仍有一定的探索空間。因此,結合知識圖譜技術,對微博平臺的自然災害信息進行知識的深層組織與挖掘成為當下該課題研究的重要趨勢?;谝延醒芯砍晒?,本研究首先使用LDA主題模型對微博平臺的災害信息進行主題劃分,再利用知識圖譜技術,對各主題下的內容進行知識組織與知識圖譜的可視化展示,深入挖掘每個主題下各信息之間所隱藏的知識,分析組織機構發(fā)布信息的規(guī)律與特點,從而實現對政務信息資源的高效利用,加強用戶對災害事件的了解,同時對政府機關加強災害事件的管理、保障社會安全和促進國家經濟平穩(wěn)發(fā)展具有重要現實意義和科學意義。
2政務微博的特性及知識圖譜的適用性
知識圖譜技術在信息的組織與應用中使用較為廣泛,包括對媒體信息的組織與探索。而對于該技術是否可以應用于政務微博災害事件的知識組織,還需要結合政務微博的特性進行探討。
2.1政務微博的特性
政務微博是指由黨政機構或者黨政機構官員開通的經過實名認證的發(fā)布政務信息、促進政府信息公開、加強官民交流、塑造新型政府、加強公共服務等內容的微博。政務微博具有內容形式多樣化、信息總量大與信息動態(tài)性的特點,將知識圖譜技術應用在政務微博資源時要充分考慮政務微博的特性,使自然災害知識圖譜的構建能夠適應其特性。
首先,政務微博資源具有內容豐富性的特點。政務微博資源中,形式上不僅包含文本形式,還具有圖片、視頻等多種形式;內容上不僅有實事報道、政務公開與解讀等內容,還包括知識科普、勵志名言等。這些資源雖然有利于政務信息的傳播與利用,但是這些信息資源都是非結構化的信息,內容復雜且形式多樣,不利于信息的組織與開發(fā)。
其次,政務微博具有信息及時性的特點。政務微博能夠實時跟進動態(tài),發(fā)布具體的政務信息,尤其在遇到突發(fā)事件時,政府會在第一時間通過政務微博發(fā)布相關信息,并持續(xù)跟進事件的進展,滿足公眾的知情需求,為用戶提供公開暢通的信息渠道,及時了解事件的過程,既有利于提升政府行政的透明度,保障公眾的知情權,也有利于為突發(fā)事件的處理與后續(xù)工作開展提供必要的幫助。
最后,政務微博具有文本簡潔性的特點。微博網站對微博字數有著一定的限制,這就決定微博比其他媒體的文本篇幅要小。政務微博是由政府部門發(fā)布的政務信息,以簡潔的語言傳達緊要的信息,有利于用戶快速便捷地查看政務信息,迅速掌握政務信息的主要內容。
2.2知識圖譜在自然災害事件微博資源中的適用性
將知識圖譜技術應用在政務微博發(fā)布的自然災害事件信息組織中,一是能夠實現自然災害事件微博資源的知識挖掘。自然災害事件的微博資源包含文本、圖片等多種形式,每種形式的微博資源都涵蓋大量數據,而現有的微博資源的組織方式不能全面揭示微博資源的多元化知識。因此.知識圖譜技術的應用能夠實現對自然災害事件微博資源的細?;槿∨c加工組織,從而實現自然災害事件微博資源的有序化、條理化、系統(tǒng)化的知識組織,為用戶提供結構化知識。二是能夠實現自然災害事件微博資源的知識關聯與聚合。自然災害事件微博資源的發(fā)布來源、發(fā)布形式、發(fā)布內容雖然不同,但其中存在較強的關聯性,將知識圖譜技術應用于自然災害事件微博資源的知識組織與可視化中,能夠直觀體現其關聯關系,建立能夠提供語義檢索的知識圖譜,使自然災害事件微博資源的知識體系更加智能。三是能夠實現自然災害事件微博資源的動態(tài)更新。由于微博的及時性與動態(tài)性的特點,當自然災害事件發(fā)生時要將新發(fā)布的微博資源及時補充到知識體系中,因此需要對補充的微博資源進行實體和關系的抽取,為知識圖譜添加新的節(jié)點和關系,實現知識圖譜的動態(tài)更新。
3研究設計
3.1構建流程
本研究采用自上而下的方式構建知識圖譜,整體的構建流程分成4個步驟,分別為數據采集與主題劃分、概念層的構建、數據層的構建、應用層的實現。首先,使用爬蟲技術爬取政務微博賬號發(fā)布的自然災害事件的微博資源組成數據源,并使用LDA主題建模對數據源進行主題聚類,劃分微博主題;其次,通過對數據源的主題內容進行分析,確定知識圖譜模式層的本體類目及屬性關系定義,使用Protege本體構建工具構建自然災害知識圖譜的本體;第三,在數據層,對數據源進行預處理后,對微博資源的實體、關系進行抽取,規(guī)范化處理后形成微博三元組語料庫,將微博三元組語料庫導人Protege工具構建的本體中,導出owl文件轉換成RDF三元組文件進行RDF序列化后,形成微博關聯數據集;最后,將RDF三元組存人Ne04j圖數據庫中實現知識圖譜可視化,并使用Ne04j圖數據庫的Cypher語句實現對自然災害知識圖譜的語義檢索,整體的構建流程如圖1所示。
3.2數據采集
森林火災作為世界八大災害之一,持續(xù)燃燒的森林火災嚴重威脅人類社會的生命財產和生態(tài)安全。近年來,森林火災事故頻發(fā),為有效防控森林火災,本研究選取微博平臺政務部門官方發(fā)布的“森林火災”主題相關資源作為數據源進行組織與分析,使用Python程序采集相關數據,采集的時間范圍為近一年,即2022年6月25-2023年6月14日,采集檢索詞為“森林火災”,獲取字段包括微博發(fā)布者名稱、微博發(fā)布者網址、發(fā)布時間、發(fā)布內容等數據,通過對這些數據進行人工篩選,只保留政務微博發(fā)布的信息資源,如“四川消防”“甘肅森林消防”等政務微博,并去除政務微博信息資源中重復及無價值的信息,最終選定1061條有效數據,為后續(xù)知識圖譜的實現建立數據基礎。
3.3主題劃分
獲取數據后,首先對數據內容進行分析。本文構建的自然災害知識圖譜需要按照主題分類的方式,展示自然災害信息的各個類別以及類別之間的關聯,因此,首先要使用LDA主題建模對微博資源進行主題劃分。LDA模型是David M B等于2003年在潛語義分析LSA和概率潛語義分析PLSA的基礎之上提出的一種主題模型,采用非監(jiān)督的機器學習方法,能有效地提取大規(guī)模文檔集和語料庫中的隱含主題,具有良好的降維能力、建模能力及擴展性。LDA模型中文檔被表示為潛在主題的隨機混合,每個主題都是以詞語的分布為特征,因此,該模型包括3個層次,分別為文檔、主題和詞匯,在一篇文檔中生成單詞的概率為“文檔一主題”和“主題一單詞”的聯合概率分布,每個詞的生成概率如式(1)所示,其中w、t和d分別表示詞匯、主題和文檔。
對于微博內容這類短文本,使用LDA主題建??梢院芎玫貙ξ谋緝热葸M行向量化來計算文本間的相似度,更好地挖掘文本中的隱含主題。
本文通過困惑度(Perplexity)評價指標確定微博信息的最優(yōu)主題數,在概率語言模型中,困惑度是用來評估語言模型優(yōu)劣的指標,較小的困惑度意味著模型對新文本有較好的預測作用。本文設置最大主題數為7,得到的主題數對應困惑度的值如圖2所示。通過圖2可知,當主題數為4時出現拐點,結合文本內容的分析,選取4作為微博主題數值最為合適。確定主題數后,計算每個主題和每個主題下主題詞的概率矩陣,完成對微博文本的主題劃分,并抽取每個主題對應的TF-IDF值前十的高頻詞,如表1所示。
為更準確地分析劃分后的主題數據,對部分數據的主題進行人工調整,最終確定4個主題對應的主題名稱,分別為防災常識、防災措施、災情預測和災情通報。通過LDA主題建模對微博內容進行主題聚類,為后續(xù)知識圖譜的構建厘清了脈絡,有利于實現對微博內容的進一步挖掘。
4自然災害知識圖譜的構建
4.1自然災害知識圖譜模式層的構建
模式層的構建是知識圖譜構建的核心,在構建知識圖譜的模式層時,首先要對數據源的內容結構及其關聯關系進行梳理,確定本體類目及類目之間的關系。本文通過對數據源的內容進行分析后,圍繞自然災害知識的組織與管理,參考借鑒自然災害領域的知識概念,選擇復用DCMI Terms、FOAF本體以及自建本體詞表(FMO)的方式,實現自然災害微博資源類目的構建。本文將微博文本內容進行主題劃分后,首先進行模式層主題類目的構建,主題類目下共包含4個主題子類,具體構建的內容如圖3所示。
圖4中展示本體構建全部類目及屬性關系,共包含25個類目,其中“主題”和“機構”兩個類目復用DC本體,“發(fā)布者”類目復用FOAF本體,其他類目使用自建本體詞表(FMO)進行描述。對劃分的4個主題,包括常識類信息、災情類信息、預測類信息和措施類信息,每個主題的類目進行具體劃分,盡可能地從災害信息中提取更詳盡的知識信息,有望對政府機構、消防領域及相關群體在制定決策、了解災害信息方面提供更多幫助。
其中,關于對象屬性共設置3個類別,分別為子類(subClassof)、動作類(actionClassof)及具有類(hasClassof),具體構建的關系如表2所示,同時對個別類目設置數據屬性,具體概念及屬性如表3所示。
根據前文構建的類目及關系,借助Protege本體建模工具實現自然災害知識本體的程序化,其具體結構可視化如圖5所示。
4.2自然災害知識圖譜數據層的構建
數據層的構建主要基于已經構建的模式層,通過對數據進行預處理后,進行實體關系三元組的抽取,具體的構建過程如下:
4.2.1數據預處理
本文采集了微博平臺的微博發(fā)布者名稱、微博發(fā)布者網址、發(fā)布時間、發(fā)布內容等數據,由于微博文本帶有符號、標簽、超鏈接等內容,因此需要對文本數據進行清洗。首先使用Python的外部庫Jieba中文分詞工具對微博文本內容進行分詞處理、停用詞的過濾和詞性標注,其次根據火災消防領域的知識概念,創(chuàng)建自定義詞典,加入相關的專有名詞以提高數據分詞的準確率。對數據進行預處理后,形成微博文本語料庫。
4.2.2實體抽取
本文根據概念層定義的本體結構,分別對每一主題下的語料庫進行命名實體識別,實現各類目實體的抽取。命名實體識別是指識別語料庫中具有特定語義的實體,包括人名、地名、組織名等實體。本文使用哈爾濱工業(yè)大學語言技術平臺(LanguageTechnology Platform,LTP)提供的模型對微博語料庫進行命名實體識別,LTP模型不僅能很好地實現分詞,而且能有效地識別文本中地名、人名、組織機構名等命名實體。由于本文是以政務微博發(fā)布的森林火災事件為研究對象,該事件中會涉及大量的組織、地點、人物和機構,因此,使用LTP模型對微博語料庫進行命名實體識別,可以提高實體關系三元組的精確度,獲取到的部分實體結果如表4所示。
4.2.3關系抽取
本研究使用基于依存句法分析與語義角色標注的方法進行實體關系三元組的抽取。依存關系語法認為謂語中的動詞是句子的中心,其他成分與動詞有直接或間接的關系,依存句法分析通過分析句子中詞匯之間的關系確定句子的句法結構,包括主謂關系(SBV)、動賓關系(VOB)、定中關系(ATT)等。語義角色標注是淺層語義分析的一種重要實現方式,該方法并不對整個語句做詳細的語義分析,而只是標注句子中給定謂詞的語義角色,語義角色描述了一個謂詞和它的參數之間的關系,對表面的句法構架進行抽象。語義角色標注方法是以句子的謂詞為中心,分析句子的其他成分和謂詞之間的關系,即分析句子的謂詞一論元結構,并用語義角色來描述這些結構關系。
本文首先使用依存句法分析句子的關系類型,利用依存句法分析對句子中的動賓關系以及并列關系進行提取,再使用語義角色標注獲取微博語料中的主語和核心謂詞,主語作為該句的施事者,以核心謂詞為出發(fā)點,根據依存句法分析的結果,對句子的賓語即受事者進行識別與提取,組成實體關系三元組。圖6展示基于LTP對采集的微博文本信息進行依存句法分析與語義角色標注的過程,在該圖中,“聯合”這一謂語動詞為該句中的根詞項,各個詞項之間的鍵值對表示各個詞項之間的依存關系,首先找尋與“聯合”謂詞存在動賓關系(VOB)的詞語,即“大隊”,而“大隊”和“救援隊”存在并列關系(C00);再找尋與“聯合”謂詞存在并列關系(C00)的詞語“開展”作為句子謂詞,找尋動賓關系(VOB),即“活動”。因此,“高新區(qū)應急管理局”作為本句的施事者(標記為A0),根據依存句法分析的動賓關系及并列關系,提取受事者組成的實體關系三元組為(高新區(qū)應急管理局,聯合,高新區(qū)消防大隊)、(高新區(qū)應急管理局,聯合,藍天救援隊)、(高新區(qū)應急管理局,開展,應急教學活動)。
4.2.4數據融合
通過對數據的實體關系三元組抽取后,將抽取的三元組中不重要的內容刪除,并將表述不清、不完整的數據補充完整,對內容表述重復的數據進行數據融合,人工調整部分三元組數據。首先是部分數據不完整的問題,通過查詢相關信息補充完整數據,例如21日、28日等日期信息不完整,補充為“2022年8月21日”“2022年8月28日”以及“瀘州市”“宣漢縣”等機構名稱不完整,補充為“瀘州市人民政府”“宣漢縣森林防滅火指揮部”等:其次是發(fā)布的應急措施名稱不同但內容相同的問題,即內容表述重復性的問題,例如“森林防滅火巡查工作”“巡防森林火情”和“巡邏防護工作”都為森林防火巡查的措施,可以將這些措施名稱融合為“森林防滅火巡查工作”。最終將獲取的三元組數據實例批量導入Protege構建的本體中,并將導出的owl文件轉換成RDF文件,實現RDF序列化。
5自然災害知識圖譜的應用
本研究使用Ne04j圖數據庫及Cypher查詢語句實現知識圖譜的檢索與可視化,構建的知識圖譜能夠從宏觀及微觀層面反映出主題下各類目實體之間的語義關聯關系。最終形成的知識圖譜共包含657個實體節(jié)點和755個關聯關系,呈現的圖譜如圖7所示。
在知識圖譜的可視化方面,從宏觀角度來看,自然災害知識圖譜中,共包含防災措施、災情通報、災情預測和防災常識4個主題的圖譜,圖7展示了各主題的發(fā)布者以及主題下的類目信息。首先,綠色節(jié)點為發(fā)布者節(jié)點,從4個主題的發(fā)布者數量來看,發(fā)布者發(fā)布防災常識、災情通報以及防災措施主題數量較多,體現各地政府十分重視森林火災的防控以及預防工作,關于森林火災的微博內容發(fā)布得較為全面,但較多的發(fā)布者只集中于發(fā)布其中某一主題的相關內容,涵蓋較多主題的發(fā)布者較少。從微觀角度來看,自然災害知識圖譜共包含4個主題,在這4個主題圖譜中,防災措施主題圖譜展示了應急機構針對森林火災事件所發(fā)布的應急措施:災情通報主題圖譜展示了森林火災發(fā)生的地點與災害時間、災害起因、救災組織、救火方式等關聯關系:防災常識主題圖譜展示了預防常識和逃生常識的相關知識:災情預測主題圖譜展示了相關機構發(fā)布的可能引起災害事件發(fā)生的天氣以及社會環(huán)境預警信息。以災情預測主題為例,使用Cypher語句對其進行展示,可以看到該主題關聯了很多相關的天氣及社會環(huán)境預警信息節(jié)點,如圖8所示。
在圖8中可以了解到災情預測這一主題發(fā)布的天氣預警信息包含“深圳市森林火險黃色預警”“蕉嶺縣森林火險紅色預警”等森林火險預警信息,以及“江西省高溫紅色預警”“衢州市干旱黃色預警”等高溫干旱預警信息;社會環(huán)境預警信息包含“野炊、吸煙等違規(guī)用火”以及“進山人數激增”等內容。通過獲取天氣以及社會環(huán)境預警信息,能夠及時了解導致災害事件發(fā)生的因素,并對可能發(fā)生的災害事件進行監(jiān)測,從而對災害事件的防范起到一定的輔助作用。
在知識圖譜檢索方面,自然災害主題知識圖譜可以通過Cypher語句實現相關節(jié)點及關系的查詢與檢索,如對災害發(fā)生地點節(jié)點“內蒙古錫林郭勒盟東烏珠穆沁旗薩麥蘇木北部”進行查詢,使用Cypher查詢語句“match
data=(na:‘FMO:Dis-aster_location{uri:“內蒙古錫林郭勒盟東烏珠穆沁旗薩麥蘇木北部”})-[r]->( nb) return data”得到的查詢結果如圖9所示,可以了解到該地點發(fā)生的災害事件類型、災害發(fā)生級別、災害發(fā)生時間和結束時間、災害起因以及受災范圍等信息。
從知識圖譜的查詢過程與可視化結果可以看出,知識圖譜的檢索功能可以幫助用戶便捷地檢索與查閱關鍵主題詞的相關信息,不僅節(jié)省了用戶翻看微博的時間,而且大大提高了用戶查詢?yōu)暮π畔⒌男省A硗?,對微博資源進行主題劃分能夠使信息以更準確精練的方式被提取利用,不僅能夠協(xié)助政府機構全面了解災害事件微博信息發(fā)布的核心內容與主題類別,進一步提高信息的利用率與信息查詢的準確度,同時也可以幫助政府機構了解災害事件微博發(fā)布的規(guī)律與特點,為其完善災害事件的管理與預防、發(fā)布后續(xù)的微博信息提供較為重要的參考與支持價值。
6總結
本文以“森林火災”事件為例,構建了基于政務微博的自然災害知識圖譜,首先將微博信息進行LDA主題劃分,再通過本體構建、數據預處理、實體關系抽取、數據融合等過程提取RDF三元組,最終通過Ne04j圖數據庫實現自然災害知識圖譜的構建,同日寸對知識圖譜的可視化與檢索的過程進行實證。本研究將離散的微博信息整合成主題清晰、關聯性強的可視化知識,進一步挖掘隱含主題并將相關主題的信息聚合在一起,梳理各主題下所包含的類目信息,實現了從分散信息到關聯知識的轉化。對災害信息進行可視化知識組織,不僅可以幫助政府部門、消防組織等做好決策部署與政策工作安排,還可以滿足社會用戶的相關信息需求,為多元主體提供知識服務,同時對保障社會安全和促進國家經濟平穩(wěn)發(fā)展具有重要現實意義和科學意義。鑒于本文對微博信息選取研究的數據量相對有限,在今后的調查研究中可以再選取微信、網媒等信息資源豐富的數據量,進一步擴大自然災害知識圖譜的主題與實體節(jié)點,從而加強數據之間的關聯程度,更好地實現防災信息的開發(fā)與利用,提升自然災害知識圖譜的利用價值。