,
知識圖譜擁有非常豐富的語義信息,其開放與互聯(lián)的特性被認為是一種優(yōu)質(zhì)高效的知識組織方式,從而在許多領(lǐng)域得到廣泛應(yīng)用?;ヂ?lián)網(wǎng)上的著名涉軍論壇和軍網(wǎng)上的官兵論壇,均是涉軍網(wǎng)絡(luò)輿情集散地,需要對二者的網(wǎng)絡(luò)輿情進行大數(shù)據(jù)分析研究。
本文結(jié)合輿情監(jiān)測中心承擔的輿情監(jiān)測分析任務(wù)和相關(guān)課題的研究,圍繞軍事大數(shù)據(jù)戰(zhàn)略開展了涉軍網(wǎng)絡(luò)輿情分析的知識圖譜研究,以進一步推進新時代軍事大數(shù)據(jù)信息服務(wù)的創(chuàng)新發(fā)展。
與概念化的傳統(tǒng)語義網(wǎng)相比,知識圖譜更關(guān)注實例、更易于在線更新和利用眾包模式[1]。知識圖譜的構(gòu)建首先是獲取大量計算機可理解的知識。大數(shù)據(jù)時代,知識大量存在于非結(jié)構(gòu)化的文本數(shù)據(jù)、半結(jié)構(gòu)化的網(wǎng)頁數(shù)據(jù)以及各行業(yè)的結(jié)構(gòu)化數(shù)據(jù)中。知識圖譜構(gòu)建過程主要包括知識抽取、知識融合和知識計算3個步驟。
1.1.1 知識抽取
知識抽取主要解決如何從各種異構(gòu)數(shù)據(jù)源中獲取知識。數(shù)據(jù)源分為非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)3類。處理非結(jié)構(gòu)化數(shù)據(jù),需通過自然語言技術(shù)識別文章中的實體,識別實體之間的關(guān)系,有時還需獲取事件及其相關(guān)屬性;處理半結(jié)構(gòu)化數(shù)據(jù),是根據(jù)不同結(jié)構(gòu)訓(xùn)練出不同包裝器,然后進行抽?。惶幚斫Y(jié)構(gòu)化數(shù)據(jù),則需要通過ETL工具對數(shù)據(jù)進行處理后,得到符合要求的知識。
1.1.2 知識融合
知識融合是將不同數(shù)據(jù)源獲取的知識進行整合并構(gòu)建關(guān)聯(lián)關(guān)系。從各個數(shù)據(jù)源抽取的知識可能還存在不一致性,因此需要使用融合技術(shù)將知識使用統(tǒng)一的術(shù)語結(jié)構(gòu)(本體)進行描述,進而整合成一個龐大的知識庫。本體不僅提供了統(tǒng)一的概念字典,還表達了各個概念間的關(guān)系以及約束。通過實體映射技術(shù),將不同數(shù)據(jù)源中的實體映射到統(tǒng)一的本體概念中,進而實現(xiàn)不同數(shù)據(jù)源的實體映射。知識融合的大量運算,需要大數(shù)據(jù)平臺高性能分布式計算能力。融合后的知識庫需要有存儲管理方案,如NoSQL數(shù)據(jù)庫和關(guān)系數(shù)據(jù)庫,應(yīng)根據(jù)不同的應(yīng)用場景采用不同的存儲架構(gòu)。
1.1.3 知識計算
知識計算主要是根據(jù)知識圖譜獲得更多隱含、少噪聲的知識,以提高可用性。運用規(guī)則推理技術(shù)和鏈接預(yù)測技術(shù)可以獲取數(shù)據(jù)中的隱含知識,使用基于圖的社會計算算法可以在知識網(wǎng)絡(luò)上補充知識間關(guān)聯(lián)的路徑,通過不一致檢測技術(shù)可以發(fā)現(xiàn)數(shù)據(jù)中的噪聲和缺陷等。
將知識圖譜技術(shù)應(yīng)用于網(wǎng)絡(luò)輿情管理,具有開放資源豐富、信息集成域廣、計算能力強大的優(yōu)勢。
1.2.1 開放資源豐富
百度百科是百度公司推出的網(wǎng)絡(luò)百科全書平臺,幾乎涵蓋了所有已知的知識領(lǐng)域;互動百科是一個大規(guī)模的中文百科知識平臺,具有與百度百科相同的規(guī)模,覆蓋上萬人群;中文維基百科是維基百科的中文版,提供網(wǎng)站全部數(shù)據(jù)的下載。它們都是當前有豐富知識的百科類知識庫[2],因內(nèi)容收集全面而成為相關(guān)領(lǐng)域知識圖譜的優(yōu)秀在線資源。此外CN-DBPedia,Zhishi.me,XLore等均是在上述百科網(wǎng)站基礎(chǔ)上建立的知識圖譜,擁有大量的領(lǐng)域知識。這些網(wǎng)站雖然沒有提供數(shù)據(jù)下載服務(wù),但都開放了訪問接口,可通過爬蟲等技術(shù)獲取數(shù)據(jù)。
1.2.2 信息集成域廣
網(wǎng)絡(luò)輿情引導(dǎo)不僅需要本領(lǐng)域的知識,還需要了解政治、軍事、經(jīng)濟、社會、醫(yī)療等各領(lǐng)域的知識。如“魏則西事件”涉及互聯(lián)網(wǎng)、軍隊醫(yī)院、醫(yī)療等多個領(lǐng)域,涉軍網(wǎng)絡(luò)輿情的信息管理需要跨領(lǐng)域的互通與協(xié)作。知識圖譜的開放性為這種領(lǐng)域知識之間的互通提供了基礎(chǔ)和便利。由于各領(lǐng)域的知識圖譜大多由開放領(lǐng)域知識圖譜擴展而獲得,因此跨領(lǐng)域的知識集成變得相對容易。
1.2.3 計算能力強大
開放利用的知識圖譜有著規(guī)范的結(jié)構(gòu)和豐富的語義,不僅支持高效的查詢和復(fù)雜的知識計算,而且能夠為輿情主題發(fā)現(xiàn)、熱點追蹤等提供強大的支持。傳統(tǒng)的輿情信息多存儲在關(guān)系數(shù)據(jù)庫或全文檢索數(shù)據(jù)庫中,使用文本聚類、文本分類等方法發(fā)現(xiàn)輿情。知識圖譜支持多種存儲方式下的語義檢索,如Neo4j數(shù)據(jù)庫,可以通過Cypher語言實現(xiàn)基于圖的高效檢索[3]?;诜柡突诮y(tǒng)計的知識推理方法均可應(yīng)用于知識圖譜中,能夠為輿情管理提供高效的輔助決策支持。
網(wǎng)絡(luò)輿情熱點事件是在公共或局部網(wǎng)絡(luò)空間內(nèi),集中爆發(fā)于較短時間的一系列關(guān)于某話題的網(wǎng)絡(luò)輿情事件的總稱。網(wǎng)絡(luò)輿情知識圖譜是與網(wǎng)絡(luò)輿情處理有關(guān)的結(jié)構(gòu)化的語義知識庫和輿情事件庫,其基本組成單元為實體、關(guān)系、時間區(qū)間、實體四元組和實體、屬性、時間、屬性值四元組。時間區(qū)間是一個形如[ts,te]的區(qū)間,其中-∞≤ts≤te≤+∞。
網(wǎng)絡(luò)輿情信息是以上述兩種組成單位為基礎(chǔ)建立的動態(tài)圖結(jié)構(gòu)。實體主要包括事件和對象兩類,“事件”表示網(wǎng)絡(luò)輿情事件中的各種話題事件,“對象”表示與事件有關(guān)聯(lián)的各種客體,例如地域、任務(wù)、機構(gòu)等[4-5]。關(guān)系主要包括3類,分別用于描述“事件-事件”“事件-對象”“對象-對象”之間的關(guān)系。例如四元組“啟動針對ZX禁止出口令”“發(fā)布”“ [2018.04.16,+∞]”“美國商務(wù)部”,表達了最近發(fā)生的美國商務(wù)部制裁中興通信事件。網(wǎng)絡(luò)輿情事件在網(wǎng)絡(luò)輿情知識圖譜中的表示如圖1所示。
圖1網(wǎng)絡(luò)輿情知識圖譜中的輿情事件
網(wǎng)絡(luò)輿情處理包括輿情監(jiān)測、主題發(fā)現(xiàn)、熱點追蹤和輔助輿情引導(dǎo)等,可基于網(wǎng)絡(luò)輿情知識圖譜來完成。如某網(wǎng)絡(luò)輿情的知識圖譜為常見的輿情事件進行了分類管理,每類事件中記錄了相關(guān)的觸發(fā)詞。同時知識圖譜中包含了各領(lǐng)域的大量術(shù)語以及與抽取事件相關(guān)的元素內(nèi)容,可以直接用于事件的抽取。抽取方法步驟為:內(nèi)容采集,通過網(wǎng)絡(luò)爬蟲從各大網(wǎng)絡(luò)媒體站點和自媒體賬號中抓取專門語料;文本處理,去除數(shù)據(jù)中的格式信息、廣告、超鏈接等無用信息,然后拆分成段落和句子,使用自然語言工具進行分詞、去除停用詞;事件發(fā)現(xiàn),從處理好的句子中提取主題句,然后根據(jù)觸發(fā)詞進行事件分類、要素填充,最后更新到知識圖譜中。
網(wǎng)絡(luò)輿情知識圖譜的事件存儲有著良好的結(jié)構(gòu)和細節(jié),包括事件的發(fā)生、傳播的整個過程,為發(fā)現(xiàn)輿情事件提供了極大的便利。網(wǎng)絡(luò)輿情知識圖譜的有向動態(tài)圖有類、對象和事件3種節(jié)點。圖1中的有向邊代表節(jié)點之間關(guān)系,可以通過社會網(wǎng)絡(luò)分析法對輿情熱點進行分析,還可以利用數(shù)據(jù)庫提供的高效語句直接檢索熱點事件[6]。涉軍輿情處理引擎負責具體的管理活動,主要包括輿情檢索和輿情引導(dǎo)。通過預(yù)定義Cypher語句和SQL語句訪問知識圖譜數(shù)據(jù)庫實現(xiàn)輿情檢索,如主題發(fā)現(xiàn)查詢2018年1月份以來評論數(shù)最多的10件熱點事件,檢索語句為MATCH ( )-[c:COMMENT]->(e:Event) WHERE e.startTime>="2018.1" WITH e,count(c) AS comments ORDER BY comments desc LIMIT 10 RETURN e。如事件追蹤查詢某事件引發(fā)的系列事件,檢索語句為MATCH (e:Event)—>(ee:Event) WHERE e.name=“印軍越線阻攔中方施工” RETURN e,ee。熱點預(yù)測可以綜合事件評論數(shù)和衍生事件數(shù)的增加速度預(yù)測可能發(fā)生的熱點。輿情引導(dǎo)則是提供發(fā)布權(quán)威消息的接口,可以在官方網(wǎng)站、涉軍論壇、微博和微信公眾號中發(fā)布各類信息。
在輿情形成和高漲初期需要及時發(fā)現(xiàn)輿情熱點事件。網(wǎng)絡(luò)輿情事件演化為熱點事件的必要條件是關(guān)注度(演化度Evolution)高、傳播范圍(傳播廣度Range)大和受眾觀點出現(xiàn)分歧。輿情事件熱度(Heat)是指在t時刻事件演化度和傳播廣度變化趨勢的一種度量,即Heat(e,t)=ke×Evolution(e,t)+kr×Range(e,t)。其中,ke、kr為加權(quán)系數(shù),滿足ke≥0,kr≥0,ke+kr=1,可視實際情況調(diào)整。
輿情事件的輿情趨勢(Trend)是指在t時刻輿情事件演化度和傳播廣度變化率的一種度量,即Trend(e,t)=?t(Heat(e,t))=ke×?t(Evolution(e,t))+kr×?_t(Range(e,t))。其中,?t(Heat(e,t))為Heat(e,t)ate,t關(guān)于t的微分,?t(Evolution(e,t) )為Evolution(e,t)關(guān)于t的偏微分,?_t(Range(e,t))為Range(e,t)關(guān)于t的偏微分。在實際計算中,輿情趨勢可以使用差分近似。當輿情趨勢大于某一閾值時,表示輿情事件熱度增長迅速,可將該事件視為熱點事件并加以重點關(guān)注;當輿情趨勢在一段時間小于閾值時,表示輿情事件熱度增長緩慢或者下降,可以取消關(guān)注。
2.4.1 數(shù)據(jù)集構(gòu)建與參數(shù)選擇
以鐵血網(wǎng)為例,“鐵血論壇”有大量的活躍用戶和帖文,通過爬蟲抓取2018年以來陸軍板塊的100篇熱帖構(gòu)建驗證數(shù)據(jù)集。首先確定各模型參數(shù):時間單位選擇0.5天,時間窗口Δt選擇為4(即重點關(guān)注近2天),事件新鮮度衰減率α取-0.01,則最近4個時間單位的新鮮度分別為0.074、0.081、0.09和0.1;設(shè)輿情熱度的加權(quán)系數(shù)ke取0.6,kr取0.4。論壇主要涉及4類傳播事件即發(fā)帖、回帖、轉(zhuǎn)發(fā)和瀏覽。為簡化模型令這4類事件所對應(yīng)關(guān)系的權(quán)重不隨時間變化,分別取常數(shù)0.6、0.2、0.15和0.05。另外,還可設(shè)定輿情預(yù)警值,當輿情趨勢超過該值時需要重點關(guān)注和引導(dǎo)該輿情。
2.4.2 輿情事件熱度分析
輿情事件熱度綜合反映出用戶參與該事件的程度和該事件傳播的范圍。對100個帖文綜合分析發(fā)現(xiàn),輿情演化度和傳播廣度的變化規(guī)律存在一定的關(guān)系又各不相同[7],即趨勢大致相同但不完全一致。有些帖文演化度持續(xù)保持高位,但傳播廣度維持在較低水平,說明參與該話題討論的為某個特定群體,并未引起大多數(shù)用戶的關(guān)注;有些帖文演化度不高,但傳播廣度較高,說明該貼可能只是通過標題吸引用戶并沒有實質(zhì)內(nèi)容。實驗中分析了4個帖文的演化度、傳播廣度和事件熱度變化(圖2)。圖2中第1個帖文先后出現(xiàn)了2次熱點,第2個帖文和第4個帖文在持續(xù)保持了一段時間的熱度后迅速衰減,第3個帖文出現(xiàn)多次熱點但總趨勢是下降的。
圖2 論壇板塊涉軍話題輿情熱度分析示例
在涉軍網(wǎng)絡(luò)輿情大數(shù)據(jù)管理中,建立針對不同網(wǎng)絡(luò)環(huán)境的輿情系統(tǒng),通過不同途徑開展知識圖譜服務(wù)。以某涉軍網(wǎng)絡(luò)環(huán)境為研究對象,有關(guān)信息在描述中使用了代號表示。
所建的A網(wǎng)訪問量穩(wěn)步提升,網(wǎng)中運行的B論壇是網(wǎng)友之間進行交流的活躍地,其發(fā)帖和回復(fù)的數(shù)量都已成為軍網(wǎng)上的大數(shù)據(jù)。輿情事件發(fā)現(xiàn)系統(tǒng)首先從存儲數(shù)據(jù)庫中檢索最新帖文進行事件提取,并存儲到網(wǎng)絡(luò)輿情知識圖譜中,然后再通過輿情事件基于算法自動發(fā)現(xiàn)熱點事件,并按照相應(yīng)的預(yù)警等級發(fā)出預(yù)警。如關(guān)注事件的輿情變化趨勢以掌握網(wǎng)友的反映,分析一段時間內(nèi)某類話題事件的輿情熱度等。
近幾年,國防和軍隊改革逐步推進,熱點話題不斷涌現(xiàn)。本文選取5個與軍隊改革有關(guān)的話題,計算話題的輿情熱度(圖3)。
圖3 不同話題輿情熱度的變化趨勢
從圖3可以看出,同一話題可多次成為熱點,同一時段不同話題的輿情熱度差別較大。隨著時間的推進,熱點話題在不斷變化,一方面體現(xiàn)了不同階段有不同的改革內(nèi)容,另一方面也體現(xiàn)了網(wǎng)友對不同話題的關(guān)注度差別比較大。
將用戶參與的事件按照輿情熱度進行累加,可以獲得用戶的活躍度。按照各個時間單位進行統(tǒng)計,可以獲得用戶活躍度的周期分布趨勢圖,如星期周期分布、小時周期分布等。用戶活躍度的周期分布趨勢圖存在一些規(guī)律,如上午或下午某個時間點用戶很活躍,這對于把握涉軍輿情的監(jiān)測時間有重要指導(dǎo)意義。
事件的主題句基本能夠表達事件關(guān)注的內(nèi)容,通過分析主題句可以發(fā)現(xiàn)網(wǎng)民關(guān)心的內(nèi)容和習(xí)慣使用的詞匯。對某涉軍事件的主題句進行分詞,以輿情熱度作為權(quán)值進行求和運算,繪制出不同時間段的詞云(圖4)。如圖4所示,詞云中字號越大的主題,其輿情熱度越高。
從圖4中可以發(fā)現(xiàn),不同時間段網(wǎng)民關(guān)注的熱點詞匯差別比較大,這從側(cè)面反映出不同時間段涉軍網(wǎng)絡(luò)輿情的變化情況。如左上圖中“中國”“航母”“飛機”“海軍”等熱點詞的輿情熱度較高,因為當時正是中國第一艘航母遼寧艦的試航時期。其他3幅圖中關(guān)于“軍隊”“官兵”“改革”等的輿情熱度均比較高。
輿情熱點事件發(fā)現(xiàn)可以根據(jù)設(shè)定輿情熱度閾值實現(xiàn)。當事件熱度大于事件熱度閾值時,可以認為該事件是熱點事件(圖5)。如圖5所示,某帖文在18~27的時間段,事件熱度超過閾值,被認定為熱點事件。
輿情熱點的出現(xiàn)時機可以通過輿情趨勢預(yù)測(圖6)。如圖6顯示,在16~20的時間段輿情趨勢超過預(yù)警值,說明該事件為輿情熱點。
通過對比發(fā)現(xiàn),使用輿情趨勢預(yù)判比使用事件熱度提前了2個時間單位(1天)。經(jīng)過在某涉軍實驗數(shù)據(jù)集上測試,有87%的論壇帖文成功實現(xiàn)了預(yù)測,取得預(yù)計效果。
圖4不同時間段的主題句詞云
圖5 通過事件熱度判定熱點事件
圖6 通過輿情趨勢判定輿情熱點
本文分析了知識圖譜組織的優(yōu)質(zhì)高效以及應(yīng)用于網(wǎng)絡(luò)輿情管理的優(yōu)勢,提出了網(wǎng)絡(luò)輿情知識圖譜的輿情事件表達和處理引擎設(shè)計,并從話題輿情熱度分析、用戶參與活躍度分析、事件熱點詞匯云圖分析和輿情熱點事件發(fā)現(xiàn)等方面,研究了涉軍輿情大數(shù)據(jù)的知識圖譜服務(wù)途徑,但目前還缺少大數(shù)據(jù)的進一步驗證。下一步將深化研究,以提高知識圖譜服務(wù)輿情管理的效能。