黃微 劉熠 郭蘇琳
摘要:[目的/意義]網(wǎng)絡輿情受眾的失范行為是輿情出現(xiàn)劇烈變化的重要因素。本文重點研究失范行為靶向引導技術框架的構(gòu)建,為失范行為實施引導提供技術手段。[方法/過程]在網(wǎng)絡輿情受眾失范行為靶向引導分析的基礎上,建立框架模型,并對框架模型的各個模塊進行具體描述;梳理各模塊功能實現(xiàn)所需要的核心技術和進一步研究的思路,并以微博輿情為例對框架進行了驗證。[結(jié)果/結(jié)論]靶向引導是理論與應用相結(jié)合的方法,網(wǎng)絡輿情受眾失范行為的靶向引導技術框架模型,能夠從技術層面解決目前引導策略過于宏觀失之具體的缺陷,增強了靶向引導的可操作性。
關鍵詞:網(wǎng)絡輿情? ?失范行為? ?靶向引導
分類號:G206
DOI:10.13266/j.issn.2095-5472.2020.015
引用格式:黃微, 劉熠, 郭蘇琳. 網(wǎng)絡輿情受眾失范行為靶向引導的技術框架構(gòu)建[J/OL]. 知識管理論壇, 2020, 5(3): 159-174[引用日期]. http://www.kmf.ac.cn/p/210/.
1? 前言
目前,自媒體的準入門檻不高,活躍度已經(jīng)達到了前所未有的程度。由于缺乏“守門人”對信息內(nèi)容和行為的把關,一部分網(wǎng)絡輿情信息受眾在參與輿情事件的過程中發(fā)生的信息行為不夠規(guī)范,對網(wǎng)絡生態(tài)環(huán)境造成了不良影響。因此,對網(wǎng)絡輿情受眾失范行為的發(fā)現(xiàn)與靶向引導成為當前研究的熱門話題。
當前,網(wǎng)絡輿情受眾失范行為靶向引導技術的研究以高校引導和政府引導等多種方式并存。在高校引導方面,由于青年學子思想活躍,但未經(jīng)歷廣泛的社會實踐,因而具有行為沖動、易受他人影響、思維邏輯簡單等特點[1]。作為網(wǎng)絡輿情受眾中的重要群體,高校大學生又較易形成網(wǎng)絡輿論[2]。因此提高高校輿論引導力,穩(wěn)固高校思想陣地的高校引導研究[3]是現(xiàn)階段輿情引導研究的重點。在政府引導方面,政府輿情引導策略更為復雜,輿情引導機制規(guī)制需要具有長效性、協(xié)調(diào)性和互動性,不僅需要政府、媒體和公眾的同時作為,還要制定相應的法律法規(guī)[4]。在政府輿情引導研究中,羅瀟瀟等人認為政府在處理突發(fā)公共事件時,需及時發(fā)布權威信息并建立暢通的信息溝通渠道,以正確控制和引導輿論[5]。王晰巍等認為政府在引導輿情的過程中應當對移動端平臺與非移動端平臺用戶之間的差異性予以重視[6]。 趙曉航等認為政府對輿情的回應須在危機發(fā)生初期及時發(fā)聲,以防疑惑心理轉(zhuǎn)化為負面情緒;同時應注重與輿論的互動,防止次生輿情的產(chǎn)生,以完成輿情引導工作[7]。
現(xiàn)有網(wǎng)絡輿情引導研究主要集中在宏觀層面,多以逐條梳理網(wǎng)絡輿情應對、治理、善后策略為主,引導方略在與實際接軌、開展實施方面略顯單薄。在本文研究中,以網(wǎng)絡輿情事件為背景,以研究網(wǎng)絡輿情受眾在不同事件中的失范行為為核心,針對不同失范行為,提出了靶向引導的技術框架,試圖以信息技術為基礎,增強更有效、更精準的技術型引導功能,從而彌補現(xiàn)階段網(wǎng)絡輿情引導操作性不強的問題,為網(wǎng)絡輿情引導提供新的思路。
網(wǎng)絡輿情受眾失范行為靶向引導的理論基礎,是基于托爾曼的S-O-R(刺激-機體-反應)理論,也吸納了較為成熟的情境理論[8]、AVP情感維度理論[9]、曾盛泉的網(wǎng)絡輿情應對理論[10]、自然語言處理方法、語義識別方法等。通過對以上理論與方法的整合與利用,最終構(gòu)建了網(wǎng)絡輿情受眾失范行為靶向引導的技術框架模型。
2? 相關概念的界定
2.1? 失范行為的概念界定
魚震海認為,網(wǎng)絡媒體的失范行為是違背社會規(guī)范不適當?shù)氖褂没ヂ?lián)網(wǎng)從而背離主流社會要求的行為偏差[11]。謝暉認為,失范行為包括了輿論暴力、輿論綁架、輿論極端與輿論失真[12]。楊祺認為,失范行為背離了社會主義核心價值觀,會對社會造成不良影響[13]。綜合上述各類關于失范行為的定義,本文認為網(wǎng)絡輿情受眾失范行為是指所有在網(wǎng)絡輿情事件中產(chǎn)生負面影響、引領輿情錯誤走向、導致輿情危機的網(wǎng)絡輿情受眾行為。
2.2? 靶向引導的概念界定
面向網(wǎng)絡輿情受眾失范行為的靶向引導,是以網(wǎng)絡輿情受眾、網(wǎng)絡輿情事件、網(wǎng)絡輿情受眾失范行為3個維度為靶向的,靶向引導是在3個維度層層遞進,層層聚焦的基礎上實施的。其分析過程是,通過分析網(wǎng)絡輿情事件的背景,獲取事件獨立特征,判斷具有獨立特征的受眾是否具備參與到網(wǎng)絡輿情事件的潛質(zhì),而后根據(jù)受眾的獨立特征,對其參與該網(wǎng)絡輿情事件的參與行為進行擬合預測,從而根據(jù)擬合預測結(jié)果提出具有針對性的靶向引導策略。靶向引導是以機器學習算法為基礎的,自動根據(jù)各維度特征提出對應引導策略的技術方法,其顯著特點是實現(xiàn)輿情處置準確化與自動化。
3? 網(wǎng)絡輿情受眾失范行為靶向引導技術框架模型構(gòu)建的目標與原則
3.1? 網(wǎng)絡輿情受眾失范行為靶向引導技術框架模型構(gòu)建的目標
面向網(wǎng)絡輿情信息受眾靶向引導的技術框架模型構(gòu)建的重點是達成網(wǎng)絡輿情信息受眾擬合、事件擬合與受眾行為預測從而實施靶向引導,包括實現(xiàn)網(wǎng)絡輿情信息受眾靶向引導的構(gòu)成要素、實施流程與技術支持3個重要方面。構(gòu)建面向網(wǎng)絡輿情靶向引導的技術框架模型需要遵循數(shù)據(jù)實時獲取、數(shù)據(jù)并行處理、靶向匹配、全自動輸出4個基本步驟和目標流程。
(1)數(shù)據(jù)實時獲取,即在整個框架模型下,任何模塊的數(shù)據(jù)都在不斷地更新與豐富,因此數(shù)據(jù)需要實時獲取以達到靶向引導的時效性。
(2)數(shù)據(jù)并行處理,即在框架模型下,個體分型模塊、事件匹配模塊、行為匹配模塊與觸發(fā)點發(fā)現(xiàn)模塊遵循分布式并行處理的要求。同時受眾畫像、輿情事件感知,均按照多線程分布式計算,并不存在時間的先后順序。
(3)靶向匹配,即該框架需要根據(jù)網(wǎng)絡輿情信息受眾、事件情境與網(wǎng)絡輿情信息受眾在事件情境下發(fā)生的失范行為,匹配出更合理的引導策略與引導路徑,達到靶向引導的目的。
(4)自動輸出,即整個系統(tǒng)在框架中的運行,不需要借助人工,從數(shù)據(jù)獲取、數(shù)據(jù)處理到受眾畫像、輿情事件感知與失范行為擬合再到靶向引導是一個自動的過程。
3.2? 網(wǎng)絡輿情受眾失范行為靶向引導技術框架模型構(gòu)建的原則
面向網(wǎng)絡輿情靶向引導的技術框架模型的構(gòu)建,是按照網(wǎng)絡輿情信息受眾、網(wǎng)絡輿情事件與網(wǎng)絡輿情信息受眾失范行為三個核心概念組成的統(tǒng)計集合體。在整個框架的構(gòu)建過程中,需要以數(shù)據(jù)存儲智能化、模型銜接緊密化、運行流程集約化為構(gòu)建原則。
數(shù)據(jù)存儲智能化指在整個框架結(jié)構(gòu)中,數(shù)據(jù)通過抓取后的優(yōu)化存儲問題。在數(shù)據(jù)獲取后,大部分數(shù)據(jù)屬于原始數(shù)據(jù),經(jīng)過數(shù)據(jù)清理與語義識別的過程轉(zhuǎn)化為可用數(shù)據(jù),而后再通過網(wǎng)絡輿情信息受眾失范行為畫像與網(wǎng)絡輿情事件感知,形成統(tǒng)一的標簽體系。這些標簽數(shù)據(jù)需要以表的形式存儲在數(shù)據(jù)庫中。同時網(wǎng)絡輿情信息受眾失范行為靶向引導策略也需要以標簽數(shù)據(jù)的形式存儲在數(shù)據(jù)庫中。該數(shù)據(jù)庫包括受眾畫像庫、事件感知庫與靶向引導策略庫3個數(shù)據(jù)庫。數(shù)據(jù)庫之間具有互聯(lián)互通和數(shù)據(jù)互操作的功能。
模型銜接緊密化指在整個框架中,包括網(wǎng)絡輿情信息受眾失范行為擬合與網(wǎng)絡輿情信息受眾靶向引導,存在多種數(shù)理模型,例如數(shù)據(jù)獲取模型、語義識別模型、行為預測模型、事件匹配引導模型、受眾分型引導模型、失范行為匹配引導模型等,各模型之間需要通過網(wǎng)絡輿情靶向引導的技術框架模型進行銜接,形成統(tǒng)一的數(shù)據(jù)接口,達到從前序模型的輸出到后續(xù)模型的輸入的無縫銜接。
運行流程集約化指在整個框架中,模塊的運行存在先后順序的情況,也存在并行處理的情況,哪些模塊可以并行處理,哪些模塊必須遵從先后順序,從網(wǎng)絡輿情信息受眾失范行為擬合與靶向引導的數(shù)據(jù)輸入到數(shù)據(jù)輸出要經(jīng)過哪些步驟等。整體流程的合理化,不僅能夠理清框架模型運行的流程,而且能夠通過數(shù)據(jù)、模型的并行計算與處理提高框架的運行效率。
4? 網(wǎng)絡輿情受眾失范行為靶向引導的技術框架
網(wǎng)絡輿情受眾失范行為靶向引導的技術框架模型是根據(jù)網(wǎng)絡輿情受眾、網(wǎng)絡輿情事件與網(wǎng)絡輿情受眾失范行為三維體系構(gòu)建而成,其中包含了數(shù)據(jù)獲取模塊、靶向引導策略庫、網(wǎng)絡輿情信息受眾失范行為擬合模塊、受眾畫像庫、事件感知庫、個體分型引導模塊、行為匹配引導模塊、事件匹配引導模塊、觸發(fā)點發(fā)現(xiàn)模塊等要素。
框架的流程是從數(shù)據(jù)獲取到行為擬合再到靶向引導策略輸出等各模塊相互銜接的運行過程。網(wǎng)絡輿情信息受眾失范行為靶向引導框架結(jié)構(gòu)見圖1。下面分別從網(wǎng)絡輿情信息受眾失范行為擬合與靶向引導的框架模型要素及流程進行分析。
4.1? 網(wǎng)絡輿情受眾失范行為靶向引導技術框架的模塊構(gòu)成分析
網(wǎng)絡輿情受眾失范行為靶向引導技術框架的模塊構(gòu)成包含了7個部分,分別是數(shù)據(jù)獲取模塊、失范行為擬合模塊、數(shù)據(jù)庫模塊、個體分型引導模塊、行為匹配引導模塊、事件匹配引導模塊、觸發(fā)點發(fā)現(xiàn)模塊等。具體模塊的位置見圖1。
(1)數(shù)據(jù)獲取模塊。數(shù)據(jù)獲取模塊包括受眾數(shù)據(jù)獲取與事件數(shù)據(jù)獲取兩個部分。其中,受眾發(fā)現(xiàn)模塊,是對網(wǎng)絡輿情信息受眾的主頁、發(fā)文、評論等信息進行摘取、收集與處理的過程;輿情監(jiān)控模塊是對網(wǎng)絡輿情信息受眾參與的網(wǎng)絡輿情事件的博文、評論信息摘取、收集與處理的過程;數(shù)據(jù)獲取模塊是整個網(wǎng)絡輿情信息受眾失范行為擬合與靶向引導框架的信息輸入單元,通過網(wǎng)絡爬蟲工具進行實施,是無間斷處理的過程。
(2)失范行為擬合模塊。該模塊包含網(wǎng)絡輿情信息受眾畫像、網(wǎng)絡輿情事件情境感知與網(wǎng)絡輿情信息受眾失范行為擬合3個部分,分別對應了受眾畫像模型、事件情境感知模型與受眾失范行為預測模型。其中畫像與情境感知的作用是針對網(wǎng)絡輿情信息受眾與網(wǎng)絡輿情事件的二次處理數(shù)據(jù)進行分型匹配,并將加工后的數(shù)據(jù)存入數(shù)據(jù)庫;網(wǎng)絡輿情信息受眾失范行為預測的作用是結(jié)合改進的S-O-R(刺激-機體-反應)模型,將網(wǎng)絡輿情受眾畫像庫中的多類受眾作為機體群,令每一類機體分別被事件情境刺激,對其發(fā)生的行為進行預測,并發(fā)現(xiàn)失范行為的過程;網(wǎng)絡輿情信息受眾失范行為擬合模塊是數(shù)據(jù)處理單元,為網(wǎng)絡輿情信息受眾失范行為靶向引導做出鋪墊。
(3)數(shù)據(jù)庫模塊。數(shù)據(jù)庫模塊包含受眾畫像庫、事件感知庫與靶向引導策略庫。其中受眾畫像庫與事件感知庫建立在網(wǎng)絡輿情信息受眾畫像與網(wǎng)絡輿情事件情境感知的基礎之上,在對應的標簽體系下構(gòu)建而成的用戶分類集合與事件分類集合;靶向引導策略庫是靶向引導策略的集合,包含了引導策略集合與引導路徑集合;引導策略集合與引導路徑集合均是按照受眾、行為與事件三大要素進行標注。針對不同的受眾、不同的行為與不同的事件均有不同的特定引導策略與引導路徑;數(shù)據(jù)庫模塊是面向網(wǎng)絡輿情靶向引導的技術框架模型的數(shù)據(jù)存儲單元,是實施網(wǎng)絡輿情信息受眾失范行為靶向引導的數(shù)據(jù)基礎。
(4)個體分型引導模塊。個體分型引導模塊是連接網(wǎng)絡輿情信息受眾畫像與網(wǎng)絡輿情受眾失范行為靶向引導策略的接口模塊,具有針對網(wǎng)絡輿情信息受眾個體的獨有特征,從靶向引導策略庫中自動匹配引導策略與引導路徑的功能。
(5)行為匹配引導模塊。行為匹配引導模塊是連接網(wǎng)絡輿情信息受眾失范行為擬合與網(wǎng)絡輿情受眾失范行為靶向引導策略的接口模塊,具有針對不同的網(wǎng)絡輿情信息受眾失范行為從靶向引導策略庫中自動匹配引導策略的功能。
(6)事件匹配引導模塊。事件匹配引導模塊是連接網(wǎng)絡輿情事件情境感知與網(wǎng)絡輿情受眾失范行為靶向引導策略的接口模塊,具有針對不同的網(wǎng)絡輿情事件從靶向引導策略庫中自動匹配引導策略的功能。
(7)觸發(fā)點發(fā)現(xiàn)模塊。觸發(fā)點發(fā)現(xiàn)模塊是實施靶向引導的啟動器,不同的網(wǎng)絡輿情事件與不同的網(wǎng)絡輿情受眾所啟動靶向引導的條件也不盡相同,根據(jù)網(wǎng)絡輿情信息受眾失范行為預測擬合的結(jié)果,自動計算觸發(fā)條件。
4.2? 面向網(wǎng)絡輿情受眾失范行為靶向引導技術框架的運行流程分析
網(wǎng)絡輿情信息受眾失范行為擬合與靶向引導流程的基本步驟是數(shù)據(jù)更新、行為擬合、受眾定位、策略匹配、引導觸發(fā)與靶向引導6步。
(1)數(shù)據(jù)更新。數(shù)據(jù)更新即受眾數(shù)據(jù)獲取與事件數(shù)據(jù)獲取兩部分不斷收集與更新數(shù)據(jù)的過程。數(shù)據(jù)更新的過程以抓取模型為基礎,按照從熱點輿情事件內(nèi)容抓取到熱點輿情事件受眾抓取的方式展開。數(shù)據(jù)更新的過程是按照時間進程不間斷進行。由于微博具有反爬蟲機制,會進行封號操作,因此數(shù)據(jù)抓取的頻率略微降低,并且每隔一個時間間隔進行下一次事件抓取。數(shù)據(jù)更新后,網(wǎng)絡輿情事件數(shù)據(jù)通過情境感知模型進入情境感知庫。在情境感知庫中,若存在該輿情事件,則對該事件進行數(shù)據(jù)更新;若不存在,則添加事件并初始化。網(wǎng)絡輿情信息受眾數(shù)據(jù)通過受眾畫像存入受眾畫像庫。在受眾畫像庫中若已存在該受眾,則進行數(shù)據(jù)更新;若不存在該受眾則添加受眾并初始化。
(2)行為擬合。通過數(shù)據(jù)獲取模塊的不斷執(zhí)行,新的網(wǎng)絡輿情信息受眾不斷通過受眾畫像存入受眾畫像庫;新的輿情事件也不斷通過情境感知進入事件感知庫。與網(wǎng)絡輿情信息受眾進入受眾畫像庫不同,新的輿情事件經(jīng)過篩選之后,危機等級高的事件會作為S-O-R模型中的刺激部分,對畫像庫中的對應網(wǎng)絡輿情信息受眾產(chǎn)生影響,調(diào)用合適的網(wǎng)絡輿情信息受眾失范行為預測模型對受眾可能發(fā)生的行為進行預測,形成網(wǎng)絡輿情信息受眾失范行為擬合結(jié)果。行為擬合的結(jié)果表現(xiàn)為輸出事件信息與行為預測信息。
(3)受眾定位。根據(jù)網(wǎng)絡輿情信息受眾失范行為擬合結(jié)果,發(fā)現(xiàn)可能產(chǎn)生極端行為或者造成惡劣影響行為的網(wǎng)絡輿情信息受眾個體,在受眾畫像庫中進行受眾定位,輸出受眾信息。在受眾定位的基礎上,將受眾與策略庫中的策略進行匹配,有針對性地進行靶向策略引導。不同受眾的行為發(fā)生時間與規(guī)律也不同,同時針對不同事件,觸發(fā)引導與否或者觸發(fā)引導的時機也不同,因此針對特定受眾判斷最佳的靶向引導觸發(fā)時間也極為重要。
(4)策略匹配。利用網(wǎng)絡輿情信息受眾失范行為靶向引導模型,針對之前輸出的受眾信息、網(wǎng)絡輿情事件信息與行為預測信息在靶向引導策略庫中進行策略匹配,將匹配結(jié)果整合并準備輸出。策略匹配的目的在于靶向引導,是對網(wǎng)絡輿情信息受眾特征、網(wǎng)絡輿情事件特征與網(wǎng)絡輿情信息受眾失范行為特征進一步挖掘而產(chǎn)生的具有靶向性的機制。能夠在最佳時機,以最準確的策略對事件、對受眾進而對受眾失范行為進行引導與管控。
(5)引導觸發(fā)。在策略匹配與策略準備輸出的過程中,利用觸發(fā)點發(fā)現(xiàn)模型計算合理的引導觸發(fā)時機,當時機達標后觸發(fā)引導策略輸出與引導路徑輸出。策略輸出是對網(wǎng)絡輿情事件、網(wǎng)絡輿情信息受眾與網(wǎng)絡輿情信息受眾失范行為全局把控的前提下進行的,因此針對不同的情況,靶向引導需要考慮與準確判斷觸發(fā)與觸發(fā)時間的條件。這樣才能夠精準地實施引導,避免盲目引導、引導不及時、引導過激、引導不準等問題的發(fā)生。
(6)靶向引導。將靶向引導策略與靶向引導路徑輸出給網(wǎng)絡輿情控制專業(yè)人員提供指導。通過靶向引導達到適時、適當、適度、精準地完成對網(wǎng)絡輿情信息受眾失范行為的引導目的。適時指能夠在輿情信息受眾失范行為發(fā)生之前,采取措施引導受眾發(fā)聲;適當指采取準確的引導措施,不盲目進行引導;適度指采取的引導措施需要得當,不能過激,也不能不痛不癢;精準是指引導要精確鎖定受眾個體,根據(jù)受眾個體的具體特征實施靶向引導。
在框架模型的運行過程中,行為擬合中的受眾畫像與情境感知、策略匹配與引導觸發(fā)屬于并行運行模塊,各模塊分別由不同的控制單元控制,并行計算。其他歩驟均有時間先后順序,網(wǎng)絡輿情信息受眾失范行為靶向引導流程如圖2所示:
5? 面向網(wǎng)絡輿情靶向引導的核心技術分析
5.1? 數(shù)據(jù)處理技術
5.1.1? 數(shù)據(jù)獲取
首先,根據(jù)某事件為背景的所有微博進行篩選,選出事件轉(zhuǎn)折點的典型微博,根據(jù)事件狀態(tài)、當事人狀態(tài)與微博評論量進行篩選,選出事件爆發(fā)階段,當事人原創(chuàng)的評論最多、情感最為豐富的微博作為研究對象;其次,遍歷該微博下的所有微博評論并進行抓取,在抓取的過程中,提取每個輿情信息受眾的主頁鏈接,采集輿情信息受眾主頁資料;再次,遍歷輿情信息受眾所發(fā)布的微博,并進行抓取;最后,在遍歷的過程中,若發(fā)現(xiàn)其參與到其他網(wǎng)絡輿情事件當中,則返回抓取的第一步,選取該事件為背景的所有微博進行篩選,由此形成一個環(huán)狀的輿情信息抓取流程。
數(shù)據(jù)抓取應該以S-O-R理論為核心,僅抓取必要的數(shù)據(jù)進行研究。輿情事件與關鍵微博環(huán)節(jié)屬于事件情境,是S-O-R理論中刺激的部分。受眾資料與受眾微博屬于受眾機體,是S-O-R理論中機體的部分。受眾微博與微博評論屬于機體反應,是S-O-R理論中的反應部分。整個微博數(shù)據(jù)抓取過程以輿情信息抓取流程環(huán)為框架,以S-O-R理論為核心,形成如圖3所示的數(shù)據(jù)抓取模塊。
總體來說,網(wǎng)絡輿情信息數(shù)據(jù)抓取模塊可以分為輿情事件、關鍵微博、微博評論、受眾資料與受眾微博等子模塊,集中體現(xiàn)為刺激、機體與反應三部分。作為數(shù)據(jù)建模與數(shù)據(jù)分析的基礎,有效的數(shù)據(jù)清洗、數(shù)據(jù)篩選與數(shù)據(jù)預處理等操作十分必要。
5.1.2? 數(shù)據(jù)清洗
在數(shù)據(jù)抓取的過程中,由于數(shù)據(jù)來源問題、數(shù)據(jù)格式問題、數(shù)據(jù)抓取中的網(wǎng)絡波動問題等,往往會造成抓取的數(shù)據(jù)形式混亂、格式不統(tǒng)一、數(shù)據(jù)重復、含有缺失值等情況[14]。因此需要進行數(shù)據(jù)清洗的工作,使得數(shù)據(jù)完整并且具有統(tǒng)一的格式。
筆者在數(shù)據(jù)清洗過程中,首先將輿情事件、關鍵微博、微博評論、受眾資料與受眾微博的不同抓取形式,分別以人為中心、以事件為中心與以文本為中心進行編號,形成人-文本-事件一一對應的數(shù)據(jù)集。
針對不同的數(shù)據(jù)集,將其中文本格式的部分統(tǒng)一為UTF-8格式;將含有數(shù)字的部分統(tǒng)一定義為Double格式;將含有時間的部分,統(tǒng)一按照yyyy/mm/dd的格式整理;將所有數(shù)據(jù)單元格應用Strip函數(shù),去除多余的空格。
由于抓取中網(wǎng)絡時延的問題與數(shù)據(jù)來源的問題,出現(xiàn)了大量缺失值。一般的缺失值處理辦法有全局常量填充、中心度量填充、同組均值填充、最有可能值填充等。筆者針對缺失值問題,做如下處理:由于缺失值既含有文本數(shù)據(jù)也含有數(shù)字數(shù)據(jù),因此統(tǒng)一將含有缺失值的行刪除,方便后續(xù)處理。
5.1.3? 分詞
筆者采用Python編程技術,應用中文分詞工具jieba分詞,針對文本內(nèi)容實現(xiàn)中文分詞??紤]到如代詞、介詞、語氣詞等一系列對推文本身語義無關的特殊詞語,筆者采用jieba中的停用詞工具,定向分詞。在此次實驗中只采用分詞結(jié)果中的一般名詞、人名、音譯人名、地名、音譯地名、機構(gòu)團體名、其他專名、名詞性慣用語、名詞性語素、新詞、處所詞、一般動詞、副動詞、動名詞、動詞性語素、形容詞、副形詞、名形詞、副詞、區(qū)別詞這20類詞。并添加“有”“沒有”“還”“是”“也”等未濾出的停用詞[15]。
5.1.4? 詞向量
在分詞的基礎上,將人類可以理解的文本信息,轉(zhuǎn)化為計算機能夠理解的信息,成為自然語言處理中的一項關鍵技術。最初的詞向量模型是將不同詞語的存在與否以(1,0)的方式展示在矩陣中,但是以這種方式形成的詞向量矩陣過于稀疏,并且缺乏字詞之間的相似關系描述。因此2013年T. Mikolov等提出了Word2vec模型[16]可以快速而高效地訓練詞向量,體現(xiàn)詞與詞之間的關聯(lián)度關系。Word2vec模型包含兩種基于神經(jīng)網(wǎng)絡的訓練模型,一是CBOW(Continue bag of word)模型,另一種是Skip-gram模型。CBOW模型是通過上下文來預測當前詞,而Skip-gram模型則是通過當前詞來預測其上下文。兩種相反的訓練方法對應了不同的數(shù)據(jù)需求。CBOW在小型語料庫中表現(xiàn)良好,而Skip-gram則在大型語料庫表現(xiàn)更為出色。由于兩種算法在針對大量數(shù)據(jù)的時候,參數(shù)訓練的規(guī)模都空前的巨大,極其耗費時間。因此T. Mokolov引入了兩種優(yōu)化算法Hierarchical Softmax 和 Negative Sampling。兩種訓練算法與兩種優(yōu)化算法相結(jié)合可以得到4種框架。
筆者采用騰訊AI實驗室訓練的200維詞向量模型[17]。該模型是Skip-gram模型的優(yōu)化版本,稱為Directional skip-gram。Directional skip-gram算法是在文本窗口中詞對的共現(xiàn)關系基礎上,額外考慮詞對的相對位置,從而提高詞向量語義表示的準確性,具有訓練樣本豐富、語料新鮮、準確度高的特點。但是應用大規(guī)模數(shù)據(jù)訓練,包含體量巨大的關鍵詞序列和200維的詞向量表示,在提升準確率情況下,無法滿足應用詞向量過程的提高效率問題,使得運用詞向量模型進行語義識別的運算速度緩慢。而應用神經(jīng)網(wǎng)絡模型只需要進行一次模型的訓練即可得到神經(jīng)網(wǎng)絡的訓練參數(shù),之后進行語義識別的過程中,只需要調(diào)用訓練參數(shù)即可,并不會影響識別的效率。
5.2? 行為擬合與匹配技術
5.2.1? 基于多尺度卷積神經(jīng)網(wǎng)絡語義識別算法
網(wǎng)絡輿情信息受眾語義識別模型從宏觀上來說,是利用卷積神經(jīng)網(wǎng)絡模型,將網(wǎng)絡輿情信息受眾發(fā)布的中文語料進行分類的過程。從微觀上講,是將網(wǎng)絡輿情信息受眾發(fā)布的評論、原創(chuàng)微博通過詞向量處理封裝成計算機可讀的數(shù)字化信息,之后利用卷積神經(jīng)網(wǎng)絡的語義識別與分類功能將其按照情感強度分為:特低、低、中、高、特高5個等級;按照情感極性分為消極、中立與積極3個類別;按照話題類別分為:社會民生、政治經(jīng)濟、文化娛樂、教育科技、自然災害、意識形態(tài)、公共安全、司法警務與其他。由于自然語言在經(jīng)過詞向量模型加工后,詞向量之間的距離具有遠近關系,因此分析一句話的語義不單單要考慮單個詞語的含義,還需要將多個詞語聯(lián)系起來進行綜合考慮。卷積神經(jīng)網(wǎng)絡中的卷積核具有按步長掃描的作用,可以通過控制卷積核的大小達到多個詞語綜合分析的效果。本文在X. Yang與K. Shrivastava提出的卷積神經(jīng)網(wǎng)絡模型 [18-19]的基礎上,利用不同的卷積核尺寸,構(gòu)建了多尺度卷積神經(jīng)網(wǎng)絡模型,如圖4所示:
5.2.2? 基于用戶畫像與情境感知模型的網(wǎng)絡輿情受眾建模與事件建模
用戶畫像與情境感知實質(zhì)上具有相似性,用戶畫像即對網(wǎng)絡輿情受眾個體的特征進行結(jié)構(gòu)化的標簽描述,解析該輿情受眾的基本特征、行為特點、愛好偏好等。情境感知即對網(wǎng)絡輿情受眾所處的環(huán)境進行解析,實質(zhì)上是對網(wǎng)絡輿情受眾所面對的輿情事件進行標簽化描述,分析事件的類別、屬性與其對輿情受眾的影響等。用戶畫像與情境感知離不開語義識別算法,在網(wǎng)絡上無論是網(wǎng)絡輿情受眾或是網(wǎng)絡輿情事件,均是由文字、圖像、視頻等異構(gòu)多媒體數(shù)據(jù)組成[20],這就需要特定的語義識別算法對這些數(shù)據(jù)進行解讀。筆者研究以文字數(shù)據(jù)處理為主,應用前一節(jié)提及的語義識別模型來進行處理。用戶畫像與情境感知建模如圖5所示:
5.2.3 基于貝葉斯網(wǎng)絡的網(wǎng)絡輿情受眾信息行為預測算法
貝葉斯網(wǎng)絡是基于貝葉斯定理的一類概率模型,可以用來解決分類問題,它能夠用圖像的方式體現(xiàn)出數(shù)據(jù)之間的相互關系并且能夠給予事件概率化的描述。在網(wǎng)絡輿情受眾信息行為預測的研究當中,利用貝葉斯網(wǎng)絡可以將網(wǎng)絡輿情信息受眾與網(wǎng)絡輿情事件結(jié)合在一起進行分析,即利用前一節(jié)提及的用戶畫像模型與情境感知模型,得出具體網(wǎng)絡輿情信息受眾在特定網(wǎng)絡輿情事件下表現(xiàn)出情感強度、情感極性、行為偏好、行為表現(xiàn)的類型,從而計算出該網(wǎng)絡輿情受眾產(chǎn)生特定失范行為的概率。具體貝葉斯網(wǎng)絡模型如圖6所示:
5.3? 數(shù)據(jù)庫技術
網(wǎng)絡輿情受眾失范行為靶向引導的技術框架模型中,包含3種類別的數(shù)據(jù)庫,分別是受眾畫像庫、事件感知庫與靶向引導策略庫。其中受眾畫像庫與事件感知庫,均是對具體網(wǎng)絡輿情受眾與事件的標簽化描述。靶向引導策略庫是按照網(wǎng)絡輿情受眾、網(wǎng)絡輿情事件與網(wǎng)絡輿情受眾失范行為的歷史記錄提出的引導策略集合。
數(shù)據(jù)庫的設計按照從抽象到具體可以分為數(shù)據(jù)庫的概念設計、數(shù)據(jù)庫的邏輯設計與數(shù)據(jù)庫的物理結(jié)構(gòu)設計[21]。下面以網(wǎng)絡輿情受眾畫像庫為例簡述數(shù)據(jù)庫的概念設計、邏輯設計與物理設計。
5.3.1? 數(shù)據(jù)庫概念設計
數(shù)據(jù)庫的概念設計是應對數(shù)據(jù)庫需求的概念設計模式。在數(shù)據(jù)庫的概念設計中,需要在數(shù)據(jù)庫的需求分析基礎上,構(gòu)建數(shù)據(jù)庫概念模型,即E-R圖。在網(wǎng)絡輿情受眾失范行為靶向引導技術框架模型中,需要設計3類數(shù)據(jù)庫,筆者將在微博平臺上,以網(wǎng)絡輿情受眾畫像庫為例,簡述數(shù)據(jù)庫概念設計。
在網(wǎng)絡輿情受眾畫像庫中,需要整合網(wǎng)絡輿情受眾的歷史記錄,包括受眾主頁、受眾評論、受眾微博與網(wǎng)絡輿情受眾。其中網(wǎng)絡輿情受眾與受眾主頁是1對1對應的實體,受眾通過編輯主頁,可以自主修改受眾昵稱、所在地、性別等基本信息,這些信息均通過受眾主頁抓取獲得。網(wǎng)絡輿情受眾通過發(fā)布行為,如發(fā)布或者轉(zhuǎn)發(fā)微博,網(wǎng)絡輿情受眾與微博是1對n對應的實體,一個網(wǎng)絡輿情受眾會發(fā)布或轉(zhuǎn)發(fā)多個微博,而微博包含了微博ID、微博內(nèi)容、轉(zhuǎn)發(fā)數(shù)等數(shù)據(jù),這些數(shù)據(jù)來源于數(shù)據(jù)抓取模型。網(wǎng)絡輿情受眾通過評論行為,對特定微博進行評論,評論與網(wǎng)絡輿情受眾存在n對1的實體對應關系,一個網(wǎng)絡輿情受眾會發(fā)布多條評論信息,評論信息的采集來源于微博評論信息采集過程。微博與其評論也存在1對n的實體對應關系,一條微博往往包含多條評論。通過上述概念分析,可以得出如圖7所示的網(wǎng)絡輿情受眾畫像數(shù)據(jù)庫概念設計E-R圖:
5.3.2? 數(shù)據(jù)庫邏輯設計
數(shù)據(jù)庫的邏輯設計,是將概念關系轉(zhuǎn)變?yōu)檫壿嬯P系的過程。數(shù)據(jù)庫的邏輯設計過程中,要滿足3種范式,才能達到消除數(shù)據(jù)冗余、提高數(shù)據(jù)庫效率的作用。
第一范式:數(shù)據(jù)庫表是字段只含有基本數(shù)據(jù)類型的單一屬性的二維表。即數(shù)據(jù)庫表中的所有字段,不能含有多層含義與多個屬性,并且每個字段均能夠通過CHAR、VARCHAR、INT等基礎屬性表示。
第二范式:每個表只存在一個主鍵。任何一個數(shù)據(jù)庫表的主鍵,不能重復,只含有唯一值。
第三范式:消除對主鍵的傳遞依賴。例如C列與B列具有依賴關系,B列又與A列具有依賴關系的情況,需要分裂成多個表進行表述,不能存在于同一個表。
以網(wǎng)絡輿情受眾畫像庫中的輿情受眾與微博的對應關系為例,通過表1與表2簡述數(shù)據(jù)庫的邏輯設計:
5.3.3? 數(shù)據(jù)庫物理設計
在數(shù)據(jù)庫物理設計的過程中,應用DDL(Data definition language,數(shù)據(jù)定義語言),在MySQL數(shù)據(jù)庫中,進行創(chuàng)建數(shù)據(jù)庫架構(gòu)、創(chuàng)建表格框架、修改表格、刪除表格等操作。之后通過DML(Data manipulation language,數(shù)據(jù)操作語言),進行添加數(shù)據(jù)、修改數(shù)據(jù)、查詢數(shù)據(jù)等操作。
5.4? 面向網(wǎng)絡輿情靶向引導的核心技術評價
網(wǎng)絡輿情靶向引導的核心技術包含了數(shù)據(jù)處理技術、行為擬合與匹配技術和數(shù)據(jù)庫技術。微博輿情數(shù)據(jù)處理技術包含數(shù)據(jù)獲取、數(shù)據(jù)清洗、分詞與詞向量四部分。行為擬合與匹配技術包含語義識別、用戶畫像與情境感知、行為預測三部分。
數(shù)據(jù)處理技術最關鍵的部分為數(shù)據(jù)獲取技術。數(shù)據(jù)獲取技術的核心是網(wǎng)絡信息雷達。網(wǎng)絡信息雷達具有深度挖掘、持續(xù)采集、實時更新、遠程更新、優(yōu)化任務調(diào)度的性能,能夠達到數(shù)據(jù)垂直檢索與采集定向性、立體化、全面化和準確化。
行為擬合與匹配技術最關鍵的部分為語義識別技術。語義識別技術的核心是卷積神經(jīng)網(wǎng)絡模型。卷積神經(jīng)網(wǎng)絡模型模擬了人類閱讀文本信息的過程,實現(xiàn)了對文本信息語義的識別與理解。卷積神經(jīng)網(wǎng)絡具有自組織、自適應、自學習的特點,能夠達到對語義的定向與精準的識別。
數(shù)據(jù)庫技術是任何信息系統(tǒng)都不可或缺的重要組成部分。數(shù)據(jù)庫的應用,保證受眾、事件與策略的有效存儲與有效調(diào)用。數(shù)據(jù)庫設計的過程中,應用范式,最大限度地降低數(shù)據(jù)冗余,控制數(shù)據(jù)庫規(guī)模,提高數(shù)據(jù)庫運行效率。
6? 案例分析及框架驗證
筆者以“李心草溺亡”事件為背景,對數(shù)據(jù)與模塊不進行具體描述,僅依照框架流程進行驗證。
6.1? 數(shù)據(jù)更新
在數(shù)據(jù)更新的過程中,通過數(shù)據(jù)獲取模塊,獲得“李心草溺亡”事件的微博事件數(shù)據(jù)與網(wǎng)絡輿情受眾數(shù)據(jù),其中情境感知結(jié)果見圖8,受眾畫像結(jié)果見圖9。根據(jù)數(shù)據(jù)樣本,將其存入情境感知庫與受眾畫像庫。從圖8可以得出,“李心草溺亡”事件屬于社會民生類輿情事件,消極情感占據(jù)大多部分且情感強度較強,詞頻統(tǒng)計中“李心草”“溺亡”“警方”“大學生”等詞語較為突出。從圖9可以得出,具體網(wǎng)絡輿情受眾“mini寶貝在一起”的行為偏好為社會民生類輿情事件,受眾類型為普通網(wǎng)絡輿情受眾,并且該受眾的原創(chuàng)發(fā)文數(shù)多于轉(zhuǎn)發(fā)數(shù),積極言論較多,情感強度較為溫和,詞頻統(tǒng)計中“生活”“孩子”“新聞”等詞語較為明顯。
6.2? 行為擬合與受眾定位
以“李心草溺亡”事件為分析對象,對受眾畫像庫中的網(wǎng)絡輿情受眾進行擬合,可以得出如表3所示的行為擬合結(jié)果示意表。根據(jù)表中所描述的參與行為擬合結(jié)果,可以得出具體網(wǎng)絡輿情受眾與該事件的匹配度、參與行為的情感極性、參與行為的情感強度以及會對該事件進行發(fā)布、轉(zhuǎn)發(fā)或者@動作的可能性。根據(jù)匹配度可以對最可能參與此微博輿情事件的受眾進行定位。
以受眾“Runner-游熙鵬”為例,可以得出該受眾與“李心草溺亡”事件的匹配度最高,發(fā)布消極消息的可能性為70%,情感強度為0.28,采用發(fā)布動作的可能性為72%。
6.3? 策略匹配、引導觸發(fā)與靶向引導
(1)事件策略匹配:根據(jù)事件策略匹配模塊的計算結(jié)果,“李心草溺亡”事件,為中危、社會民生類微博輿情事件,系統(tǒng)結(jié)論為:應該對應中危微博輿情事件予以關注,并提出預警策略。預警策略包括以下3個方面:①跟蹤預警策略,需要微博輿情管理者對其持續(xù)進行監(jiān)控,按輿情發(fā)展情況考慮是否通知輿情應對機構(gòu);②協(xié)同引導策略,在輿情處理的過程中,通過與領袖型微博輿情信息受眾及傳統(tǒng)媒體型微博輿情信息受眾進行合作,發(fā)揮其傳播力強、影響范圍廣泛、可信度強的特點,使其為輿情朝積極有利方向發(fā)展進行發(fā)聲;③持續(xù)關注策略,中危微博輿情事件危機程度不高,但是有可能演化為高危微博輿情事件,因此不能夠掉以輕心,需要時刻對其進行關注,保持警惕。
(2)受眾策略匹配:微博輿情信息受眾“Runner-游熙鵬”,是普通微博輿情信息受眾。系統(tǒng)結(jié)論為:應該對應普通微博輿情信息受眾予以關注,采用受眾溝通策略。受眾溝通策略包括以下3個方面:①加強教育策略,通過媒體宣傳、媒體科普等方式,加強普通微博輿情信息受眾的教育,提高普通微博輿情信息受眾在面對微博輿情事件時的應對能力,減少其失范行為的發(fā)生;②靶向信息推送,在平時多向該受眾推送具有積極意義的微博內(nèi)容,為其創(chuàng)建和諧的微博環(huán)境;③切斷其不良信息的獲取渠道,盡量切斷該微博輿情信息受眾與不良受眾之間的聯(lián)系與信息獲取渠道,從而營造和諧的微博環(huán)境,避免該受眾失范行為的發(fā)生。
(3)行為策略匹配:“Runner-游熙鵬”對于“李心草溺亡”事件,將要采用的參與行為屬于情感強度較低的消極發(fā)布行為,屬于“特低危失范行為”。系統(tǒng)結(jié)論認為:目前可以對其采取觀察策略,并沒有直接或者間接干預手段的必要。
7? 總結(jié)與展望
筆者構(gòu)建網(wǎng)絡輿情受眾失范行為靶向引導的技術框架,并且總結(jié)利用3種核心技術,使得提出的框架從技術上實現(xiàn)成為可能。通過以“李心草溺亡”事件為例,梳理了框架運行的流程,計算出框架運行的結(jié)果,并且針對運行結(jié)果提出了具體的靶向引導策略,驗證了框架的有效性。但是,筆者提出的網(wǎng)絡輿情受眾失范行為靶向引導技術還處于研究初期,還有較多的內(nèi)容沒有融合從而沒有形成更加完整的體系。在今后的研究中,筆者將從上述七大模塊入手,構(gòu)建并優(yōu)化成型的數(shù)理模型,進行更加深入的研究。
參考文獻:
[1] 曾潤喜, 王國華, 徐曉林.高校網(wǎng)絡輿情的控制與引導[J]. 情報理論與實踐, 2009, 32(11): 79-82.
[2] 吳紅.高校圖書館如何利用流行文化積極元素引導大學生踐行社會主義核心價值觀[J]. 圖書情報工作, 2015, 59(S1): 143-146.
[3] XIA W. Occupy media highland, lead the consciousness development of college students[J]. Canadian social science, 2015, 11(2): 86-93.
[4] 鄭磊, 任雅麗.中國政府機構(gòu)微博現(xiàn)狀研究[J]. 圖書情報工作, 2012, 56(3): 13-17.
[5] 羅瀟瀟, 何躍, 熊濤.突發(fā)公共事件中權威信息對微博內(nèi)容的影響研究——以柳州鎘污染事件為例[J]. 圖書情報工作, 2012, 56(11): 123-127.
[6] 王晰巍, 邢云菲, 王楠阿雪, 等.新媒體環(huán)境下突發(fā)事件網(wǎng)絡輿情信息傳播及實證研究——以新浪微博“南海仲裁案”話題為例[J]. 情報理論與實踐, 2017, 40(9): 1-7.
[7] 趙曉航.基于情感分析與主題分析的“后微博”時代突發(fā)事件政府信息公開研究——以新浪微博“天津爆炸”話題為例[J]. 圖書情報工作, 2016, 60(20): 104-111.
[8] 劉永, 許燁婧.面向情境的情報服務理論問題研究[J]. 情報理論與實踐, 2013, 36(11): 1-4, 19.
[9] 劉英杰, 黃微, 閆璐.基于A–V–P的網(wǎng)絡輿情信息情感維度空間的模型構(gòu)建[J]. 情報資料工作, 2017(6): 12-18.
[10] 曾勝泉.網(wǎng)絡輿情應對技巧[M]. 廣州:廣東人民出版社, 2019:100-241.
[11] 魚震海.基于新媒體環(huán)境下網(wǎng)絡媒體失范行為的分析研究[J]. 現(xiàn)代情報, 2013, 33(8): 172-174, 177.
[12] 謝暉.我國網(wǎng)絡社會失范行為的法律規(guī)制——以網(wǎng)絡輿情為視角[J]. 法制博覽, 2019(31): 37-39.
[13] 楊祺. 微博意見領袖的行為失范及對策研究[D]. 長沙:湖南大學, 2016.
[14] 黃微, 許燁婧, 劉熠.大數(shù)據(jù)環(huán)境下多媒體網(wǎng)絡輿情并發(fā)獲取的數(shù)據(jù)驅(qū)動機理研究[J]. 情報理論與實踐, 2019, 42(6): 42-48, 16.
[15] 黃微, 劉熠, 許燁婧, 等.網(wǎng)絡輿情推文的熱度測度模型構(gòu)建[J]. 圖書情報工作, 2019, 63(20): 17-25.
[16] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL]. [2018-06-17]. https://arxiv.org/pdf/1301.3781v3.pdf.
[17] YAN S, SHUMING S, JING L, et al. Directional skip-gram: explicitly distinguishing left and right context for word embeddings[C]//The 2018 Conference of the North American Chapter of the Association for Computational Linguistics. New Orleans: Association for Computational Linguistics, 2018: 175-180.
[18] YANG X, XU S, WU H, et al. Sentiment analysis of Weibo comment texts based on extended vocabulary and convolutional neural network[C]// 2018 international conference on identification, information and knowledge in the internet of things. Beijing: Procedia Computer Science, 2018: 361-368.
[19] SHRIVASTAVA K, KUMAR S, JAIN D K. An effective approach for emotion detection in multimedia text data using sequence based convolutional neural network[J]. Multimedia tools and applications, 2019, 78: 29607–29639.
[20] 黃微, 劉熠, 孫悅.多媒體網(wǎng)絡輿情語義識別的關鍵技術分析[J]. 情報理論與實踐, 2019, 42(1): 134-140.
[21] 黃微, 趙江元, 許燁婧.多媒體網(wǎng)絡輿情知識庫群互操作要素及機理研究[J]. 圖書情報工作, 2019, 63(20): 43-50.
作者貢獻說明:
黃? 微:負責論文框架設計與內(nèi)容指導;
劉? 熠:負責論文撰寫與模型搭建;
郭蘇琳:負責論文修改與校對。
Technology Framework Model of Target Guidance of Anomie Behavior of Network Public Opinion Audience
Huang Wei1? ?Liu Yi1? ?Guo Sulin1,2
1School of Management, Jilin University, Changchun 130022
2School of Architecture and Urban Planning, Jilin Jianzhu University, Changchun 130119
Abstract: [Purpose/significance] The anomie behavior of the audience is the crucial factor of drastic changes in public opinion. This paper aims to construct the technical framework of targeted guidance of anomie behavior, and guide the anomie behavior from the technical methods. [Method/process] This paper started with the analysis of the target guidance of the anomie behavior of the Internet public opinion audience. Then established the framework model and described each module of the framework model in detail. In addition, this paper organized the core technologies according to each module of the framework, and put forward the further research ideas. Finally, this paper verified the framework by taking microblog public opinion as an example. [Result/conclusion] Targeted guidance is a method combining theory and application. The technology framework model of target guidance for the anomie behavior of Internet public opinion audience can solve the specific defects of current guidance strategy from the technical level, and enhance the operability of targeted guidance.
Keywords: network public opinion? ? anomie behavior? ? target guidance