朱光婷 潘曉琳
(重慶師范大學 數(shù)學科學學院, 重慶 401331)
網(wǎng)絡輿情是指在互聯(lián)網(wǎng)上流行的輿論,其中包含網(wǎng)民或公眾針對現(xiàn)實生活中的一些熱點問題、焦點問題、突發(fā)事件表達的意見、態(tài)度和情緒等等,它們在一定時間段內(nèi)集聚匯總,便會對與這些問題或事件相關的當事人造成輿論壓力,即形成網(wǎng)絡輿情危機。研究網(wǎng)絡輿情危機涉及相關的評價指標體系,而有關指標數(shù)據(jù)的屬性有兩種類型,即連續(xù)型和離散型。數(shù)據(jù)挖掘中對連續(xù)型數(shù)據(jù)進行預處理,有關算法都比較復雜。本次研究,主要針對網(wǎng)絡輿情危機評價指標體系探索一種簡化指標的方法?;舅悸肥牵菏紫?,對評價指標按選取規(guī)則進行初步選取,去除無法搜集或難以收集數(shù)據(jù)的指標;然后,運用布爾推理的高效實現(xiàn)算法將連續(xù)型數(shù)據(jù)離散化,為約簡粗糙集提供高準確率的信息表數(shù)據(jù);最后,采用啟發(fā)式約簡算法計算指標屬性重要程度,進而刪除冗余指標。
離散化問題主要是根據(jù)斷點把連續(xù)型數(shù)據(jù)的值域范圍切割成有限個區(qū)間,使每個區(qū)間的對象具有相同的類別,這是用一定閾值對數(shù)據(jù)進行空間拆分的過程。
設決策表為T=(U,A,V)。其中,U為至少有1個元素的樣本集合;A=C∪D,為非空有限個條件屬性集與決策屬性集組成的集合;V=∪Va[1]。對于?a∈C,值域Va=[la,ra]。Pa為Va上的一個劃分:
Pa={[Ca0,Ca1),[Ca1,Ca2),…,[Cak,Cak+1)}
la=Ca0 Cai即為屬性a在值域Va上的一個斷點;Ca={Ca1,Ca2,…,Cak},為Va的斷點集。每一個斷點集確定唯一的一個劃分。如果 |Pa|=1,表示沒有斷點,集合為空集。集合P={Pa|a∈C∪D},稱為T的一個劃分。由P定義一個新決策表TP=(U,CP∪D,VP),稱為T的P離散化。 離散化問題可轉化為由決策表求解最優(yōu)劃分的決策問題。按典型的基于粗糙集與布爾推理的離散化算法(RSBRA),根據(jù)最大分辨能力找出的實際斷點組成的集合為原決策表的次優(yōu)斷點集。布爾推理離散化過程中是完全根據(jù)原始數(shù)據(jù)挖掘數(shù)據(jù)的信息,不會對數(shù)據(jù)造成破壞。布爾推理離散算法,直觀、簡單、容易被人理解,但以此算法確定一個斷點,空間復雜度和時間復雜度都比較高。因此,需要采用高效的實現(xiàn)算法來降低計算的復雜度。 【定義1[2]】令決策表集L={U},樣本子集X=L。將屬性a的數(shù)值排序,得到Va1 (3) 【定義2】對任意斷點Cai,a∈C,1≤i≤n,j=1,2,…,r;n為樣本子集的樣本數(shù)目。令 WX(Cai)=lX(Cai)·rX(Cai)- (4) 布爾推理離散化的高效實現(xiàn)算法步驟如下。 第一步:對決策表中的數(shù)據(jù)按定義1進行處理,求出候選斷點數(shù),確定候選斷點集。 第二步:對?c∈C1,計算斷點Cai分辨的樣本對數(shù),并根據(jù)其最大值選出實際斷點(記為Cmax),加入集合P中,并從C1中剔除Cmax。 第三步:對于X∈L,如果Cmax將X分割成X1和X2,那么從L中去除X,將X1和X2添加到L中。 第四步:對?Xi∈L,若Xi中的樣本不屬于同一類,則回到第二步;若Xi中樣本屬于同一類,則選擇結束。由此可得出實際斷點集P,將原始數(shù)據(jù)離散化。 粗造集的主要思想是利用現(xiàn)有數(shù)據(jù)信息,將不完整、不確定的都近似得出,從而找出所有信息之間的關聯(lián)性,保證篩選的客觀性。決策表經(jīng)過處理后,最終得到的屬性約簡集可能是多個的。我們希望求得個數(shù)最少的集合。有研究[3]表明,求取最優(yōu)約簡的算法是不完備的,于是可退而求其次,尋找高效的近似約簡算法或者快速的啟發(fā)式約簡算法。我們采用啟發(fā)式約簡算法,將可識別矩陣與可降低復雜度屬性的重要度相結合,進行屬性約簡。這種方法有利于處理屬性繁多且數(shù)據(jù)量大的數(shù)據(jù)集??勺R別矩陣[4]是一個主對角線元素為0的對稱矩陣: 運算過程[5]如下。 第一步:為了減少可識別矩陣計算量,對離散化決策信息表中的決策屬性的表達進行簡化。選取其中一個樣本的決策屬性為是(其余全為否),則對應該樣本的條件屬性全為是(其余條件屬性為否)。通過簡化后的決策表,構造出只有1行的可識別矩陣。 第二步:根據(jù)各屬性在可識別矩陣中的頻度和長度,求出各條件屬性的重要度。頻度較大、長度較小的條件屬性,其重要程度較大。具體方法是根據(jù)屬性在識別矩陣中的頻度和長度,對條件屬性的重要性進行加權處理[6]。 第三步:對求出的條件屬性重要度進行排序,然后按照重要程度進一步對數(shù)據(jù)進行優(yōu)化處理,得到約簡過程表。 第四步:按照約簡規(guī)則進行約簡,得到最終的優(yōu)化指標。約簡規(guī)則為:若UInd(C-Ci)=UInd(D),Ci為可約屬性;若UInd(C-Ci)≠UInd(D),Ci為不可約屬性[7]。UInd(D)為由指標集D導出的等價類。 選取在2019年9月和10月發(fā)生的無錫高架橋坍塌、中通快遞雙十一漲價、波音延長停飛計劃等10個近期影響程度不同的事件,將圍繞這些事件的輿情(熱點話題)記為X1至X10,作為評估對象。根據(jù)專家評價、百度指數(shù)和微博等傳播渠道與途徑,獲取輿情指標數(shù)據(jù)[8]。指標初選,既要考慮指標對網(wǎng)絡輿情危機反映的全面性和準確性,也要考慮指標的實際意義。為便于收集指標數(shù)據(jù),主要選擇可量化和可操作的指標,適當選取主觀性指標。參考相關文獻[9],從網(wǎng)絡輿情的參與者、被傳播的話題及傳播途徑3個方面,初步選取指標共計23個。 選擇常用的Z-score標準化方法,基于原始數(shù)據(jù)的均值和標準差對數(shù)據(jù)進行處理。設:xij為事件i對j個指標的值,yij為標準化后的指標值,Xj為指標j的數(shù)學期望,Sj為指標j的標準差。則yij=(xij-Xj)Sj。標準化后,指標值的區(qū)間為[-2.5,2.5]。然后,按布爾推理離散化的高效實現(xiàn)算法計算出23個指標的離散化過程和信息表[10](見表1,未全部列出)。比如第23個指標C23,離散規(guī)則為3個連續(xù)區(qū)間,分別是[,0.003 52),[0.003 52,0.906 17),[0.906 17,];每個區(qū)間的對象具有相同的類別,以從小到大的整數(shù)0、1、2分別代表這些區(qū)間。 表1 指標的離散規(guī)則和信息表 對23個初選指標,按輿情主體、輿情媒體、輿情客體構成3個決策表,利用可識別矩陣和屬性重要度進行屬性約簡,刪除冗余指標。 以輿情主體為例,用U表示事件,X1至X10代表熱點話題,C16至C23分別表示觀點極化數(shù)、是否含偏激觀點、點贊瀏覽比、轉發(fā)瀏覽比、評論瀏覽比、輿情參與人正面情感比率、輿情參與人負面情感比率、情感傾向強度等8個指標,d表示決策屬性。首先,對離散化決策表對決策屬性的表達進行簡化,形成指標決策表(見表2),其中用1表示是,用0表示否。X1為條件屬性和決策屬性全為肯定的肯定性樣本,基于指標決策表,按照可識別矩陣的定義,求出的輿情主體指標可識別矩陣如表3所示。 表2 輿情主體指標決策表 表3 輿情X1主體指標可識別矩陣 在決策表中,各個條件屬性帶來的影響的大小是有差異的,也就是說其重要程度[11]是不同的。因此,需探究哪些條件屬性去掉后影響較大,哪些去掉后影響較小,確定各條件屬性的重要程度。通過以上求出的輿情主體指標的決策表和可識別矩陣,計算出的各條件屬性的重要度如下。 把條件屬性對應的指標按照重要度從小到大的順序依次加入約簡指標集合中,考察各指標是否滿足約簡規(guī)則,是否可約簡。若不滿足,停止屬性約簡,生成約簡過程表(見表4)。 表4 輿情X1主體指標的約簡過程 把C17(是否含偏激觀點)、C20(評論瀏覽比)和C21(輿情參與人正面情感比率)約簡后,剩下的5個指標即C16、C18、C19、C22和C23便構成約簡后的輿情主體指標集合。以同樣的方式,可以得到輿情客體和輿情媒體的指標約簡集合,初選的23個指標最后保留15個。最終建立的網(wǎng)絡輿情危機指標體系如表5所示。 表5 約簡后的網(wǎng)絡輿情危機指標體系 使用KW檢驗,對指標做顯著性分析,顯著水平取0.05。利用SARA軟件,將保留下來的15個指標進行檢驗,得檢驗概率值為0.001 8,遠小于0.05,表明保留下來的指標相互間差異明顯。這也證明了算法的合理性,基于改進的粗糙集算法,對網(wǎng)絡輿情危機評價指標體系進行約簡優(yōu)化,具有可行性和有效性。 為解決網(wǎng)絡輿情危機評價指標體系存在的冗余和不確定性問題,使用改進的粗糙集算法對指標進行了約簡處理。首先對連續(xù)屬性數(shù)據(jù)進行離散化處理,采用布爾推理離散化的高效實現(xiàn)算法,降低確定一個斷點的空間復雜度和時間復雜度,然后依據(jù)可識別矩陣和屬性重要度進行屬性約簡,刪除冗余指標。指標初選階段,直接從原始數(shù)據(jù)中獲得真實、客觀的潛在信息,既考慮指標的實際意義,又保證篩選的客觀性。KW檢驗結果表明,通過約簡后的網(wǎng)絡輿情危機評價指標相互間差異明顯,說明算法是合理的。2 實證分析
2.1 樣本及指標初選
2.2 指標的離散化
2.3 指標集的約簡
3 結 語