雍龍泉,賈 偉,張建科
(1陜西理工大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,陜西 漢中,723001;2陜西省工業(yè)自動化重點(diǎn)實(shí)驗(yàn)室,陜西 漢中723001;3西安郵電大學(xué) 理學(xué)院,西安710121)
互聯(lián)網(wǎng)技術(shù)的發(fā)展到今天,社交網(wǎng)絡(luò)大肆興起,人們越來越習(xí)慣于使用社交網(wǎng)絡(luò)媒體,也越來越傾向于借助這一平臺來實(shí)時分享自己的信息,發(fā)表言論、抒發(fā)情感。但是,當(dāng)某一事件發(fā)生時,必將在社交網(wǎng)絡(luò)中廣泛傳播,由于社交網(wǎng)絡(luò)用戶的爆炸式增長,就很可能會產(chǎn)生輿情,輿情將會對民眾產(chǎn)生巨大的影響,甚至對社會安全產(chǎn)生一定的威脅[1-4]。因此,研究突發(fā)事件網(wǎng)絡(luò)輿情的傳播特性及演化過程,建立數(shù)學(xué)模型來探討突發(fā)事件網(wǎng)絡(luò)輿情演化規(guī)律及動力學(xué)分析,具有重要的現(xiàn)實(shí)意義[5-8]。
本文采用較為流行的網(wǎng)絡(luò)爬蟲技術(shù)從百度指數(shù)爬取某一“熱門事件”的數(shù)據(jù),并對這些數(shù)據(jù)進(jìn)行預(yù)處理;進(jìn)而建立Logistic微分方程數(shù)學(xué)模型,利用已有數(shù)據(jù),采用智能算法確定微分方程解中的3個參數(shù),最后應(yīng)用于網(wǎng)絡(luò)輿情預(yù)測。
本文的思路如圖1所示。
圖1 網(wǎng)絡(luò)輿情監(jiān)測流程Fig.1 Network public opinion monitoring process
下文以近期“茍晶”事件為例,說明該方法的應(yīng)用。
打開網(wǎng)址http://index.baidu.com/,輸入關(guān)鍵詞“茍晶”;設(shè)置時間范圍為近30天,即2020.6.24-2020.7.23(時間范圍可以手動設(shè)置);得到百度搜索指數(shù)如圖2所示。
圖2 百度搜索指數(shù)Fig.2 Baidu Search Index
百度指數(shù),主要包括搜索指數(shù)、資訊指數(shù)、媒體指數(shù)。百度搜索指數(shù)是以網(wǎng)民每天在百度的搜索量為數(shù)據(jù)基礎(chǔ),以關(guān)鍵詞為統(tǒng)計(jì)對象,科學(xué)分析并計(jì)算出各個關(guān)鍵詞在百度網(wǎng)頁搜索中搜索頻次的加權(quán)和;它能形象地反映該關(guān)鍵詞每天的變化趨勢,根據(jù)使用百度搜索來源的不同,搜索指數(shù)分為PC端和移動端。
我們采用Python爬蟲技術(shù)[9-10],獲得該時間段內(nèi)的數(shù)據(jù)見表1前3列。為了建立數(shù)學(xué)模型,下面對這些數(shù)據(jù)進(jìn)行初步處理。
把2020-06-24當(dāng)做第一天,即t1=1,其余依次類推,2020-07-23便是第30天;百度搜索指數(shù),也即每天的關(guān)注量,從數(shù)學(xué)上而言即單位時間信息量dx/dt;每天關(guān)注量的累計(jì),即網(wǎng)絡(luò)輿情信息量的和x(t i);簡單處理后得到表1的第4與第5列數(shù)據(jù)。
表1 數(shù)據(jù)列表Tab.1 Data list
大疫當(dāng)前,數(shù)學(xué)能做什么[11]?國內(nèi)已有一些學(xué)者對突發(fā)事件網(wǎng)絡(luò)輿情進(jìn)行了研究,張一文等利用系統(tǒng)動力學(xué)建模探究事物自身演化機(jī)理,為控制非常規(guī)突發(fā)事件網(wǎng)絡(luò)輿情擴(kuò)散,引導(dǎo)非常規(guī)突發(fā)事件輿情傳播提供有力依據(jù)[12];宋海龍等根據(jù)突發(fā)事件網(wǎng)絡(luò)輿情具有自由性、互動性、即時性、隱匿性、群體極化性等特點(diǎn),探討了形成、高漲、波動和最終淡化4個階段網(wǎng)絡(luò)輿情的引導(dǎo)和控制問題[13]。學(xué)習(xí)過數(shù)學(xué)建?;蛘呱飻?shù)學(xué)的人都知道,(整數(shù)階或分?jǐn)?shù)階)傳染病模型,包括SIR、SEIR模型[14-15]等,從數(shù)學(xué)上而言,就是微分方程(組)。換句話說,只要是與時間變化相關(guān),則建立的模型要么是差分方程模型(離散問題),要么是微分方程模型(連續(xù)問題),此外還有時滯微分方程模型等。
網(wǎng)絡(luò)輿情的演進(jìn)規(guī)律,遵循如下微分方程模型:
這里x(t)表示網(wǎng)民對某一熱門事件進(jìn)行交流而形成的網(wǎng)絡(luò)輿情信息量的和,單位時間信息量和值的相對變化率為r,x(t)的上限為K。 這個模型也稱為Logistic模型,廣泛應(yīng)用于生態(tài)系統(tǒng)、經(jīng)濟(jì)系統(tǒng)、傳染病模型等。計(jì)算可以得到該微分方程的解為:
取初始值x0=50,K=11 000,r=1,函數(shù)x(t)的圖像如圖3所示。
圖3 函數(shù)x(t)的圖像Fig.3 Image of function x(t)
在輿情建模與仿真相關(guān)文獻(xiàn)里面,有的學(xué)者把輿情的傳播劃分為3個階段,分別稱之為輿情的產(chǎn)生階段、發(fā)展階段、衰退階段;有的學(xué)者把輿情的傳播劃分為6個階段,分別稱之為輿情的潛伏期、成長期、蔓延期、爆發(fā)期、衰退期、消亡期;也有些學(xué)者把輿情的傳播劃分為5個階段,分別稱之為輿情的潛伏期、萌動期、加速期、成熟期、衰退期。劃分為5個階段的較為常見,這方面的研究見文獻(xiàn)[5-6],在此不再詳述。網(wǎng)絡(luò)輿情信息量的和x(t),其一般形式為:
分別建立如下最小誤差優(yōu)化模型:
模型(4)采用非線性最小二乘,模型(5)采用非線性最小一乘。
令X=(c1,c2,c3),模型(4)與(5)便是一個無約束優(yōu)化問題minf(X),下面采用正弦余弦算法(Sine Cosine Algorithm,簡稱SCA)來確定參數(shù)X。SCA算法步驟如下:
步驟1初始化
設(shè)置種群規(guī)模N,空間維數(shù)D,控制參數(shù)a,最大迭代次數(shù)Tmax;在可行域空間中隨機(jī)初始化N個個體組成初始種群;t=1;計(jì)算當(dāng)前每個個體的適應(yīng)值,并記錄最優(yōu)個體位置P(t);
步驟2種群更新
隨機(jī)產(chǎn)生r2∈U[0,2π],r3∈U[0,2],r4∈U[0,1];
越界處理;
計(jì)算每個個體的適應(yīng)值并更新種群的最優(yōu)個體位置P(t);t=t+1;
end while
步驟3輸出解
SCA算法最顯著的特點(diǎn)是基于正弦函數(shù)(6)和余弦函數(shù)(7)值的變化來達(dá)到尋優(yōu)目的,其結(jié)構(gòu)簡單,容易實(shí)現(xiàn),在SCA算法中,主要參數(shù)有4個:r1、r2、r3、r4。 其中,最關(guān)鍵的是r1,控制算法從全局搜索到局部開發(fā)的轉(zhuǎn)換。有關(guān)正弦余弦算法詳細(xì)分析,見文獻(xiàn)[16]。
對模型(4),SCA優(yōu)化結(jié)果為:
從以上便得到:
代入t i,i=1,2,…,30,預(yù)測得到的數(shù)據(jù)見表1的最后一列。
為了較為直觀的反映網(wǎng)絡(luò)輿情的發(fā)展趨勢,圖4給出了百度搜索指數(shù),圖5給了網(wǎng)絡(luò)輿情信息量的擬合曲線與誤差圖。
圖4 百度搜索指數(shù)Fig.4 Baidu Search Index
圖5 擬合曲線與誤差Fig.5 The fitting curve and error
從圖5可以看出,前期存在誤差,后期誤差很小。主要原因在于,對于突發(fā)事件,網(wǎng)絡(luò)輿情前期不穩(wěn)定、波動大,所以誤差較大;越到后期,網(wǎng)絡(luò)輿情較為一致,所以后期誤差較小。
正弦余弦算法對目標(biāo)函數(shù)的可導(dǎo)性無限制,因此不論是采用可導(dǎo)的非線性最小二乘模型(4),還是采用不可導(dǎo)的非線性最小一乘模型(5),SCA算法都能夠獲得近似一致的結(jié)果;這為輿情傳播建模與仿真開辟了新的方向。