林倩茹,王 博,劉云清,劉小煜,劉威鵬
1.長(zhǎng)春理工大學(xué) 電子信息工程學(xué)院,長(zhǎng)春130022
2.北京信息技術(shù)研究所,北京100089
3.哈爾濱工業(yè)大學(xué) 經(jīng)濟(jì)與管理學(xué)院,哈爾濱150000
世界主要國(guó)家或地區(qū)的政黨輪換與領(lǐng)導(dǎo)人更替,可能會(huì)在軍事、外交、貿(mào)易、科技等方面對(duì)局部地區(qū)甚至整個(gè)世界帶來(lái)重要影響。準(zhǔn)確預(yù)測(cè)指定國(guó)家或地區(qū)的選舉結(jié)果,是制定針對(duì)性應(yīng)對(duì)策略、行動(dòng)、計(jì)劃的重要支撐。然而,選舉預(yù)測(cè)的影響因素多、不確定性大、信息迭代速度快。當(dāng)前,迫切需要利用大數(shù)據(jù)等技術(shù)手段推動(dòng)選情預(yù)測(cè)工作,由“人工定性分析”向“計(jì)算機(jī)輔助定量分析”轉(zhuǎn)型,由“事后分析”向“事前預(yù)測(cè)”的“預(yù)報(bào)分析”轉(zhuǎn)型。
傳統(tǒng)的選情預(yù)測(cè)研究模型主要基于經(jīng)濟(jì)數(shù)據(jù)、歷史數(shù)據(jù)或者民調(diào)數(shù)據(jù)[1-2]。2008 年田興玲等人[3]提出基于小世界網(wǎng)絡(luò)的差額選舉模型,研究了刻畫網(wǎng)絡(luò)結(jié)構(gòu)的近鄰數(shù)和重新連接概率以及選舉的差額度對(duì)選舉的影響。2015 年陳陸輝等人[4]基于民意調(diào)查數(shù)據(jù)分析臺(tái)灣選舉,利用“涵蓋率模型”結(jié)合媒體民調(diào)結(jié)果、民調(diào)中未表態(tài)或拒訪網(wǎng)民投票意向,以及無(wú)法被電話調(diào)查到的網(wǎng)民投票意向,對(duì)選前媒體民調(diào)與歷史選舉結(jié)果進(jìn)行了對(duì)比研究。Wright 等人[5]基于早期選舉和2016 年競(jìng)選活動(dòng)數(shù)據(jù),采用平滑混合效應(yīng)模型進(jìn)行結(jié)果聚合。2019年Gaxiola 等人[6]采用粒子群優(yōu)化方法,預(yù)測(cè)了尼日利亞Akwa Ibom州的一次選舉活動(dòng)。
隨著社交網(wǎng)絡(luò)的快速發(fā)展,越來(lái)越多的網(wǎng)民在網(wǎng)上發(fā)表政治意見并參與時(shí)事討論,出現(xiàn)了利用社交媒體信息進(jìn)行選情研究的模型[7-9]。在2008 年美國(guó)總統(tǒng)大選中,Williams 和Gulati 僅僅根據(jù)Facebook 網(wǎng)站上的支持率就成功地預(yù)測(cè)了總統(tǒng)大選結(jié)果[10]。2013 年Gaurav 等人[11]基于候選人在Twitter上的人氣預(yù)測(cè)選舉結(jié)果,利用候選人的名字在選舉前被推文提及的次數(shù),設(shè)計(jì)了一種基于預(yù)定義的關(guān)鍵字技術(shù),成功地預(yù)測(cè)了2013年2月至4月在拉丁美洲舉行的三次總統(tǒng)選舉的獲勝者。路凱麗[12]研究了候選人社交媒體使用情況對(duì)選舉結(jié)果的影響,發(fā)現(xiàn)候選人的網(wǎng)站價(jià)值是預(yù)測(cè)其最終得票數(shù)的有效指標(biāo),說(shuō)明候選人對(duì)競(jìng)選網(wǎng)站的使用水平確實(shí)會(huì)對(duì)選舉結(jié)果產(chǎn)生影響。2018年Xie等人[13]利用Facebook、Twitter、谷歌媒體數(shù)據(jù)預(yù)測(cè)臺(tái)灣總統(tǒng)大選,從“信號(hào)”角度考慮網(wǎng)絡(luò)異構(gòu)信息,并采用卡爾曼濾波器融合多個(gè)信號(hào)以預(yù)測(cè)候選人的得票率。
上述方法雖然在一定程度上刻畫了真實(shí)民意,但影響選舉結(jié)果的因素是多方面的,采用單一的經(jīng)濟(jì)數(shù)據(jù)、歷史數(shù)據(jù)、民調(diào)數(shù)據(jù)或社交媒體數(shù)據(jù)預(yù)測(cè)選舉結(jié)果,并不能全面反映選民的政治傾向,為此,本文提出基于民調(diào)與網(wǎng)民情感傾向性的選情預(yù)測(cè)模型。針對(duì)民調(diào)數(shù)據(jù),由于不同民意調(diào)查機(jī)構(gòu)具有不同的傾向性,為避免機(jī)構(gòu)傾向性導(dǎo)致的誤差,建立基于時(shí)間序列的數(shù)據(jù)修正模型和反向歸一化方法對(duì)數(shù)據(jù)進(jìn)行修正;針對(duì)社交網(wǎng)絡(luò)數(shù)據(jù),基于Facebook上網(wǎng)民對(duì)黨派候選人的評(píng)論建立網(wǎng)民情感分類量化模型以分析網(wǎng)民的情感傾向性。最后,為提高選舉預(yù)測(cè)的準(zhǔn)確性,利用熵值法融合修正后的民調(diào)結(jié)果和網(wǎng)民情感傾向性分析結(jié)果。
圖1 選情預(yù)測(cè)模型總體框架
選情預(yù)測(cè)模型總體框架如圖1所示,主要包括三個(gè)部分:民調(diào)數(shù)據(jù)歸一化修正模型、網(wǎng)民情感分類量化模型和基于熵值法的選情融合預(yù)測(cè)模型。
其中,民調(diào)數(shù)據(jù)歸一化修正模型包含基于時(shí)間序列的數(shù)據(jù)修正模型和反向歸一化方法,其作用是分別對(duì)民調(diào)機(jī)構(gòu)數(shù)據(jù)的傾向性進(jìn)行糾偏以及對(duì)未表態(tài)人群的政治態(tài)度進(jìn)行推理。網(wǎng)民情感分類量化模型主要包含詞典創(chuàng)建、情感分類和情感量化三個(gè)部分,其首先將輸入的社交媒體數(shù)據(jù)進(jìn)行預(yù)處理,并結(jié)合情感詞典、否定詞詞典和程序詞詞典進(jìn)行情感傾向性計(jì)算,然后進(jìn)行情感分類,最后對(duì)情感分類結(jié)果進(jìn)行量化分析得到網(wǎng)民情感傾向性分析結(jié)果。基于熵值法的選情融合預(yù)測(cè)模型則是將修正后的民調(diào)預(yù)測(cè)結(jié)果與網(wǎng)民情感傾向性分析結(jié)果通過(guò)信息熵進(jìn)行融合,從而得出最終的選情預(yù)測(cè)結(jié)果。
民調(diào)數(shù)據(jù)歸一化修正模型包含基于時(shí)間序列的數(shù)據(jù)修正模型和反向歸一化方法兩部分。
利用多家民調(diào)機(jī)構(gòu)數(shù)據(jù),分析不同民調(diào)機(jī)構(gòu)對(duì)于同一黨派候選人的民調(diào)結(jié)果偏差。將多家民調(diào)機(jī)構(gòu)結(jié)果的平均值作為民調(diào)結(jié)果的基準(zhǔn)值,并以此計(jì)算各個(gè)民調(diào)機(jī)構(gòu)的歷史偏差序列,再利用時(shí)間序列方法,預(yù)測(cè)當(dāng)前時(shí)刻各民調(diào)機(jī)構(gòu)對(duì)該黨派候選人的偏差,對(duì)民調(diào)結(jié)果進(jìn)行修正。
3.1.1 時(shí)間序列方法
移動(dòng)平均(MA)是給定m個(gè)數(shù)據(jù)點(diǎn)組成的序列{x1,x2,…,xm}和移動(dòng)平均參數(shù)n,通過(guò)滑動(dòng)窗口方式計(jì)算得到新的序列,如式(1):
式(1)中,xi(i=1,2,…,m)表示原始序列第i個(gè)值,則移動(dòng)平均模型的輸出序列為{x1,x2,…,xn,x'n+1,x'n+2,…,x'm}。
指數(shù)移動(dòng)平均(EMA)是以指數(shù)式遞減加權(quán)的移動(dòng)平均[14]:
式(2)中,參數(shù)p為指數(shù)衰減因子,給定m個(gè)數(shù)據(jù)點(diǎn)組成的序列{x1,x2,…,xm}和移動(dòng)平均參數(shù)n,則:
3.1.2 民調(diào)數(shù)據(jù)修正模型
為減少不同的民調(diào)機(jī)構(gòu)orgk(k=1,2,…,K)對(duì)不同的黨派候選人parr(r=1,2,…,R)的傾向性,采用時(shí)間序列方法對(duì)民調(diào)數(shù)據(jù)進(jìn)行修正,如表1所示。
表1 民調(diào)機(jī)構(gòu)數(shù)據(jù)
表1 中,設(shè)在選區(qū)c,民調(diào)機(jī)構(gòu)orgk調(diào)查出ta時(shí)刻支持黨派候選人parr的選民比例為,未選擇支持任何黨派候選人的選民比例為wbtk?;跁r(shí)間序列對(duì)以上結(jié)果進(jìn)行修正,得到修正后的黨派候選人parr支持率為。修正的過(guò)程分為5個(gè)步驟:
(1)將所有民調(diào)機(jī)構(gòu)orgk(k=1,2,…,K)對(duì)黨派候選人parr的支持率取平均值:
式(4)中,表示民調(diào)機(jī)構(gòu)orgk給出的黨派候選人parr的支持率,表示將所有民調(diào)機(jī)構(gòu)對(duì)parr調(diào)查結(jié)果的平均值作為民調(diào)基準(zhǔn)值。
(2)對(duì)民調(diào)機(jī)構(gòu)orgk,黨派候選人parr歷史支持率序列為:{(t1,pollk,1),(t2,pollk,2),…,(tA,pollk,A)},由式(1),得到修正后的新序列:{(t1,poll'k,1),(t2,poll'k,2),…,(tA,poll'k,A)}。
(3)對(duì)于民調(diào)機(jī)構(gòu)orgk,計(jì)算ta時(shí)刻對(duì)黨派候選人parr的偏差:Biask,a=poll'k,a-,則所有時(shí)間的偏差組成一個(gè)序列:B={(t1,Biask,1),(t2,Biask,2),…,(tA,Biask,A)}。
(4)對(duì)于偏差序列B,利用式(2)和式(3),得到新的偏差序列B′={(t1,Bias'k,1),(t2,Bias'k,2),…,(tA,Bias'k,A)}。
(5)ta時(shí)刻的民調(diào)數(shù)據(jù)修正:k,a+Bias'k,a,為民調(diào)機(jī)構(gòu)orgk對(duì)黨派候選人parr修正后的支持率。
設(shè)未表態(tài)受訪者符合沉默螺旋理論的推論[15],即選民對(duì)黨派候選人parr支持率與未表態(tài)選民對(duì)黨派候選人parr支持率,呈反比關(guān)系。基于該假設(shè),本文采用反向歸一化方法,對(duì)未表態(tài)選民的傾向性進(jìn)行推理,過(guò)程如下:
(1)設(shè)在選區(qū)c,ta時(shí)刻民調(diào)機(jī)構(gòu)orgk對(duì)各黨派的修正數(shù)據(jù)序列為{},未表態(tài)數(shù)據(jù)為wbtk,按降序排列,得到新序列:{}。
(2)將未表態(tài)數(shù)據(jù)wbtk通過(guò)公式(5)分加給R個(gè)黨派候選人,得到所有黨派候選人的推理支持率:{}。
式(5)中,dt_sortR-r+1表示分加給黨派候選人parr的未表態(tài)比重,表示考慮未表態(tài)選民的傾向性后,選民對(duì)黨派候選人parr的支持率。
(3)將K個(gè)民調(diào)機(jī)構(gòu)對(duì)黨派候選人parr的推理支持率求平均值,并做歸一化處理,如式(6)、式(7)所示。
網(wǎng)民情感分類量化模型包括3個(gè)部分,首先構(gòu)建情感詞典、否定詞詞典和程度詞詞典,在此基礎(chǔ)上,將爬取的評(píng)論語(yǔ)料進(jìn)行預(yù)處理;然后基于情感詞典、否定詞詞典和程度詞詞典進(jìn)行情感傾向性計(jì)算,將網(wǎng)民情感分為積極情感和消極情感;最后,通過(guò)移動(dòng)平均累計(jì)概率(MAPP)方法將網(wǎng)民情感進(jìn)行量化,得到選民情感傾向性預(yù)測(cè)結(jié)果。
將知網(wǎng)HowNet 詞典中的正負(fù)情感詞典、清華大學(xué)李軍中文褒貶詞典、大連理工大學(xué)情感詞匯本體(DUTIR)和臺(tái)灣大學(xué)情感詞典(NTUSD)中的積極詞和消極詞去重后融合[16],得到通用情感詞典WT。程度詞詞典來(lái)自于知網(wǎng)詞典庫(kù)(表2)。由于社交媒體評(píng)論中存在表情符號(hào),對(duì)積極含義的表情符號(hào)和消極含義的表情符號(hào)構(gòu)建表情符號(hào)詞典WE,部分表情符號(hào)情感極性如表3所示。
表2 部分詞典類型及權(quán)重示例
表3 部分表情符號(hào)情感極性
由于通用情感詞典對(duì)情感詞的概括是有限的,缺乏部分選情領(lǐng)域的情感詞,還需對(duì)選情評(píng)論中出現(xiàn)頻數(shù)較高的詞進(jìn)行情感識(shí)別。本文利用點(diǎn)互信息(Pointwise Mutual Information,PMI)算法對(duì)通用情感詞典進(jìn)行擴(kuò)充[16],計(jì)算選情領(lǐng)域新詞與已知情感詞之間的語(yǔ)義正相關(guān)度,確定新詞的情感極性。利用互信息找到與新詞最正相關(guān)的情感詞,然后將該詞的情感極性作為新詞的情感極性,詞語(yǔ)w1、w2之間的互信息的計(jì)算公式如下:
式(8)中,p(w1,w2)表示(w1,w2)兩個(gè)詞共同出現(xiàn)的概率,{p(w1),p(w2)} 分別表示w1、w2單獨(dú)出現(xiàn)的概率。PMI(w1,w2)表示{w1,w2}之間的互信息,若PMI(w1,w2)>0 ,則p(w1,w2)>p(w1)p(w2) ,說(shuō)明兩個(gè)詞語(yǔ)具有相關(guān)性,值越大,相關(guān)性越大。本文從選情領(lǐng)域網(wǎng)民評(píng)論數(shù)據(jù)中選取了30對(duì)高頻情感詞,構(gòu)成正向情感詞集合WP和負(fù)向情感詞集合WN,并利用這30對(duì)種子詞,計(jì)算未包含于通用情感詞典的詞語(yǔ)w?WT的情感極性,判斷公式如(9)所示:
式(9)中,若SO_PMI(w)的值大于0,新詞w的極性為正向;等于0,新詞w的極性為中性;小于0,新詞w的極性為負(fù)向。
最終的情感詞典是通用情感詞典、領(lǐng)域情感詞典、表情符號(hào)詞典的并集。情感詞典的種類及積極詞、消極詞數(shù)量如表4所示。
表4 情感詞典種類及積極詞、消極詞數(shù)量 個(gè)
利用網(wǎng)民在社交媒體Facebook 上對(duì)各黨派候選人的評(píng)論數(shù)據(jù),將網(wǎng)民的情感分為積極和消極兩類,步驟如下:
(1)評(píng)論文本預(yù)處理。將同一賬號(hào)針對(duì)黨派候選人parr的評(píng)論去重、合并,利用“jieba庫(kù)”進(jìn)行分詞,并采用哈工大停用詞庫(kù),將對(duì)情感分析無(wú)影響的詞過(guò)濾掉,得到每個(gè)賬號(hào)的關(guān)鍵詞集合。
(2)反向遍歷關(guān)鍵詞集合,將當(dāng)前詞wi與情感詞典進(jìn)行匹配,若為積極詞,則情感值為1;若為消極詞,則情感值為-1。再以wi為基準(zhǔn)向前尋找程度詞和否定詞,若含有否定詞和程度詞,則詞wi的情感得分ei為情感值與否定詞、程度詞權(quán)重之積。
(3)計(jì)算每個(gè)賬號(hào)評(píng)論的情感得分:
式(10)中,如果a >0 表示此網(wǎng)民對(duì)黨派候選人parr的情感極性為積極;a=0 表示其情感極性為中性;a <0表示其情感極性為消極。
網(wǎng)民情感量化處理詳細(xì)步驟如下:
(1)計(jì)算黨派候選人parr在時(shí)間t獲得網(wǎng)民的支持率:
式(11)中,supr,t表示黨派候選人parr在時(shí)間t獲得網(wǎng)民的支持率,posr,t表示黨派候選人parr在時(shí)間t情感極性為積極的網(wǎng)民數(shù),totalr,t表示黨派候選人parr在時(shí)間t的總評(píng)論數(shù)。
(2)計(jì)算移動(dòng)平均累積概率MAPP,將黨派候選人parr在某一時(shí)間段[t-T,t-1]內(nèi)網(wǎng)民的平均支持率作為其在t時(shí)刻選民支持率的估計(jì)[14]:
為盡可能提升模型的預(yù)測(cè)精度,本文將基于民調(diào)的預(yù)測(cè)結(jié)果和基于網(wǎng)民情感傾向性的預(yù)測(cè)結(jié)果進(jìn)行融合,利用熵值法[17]確定各個(gè)模型的權(quán)重,以克服人工賦權(quán)無(wú)法避免的主觀性,以及解決多變量間的信息重疊問(wèn)題?;陟刂捣ǖ倪x情融合預(yù)測(cè)過(guò)程如圖2所示。
圖2 基于熵值法的選情融合預(yù)測(cè)過(guò)程
如圖2所示,基于熵值法的融合預(yù)測(cè)過(guò)程如下:
(1)將第j個(gè)模型對(duì)黨派候選人parr的支持率預(yù)測(cè)結(jié)果歸一化:
(3)計(jì)算信息熵冗余度:
式(13)至(17)中,hrj表示第j個(gè)模型對(duì)黨派候選人parr的支持率預(yù)測(cè)結(jié)果,J為模型個(gè)數(shù),黨派候選人個(gè)數(shù)R >1,常數(shù)q=1/lnR。
民調(diào)數(shù)據(jù)來(lái)源于維基百科“某地區(qū)直轄市長(zhǎng)及縣市長(zhǎng)選舉”網(wǎng)站,時(shí)間范圍為2017 年5 月4 日至2018 年11月13日,民調(diào)機(jī)構(gòu)個(gè)數(shù)為30,本文重點(diǎn)研究了其中的14個(gè)選區(qū)。對(duì)于社交媒體數(shù)據(jù),編寫爬蟲定向采集Facebook上網(wǎng)民對(duì)14 個(gè)選區(qū)的30 個(gè)黨派候選人的評(píng)論,評(píng)論發(fā)布 時(shí) 間 為2018 年9 月1 日 至2018 年11 月23 日,共 計(jì)458 217條數(shù)據(jù)。數(shù)據(jù)集信息如表5所示。
表5 數(shù)據(jù)集信息
每個(gè)選區(qū)每個(gè)黨派只考慮一個(gè)候選人。民調(diào)數(shù)據(jù)修正模型中,只對(duì)民意調(diào)查次數(shù)大于4的民調(diào)機(jī)構(gòu)數(shù)據(jù)進(jìn)行修正(小于5次不做修正),移動(dòng)平均模型和指數(shù)移動(dòng)平均模型的滑動(dòng)窗口n大小設(shè)為3,指數(shù)衰減因子p設(shè)為0.7。情感量化過(guò)程中,移動(dòng)平均累積概率的窗口T設(shè)為5?;陟刂捣ǖ倪x情融合預(yù)測(cè)模型中,模型數(shù)為3(民調(diào)數(shù)據(jù)修正模型、反向歸一化方法和情感分類量化模型),每個(gè)選區(qū)包括3個(gè)黨派的候選人。
本文采用準(zhǔn)確率和相對(duì)誤差兩種指標(biāo)衡量選情預(yù)測(cè)的效果,準(zhǔn)確率定義為預(yù)測(cè)正確的選區(qū)個(gè)數(shù)與總選區(qū)個(gè)數(shù)的比值,用Accuracy表示;預(yù)測(cè)結(jié)果與真實(shí)結(jié)果之間的差異程度用相對(duì)誤差(RE)和平均相對(duì)誤差(MRE)評(píng)價(jià)。
式(18)至(20)中,Acurracy表示模型j的預(yù)測(cè)準(zhǔn)確率,Ctrue表示預(yù)測(cè)正確的選區(qū)個(gè)數(shù),C表示選區(qū)總數(shù);yc,r表示模型j在選區(qū)c對(duì)黨派候選人parr的預(yù)測(cè)結(jié)果,bc,r表示在選區(qū)c黨派候選人parr的真實(shí)結(jié)果;REc,r表示模型j在選區(qū)c對(duì)黨派候選人parr預(yù)測(cè)的相對(duì)誤差,MREr表示模型j在所有選區(qū)對(duì)黨派候選人parr預(yù)測(cè)的平均相對(duì)誤差。
6.3.1 民調(diào)數(shù)據(jù)預(yù)測(cè)結(jié)果對(duì)比分析
原始民調(diào)數(shù)據(jù)如表6所示,基于時(shí)間序列的數(shù)據(jù)修正模型預(yù)測(cè)結(jié)果如表7所示,反向歸一化方法預(yù)測(cè)結(jié)果如表8所示。其中,par1、par2、par3分別表示黨派1、黨派2、黨派3;“—”表示未參選;在準(zhǔn)確性一列中,1 表示預(yù)測(cè)結(jié)果與真實(shí)結(jié)果相同,0則反之;后文與此相同。
表6 原始民調(diào)預(yù)測(cè)結(jié)果
表7 基于時(shí)間序列的數(shù)據(jù)修正模型預(yù)測(cè)結(jié)果
表8 反向歸一化方法預(yù)測(cè)結(jié)果
由表6、表7 和表8 可知,在研究的14 個(gè)選區(qū)中,原始民調(diào)、基于時(shí)間序列的數(shù)據(jù)修正模型均在相同的2個(gè)選區(qū)出現(xiàn)錯(cuò)誤預(yù)測(cè),準(zhǔn)確率為85.71%,但后者的相對(duì)誤差有所減小。反向歸一化方法對(duì)1個(gè)選區(qū)預(yù)測(cè)錯(cuò)誤,準(zhǔn)確率提升到92.86%。
6.3.2 情感分類量化預(yù)測(cè)與民調(diào)預(yù)測(cè)結(jié)果對(duì)比分析
網(wǎng)民情感分類量化結(jié)果如表9所示,在研究的14個(gè)選區(qū)中,5 個(gè)出現(xiàn)預(yù)測(cè)錯(cuò)誤,預(yù)測(cè)準(zhǔn)確率約為64%,相較于基于民調(diào)的結(jié)果而言,準(zhǔn)確率偏低。此外,如圖3 所示,M1表示民調(diào)歸一化修正模型,M2表示網(wǎng)民情感分類量化模型,M1par1、M1par2、M1par3表示民調(diào)歸一化修正模型對(duì)黨派parr的相對(duì)誤差;M2par1、M2par2、M2par3表示情感分類量化模型對(duì)黨派parr的相對(duì)誤差。其總體相對(duì)誤差比民調(diào)歸一化修正模型大。該模型預(yù)測(cè)效果不佳,一方面可能是社交媒體信息搜集不全或“網(wǎng)絡(luò)水軍”帶政治風(fēng)向?qū)е?;另一方面是本文方法?duì)社交媒體數(shù)據(jù)的處理仍存在一定的缺陷性,需要進(jìn)一步考慮評(píng)論中的語(yǔ)義關(guān)系及優(yōu)化網(wǎng)民政治情感傾向的計(jì)算方法。
表9 網(wǎng)民情感分類量化模型預(yù)測(cè)結(jié)果
圖3 M1 模型與M2 模型的相對(duì)誤差比較
表10 選情融合預(yù)測(cè)模型準(zhǔn)確性和相對(duì)誤差
6.3.3 民調(diào)和網(wǎng)民情感傾向性融合預(yù)測(cè)結(jié)果
民調(diào)和網(wǎng)民情感傾向性融合預(yù)測(cè)結(jié)果如表10 所示。對(duì)比表8、表9和表10,可知反向歸一化方法在選區(qū)A9預(yù)測(cè)錯(cuò)誤,而在其他13個(gè)選區(qū)均預(yù)測(cè)正確;網(wǎng)民情感分類量化模型在選區(qū)A9 預(yù)測(cè)正確,而在其他選區(qū)的預(yù)測(cè)效果不佳;基于熵值法的選情融合預(yù)測(cè)模型則在研究的14 個(gè)選區(qū)中均預(yù)測(cè)正確,說(shuō)明選情融合預(yù)測(cè)模型實(shí)現(xiàn)了不同模型之間的優(yōu)勢(shì)互補(bǔ),有效地提高了選舉預(yù)測(cè)的準(zhǔn)確率。
6.3.4 預(yù)測(cè)結(jié)果對(duì)比分析
表11 對(duì)比了5 種模型的預(yù)測(cè)準(zhǔn)確率和平均相對(duì)誤差。在平均相對(duì)誤差指標(biāo)上,5種模型對(duì)所有黨派的預(yù)測(cè)誤差都在22%以下,基于熵值法的選情融合預(yù)測(cè)模型最??;par3的平均相對(duì)誤差小于par1和par2,可能是par3的樣本數(shù)量較少導(dǎo)致的。在預(yù)測(cè)準(zhǔn)確率指標(biāo)上,基于熵值法的選情融合預(yù)測(cè)模型的準(zhǔn)確率最高,達(dá)到了100%。綜合而言,利用熵值法融合修正后的民調(diào)信息與網(wǎng)民情感傾向性信息,可以有效地提升選舉預(yù)測(cè)準(zhǔn)確率及減小平均相對(duì)誤差。
表11 5種模型預(yù)測(cè)準(zhǔn)確率和相對(duì)誤差對(duì)比
針對(duì)基于單一來(lái)源數(shù)據(jù)預(yù)測(cè)選情不能全面反映選民政治傾向的問(wèn)題,本文提出了包括基于時(shí)間序列的數(shù)據(jù)修正模型、反向歸一化方法、網(wǎng)民情感分類量化模型和基于熵值法的選情融合預(yù)測(cè)模型在內(nèi)的基于民調(diào)與網(wǎng)民情感傾向性的選情模型框架。以某地區(qū)真實(shí)歷史選舉結(jié)果為基準(zhǔn)的實(shí)驗(yàn)表明,利用基于時(shí)間序列的數(shù)據(jù)修正模型和反向歸一化方法修正后的民調(diào)數(shù)據(jù),能夠有效地提升預(yù)測(cè)準(zhǔn)確率;根據(jù)社交媒體信息得到的網(wǎng)民情感傾向性分析結(jié)果較差,不能很好地支持選舉預(yù)測(cè);相對(duì)比于民調(diào)結(jié)果和社交媒體情感傾向性分析結(jié)果,基于熵值法的選情融合預(yù)測(cè)模型將二者的部分結(jié)果進(jìn)行了優(yōu)化,減小了平均相對(duì)誤差,提升了總體預(yù)測(cè)準(zhǔn)確率。
下一步工作包括擴(kuò)充社交媒體語(yǔ)料庫(kù)、進(jìn)一步豐富詞典、考慮評(píng)論中的語(yǔ)義關(guān)系、探索新的情感分類方法和網(wǎng)民政治傾向性計(jì)算方法等,以有效提升基于社交媒體信息的網(wǎng)民情感傾向性預(yù)測(cè)效果,從而提升選情融合預(yù)測(cè)模型的總體預(yù)測(cè)效果。