夏夢婷 祁云嵩 朱 丹
(1.江蘇科技大學(xué) 鎮(zhèn)江 212000)(2.貴州師范大學(xué) 貴陽 550001)
隨著互聯(lián)網(wǎng)在全球范圍的快速發(fā)展,網(wǎng)絡(luò)已成為繼報(bào)紙、廣播、電視之后的“第四媒體”,成為反映社會輿情的主要載體之一[1],互聯(lián)網(wǎng)是人們獲取信息和言論發(fā)表的主要媒介。網(wǎng)絡(luò)輿情通過互聯(lián)網(wǎng)傳播,公眾對現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問題持有較強(qiáng)影響力[2]。網(wǎng)絡(luò)輿情是由于各種事件的刺激產(chǎn)生的通過互聯(lián)網(wǎng)傳播的,民眾對于該事件的認(rèn)知、態(tài)度、行為和情感的傾向[3]。如果網(wǎng)絡(luò)輿情事件處理不當(dāng),會造成民眾的不良情緒,引爆輿情危機(jī),更甚引發(fā)生命危險(xiǎn)[4]。網(wǎng)絡(luò)輿情的情感強(qiáng)度研究,是對網(wǎng)民發(fā)表的文本信息進(jìn)行分析研究,是對評論的褒貶的一個確定性度量,因此基于網(wǎng)絡(luò)輿情的情感強(qiáng)度研究能反映事件走向的程度,能抓住熱點(diǎn)事件,為政府決策提供數(shù)據(jù)支撐。
情感強(qiáng)度的研究是情感分析的一部分,情感分析是劃分用戶的觀點(diǎn),是贊成還是反對,而情感強(qiáng)度是對評論的褒貶的強(qiáng)弱的分析,能很好地反映主觀性信息,能捕獲熱點(diǎn)事件的輿情。由于情感強(qiáng)度的主觀性能大,不同人對同一事件給出的情感強(qiáng)度值不一致。所以目前對情感強(qiáng)度的對比結(jié)果,主要采用分等級的方法,由連續(xù)的值變?yōu)閰^(qū)間的方式。
對于網(wǎng)絡(luò)輿情的研究,著眼于對所有評論的綜合而給出的情感強(qiáng)度,在情感傾向的基礎(chǔ)之上細(xì)化情感的強(qiáng)度。對于整篇報(bào)道的評論,包含每個人給出的評論(句子成分);句子成分中包含短語;短語中包含情感詞。所以基于這樣的結(jié)構(gòu),本文結(jié)合情感詞的模糊性,提出篇章,句子,短語,情感詞四粒度綜合分析網(wǎng)絡(luò)輿情的情感強(qiáng)度。
網(wǎng)絡(luò)輿情情感強(qiáng)度最基本要素是情感詞,本文也是基于情感詞的基礎(chǔ)上進(jìn)行研究。詞匯的情感計(jì)算主要有基于詞匯知識庫和基于統(tǒng)計(jì)的方法[5]。在現(xiàn)有的情感詞匯知識庫中,《知網(wǎng)情感詞庫》,《臺灣大學(xué)中文通用情感詞典》和《互聯(lián)網(wǎng)非正式文本詞庫》詞匯庫僅標(biāo)注了情感詞的情感傾向性信息,沒有給出情感詞的情感強(qiáng)度的信息[6];而由大連理工大學(xué)編著的《情感詞匯本體》和清華大學(xué)編著的《情感極性詞表》不僅標(biāo)注情感詞的情感傾向性,還標(biāo)注情感詞的情感強(qiáng)度。Jiang等[7]融合情感詞典,主題相關(guān)和內(nèi)容特征進(jìn)行主客觀和情感極性的分類;路斌等[8]利用《同義詞語林》來判斷詞語的褒貶;朱嫣嵐等[9]采用HowNet語義相似度的方法,計(jì)算目標(biāo)詞語跟基準(zhǔn)詞之間的緊密程度,來判定情感極性;何鳳英[10]以HowNet情感詞集為基礎(chǔ),構(gòu)建基礎(chǔ)情感詞典,語義相似度為基準(zhǔn),計(jì)算詞語的情感權(quán)值;傅向華等[11]提出基于Hownet詞典和LDA話題模型,識別出博客文本所涉及的多方面的子話題及每個子話題上的情感傾向;顧益軍等[12]利用綜合多種情感資源庫中的情感詞匯特征,融合情感詞匯的情感極性和極性強(qiáng)度,來構(gòu)建情感詞庫?;诮y(tǒng)計(jì)的方法,研究者可通過預(yù)先人為選定的種子詞與某些基于語言學(xué)的啟發(fā)式方法,給出情感詞的情感極性或極性強(qiáng)度。Mohammad等[13]結(jié)合詞的情感和極性,生成一個大規(guī)模的詞語情感聯(lián)合庫,考慮8種基本情緒。統(tǒng)計(jì)基本情緒中的頻率,來進(jìn)行情感標(biāo)注;Turney等[14]基于兩個不同的單詞關(guān)聯(lián)統(tǒng)計(jì)度量方法:點(diǎn)互信息(PMI)和潛在語義分析(LSA),確定目標(biāo)詞與基準(zhǔn)詞之間的緊密程度,從而獲取目標(biāo)詞的情感傾向;王素格等[15]考慮到詞匯和同義詞的具有相同的情感傾向,通過統(tǒng)計(jì)詞頻找出區(qū)別類別能力強(qiáng)的詞語,并且結(jié)合構(gòu)建的情感詞表,提出了基于同義詞的情感傾向判別方法,獲取情感詞情感傾向。
以上兩種方法的相同點(diǎn)都用到了情感詞,在情感詞的基礎(chǔ)上進(jìn)行延伸,突破了以往基于情感詞累加的方法得出的情感傾向。對于網(wǎng)絡(luò)輿情的情感強(qiáng)度的分析還不夠準(zhǔn)確,存在的局限在于:首先,已有的研究多傾向于情感的傾向性上,涉及到情感強(qiáng)度值得研究較少,大多使用準(zhǔn)確率、召回率、F值判斷正向、負(fù)向、中性情感,沒有具體給出研究的情感強(qiáng)度值;其次,本身情感詞強(qiáng)度就是具有模糊性的,從詞匯,短語到句子,篇章。都不能很肯定地給出其強(qiáng)度值;同時,網(wǎng)絡(luò)輿情情感強(qiáng)度的研究對象中涉及的對象不止一個,也沒有針對到具體對象的情感強(qiáng)度。針對以上問題,本文提出了基于語義多角度、細(xì)粒度的網(wǎng)絡(luò)輿情情感強(qiáng)度研究。
一篇網(wǎng)絡(luò)輿情信息出來,評論的對象會不止一個,需要劃分多個對象,分別給出各對象的情感強(qiáng)度。例如手機(jī)商品的評價(jià),涉及到外觀,價(jià)格,操作多個對象。
由于情感強(qiáng)度的劃分具有邊界模糊性,為了減少模糊,給情感強(qiáng)度劃分為11級強(qiáng)度。設(shè)置區(qū)間為[-10,10],(0,10]為正向情感強(qiáng)度,[-10,0)為負(fù)向情感強(qiáng)度,情感強(qiáng)度為0,是不帶任何感情傾向的。
表1 情感強(qiáng)度級別的劃分
網(wǎng)絡(luò)中主要人物的評論導(dǎo)向會帶動整個輿論的走向。這些人物在新聞評論的“贊”數(shù)量對評論的觀點(diǎn)傾向性影響較大,故抽取“贊”數(shù) ≥N的評論作為評論簇,評論簇的閾值設(shè)為N(N設(shè)為100),“贊”設(shè)為M ≥ N;權(quán)值=1+(M-N)/N。
認(rèn)識情感詞強(qiáng)度的模糊性,能有效地理解情感強(qiáng)度的模糊特征,提高本實(shí)驗(yàn)分析的準(zhǔn)確性[16]。單純地依據(jù)情感字典,不能正確地表達(dá)該詞的準(zhǔn)確情感強(qiáng)度。例如:“痛并快樂著”,“你一定要快樂”,“親愛的,生日快樂”和“光棍節(jié)快樂”四句中的“快樂”情感強(qiáng)度明顯不一樣;“這樣的你真的好看”和“你再這樣,我會讓你好看”中,兩個“好看”的情感明顯相反。為了彌補(bǔ)這樣的缺陷,提出了情感詞模糊性規(guī)則,量化模糊的情感詞。訓(xùn)練情感詞詞庫。規(guī)則如下:
1)從訓(xùn)練語料中找出符合以下3種情形的輿情情感詞,褒貶詞個數(shù)分別為Np,Mn:
(1)評論中出現(xiàn)較多的情感詞,即高頻詞匯;(2)情感詞的情感強(qiáng)度明顯;(3)選出的情感詞組的情感強(qiáng)度跨度范圍廣。
2)人為的判斷情感詞在該句屬于的情感階段強(qiáng)度,對于k個不同人所給出的情感強(qiáng)度級別值,取其均值作為判別依據(jù);
3)基準(zhǔn)詞A在強(qiáng)度i的隸屬度,即是在語料庫中(數(shù)據(jù)足夠多),基本詞A在強(qiáng)度i的出現(xiàn)的概率:
qAi表示A在情感強(qiáng)度中出現(xiàn)的次數(shù),nA為包含情感詞A的個數(shù)為總的情感強(qiáng)度級別數(shù)目,所以基準(zhǔn)詞A的情感強(qiáng)度為
4)常用的情感詞作為基準(zhǔn)詞,通過HowNet的語義相似度計(jì)算,HowNet中詞語相似度的計(jì)算以詞的義原為基礎(chǔ)。對于兩個中文詞語wi、wj,假設(shè)它們分別有 N、M義原,即,。那么情感詞wi和wj的語義相似度計(jì)算公式為
基本詞分為褒、貶詞,分為{(Api)},{(Anj)}。則情感詞w在基準(zhǔn)詞的基礎(chǔ)上的情感強(qiáng)度為
其中sim(w,Api)是該詞與基準(zhǔn)詞相似度前x大的詞(x設(shè)為10)。
5)為了便于計(jì)算分析,使情感詞能保持在相同約束區(qū)間內(nèi),本文采用線性的方法:
6)為了整體的情感強(qiáng)度效果,本文也綜合了現(xiàn)有的情感強(qiáng)度詞典,規(guī)則如下:
real_senti(wi)=αsenti′(wi)+(1-α)senti″(wi)(6)
α為可變參數(shù),senti″(wi)為現(xiàn)有情感詞匯本體中的情感強(qiáng)度。測試時的整篇的情感強(qiáng)度在α=1時與人工評測時最符合,說明與現(xiàn)有情感強(qiáng)度庫中的詞典沒關(guān)聯(lián)。為了減少工作量,設(shè)定α為0.5。
1)程度副詞
程度副詞粘著性強(qiáng)[17],不會影響情感詞的傾向極性,但直接影響情感詞的情感傾向程度[18]。由于副詞的增強(qiáng)強(qiáng)度不一致,給出以下常見副詞的權(quán)值系數(shù),參考藺璜[19]對程度副詞的分類以及根據(jù)訓(xùn)練中的常見的程度副詞。
表2 程度副詞
2)否定詞
否定詞會直接導(dǎo)致情感詞的傾向性往返方向去,但是并不一定是詞匯的情感強(qiáng)度直接取反值,參考郝雷紅[20]對否定副詞范圍的界定。
表3 否定詞表
3)否定,程度詞情感詞修飾值
例如:這篇作文不是很好。(否定+程度副詞+情感詞)
這篇作文很是不好。(程度副詞+否定+情感詞)
雖然都有否定和程度副詞,但是表現(xiàn)的強(qiáng)度一定也不同,明顯后句的強(qiáng)度更強(qiáng)。對于這樣的句型,設(shè)定規(guī)則如下:本文用N(no)代表否定詞,D(degree)代表程度副詞,S(sentiment)代表情感詞,O(S)為情感詞的原極性,O(P)為情感詞的修飾極性,V(D)為程度副詞的強(qiáng)度值。
if短語S:O(P)=O(S)
else if短語 N+S:O(S)=-1/2*O(P)
else if短語 D+S:O(P)=V(D)*O(S)
else if短語 N+N+S:O(P)=O(S)
else if短語 N+D+W:O(P)=-1/2*V(D)*O(S)
else if短語D+N+W:若V(D)> 0,則 O(P)=-5/4 V(D)*O(S)
情感句子是一段話的完整表述,包含短語,標(biāo)點(diǎn)符號,增強(qiáng)或改變句子的意思,表4列出句子中出現(xiàn)的句型的取值。
表4 句型取值
一篇輿情信息由句子,短語,詞遞進(jìn)組成,由前面的工作,最后對句子的情感強(qiáng)度值進(jìn)行累加得到。
本實(shí)驗(yàn)分為兩個部分:一是情感詞的標(biāo)注實(shí)驗(yàn),給出合理的情感詞強(qiáng)度;二是分析輿情信息的實(shí)驗(yàn),計(jì)算出情感強(qiáng)度。
隨著手機(jī)的普及,越來越多的人會通過微博看新聞,表達(dá)出對事情的看法,網(wǎng)絡(luò)輿情也能從中反映。為了驗(yàn)證本實(shí)驗(yàn)的可行性,從微博相似主題上獲取評論集,作為實(shí)驗(yàn)數(shù)據(jù)。數(shù)據(jù)集也分為兩種用途:1)獲取微博的200萬條情感句中常用的情感詞,并計(jì)算其中的情感強(qiáng)度作為基準(zhǔn)詞;2)獲取2篇有效輿情信息,其中的評論集做測試集。采用中科院分詞系統(tǒng)進(jìn)行處理。
依據(jù)情感詞的規(guī)則,獲取正負(fù)各40個情感詞基準(zhǔn)詞,并得出的情感詞強(qiáng)度,表5是部分結(jié)果。
表5 部分情感此取值
由本實(shí)驗(yàn)的計(jì)算結(jié)果,與人工方法進(jìn)行比對。邀請3人獨(dú)立閱讀2篇輿情新聞并給出每個的情感強(qiáng)度等級以及每句話的情感強(qiáng)度值。由此給出人工方法和本實(shí)驗(yàn)計(jì)算的方法,以及看完評論的整體感受做出對比結(jié)果。
由圖1和圖2可看出,本文還是具有一定的有效性的。
圖1 “云南女子被打開庭”人工情感強(qiáng)度計(jì)算與本文方法比較
圖2 “醫(yī)患事件”人工情感強(qiáng)度計(jì)算與本文方法比較
1)對于一件網(wǎng)絡(luò)輿情事件的發(fā)生并不是只涉及到一個對象,涉及的對象也不局限于本事件中出現(xiàn)的,會帶出和該事件相關(guān)的對象。有時甚至評論者評價(jià)的對象不是該事件中的主要對象。例如云南女子開庭中,評論云南這個地區(qū)的評論相對多些。評論者對該對象的評價(jià)與以往中該對象的所樹立形象有關(guān),有的會帶有地域差異,也和評論者的所見所聞有關(guān)。
2)評論數(shù)據(jù)的準(zhǔn)確性和數(shù)據(jù)量的大小和評論情感強(qiáng)度分布情況有關(guān),數(shù)據(jù)量大的并且評論的情感集中的會越接近真實(shí)情感強(qiáng)度。在“云南女子開庭”輿情信息中,涉及到本案被打女子的評論較少;對打人者的評論較多,并且評論的情感強(qiáng)度比較集中;在“醫(yī)患事件”中,對于患者的評論較多,但所給你的情感強(qiáng)度跨度相差較大;對醫(yī)生的評論少,但是評論相對集中。所以評論數(shù)據(jù)的準(zhǔn)確性與數(shù)據(jù)量的大小和評論情感強(qiáng)度分布情況有關(guān),但是也不起到?jīng)Q定性的作用,至少和人工方法的情感傾向性保持一致。
本文提出的方法不僅判別了情感的褒貶,也計(jì)算出情感強(qiáng)度的數(shù)值,其中的情感計(jì)算方式適應(yīng)瞬息萬變的網(wǎng)絡(luò)社會的發(fā)展,為政府部門對網(wǎng)絡(luò)輿情事件的決策提供強(qiáng)有力的數(shù)據(jù)支撐。本文所構(gòu)建的情感強(qiáng)度研究中的情感基準(zhǔn)詞用的較少,仍有較大的擴(kuò)展空間。另外情感詞詞典的標(biāo)注內(nèi)容還可以加入領(lǐng)域這一信息,例如:“垃圾”在環(huán)境這一領(lǐng)域,是中性詞,但是在其他領(lǐng)域多為貶義詞?!邦I(lǐng)域”信息的加入,不僅提高情感詞在領(lǐng)域內(nèi)情感傾向的分歧,還能提高情感分析的準(zhǔn)確率。