王保敏 王睿 潘洪志 楊帆
摘要:信息傳播與交互隨著互聯(lián)網(wǎng)的發(fā)展變得日益普遍,網(wǎng)絡輿論的表達方式也日益多元。中文貼吧作為網(wǎng)絡輿論表達的重要通道,已逐漸成為網(wǎng)民反映自身情感需求的一個平臺,對其觀點進行識別進而判斷其情感傾向非常重要。根據(jù)三支決策理論對貼吧觀點進行識別,采用基于三支決策的貝葉斯分類器,給出了中文貼吧觀點句識別方法和主要步驟 ,取得了較好的識別效果。
關鍵詞: 三支決策;觀點句識別 ;貝葉斯分類;貼吧
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2019)10-0164-03
開放科學(資源服務)標識碼(OSID):
1 概述
互聯(lián)網(wǎng)的快速發(fā)展吸引了越來越多的用戶,這一趨勢隨著移動互聯(lián)網(wǎng)興起更加明顯。針對某一事實或者觀點,這些用戶可以便捷的表達自己的情緒、態(tài)度和立場等,形成了海量的客觀或者主觀信息。中文貼吧作為個人情感表達的一個重要渠道,使得對同一個話題感興趣的用戶方便地展開交流,其主題內(nèi)容廣泛,可以涵蓋社會、生活、教育等方面。作為用戶觀點表達和思想交流的網(wǎng)絡空間,對中文貼吧的觀點進行識別已經(jīng)愈發(fā)受到重視。
中文貼吧觀點句識別是數(shù)據(jù)挖掘的子領域,其目的在于分析和判斷用戶對事物的觀點傾向。在不同主題貼吧的觀點句識別具有很強的實用性。如針對某一熱點時事,通過有效識別貼吧中的觀點句,可以實現(xiàn)對輿情的及時監(jiān)測和有效引導,從而化解輿論危機,這對維護社會穩(wěn)定促進事態(tài)向有益方向發(fā)展具有極其重要的現(xiàn)實意義。
2 三支決策基本思想
三支決策(Three-way Decision)是一種符合人類認知的決策模式。在實際決策過程中,對于掌握足夠信息的事物,立即做出接受或者拒絕的判斷;而對于哪些信息掌握不充分、認知不夠徹底的事物,則往往會推遲判斷。
3 中文貼吧的語言特征
與微博相比,微博發(fā)言具有嚴格的字數(shù)限制,體現(xiàn)觀點的語句表達較為集中,而貼吧發(fā)言語句較長,字詞較多,表達作者情感或觀點的句子較為稀疏分散。與新聞或者評論相比,新聞或評論的撰寫發(fā)表須符合特定的格式,文體較為集中統(tǒng)一,主旨明確,往往首尾句在很大程度上即表明了作者的態(tài)度和觀點,而貼吧的發(fā)言具有較大的隨意性,語言風格因人而異,反映帖子情感或觀點的語句甚至是隱藏起來的,即使是同一個詞語,在不同的語境或上下文環(huán)境下其情感傾向完全不同甚至是相反的,如“呵呵”,既可以表示贊同也可以表示戲謔。這一語言特點在新興網(wǎng)絡用語日益普遍的情況下尤為明顯。
因此,針對不同主題環(huán)境的貼吧,對觀點句的識別需結合其自身的語言特征,考慮到不同的領域觀點詞所表現(xiàn)出的不同的語義。
4 基于三支決策的中文貼吧觀點句識別
4.1 設計三支決策分類器
常見的機器學習算法(常規(guī)分類器)有樸素貝葉斯算法、最近鄰算法、支持向量機等,將三支決策與機器學習算法結合,形成了基于三支決策的相應算法分類器。由于樸素貝葉斯分類器具有穩(wěn)定的分類效率、易于處理多分類任務、可分批進行增量訓練等優(yōu)點,本文采用經(jīng)拉普拉斯校準的樸素貝葉斯分類器。其基本思想是利用先驗概率和類條件概率估計帖子中句子x屬于觀點句集合C的概率,公式如下:
4.2 構建貼吧領域觀點詞庫
判斷貼吧中的語句是否屬于觀點句,實際上是一個二分類問題,由兩步組成:即訓練和預測。因此需要有一個訓練數(shù)據(jù)集。本文采用基于詞典和統(tǒng)計分析相結合的方法構建貼吧領域觀點詞庫。基本步驟如下:
1)對某一主題的貼吧,采用人工標注的方式,將其中的語句分成兩類,即觀點句和非觀點句。根據(jù)貼吧的語言特征,標注過程中,對可能反映觀點傾向的網(wǎng)絡用語或者符號如“??”“??!”“”“”等,需加以考慮。從觀點句集合中抽取主觀特征(能反映貼吧觀點的詞)作為候選領域觀點詞庫1。
2)采用文獻[3]的方法,將知網(wǎng)HowNet的情感詞典中正面情感詞、負面情感詞、正面評價詞、負面評價詞合并去重,得到候選領域觀點詞庫2。
3)將上述兩步得到的候選領域觀點詞庫1和候選領域觀點詞庫2合并去重,最終得到貼吧的領域觀點詞庫。
4.3 設定閾值
5 實例及結果
本文從某貼吧選取了一個主題為“非機動車撞上違停機動車該不該賠償”的部分回帖,對每個回帖的句子進行編碼,用id表示,首兩位數(shù)字表示回帖的編號,末兩位數(shù)字表示該回貼中句子的編號。經(jīng)過文本預處理,將所有句子保存在一個文本文件中,同時構建出訓練樣本集和領域觀點詞庫。為便于說明原理,現(xiàn)從回帖中抽取6句已經(jīng)標注的帖子作為訓練樣本集,選擇1句作為測試集。分詞后的結果如表1所示。
5 結論
本文給出了基于三支決策的中文貼吧觀點句識別的基本原理和步驟,分析了具體的計算過程。通過簡例表明,這一方法可以有效避免人為判斷的主觀性,如果在測試集數(shù)量足夠大的情況下,基于三至決策的識別方法能夠更好地提高識別的準確性。分類過程中,閾值的選取是關鍵,是值得深入研究的一個方面。
參考文獻:
[1] 杜麗萍,李曉戈,于根,等.基于互信息改進算法的新詞發(fā)現(xiàn)對中文分詞系統(tǒng)改進[J].北京大學學報:自然科學版,2016,52(1):35-40.
[2] 葛斌,李芳芳,郭絲路,等.基于知網(wǎng)的詞匯語義相似度計算方法研究[J].計算機應用研究,2010,27(9):3329-3333.
[3] 朱艷輝,田海龍,劉璟,等.基于三支決策的新聞情感關鍵句識別方法[J].山西大學學報:自然科學版,2015,38(4):595-600.
[4] 陳剛,劉秉權,吳巖.求三支決策最優(yōu)閾值的新算法[J].計算機應用,2012,32(8):2212-2215.
[5] 杜麗萍,李曉戈,于根,等.基于互信息改進算法的新詞發(fā)現(xiàn)對中文分詞系統(tǒng)改進[J].北京大學學報:自然科學版,2006,52(1):35-40.
[6] 于洪,王國胤,李天瑞,等. 三支決策:復雜問題求解方法與實踐[M].北京:科學出版社,2016: 219-228.
【通聯(lián)編輯:謝媛媛】