王彬菁
摘要:隨著移動互聯(lián)技術的發(fā)展,微博作為一種新媒體形式日益成為國內主流的移動社交媒體平臺。微博包含海量的信息數(shù)據(jù)且數(shù)據(jù)種類多樣,即有文檔文本數(shù)據(jù),也有圖片、表情符號、視頻動畫等非結構化的數(shù)據(jù)。因此,對各政府部門和企業(yè)單位的網絡輿情監(jiān)管提出了艱巨的挑戰(zhàn),有關中文微博文本的情感分析的研究也成為近幾年數(shù)據(jù)挖掘領域的關注方向之一,情感分析研究主要圍繞著信息的抽取和情感傾向的判定,均離不開對微博文本的分詞工作。本文提出了一種基于依存句法樹的情感分析方法。根據(jù)不同的詞匯間的依存關系,制定了相應的情感短語削減規(guī)則。通過分析不同程度詞和否定詞對情感詞的修飾和組合關系,制定了不同的匯聚規(guī)則。使用LTP-Cloud(語言技術平臺云)進行句法分析,構建依存句法樹,通過對句法樹的后序遍歷逐步匯聚情感向量。使用了為情感值取絕對值的情感判別方法,得到最終的情感類別。
關鍵詞:微博文本;依存句法樹方法;情感分析;LTP-Cloud(語言技術平臺云)
中圖分類號:G642? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)24-0013-03
開放科學(資源服務)標識碼(OSID):
近些年,隨著移動互聯(lián)技術的迅猛發(fā)展和日益成熟,移動互聯(lián)技術已然進入社會大眾的生活,并且逐漸改變著我們的消費方式、溝通交往方式;其中,微博作為一種成熟的新媒體形式已經成為國內最大的移動社交媒體平臺。根據(jù)中國互聯(lián)網絡信息中心(CNNIC)最新發(fā)布的第41次《中國互聯(lián)網發(fā)展情況統(tǒng)計報告》顯示,截至2017年12月底,中國網民規(guī)模已經達到7.72億,這其中手機用戶的占比為97.5%,手機成為網民上網的主要終端設備[1]。這些網民獲得信息的方式又主要通過微博,微信,各類手機APP,移動社會化的傳播格局逐步形成,微博作為承載信息發(fā)布,互動交流功能的社交媒體平臺已經被社會大眾所熟知和使用。據(jù)《2017年微博用戶發(fā)展報告》顯示,截至2017年9月,微博月活躍人數(shù)共計3.97億,日活躍1.65億,[1]用戶的使用習慣趨向移動化,微博討論方式碎片化,強調高社交粘性的互動方式,這些特性吸引著年輕群體,他們在微博上表達帶有個人喜好的觀點和看法,對網絡輿論的傳播具有重大影響。所以,微博應該成為各級政府機構和企業(yè)關注的輿論陣地,積極引導正面輿論,及時監(jiān)控不良的輿論導向。
微博文本主要使用文本形式傳播信息,其中也包含其他非結構化的數(shù)據(jù),比如種類繁多的網絡表情符號、各式各樣的圖片、視頻、音頻。這些都為文本詞匯信息的提取增加了難度。微博平臺提供的API可以方便微博語料的獲取。另外,谷歌公司開發(fā)的Word2vec也可以將微博文本快速轉化為計算機可以識別的數(shù)據(jù),作為一種機器學習方法,他可以在深度學習算法應用以前對語料進行預處理,將語料自動加載到模型中,通過設定相關參數(shù),模型算法會將其訓練成對應的詞向量,通常使用在文本詞性分析、聚類和查找同義詞等方面,為微博文本的情感分析提供了便捷的處理手段。[2]通過查閱文獻可知,關于微博文本的情感分析的研究已經成為近幾年數(shù)據(jù)挖掘領域的主要研究方向。目前,情感分析研究主要圍繞著信息的抽取和情感傾向的判定,完成這兩項工作必須對微博文本中的數(shù)據(jù)信息進行預處理,包括分詞處理;網絡表情符號識;詞匯的情感分類匯聚以及情感判定。
1 LTP-Cloud(語言技術平臺云)
數(shù)據(jù)挖掘算法雖然在情感判定方面提供了一些方法,但其應用語境依然以英文語境為主,有關于中文語境環(huán)境下的研究較少,因為中文微博文本所處的中文語言結構復雜,語義表達多樣,且微博用戶趨于年輕化,文本包含的網絡用語居多,所以中文微博文本的情感詞的分類和判定方法帶有自身的特點與難點。另外,目前針對中文微博的情感分析的研究集中在情感傾向性分析領域,在細致情感分類方面尚處于起步階段。因其具有一定的學術研究價值和網絡應用價值,也吸引了國內外專家、學者的關注。針對中文微博文本“短”的特點,本文提出了構建依存句法樹的方法,對文本的情感類別進一步地細致分類。哈工大訊飛語言云是由哈工大和科大訊飛聯(lián)合研發(fā)的中文自然語言處理云服務平臺。LTP-Cloud可以實現(xiàn)分詞、詞性標注、命名實體識別、依存句法分析和語義角色標注五項功能。下面詳細介紹本文用到的分詞、詞性標注和依存句法分析三項功能。依存語法(Dependency Parsing,DP)立足于詞性標注,通過分析不同詞性組合,制定相應規(guī)則,將句子從線性詞串變?yōu)榫哂袑哟谓Y構的樹。針對不同的詞性組合,可以綜合得到不同的依存句法類別,而依存句法在語義角色分析時有著很重要的作用。如劉俊使用依存句法分析了漢語復句內各個分句的相似度,取得了很好的效果。[3]例如句子“我愛北京天安門?!钡囊来婢浞ǚ治鼋Y果如圖1所示:
分析結果顯示,句子的核心是謂語“愛”,“愛”和“我”是主謂關系,即“我”是“愛”的主語,“愛”和“天安門”是動賓關系?!疤彀查T”是“愛”的賓語。“天安門”和“北京”是定中關系,“北京”用來修飾限定“天安門”。從分析結果可知,依存句法分析能夠揭示句子中不同詞語之間的依存關系,更好地理解語義。例如,雖然“北京”緊鄰“愛”之后,但是“愛”的賓語不是“北京”而是“天安門”。
2 依存句法匯聚規(guī)則
根據(jù)哈工大LTP定義,依存句法的標注有14種,考慮在匯聚時修飾詞和情感詞之間,或者修飾詞和修飾詞之間的匯聚規(guī)則,其中修飾詞包含了程度詞和否定詞。本文針對修飾短語提出了以下匯聚規(guī)則。
(1)否定詞修飾情感詞
否定詞修飾情感詞會改變情感傾向,如“不喜歡”這個短語中,“不”作為否定詞修飾“喜歡”。在此類關系匯聚時,因為否定詞的出現(xiàn)僅僅是修飾情感詞,自身不攜帶情感,因此不存在層級和削減的問題。本文針對此類情況,將否定詞的否定修飾附加到被修飾的情感詞傾向上,即改變情感詞的傾向,比如由“喜歡”改為“厭惡”。
(2)程度詞修飾情感詞
程度詞修飾情感詞會改變情感強度,如“非常喜歡”這個短語中,“非常”作為程度詞修飾“喜歡”。在此類關系匯聚時,因為程度詞的出現(xiàn)僅僅是修飾情感詞,自身不攜帶情感,因此不存在層級和削減的問題。本文針對此類情況,將程度詞的強度修飾附加到被修飾的情感詞傾向上,即改變情感詞的強度,比如由等級為1的“喜歡”改為等級為2的“喜歡”。
(3)否定詞修飾否定詞
否定詞修飾否定詞即為雙重否定,一般情況下不影響原來的情感傾向,對于情感程度的影響需要具體分析依存關系。如“不是不喜歡”中,第一個“不”作為否定詞修飾了“是”,后面的“不喜歡”和“是”是動賓關系。在這個樣例中,“不喜歡”自身是一個“厭惡”的情感短語,在動賓關系向上匯聚時會有一定的削減,而第一個“不”是對“是”的直接修飾,是在削減之后的否定修飾。最終,由于否定不會削減,而程度在匯聚時被削減,那么“不是不喜歡”最終的情感類別仍然是“喜歡”,但強度相比于“喜歡”有所降低。此處的例子其實不是嚴格的否定修飾否定的例子,而是否定修飾情感詞作為情感短語削減后再次被否定詞修飾的例子。
(4)否定詞修飾程度詞
否定詞修飾程度詞相當于對程度的否定,而非情感的否定,因此否定詞修飾后,最終情感傾向未變,但是程度有所降低。如“不很喜歡”中,“不”修飾了“很”,然后才是“很”修飾“喜歡”?!昂堋弊鳛槌潭仍~表現(xiàn)了一種情感等級的加強,但是“不”作為否定詞對“很”這個程度詞的否定使得最終的強度有一定的削減?!安缓芟矚g”這個情感短語仍然表現(xiàn)了“喜歡”這種情感類別,但是在強度上強于“喜歡”這個情感詞,弱于“很喜歡”這個情感短語。因為漢語表達的復雜性,對于這種修飾的疊加需要根據(jù)不同的依存句法不同分析。如“不是很喜歡”這個短語和“不很喜歡”就不一樣?!安皇呛芟矚g”和上面“不是不喜歡”是同類型的結構?!安皇呛芟矚g”這個短語相當于程度詞修飾情感詞作為情感短語削減后被否定詞修飾,在情感類別上是“厭惡”,其強度和“不喜歡”相比孰高孰低取決于“很”這個程度詞對“喜歡”在程度上的加強和動賓關系在匯聚時對程度上的削弱孰重孰輕。
(5)程度詞修飾否定詞
程度詞修飾否定詞相當于給否定加個強度,因為否定本身無強度可言,最終的強度會隨否定詞一起攜帶到情感詞上。如“很不喜歡”中,“很”修飾“不”,然后才是“不”修飾“喜歡”。在漢語表達習慣中,“很”對于“不”的修飾通常被附加到情感詞“喜歡”上。因此,“很不喜歡”在情感類別上是“厭惡”,在強度上比“不喜歡”更強,和“很喜歡”強度一致。
(6)程度詞修飾程度詞
程度詞修飾程度相當于程度的疊加。通常情況下,人們不使用這種不太合乎語法規(guī)則的表達方式。在微博語料中,此類表達方式多用于表現(xiàn)強烈情感。如“非常極其喜歡”中,“非?!毙揎棥皹O其”,然后是“極其”修飾“喜歡”。對于此類的表述,其情感強度相比于“非常喜歡”和“極其喜歡”都要強一些,甚至比兩個情感短語的并列相加的情感還要強。因此,在處理中,此類表述不僅僅是“非常喜歡”和“極其喜歡”強度的相加,更傾向于相乘之類的疊加處理。在具體問題中,要綜合考慮程度詞強度標注值與匯聚削減程度兩個系數(shù)綜合決定。
3 微博文本情感詞分類過程
針對每條微博樣例,首先要構建LTP-Cloud所需的字段,發(fā)起請求,得到依存句法關系。下面舉例說明。使用“我今天很不高興?!边@個簡單的例子進行分析。將這句文本作為待分析內容,向LTP-Cloud發(fā)送請求后得到結果如圖2所示的。
觀察圖2可知,經過LTP-Cloud分析,“我今天很不高興”這句話被分詞,標注了詞性,而且標注了不同詞之間的依存句法關系。整個圖顯示為一種樹狀結構。虛擬節(jié)點“Root”作為樹的根,其孩子節(jié)點為“高興”,它們之間的修飾關系是核心關系?!案吲d”有四個孩子節(jié)點,分別是“我”“今天”“不”和“?!保鼈冎g的修飾關系分別是主謂關系,狀中關系,狀中關系和標點符號。在這四個孩子節(jié)點中,除“不”以外,其他都是葉子節(jié)點?!安弧庇幸粋€孩子節(jié)點“很”,它們之間的修飾關系是狀中關系?!昂堋笔侨~子節(jié)點,整個樹分析結束。
LTP-Cloud提供如上所示的樹狀分析結果的同時,也提供了xml形式的分析結果。xml分析結果如下所示:
<?xml version="1.0" encoding="utf-8" ?>
在xml形式的分析結果中,給出了和樹狀圖一樣的信息,只是形式不同而已。其中,每一個“word”節(jié)點均給出了當前詞的序號,內容,詞性,父節(jié)點,與父節(jié)點關系。如第一個“word”節(jié)點中,當前詞id為“0”,內容為“我”,詞性為“r”表示代詞,父節(jié)點為“4”,即id為“4”的節(jié)點“高興”,與父節(jié)點關系為“SBV”,即主謂關系。xml分析結果中的三個“arg”節(jié)點是語義角色標注的內容,與本文分析無關,不予考慮。
4 構建依存句法樹
LTP-Cloud在提供界面演示樣例的同時,也提供了通過API調用的形式。本節(jié)使用API調用,選擇返回格式為PLAIN,構建句法樹用于進行自下而上的情感匯聚。
API調用LTP-Cloud后,返回的PLAIN格式的分析結果為:
我_0 高興_4 SBV
今天_1 高興_4 ADV
很_2 不_3 ADV
不_3 高興_4 ADV
高興_4 -1 HED
。_5 高興_4 WP
這6組數(shù)據(jù)代表了文本“我今天很不高興?!敝械乃幸来骊P系及其相關詞語和序號。本文構建如圖3所示的數(shù)據(jù)結構完成以樹狀結構存儲上述信息的任務。
在圖3中,整體的數(shù)據(jù)結構是一個哈希表。在對依存關系依次讀取時,逐步完成哈希表的構建。下面舉例說明依存關系句法樹構建過程。
5 結束語
微博文本的情感分析作為數(shù)據(jù)挖掘的研究熱門領域,隨著微博使用人數(shù)的增長,和網絡輿論監(jiān)管力度不斷加深,目前針對中文微博的情感分析的研究主要集中于傾向性分析領域,在細致情感分類方面尚處于起步階段。因其具有一定的學術研究價值和網絡應用價值,也吸引了國內外專家、學者的關注。針對中文微博文本“短”的特點,本文提出了構建依存句法樹的方法,對文本的情感類別進行了近一步地細致分類。
參考文獻:
[1]http://www.xinhuanet.com/newmedia.
[2]袁婷婷,楊文忠,仲麗君,等.一種基于性格的微博情感分析模型PLSTM[J/OL].計算機應用研究:1-6[2019-01-04].
[3]來火堯,劉功申 . 基于主題相關性分析的文本傾向性研究[J]. 信息安全與通信保密, 2009(3):77-78.
[4]李小龍.基于統(tǒng)計的分詞系統(tǒng)字典模型研究[J].湖北工業(yè)大學學報,2010,25(05):71-73+79.
[5]劉鋼. 基于文本情感分析的企業(yè)輿情監(jiān)測方法研究[D].大連海事大學,2018.
[6] Yu Hong. Towards answering opinion questions: separating facts from opinions and identifying the polarity of opinion sentences [J]. Pediatrics, 2003, 116(3):58-59.
【通聯(lián)編輯:王力】