中國人民解放軍陸軍工程大學(xué)通信工程學(xué)院 江蘇 南京 210046
截至2020年3月,我國網(wǎng)絡(luò)新聞用戶規(guī)模達7.31億,手機網(wǎng)絡(luò)新聞用戶規(guī)模達7.26億,占手機網(wǎng)民的81.0%。大多數(shù)網(wǎng)民在瀏覽新聞的同時,通過發(fā)表評論來分享個人的意見看法、情感表達,這些由網(wǎng)民發(fā)表的評論通常包含著許多個人情感信息、立場傾向,通過收集這些評論信息加以分析,可以初步了解民眾對特定事項的觀點與看法,從而進一步提煉出輿論走向。
情感分析是指對人們關(guān)于某一特定話題的輿論所蘊含的情緒加以分析,而基于新聞評論文本信息的情感分析可以有效地梳理民眾針對新聞報道的輿論走向,用于應(yīng)對突發(fā)事件和異常情況檢測,有助于網(wǎng)絡(luò)輿情體系的完善。此外,新聞評論情感分析還廣泛地應(yīng)用于心理學(xué)、金融學(xué)、社會學(xué)等相關(guān)領(lǐng)域。
新聞評論情感分析的相關(guān)方法,可歸納為三個步驟:新聞評論語料庫的預(yù)處理、新聞評論情感特征的提取和新聞評論情感分類。新聞評論語料的預(yù)處理主要包含過濾文本中的停用詞、標注分詞詞性、分析文本語法等;新聞評論情感特征的提取是根據(jù)上一步預(yù)處理的結(jié)果,遵循一定挖掘規(guī)則提取出新聞評論中蘊含的情感特征;最終通過機器學(xué)習(xí)形成分類樹,根據(jù)新聞評論的情感特征將其歸類,實現(xiàn)新聞評論文本的自動聚類。
新聞評論語料庫的預(yù)處理是新聞評論情感極性分析的首要階段,包括分詞、刪除停用詞、詞性標注和句法分析等步驟,將日常人們習(xí)慣用語文本數(shù)據(jù)轉(zhuǎn)換為計算機可以識別的結(jié)構(gòu)化文本數(shù)據(jù)。分詞處理是將語料庫中的文本劃分成單個詞語,相比于英文語句中空格可以直接作為切分的依據(jù),中文語句的分詞更為復(fù)雜,需要通過將語句與詞典中的詞語相匹配等方法來進行分詞處理,也有利用隱馬爾科夫模型(HMM,Hidden Markov Model,)、條件隨機場(CRF,CanditionalRandom Field)、互信息(MI,Mutual Information)等概率統(tǒng)計模型的分詞方法,也可以引入語義和句法分析的分詞方法[1]。分詞處理之后,需要對每個劃分出來的詞語進行詞性的判斷,比如動名詞、副詞、形容詞、介詞、語氣詞等等,并刪除不包含情感信息的介詞、代詞、停用詞等,最后再根據(jù)句子的語法區(qū)分新聞評論文本的主謂賓,總結(jié)歸納出句法結(jié)構(gòu),具體預(yù)處理過程如圖1所示。
圖1 新聞評論語料庫的預(yù)處理
用計算機處理文本的情感特征提取,首先需要將原本的文本數(shù)據(jù)轉(zhuǎn)化成計算機可識別的機器語言,目前最常用的分類模型為向量空間模型(VSM,Vector Space Model),即將文本特征與相應(yīng)的特征權(quán)重相結(jié)合形成有極性的特征向量。
首先作為比對的依據(jù)需要構(gòu)建情感詞典,根據(jù)情感詞典一一判斷上一步中劃分出的詞語所具有的極性,對于詞典中未注冊單詞,可以使用Word2Vec、Doc2Vec等通過語義相似度轉(zhuǎn)化為同義詞來確定單詞的極性。采用類似方法做過研究的如王曉東等人在文獻[2]中提出的Ontology模型,通過構(gòu)建情感Ontology將語句中有代表性的情感特征詞語抽離出來,根據(jù)該特征詞語的情感極性判斷原文本所具有的情感極性。還有王素格等人在文獻[3]中提出的判別近義詞詞匯情感傾向的方法,這一方法不同的是在建立情感分析詞典時,認為同義詞之間在情感分析上具有同樣的傾向性。從以上的分析不難看出這一情感分析方法的關(guān)鍵在于建立完善的情感詞典,但隨著時代、網(wǎng)絡(luò)的發(fā)展,人們在發(fā)表新聞評論時涉及的新鮮詞匯也逐漸豐富,一時間難以窮盡,這給情感詞典的構(gòu)建帶來了不小的挑戰(zhàn)。
當(dāng)涉及的語料庫數(shù)據(jù)規(guī)模較大時,需要通過數(shù)據(jù)挖掘的方法抽取一般的語法特征,總結(jié)規(guī)律,可運用機器學(xué)習(xí)算法對文本進行處理,實現(xiàn)情感分類。類似的處理方法如文獻[4]通過分析二元語法的情感傾向建立互信息特征模型,而后利用機器學(xué)習(xí)算法獲得情感分類器,對語料庫中的文本進行情感判斷與分類。
現(xiàn)在的網(wǎng)絡(luò)用語及快餐文化,經(jīng)常會包含一些表情符號,用戶在發(fā)表評論時也常常會夾雜著表情來表達觀點和情緒,常見的表情符號如圖2所示,這些表情符也可以輔助我們有效地為文本做出情感分類。文獻[5]所提出的情感分析方法是多維的,通過深度學(xué)習(xí),在文本的多維特征中引入表情特征,提高了情感分類的效率與準確度。
圖2 常見表情符號
機器學(xué)習(xí)是建立情感詞典的重要算法,而深度學(xué)習(xí)是其重點研究的領(lǐng)域,其中最常用作情感極性分析的兩種模型工具就是卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一類包含卷積計算且具有深度結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),主要由輸入層、卷積層、池化層和輸出層構(gòu)成如圖4。其中卷積結(jié)構(gòu)有效降低了深層網(wǎng)絡(luò)占用的內(nèi)存量,減少了卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)總量,提高了網(wǎng)絡(luò)結(jié)構(gòu)的穩(wěn)定性和泛化能力,緩解模型的過擬合問題。Kim等人在文獻[6]提出了一種模型可運用CNN對新聞評論進行文本分類,將預(yù)先訓(xùn)練好的詞向量矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的輸入層,訓(xùn)練出神經(jīng)網(wǎng)絡(luò)模型,進而實現(xiàn)數(shù)據(jù)類別的預(yù)測。
圖3 CNN文本分類模型結(jié)構(gòu)圖
與卷積神經(jīng)網(wǎng)絡(luò)相比,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)沒有固定大小的卷積核窗口,沒有煩瑣的用來調(diào)節(jié)卷積核大小的參數(shù),他是一類以序列數(shù)據(jù)為輸入的遞歸神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)領(lǐng)域中所有節(jié)點按照鏈式連接的神經(jīng)網(wǎng)絡(luò),其最大的特點就是循環(huán)單元在某一時刻的輸出可以作為輸入再次輸入到循環(huán)單元,有效避免了普通神經(jīng)網(wǎng)絡(luò)輸入輸出相互獨立的缺陷,通常用于處理包含時間序列的數(shù)據(jù)。圖4給出了循環(huán)神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu),其中ht為輸出層,A為隱藏層,xt為輸入層,前一時刻的網(wǎng)絡(luò)狀態(tài)可以通過隱藏層上的鏈式連接傳遞給當(dāng)前時刻,同理,當(dāng)前時刻的狀態(tài)也可以傳遞給下一時刻,保持了數(shù)據(jù)中的依賴關(guān)系。
圖4 RNN網(wǎng)絡(luò)結(jié)構(gòu)圖
長短期記憶網(wǎng)絡(luò)(LongShort-TermMemoryNetwork,LSTM)[7]在1997年由Hochreiter等人提出,在語音識別、語言建模、機器翻譯等多領(lǐng)域都得到了廣泛的應(yīng)用。它是一種常見的循環(huán)神經(jīng)網(wǎng)絡(luò),其優(yōu)勢主要體現(xiàn)在處理和預(yù)測時間序列中間隔和延遲非常長的重要事件。LSTM含有一個“門”結(jié)構(gòu)用來對決定細胞狀態(tài)中輸入的信息是否要被記住或是輸出,由此更新每一層的隱藏狀態(tài),鑒于其可以改進一般RNN模型訓(xùn)練中可能出現(xiàn)的梯度消失問題,LSTM通常可作為非線性模型用于文本建模、連續(xù)手寫識別、自主語音識別等,其結(jié)構(gòu)圖如圖5所示。
圖5 LSTM結(jié)構(gòu)圖
然而上述提到的幾種神經(jīng)網(wǎng)絡(luò)雖有各自的優(yōu)勢,但本質(zhì)上都是將單個句子或文本作為神經(jīng)單元的輸入,通過形成深度神經(jīng)網(wǎng)絡(luò),提取相關(guān)特征信息并將原數(shù)據(jù)分類。這使得句與句之間的關(guān)聯(lián)性信息丟失,上下文之間的局部信息難以體現(xiàn)。針對這一點,文獻[8]提出了LSTM與注意力機制相結(jié)合的新型神經(jīng)網(wǎng)絡(luò)LSTM-Attention,該神經(jīng)網(wǎng)絡(luò)主要包含六個部分:文本向量化層、詞語信息特征提取層、詞語Attention層、句子信息特征提取層、句子Attention層、文本分類層,旨在提取學(xué)習(xí)分層次網(wǎng)格結(jié)構(gòu)的文本信息的基礎(chǔ)上,還可以實現(xiàn)對重要的詞語和句子的特征提取。該神經(jīng)網(wǎng)絡(luò)模型整體框架如圖6所示。
圖6 LSTM Attention神經(jīng)網(wǎng)絡(luò)整體框圖
利用LSTM-Attention對新聞評論進行文本分類,主要經(jīng)過6層操作。詞語構(gòu)成句子,句子構(gòu)成評論文本,這六層的操作可分別作用于詞語和句子層面,通過分別提取相應(yīng)特征對整個新聞評論進行分析。
綜上所述,卷積神經(jīng)網(wǎng)絡(luò)模型仿造生物的視知覺機制,注重全局感知,忽視了詞句之間的關(guān)聯(lián)性,而長短期記憶神經(jīng)網(wǎng)絡(luò)可以體現(xiàn)更多的文本間信息的長期依賴性,彌補模型訓(xùn)練中的不足,在引入注意力機制后,可通過調(diào)整權(quán)重系數(shù)進一步確定對不同文本的關(guān)注度,使得預(yù)測與分析更加全面,有效提高了輿情走向判斷的準確率。
隨著大數(shù)據(jù)時代的到來,世界信息的儲備量日益倍增,利用機器學(xué)習(xí)對海量評論信息的分析處理可以得到很多有意義的信息,關(guān)于文本的情感分析也有著重要的科研和實際生活應(yīng)用。
本文對文本情感分析的常用方法進行了簡要的歸納介紹,其中深度學(xué)習(xí)領(lǐng)域處于這些方法的核心手段,有進一步深入研究學(xué)習(xí)的必要性,當(dāng)前也有許多新興算法結(jié)構(gòu)在被提出,不斷地改進文本情感分析的處理方式以得到更優(yōu)的結(jié)果,這也是我們下一步需要考慮的關(guān)鍵所在。