羅裕雋
(同濟(jì)大學(xué) 電子與信息工程學(xué)院,上海 201804)
隨著信息化的普及,互聯(lián)網(wǎng)逐漸取代傳統(tǒng)媒體成為信息傳播的主流媒介,各大門戶網(wǎng)站、微博和主流新聞機(jī)構(gòu)都力爭(zhēng)在第一時(shí)間發(fā)布各類新聞信息,最大限度地達(dá)到新聞傳播效果,互聯(lián)網(wǎng)上每天都有數(shù)以萬(wàn)計(jì)的新聞?shì)浾摮霈F(xiàn)。輿情傾向性分析在網(wǎng)絡(luò)輿情監(jiān)控中起著十分重要的作用,對(duì)于企業(yè)而言,能幫助其了解自身的經(jīng)營(yíng)狀況和存在的問(wèn)題,依據(jù)當(dāng)前形勢(shì)制定相應(yīng)的市場(chǎng)戰(zhàn)略;對(duì)于監(jiān)管部門而言,能夠幫助其對(duì)所轄企業(yè)進(jìn)行及時(shí)的服務(wù)和監(jiān)管。但現(xiàn)有的門戶網(wǎng)站或搜索引擎一般不會(huì)對(duì)發(fā)布或檢索到的信息提供正負(fù)面分類功能,而人工篩選的方式因?yàn)樾实汀⒐ぷ髁看?,很難滿足業(yè)界的需求。因此,如何從數(shù)量龐大的新聞中快速且準(zhǔn)確地獲取傾向性信息是一個(gè)亟待解決的問(wèn)題。
傳統(tǒng)的中文輿情傾向性分析主要是基于規(guī)則和統(tǒng)計(jì)的方法,如肖紅等人[1]提出的基于句法分析和情感詞典的方法,這類方法具有一定準(zhǔn)確率,但模型的泛化能力較弱,對(duì)于規(guī)則未覆蓋到的文本信息不能準(zhǔn)確識(shí)別,且該方法依賴語(yǔ)法規(guī)則和詞典,需要大量專業(yè)人員對(duì)語(yǔ)言本身進(jìn)行處理和分析,因此難以推廣使用。
運(yùn)用機(jī)器學(xué)習(xí)方法進(jìn)行輿情傾向性分析是目前比較主流的研究方向。Pang Bo等人[2]對(duì)比了最大熵模型、貝葉斯分類器、支持向量機(jī)以及不同的特征選擇方法,在IMDB影評(píng)數(shù)據(jù)集上進(jìn)行測(cè)試,其實(shí)驗(yàn)證明基于bi-gram的特征選擇并使用支持向量機(jī)模型得到的情感分析結(jié)果最好。劉志明等人[3]對(duì)比了三種機(jī)器學(xué)習(xí)算法,驗(yàn)證了方法在微博評(píng)論的適用性。
綜合分析現(xiàn)有的研究成果,在中文輿情傾向性分析研究領(lǐng)域,僅使用基于統(tǒng)計(jì)的特征抽取以及基于語(yǔ)法規(guī)則和句法樹的分類方法遠(yuǎn)不能達(dá)到理想的效果,而基于機(jī)器學(xué)習(xí)的分析方法研究還較為匱乏,因此本文提出運(yùn)用詞嵌入方法對(duì)詞語(yǔ)特征進(jìn)行抽取,并采用平均池化的方法構(gòu)建文本特征,再將抽取的文本特征輸入機(jī)器學(xué)習(xí)分類模型中進(jìn)行預(yù)訓(xùn)練。本文綜合比較了三種主流機(jī)器學(xué)習(xí)分類算法,實(shí)驗(yàn)結(jié)果表明,基于集成學(xué)習(xí)迭代決策樹算法對(duì)輿情傾向性分析的效果最好。
機(jī)器學(xué)習(xí)算法一般不能直接處理原始文本,使用固定長(zhǎng)度的數(shù)值特征向量表達(dá)文本是一種常見的特征抽取方式。詞匯的數(shù)量往往十分龐大,如果不加選擇地將所有詞都用做特征,可能會(huì)造成維度災(zāi)難和特征稀疏的問(wèn)題,導(dǎo)致分類模型的效果不佳。因此特征抽取是機(jī)器學(xué)習(xí)中非常重要的環(huán)節(jié)。
傳統(tǒng)的詞語(yǔ)獨(dú)熱表示(One-hot Representation)僅僅將詞符號(hào)化,不包含任何語(yǔ)義信息。詞嵌入(Word Embedding)是一種基于神經(jīng)網(wǎng)絡(luò)的詞分布式表示,將詞轉(zhuǎn)化為固定長(zhǎng)度向量的方法,通常這個(gè)長(zhǎng)度都遠(yuǎn)小于詞典的大小,在幾十維到幾百維之間。詞分布式表示的核心是上下文的表示以及上下文與目標(biāo)詞之間的關(guān)系建模,因此詞向量包含豐富的語(yǔ)義信息,在詞性標(biāo)注、命名實(shí)體識(shí)別等自然語(yǔ)言處理任務(wù)中都有出色的表現(xiàn)。
Word2vec[4-5]是2013年Google發(fā)布的一種基于深度學(xué)習(xí)的詞向量訓(xùn)練工具。如圖1所示,word2vec主要用到Continuous Skip-gram Model(Skip-gram)和Continuous Bag-of-Words Models(CBOW)兩種簡(jiǎn)化的神經(jīng)網(wǎng)絡(luò)模型。兩種模型都是由輸入層、投影層和輸出層組成的三層網(wǎng)絡(luò)結(jié)構(gòu)。Skip-gram模型是根據(jù)當(dāng)前詞w(t)預(yù)測(cè)其上下文Context(w(t)),而CBOW模型是在w(t)的上下文已知的情況下預(yù)測(cè)當(dāng)前詞。
圖1 word2vec中神經(jīng)網(wǎng)絡(luò)模型
由于文本長(zhǎng)度的不一致,機(jī)器學(xué)習(xí)模型不能直接處理詞特征。池化(Pooling)方法能整合特征,保證輸出文本特征維度的統(tǒng)一,同時(shí)能較好保留詞向量中每個(gè)維度特征的信息。經(jīng)過(guò)詞向量平均池化后,c維文本特征Docc可表示為
(1)
其中,N為文本所包含的詞語(yǔ)數(shù)目,wci為第i個(gè)詞的c維詞向量。
支持向量機(jī)(Support Vector Machine, SVM)、決策樹(Decision Tree, DT)和迭代決策樹(Gradient Boosting Decision Tree, GBDT)在文本分類任務(wù)上都有良好的表現(xiàn),本節(jié)對(duì)這三種方法進(jìn)行簡(jiǎn)要介紹。
在線性可分的樣本空間中,劃分超平面可通過(guò)如下線性方程來(lái)描述:
wTx+b=0
(2)
其中w=(w1;w2;…;wd)為法向量,決定了超平面的方向;b為位移項(xiàng),決定了超平面與原點(diǎn)之間的距離。樣本空間中任意點(diǎn)x到超平面(w,b)的距離可寫為:
(3)
假設(shè)超平面(w,b)能將訓(xùn)練樣本正確分類,即對(duì)于(xi,yi)∈D,若yi=+1,則有wTx+b>0;若yi=-1,則有wTx+b<0。即:
(4)
其中,與超平面距離最近的幾個(gè)訓(xùn)練樣本使公式(4)等號(hào)成立,這些訓(xùn)練樣本被稱為“支持向量”。SVM要找到具有“最大間隔”的劃分超平面,因此其目標(biāo)函數(shù)為:
s.t.yi(wTxi+b)≥1,i=1,2,…,m
(5)
若原始樣本空間不存在一個(gè)劃分超平面,即訓(xùn)練樣本并非線性可分的,對(duì)于這樣的問(wèn)題,SVM通常引入核函數(shù)(Kernel Function)來(lái)解決。核函數(shù)與樣本特征的關(guān)系如下:
(6)
決策樹是一個(gè)樹結(jié)構(gòu),其中葉節(jié)點(diǎn)對(duì)應(yīng)決策結(jié)果,非葉節(jié)點(diǎn)則對(duì)應(yīng)一個(gè)特征屬性的測(cè)試,每個(gè)分支代表特征屬性在某個(gè)值域上的輸出。根節(jié)點(diǎn)包含樣本全集,每個(gè)節(jié)點(diǎn)包含的樣本集合根據(jù)屬性測(cè)試的結(jié)果被劃分到子節(jié)點(diǎn)中。決策樹生成的基本流程是一個(gè)遞歸的過(guò)程,在生成過(guò)程中,希望決策樹的分支節(jié)點(diǎn)所包含的樣本盡可能屬于同一類別,即節(jié)點(diǎn)的“純度”越來(lái)越高。“純度”通常由信息熵來(lái)表示,若D為當(dāng)前樣本集合,pk(k=1,2,…,|y|)為第k類樣本所占的比例,則D的信息熵的定義為:
(7)
Ent(D)的值越小,則D的純度越高。
如何選擇最優(yōu)劃分屬性是決策樹生成過(guò)程中一個(gè)關(guān)鍵問(wèn)題。ID3決策樹學(xué)習(xí)算法采用信息增益來(lái)進(jìn)行決策樹的劃分屬性選擇。對(duì)于屬性a對(duì)樣本集D進(jìn)行劃分所獲得的信息增益為:
(8)
而另一種常見的決策樹學(xué)習(xí)算法C4.5則基于信息增益率來(lái)做劃分屬性選擇。增益率的定義為:
(9)
其中
(10)
決策樹具有模型簡(jiǎn)單、訓(xùn)練速度快的優(yōu)點(diǎn),但單棵決策樹在模型訓(xùn)練過(guò)程中容易出現(xiàn)過(guò)擬合的現(xiàn)象,為了彌補(bǔ)這一缺陷,通常采用集成學(xué)習(xí)的方法。集成學(xué)習(xí)的核心思想是通過(guò)組合多個(gè)學(xué)習(xí)器,最終得到的模型比單一學(xué)習(xí)器具有顯著優(yōu)越的泛化性能。集成學(xué)習(xí)的示意圖如圖2所示。
圖2 集成學(xué)習(xí)示意圖
GBDT是一個(gè)基于迭代累加的決策樹集成算法,它通過(guò)構(gòu)造一組回歸決策樹,并把多棵數(shù)的結(jié)果通過(guò)Gradient Boosting的方法累加起來(lái)作為最終的預(yù)測(cè)輸出。Gradient Boosting每一次訓(xùn)練需要在殘差減少的梯度方向上訓(xùn)練一個(gè)新的模型,因此,通過(guò)多次訓(xùn)練,模型的殘差不斷降低。
本文實(shí)驗(yàn)部分采用三個(gè)數(shù)據(jù)集,分別是企業(yè)新聞數(shù)據(jù)集、第三屆中文傾向性分析評(píng)測(cè)(COAE2011)數(shù)據(jù)集和商品購(gòu)買評(píng)論數(shù)據(jù)集。其中企業(yè)新聞數(shù)據(jù)集包含若干家大型企業(yè)相關(guān)的互聯(lián)網(wǎng)新聞約1 889條篇章級(jí)文本,COAE2011抽取財(cái)經(jīng)相關(guān)的約1 400條句子級(jí)文本,購(gòu)物評(píng)論集包含電商網(wǎng)站用戶對(duì)商品的評(píng)價(jià)約20 000條句子級(jí)文本。數(shù)據(jù)集的具體分布情況如表1所示 。
表1 實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)首先對(duì)樣本數(shù)據(jù)進(jìn)行預(yù)處理,包括分詞和去除停用詞等,再根據(jù)第1節(jié)介紹的特征抽取方法構(gòu)建樣本特征,其中word2vec選用CBOW模型進(jìn)行詞向量的訓(xùn)練。實(shí)驗(yàn)先后使用SVM、DT和GBDT三種算法在三個(gè)數(shù)據(jù)集上分別進(jìn)行模型的訓(xùn)練和評(píng)估,其中算法的實(shí)現(xiàn)采用Python的sklearn模塊。主要參數(shù)為,SVM采用徑向積核函數(shù),DT采用Gini系數(shù)來(lái)做特征劃分,GBDT的深度為10,并采用0.05的學(xué)習(xí)率。最終數(shù)據(jù)集的平均準(zhǔn)確率如表2所示。
表2 傾向性分析結(jié)果
從結(jié)果來(lái)看,在三個(gè)數(shù)據(jù)集上,GBDT算法的準(zhǔn)確率都高于其他兩個(gè)方法。
通過(guò)實(shí)驗(yàn)證明機(jī)器學(xué)習(xí)方法對(duì)處理中文輿情傾向性分析問(wèn)題是有效的,其中又以基于集成學(xué)習(xí)的迭代決策樹算法效果最佳。其原因是集成學(xué)習(xí)算法能夠綜合多個(gè)學(xué)習(xí)器的結(jié)果來(lái)決定最終分類,并在一定程度上避免單個(gè)學(xué)習(xí)器在訓(xùn)練過(guò)程中的過(guò)擬合問(wèn)題。另外,在不同領(lǐng)域,不同篇章長(zhǎng)度的數(shù)據(jù)集上機(jī)器學(xué)習(xí)算法都有比較好的表現(xiàn),證明其具有較好的泛化能力。
[1] 肖紅, 許少華. 基于句法分析和情感詞典的網(wǎng)絡(luò)輿情傾向性分析研究[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2014, 35(4): 811-813.
[2] Pang Bo, LEE L, VAITHYANATHAN S. Thumbs up? Sentiment classification using machine learning techniques[C].Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10. Association for Computational Linguistics, 2002: 79-86.
[3] 劉魯, 劉志明. 基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2012,48(1): 1-4.
[4] MIKOLOV T, SUTSKEVER I, Chen Kai, et al. Distributed representations of words and phrases and their compositionality[C].Advances in Neural Information Processing Systems, 2013,26: 3111-3119.
[5] MIKOLOV T, Chen Kai, CORRADO G, et al. Efficient estimation of word representations in vector space[J]. Compater Science, 2013.