黃佳鋒,薛 云,2,盧 昕,劉志煌,吳 威,黃英仁,李萬(wàn)理,陳 鑫,3
(1. 華南師范大學(xué) 物理與電信工程學(xué)院,廣東 廣州 510006;2. 廣東省數(shù)據(jù)科學(xué)工程技術(shù)研究中心,廣東 廣州 510006;3. 深圳職業(yè)技術(shù)學(xué)院 工業(yè)中心,廣東 深圳 518055)
隨著電子商務(wù)行業(yè)的發(fā)展,產(chǎn)生了大量的網(wǎng)絡(luò)評(píng)論文本數(shù)據(jù)。面對(duì)這些海量的網(wǎng)絡(luò)評(píng)論,消費(fèi)者需要快速了解評(píng)論的情感傾向,優(yōu)化自己的購(gòu)買決策,而商家也需要從消費(fèi)者的網(wǎng)絡(luò)評(píng)論情感傾向中總結(jié)得到商品的市場(chǎng)反饋信息,對(duì)商品進(jìn)行改善。因此,如何對(duì)評(píng)論文本進(jìn)行情感分類已經(jīng)成為自然語(yǔ)言處理領(lǐng)域的一個(gè)重要研究課題。
文本情感分類常用的技術(shù)分為基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。但是基于規(guī)則的方法所描述的語(yǔ)言規(guī)則非常有限,難以處理復(fù)雜的、非結(jié)構(gòu)化的中文網(wǎng)絡(luò)評(píng)論文本[1];而基于統(tǒng)計(jì)的方法一般很難通過(guò)單個(gè)算法構(gòu)造一個(gè)高準(zhǔn)確率的分類模型,即某些模型可能只對(duì)一類或幾類問(wèn)題有效,而在其他問(wèn)題上的效果不好,泛化能力差。為了改善這些缺陷,集成學(xué)習(xí)技術(shù)應(yīng)運(yùn)而生,并在文本情感分類任務(wù)上驗(yàn)證了集成學(xué)習(xí)的有效性[2]。
但是在針對(duì)中文網(wǎng)絡(luò)評(píng)論文本的情感分類任務(wù)上,目前還存在以下三個(gè)挑戰(zhàn): 第一,中文網(wǎng)絡(luò)評(píng)論具有表達(dá)多樣化、句子長(zhǎng)度不一致的特點(diǎn),在特征提取時(shí),以TF-IDF為代表的單詞權(quán)重計(jì)算方法[3-4],容易造成文本特征語(yǔ)義信息缺失、特征向量稀疏等問(wèn)題。第二,由于中文網(wǎng)絡(luò)評(píng)論文本的復(fù)雜性,從中提取到的特征通常達(dá)到上千個(gè),經(jīng)典的Random Subspace集成學(xué)習(xí)方法[5]雖然可以解決特征繁多問(wèn)題,但是由于特征子空間是完全隨機(jī)抽取的,難以保證基分類器的性能。第三,一個(gè)評(píng)論文本很可能包含多個(gè)產(chǎn)品屬性詞語(yǔ),這些屬性共同決定著評(píng)論的情感傾向,以往的句子級(jí)情感分類方法通常把評(píng)論中的所有屬性都當(dāng)成一個(gè)整體,沒(méi)有單獨(dú)分析每個(gè)屬性帶有的情感信息,容易造成情感類別誤判。
針對(duì)上述問(wèn)題,本文提出一種針對(duì)中文網(wǎng)絡(luò)評(píng)論進(jìn)行情感分類的集成學(xué)習(xí)框架,主要包括以下部分: ①采用詞性組合模式、頻繁詞序列模式和保序子矩陣模式作為輸入特征,使得特征攜帶更完整的語(yǔ)義信息和情感信息,并且利用語(yǔ)義相似度克服了特征向量稀疏的問(wèn)題; ②基于信息增益的隨機(jī)子空間算法,解決了評(píng)論文本復(fù)雜多樣而造成的特征繁多的問(wèn)題,并且根據(jù)重要度權(quán)值抽取特征子空間,盡量提高基分類器的分類性能; ③基于產(chǎn)品屬性構(gòu)造基分類器算法,考慮不同產(chǎn)品屬性對(duì)應(yīng)不完全相同的特征集合、相同的特征在不同產(chǎn)品屬性中可能產(chǎn)生的不同影響,使得最終的分類結(jié)果更加精確。文中的框架利用多種分類器在ChnSentiCorp-Htl-ba-4000中文酒店評(píng)論數(shù)據(jù)集[6]上進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明該框架在情感分類任務(wù)中能達(dá)到更優(yōu)的分類效果。
本文的內(nèi)容安排如下: 第一部分介紹情感分類和集成學(xué)習(xí)的相關(guān)工作;第二部分介紹本文提出的框架具體內(nèi)容;第三部分介紹本文提出的框架和其他經(jīng)典方法的對(duì)比實(shí)驗(yàn);第四部分給出結(jié)論。
文本情感分類任務(wù)的目標(biāo)是識(shí)別主觀文本的情感極性,即正面(positive)的贊賞和肯定、負(fù)面(negative)的批評(píng)與否定[7]。目前公認(rèn)的情感分類研究工作始于Bo Pang等人[8]的工作,該方法以u(píng)nigram等作為輸入特征,用樸素貝葉斯、最大熵、支持向量機(jī)等分類算法實(shí)現(xiàn)電影評(píng)論的情感分析,取得了較好的分類效果。目前主流的文本情感分類方法仍然是機(jī)器學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)方法,這種方法的關(guān)鍵步驟是特征提取和分類器設(shè)計(jì)。
在針對(duì)中文網(wǎng)絡(luò)評(píng)論的情感分類任務(wù)中,文本的特征提取和表示是關(guān)鍵步驟之一。Salton等人[9]提出了基于詞頻和逆文檔頻率的句向量表示方法,即TF-IDF方法。這種方法通常需要利用情感詞庫(kù)來(lái)篩選特征詞,然后用TF-IDF計(jì)算特征權(quán)重,已被廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域。隨著深度學(xué)習(xí)研究的興起,文本特征抽取和表示的研究聚焦在詞嵌入模型(word embedding)[10-11],這種方法使用原始語(yǔ)料訓(xùn)練得到詞語(yǔ)的分散式表示(distributed representation),優(yōu)點(diǎn)是可以用稠密、低維、連續(xù)的向量來(lái)表示詞語(yǔ),并且語(yǔ)義相近的詞語(yǔ)在詞向量空間中彼此的位置也很靠近,即可通過(guò)詞向量的距離來(lái)衡量詞語(yǔ)的語(yǔ)義相似性。
另外,分類器設(shè)計(jì)也是文本情感分類任務(wù)的重要環(huán)節(jié)之一,機(jī)器學(xué)習(xí)中的BP神經(jīng)網(wǎng)絡(luò)、K最近鄰、支持向量機(jī)等分類算法被廣泛應(yīng)用到情感分類任務(wù)中[12]。為了提高文本情感分類的準(zhǔn)確率,一些學(xué)者開始使用集成學(xué)習(xí)技術(shù)來(lái)融合不同的分類模型。集成學(xué)習(xí)可以組合多個(gè)精確度一般的分類模型,利用單個(gè)模型之間的差異性,來(lái)改善模型的泛化性能,提高分類的精確度。近年來(lái),在文本情感分類、數(shù)據(jù)挖掘、模式識(shí)別等眾多領(lǐng)域的研究表明,大多數(shù)通過(guò)集成學(xué)習(xí)得到的模型要明顯優(yōu)于單個(gè)模型[13]。根據(jù)個(gè)體學(xué)習(xí)器的生成方式,目前的集成學(xué)習(xí)方法大致可分為兩大類,即以Boosting為代表的個(gè)體學(xué)習(xí)器間存在強(qiáng)依賴關(guān)系、必須串行生成的序列化方法,和以Bagging和Random Subspace為代表的個(gè)體學(xué)習(xí)器間不存在強(qiáng)依賴關(guān)系、可同時(shí)生成的并行化方法。Wang Gang等人[14]基于五種基分類器,使用了三種經(jīng)典集成學(xué)習(xí)方法,在十個(gè)公共情感分類數(shù)據(jù)集上,進(jìn)行了大量對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,在情感分類任務(wù)上,集成學(xué)習(xí)方法大大地提高了單個(gè)基分類器的性能。Deriu等人[15]利用大規(guī)模的Twitter微博文本數(shù)據(jù)進(jìn)行弱監(jiān)督學(xué)習(xí),訓(xùn)練兩個(gè)結(jié)構(gòu)相同、參數(shù)和輸入不同的卷積神經(jīng)網(wǎng)絡(luò),然后將卷積神經(jīng)網(wǎng)絡(luò)的輸出作為隨機(jī)森林元分類器的輸入,通過(guò)集成學(xué)習(xí)得到Twitter微博文本的情感極性,該方法在Semeval-2016任務(wù)4的評(píng)測(cè)中獲得了第一名的好成績(jī)。
在復(fù)雜多樣的中文網(wǎng)絡(luò)評(píng)論中,評(píng)論的整體情感傾向通常需要綜合消費(fèi)者對(duì)評(píng)論中全部產(chǎn)品屬性的意見,而且在情感分類任務(wù)中不同的產(chǎn)品屬性對(duì)應(yīng)的特征集合通常不會(huì)完全相同。因此,本文在對(duì)中文網(wǎng)絡(luò)評(píng)論進(jìn)行情感分類時(shí),首先提取評(píng)論中的產(chǎn)品屬性,然后再基于產(chǎn)品屬性對(duì)評(píng)論語(yǔ)料和對(duì)應(yīng)特征集合做進(jìn)一步劃分,并基于各屬性對(duì)應(yīng)的評(píng)論語(yǔ)料和特征集合分別訓(xùn)練分類器,最后再結(jié)合評(píng)論中每個(gè)產(chǎn)品屬性各自對(duì)應(yīng)的情感分類概率,得到整條評(píng)論的句子級(jí)情感傾向。
在以往基于情感詞典和TF-IDF的特征提取、向量化方法中,情感詞典往往不能覆蓋語(yǔ)料中的所有情感特征。另一方面,中文網(wǎng)絡(luò)評(píng)論具有表達(dá)多樣化、句子長(zhǎng)度不一致的特點(diǎn)。因此,采用傳統(tǒng)的TF-IDF方法提取特征,容易造成文本特征語(yǔ)義信息缺失、特征向量稀疏等問(wèn)題。下文將闡述本文框架中三種特征提取方法,以解決上述問(wèn)題。
2.1.1 詞性組合模式
在很多文本情感分類中,通常是將單個(gè)詞語(yǔ)作為分類特征,再根據(jù)TF、TF-IDF等方法生成評(píng)論的特征向量。但在處理中文評(píng)論的情感分類問(wèn)題時(shí),該方法存在著以下不足之處: 第一,在中文網(wǎng)絡(luò)評(píng)論中,該類方法不能刻畫詞語(yǔ)之間的語(yǔ)序信息;第二,在描述不同上下文語(yǔ)境時(shí),同一情感詞有時(shí)可以表達(dá)不同的情感傾向,例如,詞組“水平高”和“價(jià)格 高”中的詞語(yǔ)“高”分別表達(dá)著積極和消極的情感傾向。
為了解決上述問(wèn)題,本文把連續(xù)詞組作為分類特征,使得特征能攜帶更準(zhǔn)確的情感信息。另外,在中文網(wǎng)絡(luò)評(píng)論中,大部分評(píng)論者通常使用形容詞來(lái)表達(dá)自己的主觀情感。因此,在第一種特征提取方法中,本文通過(guò)詞性組合模式來(lái)挖掘連續(xù)詞組特征。本文參考了文獻(xiàn)[16],并結(jié)合中文網(wǎng)絡(luò)評(píng)論的特點(diǎn),總結(jié)歸納了八種詞性組合規(guī)則如表1所示,其中詞語(yǔ)的詞性表示參考中科院計(jì)算所漢語(yǔ)詞性標(biāo)記集。
表1 詞性組合規(guī)則
綜上所述,本文首先對(duì)語(yǔ)料進(jìn)行分詞和詞性標(biāo)注,然后通過(guò)詞性組合規(guī)則挖掘得到詞性組合模式feature_pos,將其作為情感分類任務(wù)的輸入特征之一。
2.1.2 頻繁詞序列模式
面對(duì)表達(dá)口語(yǔ)化的中文網(wǎng)絡(luò)評(píng)論時(shí),詞性組合模式存在一定不足: 一方面它依賴于先驗(yàn)的語(yǔ)言學(xué)知識(shí),必須事先由專家設(shè)定足夠多的規(guī)則;另一方面,詞性組合模式?jīng)]有考慮詞組特征中詞語(yǔ)之間可能出現(xiàn)的間隔,例如: 詞組“交通 方便”和“交通 路線 方便”,只有考慮詞語(yǔ)之間的間隔,才能提取出同樣的特征“交通 方便”。因此,本文根據(jù)頻繁序列模式和中文語(yǔ)言的特點(diǎn),基于Matsumoto等人[17]提取頻繁詞語(yǔ)子序列的思想,進(jìn)行了相應(yīng)的改進(jìn)。對(duì)于一個(gè)頻繁詞序列模式p={w1,w2,…,wm},其中wi為短語(yǔ)p中的詞語(yǔ),m為短語(yǔ)p的詞語(yǔ)個(gè)數(shù),它的定義描述如下:
(1)p在訓(xùn)練集語(yǔ)料中的支持度必須大于最小支持度閾值,即sup(p)≥min_sup;
(2)p中任意兩個(gè)相鄰詞語(yǔ)wi和wi+1在評(píng)論中可以不連續(xù),但是一定要在評(píng)論中按照先后順序出現(xiàn);
(3)p中相鄰兩個(gè)詞語(yǔ)在評(píng)論中的最大間隔必須小于間隔閾值max_gap,即p中任意兩個(gè)相鄰詞語(yǔ)wi和wi+1在評(píng)論中的間隔gap(i)≤max_gap;
(4)p的區(qū)分度必須大于最小區(qū)分度閾值,即dist(p)≥min_dist,區(qū)分度dist(p)計(jì)算如式(1)所示。
(1)
其中,n為情感分類任務(wù)中的情感傾向類別數(shù)目,supi(p)為p在訓(xùn)練集第i類語(yǔ)料中的支持度,sup(p)則為p在整個(gè)訓(xùn)練集語(yǔ)料中的總支持度。
根據(jù)上述定義,本文采用了Pei等人[18]提出的PrefixSpan算法來(lái)挖掘頻繁詞序列模式feature_freseq,作為情感分類任務(wù)的輸入特征之一。
2.1.3 保序子矩陣模式
在中文網(wǎng)絡(luò)評(píng)論中存在著以下兩個(gè)特點(diǎn): 第一,評(píng)論的表達(dá)多樣化,即不同詞匯表達(dá)相近語(yǔ)義;第二,評(píng)論的長(zhǎng)度通常不一致,評(píng)論包含的詞語(yǔ)數(shù)量相差較大。由于這些特點(diǎn),TF-IDF特征提取方法容易造成特征向量稀疏、不同評(píng)論之間權(quán)重相差較大等問(wèn)題。因此,為了解決以上問(wèn)題,本文結(jié)合基于詞嵌入的近義詞和保序子矩陣算法對(duì)該方法進(jìn)行了改進(jìn)。
(1) 基于詞嵌入的近義詞
本文對(duì)詞語(yǔ)進(jìn)行相似度計(jì)算,把語(yǔ)義相近的詞語(yǔ)當(dāng)成一個(gè)詞語(yǔ)處理,從而克服傳統(tǒng)TF-IDF向量的稀疏性問(wèn)題。本文采用Word2Vec[11]訓(xùn)練中文大語(yǔ)料,得到評(píng)論語(yǔ)料的詞嵌入矩陣We∈d×|V|,其中We的每一列代表一個(gè)詞向量。假設(shè)Xi和Xj是We中兩個(gè)詞向量,用余弦距離來(lái)衡量詞向量之間的相似性,計(jì)算如式(2)所示。
(2)
設(shè)定實(shí)驗(yàn)參數(shù)相似度閾值SimT,如果Sim(i,j)≥SimT,則表示Xi和Xj對(duì)應(yīng)的詞語(yǔ)是近義詞。接下來(lái)把近義詞都?xì)w并成同一個(gè)簇,根據(jù)簇來(lái)計(jì)算TF-IDF向量,得到評(píng)論語(yǔ)料的矩陣表示W(wǎng)tfidf,計(jì)算如式(3)所示。
(3)
其中,N表示語(yǔ)料庫(kù)中的評(píng)論總數(shù);tfij表示近義詞頻,即在評(píng)論j中第i個(gè)簇中詞語(yǔ)出現(xiàn)的次數(shù);dfi表示近義詞文檔頻率,即語(yǔ)料庫(kù)中含有第i個(gè)簇中詞語(yǔ)的評(píng)論個(gè)數(shù)。
(2) 保序子矩陣
由于網(wǎng)絡(luò)評(píng)論通常長(zhǎng)度不一,假如直接使用Wtfidf進(jìn)行分類的話,一方面會(huì)造成語(yǔ)義相近但句子長(zhǎng)度差別很大的兩個(gè)評(píng)論向量之間的距離較大,對(duì)情感分類任務(wù)產(chǎn)生負(fù)面影響;另一方面Wtfidf中的特征是獨(dú)立的詞語(yǔ),無(wú)法體現(xiàn)詞語(yǔ)之間的語(yǔ)義相互作用。為了解決這個(gè)問(wèn)題,本文采用雙聚類中的保序子矩陣算法來(lái)挖掘Wtfidf中的保序子矩陣模式。
本文參考了Liu Zhiwen和Xue Yun等人[19]提出的方法,利用公共子序列挖掘得到Wtfidf的全部保序子矩陣模式,輸出滿足最小列閾值min_column和最小行閾值min_row要求,并且各行都來(lái)自于同一類情感標(biāo)簽評(píng)論的保序子矩陣模式feature_opsm,并連同上文得到的詞性組合模式feature_pos和頻繁詞序列模式feature_freseq,一起作為情感分類任務(wù)的輸入特征。
由于中文網(wǎng)絡(luò)評(píng)論文本的多樣性和復(fù)雜性,經(jīng)過(guò)上文三種特征提取方法得到有效的分類特征后,特征數(shù)目通常會(huì)達(dá)到上千個(gè),如果直接使用的話,容易造成特征向量稀疏,導(dǎo)致分類效果不佳。因此本文借鑒了Ho等人提出的隨機(jī)子空間算法[5]。該方法是一種基于特征多樣性的集成學(xué)習(xí)方法,首先從原始特征空間中隨機(jī)抽取出若干個(gè)特征子集,然后基于每個(gè)特征子集訓(xùn)練一個(gè)基分類器,最后集成所有基分類器的結(jié)果,得到最終的分類結(jié)果。但是在復(fù)雜多樣的評(píng)論文本中,不同特征對(duì)分類的貢獻(xiàn)是不一樣的,假如隨機(jī)抽取的特征子集都是一些相對(duì)冗余、不太重要的特征,將會(huì)嚴(yán)重影響基分類器的分類性能,從而影響最終的分類結(jié)果。為此,本文提出了一種基于信息增益的隨機(jī)子空間算法,在保證基分類器間獨(dú)立性的同時(shí),盡量提高基分類器的分類性能。
基于信息增益的隨機(jī)子空間算法具體描述如算法1所示。
在中文網(wǎng)絡(luò)評(píng)論中,評(píng)論的整體情感傾向通常需要綜合消費(fèi)者對(duì)評(píng)論中全部產(chǎn)品屬性的意見,而且不同的產(chǎn)品屬性在情感分類任務(wù)中對(duì)應(yīng)的特征集合不完全相同,即使是相同的特征,它們?cè)诓煌漠a(chǎn)品屬性中也可能蘊(yùn)涵著不同的語(yǔ)義信息,因此本文采用基于產(chǎn)品屬性構(gòu)造對(duì)應(yīng)基分類器的算法對(duì)評(píng)論進(jìn)行情感分類。
算法1基于信息增益的隨機(jī)子空間算法
2.3.1 產(chǎn)品屬性提取
在本文框架中,采用基于類序列規(guī)則的方法來(lái)提取產(chǎn)品屬性集合,并利用詞語(yǔ)相似度將產(chǎn)品屬性劃分到不同的屬性類別中。
(1) 基于類序列規(guī)則的產(chǎn)品屬性提取
序列模式挖掘是數(shù)據(jù)挖掘中一個(gè)重要的分支,而類序列規(guī)則(class sequence rules,CSR)是傳統(tǒng)序列模式挖掘的變種,它在序列模式挖掘的基礎(chǔ)上考慮了類信息,通過(guò)將模式和類信息結(jié)合起來(lái),找到與類信息具有高度相關(guān)性的序列模式。
為了提取出中文網(wǎng)絡(luò)評(píng)論中的產(chǎn)品屬性,本文參考了文獻(xiàn)[20]中觀點(diǎn)特征抽取的思想,采用基于類序列規(guī)則的方法提取產(chǎn)品屬性,即將訓(xùn)練集中已知的屬性詞和情感詞搭配信息作為類序列規(guī)則中的類信息,將詞性搭配作為被挖掘的序列模式,利用類序列規(guī)則提取評(píng)論中的產(chǎn)品屬性。
本文以酒店領(lǐng)域?yàn)楸尘?,從大眾點(diǎn)評(píng)網(wǎng)站上爬取了十萬(wàn)多條酒店領(lǐng)域中文網(wǎng)絡(luò)評(píng)論作為實(shí)驗(yàn)語(yǔ)料。具體地,首先將中文網(wǎng)絡(luò)評(píng)論語(yǔ)料進(jìn)行預(yù)處理、中文分詞和詞性標(biāo)注等操作后,得到序列標(biāo)注的結(jié)果,并預(yù)先給定少數(shù)的屬性詞和情感詞作為種子詞,在評(píng)論語(yǔ)料中標(biāo)注這些種子詞,使得少數(shù)樣本帶有類信息。然后去掉詞語(yǔ),只保留詞性和類信息,得到帶有類信息的詞性序列。再通過(guò)改進(jìn)的PrefixSpan算法來(lái)挖掘這些帶有類信息的詞性序列,本文在PrefixSpan頻繁序列模式挖掘算法的基礎(chǔ)上進(jìn)行改進(jìn),加入由類信息所決定的置信度,得到滿足最小支持度和最小置信度的頻繁序列模式,同時(shí)篩選得出所有元素都在評(píng)論中同一分句的模式,作為提取產(chǎn)品屬性的詞性搭配規(guī)則。最后將語(yǔ)料中所有滿足詞性搭配規(guī)則的屬性詞提取出來(lái),得到屬性詞語(yǔ)集合?;陬愋蛄幸?guī)則的產(chǎn)品屬性提取算法如算法2所示。
(2) 產(chǎn)品屬性類別劃分
通過(guò)基于類序列規(guī)則的產(chǎn)品屬性提取算法得到產(chǎn)品屬性詞語(yǔ)集合后,還需要將產(chǎn)品屬性集合劃分成若干個(gè)類別。本文首先確定產(chǎn)品屬性類別基準(zhǔn)詞,然后再通過(guò)每個(gè)屬性詞語(yǔ)與基準(zhǔn)詞的語(yǔ)義相似度來(lái)劃分該屬性詞語(yǔ)所屬的類別。
算法2基于類序列規(guī)則的產(chǎn)品屬性提取算法
通過(guò)對(duì)酒店語(yǔ)料和產(chǎn)品屬性集合的觀察,本文歸納得到“服務(wù)”“美食”“環(huán)境”“價(jià)格”“設(shè)施”“場(chǎng)館”這六個(gè)屬性類別基準(zhǔn)詞。接下來(lái),同樣采用Word2Vec對(duì)語(yǔ)料進(jìn)行訓(xùn)練,得到產(chǎn)品屬性集合的詞嵌入矩陣W∈d×|A|,并采用余弦距離來(lái)衡量各屬性詞向量和屬性類別基準(zhǔn)詞向量之間的語(yǔ)義相似度。然后設(shè)定實(shí)驗(yàn)超參數(shù)最小相似度min_Sim,如果屬性詞與多個(gè)屬性類別基準(zhǔn)詞之間的相似度大于min_Sim,則選取與該屬性詞的相似度最大的屬性類別基準(zhǔn)詞作為屬性類別標(biāo)記;如果屬性詞語(yǔ)全部六個(gè)屬性類別基準(zhǔn)詞之間的相似度都小于min_Sim,則將該屬性詞的屬性類別歸類為“其他”。最終將屬性詞集合劃分為七個(gè)屬性類別,分別為“服務(wù)”“美食”“環(huán)境”“價(jià)格”“設(shè)施”“場(chǎng)館”“其他”。
2.3.2 基于產(chǎn)品屬性構(gòu)造基分類器
在中文網(wǎng)絡(luò)評(píng)論中,評(píng)論者對(duì)產(chǎn)品意見的表達(dá)多種多樣。而對(duì)于一個(gè)較長(zhǎng)的評(píng)論,不能只通過(guò)其中某一個(gè)產(chǎn)品屬性來(lái)判別它的情感類別。另外,相同的特征對(duì)于不同的屬性可能起到相反的作用。為了解決上述兩個(gè)問(wèn)題,本文采用基于產(chǎn)品屬性構(gòu)造基分類器的算法對(duì)評(píng)論進(jìn)行集成情感分類。一方面,根據(jù)上文得到的屬性類別將評(píng)論數(shù)據(jù)和特征集合進(jìn)行劃分,使得不同屬性類別對(duì)應(yīng)各自的特征集合,而且相同的特征可以在不同的屬性類別中起到不同的情感表達(dá)作用;另一方面,將根據(jù)屬性類別劃分好的評(píng)論數(shù)據(jù)和特征集合分別進(jìn)行訓(xùn)練得到基分類器,然后集成不同的基分類器來(lái)判別整個(gè)評(píng)論的情感傾向,使得分類器在判別評(píng)論的情感傾向時(shí),能夠綜合評(píng)論中全部屬性的情感信息?;诋a(chǎn)品屬性構(gòu)造基分類器的算法具體描述如算法3所示。
算法3基于產(chǎn)品屬性構(gòu)造基分類器的算法
實(shí)驗(yàn)部分將對(duì)數(shù)據(jù)集、實(shí)驗(yàn)流程、實(shí)驗(yàn)結(jié)果和分析進(jìn)行詳細(xì)介紹,實(shí)驗(yàn)的主要內(nèi)容是采用本文的框架和評(píng)測(cè)數(shù)據(jù)集實(shí)現(xiàn)中文網(wǎng)絡(luò)評(píng)論情感分類任務(wù),并和其他相關(guān)方法進(jìn)行分析比較。
為了驗(yàn)證文本所提框架的有效性,本文使用了中文情感語(yǔ)料庫(kù)ChnSentiCorp[6]中的中文酒店評(píng)論數(shù)據(jù)集ChnSentiCorp-Htl-ba-4000作為實(shí)驗(yàn)評(píng)測(cè)數(shù)據(jù),數(shù)據(jù)集包括2 000個(gè)積極情感評(píng)論文本和2 000個(gè)消極情感評(píng)論文本,過(guò)濾掉重復(fù)評(píng)論文本后,剩余共3 147個(gè)評(píng)論文本。另外,本文在大眾點(diǎn)評(píng)網(wǎng)站上爬取了102 268個(gè)酒店評(píng)論文本,作為提取酒店領(lǐng)域產(chǎn)品屬性的評(píng)論語(yǔ)料。在基于詞嵌入的近義詞、產(chǎn)品屬性類別劃分中,采用Sogou新聞?wù)Z料[21]和大眾點(diǎn)評(píng)酒店評(píng)論語(yǔ)料作為Word2Vec訓(xùn)練語(yǔ)料,語(yǔ)料大小為2.02GB。
在數(shù)據(jù)預(yù)處理中,本文采用中科院ICTCLAS[22]對(duì)評(píng)論文本進(jìn)行中文分詞和詞性標(biāo)注。
根據(jù)文中的集成學(xué)習(xí)框架,本文實(shí)現(xiàn)對(duì)中文網(wǎng)絡(luò)評(píng)論的兩類情感分類。在情感分類實(shí)驗(yàn)中本文采用五折交叉驗(yàn)證,語(yǔ)料的訓(xùn)練集、驗(yàn)證集和測(cè)試集比例為3∶1∶1,其中積極語(yǔ)料和消極語(yǔ)料數(shù)目基本平衡。實(shí)驗(yàn)流程如圖1所示。
圖1 實(shí)驗(yàn)流程
在上述實(shí)驗(yàn)的集成學(xué)習(xí)框架中,采用機(jī)器學(xué)習(xí)常見的分類算法作為基分類器中的分類算法,包括Logistics Regression(LR),Decision Tree(DT),Support Vector Machine(SVM)這三種分類算法。
另外,本文的實(shí)驗(yàn)框架存在一些超參數(shù),如基于信息增益的隨機(jī)子空間算法中的特征子空間數(shù)目S,對(duì)于這些超參數(shù)的確定,本文使用控制變量法進(jìn)行調(diào)參。在確定某個(gè)超參數(shù)時(shí),首先設(shè)置一組該超參數(shù)的值,然后保持其他超參數(shù)不變,通過(guò)驗(yàn)證集在實(shí)驗(yàn)中的平均分類準(zhǔn)確率確定最優(yōu)值。
下面介紹頻繁詞序列模式中三個(gè)超參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響變化趨勢(shì)。
由圖2看出,當(dāng)min_sup=30時(shí),實(shí)驗(yàn)的平均準(zhǔn)確率達(dá)到最優(yōu)值。
圖2 平均分類準(zhǔn)確率隨最小支持度的變化趨勢(shì)
由圖3看出,當(dāng)max_ gap=1時(shí),實(shí)驗(yàn)的平均準(zhǔn)確率達(dá)到最優(yōu)值。
圖3 平均分類準(zhǔn)確率隨最大間隔閾值的變化趨勢(shì)
由圖4看出,當(dāng)min_dist=0.65時(shí),實(shí)驗(yàn)的平均準(zhǔn)確率達(dá)到最優(yōu)值。
圖4 平均分類準(zhǔn)確率隨最小區(qū)分度閾值的變化趨勢(shì)
由于超參數(shù)較多,本文只分析了上述三個(gè)超參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響。最終得到的最優(yōu)超參數(shù)值如表2所示。
表2 最優(yōu)超參數(shù)值
在下文的實(shí)驗(yàn)結(jié)果中,超參數(shù)按照實(shí)驗(yàn)得到的最優(yōu)值進(jìn)行設(shè)置。
本文在實(shí)驗(yàn)方案中設(shè)置了三組對(duì)比實(shí)驗(yàn),第一組將本文的方法和單分類器進(jìn)行對(duì)比,單分類器分別采用不同的輸入特征向量;第二組將本文的方法和經(jīng)典集成學(xué)習(xí)分類算法進(jìn)行對(duì)比;第三組將本文和深度學(xué)習(xí)算法進(jìn)行對(duì)比。本文采用了Scikit-Learn[23]、WEKA[24]和Tensorflow[25]來(lái)實(shí)現(xiàn)方案中的對(duì)比實(shí)驗(yàn),參數(shù)統(tǒng)一取默認(rèn)值。實(shí)驗(yàn)使用文本情感分類領(lǐng)域常用的評(píng)價(jià)指標(biāo): 平均分類準(zhǔn)確率(Average Accuracy),其計(jì)算如式(4)所示。
(4)
第一組對(duì)比實(shí)驗(yàn)將不同輸入特征向量的單分類器和本文的方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示,其中不同的輸入特征向量分別如下:
(1) “l(fā)exicon+TF-IDF”: 表示輸入特征是基于情感詞典提取的詞語(yǔ),再使用TF-IDF方法對(duì)評(píng)論文本進(jìn)行向量化;
(2) “Word2Vec”: 表示采用Word2Vec對(duì)評(píng)論語(yǔ)料進(jìn)行訓(xùn)練,得到詞向量,再將詞向量相加求平均得到評(píng)論的輸入特征向量;
(3) “pos+freseq+opsm”: 表示將文中提到的三種特征進(jìn)行合并,再根據(jù)特征是否在評(píng)論中出現(xiàn)生成0/1輸入特征向量。
表3 和單分類器的實(shí)驗(yàn)對(duì)比結(jié)果(%)
第二組對(duì)比實(shí)驗(yàn)將不同的經(jīng)典集成學(xué)習(xí)算法和本文的方法進(jìn)行對(duì)比,集成學(xué)習(xí)算法包括Bagging、Boosting、Random Subspace,“Random Subspace_IG”代表基于信息增益的隨機(jī)子空間算法,輸入特征向量采用“pos+freseq+opsm”形式,實(shí)驗(yàn)結(jié)果如表4所示。
表4 和集成分類器的實(shí)驗(yàn)對(duì)比結(jié)果(%)
第三組對(duì)比實(shí)驗(yàn)將三種深度學(xué)習(xí)算法和本文的方法進(jìn)行對(duì)比,深度學(xué)習(xí)算法包括Recurrent Neural Networks(RNN)、Long Short-Term Memory(LSTM)、Gated Rucurrent Unit(GRU),“our approach(LR)”代表本文框架在LR基分類器算法上的分類準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如表5所示。
表5 和深度學(xué)習(xí)算法的實(shí)驗(yàn)對(duì)比結(jié)果(%)
綜合表3、表4和表5的實(shí)驗(yàn)結(jié)果可以看出: ①在單分類器實(shí)驗(yàn)中,“pos+freseq+opsm”的分類準(zhǔn)確率均高于“l(fā)exicon+TF-IDF”和“Word2Vec”,主要是因?yàn)榍罢卟捎萌N特征模式作為輸入特征,考慮了句子語(yǔ)序信息、句子長(zhǎng)度大小的影響、間隔詞組特征等因素,并且利用語(yǔ)義相似度克服了“l(fā)exicon+TF-IDF”的特征向量稀疏問(wèn)題; ②Random Subspace的情感分類準(zhǔn)確率均高于單分類器實(shí)驗(yàn)中的“pos+freseq+opsm”,主要原因是“pos+freseq+opsm”將feature_pos、feature_freseq和feature_opsm三種特征模式簡(jiǎn)單地進(jìn)行合并,造成特征向量非常稀疏,而Random Subspace則采用隨機(jī)劃分特征子空間的方法解決了特征稀疏問(wèn)題; ③“Random Subspace_IG”的情感分類準(zhǔn)確率稍高于經(jīng)典的Random Subspace,主要原因是“Random Subspace_IG”在Random Subspace基礎(chǔ)上考慮了特征的重要度權(quán)值,根據(jù)重要度權(quán)值抽取特征子空間,在保證基分類器之間獨(dú)立性的同時(shí),盡量提高基分類器的分類性能; ④本文方法的實(shí)驗(yàn)效果均好于三種經(jīng)典集成分類算法和“Random Subspace_IG”,特別是在LR分類算法上達(dá)到了90.3%的平均分類準(zhǔn)確率,主要原因是本文方法考慮了不同產(chǎn)品屬性對(duì)應(yīng)不完全相同的特征集合、相同的特征在不同產(chǎn)品屬性中可能起到的不同作用,并且綜合了評(píng)論文本中不同產(chǎn)品屬性的輸出分類概率,使得最終的分類結(jié)果更加精確; ⑤本文方法在情感分類任務(wù)上的準(zhǔn)確率比三種深度學(xué)習(xí)算法高,主要原因是本文方法考慮了更多中文評(píng)論語(yǔ)義信息和評(píng)論中不同產(chǎn)品屬性的情感信息。
本文提出了一種針對(duì)中文網(wǎng)絡(luò)評(píng)論情感分析任務(wù)的集成學(xué)習(xí)框架,該框架主要包含三個(gè)部分: 第一,采用詞性組合模式、頻繁詞序列模式和保序子矩陣模式作為輸入特征,使得特征攜帶更完整的語(yǔ)義信息和情感信息,并且利用語(yǔ)義相似度克服了特征向量稀疏問(wèn)題;第二,采用基于信息增益的隨機(jī)子空間算法,解決了評(píng)論文本復(fù)雜多樣而造成的特征繁多問(wèn)題,并且在保證基分類器之間獨(dú)立性的同時(shí)能盡量提高基分類器的分類性能;第三,采用基于產(chǎn)品屬性構(gòu)造基分類器的算法,考慮不同產(chǎn)品屬性對(duì)應(yīng)不完全相同的特征集合、相同的特征在不同產(chǎn)品屬性中可能起到的不同作用,并且綜合了評(píng)論文本中不同產(chǎn)品屬性的情感分類概率,使得最終的分類結(jié)果更加精確。實(shí)驗(yàn)結(jié)果證明本文的框架和不同特征輸入的單分類器、經(jīng)典的集成學(xué)習(xí)方法、一些深度學(xué)習(xí)方法相比,均可以獲得更好的情感分類效果。
在針對(duì)中文網(wǎng)絡(luò)評(píng)論的情感分類任務(wù)方面,未來(lái)還有很多工作需要深入研究。在隨機(jī)子空間算法中,利用中文語(yǔ)言學(xué)知識(shí)來(lái)選取特征子空間是一個(gè)可行的研究方向。另外,結(jié)合神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制,更加細(xì)致地分析不同產(chǎn)品屬性與特征對(duì)評(píng)論情感分類的影響,也是今后的重點(diǎn)研究工作之一。