陳 瑩,葉 寧,徐 康,王汝傳
(1.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院、軟件學(xué)院、網(wǎng)絡(luò)空間安全學(xué)院,江蘇 南京 210046;2.江蘇省無線傳感網(wǎng)高技術(shù)研究重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210046)
依托互聯(lián)網(wǎng)+逐層推進(jìn)的時(shí)代背景,足不出戶的網(wǎng)購(gòu)以不可逾越的地位占據(jù)人們的內(nèi)心世界,參與網(wǎng)購(gòu)的人數(shù)與涉及的商品服務(wù)種類與日俱增??梢?,網(wǎng)購(gòu)儼然成為一種時(shí)尚的潮流[1]。由此衍生出的在線評(píng)論數(shù)據(jù)呈爆發(fā)式增長(zhǎng)并且蘊(yùn)含著巨大的潛在價(jià)值[2]。對(duì)這些數(shù)據(jù)的有效挖掘可以幫助公司和商家深入了解消費(fèi)者需求,從而提高產(chǎn)品的質(zhì)量。但是,僅從文檔層面或句子層面分析還不足以探究用戶的意見。人們通常對(duì)產(chǎn)品的各個(gè)方面進(jìn)行評(píng)論,包括產(chǎn)品的組成部分以及屬性。因此,有必要對(duì)產(chǎn)品特征級(jí)別的觀點(diǎn)進(jìn)行提煉,而不是針對(duì)整個(gè)產(chǎn)品或整個(gè)評(píng)論文本。
然而,分析客戶評(píng)論以獲得更細(xì)粒度理解的自動(dòng)化任務(wù)面臨著許多挑戰(zhàn),特別是由于在客戶評(píng)論中并不總是顯式地提出。已有的技術(shù)和研究大都只是致力于從評(píng)論語料中挖掘和抽取在評(píng)論語句中顯式出現(xiàn)了的評(píng)價(jià)對(duì)象[3]。而根據(jù)Kim和Flavius的研究可知,產(chǎn)品中許多重要的特性也會(huì)被消費(fèi)者含蓄地提到[4]。例如評(píng)論句“手機(jī)很小,可以放進(jìn)我的口袋里”隱式地表達(dá)了關(guān)于手機(jī)“尺寸”方面的意見。隱式特征的提取是一個(gè)復(fù)雜的問題。文中主要研究隱式方面識(shí)別。
考慮如下關(guān)于電子產(chǎn)品領(lǐng)域的評(píng)論:
例子1 “很棒,很順暢不卡頓?!?/p>
例子2 “還不錯(cuò),可以隨身攜帶。”
例子3 “昨天下單,今天收到貨了。”
這些評(píng)論句不難發(fā)現(xiàn)都有一個(gè)共通之處即不包含明確的特征詞。但在例句1中,根據(jù)觀點(diǎn)詞“順暢、卡頓”可輕易推斷出用戶是在描述系統(tǒng)這一特征。例句2中有觀點(diǎn)詞“不錯(cuò)”,但由于其適配性很難僅從詞語本身識(shí)別出特征,結(jié)合下文中提到的“隨身攜帶”可知用戶是想表達(dá)關(guān)于“尺寸”這一特征的觀點(diǎn)。例句3中沒有任何評(píng)價(jià)詞,但根據(jù)“收到貨”這一非觀點(diǎn)詞可知是在描述“物流”這一特征。所以,根據(jù)上述分析可知,借助評(píng)論句中的觀點(diǎn)詞或非觀點(diǎn)詞可間接地識(shí)別出隱式特征。
在現(xiàn)有的研究中,隱式特征識(shí)別大致采用共現(xiàn)分析、關(guān)聯(lián)規(guī)則、主題模型及分類等方法,其中基于共現(xiàn)和關(guān)聯(lián)規(guī)則的關(guān)系推斷法最普遍[5]。這兩種研究方法主要是依賴觀點(diǎn)詞與特征屬性之間的映射關(guān)系,利用帶有標(biāo)簽的語料庫(kù)訓(xùn)練模型來提取隱式特征。但隨著線上交易量的日益劇增,在線評(píng)論的數(shù)據(jù)量也越來越多,需要消耗大量人力資源。研究者開始專注于無監(jiān)督方法。主題模型,如PLSA和LDA,在自然語言處理的許多任務(wù)中很流行,它們也可以用來識(shí)別隱式特征[6-7]。
但這些方法沒有考慮在沒有觀點(diǎn)詞的情況下非觀點(diǎn)詞對(duì)識(shí)別隱式特征的指導(dǎo)性,而且有的方法也忽視了詞的語義信息,使得隱式識(shí)別的精度和準(zhǔn)確度不是很高。所以,文中面向隱式特征識(shí)別這一研究難點(diǎn),提出了一種基于領(lǐng)域特征指示詞的隱式特征識(shí)別方法。該方法首先利用多詞型的主題情感聯(lián)合模型自動(dòng)地從包含顯式特征的評(píng)論句中挖掘出“特征-情感”和“特征-非觀點(diǎn)”詞對(duì)集,整合成特征指示詞集;再引入詞向量模型作為衡量隱式評(píng)論句中線索詞與特征指示詞集中詞項(xiàng)語義相關(guān)度的標(biāo)準(zhǔn);最后根據(jù)線索詞的類型對(duì)隱式特征分情況進(jìn)行識(shí)別。
隱式特征首先在Liu等人中進(jìn)行了討論[5],他們給出了隱式特征的定義。從那時(shí)起,一些研究開始關(guān)注隱式特征的識(shí)別。目前的研究可分為監(jiān)督識(shí)別、無監(jiān)督識(shí)別和半監(jiān)督識(shí)別三類。文中主要基于無監(jiān)督識(shí)別展開研究。
Prasojo等人擴(kuò)展了傳統(tǒng)的命名實(shí)體識(shí)別方法,利用形容詞到方面的映射將特征集關(guān)聯(lián)到每個(gè)實(shí)體[8],然后,他們選擇頻率最高的特征作為目標(biāo)。Santu等人結(jié)合一個(gè)背景語言模型和幾個(gè)特征語言模型生成評(píng)論中的每個(gè)單詞。他們通過期望最大化(EM)估計(jì)參數(shù),并檢測(cè)最終的隱含特征列表[9]。Xu等[6]預(yù)先定義特征類別,將在包含顯式特征的評(píng)論句中得到的約束和先驗(yàn)知識(shí)納入主題模型LDA得到特征類別的相關(guān)詞語,以這些詞語為特征對(duì)評(píng)論句建模,通過構(gòu)建SVM分類器識(shí)別隱式特征。Sun等[7]使用聯(lián)合主題模型進(jìn)行隱式特征提取。他們將與隱含特征相關(guān)的意見詞分為兩類,即特殊意見詞和一般意見詞。一般意見詞可以與許多不同的特征共同出現(xiàn),而特殊意見詞只與一個(gè)特定的特征共同出現(xiàn)。他們計(jì)算了兩個(gè)概率分布,一個(gè)是主題的意見分布,另一個(gè)是主題和意見的上下文分布。最后,他們使用這些值進(jìn)行隱式特征提取。張莉等基于領(lǐng)域中的常用詞對(duì)特征詞進(jìn)行聚類,通過精簡(jiǎn)意見詞和對(duì)其進(jìn)行同義詞擴(kuò)展,構(gòu)建<特征 觀點(diǎn) 權(quán)重> 三元組字典,用于識(shí)別隱式特征[10]。
此外,還有許多其他方法,如關(guān)聯(lián)規(guī)則挖掘(Zhang等)[11]和共現(xiàn)關(guān)系(Rana and Cheah[12];Makadia[13])用于無監(jiān)督隱式特征識(shí)別。
文中所提出的方法具體如圖1所示,主要包括三個(gè)步驟。首先,利用多詞型的主題情感聯(lián)合模型進(jìn)行特征主題聚類并從顯式評(píng)論句中提取出“特征-特征指示”詞對(duì)集;接著,使用語言技術(shù)平臺(tái)LTP對(duì)隱式評(píng)論句進(jìn)行詞性標(biāo)注,產(chǎn)生候選線索詞,利用詞向量模型計(jì)算線索詞與特征指示詞的語義相似度為線索詞匹配特征指示詞;最后,根據(jù)所匹配到的特征指示詞類型分情況采用不同的方法進(jìn)行隱式特征的指派。
圖1 基于領(lǐng)域特征指示詞的隱式特征識(shí)別方法框架
2.2.1 模型概述
ASUM(aspect and sentiment unification model)模型基于LDA(latent Dirichlet allocation)進(jìn)行改進(jìn),假設(shè)每個(gè)句子只有一個(gè)主題以及這個(gè)主題下的情感傾向。因此,模型的主要目的便是從評(píng)論文本中提取出每一個(gè)句子中的(特征,情感)對(duì),以此作為情感分析的依據(jù)[3]。但是ASUM并未區(qū)分表示主題的詞語是特征詞,或特征指示詞還是情感詞,要想明確得到詞語的類型,還需要人為地進(jìn)行辨別。因此,為了能從顯式評(píng)論句中自動(dòng)挖掘出基于領(lǐng)域的“特征-情感”和“特征-非觀點(diǎn)”詞對(duì)集并充分利用主題模型的主題(特征)聚類性質(zhì),文中基于ASUM模型的假設(shè)提出一個(gè)多詞型的主題情感聯(lián)合模型。該模型通過加入表示單詞類型的隱含變量,建立其與單詞的關(guān)系,進(jìn)一步獲得類型同單詞的概率分布,從而可以識(shí)別出單詞的類型。
多詞型的主題情感聯(lián)合模型的圖形化表示如圖2所示,相關(guān)的變量和符號(hào)在表1中給出解釋。
表1 多詞型的主題情感聯(lián)合模型圖字母含義
圖2 多詞型的主題情感聯(lián)合模型圖形化表示
多詞型的主題情感聯(lián)合模型通過引入一個(gè)隱含變量y來表示單詞的類型。y∈{0,1,2,3}分別表示單詞w是一個(gè)通用情感詞,特定的情感詞,特征詞以及非觀點(diǎn)特征指示詞。模型根據(jù)一個(gè)先驗(yàn)的狄利克雷分布生成詞語的類型分布,狄利克雷分布是多項(xiàng)式分布的共軛分布,共軛的特性可以使得先驗(yàn)分布和后驗(yàn)分布的形式相同,可以形成一個(gè)先驗(yàn)鏈[8]。
大多數(shù)的產(chǎn)品評(píng)論其實(shí)都是一句話包含一個(gè)特征以及對(duì)其評(píng)價(jià)觀點(diǎn),所以為了挖掘針對(duì)同一實(shí)體產(chǎn)品的評(píng)論集中不同特征以及觀點(diǎn),此模型假設(shè)同一個(gè)句子的單詞屬于同一個(gè)主題(特征)和情感極性,則每一篇文檔在此模型下的生成過程如下:
(1)生成一個(gè)詞的類型分布ρ~Dir(ε);
(2)生成一個(gè)情感分布πd~Dir(γ);
(3)對(duì)每一個(gè)情感傾向l,生成一個(gè)主題分布θd,l~Dir(α);
(5)對(duì)于每一個(gè)情感傾向l和主題z,生成三種類型的詞語分布:
(6)對(duì)于文檔中每一個(gè)句子:
(a)選擇一個(gè)情感標(biāo)簽l~Multi(πd);
(b)選擇一個(gè)主題z~Multi(θd,l)。
(7)對(duì)于每一個(gè)單詞wi∈d:
(a)將它所屬文檔的情感標(biāo)簽l分配給它;
(b)選擇一個(gè)主題zi~Multi(θd,l);
(c)選擇單詞的類型yi~Multi(ρ);
(d)選擇單詞wi:
2.2.2 參數(shù)估計(jì)
多詞型的主題情感聯(lián)合模型的參數(shù)估計(jì)使用了吉布斯采樣。在采樣初始化過程中,引入情感詞典、領(lǐng)域情感詞典以及領(lǐng)域特征詞典作為先驗(yàn)知識(shí),以便能更準(zhǔn)確地采樣出詞語的類型。具體做法就是,在初始化時(shí)遍歷所有文檔中每一個(gè)單詞,若單詞存在于這三個(gè)詞典里,便對(duì)其標(biāo)注相應(yīng)的詞語類型。
為了獲得π,θ,φ和ρ,在吉布斯的采樣過程中會(huì)依次采樣出每一個(gè)單詞的主題,情感傾向以及單詞的類型?,F(xiàn)在大多數(shù)產(chǎn)品評(píng)論都是內(nèi)容精短但語義信息豐富的形式,若單純將每一個(gè)評(píng)論看作是一篇文檔,會(huì)因?yàn)槲谋镜南∈栊栽斐刹蓸咏Y(jié)果準(zhǔn)確率不高的情況。而文中是為了挖掘某一實(shí)體產(chǎn)品的不同特征,其評(píng)論都是圍繞產(chǎn)品不同特征進(jìn)行評(píng)價(jià),評(píng)論句之間都有一定的語義相似度。所以為了解決評(píng)論文本稀疏性問題,文中在多詞型的主題情感聯(lián)合模型的采樣過程中,將所有評(píng)論看作是一篇長(zhǎng)的偽文檔進(jìn)行采樣。首先,為每一個(gè)單詞采樣一個(gè)主題和情感標(biāo)簽,主題和情感標(biāo)簽是聯(lián)合采樣,采樣條件公式如公式(1)所示,公式中具體符號(hào)含義在表2中給出解釋。
(1)
接著對(duì)詞語類型進(jìn)行采樣。基于狄利克雷的先驗(yàn)分布,第i個(gè)單詞的詞語類型y的采樣條件公式如公式(2)所示,公式中具體符號(hào)含義也在表2中給出解釋。
(2)
p(yi=t|y-i,l,z,w)∞
為了后續(xù)隱式特征識(shí)別的引用,將從顯式評(píng)論中挖掘出的特征指示詞對(duì)集整合成如下形式。每一個(gè)特征類別(F1F2…Fm)下對(duì)應(yīng)一般情感詞、特征情感詞以及非觀點(diǎn)情感詞三種類型詞語,每一種詞類型下保留概率top 20的詞語,對(duì)其進(jìn)行篩選,留下語義相關(guān)性強(qiáng)的詞語,如表3所示。
表3 特征-詞型-指示詞
文中基于特征指示詞集識(shí)別隱式特征,關(guān)鍵步驟就是為隱式評(píng)論句中的線索詞尋找到最匹配的指示詞。利用多詞型的主題情感聯(lián)合模型所挖掘出的特征指示詞集雖然在主題聚類以及自動(dòng)化方面比較好,但會(huì)因?yàn)榛谠~共現(xiàn)的原理而忽視一些低頻但語義相關(guān)度很高的詞語,使得匹配指示詞的結(jié)果不是很成功。所以,為了能在特征指示詞集中成功匹配到與線索詞相關(guān)聯(lián)度最高的指示詞,引入了詞向量模型。
詞向量概念Word2Vec的核心思想是通過上下文學(xué)習(xí)詞的向量表示。詞向量的表示能夠反映詞的語義信息并且利用其空間距離可測(cè)度詞項(xiàng)間的語義關(guān)聯(lián)度。詞向量有CBOW(continuous bag of words)和Skip-gram 兩個(gè)重要模型,二者主要的區(qū)別在于CBOW利用上下文預(yù)測(cè)詞項(xiàng),Skip-gram則是根據(jù)詞項(xiàng)預(yù)測(cè)上下文。文中選擇CBOW模型,借助Python的Genism工具包構(gòu)建詞向量,向量維度100,上下文窗口尺寸5[10]。
(3)
隱式評(píng)論句中的線索詞一般為觀點(diǎn)詞和非觀點(diǎn)詞兩種。文中利用語言技術(shù)平臺(tái)LTP對(duì)評(píng)論句進(jìn)行詞性標(biāo)注,保留下形容詞、名詞或名詞性短語以及動(dòng)詞或動(dòng)詞性短語作為候選線索詞和上下文詞。為了提高隱式特征識(shí)別的準(zhǔn)確率,依據(jù)隱式評(píng)論句中線索詞的類別對(duì)隱式特征分情況進(jìn)行識(shí)別。
具體步驟如下:
Step 1:選擇線索詞。若評(píng)論句中有形容詞,則將形容詞視為線索詞。否則,將動(dòng)詞或動(dòng)名詞視為線索詞。
Step 2:匹配特征指示詞。若線索詞是形容詞,利用公式(3)計(jì)算其與表3中G和O兩種類型下詞語的關(guān)聯(lián)度,選擇關(guān)聯(lián)度最高的詞項(xiàng)作為其特征指示詞。若線索詞是動(dòng)詞或動(dòng)名詞,利用公式(3)計(jì)算其與表3中I類型下詞語的關(guān)聯(lián)度,也是選擇關(guān)聯(lián)度最高的詞項(xiàng)作為其特征指示詞。
Step 3:依據(jù)特征指示詞的類型分情形識(shí)別隱式特征。
(1)特征指示詞是特定情感詞或非觀點(diǎn)詞,將其所屬特征類別直接匹配給線索詞。
(2)特征指示詞是一般情感詞,需要結(jié)合線索詞的上下文詞。選定線索詞鄰近的名詞或動(dòng)詞作為上下文詞,并根據(jù)公式:
(4)
計(jì)算公式如下:
(5)
(6)
算法1:描述了隱式特征識(shí)別的過程。
Algorithm 1:隱式特征識(shí)別
輸入:線索詞集Wcue,線索詞的上下文詞集,特征指示詞集WInd
輸出:相匹配的隱式特征集
1 對(duì)Wcue里的每一個(gè)線索詞wcue:
2 如果wcue是形容詞:
3 對(duì)特征指示詞集WInd里一般情感詞和特定情感詞類型下的每一個(gè)特征指示詞wInd:
4 計(jì)算余弦相似度sim(wcue,wInd);
5 循環(huán)結(jié)束
6 否則
7 對(duì)特征指示詞集WInd里非觀點(diǎn)詞類型下的每一個(gè)特征指示詞wInd:
8 計(jì)算余弦相似度sim(wcue,wInd);
9 循環(huán)結(jié)束
10 得到線索詞語義相似度最大的特征指示詞wInd',特征指示詞的類型及其所屬特征;
11 如果wInd'的類型是特定觀點(diǎn)詞或非觀點(diǎn)詞:
12 預(yù)測(cè)wInd'所屬的特征為相對(duì)應(yīng)線索詞的目標(biāo)特征;
13 否則
14 利用線索詞的上下文詞和wInd'計(jì)算候選特征集的得分;
15 預(yù)測(cè)得分最高的候選特征為相對(duì)應(yīng)線索詞的目標(biāo)特征
文中使用了五個(gè)不同產(chǎn)品的用戶評(píng)論來評(píng)估所提出的方法,分別是酒店、手機(jī)、平板、計(jì)算機(jī)和衣服。每種產(chǎn)品的評(píng)論數(shù)量是10 000條。使用Python工具包nltk和語言技術(shù)平臺(tái)LTP對(duì)評(píng)論進(jìn)行分句、去除停用詞、分詞和詞性標(biāo)注等操作。經(jīng)過篩選,各產(chǎn)品的隱式評(píng)論句大約占評(píng)論總數(shù)的25%左右,可見識(shí)別隱式特征具有重要的意義,能夠更全面捕捉特征信息,進(jìn)一步提升情感分析的精度。
為了訓(xùn)練多詞型情感主題情感聯(lián)合模型,依據(jù)文獻(xiàn)[14],將參數(shù)γ設(shè)置為1,表示各種情感出現(xiàn)的概率相同。參數(shù)β為了結(jié)合種子詞,采用非對(duì)稱取法,負(fù)向單詞情感采樣的時(shí)候,正向單詞的先驗(yàn)為0,其他設(shè)為0.001,同理正向采樣時(shí),負(fù)向單詞先驗(yàn)為0,其他也設(shè)為0.001。參數(shù)α和參數(shù)ε則分別設(shè)置為0.1和0.25,迭代1 000次。
文中使用精準(zhǔn)度precision以及召回率recall作為評(píng)價(jià)指標(biāo),如公式(7)和公式(8)所示。
(7)
(8)
3.4.1 特征指示詞集
在進(jìn)行隱式特征識(shí)別之前,首先需要建立一個(gè)“特征-特征指示”詞對(duì)集。表4展示了一個(gè)關(guān)于酒店的顯式評(píng)論句的挖掘結(jié)果樣例。實(shí)驗(yàn)設(shè)定主題(特征)個(gè)數(shù)為8,依據(jù)各主題下的特征詞描述可知這8個(gè)特征分別為:地理位置、環(huán)境、服務(wù)態(tài)度、酒店設(shè)施、餐飲、價(jià)格、網(wǎng)上預(yù)訂以及人氣。可以發(fā)現(xiàn)地理位置、價(jià)格、服務(wù)態(tài)度和酒店設(shè)施這四個(gè)類別下不同類型的詞語分布比較均勻,而環(huán)境、餐飲、網(wǎng)上預(yù)訂以及人氣這四個(gè)類別則是某一類型下的詞語分布比較突出。由于主題模型依賴數(shù)據(jù)質(zhì)量,使用的數(shù)據(jù)量不夠,出現(xiàn)了一些無效詞。
表4 特征指示詞集
3.4.2 隱式特征識(shí)別
文中識(shí)別隱式特征很大程度上依賴于多詞型的主題情感聯(lián)合模型的采樣結(jié)果和詞向量模型的訓(xùn)練,而在線索詞為一般情感詞的情況下又考慮了上下文的權(quán)重。文獻(xiàn)[7]基于標(biāo)準(zhǔn)LDA模型提出了一種改進(jìn)的主題模型聯(lián)合主題-意見模型(JTO),用于提取意見詞的隱含特征,包括特殊意見詞和一般意見詞。文獻(xiàn)[15]試圖通過構(gòu)建改進(jìn)矩陣和實(shí)現(xiàn)LDA主題模型來得到兩個(gè)概率分布。采用余弦相似度考慮上下文權(quán)重,計(jì)算意見詞候選特征的得分來實(shí)現(xiàn)隱式特征識(shí)別。所以,文中選擇與文獻(xiàn)[7,15]中用到的方法進(jìn)行比較。評(píng)估指標(biāo)的計(jì)算依賴于手工注釋。結(jié)果如圖3和圖4所示,其中JTO和CW分別表示文獻(xiàn)[7]和文獻(xiàn)[15]中所用的方法,MI則表示文中方法。
圖3 隱式特征識(shí)別的準(zhǔn)確率
圖4 隱式特征識(shí)別的召回率
依據(jù)圖中數(shù)據(jù)可以看到,在平板這產(chǎn)品數(shù)據(jù)集上,MI方法的準(zhǔn)確率和召回率比JTO和CW要低,有可能是因?yàn)槎嘣~型的主題情感聯(lián)合模型在這一數(shù)據(jù)集上的表現(xiàn)不是很好。而在整體上,經(jīng)過統(tǒng)計(jì)發(fā)現(xiàn)MI方法在精確率和召回率上比文獻(xiàn)[7]中JTO方法平均高出3%,比文獻(xiàn)[15]中CW方法平均高出2%,這可能是因?yàn)镴TO和CW雖然考慮了觀點(diǎn)詞和上下文詞的權(quán)重,但卻忽視了詞的語義信息和非觀點(diǎn)詞的指示性。綜合上述分析,證明了文中提出的基于領(lǐng)域特征指示詞的隱式特征識(shí)別方法的有效性。
文中提出了一種基于領(lǐng)域特征指示詞的隱式特征識(shí)別方法。該方法首先通過在ASUM模型中加入表示詞語類型的隱含變量構(gòu)建多詞型的主題情感聯(lián)合模型,利用該模型對(duì)特定領(lǐng)域的顯式評(píng)論句進(jìn)行特征類別下指示詞的挖掘。然后,在隱式特征的識(shí)別過程中,引入詞向量模型作為衡量隱式評(píng)論句中線索詞與特征指示詞集中詞項(xiàng)語義相關(guān)度的標(biāo)準(zhǔn),并根據(jù)線索詞的類型來分情況實(shí)現(xiàn)對(duì)隱式特征的指派。實(shí)驗(yàn)表明,該方法在隱式特征識(shí)別方面有著較好的精確度與召回率。但是該方法只能識(shí)別隱式評(píng)論句的特征類別,卻不能進(jìn)一步識(shí)別其所表達(dá)的情感傾向。所以在以后的工作中,將嘗試研究評(píng)論句中隱式情感的識(shí)別,以獲得評(píng)論用戶更全面的情感信息。