王巍 趙鐵軍 徐冰 鄭德權(quán)
摘 要:評(píng)價(jià)文本的比較句識(shí)別是比較句情感分析的一項(xiàng)基礎(chǔ)任務(wù),具有重要的研究?jī)r(jià)值。提出中文比較句自動(dòng)識(shí)別的方法,首先對(duì)包含至少一個(gè)關(guān)鍵詞的候選比較句進(jìn)行抽取,從而形成候選比較句集合,而后通過(guò)對(duì)候選比較句集合采用多特征融合的分類(lèi)方法進(jìn)行分類(lèi)。實(shí)驗(yàn)結(jié)果表明比較句識(shí)別的性能達(dá)到87.26%的F1值。
關(guān)鍵詞:評(píng)價(jià)文本;情感分析;比較句識(shí)別;多特征融合
中圖分類(lèi)號(hào): TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào):2095-2163(2015)04-
Automatic Identify Chinese Comparative Sentences
WANG Wei, ZHAO Tiejun, XU Bing, ZHENG Dequan
(Machine Intelligence and Translation Laboratory, Harbin Institute of Technology, Harbin 150001, china)
Abstract: Comparative sentence identification in evaluative text is an essential task in comparative sentiment analysis, which has important research value. This paper proposes a comparative sentence identification method in Chinese. First, extract comparative candidates which contain at least a keyword to form a set of comparative candidates. Then identify comparative sentences from the set of candidates based on feature fusion. The experiment result shows the F1-score is 87.26%.
Key words: Evaluative Text; Sentiment Analysis; Comparative Sentence Identification; Feature Fusion
0 引 言
比較是一種重要的觀點(diǎn)表達(dá)方式和具有一定價(jià)值的認(rèn)知方式。人們可以通過(guò)比較來(lái)認(rèn)識(shí)未知事物,通過(guò)比較判斷多種相似事物的高下優(yōu)劣,以及通過(guò)比較獲取各種決策的依據(jù),比較影響著日常生活。在Web2.0時(shí)代,隨著網(wǎng)絡(luò)社會(huì)化媒體的快速發(fā)展,越來(lái)越多的用戶已經(jīng)從單純的網(wǎng)絡(luò)信息的閱讀者轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)信息的創(chuàng)造者和參與者。這些用戶在博客、微博、論壇、討論組等社會(huì)媒體中發(fā)表評(píng)論和比較觀點(diǎn),創(chuàng)造了大量的主觀性文本,對(duì)這些主觀性文本、尤其是其中的比較文本進(jìn)行挖掘,可以更快速地獲取有價(jià)值的信息,更真實(shí)地了解社情民意,具有重要的現(xiàn)實(shí)和研究意義。
比較句識(shí)別的處理對(duì)象是用戶的評(píng)論文本,其任務(wù)就是從評(píng)論文本中識(shí)別出具有比較含義的句子,可以將該任務(wù)看作比較句和非比較句的二元分類(lèi)任務(wù)。一些典型的比較句通常含有指示比較的關(guān)鍵詞,如“比”,“相似”,“不同”等,這些詞能夠表達(dá)實(shí)體之間的比較關(guān)系,在比較句識(shí)別中起著重要的作用。然而,含有這些指示詞的句子未必都是比較句,如“A的性能比較好”,類(lèi)似地,不含指示詞的句子也可能是比較句,如“手機(jī)A有GPS功能,而手機(jī)B沒(méi)有該功能”。因此,提出有效的方法實(shí)現(xiàn)比較與非比較信息的分類(lèi),是比較句情感分析的一項(xiàng)重要任務(wù)。
本文嘗試使用有監(jiān)督方法對(duì)比較與非比較信息進(jìn)行分類(lèi)。具體地,討論了如何根據(jù)比較的類(lèi)別提取候選比較句,以及如何利用句子內(nèi)部的詞語(yǔ)和模式特征進(jìn)行分類(lèi)?;诤蜻x比較句的識(shí)別結(jié)果,對(duì)比較與非比較句進(jìn)行分類(lèi),從而識(shí)別出比較句。實(shí)驗(yàn)表明,比較信息分類(lèi)能夠達(dá)到87.26%的F1值,基于支持向量機(jī)的方法可以有效識(shí)別出比較信息,同時(shí)基于比較句候選識(shí)別的方法可以有效平衡分類(lèi)數(shù)據(jù)。
1 相關(guān)工作
與比較觀點(diǎn)相關(guān)的工作主要集中于語(yǔ)言學(xué)和計(jì)算語(yǔ)言學(xué)兩個(gè)領(lǐng)域。在語(yǔ)言學(xué)領(lǐng)域,一些研究者對(duì)中文比較句的指示詞、句法形式、語(yǔ)義含義和分類(lèi)體系等方面進(jìn)行了研究。SHANG Ping[1]對(duì)現(xiàn)代漢語(yǔ)中比較句的各種分類(lèi)體系進(jìn)行了總結(jié),認(rèn)為比較句的研究需要堅(jiān)持語(yǔ)義與句法形式的充分結(jié)合,同時(shí)采用簡(jiǎn)單明了的分類(lèi)體系劃分方法。CHEN[2]等人研究了比較句中語(yǔ)法項(xiàng)目的選取與排序,同時(shí)對(duì)常用的20種漢語(yǔ)比較句句式進(jìn)行了總結(jié),并對(duì)每一種句式的使用頻率及該句式的語(yǔ)法項(xiàng)目選擇及排列情況進(jìn)行了統(tǒng)計(jì)。CHE Jing[3]對(duì)現(xiàn)代漢語(yǔ)比較句的句式范圍進(jìn)行了界定,并探討了比較句的結(jié)構(gòu)類(lèi)型、語(yǔ)義類(lèi)型和句法標(biāo)志詞等。這些研究從語(yǔ)言學(xué)的角度對(duì)比較句的語(yǔ)義和句法形式進(jìn)行了考察,為比較句的計(jì)算機(jī)自動(dòng)識(shí)別工作奠定了基礎(chǔ)。
在計(jì)算語(yǔ)言學(xué)領(lǐng)域,比較句的自動(dòng)識(shí)別方法主要有兩種:機(jī)器學(xué)習(xí)和模式匹配方法。一些研究者采用了機(jī)器學(xué)習(xí)的方法并獲得了較好的性能,比較句自動(dòng)識(shí)別的課題首先由Jindal和Liu[4]提出,通過(guò)采用有監(jiān)督學(xué)習(xí)的方法對(duì)每一個(gè)英文句子進(jìn)行分類(lèi),在模型的訓(xùn)練過(guò)程中引入了類(lèi)別序列規(guī)則特征,相應(yīng)的實(shí)驗(yàn)則獲得了79%的準(zhǔn)確率和81%的召回率。Huang[5]等人在Jindal工作的基礎(chǔ)上,使用3種有監(jiān)督學(xué)習(xí)方法來(lái)識(shí)別中文比較句。Park[6]等人研究了科學(xué)文章中的比較句識(shí)別問(wèn)題,通過(guò)使用3種分類(lèi)器(樸素貝葉斯、支持向量機(jī)和貝葉斯網(wǎng)絡(luò))來(lái)識(shí)別比較句,而且在模型的訓(xùn)練過(guò)程中引入了詞法、依存句法等35種特征。Yang[7]等人針對(duì)韓語(yǔ)比較句的識(shí)別問(wèn)題進(jìn)行研究,通過(guò)在候選比較句集合上使用有監(jiān)督學(xué)習(xí)方法來(lái)識(shí)別比較句。LI Jianjun[8]基于統(tǒng)計(jì)特征和序列特征,采用支持向量機(jī)和樸素貝葉斯模型來(lái)識(shí)別中文比較句。模式匹配是一種無(wú)監(jiān)督的學(xué)習(xí)方法,該方法依賴(lài)于所使用的模式庫(kù)。SONG Rui[9]等手工構(gòu)建了中文比較模式庫(kù)并利用該模式庫(kù)識(shí)別中文比較句。總體而言,機(jī)器學(xué)習(xí)方法的性能好于模式匹配方法。
2 中文比較句的識(shí)別
2.1 基于關(guān)鍵詞查找獲取比較句候選
大多數(shù)比較句含有指示比較的關(guān)鍵詞,如“相似”、“不如”等,為了得到這些關(guān)鍵詞,本文將比較句劃分為5種類(lèi)型,如表1所示。
研究中,很容易為前四類(lèi)句子找到顯式的比較詞,基本方法是基于同義詞擴(kuò)展。首先,利用語(yǔ)言學(xué)文獻(xiàn)構(gòu)建一個(gè)初始的關(guān)鍵詞集合 ,然而,初始關(guān)鍵詞集合無(wú)法覆蓋所有的比較表達(dá),因此基于同義詞的擴(kuò)展,即將初始的關(guān)鍵詞集合 擴(kuò)展為候選關(guān)鍵詞集合:
(1)
而后,從候選比較句集合中刪除那些頻率值低于指定閾值的詞語(yǔ)。對(duì)于第5類(lèi)句子(隱式比較句),顯然無(wú)法為其找到任何的顯式比較詞,如
例1: “X手機(jī)有藍(lán)牙,而Y手機(jī)沒(méi)有?!?/p>
這類(lèi)句子通常由兩個(gè)表達(dá)對(duì)比的短句組成,基于此,本文提出可為其構(gòu)建了詞-詞性序列,這些序列用來(lái)充當(dāng)比較詞的作用,如“
(2)
研究中的比較詞典共包含102個(gè)關(guān)鍵詞,30個(gè)序列。比較詞典構(gòu)建完成后,則使用該詞典提取比較句候選,具體地,如果一個(gè)句子包含一個(gè)或多個(gè)比較詞或序列,則該句子作為候選比較句。
2.2 基于多特征融合的候選比較句分類(lèi)
為了從候選比較句集合中過(guò)濾掉非比較句,在此采用了多特征融合的方法,使用支持向量機(jī)算法融合多種特征,進(jìn)行二元分類(lèi)。
2.2.1術(shù)語(yǔ)特征集合
一些詞語(yǔ)頻繁出現(xiàn)在一個(gè)類(lèi)別中,但很少出現(xiàn)在另一個(gè)類(lèi)別中,這些詞語(yǔ)對(duì)句子有一定的區(qū)分作用。因此,可以采用信息增益的方法來(lái)提取這些詞語(yǔ)(特征)。信息增益(IG)法依據(jù)某特征項(xiàng) 為整個(gè)分類(lèi)系統(tǒng)提供的信息量的多少來(lái)衡量其重要程度。某個(gè)特征項(xiàng) 的信息增益是指有該特征或沒(méi)有該特征時(shí),為整個(gè)分類(lèi)系統(tǒng)所提供的信息量的差別。令 代表目標(biāo)空間中類(lèi)別的集合,一個(gè)特征項(xiàng) 相對(duì)于一個(gè)分類(lèi)系統(tǒng) 的信息增益量定義如下:
(3)
其中, 代表特征項(xiàng) 出現(xiàn),而 代表特征項(xiàng) 不出現(xiàn)。公式(3)中第一項(xiàng)是初始分類(lèi)系統(tǒng)的熵值,第二項(xiàng)是當(dāng)給定一個(gè)特征項(xiàng)時(shí),系統(tǒng)條件熵的預(yù)期值。兩項(xiàng)的差即為某個(gè)特征項(xiàng)帶給分類(lèi)系統(tǒng)的信息增益量。 表示 類(lèi)句子在語(yǔ)料中出現(xiàn)的概率, 表示語(yǔ)料中包含特征項(xiàng) 的句子的概率, 表示句子包含特征項(xiàng) 時(shí)屬于 類(lèi)的條件概率, 表示語(yǔ)料中不包含特征項(xiàng) 的句子的概率, 表示句子不包含特征項(xiàng) 時(shí)屬于 類(lèi)的條件概率。
對(duì)于訓(xùn)練數(shù)據(jù)中的每一個(gè)詞語(yǔ),則需計(jì)算其信息增益值,并且選擇那些增益值高于指定閾值的術(shù)語(yǔ)。
2.2.2關(guān)鍵詞特征集合
同2.2.1節(jié)。
2.2.3 序列模式特征集合
比較句的語(yǔ)言模式不同于非比較句,這些模式可以用作機(jī)器學(xué)習(xí)的特征。為了挖掘比較句的序列模式,首先基于訓(xùn)練數(shù)據(jù)構(gòu)建了序列數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)構(gòu)建的過(guò)程如下:
(1) 將訓(xùn)練數(shù)據(jù)中的每個(gè)句子分解為若干子句,標(biāo)記每一個(gè)子句為比較或非比較。
(2) 對(duì)于每一個(gè)包含關(guān)鍵詞(一個(gè)或多個(gè)關(guān)鍵詞)的子句,以其中每個(gè)關(guān)鍵詞為中心生成一個(gè)序列,具體地,以關(guān)鍵詞為中心,將關(guān)鍵詞半徑為5的范圍內(nèi)的詞和詞性標(biāo)記作為一個(gè)序列。對(duì)于關(guān)鍵詞本身,使用實(shí)際詞作為一項(xiàng)。
(3) 每一個(gè)序列被分類(lèi)為或者比較或者非比較,根據(jù)生成該序列的子句的類(lèi)別。
序列數(shù)據(jù)庫(kù)準(zhǔn)備好以后,即使用具有多個(gè)最小支持度的PrefixSpan[10](Prefix-projected Sequential pattern mining)算法挖掘頻繁序列。設(shè)置多個(gè)最小支持度是因?yàn)橐恍╆P(guān)鍵詞在比較句中頻繁出現(xiàn),而另一些關(guān)鍵詞卻很少出現(xiàn),具體地,將在某一詞頻范圍內(nèi)的關(guān)鍵詞設(shè)置成相同的最小支持度。算法的結(jié)果需要滿足最小置信度閾值(在本文的實(shí)驗(yàn)中,最小置信度閾值設(shè)置為0.7,取得了最好的效果)。
例 2:“寶馬/NR 的/DEG 發(fā)動(dòng)機(jī)/NN 最/AD 棒/JJ !/ PU”
例2有關(guān)鍵詞“最”,一個(gè)以“最”為中心的序列如下:
<{NR} {DEG} {NN} {最} {JJ}>
3實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)采用2012年第四屆中文傾向性分析評(píng)測(cè)[12](COAE: Chinese Opinion Analysis Evaluation)提供的評(píng)測(cè)數(shù)據(jù)2 作為訓(xùn)練集和測(cè)試集。其中選用的語(yǔ)料來(lái)自兩個(gè)產(chǎn)品領(lǐng)域,汽車(chē)和電子產(chǎn)品,共計(jì)9 600個(gè)句子,其中包含1 624個(gè)比較句,7 976個(gè)非比較句。這些句子大多數(shù)是含有比較關(guān)鍵詞的典型比較句,也包含少量的隱式比較句。語(yǔ)料的詳細(xì)統(tǒng)計(jì)數(shù)據(jù)如表2所示。
3.2 實(shí)驗(yàn)結(jié)果與分析
3.2.1 比較句候選識(shí)別的實(shí)驗(yàn)結(jié)果
利用2.1節(jié)構(gòu)建的比較詞詞典搜索語(yǔ)料庫(kù),找到所有包含關(guān)鍵詞的句子,將這些句子加入候選比較句集合中。經(jīng)統(tǒng)計(jì),采用關(guān)鍵詞匹配方法識(shí)別比較句的準(zhǔn)確率是41.68%,召回率是97.29%。如此高的召回率和接近50%的準(zhǔn)確率使得該方法適合作為候選比較句的識(shí)別方法。
使用關(guān)鍵詞查找識(shí)別比較句候選獲得了非常高的召回率,這一方面說(shuō)明了大多數(shù)比較句中含有關(guān)鍵詞,另一方面說(shuō)明本文所構(gòu)建的關(guān)鍵詞詞典能夠覆蓋大部分的比較表達(dá);而該方法獲得了較低的準(zhǔn)確率,這表明不僅大多數(shù)比較句含有關(guān)鍵詞,而且大量的非比較句也含有關(guān)鍵詞。
3.2.2 比較句候選分類(lèi)的實(shí)驗(yàn)結(jié)果
在比較句候選分類(lèi)的實(shí)驗(yàn)中采用了10折交叉驗(yàn)證(10-fold cross-validation)的實(shí)驗(yàn)方法,取10次結(jié)果的平均值作為算法精度的估計(jì)。實(shí)驗(yàn)使用了由臺(tái)灣大學(xué)開(kāi)發(fā)的LIBSVM工具包,選用的SVM核函數(shù)是RBF核函數(shù)。模型訓(xùn)練后得到的最優(yōu)參數(shù)是gamma = 0.007 813 and C = 32。
研究設(shè)計(jì)的比較句候選分類(lèi)實(shí)驗(yàn)如下:
為了確定哪些特征能夠?yàn)榉诸?lèi)系統(tǒng)提供更多的信息,為此比較了單一特征和幾種特征組合的分類(lèi)性能,這些分類(lèi)特征包括術(shù)語(yǔ)(TM),比較關(guān)鍵詞(CK),序列模式(PS)等,最終所有特征的組合表現(xiàn)出了最好的性能。表3顯示了比較句候選分類(lèi)的實(shí)驗(yàn)結(jié)果。結(jié)果顯示召回率顯著低于準(zhǔn)確率,對(duì)于單一特征,比較關(guān)鍵詞和序列模式獲得了更好的分類(lèi)性能;對(duì)于組合特征,關(guān)鍵詞加術(shù)語(yǔ)特征的性能稍好于序列模式特征的性能,當(dāng)使用所有詞語(yǔ)和序列模式作特征時(shí),系統(tǒng)獲得了最佳的性能,F(xiàn)1值為87.26%。
4結(jié)束語(yǔ)
本文提出了中文文本的比較句識(shí)別方法,該方法由兩個(gè)步驟組成,(1) 基于關(guān)鍵詞查找方法識(shí)別候選比較句;(2)對(duì)候選比較句使用支持向量機(jī)模型進(jìn)行分類(lèi)。在分類(lèi)的過(guò)程中引入了關(guān)鍵詞、術(shù)語(yǔ)、序列模式等特征,實(shí)驗(yàn)結(jié)果表明本文的比較句識(shí)別方法是有效的。
參考文獻(xiàn):
[1] SHANG Ping. A Review on the system of comparative sentence. Applied Linguistics[J], 2006, (S2): 77-80.
[2] CHEN Jun, ZHOU Xiaobing. The selection and arrangement of grammatical items concerning comparative sentences[J]. Language Teaching and Research, 2005, (2): 22-33.
[3] CHE Jing. A brief analysis of comparative sentences in modern Chinese[J]. Journal of Hubei Normal University, 2005, 25(3): 60-63.
[4] JINDAL N, LIU Bing. Identifying comparative sentences in text documents[C]∥Proceedings of SIGIR06, Seattle, WA, USA: ACM, 2006: 244-251.
[5] HUANG Xiaojiang, WAN Xiaojun, YANG Jianwu, et al. Learning to identify comparative sentences in Chinese Text[C]∥Proceedings of PRICAI08, Hanoi, Vietnam: Springer, 2008: 187-198.
[6] PARK D, BLAKE C. Identifying comparative claim sentences in full-text scientific articles[C]∥Proceedings of ACL12, Jeju Island, Korea: Association for Computational Linguistics, 2012: 1-9.
[7] YANG S, KO Y. Finding relevant features for Korean comparative sentence extraction[J]. Pattern Recogn. Lett.,—PRL, 2011, 32(2): 293-296.
[8] LI Jianjun. Research on the Identification of Comparative Sentences and Relations and Its Application [D]. Chongqing:Chongqing University, 2011.
[9] SONG Rui, LIN Hongfei, CHANG Fuyang. Chinese comparative sentences identification and comparative relations extraction[J]. Journal of Chinese Information Processing, 2009, 23(2): 102-107.
[10] LIU Bing. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data[M]. Second Edition. Berline:Springer, 2011.
[11] LIU Kang, Wang Suge, Liao Xiangwen, et al. Overview of Chinese opinion analysis evaluation 2012[C]∥Proceedings of the 4st Chinese Opinion Analysis Evaluation, NanChang, China: The Professional Committee of Information Retrieval, 2012: 1-32.