劉全升,姚天昉
(上海交通大學(xué) 計(jì)算機(jī)科學(xué)與工程系,上海 200240)
隨著互聯(lián)網(wǎng)的迅速發(fā)展和廣泛普及,更多的人通過博客、BBS等網(wǎng)絡(luò)媒介記錄自己的心情,發(fā)表對各種事物的評論。這些帶有傾向性觀點(diǎn)的信息,不論對于普通的網(wǎng)絡(luò)用戶,還是對于產(chǎn)品生產(chǎn)商以及其他機(jī)構(gòu)組織等都有很重要的價值。為了支持上述應(yīng)用,我們需要更準(zhǔn)確,更高效地分析與處理評論。在這一背景下,針對網(wǎng)絡(luò)上網(wǎng)頁內(nèi)容獲得有用觀點(diǎn)并對其進(jìn)行傾向性分析的觀點(diǎn)檢索技術(shù)應(yīng)運(yùn)而生,在市場預(yù)測分析,有害信息過濾,社會輿情分析,智能導(dǎo)購等諸多領(lǐng)域有著廣闊的應(yīng)用空間和發(fā)展前景。
觀點(diǎn)檢索,是指利用信息檢索與情感分析等技術(shù),尋找與主題相關(guān)且具有針對主題的觀點(diǎn)評論等信息的文檔,是主題檢索與傾向性分析相結(jié)合的研究工作。Hurst等人[1]首次考慮了主題因素和傾向性因素,用于尋找與給定主題相關(guān)的傾向性信息,但只關(guān)注與主題相關(guān)的傾向性信息是否出現(xiàn),而沒有考慮其強(qiáng)度問題。Eguchi等人[2]在一個較小的文本集合上,提出了一個統(tǒng)計(jì)語言模型檢索框架—生成式概率語言模型,并提出了一個傾向性強(qiáng)度的計(jì)算共識,將主題相關(guān)性與情感傾向性度量相結(jié)合,進(jìn)行了情感信息檢索 (Sentiment Retrieval)的嘗試。Skomorowski[3]提出了一種新的基于查詢主題的ad-hoc文本檢索方法,根據(jù)文本對一個查詢詞條表達(dá)出觀點(diǎn)內(nèi)容的似然度,對每篇文本進(jìn)行排序,檢索出含有針對查詢主題的主觀性內(nèi)容的文本。He等人[4]提出了一個精簡而高效的以詞典為基礎(chǔ)的統(tǒng)計(jì)方法用于自動從博客集合中搜集主觀性表達(dá)式,通過這些表達(dá)式進(jìn)行意見型博客的檢索可以達(dá)到很好的效果。本文提出了一種基于關(guān)聯(lián)度的觀點(diǎn)檢索算法,綜合考慮了觀點(diǎn)檢索過程中各因素之間的相互影響問題,并通過實(shí)驗(yàn)證明該方法具有較好的效果。
在觀點(diǎn)檢索中,最重要的是尋找主題相關(guān)的文本,觀點(diǎn)檢索的最后排序結(jié)果中,文本的主題關(guān)聯(lián)度具有支配作用,主題檢索過程中得到的文本主題相關(guān)度對觀點(diǎn)檢索的最后結(jié)果的影響比文本的傾向性強(qiáng)度要大得多。這可以從實(shí)驗(yàn)結(jié)果以及觀點(diǎn)檢索的直接目的看出[5]。因此觀點(diǎn)檢索的過程可以表述為: 在給定文檔集合中尋找與給定主題相關(guān)并且包含有對主題評論的文本,通過計(jì)算文檔集合C中每篇文檔d與查詢q、情感s三者的總關(guān)聯(lián)度Score(q,s,d),得到各個文本的條件概率結(jié)果并排序,我們的算法如下:
1. 觀點(diǎn)檢索中重點(diǎn)在于主題檢索,傾向性分析和二者的融合,整個檢索過程可以看成是計(jì)算Score(q,s,d)值的過程。
2. 在觀點(diǎn)檢索中,主題檢索具有最重要的地位,文本的主題相關(guān)度得分對觀點(diǎn)檢索最后結(jié)果的影響最大。因此,在觀點(diǎn)檢索過程中,需要突出主題檢索的重要性,在主題檢索與傾向性融合的過程中,分別對主題檢索相關(guān)度和傾向性強(qiáng)度賦予不同的擬合系數(shù),因此,Score(q,s,d)可以看成是如下等式:
Score(q,s,d)=Ffit(Score(q,d),Scoreq,s∈d(q,s))
=λScoreq∈d(q,d)
+(1-λ)Scoreq,s∈d(q,s)
(1)
3. 重點(diǎn)考慮主題檢索過程中的查詢擴(kuò)展,對主題檢索的相關(guān)性強(qiáng)度的計(jì)算需要分別考慮其給定的查詢與查詢擴(kuò)展詞實(shí)現(xiàn)的文本相關(guān)度。計(jì)算如下: 對查詢擴(kuò)展中不同的查詢擴(kuò)展詞給予不同的權(quán)重,這一權(quán)重為擴(kuò)展詞與給定查詢本身的關(guān)聯(lián)度。因此,公式(1)可以寫成:
其中,在公式(1)和(2)中,λ為擬合系數(shù)。
4. 計(jì)算文本中針對查詢的傾向性強(qiáng)度,從兩個方面進(jìn)行考慮,分別是: 文檔中包含詞匯的情感程度,情感詞與查詢主題之間的關(guān)聯(lián)度。將文檔看成是一個詞匯系列,則文檔d中針對查詢qi的傾向性強(qiáng)度Scoreqi,s∈d(qi,s)采用公式(3)進(jìn)行衡量:
其中,qi是查詢主題,Score_Sop(s,si)表示文檔d中包含情感詞si,以及副詞、否定詞等組成的情感單元的傾向性強(qiáng)度。Score_Srel(qi,si)表示情感單元與查詢詞之間的關(guān)聯(lián)度。
將公式(3)代入公式(2)中,即得到總的觀點(diǎn)檢索的計(jì)算公式。該公式從理論上充分考慮了文本的主題檢索相關(guān)度與傾向性強(qiáng)度在觀點(diǎn)檢索過程中的不同作用。同時,公式中充分考慮了查詢擴(kuò)展、擴(kuò)展詞以及查詢詞的關(guān)聯(lián)度。此外,還考慮了情感檢索過程中情感程度以及情感詞與查詢的關(guān)聯(lián)程度。
2.2.1 查詢主題與擴(kuò)展主題關(guān)聯(lián)度的計(jì)算
在查詢擴(kuò)展階段,本文使用外部資源與偽相關(guān)反饋相結(jié)合的方法進(jìn)行查詢擴(kuò)展,由q擴(kuò)展成q1,q2,q3…qn,然后分別計(jì)算各個擴(kuò)展詞與原查詢之間的關(guān)聯(lián)度,選取擴(kuò)展詞以及計(jì)算關(guān)聯(lián)度的算法如下:
1. 給定查詢q,判斷q的長度,若q為長查詢,則需要對其進(jìn)行分詞,分詞后的各個詞作為I類候選擴(kuò)展詞qI。
2. 將q輸入互動百科資源中,選擇查詢詞條,從中抽取部分詞匯作為候選擴(kuò)展詞匯。
3. 對查詢q在給定文本集合中使用主題檢索算法檢索相關(guān)文本,選取返回結(jié)果中的前10篇文本,若步驟2中的候選擴(kuò)展詞沒在這10篇文檔中出現(xiàn),則去除,不予考慮。
4. 對步驟2中剩下的候選詞使用Google搜索引擎計(jì)算其與原查詢詞之間的偏序化關(guān)聯(lián)度值[6],其計(jì)算方法見公式(5)。然后對結(jié)果進(jìn)行排序,選取關(guān)聯(lián)度值最高的5個詞作為II類候選擴(kuò)展詞qII。
5. 返回I類和II類的擴(kuò)展詞作為查詢q的候選擴(kuò)展詞,并返回作為最后的擴(kuò)展詞。
計(jì)算上述擴(kuò)展詞qi與原查詢q的關(guān)聯(lián)度Score_Qrel(q,qi)的算法如下所示:
1. Ifqi=qthenScore_Qrel(q,qi)=1 返回結(jié)果。
(4)
3. ?qi∈qII,計(jì)算每個qi的關(guān)聯(lián)度,我們使用偏序化權(quán)重衡量,使用商業(yè)搜索引擎Google檢索(qi,q)以及qi返回的文檔量count(qi,q)以及count(qi)來衡量二者的相關(guān)度。
(5)
4. 計(jì)算完畢,返回所有查詢擴(kuò)展詞與給定查詢q的關(guān)聯(lián)度Score_Qrel(q,qi)。
2.2.2 每個查詢詞與文本關(guān)聯(lián)度的計(jì)算
本文使用概率檢索模型和語言模型用于衡量查詢詞與文本之間的相似程度。目前最具有代表性的概率檢索相似度計(jì)算公式有概率檢索模型的Okapi BM25公式和語言模型的狄利克雷先驗(yàn)平滑公式,上述公式計(jì)算Scoreqi∈d(qi,d)如下:
其中,w為詞,qi為查詢,|qi|為查詢詞的個數(shù),d為文檔,|d| 為文檔詞數(shù),C為文檔集合,avdl是平均文檔集合中每個文檔的詞數(shù),N為文檔集合的文檔數(shù)。C(w,d)為詞w在文檔d中的詞頻,c(w,qi)為詞w在查詢qi中的詞頻,df(w)為出現(xiàn)過詞w的文檔數(shù),p(w|C)為詞w在文檔集合C中出現(xiàn)的概率。其他幾個為調(diào)節(jié)參數(shù),根據(jù)文本長度,詞匯等特征調(diào)節(jié)以得到最佳的檢索結(jié)果。一般情況下,k1取值為1.0到2.0左右,b的取值通常都為0.75,k3取值一般為0到1 000,μ的取值一般為2 000左右。
2.2.3 文本中查詢詞傾向性強(qiáng)度的計(jì)算
在本文中,將文本中傾向性強(qiáng)度計(jì)算的最小單位定義為情感單元,一個情感單元包括情感詞,也可能包括否定詞和程度副詞等。它的傾向性計(jì)算算法如下:
1. 使用HowNet情感詞詞典[7],識別情感詞以及情感詞的極性、權(quán)重等信息。
2. 使用否定詞詞典,副詞詞典[8]識別是否有上述修飾詞。
3. 對不同情況下的修飾詞分別進(jìn)行情感詞極性的調(diào)整,分別對修飾詞為副詞、否定詞以及二者均出現(xiàn)等三種情況討論。其中,否定詞改變極性,程度副詞分為三種不同的情況改變傾向性強(qiáng)度。將最后的結(jié)果返回為Score_Sop(s,si)。
計(jì)算每個情感單元與查詢詞的關(guān)聯(lián)度Score_Srel(qi,si)時,將其作為一個評價對來獲取,使用二者在一個窗口下共現(xiàn)的方法來衡量二者的關(guān)聯(lián)度。為提高識別評價對的準(zhǔn)確率,本文使用的窗口設(shè)為一個句子S,則
(8)
其中Cooc(qi,si|Sentence)表示情感單元與查詢詞在句子中的共現(xiàn)頻度[9],只有當(dāng)二者出現(xiàn)在一個句子內(nèi)時,才將該值設(shè)為1,其余情況均為0。Cw表示在文檔集C中使用查詢擴(kuò)展的方法檢索q時返回的相關(guān)文檔集。
本文實(shí)現(xiàn)了基于關(guān)聯(lián)度的觀點(diǎn)檢索算法,在接下來的實(shí)驗(yàn)中,將驗(yàn)證基于關(guān)聯(lián)度的觀點(diǎn)檢索算法的效果。為便于比較,本文選取了目前觀點(diǎn)檢索領(lǐng)域常用的兩種算法作為參照。基于線性擬合模型的觀點(diǎn)檢索算法和基于生成模型的觀點(diǎn)檢索算法,上述兩種算法的計(jì)算公式如下:
(10)
其中,λ為平滑系數(shù),Scoreq∈d(q,d)為文本的主題相關(guān)度,co(si,q|W)表示在窗口W內(nèi),查詢q與情感詞的共現(xiàn)次數(shù),而c(q,d)表示文檔中查詢詞的詞頻。
為了測試不同文本檢索公式在基于關(guān)聯(lián)度模型的觀點(diǎn)檢索算法下的性能以及與其他相關(guān)觀點(diǎn)檢索方法的比較,我們采用了第一屆中文文本傾向性分析評測(COAE2008)[10]觀點(diǎn)檢索子任務(wù)中提供的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集包含近4萬篇文本,其中,包含不少于10%的主觀文本,其余為客觀文本。文本主題包括真實(shí)用戶評論和新聞報道評論等,涉及財(cái)經(jīng)、娛樂、影視、教育、房產(chǎn)、電腦、手機(jī)等領(lǐng)域,文章長度從幾個句子到上百個句子不等。文本由網(wǎng)頁提取正文后整理成純文本形式,由于原始網(wǎng)頁來源較為多樣,評測集混合了兩種編碼,即GB2312和少量Unicode(UTF-8)編碼。采用COAE2008觀點(diǎn)檢索子任務(wù)的20個查詢主題作為測試查詢。實(shí)驗(yàn)采用COAE2008的評測指標(biāo)進(jìn)行評價,具體包括觀點(diǎn)檢索的平均準(zhǔn)確率(MAP),R準(zhǔn)確率(R-prec),二元偏好(bPref)和P@10。[11]其中MAP為每個相關(guān)文檔被檢索到時的精確率的平均值, 對于提交結(jié)果的排序有較高要求,因此最終評測結(jié)果中以MAP為比較基準(zhǔn)。
在實(shí)驗(yàn)中,我們首先測試了不同的文本檢索算法下基于關(guān)聯(lián)度模型的觀點(diǎn)檢索算法的性能,實(shí)驗(yàn)比較了概率檢索模型的BM25公式和語言模型的狄利克雷公式隨線性擬合系數(shù)λ的變化而結(jié)果表現(xiàn)的變化,具體實(shí)驗(yàn)結(jié)果如圖1所示。
從圖1可以看出,使用語言模型的狄利克雷平滑公式效果比BM25公式要好,不過二者的MAP指標(biāo)結(jié)果差距不大,隨著λ的增大,兩個公式的檢索結(jié)果都呈現(xiàn)先上升后下降的趨勢,在λ=0時,檢索結(jié)果為傾向型分析的結(jié)果;在λ=1時,檢索結(jié)果為主題相關(guān)度的結(jié)果,但這兩個結(jié)果都不是最好的結(jié)果。因?yàn)橛^點(diǎn)檢索需要找到的是兩個結(jié)果的融合效果,隨著λ的增大,關(guān)聯(lián)度模型中文本情感程度值的影響越小,主題檢索的影響越大,而我們需要尋找的就是針對給定主題的評論。在λ=0.8~0.9區(qū)間時,可以取得最好的檢索結(jié)果。
圖1 不同文本檢索公式下關(guān)聯(lián)度算法的檢索效果
接下來,我們使用了不同的方法進(jìn)行觀點(diǎn)檢索的研究:
1. 基于線性擬合模型的觀點(diǎn)檢索: 使用語言模型的狄利克雷平滑公式計(jì)算文本的主題相關(guān)度,使用HowNet情感詞詞典進(jìn)行傾向性分析與計(jì)算,線性擬合系數(shù)λ取值為0.9。
2. 基于生成模型的觀點(diǎn)檢索: 使用對數(shù)生成模型進(jìn)行觀點(diǎn)檢索,使用HowNet情感詞詞典進(jìn)行傾向性分析與計(jì)算,使用最大的窗口(W設(shè)為整個文本)進(jìn)行分析,平滑系數(shù)λ取值為0.7。
3. 基于關(guān)聯(lián)度的觀點(diǎn)檢索: 使用狄利克雷平滑公式計(jì)算主題相關(guān)度,使用HowNet情感詞詞典進(jìn)行傾向性分析與計(jì)算。線性擬合系數(shù)λ取值為0.85。
上述三種方法所得的結(jié)果如表1所示。
表1 不同觀點(diǎn)檢索方法得到的結(jié)果比較
MAP指標(biāo)是衡量相關(guān)性檢索性能的最重要的評價指標(biāo)。從表1可以看出,本文提出的基于關(guān)聯(lián)度的觀點(diǎn)檢索算法在上述三個方法中可以得到最好的檢索效果。但與COAE2008觀點(diǎn)檢索子任務(wù)的相關(guān)評測結(jié)果相比,本文使用的方法其最好結(jié)果還未達(dá)到COAE2008中的最好結(jié)果[10],這說明本文的方法還有較大的改進(jìn)空間。
本文提出了基于關(guān)聯(lián)度的觀點(diǎn)檢索算法并應(yīng)用于中文文本觀點(diǎn)檢索的研究中。針對目前觀點(diǎn)檢索研究中檢索主題與評論的關(guān)聯(lián)問題進(jìn)行了分析,使用查詢擴(kuò)展與查詢的關(guān)聯(lián)度,使得各個要素之間的關(guān)聯(lián)度得以最準(zhǔn)確地反映檢索主題的評論信息。實(shí)驗(yàn)結(jié)果表明,本文提出的算法可以有效地解決主題與情感關(guān)系的衡量問題,基于該算法的實(shí)驗(yàn)結(jié)果比其他兩種觀點(diǎn)檢索方法具有明顯的優(yōu)勢。
但從實(shí)驗(yàn)結(jié)果可以看到,本文所得的最好結(jié)果與COAE2008觀點(diǎn)檢索子任務(wù)的最好結(jié)果還具有一定的差距:
1. 主題查詢過程中,主題的查詢擴(kuò)展問題值得進(jìn)一步探討,進(jìn)行查詢擴(kuò)展后需要充分考慮查詢詞與原查詢詞之間的關(guān)系,查詢詞與文本,情感等的關(guān)系問題。隨著給定查詢越來越復(fù)雜,這一問題將面臨更大的挑戰(zhàn)。
2. 觀點(diǎn)檢索過程中,如何找準(zhǔn)針對主題的觀點(diǎn),這一問題是觀點(diǎn)檢索的核心問題。如何提高主題檢索的性能,改善文本中針對主題的觀點(diǎn)傾向性分析效果以及二者的融合問題都有待于進(jìn)一步研究。
3. 可以對文本進(jìn)行更好的預(yù)處理,如分詞,縮略詞,消歧等處理。
[1] M. Hurst and K. Nigam. Retrieving Topical Sentiments from Online Document Collections [C]//Document Recognition and Retrieval XI, 2004, 27-34.
[2] K. Eguchi and V. Lavrenko. Sentiment Retrieval using Generative Models [C]//Proceedings of Empirical Methods on Natural Language Processing (EMNLP), 2006: 345-354.
[3] J. Skomorowski. Topical opinion retrieval. [D]. University of Waterloo, 2006.
[4] B. He, C. Macdonald, JY. He et al. An Effective Statistical Approach to Blog Post Opinion Retrieval[C]//the ACM Conference on Information and Knowledge Management (CIKM). California, USA: 2008: 1063-1072.
[5] I. Ounis, C. Macdonald and I. Soboroff. Overview of the TREC2008 Blog Track [C]//Proceedings of the Seventeenth Text REtrieval Conference (TREC 2008). 2008.
[6] 張姝, 賈文杰, 夏迎炬,等. 觀點(diǎn)檢索技術(shù)研究[C]//第二屆中文傾向性分析評測研討會.CCIR2009.
[7] 董振東,董強(qiáng). HowNet[DB/OL]: http://www.keenage.com, 2010.
[8] 徐琳宏,林鴻飛,楊志豪. 基于語義理解的文本傾向性識別機(jī)制[J]. 中文信息學(xué)報, 2007, 21(1): 96-100.
[9] X. Sun, Y. Lin, H. Lin et al. DUTIR at TREC 2008 Relevance Feedback Track[C]//Proceedings of the Seventeenth Text REtrieval Conference (TREC 2008). 2008.
[10] 黃萱菁,許洪波,趙軍,等. COAE2008[DB/OL]: http://www.ir-china.org.cn/coae2008.html, 2008.
[11] 曹冬林, 林達(dá)真. 文本檢索模型綜述[J]. 心智與計(jì)算, 2007, 4(1): 426-432.