韋向峰,張 全,繆建明,池毓煥
(中國科學(xué)院 聲學(xué)研究所,北京 100190)
由于互聯(lián)網(wǎng)的開放性,新聞報(bào)道、評(píng)論、博客、BBS、微博等都可以表達(dá)對(duì)事件、人或物品的傾向性觀點(diǎn)。其中不乏具有爆炸性、爭(zhēng)議性的事件,人們對(duì)這些事件的傾向和態(tài)度有可能影響社會(huì)價(jià)值取向,甚至造成社會(huì)的不穩(wěn)定。如何自動(dòng)分析文本的傾向性態(tài)度,及時(shí)發(fā)現(xiàn)和防止不良內(nèi)容的傳播和擴(kuò)散,成為維護(hù)互聯(lián)網(wǎng)健康發(fā)展的重要課題。其中,如何利用自然語言處理的技術(shù)獲取文本對(duì)評(píng)價(jià)對(duì)象的態(tài)度,成為研究者們關(guān)注的焦點(diǎn)之一。
文本態(tài)度傾向性分析的主流方法是通過建立相關(guān)的褒貶詞匯詞典等褒貶評(píng)價(jià)資源,采用統(tǒng)計(jì)處理手段獲取文本的態(tài)度傾向性;也可以把文本的傾向性類別作為文本分類問題進(jìn)行處理,得到文本的態(tài)度傾向性類別。詞語的傾向性是文本傾向性分析的重要基礎(chǔ),也是人判斷文本傾向性的重要依據(jù)之一。具有強(qiáng)烈的傾向性或極性是某些詞語的屬性,利用已有的語義詞典資源如WordNet[1]或HowNet[2],根據(jù)已知極性的詞語和PMI算法可計(jì)算得到未知極性詞語的傾向性[3]。相對(duì)詞語傾向性分析而言,句子傾向性分析模型研究較少,有的依據(jù)“上下文中相鄰句子應(yīng)該具有相同類別”[4]做分析,有的用CRFs研究句子的傾向性標(biāo)注序列問題[5];還有的依據(jù)主謂、動(dòng)賓以及格語法賦予詞語不同的權(quán)重,作為對(duì)句子傾向性分析的補(bǔ)充[6-8]。文本傾向性分析一般是把文本看作是特征詞語表達(dá)的向量,以特征詞語的極性或已標(biāo)注的訓(xùn)練語料為基礎(chǔ),用文本分類算法(如SVM)[9]或者聚類算法獲得文本的傾向性類別。
文本態(tài)度傾向性分析的目的,就是獲取文本中觀點(diǎn)持有者對(duì)某一評(píng)價(jià)對(duì)象的態(tài)度(或稱觀點(diǎn)、情感)。從文本的評(píng)價(jià)對(duì)象來看,可分為對(duì)人的評(píng)價(jià)、對(duì)物品的評(píng)價(jià)和對(duì)事件的評(píng)價(jià)。本文主要關(guān)注事件文本中對(duì)事件的傾向性態(tài)度,首先獲取文本語句中的對(duì)象詞、極性詞等詞語,然后把語句的語義塊分析結(jié)果轉(zhuǎn)化為二元或三元傾向性分析模型,計(jì)算得到語句傾向性,根據(jù)語句傾向性的統(tǒng)計(jì)結(jié)果得到事件文本的傾向性態(tài)度。
從目前的文本傾向性分析的研究來看,涉及的被評(píng)價(jià)對(duì)象絕大多數(shù)是物品和人物,關(guān)于事件的傾向性分析研究得較少。這主要是因?yàn)槭录亩x和識(shí)別復(fù)雜得多,事件包含的要素包括人或機(jī)構(gòu)、時(shí)間、地點(diǎn)、事件過程等。但是,事件也有其自身的特點(diǎn),重大熱點(diǎn)事件往往會(huì)形成“特定簡(jiǎn)稱”(例如,911事件、馬德里爆炸案、汶川地震),一些有爭(zhēng)議的事件常出現(xiàn)辯論的正反兩方,這兩方一般都是人或機(jī)構(gòu)。因此,事件的定位可以通過關(guān)鍵字、關(guān)鍵人名發(fā)現(xiàn)相關(guān)的文章,而有爭(zhēng)議的事件很容易使不同文章具有不同的傾向性。本文著重研究在語句傾向性分析的基礎(chǔ)上實(shí)現(xiàn)有爭(zhēng)議事件文章的傾向性分類,首先人工選定和收集某些事件的相關(guān)文章,然后確定出事件的關(guān)鍵詞以及關(guān)鍵人物,同時(shí)為這些關(guān)鍵人物分配事件立場(chǎng)傾向。以這些關(guān)鍵詞和關(guān)鍵人物作為對(duì)象詞,在已建立的褒貶詞語知識(shí)庫、否定邏輯詞集、程度詞集的基礎(chǔ)上,根據(jù)語句傾向性分析的模型和算法,獲得語句關(guān)于事件的傾向性態(tài)度。然后對(duì)文章中包含傾向性態(tài)度的語句分析結(jié)果的權(quán)重設(shè)置、加權(quán)統(tǒng)計(jì)后可以得到文章對(duì)于事件的傾向性態(tài)度。
語句傾向性分析是事件傾向性分析的基礎(chǔ),我們首先把影響語句傾向性態(tài)度的主要詞語分為四類:褒貶詞、對(duì)象詞、邏輯詞和程度詞,然后根據(jù)語句的語義塊分析結(jié)果轉(zhuǎn)化為最簡(jiǎn)單的二元模型或三元模型,通過褒貶詞的傾向性計(jì)算得到語句對(duì)于某個(gè)被評(píng)價(jià)對(duì)象的傾向性態(tài)度,再通過事件文本中語句傾向性統(tǒng)計(jì)得到文本的傾向性態(tài)度。
褒貶詞,是指本身具有某種或多種傾向性態(tài)度的詞語,例如,“好”、“壞”、“贊揚(yáng)”、“譴責(zé)”、“驕傲”、“風(fēng)騷”等。為便于計(jì)算,具有正面積極評(píng)價(jià)信息的詞稱為褒義詞(屬性值取“+1”),具有負(fù)面消極評(píng)價(jià)信息的詞稱為貶義詞(屬性值取“-1”),沒有傾向性態(tài)度信息的詞稱為中性詞(屬性值取“0”),具有多種傾向性態(tài)度的詞屬性值取“2”。
對(duì)象詞,是表示被評(píng)價(jià)對(duì)象或態(tài)度持有者的詞語,可以是表示人、物品、事件、屬性等各種各樣的詞語。對(duì)象詞被賦予立場(chǎng)屬性,屬性值“+1”表示事件正方,“-1”表示事件反方,“0”表示中立方。對(duì)象間的褒貶、立場(chǎng)具有傳遞性,并在一定程度上反映了文本述者的褒貶立場(chǎng)。
邏輯詞,主要是表示肯定或否定的詞語,如“是”、“不是”、“不”、“未必”等。褒貶詞經(jīng)邏輯詞修飾后傾向性可能會(huì)發(fā)生反轉(zhuǎn),例如,“好”加上否定修飾“不”后變成了“不好”,“好”與“不好”二者的傾向性態(tài)度完全相反。
程度詞,是指一些描述程度的修飾詞語,例如,“最”、“很大”、“較大”、“一定程度”等,按照程度從小到大人工確定屬性值(大于0且小于1),例如,“較大”取0.6,“很大”取0.8,“最”取0.9。程度詞在運(yùn)算中不影響傾向性的極性(褒貶性),但是會(huì)改變句子傾向性(褒或貶)的強(qiáng)弱程度。
對(duì)象詞和褒貶詞是構(gòu)成語句傾向性分析模型的最基本要素,在具有傾向性態(tài)度的語句中一般會(huì)同時(shí)出現(xiàn)被評(píng)價(jià)對(duì)象詞和褒貶詞。一元模型因缺少傾向性或缺少被評(píng)價(jià)對(duì)象,在語句范圍內(nèi)無法處理。因此,最簡(jiǎn)單的二元模型評(píng)價(jià)形式為“A B”,其中A是褒貶詞B是對(duì)象詞,反之亦可。例如,一個(gè)語句經(jīng)簡(jiǎn)化處理后為“該方法 好”,那么這個(gè)語句的陳述者對(duì)于“該方法”的傾向性態(tài)度是正面的(“好”),語句傾向性態(tài)度的取值為褒貶詞“好”的屬性值“+1”。
語句傾向性分析的三元模型的基本形式為“C X D”,其中 C是評(píng)價(jià)者(對(duì)象詞),X是褒貶詞,D是被評(píng)價(jià)對(duì)象(對(duì)象詞)。例如,“他 鄙視 這種做法”,評(píng)價(jià)者“他”對(duì)被評(píng)價(jià)對(duì)象“這種做法”的傾向性態(tài)度是反面的。從本質(zhì)上看,三元模型省略評(píng)價(jià)者后就是二元模型,此時(shí)評(píng)價(jià)者默認(rèn)為語句文本的陳述者。當(dāng)不關(guān)心評(píng)價(jià)者,只關(guān)心被評(píng)價(jià)對(duì)象和對(duì)其的傾向性態(tài)度時(shí),三元模型可以轉(zhuǎn)化為二元模型處理。
根據(jù)二元模型或三元模型,語句傾向性分析的計(jì)算結(jié)果要么為+1,要么為-1,其結(jié)果值由褒貶詞的屬性值確定。當(dāng)語句中出現(xiàn)邏輯詞時(shí),在邏輯詞的轄域范圍內(nèi)如果有褒貶詞,那么應(yīng)乘上邏輯詞的屬性值(否定為-1,肯定為+1)。當(dāng)語句中出現(xiàn)程度詞時(shí),在程度詞的轄域范圍內(nèi)如果有褒貶詞,那么應(yīng)乘上程度詞的屬性值。
語句中也可能出現(xiàn)傾向性評(píng)價(jià)的四元或更多元的形式,例如,五元形式的語句“美國 指責(zé) 伊朗 支持 恐怖主義”,這時(shí)候應(yīng)先把語句轉(zhuǎn)化為三元模型“美國 指責(zé) E”,而E又正好是三元模型“C X D”的形式,即“伊朗 支持 恐怖主義”。因此,四元或更多元的語句模型可以轉(zhuǎn)化為二元或三元模型進(jìn)行處理。
在實(shí)際語句處理中,如果把褒貶詞或?qū)ο笤~作為“元”,一般都會(huì)得到四“元”、五“元”甚至更多元的情形,這時(shí)如何把多元降元為三元或二元模型呢?一種辦法是簡(jiǎn)單地把頭部或尾部的“元”去掉,顯然這種降元方法會(huì)產(chǎn)生較高的錯(cuò)誤率。另一種辦法是先按語句的語義結(jié)構(gòu)劃分為語義塊進(jìn)行降元處理,然后在語義塊內(nèi)部按照二元或三元模型進(jìn)行處理。例如,前述五元形式語句的語義結(jié)構(gòu)為“GBK1+EK+GBK2”,語義塊GBK1為“美國”,EK為“指責(zé)”,GBK2為指責(zé)的內(nèi)容。語義塊GBK2內(nèi)部又是一個(gè)句子“伊朗 支持 恐怖主義”,由三個(gè)語義塊構(gòu)成,這時(shí)可直接應(yīng)用傾向性分析的三元模型。
因此,我們利用概念層次網(wǎng)絡(luò)理論(HNC)的句類分析技術(shù)[10]得到語句的語義塊結(jié)構(gòu),然后在語義塊內(nèi)部繼續(xù)降元,轉(zhuǎn)化為二元或三元模型,具體轉(zhuǎn)化方法和實(shí)現(xiàn)步驟如2.4節(jié)所述。這種降元處理方法的基礎(chǔ)是語句的語義塊結(jié)構(gòu)和語義關(guān)系,準(zhǔn)確率比簡(jiǎn)單降元方法要高。
語句的語義類型即HNC的句類。句類表示式由主語義塊構(gòu)成,主語義塊可以是詞、短語或下一級(jí)句子。主語義塊又分為特征語義塊EK和廣義對(duì)象語義塊GBK。根據(jù)句類表示式中主語義塊的個(gè)數(shù),語句分為兩塊句、三塊句和四塊句。其中,四塊句的句類表示式的基本格式為GBK1+EK+GBK2+GBK3,三塊句為GBK1+EK+GBK2,兩塊句為GBK+EK或GBK1+GBK2。兩塊句和三塊句的表示式可與二元模型和三元模型直接對(duì)應(yīng)。當(dāng)語句語義塊為簡(jiǎn)單構(gòu)成(不含句子或句子變形)時(shí),可以利用句類分析的結(jié)果表示式直接計(jì)算得到語句的傾向性。當(dāng)語義塊為包含句子的復(fù)雜構(gòu)成時(shí),需要根據(jù)所包含句子的句類表示式進(jìn)行逐級(jí)深入的計(jì)算,直到?jīng)]有語義塊的復(fù)雜構(gòu)成為止。具體的轉(zhuǎn)化方法及語句傾向性分析步驟如下。
步驟1) 如果語句為兩塊句,且兩個(gè)主語義塊分別是褒貶詞和對(duì)象詞,那么按二元模型計(jì)算語句的傾向性態(tài)度,轉(zhuǎn)步驟11);
步驟2) 如果語句為三塊句,且GBK1為對(duì)象詞、EK為褒貶詞、GBK2為對(duì)象詞,那么按三元模型計(jì)算語句的傾向性態(tài)度,轉(zhuǎn)步驟11);
步驟3) 如果語句為四塊句,且GBK2和GBK3分別是褒貶詞和對(duì)象詞,那么先按二元模型計(jì)算GBK2和GBK3的傾向性,然后轉(zhuǎn)步驟2);
步驟4) 對(duì)語句中的每一個(gè)語義塊,執(zhí)行步驟5)到步驟10);
步驟5) 如果語義塊內(nèi)含一個(gè)褒貶詞和一個(gè)對(duì)象詞,那么按二元模型計(jì)算得到傾向性;
步驟6) 如果語義塊內(nèi)含一個(gè)褒貶詞和多個(gè)對(duì)象詞,那么取褒貶詞與其右邊最近的一個(gè)對(duì)象詞,然后按二元模型計(jì)算得到傾向性;
步驟7) 如果語義塊內(nèi)含多個(gè)褒貶詞和多個(gè)對(duì)象詞,那么分別取褒貶詞與其右邊最近的一個(gè)對(duì)象詞,然后按二元模型計(jì)算得到傾向性;
步驟8) 如果語義塊內(nèi)含有邏輯詞,那么邏輯詞右邊最近褒貶詞的傾向性應(yīng)乘上邏輯詞的屬性值;
步驟9) 如果語義塊內(nèi)含有程度詞,那么程度詞右邊最近褒貶詞的傾向性應(yīng)乘上程度詞的屬性值;
步驟10)如果語義塊內(nèi)含語句,那么把內(nèi)含語句作為新語句,轉(zhuǎn)步驟1);
步驟11)結(jié)束,得到語句的傾向性。
我們選取唐駿“學(xué)歷門”事件、肯德基“秒殺門”事件、山西疫苗事件作為實(shí)驗(yàn)事件,通過一些網(wǎng)站的專題頁面和用關(guān)鍵字在搜索引擎中的搜索結(jié)果,下載得到了關(guān)于三個(gè)事件的網(wǎng)絡(luò)文章各為76篇、34篇和65篇。
我們建立了一個(gè)包含6 368個(gè)褒貶詞的詞庫,其中褒義詞2 650個(gè)、貶義詞3 718個(gè),整理出12個(gè)表示肯定的邏輯詞和38個(gè)表示否定的邏輯詞,人工設(shè)定了14個(gè)常見的程度詞的屬性值。在三個(gè)事件中,還事先人工設(shè)定了各事件的關(guān)鍵對(duì)象詞和屬性值,以實(shí)現(xiàn)含有主觀傾向性態(tài)度語句的定位(只有同時(shí)包含對(duì)象詞和褒貶詞的語句才進(jìn)行語義塊結(jié)構(gòu)分析和語句的傾向性模型分析)。有爭(zhēng)議的事件中必然出現(xiàn)對(duì)立的雙方如“唐駿與方舟子”、“肯德基與消費(fèi)者”、“王克勤與山西衛(wèi)生廳”等,事件的關(guān)鍵對(duì)象詞及其屬性值具體設(shè)置如表1所示,屬性值“+1”表示立場(chǎng)為事件正方,“-1”表示立場(chǎng)為事件反方,“0”表示無立場(chǎng)。
表1 事件中的對(duì)象詞和屬性值
在文章的傾向性分析中,首先定位對(duì)事件具有褒貶傾向的主觀性評(píng)價(jià)語句,把既含有對(duì)象詞又含有褒貶詞的語句作為分析依據(jù)。然后根據(jù)語句的語義塊分析結(jié)果,按照本文2.4節(jié)所述步驟對(duì)語義塊中的對(duì)象詞的褒貶傾向性進(jìn)行分析。將語句的傾向性按對(duì)象權(quán)值累計(jì)正負(fù)得分,實(shí)驗(yàn)中每個(gè)被評(píng)價(jià)對(duì)象的權(quán)值相等,如果正值得分大于負(fù)值得分那么文章的傾向性為“褒”(“支持”被評(píng)價(jià)對(duì)象),反之如果負(fù)值得分大于正值得分那么文章的傾向性為“貶”(“反對(duì)”被評(píng)價(jià)對(duì)象)。通過人工評(píng)判每篇文章的“褒”、“貶”傾向性,并與系統(tǒng)分析結(jié)果進(jìn)行比較,文章傾向性分析結(jié)果如表2和表3所示。
在表2中,“支持”表示文章與表1中屬性值為“1”的對(duì)象的立場(chǎng)相同,傾向性為“褒”;“反對(duì)”表示文章與表1中屬性值為“1”的對(duì)象的立場(chǎng)相反,傾向性為“貶”。例如,在唐駿“學(xué)歷門”事件中,系統(tǒng)判定支持唐駿的文章數(shù)為15,反對(duì)唐駿的文章數(shù)為46。由于屬性值為“1”的對(duì)象與屬性值為“-1”立場(chǎng)對(duì)立,因此反對(duì)唐駿即支持方舟子,反之亦然。
從表3看,肯德基“秒殺門”事件支持傾向的正確率最低,這可能是因?yàn)槲恼轮写罅砍霈F(xiàn)了含有“肯德基”的對(duì)象詞,而忽略了屬性值為“-1”的反面對(duì)象詞。山西疫苗事件中反對(duì)傾向獲得了較高的準(zhǔn)確率,這可能是因?yàn)橄螺d的文章中大量是質(zhì)疑“問題疫苗”的。單從表2中人的判定結(jié)果數(shù)量來看,文章中處于中立態(tài)度的文章數(shù)量較多,而持支持態(tài)度的文章則較少,這實(shí)際上也給系統(tǒng)的判定造成了困難。
表2 事件傾向性分析正確數(shù)
表3 事件傾向性分析的正確率和召回率
錯(cuò)誤的原因主要在于句子的語義塊分析結(jié)果不準(zhǔn)確,造成了對(duì)象詞和褒貶詞的錯(cuò)誤相關(guān),得到錯(cuò)誤的傾向性結(jié)果。一旦語義塊分析結(jié)果正確率提高,將會(huì)大幅提高傾向性分析結(jié)果的正確率。此外,以下的錯(cuò)誤原因也應(yīng)該引起研究者的重視:(1)分詞引起的錯(cuò)誤,例如,“不才”切成了“不”和“才”,會(huì)多出一個(gè)否定詞,得到相反的傾向性;(2)組合詞語表達(dá)的傾向性,例如,“受到了 傷害”,單個(gè)詞沒有明顯的傾向性,但組合起來卻具有傾向性;(3)假設(shè)句和條件句引起的錯(cuò)誤,當(dāng)作者使用這些句式時(shí),他并不一定贊同所述文字的傾向態(tài)度,可能是中立也可能是反對(duì);(4)疑問句式,在反諷等修辭文法中,經(jīng)常使用反問等方式表達(dá)作者的態(tài)度,這種文本如果只分析字面得不到真正的傾向性態(tài)度;(5)表達(dá)中立的敘述說明文本,在新聞報(bào)道中有的作者只陳述事實(shí)(如正反兩方的觀點(diǎn)),并不加入自己的觀點(diǎn),但有的作者會(huì)在陳述當(dāng)中加入自己的傾向性態(tài)度;(6)與法律庭審相關(guān)的文本,這些文本往往包含了控辯雙方的態(tài)度,但從作者的傾向性態(tài)度來看是中立的;(7)立場(chǎng)與褒貶息息相關(guān),如果表達(dá)了褒貶傾向也就表達(dá)了文本立場(chǎng)傾向,但立場(chǎng)傾向并不一定要通過褒貶來表達(dá),而且立場(chǎng)往往涉及到多個(gè)對(duì)象和多種態(tài)度,比褒貶只有兩個(gè)極性要復(fù)雜。上述幾點(diǎn)都會(huì)給傾向性的分析帶來困難,造成系統(tǒng)分析的錯(cuò)誤。
事件的傾向性分析對(duì)網(wǎng)絡(luò)輿情分析和事件趨勢(shì)分析都具有重要意義。事件傾向性分析比物品和人物傾向性分析的范圍要廣,但事件內(nèi)部的傾向性要素主要還是人物或機(jī)構(gòu),以及他們之間的語義關(guān)系。本文從具有爭(zhēng)議性的熱點(diǎn)事件入手,在事件中區(qū)分出關(guān)鍵對(duì)象詞,并把關(guān)鍵對(duì)象詞分為立場(chǎng)對(duì)立的兩類;然后利用語句的語義塊分析技術(shù)和傾向性分析模型獲得語句的傾向性,在此基礎(chǔ)上分析得到文章對(duì)事件中主要對(duì)象的傾向性態(tài)度??傮w來看,由于語義塊規(guī)范了褒貶詞的作用范圍和對(duì)象詞的結(jié)合關(guān)系,在語義塊的基礎(chǔ)上進(jìn)行傾向性分析模型的降元處理,可以有效提高傾向性分析結(jié)果的正確性。
在事件傾向性分析的研究中,我們發(fā)現(xiàn)立場(chǎng)分析對(duì)于事件傾向性分析至關(guān)重要,同時(shí)也是褒貶傾向性分析的一個(gè)基礎(chǔ)。精確的立場(chǎng)分析應(yīng)該包括文本對(duì)象的立場(chǎng)和作者的立場(chǎng),在一般情況下可以把作者的立場(chǎng)等同于語句中第一陳述對(duì)象的立場(chǎng),但在特殊的句式或文體中卻不能等同。進(jìn)一步的研究應(yīng)該在文章傾向性的基礎(chǔ)上細(xì)化出傾向性的相關(guān)各方,即“褒”是哪一個(gè)評(píng)價(jià)者對(duì)哪一個(gè)被評(píng)價(jià)對(duì)象的“褒”。而作者立場(chǎng)與文本中對(duì)象的立場(chǎng)是否一致、如何根據(jù)文體或句式獲取作者立場(chǎng),這些都是本文未來進(jìn)一步的研究方向。
[1] WordNet—A lexical database for Enlish[OL]. [2012-01-06]. http://wordnet.princeton.edu/.
[2] 知網(wǎng)(HowNet Knowledge Database)[OL]. [2010-08-20]. http://www.keenage.com/.
[3] Turney,Peter,Littman Michae1.Measuring praise and criticism: Inference of semantic orientation from association[J]. ACM Transactions on Information Systems,2003,21(4):315-346.
[4] Bo Pang,Lillian Lee. A sentiment education: Sentiment analysis using subjectivity summarization based on minimum cuts[C]//Proceedings of ACL 2004. 2004:271-278.
[5] 劉康,趙軍.基于層疊CRFs模型的句子褒貶度分析研究[J]. 中文信息學(xué)報(bào),2008,22(1):123-128.
[6] 江寶林,劉永丹,金峰,等.一個(gè)基于語義分析的傾向性文檔過濾系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2005,22(1):10-11.
[7] 金峰,劉永丹,江寶林,等.TTFS:一個(gè)傾向性文本過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2003(30):137-140.
[8] 劉永丹,曾海泉,李榮陸,等.基于語義分析的傾向性文本過濾[J].通信學(xué)報(bào),2004,25(7):78-85.
[9] 徐琳宏,林鴻飛,楊志豪.基于語義理解的文本傾向性識(shí)別機(jī)制[J].中文信息學(xué)報(bào),2007,21(1):96-100.
[10] 韋向峰.基于HNC理論的擴(kuò)展句類分析平臺(tái)研究[D]. 北京:中國科學(xué)院聲學(xué)研究所,2005.