楊 江,李 薇,彭石玉
(1. 湖南科技大學(xué) 外國語學(xué)院,湖南 湘潭 411201;2. 武漢工程大學(xué) 外語學(xué)院,湖北 武漢 430205)
主觀性(subjectivity)是語言的基本屬性,語言意義的主觀性是指話語中伴隨命題內(nèi)容產(chǎn)生的說話人的“自我(self, ego)”表達(dá)。日常話語中或多或少總是含有說話人“自我”的表現(xiàn)成分,說話人在說出一段話的同時也表明了自己對這段話的立場、態(tài)度和感情[1]。語言的主觀性借助一定的語言手段、通過一定的語言形式得以實現(xiàn),由此形成話語中的主觀性表達(dá)(subjective expression),用以傳遞說話人的自我判斷、感受、評價、意愿等主觀性信息。對語言主觀性以及主觀性表達(dá)的關(guān)注,其實質(zhì)是探索語言中“人”的因素,因為“語言不僅僅是客觀地表達(dá)命題和思想,還要表達(dá)言語的主體即說話人的觀點、感情和態(tài)度”[2]。
語言中的主觀性表達(dá)是近年來語言學(xué)和自然語言處理領(lǐng)域的一個研究熱點。語言學(xué)的相關(guān)研究著重從語言的角度探討主觀性表達(dá)的意義、使用、認(rèn)知機(jī)制和描寫手段,由此引發(fā)了對語言主觀性的大量論述,使其逐漸成為認(rèn)知語言學(xué)、功能語言學(xué)和語用學(xué)的元理論基礎(chǔ),并推動了“評價系統(tǒng)”的產(chǎn)生;自然語言處理的相關(guān)研究則主要從信息的角度關(guān)注主觀性表達(dá)的辨識、抽取、分類和計算分析,從而產(chǎn)生了情感分析、觀點挖掘、輿情監(jiān)測等一批新興研究方向。
研究語言中的主觀性表達(dá),不論是基于語言還是基于信息的視角,也不論是面向基礎(chǔ)研究還是應(yīng)用研究,都需要積累大量的語言素材,以幫助人們觀察和把握語言事實,分析和研究語言的規(guī)律。具體而言,主要體現(xiàn)在或為論證提供例句支持,或為描寫提供統(tǒng)計數(shù)據(jù),或為統(tǒng)計模型提供訓(xùn)練數(shù)據(jù)。這就要求建立基于既定標(biāo)注體系、符合潛在研究需求、具有一定規(guī)模和加工深度的主觀性表達(dá)語料庫。
然而,據(jù)我們所知,目前國內(nèi)外可獲得的相關(guān)漢語語料庫資源較少。Lun Weiku等[3]的評價語料庫對語料的篇章、句子、詞語的情感傾向進(jìn)行了標(biāo)注,區(qū)分了顯式和隱式觀點持有者,但未能涉及詞法分析信息;徐琳宏等[4]創(chuàng)建的100萬字的情感語料庫基于情感詞匯本體[5]進(jìn)行情感類別、主體、接受者、修辭類別等的標(biāo)注,語料規(guī)模大、設(shè)計精細(xì)、標(biāo)注信息詳盡,但以句子為單位的加工層次略嫌粗糙;宋鴻彥等[6]完成了600余句的漢語意見型主觀性文本標(biāo)注語料庫的標(biāo)注,包含了詞法和句法分析信息,但語料均為汽車評論,來源相對單一且規(guī)模較小;彭宣維等[7]遵循“評價系統(tǒng)”建立了100萬詞的漢英對應(yīng)評價意義語料庫,是首次按照一種語言理論體系構(gòu)造的雙語對應(yīng)語料庫,標(biāo)注信息詳盡,但其設(shè)計目的主要針對語言評價意義的研究;崔曉玲[8]構(gòu)建了漢語網(wǎng)絡(luò)新聞評論情感語料庫,同樣基于系統(tǒng)功能語言學(xué)的評價理論來設(shè)計,但其規(guī)模僅為13萬字,語料來源均為單一的新聞評論,也不包含詞法分析信息。除了上述的語料庫以外,尚有一些零散或未經(jīng)人工標(biāo)注但值得一提的資源,例如,中文信息學(xué)會信息檢索專業(yè)委員會提供的歷屆中文傾向性分析評測(COAE)語料,中國計算機(jī)學(xué)會主辦的歷屆自然語言處理與中文計算會議(NLP & CC)提供的中文微博情感分析評測語料,譚松波[9]的中文情感挖掘語料等,但它們均用途單一,且難以形成規(guī)模。
由此可見,此前為研究漢語主觀性表達(dá)而建設(shè)的語料庫資源,由于標(biāo)注體系不同,加工深度各異,應(yīng)用目多樣,難以將其整合或統(tǒng)一;由于設(shè)計思路的差異,對領(lǐng)域研究認(rèn)識的不同,其中的部分資源不能為當(dāng)前研究背景和當(dāng)下研究需求下的情感分析、語義傾向計算、觀點挖掘等提供有力支持。在這樣的背景下,我們從2011年開始,歷經(jīng)三年,完成了100萬字的漢語語義傾向語料庫(Chinese Semantic Orientation Corpus, CSOC)的標(biāo)注工作,同時開發(fā)了集語料檢索與統(tǒng)計、標(biāo)注結(jié)果檢查與可視化于一體的專用語料庫工具箱系統(tǒng)(CSOC Toolkit)。漢語語義傾向語料庫具有以下特點。
(1) 從語言和計算兩個角度綜合考慮了語料的可用性,因而既能在語言學(xué)上為漢語主觀性表達(dá)的基礎(chǔ)研究所用,又能在自然語言處理上為主觀性表達(dá)的計算和分析等應(yīng)用研究所用;
(2) 自覺地接受語言學(xué)理論的指導(dǎo),每個加工環(huán)節(jié)、每項標(biāo)注元素都既有語言學(xué)上的理據(jù),又實實在在地面向相關(guān)研究和應(yīng)用需要;
(3) 標(biāo)注體系遵從預(yù)先設(shè)計的“語言主觀性多維度描述體系”;
(4) 規(guī)模適中,同時盡量保證語料在領(lǐng)域、體裁、語體等方面的平衡性;
(5) 標(biāo)注過程有嚴(yán)格的質(zhì)量保障機(jī)制,標(biāo)注結(jié)果質(zhì)量高。
漢語語義傾向語料庫的設(shè)計思路遵循我們自行構(gòu)建的“語言主觀性多維度描述體系”。語言主觀性多維度描述體系是一個以語言主觀性理論為指導(dǎo)、面向文本主觀性分析應(yīng)用、銜接理論和應(yīng)用的中間“接口”,它上連各種語言學(xué)理論、下接各類主觀性分析,旨在為不同語言層級、不同顆粒度和不同應(yīng)用目的的主觀性分析提供統(tǒng)一的、跨語言的描述標(biāo)準(zhǔn)。該體系用類別、程度、形式、成分、關(guān)聯(lián)和模式六個維度表示,每個維度反映語言主觀性的一種屬性,也代表一類研究視角,涵蓋了當(dāng)前學(xué)界正著力解決和未來可能進(jìn)行的各項子任務(wù)。該體系的創(chuàng)建借鑒了Martin[10-11]的“評價系統(tǒng)”、Taboada等[12]和Read等[13]將“評價系統(tǒng)”應(yīng)用于語義傾向計算所做的嘗試性探索、Wiebe等[14]為建設(shè)MPQA觀點標(biāo)注語料庫設(shè)計的個人心理狀態(tài)(private state)標(biāo)注框架、Kim等[15]面向觀點挖掘為觀點(opinion)制定的由主題(topic)、持有者(holder)、陳述(claim)、情感(sentiment)組成的四元組以及徐琳宏等[5]的情感詞匯本體,其框架結(jié)構(gòu)如圖1所示。篇幅所限,本文不對此展開詳細(xì)論述。
語義傾向(Semantic Orientation)是語言主觀性的一個子類,同其他子類一樣,對它的刻畫符合語言主觀性描述體系,只需在類別維度稍作修改,即可產(chǎn)生一個語義傾向描述子體系。漢語語義傾向語料庫就是基本依據(jù)這個子體系設(shè)計的。需要指出的是,考慮到對語義傾向程度的描述大多以詞典形式提供,加之句、 段、 篇的表達(dá)模式一般可以從其他維度的標(biāo)注中間接推導(dǎo)得到,因而我們在標(biāo)注體系中剔除了程度和模式兩個維度。
圖1 語言主觀性多維度描述體系框架結(jié)構(gòu)圖
下面對語料標(biāo)注中涉及的一些基本概念進(jìn)行界定和說明。
(1) 語義傾向。語義傾向指傾向主體(subject)對傾向客體(object)所持有的贊成或反對、褒揚(yáng)或貶抑、肯定或否定、積極或消極的態(tài)度、立場、觀點或情感,分正面、負(fù)面和中立傾向3類。
(2) 傾向主體。傾向主體是語義傾向的持有者、評價者或體驗者,一般為有生命的人或由人組成的群體,在特殊語境下,例如,神話傳奇、童話故事、科幻小說中,也可以是人格化的動物和物件。
(3) 傾向客體。傾向客體是語義傾向的評價對象、接受者或針對方,通常為人、物、事件、動作行為等。
(4) 正面傾向。指表達(dá)贊成、褒揚(yáng)、肯定或積極類主觀性的語義傾向。
(5) 負(fù)面傾向。指表達(dá)反對、貶抑、否定或消極類主觀性的語義傾向。
(6) 中立傾向。指表達(dá)不偏不倚類主觀性的語義傾向。
(7) 核心成分。核心成分是表達(dá)語義傾向的中心和關(guān)鍵要素,形式上多為負(fù)載語義傾向的詞和短語,少數(shù)情況下為句子(含小句),如“懷疑”、“善良”、“大公無私”、“讓一切隨風(fēng)而去”。
(8) 修飾成分。修飾成分指用以修飾核心成分,使其傾向程度增強(qiáng)或減弱的成分,以程度副詞和否定副詞居多,如“有點”、“非?!?、“不”。
(9) 提示成分。提示成分是本身不對核心成分產(chǎn)生影響,但具有引出或連接核心成分作用的成分。提示成分又分為引導(dǎo)型和連接型兩類。其中,引導(dǎo)型提示成分用以引出核心成分,多數(shù)為表示心理狀態(tài)的動詞,如“想”、“認(rèn)為”、“覺得”、“以為”、“希望”等;引導(dǎo)型提示成分用以連接兩個或兩個以上核心表達(dá)成分,即通常所說的關(guān)聯(lián)詞語,如“和”、“既…又…”、“雖然…但是…”等。
上述基本概念也即標(biāo)注的主要元素,它們之間的關(guān)系可以用圖2直觀地表示。
圖2 主要標(biāo)注元素關(guān)系圖
漢語語義傾向標(biāo)注語料庫的標(biāo)注體系由文檔結(jié)構(gòu)標(biāo)注體系和語義傾向標(biāo)注體系構(gòu)成,前者標(biāo)注文檔(即篇章)的層次結(jié)構(gòu),分為篇、段、句、詞四級,后者則標(biāo)注語義傾向的類別、形式、成分、關(guān)聯(lián)四個維度的信息。語料標(biāo)注遵守Leech[16]提出的七條基本原則,采用國際通行的TEI標(biāo)注模式,標(biāo)注結(jié)果用xml格式文件儲存。
文檔結(jié)構(gòu)標(biāo)注體系表示成text = (head, body),其中,頭信息表示成head = (title, time, author, source, addr, info),正文表示成body = (para, sent, word)。此外,每級語言層次都附加了必要但并不完全相同的其他信息。例如,詞、句、段三級都含有序號(id),而僅詞語層級包含詞性信息(pos)。文檔結(jié)構(gòu)標(biāo)記集及其說明見表1。
表1 文檔結(jié)構(gòu)標(biāo)記集及其說明
續(xù)表
不同的語言層級在語義傾向標(biāo)注體系上略有差別。在篇、段級,我們標(biāo)注其語義傾向類別和傾向客體,表示為textSO/paraSO = (senti, obj);在句一級,標(biāo)注其語義傾向類別、句子核心話題、是否否定句、是否疑問句、是否修辭句,表示為sentSO = (senti, topic, neg, que, fig);而在詞一級,我們圍繞核心成分,標(biāo)注它的語義傾向類別、成分、關(guān)聯(lián)元素,表示為coreSO=(senti, sub, obj, modi, clue)。語義傾向標(biāo)記集及其說明見表2。
表2 語義傾向標(biāo)記集及其說明
圖3是一個句子的標(biāo)注示例。
圖3 一個句子標(biāo)注示例
文檔結(jié)構(gòu)標(biāo)注主要由機(jī)器自動完成,后期進(jìn)行了必要的人工核查, 主要針對分詞和詞性標(biāo)注的錯誤;語義傾向標(biāo)注主要由人工手動完成,后期輔以標(biāo)注結(jié)果檢查程序進(jìn)行自動糾錯,主要針對各級id錯誤、標(biāo)記拼寫錯誤、xml合法性等問題。
如圖3所示,在語義傾向標(biāo)注上,對于sub、obj、modi、clue等屬性的值,我們使用了數(shù)字,這些數(shù)字代表當(dāng)前句子中詞語的id。由于每一個詞都有唯一的id,因此,為了節(jié)省存儲空間,我們用其id代表其文字內(nèi)容,這樣做也能減輕標(biāo)注人員的勞動強(qiáng)度。篇、段、句的標(biāo)注內(nèi)容基本相同,從圖中可直觀看出,不贅述。對于詞一級的語義傾向各維度的屬性,我們將其標(biāo)注在核心成分上,這主要是考慮到核心成分在表達(dá)語義傾向時具有的關(guān)鍵作用;另外一重考慮則是針對含有多個核心成分的句子,這些句子中的sub、obj、modi、clue等屬性會出現(xiàn)交錯和重疊,而將其放置在核心成分上,相互之間的關(guān)系就會很清楚,層次感強(qiáng),標(biāo)注人員也方便理解和操作。
對于以下兩種情形,我們引進(jìn)span標(biāo)記進(jìn)行特殊處理: (1)句中的核心成分不是詞,而是短語,如“沒/得/說”、“吃/空餉”等;(2)核心成分被分詞軟件切分成了多個詞,但從分詞的角度看又并非錯誤,如“死守/不/放”、“功/在/當(dāng)代”等。上述情形下,我們采用span標(biāo)記將多個詞組成的核心成分連接起來,將其視為一個整體,形如“span="id起始-id終止"”,span標(biāo)記放置在終止id所代表的詞語上。
漢語語義傾向語料庫是一個百萬字符級規(guī)模的共時、非平衡、單語標(biāo)注語料庫。主要的建設(shè)過程包括語料收集、預(yù)處理、標(biāo)注和校對。
語料選取的首要原則是來源語料中含有較豐富的語義傾向,在滿足這一前提后,盡量保證語料在語體、文體、領(lǐng)域等屬性上的平衡。根據(jù)這個思路,我們收集了來自文藝期刊、童話故事、小說戲劇、語文課本、網(wǎng)絡(luò)評論的文本960篇,各類來源的字?jǐn)?shù)控制在約15~30萬之間。表3列出了語料的組成信息。
生語料文本經(jīng)過清洗、核對和文檔規(guī)格化處理后,進(jìn)入文檔結(jié)構(gòu)標(biāo)注和詞法分析序列。文檔結(jié)構(gòu)標(biāo)注環(huán)節(jié)主要完成篇章內(nèi)段落和句子的切分,詞法分析環(huán)節(jié)則完成詞語切分和詞性標(biāo)注任務(wù)。詞法分析采用中國傳媒大學(xué)文本切分標(biāo)注系統(tǒng)(CUCBst 1.0),這是一個基于規(guī)則的詞法分析系統(tǒng),整體正確率超過97.45%。生語料文本經(jīng)過上述步驟后被轉(zhuǎn)換成類似圖3所示的xml格式待標(biāo)文件,其中尚存的各種錯誤在語義傾向標(biāo)注時一并糾正。
表3 漢語語義傾向語料庫的組成信息
語義傾向標(biāo)注在文本編輯軟件UltraEdit上進(jìn)行,標(biāo)注過程包括培訓(xùn)、試標(biāo)、討論、正式標(biāo)注等環(huán)節(jié)。首先由研究人員對標(biāo)注人員進(jìn)行標(biāo)注培訓(xùn),然后10名標(biāo)注人員按語料來源分成五組,研究人員分批次將任務(wù)發(fā)放給各組,各組內(nèi)人員同時標(biāo)注相同語料。每批次標(biāo)注完成后,各組仍先行在組內(nèi)討論,再進(jìn)行全體討論。如此反復(fù),直至全部任務(wù)結(jié)束。標(biāo)注過程中嚴(yán)格遵循“分批次發(fā)放任務(wù)—組員獨立標(biāo)注—小組討論—大會討論—返修—提交結(jié)果”的循環(huán)工作模式,基本保證了人工標(biāo)注的一致性。
標(biāo)注一致性(Inter-Annotator Agreement)是衡量語義標(biāo)注語料庫質(zhì)量的一個重要指標(biāo),常用Kappa統(tǒng)計量衡量。我們統(tǒng)計了各組內(nèi)部標(biāo)注人員在各階段對部分主要標(biāo)注元素的完全相同實例數(shù)量(嚴(yán)格相等),用公式(1)在SPSS中計算了對應(yīng)的Kappa系數(shù)值,以掌握標(biāo)注語料的狀況。詳細(xì)數(shù)據(jù)見表4。
表4 各組標(biāo)注一致性統(tǒng)計
其中,Pa表示兩名標(biāo)注者評定一致的百分比,Pe表示理論上評定一致的百分比。
人工標(biāo)注的語料質(zhì)量主要體現(xiàn)在標(biāo)注的正確性上,這又可以從兩個方面來衡量: 一是對標(biāo)注規(guī)范的理解是否準(zhǔn)確,二是標(biāo)注結(jié)果是否一致,尤其是由多人完成的大型標(biāo)注工作。雖然我們在標(biāo)注過程中采取了一定的措施,以盡量保證標(biāo)注人員理解準(zhǔn)確,標(biāo)注一致,但仍然無法避免問題和錯誤的存在,因此,仍有必要對標(biāo)注語料進(jìn)行人工校對。校對的步驟與標(biāo)注過程大致相似。保障校對質(zhì)量的手段包括: (1)研究人員編制了詳細(xì)的校對操作手冊,集中闡釋了標(biāo)注過程中遇到的典型難點、疑點問題(如傾向主體和傾向客體的標(biāo)注),并提供給校對人員參考;(2)研究人員與校對人員集體辦公,以便隨時討論。
由于標(biāo)注和校對都是人工進(jìn)行的,在標(biāo)記的輸入、更改上難免出現(xiàn)輸入錯誤,加之標(biāo)注文件和校對文件都是具有結(jié)構(gòu)層次關(guān)系的xml格式文件,極易破壞原有格式,而這些錯誤人工往往難以識別。因此,我們專門編制了一系列輔助檢查和自動糾錯工具軟件,保證了標(biāo)注和校對結(jié)果文件的完整、合法和正確。
通過上述步驟,我們完成了漢語語義傾向語料庫的建設(shè)。表5列出了標(biāo)注語料的部分統(tǒng)計信息。
為了更好地利用漢語語義傾向語料庫,我們開發(fā)了CSOC Toolkit專用工具箱系統(tǒng)。它由四大模塊組成: 檢查抽取工具集、 檢索模塊、統(tǒng)計模塊和可視化模塊。
(1) 檢查抽取工具集。工具集的開發(fā)初衷本是為了在標(biāo)注時輔助人工完成檢查和糾錯任務(wù),隨著需求的不斷增加,新添功能逐漸增多,于是將其整合到一起,作為工具箱的一個獨立模塊。除了能夠檢查標(biāo)注錯誤和對一部分錯誤進(jìn)行自動糾錯外,工具集還提供了標(biāo)注語料信息概覽、原始語料抽取等功能。
(2) 檢索模塊。這個模塊提供兩類的檢索功能: 一類是固定的與語義傾向相關(guān)的內(nèi)容檢索,如傾向詞、傾向句、傾向主體、傾向客體等的檢索,另一類是任意字符串或標(biāo)記的檢索。檢索完成后可以純文本或富文本格式保存結(jié)果。圖4是傾向詞語檢索的某個結(jié)果截圖。
圖4 固定類別“傾向詞語”項的檢索結(jié)果
(3) 統(tǒng)計模塊。該模塊提供對固定項的統(tǒng)計,如統(tǒng)計語義傾向成分、傾向句、非傾向句、正面傾向句、負(fù)面傾向句、否定傾向句等,統(tǒng)計結(jié)果以表格的形式呈現(xiàn),并提供排序功能。統(tǒng)計結(jié)果可存為純文本或Excel表格格式。
(4) 可視化模塊。為了方便人對語義傾向成分標(biāo)注結(jié)果的直觀觀察,我們特別開發(fā)了可視化模塊,在其中可以逐句瀏覽原始文本、分詞文本、詞性標(biāo)注文本和語義傾向標(biāo)注文本。語義傾向標(biāo)注結(jié)果在呈現(xiàn)時,用不同顏色突出顯示相關(guān)文本內(nèi)容,并在文本頂部用帶顏色和箭頭的弧線表示他們之間的語義傾向關(guān)系,詞性標(biāo)記則在文本的底部顯示。圖5是《惡毒的王子》標(biāo)注結(jié)果的可視化顯示效果。
基于語言主觀性多維度描述體系,我們構(gòu)建了一個中等規(guī)模的漢語語義傾向語料庫,并為之配備了相應(yīng)的檢索、統(tǒng)計和可視化工具,這項工作所產(chǎn)出的資源既適用于漢語主觀性表達(dá)的基礎(chǔ)研究,又適用于與主觀性相關(guān)的應(yīng)用研究。
語言中的主觀現(xiàn)象日益受到學(xué)界和業(yè)界的重視,近10年間的相關(guān)工作成績喜人,但總的來說,人們對于語言表達(dá)主觀性的形式、方式、機(jī)制、規(guī)律、特點、差異等方方面面的問題所知尚淺,認(rèn)識仍待深入。例如,語言中主觀性表達(dá)的分布狀況如何,各級語言單位在表達(dá)主觀性上分別具有怎樣的特點和規(guī)律,不同語言或同一語言的不同文體在表達(dá)主觀性時有何差異等。對這些問題的回答和解決都有賴于對大量真實文本的有效統(tǒng)計和分析,本文的工作有望為這些研究提供一定的幫助,從而共同推動領(lǐng)域研究的發(fā)展。
圖5 《惡毒的王子》標(biāo)注結(jié)果可視化顯示效果
[1] 沈家煊. 語言的“主觀性”和“主觀化”[J].外語教學(xué)與研究, 2001,33(4):268-275.
[2] 沈家煊.漢語的主觀性和漢語語法教學(xué)[J].漢語學(xué)習(xí), 2009,(4):3-12.
[3] Lun-Wei Ku,Tung-Ho Wu,Li Ying Lee et al. Construction of an Evaluation Corpus for Opinion Extraction[C]//Proceedings of NTCIR-5 Workshop Meeting, Tokyo, Japan, 2005.
[4] 徐琳宏,林鴻飛,趙晶.情感語料庫的構(gòu)建和分析[J].中文信息學(xué)報,2008,22(1):116-122.
[5] 徐琳宏,林鴻飛,潘宇等.情感詞匯本體的構(gòu)造[J].情報學(xué)報,2008,27(2):180-185.
[6] 宋鴻彥,劉軍,姚天昉等.漢語意見型主觀性文本標(biāo)注語料庫的構(gòu)建[J].中文信息處理2009,23(2):123-128.
[7] 彭宣維,楊曉軍,何中清.漢英對應(yīng)評價意義語料庫[J].外語電化教學(xué),2012,247(9):3-10.
[8] 崔曉玲.基于漢語網(wǎng)絡(luò)新聞評論的情感語料庫標(biāo)注研究[J].北京郵電大學(xué)學(xué)報(社會科學(xué)版),2013,15(6):21-29.
[9] 譚松波.中文情感挖掘語料[DB/OL].(2010-06-29)[2013-07-20].http://www.searchforum.org.cn/tansongbo/corpus-senti.htm
[10] Martin J R. Beyond Exchange: APPRAISAL Systems in English[C]//Evaluation in Text, Hunston, S. & Thompson, G. (eds), Oxford: Oxford University Press, 2000:142-175.
[11] Martin J R, White P R R. The Language of Evaluation: Appraisal in English[M]. New York: Palgrave Macmillan, 2005.
[12] Taboada M, Grieve J. Analyzing Appraisal Automatically[C]//Proceedings of American Association for Artificial Intelligence Spring Symposium on Exploring Attitude and Affect in Text, Stanford, USA, 2004:158-161.
[13] Read J, Hope D, Carroll J. Annotating expressions of appraisal in English[C]//Proceedings of Linguistic Annotation Workshop, ACL 2007, Prague, Czech, 2007: 93-100.
[14] Wiebe J, Wilson T, Cardie C. Annotating expressions of opinions and emotions in language[J]. Language Resources and Evaluation, 2005, 39(2-3):165-210.
[15] Kim S M, Hovy E.Determining the Sentiment of Opinions[C]//Proceedings of the COLING Conference 2004, Geneva, 2004:1367-1373.
[16] Leech G.Corpus annotation schemes[J]. Literary and Linguistic Computing, 1993, 8(4):275-81.