許延祥,羅鐵堅,周 佳,王 竹
(中國科學院大學,北京100049)
互聯(lián)網(wǎng)的迅猛發(fā)展使 Web2.0技術普遍應用,這些應用匯聚了海量用戶貢獻內(nèi)容(UGC),其中包含了對相關對象的意見和見解,它們在人們經(jīng)濟和政治生活中起到?jīng)Q策參考作用。而人工提取意見效率低下,因而催生了計算領域的意見挖掘研究。對意見的廣泛研究始于2001年[1]?!耙庖娡诰颉保╫pinion mining)最初由Dave在2003年 WWW會議上提出,用于分析網(wǎng)民對于產(chǎn)品各個特征的看法[2]。2006年,TREC會議首次設置了針對 Blog的意見分析相關的研究TRACK[3]。國內(nèi)在此領域有專門的會議COAE,已經(jīng)舉辦了3屆(2008,2009,2011)。第3屆COAE會議主要針對評價文本[4]。
對給定文本T,意見挖掘旨在將其中表達意見的元組提取出來,即確定映射f:T→{(e1,e2,...,en)},其中e為意見元組的構成要素。
文獻[5]定義意見元組為(主題topic,持有者Holder,陳述claim,情感sentiment);文獻[6]則定義為(對象o,特征f,意見傾向oo,持有者h,時間t)。對元組定義的差異在于文本類型及挖掘目標的不同。文本主要來自交易網(wǎng)站、論壇、新聞網(wǎng)站、博客/微博和政治辯論等,其意見挖掘目的比較如表1所示。
表1 文本意見挖掘目的之比較
目前,針對產(chǎn)品和服務的評價文本(review)被研究最多,主要原因:一是該類文本廣泛深入地影響人們的消費行為,需求驅(qū)動研究;二是該類文本中非意見信息少、附帶的打分評級可轉(zhuǎn)化為傾向標注,便于計算性研究。
按文獻[7]的綜述,評價文本中意見持有者通常被認為是評價者本人,因而不做專門挖掘。但實際評價中會有引用他人評價作為自己意見的情況,也有對引用意見進行評價進而形成自己意見的情況,對此應作為一種特殊意見表達形式來區(qū)別處理。
意見對象需指明,以區(qū)別于文中其他對象。評價語體現(xiàn)意見內(nèi)涵,因而通常也被列為意見要素[4,8]。評價文本意見元組可定義為:(o,f,a,p)。其中,o為意見對象,包括產(chǎn)品和服務;f代表特征(feature);a代表評價語(apprise);p代表傾向(polarity)。意見挖掘目標為:?文本T,確定映射F:T→{(o,f,a,p)}。
意見在評價文本中則藉由語言形式表達出對特定事物的正面或負面傾向。由于語言表達的復雜性,從大規(guī)模文本集合中準確、全面地獲取意見仍是相當有挑戰(zhàn)難度的問題。在中文領域,以COAE2011的任務3為例[4],其面向三個領域評價文本,抽取被評價特征與相應評價語并確定褒貶性。其特征與評價語搭配最好召回率為0.051 457(電子產(chǎn)品領域)。
本文認為,導致意見元組抽取召回率低的主要原因之一是對語言表達意見方式的認識有所欠缺,導致現(xiàn)有挖掘算法通常只能覆蓋意見的部分表達形式。因而,本文提出研究意見分布規(guī)律,以制定更加合理的挖掘策略。
本文首先比較意見挖掘的相關工作;然后提出分析評價文本中意見分布規(guī)律的理論框架和意見標注方法;之后根據(jù)對語料的標注與統(tǒng)計,得出意見分布規(guī)律;最后基于這些規(guī)律,給出了相應的策略。
對評價文本的意見挖掘一般被分解為兩個子任務來進行[9-10]:1)對產(chǎn)品特征的識別;2)對與識別出特征相關聯(lián)的評價語的提?。皟A向判斷)。
來自網(wǎng)絡的評價文本主要有3種格式[11]:(1)分別指出優(yōu)點和缺點,再給出詳細評論;(2)分別給出針對優(yōu)點和缺點的詳細評論;(3)優(yōu)點和缺點混雜的自由評論。
對于格式(1),Liu在文獻[12]中提供出了一種基于標注序列規(guī)則(LSR)的方法,該方法假定每個由標點符區(qū)隔的子句或短語只包括一個特征,分三個步驟進行:1)對原文進行詞性標注(POS tagging),例如,語句“Memory is stingy”標注后變?yōu)樾蛄校迹鹠emoly,NN}{is,VB}{stingy,JJ}>;2)在新序列中的標注出特征,上例變?yōu)椋迹鏵eature,NN}{is,VB}{stingy,JJ}>;3)以所得序列集合識別新語料中的特征,例如,將新評價語句片斷與上述序列進行模式匹配,提取與$feature相對應的詞作為特征。
上述方法只對簡短明確的優(yōu)缺點評價有效,對于語句結(jié)構更復雜且含有較多無關信息的詳細評論效果并不好。而多數(shù)評價屬于后者,如eBay、淘寶上的評價。針對自由評價的特征識別方法有以下幾種。
詞頻法。Hu在文獻[11,13]中假定產(chǎn)品屬性都是名詞,首先對評價文本進行詞性標注,然后通過聯(lián)合規(guī)則挖掘(Association Rule Mining)找出高頻出現(xiàn)的名詞作為被評價的特性。已識別特征共現(xiàn)的形容詞被作為情感詞,再根據(jù)名詞與情感詞的共現(xiàn)關系,識別出低頻特性。
特征表法。Popescu與Etzioni[14]考慮到特征與被評價產(chǎn)品之間在概念上的固有關聯(lián),提出用手工制定的“局部-整體關系鑒別器”(meronymy discriminator)作為識別特征的方法,取得了比Hu等在文獻[11,13]中更好的性能。
語義詞典法。Li利用WordNet和演員表提取電影評論句中特征和情感詞列表,對識別出的同義特征借助 WordNet進行合并[12,15]。
序列標注法。Liu等人在語料中標注特征,然后提取包含特征的3-gram,通過關聯(lián)規(guī)則挖掘算法(Association Rule Mining)獲得特征標注模型,然后以此提取新語料中的特征[16]。
位置關系法。Skomorowski的方法則是統(tǒng)計形容詞性的情感詞與產(chǎn)品特征的位置關系,然后根據(jù)情感詞提取產(chǎn)品屬性[17]。
詞頻法、特征表法、語義詞典法都屬于無監(jiān)督學習方法,方法的準確率和召回率都不高。序列標注法、位置關系屬于有監(jiān)督挖掘方法,準確率相對較高,但依賴于人工標記語料庫的規(guī)模,且缺乏領域擴展性。
對評價語的提取方法主要利用特征與評價語在位置上的鄰接關系。主要有3種辦法。
共現(xiàn)窗口法。Hu假定特征與評價語會在同一句子中出現(xiàn),在得到句中特征后,選取特征前后一定長度的詞序列為觀察窗口,取出其中的形容詞作為該特征的評價語[11,13]。這種方法沒有處理特征和評價語的對應問題,而且只提取形容詞的評價,所以性能相對較低。
句法規(guī)則法。Popescu將句法依存、詞性與規(guī)則相結(jié)合,這樣可以提取所有詞性的情感詞,但是由于規(guī)則需要人工整理,如果情感詞出現(xiàn)的形式不在規(guī)則中就無法提取[18]。
輔助信息法。在[9,19]中采用了匹配信息、手工制定規(guī)則及情感相關詞匯來提高評價語識別性能。
由于中文的詞間無明顯分隔,且單詞在語句中沒有形態(tài)變化,因而中文意見挖掘要先解決分詞與詞性標注的 問題[20-22]。在此 基 礎 上,針 對 全 文[23-24]和句子[25-26]的傾向性分析已經(jīng)取得了一定進展。對于意見元素提取,文獻[27]采用了詞形與詞性模板對特定領域進行了特征抽取,并用Bootstrapping方法擴展抽取結(jié)果;文獻[28]先使用句法分析結(jié)果獲取候選評價特征,再結(jié)合PMI算法和名詞剪枝算法對候選特征進行篩選;文獻[29]以核心句和句法關系為特征參數(shù)有效提高了CRFs的評價對象抽取性能;文獻[30]利用6種詞語搭配模式同步提取評價特征和評價語。此外,文獻[31-32]提出了對意見型文本的劃分及語料建設方法,是進行意見挖掘的基礎性工作。
當前意見挖掘方法過于依賴顯式語言特征,例如,以高頻出現(xiàn)名詞或名詞短語為特征,與特征在句中共現(xiàn)的形容詞為評價語。但是,有些特征并不以字面形式出現(xiàn)在文本中,而是通過評價語的語義關聯(lián)體現(xiàn)出來;同時,意見既能用含有情感詞的主觀句來表達,也能用不含情感詞的客觀句來表達[4,33]。因此,對意見表達規(guī)律進行深入和全面研究,將有助于發(fā)現(xiàn)提高意見挖掘召回率的策略和方法。
為研究意見分布規(guī)律,我們首先提出理論框架來確定:1)在何種粒度上研究意見分布;2)如何判別意見的存在;3)意見相關的表達方式如何分類。
文本具有“篇章→段落→句子→子句→短語→單詞→字”7個層面的粒度劃分。其中,句子是表達完整思想的最小單元,針對意見的抽取研究通常是以句子為單元來進行的,如COAE2011的任務3的要求。
本文把句子作為意見分析單元,對包含意見的句子稱為意見句,反之稱為非意見句。對于意見表達模糊的句子,作為非意見句處理。
針對評價文本意見元組 (o,f,a,p),從給定句子中提取一條完整意見需要完成4個方面的任務。
1)確定是針對目標對象(而不是其他對象);
2)識別評價所針對的對象特征;
3)提取與特征相關的評價語;
4)判斷評價語的意見傾向(正面、負面)。
任務(1)和(2)強調(diào)針對性;任務(3)和(4)強調(diào)評價語的傾向性,因而有如下意見判斷準則。
1)針對性準則。成立的意見必須是針對所評論的對象或其特征,而不是針對其他對象。針對性判別的前提是,全面了解目標對象所具有的特征,判別過程就是判斷評價文本中的句子是否與關注特征集的某個(些)特征項具有語義關聯(lián),如圖1所示。
圖1中體現(xiàn)兩種特征表達方法:1)顯式表示。特征直接以字面形式出現(xiàn),如“房間”“設施”等;2)隱性特征,特征項不出現(xiàn),利用評價語與特征的語義關聯(lián)來表示,例如,“禮貌”“接待”在描述“服務”特征。
圖1 酒店評價文本的針對性判別
2)傾向性準則。成立的意見必須體現(xiàn)傾向,傾向是評價者對目標對象在某個特征的評價維度上與比較基準比較的結(jié)果,如圖2所示。
圖2 比較基準
傾向性有三種體現(xiàn)形式:一是比較基準為另一對象,傾向性為與此對象的直接比較,例如,“這臺電腦還沒我以前用的那臺快呢”;二是比較基準為可刻度化評價維度上的取值區(qū)間,傾向性為目標對象的量化描述與比較基準的相對位置,例如,“房間的雙人床才1米5”,比較基準是下限大于“1米5”的取值區(qū)間;三是直接用情感詞語描述傾向性,例如,“這本書的裝禎很精美”中“精美”體現(xiàn)正面傾向。
傾向性依賴于針對性而存在,意見的成立必須同時滿足針對性和傾向性的判別要求。
語言能借助字面含義傳達豐富的“言外之意”,意見的表達尤其如此。例如,句子“把浴巾放在浴缸里希望更換,晚上看到更換的浴巾上竟然有毛發(fā)”,形式上陳述一個客觀事件,但目的卻是以此提出意見。這種字面內(nèi)涵小于實際內(nèi)涵的語義差異給意見分析帶來的困難在文獻[34]中已有論述。為深入研究這種差異,本文按字面內(nèi)涵把句子歸納為四種類型①此處受系統(tǒng)功能語言學派韓禮德啟發(fā),其把語言功能分為:概念功能、人際功能和語篇功能三類。,再分別研究各類型句子上的意見分布。
1)客觀句,即陳述客觀事實;
2)主觀句,即表達主觀想法,在形式上含有情感詞,情感詞包括有主觀傾向的形容詞(如“好”、“精彩”、“差”)和體現(xiàn)思維活動的動詞(如“喜歡”“認為”“猜測”“建議”等);
3)混合句,特指部分子句陳述事實、部分子句表達想法的復合句;
4)組織句,用于組織篇章的引語、黏合語或過渡句等,如“下面我分4點來講一下”。
其中,組織句不包含意見,予以忽略。本文的主要分析意見在前三類句子中的分布(圖3)。
圖3 意見分析研究目標
針對意見分布規(guī)律研究目的,本文構建語料庫并進行標注處理如下。
本文選擇譚松波整理公布的“中文情感挖掘語料-ChnSentiCorp”作為初始語料②http://www.searchforum.org.cn/tansongbo/senti_corpus.jsp。該語料覆蓋了服務(酒店)、精神類產(chǎn)品(書籍)和物質(zhì)類產(chǎn)品(電腦)三個領域的評價,因而具有多領域代表性。
初始語料已做了文本級情感分類,以每個評價文本為獨立文件的形式提供各領域去重正負類文本各2 000,共12 000文本,語料規(guī)模為109萬字。
本文以文本為記錄單元把初始語料存入數(shù)據(jù)庫中(入庫語料的字數(shù)與句數(shù)統(tǒng)計如表2所示),然后以半角和全角的句號、嘆號、問號及換行符為依據(jù)進行了分句處理③注:分句前先把句號(。。?;?..)拼接成的省略號轉(zhuǎn)換成真正的省略號(…);分句后對于多個?或!連用的情況只保留一個符號,入庫時去除文本及句子前后多余的空行。。分句結(jié)果以句子為記錄單元存入表tan_sen中,并記錄句子所屬文本、領域等信息。
從表3可以看出不同領域的用詞與用句有較大差異:電腦評價最為簡潔,且正面與負面評價比較均衡;書籍正面評價最為復雜,且傾向于使用長句。
表2 ChnSentiCorp語料句長與句數(shù)統(tǒng)計信息
為保持語料的領域間平衡和領域內(nèi)的正負類別平衡,本文從tan_sen中按領域隨機選擇分屬正負文本的各2 000個句子,共計12 000句,存入“tan_sen_x”表中,形成新的語料庫,規(guī)模為320 165字。
本文用java語言開發(fā)了一個輔助意見標注的程序<XO-意見標注與挖掘平臺1.0>①下載:http://idea.gucas.ac.cn/index.php/People/Xuyanxiang。主要功能為以下三點。
1)句子級標注。標注每個句子是否含有意見及其句子類型(主觀句、客觀句、混合句)。意見標注結(jié)果記錄在tan_sen_x的新建字段“is_opinion”中,句子類型記錄在新建字段“sen_type”中。
2)特征級標注。標注句中的特征與評價語。在tan_sen_x新建字段“sen_opinion”存儲原語料句副本,在該副本中直接加入對識別出特征和評價語的標記。特征采用“?!眮順擞洠辉u價語采用“-2,-1,0,1,2”來標記,對應于“很差、差、一般、好、很好”等5個傾向強度等級。特征或評價語用“{}”包圍起來,標記以“/”開頭,緊隨其后。
3)詞性標注。在tan_sen_x中新建字段“sen_pos”存儲原句副本。把經(jīng)過分詞、詞性標注處理的句子記入sen_pos中。詞性標記緊隨相應詞語之后,標記與詞語之間用“/”符號分隔。分詞與詞性標注引入軟件包ICTCLAS2011_Windows_32_jni②http://ictclas.org/ictclas_download.aspx來完成。
由于意見形式多樣,為保證意見標注的準確性,本文采用3人分別標注再交叉驗證的方法。首先統(tǒng)一3人對意見判別標準的認識,然后各自獨立標注不同的文本,在完成自己任務后,檢查另2人的標注結(jié)果。當判別不一致時,檢查者與標注者進行討論,能達成一致則標注,否則舍棄該語料。事實上,不能達成一致認識的語句通常存在著歧義缺陷。
基于對tan_sen_x的標注與統(tǒng)計分析,得出以下8個方面的意見分布規(guī)律。
各領域評價文本的意見在3種句子上的分布統(tǒng)計如圖4所示。從中可得到2點啟示。
1)相同樣本規(guī)模(正負各2 000),電腦領域的語料包含的意見句數(shù)量明顯高于另兩個領域,這說明電腦評價文本中意見表達更加直接。
圖4 意見分布的主觀與客觀對比
2)主觀句表達意見相對客觀句在比重上并不占明顯優(yōu)勢,因而意見挖掘研究必須重視客觀句及混合句,否則將無法突破召回率的性能瓶頸。
對混合意見句中的子句進一步分析,發(fā)現(xiàn)有兩種情況:一是主觀子句表達情感傾向(或意見),客觀子句做補充說明;二是客觀子句體現(xiàn)意見針對性,主觀子句表達情緒或情感傾向。前一種情況占多數(shù),約為73%。將前一種計為主觀意見句,后一種計為客觀意見句,則主觀意見句與客觀意見句之比為64%∶36%(3 674∶2 068)。
因而,如果不能有效地從客觀(子)句中挖掘意見,則意見召回率的性能上限是64%。
對tan_sen_x標注的特征進行統(tǒng)計歸類后,得到如下結(jié)果:
1)書籍領域涉及5個大類、23個小類特征;
2)酒店領域涉及8個大類,94個小類特征;
3)電腦領域涉及26個大類、134個小類特征。
相對于32萬字、12 000句的語料規(guī)模,我們發(fā)現(xiàn)特征的類別數(shù)量是很有限的。
一個領域中包含的特征子類別(即具體特征項)從20多到100多不等。我們希望了解手工標注多少語句后可發(fā)現(xiàn)全部或絕大部分特征。為消除文本集合命名整理時可能存在的排序偏向,本文采用3種順序提取并統(tǒng)計標注特征:一種是從前向后(前統(tǒng)計),一種是從后向前(后統(tǒng)計),第三種是從中間向前后(中統(tǒng)計)。結(jié)果如圖5的1~3所示。統(tǒng)計表明,當領域樣本空間為4 000時,對于書籍領域,標注數(shù)不到300,即可涉及全部23個具體特征;對于酒店,標注數(shù)不到450,即可涉及94個特征中的92個,對于電腦領域,標注數(shù)不到550,即可涉及134個具體特征中的132個。上述規(guī)律表明隨機抽取少量語料(300~600)即可確定酒店等領域中的絕大部分特征項。
意見在特征類別上的分布統(tǒng)計如下圖5的4~6所示。標注中發(fā)現(xiàn),同一個特征項可用不同的詞顯性表示。例如,“紙質(zhì)”“書頁”都是“紙張”的同義詞,“字體”“行距”都是“排版”的同類詞。
對tan_sen_x進行特征詞歸類,即建立同義或同類特征詞與所屬特征項的對應列表,然后按表統(tǒng)計,結(jié)果表明:書籍的23類特征項用到79種特征詞;酒店的94類特征項用到358種特征詞;電腦的133類特征項用到225種特征詞。平均每個具體特征采用2.64種不同的特征詞。由于特征項與特征詞的關聯(lián)不一定體現(xiàn)在文本中,因而建立相應的關聯(lián)列表是挖掘的必需。
借助語義詞典(如 WordNet)可分類同義特征詞[35],但對具體領域特征的覆蓋率較低,會影響特征識別性能。特征詞與特征項的規(guī)模相對有限,因而手工建立關聯(lián)列表更加合理、可行。
圖5 意見在特征類型上的分布對比
評價文本涉及特征并非都顯式出現(xiàn)在文本中,有時借助評價語或事件來體現(xiàn),如“電腦有點沉”,評價語是“有點沉”,所針對的隱性特征是“重量”。
經(jīng)抽樣統(tǒng)計(在每個領域各抽500個意見句),這種隱性特征的分布情況為:書籍中占35.3%;酒店中占28.7%;電腦中占31.5%,總平均為31.8%。
對比三個領域的特征項,得到如圖6所示結(jié)果。3個領域共同特征項是總體感覺、價格和性價比;書籍與電腦的共項是完好度、配送速度、快遞態(tài)度客服和退換,酒店與電腦的共項是服務態(tài)度。從中可看出領域間共同特征項比例很小,且不是被評價對象的主體特征。這種分布表明意見特征具有天然領域差異性。
圖6 特征分布的領域?qū)Ρ?/p>
經(jīng)歸納,tan_sen_x中主觀句表達意見有5種方式:1)情感式,表達主體對客體的情感傾向,例如,“我很喜歡它的金屬機身”;2)評價式,以客體為主語的直接評價,例如,“小玻翻書是一套不錯的書”;3)質(zhì)疑式,用反問句式提出意見(通常是負面的),例如,“難道這就是號稱四星級酒店的服務嗎”;4)建議式,以建議表達意見,例如,“機器的cpu最好用zm82”;5)轉(zhuǎn)述式,分兩種情形,一是評價者以被轉(zhuǎn)述的主觀意見為自己的意見,例如,“朋友認為這家酒店還不錯”,二是對轉(zhuǎn)述內(nèi)容進行評價形成自己意見,例如,“網(wǎng)友評論說這家酒店很好,但我不這么認為”。
抽樣500個主觀意見句統(tǒng)計,以上5種主觀式意見表達方式的分布比較如圖7左圖所示。其中情感式和評價式占了大多數(shù)。
經(jīng)歸納,tan_sen_x中客觀句表達意見有3種方式:1)存在式,判斷期望的事物存在與否,例如,“連洗浴液都沒有”,或判斷存在事物是否非心理期望,例如,“枕頭上竟然有毛發(fā)”,再或判斷存在事物是否超出期望,例如,“房間竟有免費飲料送”;2)描述式,用客觀描述(通常是量化數(shù)據(jù))與心理預期的差距表達對意見,例如,“雙人房間的床只有大約1米寬”;3)事件式,用事件蘊涵的現(xiàn)實意義表達意見,例如,“第三次才開機成功”。
以上3種客觀意見表達方式在3個領域的抽樣統(tǒng)計結(jié)果如圖7右圖所示(抽樣數(shù)為500個客觀意見句)。其中存在式和事件式占了大多數(shù)。
圖7 意見在表達方式上的分布
根據(jù)意見在表達方式上的分布規(guī)律,我們提出以下5點意見挖掘策略,包括建立3種列表,對主觀、客觀2類句式采用不同方式處理。
1)特征項列表。由于特征項對意見挖掘的整體性能影響較大,應盡可能提高對特征項的識別精度。特征項的隨機分布和有限性使得手工識別或修正特征項集合是可行的。有研究在建立領域?qū)ο蟊倔w庫即是這方面工作的例子[36-37]。
2)特征詞列表。由于特征項與特征詞的類屬關系并不能通過字面完全反映出來,為準確提取特征詞并分類統(tǒng)計必須建立特征詞與特征項的對應關系表,創(chuàng)建過程可借助語義詞典(如 WordNet,Hownet),但通常來講手工創(chuàng)建過程是必要的。
3)隱性特征表。隱性特征項在文中沒有對應的特征詞,是基于與評價語或事件的語義關聯(lián)來體現(xiàn)的。為對其識別必須顯式地記錄下這種關聯(lián),關聯(lián)分兩種:一種是特征與評價性形容詞的關聯(lián);另一種是特征與描述事件的主導動詞的關聯(lián)。該列表領域相關,不同的領域需建立不同的隱性特征表。
4)分類處理主觀意見句。對于情感式和評價式的意見主觀表達方式,可基于情感詞進行識別;對于質(zhì)疑、建議和轉(zhuǎn)述等3種方式,則需要按特殊句式進行模式識別,然后進行語義轉(zhuǎn)換處理,再提取意見元組。
5)基于指示詞處理客觀句。客觀句有明確針對性(也需基于特征詞列表和隱性特征表識別)。而其傾向性的表達則借助由助詞或副詞形成的語氣,例如,“都”“只”“才”等。因而識別客觀句式意見的方法是基于標注語料計算出這樣的傾向指示詞,然后擇取其中置信度較高的來確定目標句的傾向性,句中指示詞所修飾的詞或短語即為評價語。另外,雖然建立通用的知識推理規(guī)則仍有巨大挑戰(zhàn),但針對具體領域的意見挖掘需要,可歸納出某些能提高客觀句式意見挖掘性能的推理規(guī)則。例如,建立規(guī)則“?新的衛(wèi)浴用品,?毛發(fā)→清潔服務差(負面意見)”,則可通過語境下“毛發(fā)”一詞發(fā)現(xiàn)負面意見。
本文對評價文本中意見元組抽取召回率不高是否與意見表達方式的分布規(guī)律有關進行了研究。論文對100萬字規(guī)模的語料庫統(tǒng)計發(fā)現(xiàn),客觀句表達意見情況占36%,這揭示了只考慮分析主觀句是召回率低的主要原因之一。
對不同評價領域中特征分布研究發(fā)現(xiàn),特征具有數(shù)量少、領域差異大、隨機分布且用詞多樣的特點,同時隱性特征廣泛存在。這些發(fā)現(xiàn)支持了手工識別特征做法的合理性。論文從語料庫歸納出意見表達方式有5種主觀句式,3種客觀句式,并給出了針對句式特點采取不同挖掘策略的方法。
由于特征與傾向的關系通?;谠~語間的語義關聯(lián)或句子語義來體現(xiàn),因而意見表達是語義相關的,這導致以詞袋方法或淺層語言信息為基礎的算法可能對情感分類有效,但進行意見挖掘時則往往性能較差。所以,把上述語義關系以某種數(shù)據(jù)結(jié)構固化下來是提高意見挖掘召回率的必要辦法。
[1]B Pang,L Lee.Opinion mining and sentiment analysis.[M].Foundations and Trends in Information Retrieval 2(1-2),2008:7.
[2]K Dave,S Lawrence,D M Pennock.Mining the peanut gallery:Opinion extraction and semantic classiffication of product reviewes [C]//Proceedings of WWW,2003:519-528.
[3]I Ounis,M de Rijke,C Macdonald,et al.Overview of the TREC-2006blog track[C]//Proceedings of the 15th Text Retrieval Conference(TREC),2006.
[4]許洪波,孫樂,姚天昉,等.第三屆中文傾向性分析評測(COAE2011)總結(jié)報告[R]//許洪波,孫樂,姚天昉.第三屆中文傾向性分析評測(COAE2011),2011:1-24
[5]S Kim,E Hovy.Determining the sentiment of opinions[C]//Proceedings of Interntional Conference on Computational Linguistics(COLING-2004),2004.
[6]B Liu.Sentiment Analysis and Opinion Mining[R],AAAI-2011Tutorial,San Francisco,USA Aug.8,2011
[7]B Pang,L Lee.Opinion mining and sentiment analysis.[M]Foundations and Trends in Information Retrieval 2(1-2),2008:57-59.
[8]A Popescu,O Etzioni.Extracting product features and opinions from reviews[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing(EMNLP-2005),2005.
[9]A M Popescu,O Etzioni.Extracting product features and opinions from reviews[C]//Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing(HLT/EMNLP),2005.
[10]J Yi,W Niblack.Sentiment mining in WebFountain[C]//Proceedings of the International Conference on Data Engineering(ICDE),2005.
[11]M Hu,B Liu.Mining and summarizing customer reviews[C]//Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD-2004),2004.
[12]B Liu,M Hu,J Cheng.Opinion observer:Analyzing and comparing opinions on the web[C]//Proceedings of WWW,2005.
[13]M Hu,B Liu.Mining opinion features in customer reviews[C]//Proceedings of AAAI,2004:755-760.
[14]A M Popescu,O Etzioni.Extracting product features and opinions from reviews[C]//Proceedings of the Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing(HLT/EMNLP),2005.
[15]L Zhuang,F(xiàn) Jing,X Y Zhu,et al,Movie review mining and summarization[C]//Proceedings of the ACM SIGIR Conference on Information and Knowledge Management(CIKM),2006.
[16]B Liu,M Hu,J Cheng.Opinion observer:Analyzing and comparing opinions on the web[C]//Proceedings of WWW,2005.
[17]J Skomrowski.Topical Opinion Retrieval[D].Disertation of Master of Mathematics in Computer Science.Waterloo,Canada,2006
[18]K Puspesh. Multi-document Update and Opinion Summarization[D].Disertation of of Master of Technology.Indian Institution of Technology.2008
[19]S Morinaga,K Yamanishi,K Tateishi,et al.Mining product reputations on the Web[C]//Proceedings of the ACM SIGKDD Conference on Knowledge Discovery and Data Mining(KDD),2002:341-349.
[20]李壽山,黃居仁.基于詞邊界分類的中文分詞方法[J].中文信息學報,2010,24(1):3-7.
[21]王麗杰,車萬翔,劉挺.基于SVMTool的中文詞性標注[J].中文信息學報,2009,23(4):16-21.
[22]邢富坤,宋柔,羅智勇.SSD模型及其在漢語詞性標注中的應用[J].中文信息學報,2009,24(1):20-24.
[23]吳瓊,譚松波,張剛,等.跨領域傾向性分析相關技術研究[J].中文信息學報,2010,24(1):77-83.
[24]劉全升,姚天昉.基于關聯(lián)度模型的文本傾向性檢索研究[J].中文信息學報,2011,25(1):16-19.
[25]楊源,林鴻飛.基于產(chǎn)品屬性的條件句傾向性分析[J].中文信息學報,2011,25(3):86-92.
[26]宋銳,林鴻飛,常富洋.中文比較句識別及比較關系抽?。跩].中文信息學報,2009,23(2):102-107,122.
[27]宋曉雷,王素格,李紅霞.面向特定領域的產(chǎn)品評價對象自動識別研究[J].中文信息學報,2010,24(1):89-93.
[28]劉鴻宇,趙妍妍,秦兵,等.評價對象抽取及其傾向性分析[J].中文信息學報,2010,24(1):84-88,122.
[29]張莉,錢玲飛,許鑫.基于核心句及句法關系的評價對象抽取[J].中文信息學報,2011,25(3):23-29.
[30]王素格,楊安娜.基于混合語言信息的詞語搭配傾向判別方法[J].中文信息學報,2010,24(3):69-74.
[31]劉全升,姚天昉,黃高輝,等.漢語意見型主觀性文本類型體系的研究[J].中文信息學報,2008,22(6):63-68.
[32]宋鴻彥,劉軍,姚天昉,等.漢語意見型主觀性文本標注語料庫的構建[J].中文信息學報,2009,23(2):123-128.
[33]B Pang,L Lee.Opinion mining and sentiment analysis[M].Foundations and Trends in Information Retrieval 2(1-2),2008:26.
[34]B Pang,L Lee.Opinion mining and sentiment analysis[M].Foundations and Trends in Information Retrieval 2(1-2),2008:17-22.
[35]A Esuli,F(xiàn) Sebastiani.PageRanking WordNet synsets:An application to opinion mining[C]//Proceedings of the Association for Computational Linguistics(ACL),2007.
[36]Y Lu,H Duan,H Wang,et al.Exploiting Structured Ontology to Organize Scattered Online Opinions[C]//Proceedings of Interntional Conference on Computational Linguistics(COLING-2010),2010.
[37]姚天昉,聶青陽,李建超,等.一個用于漢語汽車評論的意見挖掘系統(tǒng)[C]//曹右琦,孫茂松.中文信息處理前沿進展—中國中文信息學會二十五周年學術會議論文集.北京:清華大學出版社,2006:260-281.