熱西旦木·吐爾洪太,吾守爾·斯拉木,伊爾夏提·吐爾貢
(1.新疆大學(xué) 信息科學(xué)與工程學(xué)院 新疆多語種重點實驗室,新疆 烏魯木齊 830046;2.伊犁師范學(xué)院 電子與信息工程學(xué)院,新疆 伊寧 835000)
詞典與機器學(xué)習(xí)方法相結(jié)合的維吾爾語文本情感分析
熱西旦木·吐爾洪太1,2,吾守爾·斯拉木1,伊爾夏提·吐爾貢1
(1.新疆大學(xué) 信息科學(xué)與工程學(xué)院 新疆多語種重點實驗室,新疆 烏魯木齊 830046;2.伊犁師范學(xué)院 電子與信息工程學(xué)院,新疆 伊寧 835000)
隨著互聯(lián)網(wǎng)整體水平的提高,大量基于維吾爾文的網(wǎng)絡(luò)信息不斷建立,引起了對不同領(lǐng)域的信息進行情感傾向性分析的迫切需要。該文考慮到維吾爾文沒有足夠的情感訓(xùn)練語料和完整的情感詞典,結(jié)合機器學(xué)習(xí)方法和詞典方法的優(yōu)點,構(gòu)建一個分類器模型 LCUSCM(Lexicon-based and Corpus-based Uyghur Text Sentiment Classification Model),先用自己構(gòu)建的維吾爾文情感詞典對語料進行高質(zhì)量的情感分類,分類過程中對詞典進行遞歸擴充,再根據(jù)每條句子的情感得分,從詞典分類的結(jié)果中選擇一部分語料來訓(xùn)練一個分類器并改進第一步的分類結(jié)果。此方法的正確率比單獨使用機器學(xué)習(xí)方法提高了9.13%, 比詞典方法提高了1.82%。
維吾爾文;情感詞典;情感分析;機器學(xué)習(xí)
隨著互聯(lián)網(wǎng)的飛速發(fā)展,廣大網(wǎng)絡(luò)用戶已經(jīng)從過去單純的信息獲取者變?yōu)榫W(wǎng)絡(luò)內(nèi)容的主要制造者。當(dāng)前互聯(lián)網(wǎng)上的信息形式多種多樣,如新聞、博客文章、產(chǎn)品評論、論壇帖子等等。情感分析(sentiment analysis)能夠自動判斷說話者對某事件、產(chǎn)品、人物和政策等持有的態(tài)度。
隨著互聯(lián)網(wǎng)整體水平的提高,大量基于維吾爾語的網(wǎng)站和通信平臺也不斷建立,網(wǎng)站內(nèi)容信息豐富,促進了新疆地區(qū)教育和經(jīng)濟的發(fā)展,提升了新疆信息化水平。對維吾爾語文本進行情感傾向性分析可以為相關(guān)部門在電子商務(wù)、民意調(diào)查、企業(yè)管理、信息監(jiān)測等工作中提供參考,能夠幫助政府、國家安全部門及時發(fā)現(xiàn)網(wǎng)民的輿論傾向和動態(tài),使其在信息監(jiān)控,郵件過濾和偵查等工作中起到準(zhǔn)確定位所需信息的作用。研究成果對于新疆地區(qū)的經(jīng)濟建設(shè)和信息安全都有著重要的作用。
情感分析研究的兩種基本策略為基于語料的機器學(xué)習(xí)方法和基于情感詞典的方法?;跈C器學(xué)習(xí)的方法在有充足和正確標(biāo)注的訓(xùn)練數(shù)據(jù)的時候能夠取得較高的精度,但是該方法對語料領(lǐng)域,主體和時間非常敏感,在一個領(lǐng)域里面訓(xùn)練的分類器對其他領(lǐng)域的語料沒有很好的分類作用。而基于詞典的方法是無監(jiān)督的,用少量的種子詞匯也能取得較好的分類結(jié)果,并且該方法是領(lǐng)域無關(guān)的。在網(wǎng)絡(luò)高度發(fā)達的今天,評價對象的多樣性決定了很難有一個足夠規(guī)模的標(biāo)注語料能夠滿足各種需求。因此能否通過結(jié)合少量標(biāo)注的語料和動態(tài)擴展的情感詞典來完成分類任務(wù),能否找出詞典規(guī)則和機器學(xué)習(xí)方法的融合點,發(fā)展一個既依靠領(lǐng)域知識又可以跨領(lǐng)域的分類器是一個新的研究趨向。
相關(guān)研究表明詞典和語料方法是互補的[1-2]。語料方法在正面分類上正確率較高,而詞典方法在負(fù)面分類上較高,通過實驗驗證該方法在維吾爾文語料的二元分類上也得到同樣結(jié)果。它們一個傾向于正面分類,而另一個傾向于負(fù)面分類,結(jié)合兩種方法可以起到互補作用,有效提高分類效果。
維吾爾文情感分類工作才剛剛起步,沒有像英文和中文一樣豐富的情感資源可供使用,考慮到網(wǎng)絡(luò)語料涉及領(lǐng)域廣泛,需要一個跨領(lǐng)域的分類器,本文試圖構(gòu)建一個領(lǐng)域無關(guān)的,發(fā)揮詞典和語料方法互補作用的,不依賴太多標(biāo)注訓(xùn)練語料的分類模型。
以此為目的,本文構(gòu)建了一個分類器模型LCUSCM,首先創(chuàng)建一個包含領(lǐng)域通用詞匯的情感詞典,根據(jù)構(gòu)建的詞典進行正負(fù)兩元分類,遞歸方式擴展詞匯列表和分類句子數(shù),再根據(jù)這次分類結(jié)果訓(xùn)練一個分類器,進一步改進第一步所得到的分類結(jié)果。
我們的工作相似于文獻[2],他們把HowNet作為基礎(chǔ)情感詞典進行分類,分類時只考慮了否定詞的修飾,并從分類好的語料中選擇出現(xiàn)頻率兩次以上的詞匯作為候選詞來擴充基礎(chǔ)情感詞匯,但是這種方法可能會選擇很多沒用的情感詞匯。他們同時設(shè)計比例控制(Ratio Control)參數(shù)來控制正負(fù)語料的比例。本文工作的創(chuàng)新點在于:
1.本文受文獻[3-4]的啟發(fā),根據(jù)維吾爾文語言的自身特點,以逐步擴充的方式構(gòu)建了一部維吾爾文情感詞典,再根據(jù)一些詞性搭配規(guī)則從基礎(chǔ)情感詞典分類的語料中選擇情感詞匯和情感短語作為候選對基礎(chǔ)詞典進行擴充;
2.用詞典和一些規(guī)則來計算每個句子的情感得分,并制定閾值,得分高于閾值的句子作為訓(xùn)練語料,低于閾值的作為測試語料;
3.本文不需要手工標(biāo)注的大規(guī)模訓(xùn)練語料,可以用詞典規(guī)則分類結(jié)果作為機器學(xué)習(xí)模塊的訓(xùn)練和測試語料;
4.本文設(shè)計的分類器不依賴于任何領(lǐng)域語料。
本文結(jié)構(gòu)組織如下:第二部分介紹國內(nèi)外相關(guān)工作;第三部分介紹本文構(gòu)建的LCUSCM模型;第四部分是實驗結(jié)果及分析;第五部分進行總結(jié)并展望。
情感分析通用方法有:
(1) 使用情感詞典及與其關(guān)聯(lián)信息分析文本情感
(2) 使用機器學(xué)習(xí)方法分析文本情感
基于情感詞典的方法主要是通過構(gòu)建和使用情感詞典來實現(xiàn)對文本進行情感分析。情感詞語的抽取主要分為基于語料庫和基于詞典兩種方法[5]?;谡Z料庫的評價詞語抽取和判別主要是利用大語料庫的統(tǒng)計特性,觀察一些語言規(guī)則來挖掘情感詞語。Hatzivassiloglou和McKeown[6]從大語料庫華爾街日報中發(fā)掘出大量的形容詞性的評價詞語。Wiebe 等人[7]沿襲了較為相似的工作,使用了一種相似度分布的詞聚類方法在大語料庫上完成了形容詞性的評價詞語的獲取。但是兩種方法都局限于形容詞詞性,為了避免詞性限制,Turney 和 Littman[8]提出了點互信息(point mutual information)的方法判別某個詞語是否是評價詞語。這種方法適用于各種詞性的評價詞語的識別,但是較為依賴種子褒/貶詞語集合。
基于詞典的評價詞語抽取及判別方法主要是使用詞典中的詞語之間的詞義聯(lián)系來挖掘評價詞語。這里的詞典一般是指使用 WordNet 或 HowNet 等。文獻[9]在已手工建立種子形容詞詞匯表的基礎(chǔ)上,利用WordNet中詞間的同義和近義關(guān)系判斷情感詞的情感傾向,從而決定觀點的情感極性。中文方面則主要是對知網(wǎng)HowNet的擴充,文獻[10]利用語義相似度計算方法計算詞語與基準(zhǔn)情感詞集的語義相似度,以此推斷該詞語的情感傾向。文獻[11]基于多種詞典資源構(gòu)建情感詞表,使用加權(quán)線性組合方法對句子情感進行分類。
基于機器學(xué)習(xí)的情感分類,其大致流程如下:首先人工標(biāo)注文本傾向性作為訓(xùn)練集,提取文本情感特征,通過機器學(xué)習(xí)的方法構(gòu)造情感分類器,待分類的文本通過分類器進行傾向性分類。文獻[12]使用詞袋框架選定文本的N元語法和詞性等作為情感特征,使用有監(jiān)督的機器學(xué)習(xí)方法將電影評論分為正向和負(fù)向兩類。文獻[13]比較了不同的特征選擇和使用多種機器學(xué)習(xí)方法構(gòu)建分類器。文獻[14]利用多種特征選擇方法和權(quán)重計算方法、五種停用詞表以及用SVM分類器對汽車語料進行情感分類。
另外,有些算法試圖通過結(jié)合情感詞典與標(biāo)注語料來彌補二者單獨使用的不足。其中一些算法將詞典和標(biāo)注文本結(jié)合在一起來訓(xùn)練分類器[15-16],還有一些把情感分析過程分兩步:首先利用情感詞典對評論文本的傾向做初始判斷,然后利用此結(jié)果產(chǎn)生新的分類器,再對初始結(jié)果進行修訂[2,17]。本文受到此方法的啟發(fā),對來自各領(lǐng)域的網(wǎng)絡(luò)媒體語料進行情感分類研究。
LCUSCH從模型結(jié)合詞典方法和語料庫方法來提高分類總體效果。該模型分為兩部分:其中第一部分利用情感詞典來計算每條句子的情感得分,為情感得分制定一個閾值。根據(jù)閾值把語料分成classified group和uncertain group兩組。通過迭代方法從classified group中找出候選詞/短語,更新詞典內(nèi)容,并對uncertain group中的句子再次計算情感得分,之后再更新兩組數(shù)據(jù)的內(nèi)容,一直達到迭代結(jié)束為止。第二部分首先利用機器學(xué)習(xí)方法,將第一部分所得到的classified group作為訓(xùn)練集,uncertain group作為測試集進行分類,之后基于改進的算法來修改之前的結(jié)果。模型體系結(jié)構(gòu)如圖1所示。
圖1 LCUSCM模型結(jié)構(gòu)圖
3.1 維吾爾文情感詞典的構(gòu)建
情感詞是指在文本中具有情感傾向性的詞語,它可以是名詞、動詞、形容詞、副詞以及一些習(xí)慣性用語或短語等。
對于某些詞典資源非常稀缺的語種,有學(xué)者嘗試將詞典資源豐富的語種的情感詞典翻譯到資源較少的語種中[3-4],并取得很好的分類效果。本文也做相同的工作以逐步擴充的方式構(gòu)建了一部由3 357 個褒義詞和6 658個貶義詞構(gòu)成的維吾爾語情感詞典。以下對該詞典做簡單介紹。
3.1.1 基礎(chǔ)情感詞典(BaseDict)
本文首先從“實用維漢詞典”中抽取表達各種情感的詞匯,由兩位維吾爾語專業(yè)本科生單獨進行褒貶分類,對于標(biāo)注結(jié)果不一致的詞匯通過協(xié)商確定了該詞匯的極性,由此構(gòu)建了基礎(chǔ)情感詞典。
基礎(chǔ)情感詞典還包括情感短語、情感習(xí)語和經(jīng)常跟情感詞匯搭配出現(xiàn)的否定詞、程度副詞、疑問詞或詞綴[18]、情感感嘆詞[18]、語氣詞等。
表1 基礎(chǔ)情感詞典詞匯表
3.1.2 擴充基礎(chǔ)情感詞典(ExpandDict)
進行情感分析需要一部跨領(lǐng)域的,覆蓋面廣的完整的情感詞典,由此需要快速擴充基礎(chǔ)情感詞典。課題組選用新疆大學(xué)多語種重點實驗室開發(fā)的”tilmach“漢維雙語詞典,對使用率比較高的”HowNet” 中文情感分析用詞語集”中四個詞語集,即正負(fù)面情感詞語、正負(fù)面評價詞語、以及臺灣大學(xué)收集整理的中文情感詞典“NTUSD”進行翻譯作為基礎(chǔ)情感詞典的擴充,翻譯得到的詞匯保留原來的情感傾向,部分失去情感傾向和改變情感傾向的詞語通過人工校對進行去重處理,獲得正面情感詞語(2 372個詞匯)加入褒義詞典,負(fù)面情感詞語(5 329個詞匯)加入貶義詞典。
3.2 基于情感詞典的分類模塊
根據(jù)構(gòu)建的情感詞典和否定詞,程度副詞,句型等語言特征對語料進行正負(fù)二元分類。本模塊工作步驟如下:
3.2.1 預(yù)處理
維吾爾語是形態(tài)豐富的語言,詞干連接各種詞綴可產(chǎn)生新的單詞,這將產(chǎn)生大量未登陸詞,導(dǎo)致數(shù)據(jù)稀疏問題。維吾爾語情感詞匯有些是詞干本身,有些詞匯連接部分詞綴后才會表達情感,如果對句子不進行詞干提取,可能會引起維數(shù)災(zāi)難,詞干提取后有可能丟失部分情感詞匯,因此本文把每個句子替換成以下句子格式并從中找出情感詞匯特征:
senti=w1,s1,pos1;w2,s2,pos2;……wn,sn,posn
其中wn是句子中原始詞,sn是詞干,posn是詞性。
本文構(gòu)建的情感詞典詞匯,用Wsen表示,包括所有褒義詞匯和貶義詞匯,本文把所有褒義詞權(quán)值設(shè)計為1,貶義詞權(quán)值設(shè)計為-1。
對于一個情感句子來說否定詞的修飾會使情感詞語的情感極性發(fā)生改變。程度副詞的修飾使情感傾向強弱程度發(fā)生變化,比沒有修飾之前更加強烈或者減弱。如果句子含有轉(zhuǎn)折性連詞,可以忽略轉(zhuǎn)折連詞之前的句子內(nèi)容。因此,為了準(zhǔn)確表達句子的情感傾向,需做相應(yīng)的權(quán)值調(diào)整。
因為程度副詞在強弱程度上有區(qū)別,本文用三個等級來劃分程度副詞,并為他們設(shè)計不同的權(quán)值。
本文收集的127個程度副詞及其權(quán)重的示例如表2所示。
表2 程度副詞示例表
3.2.2 句子情感評分
把每一個句子根據(jù)標(biāo)點符號分成n個子句,根據(jù)子句里面出現(xiàn)的褒貶情感詞匯、否定詞、程度副詞和轉(zhuǎn)折性連詞等特征確定句子的情感傾向如式(1)所示。
(1)
公式中,Mwd表示程度副詞或否定詞的權(quán)值,Swk是子句中情感詞wk的權(quán)值。
根據(jù)公式得到的最終情感傾向值Vsi,將會得到三種狀態(tài)。
3.2.3 對分類結(jié)果篩選
如果一條句子的Vsi值大于零,這條句子屬于正面傾向,小于零屬于負(fù)面傾向,其實該值越大,可以說該句子的情感傾向性越強,分類結(jié)果越正確。因為本文模型使用第一模塊分類結(jié)果來訓(xùn)練第二模塊分類器,為了得到更正確的訓(xùn)練語料,本文設(shè)置不同的情感閾值,根據(jù)不同閾值下的分類精確率和分出來的句子數(shù)指定最后閾值。
表3 不同閾值對分組結(jié)果的影響
根據(jù)實驗結(jié)果,設(shè)4作為閾值,把語料分成兩個組:classified group和uncertain group。
if|Vsi|>=4 Si→classifiedgroupelse Si→uncertaingroup
Si是語料中第i條句子,Vsi是第i條句子的情感值。
3.2.4 情感詞典的遞歸擴充
我們創(chuàng)建的情感詞典詞匯都是跟領(lǐng)域無關(guān)的通用詞匯,為了適用某個領(lǐng)域還需要動態(tài)擴充。
句子中很大一部分詞匯并不參與情感的表達。有文獻把情感語料中所有出現(xiàn)頻率大于某個閾值的unigram、bigram、trigram模型作為候選情感列表來擴充他們的情感詞典,這樣不僅會因保留大量無情感色彩的詞匯而給后續(xù)的情感詞識別帶來干擾,而且延長系統(tǒng)的運行時間。因此從文本中識別可能表達情感的詞和短語作為候選情感詞非常必要。
本文實驗中,首先利用構(gòu)建的通用詞典對文本進行分類,更多的情感詞將從分類以后的文本中得到并更新到詞典中去,擴充詞典。在這個迭代過程中,詞典和分類結(jié)果被一次又一次的更新。
迭代過程如下所示。
Step1 數(shù)據(jù)預(yù)處理:分句、分詞、詞性標(biāo)注、詞干提取、停用詞去除
Step2 識別候選詞/短語
同一個詞與不同的上下文結(jié)合會表達不同的情感傾向,孤立的分析單詞有時不能確定句子的情感傾向。因而,在詞情感傾向分析的基礎(chǔ)上,聯(lián)合能夠?qū)η楦袃A向產(chǎn)生影響的上下文形成短語,進而對短語的情感傾向作出判斷,將有助于整個句子的情感分析。
本文根據(jù)維吾爾語語言的特點,對詞性特征以及表達情感的上下文特征進行分析來提取候選情感詞/短語。通過相關(guān)文獻[20]對維吾爾語情感詞的分析以及本文統(tǒng)計分析得到以下常用的詞性搭配作為候選。
表4 候選詞/短語列表
Step3 情感分?jǐn)?shù)計算
對于一個候選詞/短語,保留詞頻大于2的詞作為候選特征。再判斷它是否表達某種情感,具有情感傾向的詞匯才會被選作情感詞/短語。候選詞/短語的情感傾向用情感區(qū)分度來衡量,如式(2)所示。
(2)
Fp和Fn表示該候選詞/短語分別在正向和負(fù)向句子中出現(xiàn)的頻率。我們設(shè)定difference的閾值為1。當(dāng)該值大于或者等于1的時候,我們把該候選詞/短語加到Wsen中,當(dāng)Fp>Fn時,把它加到褒義詞列表,F(xiàn)p Step4 迭代終止條件 如果更新后的情感詞來進行分類時分類結(jié)果沒有變化,終止情感詞典的迭代更新。 3.3 結(jié)合模塊 該模塊把第一模塊中得到的classified group作為訓(xùn)練語料,把uncertain group作為測試語料進行分類,有效的結(jié)合基于詞典的分類器和基于語料庫的分類器。同前面提到過一樣,基于詞典的分類器在負(fù)面情感的分類上正確率較高,而基于語料的分類器在正面情感的分類上正確率較高,因此結(jié)合兩種方法可以起到互補作用。兩種分類器的分類結(jié)果如下改正: ifCSi==DSiorDSi=='neg' VSi=DSielse VSi=CSi Si是uncertain group中的第i條句子,CSi是Si用語料方法分類的結(jié)果,DSi是Si用詞典方法分類的結(jié)果。對于uncertain group中的一個句子,如果兩種分類器結(jié)果都一樣,保持原來的分類結(jié)果;如果基于詞典的分類器分為負(fù)面傾向,以詞典方法的分類結(jié)果為準(zhǔn),否則以語料方法的結(jié)果為準(zhǔn)。 實驗中使用新疆大學(xué)多語種重點實驗室開發(fā)的維吾爾文詞干提取、詞性標(biāo)注工具。 4.1 數(shù)據(jù)集*實驗數(shù)據(jù)均由新疆大學(xué)多語種重點實驗室提供。 為了驗證LCUSCM的有效性,實驗對來自不同領(lǐng)域的語料進行情感傾向性分類,語料包括: 1.647句電影文字語料,其中215個褒義句子、432個貶義句子。 2.2 814句微博語料,其中1 306個褒義句子,1 508 個貶義句子。 3.592句新聞?wù)Z料,其中243個褒義句子、349個貶義句子。 4.2 評價標(biāo)準(zhǔn) 本文實驗中用交叉驗證的方法來評價分類的性能,使用精確率(accuracy)來評價分類的最終效果。 4.3 不同機器學(xué)習(xí)方法分類結(jié)果 為了驗證不同機器學(xué)習(xí)算法對維吾爾文情感分類的有效性,本文把微博語料作為實驗數(shù)據(jù),測試GNB,MNB,BNB,KNN,SVM等算法在不同特征數(shù)量上的分類效果。 采用信息增益(IG)選擇特征,用tf權(quán)重計算方法,把unigram語言模型作為特征進行實驗,特征數(shù)量從500到3 000遞增,得到圖2的結(jié)果。 圖2 分類算法性能比較 從圖中可以看出,在五種機器學(xué)習(xí)算法中,Bernoulli Na?ve Base方法最平穩(wěn),精確度逐漸增加,而其他分類器呈現(xiàn)出不穩(wěn)定??梢缘贸鼋Y(jié)論,隨著特征數(shù)量的增加,BNB算法的性能最優(yōu)異,最穩(wěn)定,可以把它作為本文實驗的機器學(xué)習(xí)工具。 4.4 BNB在不同領(lǐng)域語料上的分類效果 我們訓(xùn)練一個BNB分類器,把unigram作為特征,用十倍交叉驗證法來比較分類器在同一個領(lǐng)域內(nèi)訓(xùn)練和測試的結(jié)果以及不同領(lǐng)域內(nèi)訓(xùn)練和測試的結(jié)果。加粗表達的是訓(xùn)練語料和測試語料來自同一個領(lǐng)域的情況。 表5 BNB在領(lǐng)域內(nèi)外語料上的分類結(jié)果 表6 BNB在混合語料上訓(xùn)練后得到的結(jié)果 表5和表6很好地描述了基于語料的機器學(xué)習(xí)方法對領(lǐng)域知識的依賴性,跨領(lǐng)域的分類結(jié)果還不如情感詞典的分類結(jié)果好。從實驗結(jié)果可以看出,基于語料的分類器在同一領(lǐng)域語料內(nèi)訓(xùn)練和測試所得到的分類結(jié)果明顯好于訓(xùn)練和測試語料來自不同領(lǐng)域的語料。 例如,從表5可以看出,對電影語料,領(lǐng)域內(nèi)訓(xùn)練的結(jié)果比領(lǐng)域外訓(xùn)練結(jié)果分別超出了17.44%和14.72%;微博語料分別超出了2.57%和10.68%;新聞?wù)Z料分別超出了10.57%和22.79%。以上結(jié)果可以說明詞典方法的結(jié)果比訓(xùn)練和測試在同一個領(lǐng)域內(nèi)的機器學(xué)習(xí)方法差一點,但比不同領(lǐng)域的機器學(xué)習(xí)方法好一點。 4.5 本文模塊性能比較 表7 語料方法和詞典方法性能比較 為了驗證語料方法和詞典方法在正負(fù)語料分類過程中的互補作用,將微博語料作為實驗數(shù)據(jù),利用這兩種方法分別對語料進行了分類,結(jié)果如表7所示。同上面描述的一樣,語料方法在正面語料上的分類精確率較高,比詞典方法高1.31%,而詞典方法在負(fù)面語料上的分類精確率高,比語料方法高15.94%。這點說明當(dāng)一個分類器對某個句子進行錯誤分類時,另一個分類器可能會給出正確答案,兩種分類器起到很好的互補作用。 表8 結(jié)合方法在混合語料上的分類結(jié)果 通過結(jié)合方法對來自不同領(lǐng)域的語料進行分類實驗,結(jié)果如表8所示,從結(jié)果可以看出改進后的結(jié)合方法的分類精確率比沒有改進之前提高了6.77%。同時改進后的結(jié)合方法比單獨使用的語料方法提高了9.13%,詞典方法提高了1.82%。 本文根據(jù)維吾爾文自身特點,對相關(guān)領(lǐng)域的研究成果進行分析總結(jié),借鑒已有成果,提出了一種自監(jiān)督的兩種分類方法相結(jié)合的分類模型,利用它們的互補作用來提高分類精確率。實驗中證明,該方法達到了期望中的效果。構(gòu)建了一定規(guī)模的情感詞典,通過一些詞性搭配規(guī)則對詞典進行動態(tài)擴充,使用該情感詞典和一些語言規(guī)則對來自不同領(lǐng)域的語料進行情感傾向性分析,得到較好的分類效果。再使用詞典的分類結(jié)果訓(xùn)練一個分類器,進一步改進分類結(jié)果。今后的研究工作中需要進一步擴大情感詞典的覆蓋面,運用更多語言規(guī)則來分析語料情感極性,以獲得更高的準(zhǔn)確率。 [1] Alina Andreevskaia,Sabine Bergler.When Specialists and Generalists Work Together:Overcoming Domain Dependence in Sentiment Tagging[C]//Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics.HLT,2008:290-298. [2] Qiu L,Zhang W,Hu C,et al.SELC:A self-supervised model for sentiment classification[C]//Proceeding of the 18th ACM Conference on Information and Knowledge Management(CIKM).2009:929-936. [3] M Abdul-mageed,M T Diab,Toward building a large-scale Arabic sentiment lexicon[C]//Proceedings of the 6th International Global WordNet Conference.Matsue,Japan :2012:18-22. [4] Steinberger J,Ebrahim M,et al.Creating sentiment dictionaries via triangulation[J].Decision Support Systems,2012,53:689-694. [5] Rao D,Ravichandran D.Semi-Supervised Polarity Lexicon Induction[C]//Proceedings of the EACL2009.Morristown ACL,2009:675-682. [6] Hatzivassiloglou V,McKeown K R.Predicting the semantic orientation of adjectives[C]//Proceedings of the EACL’97.Morristown:ACL,1997:174-181. [7] Wiebe J.Learning subjective adjectives from corpora[C]//Proceedings of the AAAI.Menlo Park:AAAI Press,2000:735-740. [8] Turney P,Littman ML.Measuring praise and criticism:Inference of semantic orientation from association[J].ACM Transactions on Information Systems,2003,21(4):315-346. [9] Hu M,Liu B.Systems Mining and Summarizing Customer Reviews[C]//Proceedings of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Washington,DC:ACM,2004:168-177. [10] 朱嫣嵐,閔錦,周雅倩.基于HowNet的詞匯語義傾向計算[J].中文信息學(xué)報,2006,20(1):14-20. [11] Zhao Qing,Sun Ji-zhou,Yu Ce,et al.A paralleled large-scale astronomical cross-matching function[C]//Proceedings of Lecture Notes in Computer Science,vol 5574.2009:604-614. [12] Pang B,Lee L,Vaithyanathan S.Thumbs up:sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10,Stroudsburg,Association for Computational Linguistics,2002:79-86. [13] Djorgovski S G,Brunner R J.Astronomical archives of the future:a virtual observatory[J].Future Generation Computer Systems,1999,16(1):63-72. [14] Gui Chen-zhou,Zhao Yong-heng.Worldwide R&D of virtual observatory[C]//Proceedings of the International Astronomical Union,2007,3 :563-564. [15] Li T,Zhang Y,Sindhwani V.A non-negative matrix tri-factorization approach to sentiment classification with lexical prior knowledge[C]//Proceedings of the Joint Conference of the Annual Meeting of the Association for Computational Linguistics and the International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing(ACL-IJCNLP).2009:244-252. [16] Melville P,Gryc W,Lawrence R D.Sentiment analysis of blogs by combining lexical knowledge with text classification[C]//Proceedings of the15th ACM SIGKDD Conference on Knowledge Discovery and Data Mining(KDD).2009:1275-1284. [17] He Y,Zhou D.Self-training from labeled features for sentiment analysis[J].Information Processing and Management,2011,47:606-616. [18] 力提甫·托乎提.現(xiàn)代維吾爾語參考語法[M].北京:中國社會科學(xué)出版社.2012 [19] 李軍,滕春華.現(xiàn)代維吾爾語否定范疇探析[J].語言與翻譯,2001(2):11-13. [20] 吉力力·卡曼爾.現(xiàn)代維吾爾語種情感動詞初探[J].時代報告, 2013:169-170. Uyghur Text Sentiment Analysis by Combining LexicalKnowledge with Machine Learning Methods Rexidanmu Tuerhongtai1,2,Wushour Silamu1,Yierxiati Tuergong1 (1.Multilingual Information Technology Laboratory of Xinjiang,College of Information Science and Engineering,Xinjiang University,Urumqi,XinJiang 830046,China;2.College of Electronic and Information Engineering,Yili Normal University,Yining,XinJiang 835000,China) With the development of the Internet,a large number of online Uyghur texts appeared,which demands sentiment analysis for different applications.Considering there are not neither enough training data nor a complete sentiment lexicon for Uyghur sentiment analysis,this paper combines the Lexicon-based method with Corpus-based method,proposing a so-called LCUSCM (Lexicon-based and Corpus-based Uyghur Text Sentiment Classification Model).It first classifies the text by using a manual-built Uyghur sentiment dictionary,with the lexicon is enriched incrementally in this process.Then,the reliable classified sentences are selected to train a classifier so as to refine the results of the first step.The accuracy of the hybrid method increased 9.13% than using machine learning method,and 1.82% than the lexicon based method. Uyghur; sentiment lexicon; sentiment analysis; machine learning 熱西旦木·吐爾洪太(1980—),講師,博士研究生,主要研究領(lǐng)域為文本情感分析。E-mail:raxida522@163.com吾守爾·斯拉木(1942—),教授,中國工程院院士,博士生導(dǎo)師,主要研究領(lǐng)域為自然語言處理。E-mail:wushour@xju.edu.cn伊爾夏提·吐爾貢(1990—),碩士研究生,主要研究領(lǐng)域為文本情感分析。E-mail:erxatturhun@163.com 1003-0077(2017)01-0177-07 2016-09-10 定稿日期:2016-10-15 國家“973”重點基礎(chǔ)研究計劃基金(2014CB340506);國家自然科學(xué)基金(61363063);新疆大學(xué)多語種重點實驗室開放課題(XJDX0905-2013-02) TP391 A4 實驗分析
5 總結(jié)與展望