瑪爾哈巴·艾賽提,艾孜爾古麗,玉素甫·艾白都拉
(新疆師范大學(xué) 計算機(jī)科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830054)
基于語法的維吾爾語情感詞匯自動獲取
瑪爾哈巴·艾賽提,艾孜爾古麗,玉素甫·艾白都拉
(新疆師范大學(xué) 計算機(jī)科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830054)
情感詞匯的獲取是文本傾向性分析的基礎(chǔ)。為了解決人工識別方法低效的不足,并為維吾爾語情感詞的研究及情感詞詞典的創(chuàng)建提供一些可供選擇的方法和思路,該文首先分析了維吾爾語情感詞匯在上下文中表現(xiàn)的特征,并結(jié)合維吾爾語本身的語法特征,建立了擴(kuò)展的維吾爾語新增特征模型,與詞頻逆文檔頻率(TF-IDF)算法相結(jié)合,實現(xiàn)了維吾爾語情感詞匯的識別。實驗結(jié)果指出該特征模型有效地提高了情感詞匯的識別率。
情感詞匯,維吾爾語;語法;自動獲取
隨著互聯(lián)網(wǎng)的普及,各類維吾爾語網(wǎng)站不斷地建立并成為維吾爾族網(wǎng)民學(xué)習(xí)、聊天、討論、爭議的主要平臺。這些平臺內(nèi)容包含大量帶有感情色彩的言語及評論,而這些內(nèi)容對政府了解民情、掌握輿論導(dǎo)向,對企業(yè)了解客戶對產(chǎn)品的反饋等方面具有重大的現(xiàn)實意義。
維吾爾語情感詞的獲取并創(chuàng)建情感詞典是識別文本情感傾向性的基礎(chǔ),為網(wǎng)絡(luò)輿情分析和網(wǎng)絡(luò)內(nèi)容安全提供基礎(chǔ)性資源。本文以維吾爾語語法特點為基礎(chǔ),首先分析了維吾爾語情感詞匯在上下文中表現(xiàn)的特征,建立了擴(kuò)展的維吾爾語新增特征模型,設(shè)計算法,提高情感詞匯自動獲取的準(zhǔn)確率。
文獻(xiàn)[1]指出,情感分析技術(shù)可分為兩類,分別是基于機(jī)器學(xué)習(xí)的方法和基于情感詞典的方法。前者通過大量的主觀語料,分析情感詞匯的語境信息、抽出特征、再進(jìn)行情感分析。例如,文獻(xiàn)[2]中,將情感詞匯的語法規(guī)律與CRF模型相結(jié)合,實現(xiàn)了中文情感詞匯的自動識別。文獻(xiàn)[3]分析了維吾爾語情感詞匯的語境特征,建立特征模板,再利用條件隨機(jī)場模型實現(xiàn)維吾爾語情感詞匯的自動獲取?;谇楦性~典的方法,主要思想是根據(jù)已建立好的情感詞典所提供的語義關(guān)系來判斷文本的傾向性。例如,王志濤等[4]利用統(tǒng)計和點間互信息識別新的情感詞,構(gòu)建新情感詞詞典,提出了基于詞典和規(guī)則集的中文微博情感分析方法。年梅等[5]首先創(chuàng)建維文情感種子詞集,并利用同義詞詞典擴(kuò)展;其次對 HowNet、NTUSD 以及大連理工大學(xué)開發(fā)的情感詞典進(jìn)行并運算,翻譯為維吾爾語詞匯構(gòu)成候選詞集合;最后計算候選詞與種子詞之間的點互信息值,判別極性。
本文分析、研究維吾爾語情感詞匯語境信息,并結(jié)合維吾爾語本身的語法特征,建立了較完善的維吾爾語情感詞匯特征模型,并與詞頻逆文檔頻率(TF-IDF)算法相結(jié)合實現(xiàn)了維吾爾語情感詞匯的識別。
文獻(xiàn)[3,11]中總結(jié)的維吾爾語情感詞匯特征有:詞性規(guī)律、詞和詞性的搭配規(guī)律、副詞修飾規(guī)律、否定詞搭配規(guī)律及連詞規(guī)律。這些語言特征在各語種中通用,很少涉及到維吾爾語本有的語言特點。文本基于維吾爾語語法特點,在以上基礎(chǔ)上,分析維吾爾語情感詞匯及上下文特征,總結(jié)了以下維吾爾語情感詞匯規(guī)律。
3.1 情感感嘆詞規(guī)律
根據(jù)詞性劃分的要求,現(xiàn)代維吾爾語詞匯可劃分為12大類。與漢語相同[12],維吾爾語情感詞匯主要分布在形容詞、名詞、動詞及副詞中,在各個詞性的分布并不均勻,這種不均勻性符合分類特征選取的標(biāo)準(zhǔn)。
除此之外,維吾爾語中經(jīng)常使用感嘆詞來表達(dá)強(qiáng)烈的情感。感嘆詞是本身沒有特定詞匯意義而獨立于句中的其他成分,表達(dá)感情色彩、贊成、呼叫、答應(yīng)等附加意義的語類。根據(jù)附加意義感嘆詞可分為情感感嘆詞、應(yīng)答感嘆詞和呼叫感嘆詞三種類型[13]。對于句子的情感有直接影響的是表示人類喜、怒、哀、樂等心理活動的情感感嘆詞。因此句中出現(xiàn)情感感嘆詞可以斷定此句為情感句,并將句中出現(xiàn)的形容詞識別為情感詞。如表1所示。
表1 維吾爾語情感感嘆詞分類
3.2 情感詞附加成分規(guī)律
維吾爾語是黏著語,這種黏著性表現(xiàn)在用附加成分和詞綴來實現(xiàn)一些語法功能。維吾爾語附加成分大致分為兩類,構(gòu)詞附加成分和構(gòu)型附加成分。構(gòu)詞附加成分追加在詞干后形成新的派生詞。情感詞也包含大量派生詞,派生詞由詞根和構(gòu)詞詞綴兩部分組成,部分構(gòu)詞詞綴的追加能夠影響甚至確定情感詞的傾向性。本文將情感詞的附加成分總結(jié)為兩類,一是追加后直接影響情感詞傾向性的詞綴,另外一種是常跟情感詞搭配出現(xiàn)的附加成分。
3.2.1 影響情感詞極性的詞綴
形容詞是情感詞分布最多的詞性。本文分析構(gòu)建派生形容詞的附加成分,統(tǒng)計出以下直接影響情感詞傾向性的詞綴。如表2所示。
表2 影響情感詞極性的詞綴
3.2.2 情感詞綴搭配
3.3 詞匯上下文搭配規(guī)律
通過情感詞的語境信息,某些情感詞匯常跟特定的詞匯共同出現(xiàn)。此特征可以作為情感詞識別的一個標(biāo)準(zhǔn)。
① 加強(qiáng)財政改革,管理好資金。
② 我們學(xué)校的制度需要改革。
3.4 詞干擴(kuò)展規(guī)律
3.5 副詞修飾規(guī)律
維吾爾語中,修飾情感詞的有程度副詞、語氣副詞和情態(tài)副詞。
c.情態(tài)副詞表示動作或性質(zhì)特征的各種形式和狀態(tài),不僅可以修飾情感詞,大部分還可以作為情感詞匯。
3.6 連詞搭配規(guī)律
利用詞語之間的連詞來判斷情感詞的傾向性是比較常用的方法。早在1997年,已提出連詞所連接的成分的關(guān)聯(lián)性來判斷情感詞極性的方法[15]。連詞所連接的各成分之間的關(guān)系是并列的,也可以是偏正的。由于連詞的連接功能是邏輯性的,所以根據(jù)連詞的邏輯意義及情感詞獲取的條件,將其歸類為并列連詞和轉(zhuǎn)折連詞。轉(zhuǎn)折連詞連接的兩個成分通常具有相反的情感傾向。并列連詞連接的兩個詞具有相同的情感傾向。例如,
(來自于新聞評論)
3.7 否定詞搭配規(guī)律
① 他很有學(xué)問但不謙虛。
② 你沒有錯。
維吾爾語的否定詞一般出現(xiàn)在被修飾詞的后面。
本文根據(jù)上述分析的維吾爾語情感詞匯特點,將維吾爾語語法規(guī)律作為識別特征。在現(xiàn)有的特征基礎(chǔ)下,構(gòu)建了新增的分析模型。該特征模型更詳細(xì)地集合了情感詞匯的豐富語境信息。下一步,把維吾爾語情感詞匯分析模型與帶詞權(quán)重的TF-IDF (Term Frequency-Inverse Document Frequency) 算法相結(jié)合來實現(xiàn)情感詞匯的獲取。
4.1 維吾爾語情感詞匯分析模型
情感詞匯分析模型的設(shè)計是情感詞匯獲取的關(guān)鍵,同時非常依賴于情感詞匯本身的特征或規(guī)則,情感詞匯規(guī)律獲取的質(zhì)量直接影響著識別結(jié)果。本文在文獻(xiàn)[3,11]中常用的維吾爾語情感詞一般規(guī)律的基礎(chǔ)下擴(kuò)展新增了感嘆詞搭配特征、附加成分搭配特征、詞匯上下文搭配特征及詞干擴(kuò)展特征。表3是根據(jù)文獻(xiàn)[3,11]中已提出的情感詞一般規(guī)律所建的分析模型(標(biāo)為情感詞匯分析模型1),表4是本文擴(kuò)展新增的特征模型。
表3 情感詞匯分析模型1
表4 新增情感詞匯分析模型
4.2 維吾爾語情感詞匯識別過程
實驗語料來自于國家語言資源監(jiān)測中心少數(shù)民族分中心維吾爾語文研究基地提供的已標(biāo)注的維吾爾語小學(xué)語文教材。實驗采用四倍交叉驗證(4-fold cross validation),即將語料隨機(jī)分為四份,其中三份做訓(xùn)練集,一份做測試集。識別步驟如下:首先,將訓(xùn)練語料進(jìn)行分詞處理,再對已建立的特征模型進(jìn)行訓(xùn)練,根據(jù)訓(xùn)練的效果對每一個特征集的作用給予權(quán)值;接下來,同樣對測試語料進(jìn)行分詞處理,依次輸入到識別模塊中;根據(jù)訓(xùn)練集所保存的權(quán)值進(jìn)行識別,權(quán)值匹配將給識別標(biāo)簽賦值為true,相反則false。
4.3 帶詞權(quán)重的TF-IDF算法
TF-IDF(Term Frequency-Inverse Document Frequency) 是一種統(tǒng)計方法,語料庫中某一文件內(nèi)的高詞語頻率(TF),以及該詞在整個文件集合中的低文件頻率(IDF),可以產(chǎn)生高權(quán)重的TF-IDF值。因此,該算法傾向于過濾掉常見的詞語,保留重要的詞語。利用該算法在一定的程度上過濾掉維吾爾語文本中的頻率較高但不是關(guān)鍵的詞匯,如停用詞。這樣可以有效地降低非關(guān)鍵詞的干擾。TF-IDF公式如式(1)所示。
Wtf-idf=tfi(D) *log(Dw/Di)
(1)
其中,tfi(D)為該詞在文章D中出現(xiàn)的頻率,由該詞在文檔D中出現(xiàn)的次數(shù)除以文檔D中所有詞出現(xiàn)的次數(shù)之和所得。Dw為所有文檔數(shù),Di為包含該詞的文檔數(shù)。
5.1 實驗過程
為了驗證新增情感詞匯分析模型對維吾爾語情感詞匯識別的作用,實驗先只使用情感詞匯分析模型1,來識別維吾爾語情感詞匯。接下來,依次加入新增分析模型的特征集結(jié)果進(jìn)行對比。
步驟1 對情感詞匯分析模型1進(jìn)行識別;
步驟2 計算識別的情感詞匯的TF-IDF值;
步驟3 在步驟1的基礎(chǔ)上,依次加入新增情感詞匯分析模型中的特征集,每一個特征集加入后重復(fù)一次步驟2,消除假情感詞;
新增特征集1:加入感嘆詞搭配特征;
新增特征集2:特征集1的基礎(chǔ)上加入附加成分搭配特征;
新增特征集3:特征集2的基礎(chǔ)上加入詞匯上下文搭配特征;
新增特征集4:特征集3的基礎(chǔ)上加入詞干擴(kuò)展特征;
步驟4 分別計算分析模型1和四種新增特征情況下的正確率、召回率和F值;
步驟5 對比情感詞匯分析模型1和新增情感詞匯分析模型的結(jié)果是否有提高。
本文采用計算準(zhǔn)確率P、召回率R、F-meaure值F1來評測實驗結(jié)果。計算方法如式(2)~式(4)所示。
P=A/B*100%
(2)
其中,A表示自動判斷結(jié)果中,判斷正確的情感詞數(shù);B表示所有的自動判斷為情感詞匯的總數(shù);P衡量的是識別方法的查準(zhǔn)率。
R=A/C*100%
(3)
其中,C表示人工標(biāo)注中的情感詞匯總數(shù);衡量的是檢索系統(tǒng)的查全率。
F1=(2*P*R/P+R)*100%
(4)
5.2 實驗結(jié)果
實驗從語料中隨機(jī)篩選168篇文章,包含15 877個詞匯,通過擴(kuò)展的新增特征模板識別的情感詞匯有5 612個,經(jīng)過過濾和去重等操作最終獲得的正確的情感詞有2 834。實驗結(jié)果表5所示。
表5 實驗結(jié)果
5.3 實驗結(jié)果分析
結(jié)果表明,利用情感詞匯分析模型1來獲取的情感詞匯正確率為63.1%。隨著新增情感詞匯分析模型的加入,識別率最終達(dá)到了70.2%。
實驗說明,將語言本身的語法規(guī)律作為識別特征并構(gòu)建為分析模塊,能更詳細(xì)地集合情感詞匯的豐富語境信息,提高情感詞識別的準(zhǔn)確性。表6進(jìn)一步分析了每一個新增特征產(chǎn)生的效能差異。
表6 實驗結(jié)果分析
雖然這種方法提高了情感詞匯獲取的準(zhǔn)確率,但與國內(nèi)外漢語、英語等語言相比,識別率仍然較低。本文使用的是人工詞性標(biāo)注的語料,因精力有限詞性標(biāo)注有可能做不到絕對的正確。詞性標(biāo)注的不完善性可能影響情感詞匯識別率。加之維吾爾語的形態(tài)變化多樣,語法結(jié)構(gòu)復(fù)雜,在維吾爾語情感詞匯的規(guī)律分析、特征發(fā)現(xiàn)的問題上還有待完善和提高的空間。
本文從維吾爾語的語法特點出發(fā),分析了維吾爾語情感詞匯在上下文中表現(xiàn)的特征,在此基礎(chǔ)上,建立了擴(kuò)展的維吾爾語新增特征模型,并與詞頻逆文檔頻率(TF-IDF)算法相結(jié)合實現(xiàn)了維吾爾語情感詞匯的自動識別。與此同時,對維吾爾語情感詞匯的特征以語言的語法角度做了比較詳細(xì)的總結(jié)。實驗結(jié)果驗證了該方法有效地提高了維吾爾語情感詞匯的識別,降低了人工獲取的工作量。本次研究是維吾爾語情感詞匯獲取的初步探索,下一步在此基礎(chǔ)上繼續(xù)鉆研,實現(xiàn)維吾爾語文本的傾向性識別。
[1] 王科,夏睿.情感詞典自動構(gòu)建方法綜述[J].自動化學(xué)報,2016,04:495-511.
[2] 陳建美,林鴻飛,楊志豪.基于語法的情感詞匯自動獲取[J].智能系統(tǒng)學(xué)報,2009,02:100-106.
[3] 馮冠軍,禹龍,田生偉.基于CRFs自動構(gòu)建維吾爾語情感詞語料庫[J].現(xiàn)代圖書情報技術(shù),2011,03:17-21.
[4] 王志濤,於志文,郭斌,等.基于詞典和規(guī)則集的中文微博情感分析[J].計算機(jī)工程與應(yīng)用,2015,08:218-225.
[5] 年梅,范祖奎,劉若蘭.維吾爾語褒貶情感詞典構(gòu)建研究[J].計算機(jī)工程與應(yīng)用,2015,11:1-5.
[6] 阿布都魯甫·塔克拉瑪干尼.維吾爾語詞匯學(xué)與研究[M].北京:民族出版社,2011,2:41-46.
[7] 黃俊,田生偉,禹龍,等.基于維吾爾語情感詞的句子情感分析[J].計算機(jī)工程,2012,09:183-185.
[8] 黃俊.維吾爾語文本情感分析研究[D].新疆大學(xué)碩士學(xué)位論文,2013.
[9] 熱依萊木·帕爾哈提,孟祥濤,艾斯卡爾·艾木都拉.基于區(qū)分性關(guān)鍵詞模型的維吾爾文本情感分類[J].計算機(jī)工程,2014,10:132-136,142.
[10] 羅亞偉,田生偉,禹龍等.意見挖掘中維吾爾語文本隱式情感分析[J].計算機(jī)工程與設(shè)計,2014,09:3295-3300.
[11] 禹龍,田生偉,馮冠軍.維吾爾語情感詞匯自動識別[J].計算機(jī)工程,2011,07:213-215.
[12] 周曉.基于互聯(lián)網(wǎng)的情感詞庫擴(kuò)展與優(yōu)化研究[J].東北大學(xué)信息科學(xué)與工程學(xué)院,2011,06;14-15.
[13] 力提甫·托乎提.現(xiàn)在維吾爾語參考語法[M].中國社會科學(xué)出版社,2012:206-213.
[14] 熱孜亞木·麥麥提吐遜,買提熱依木·沙依提.漢語-維吾爾語副詞對比研究[D].中央民族大學(xué)碩士學(xué)位論文,2012.
[15] Hatzivassiloglou V,McKeown K R. Predicting the Semantic Orientation of Adjectives[C]//Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics.1997:174-181.
[16] 王海蓉,孫麗莉.漢維語雙重否定語形對比[J].塔里木大學(xué)學(xué)報,2010,01:77-83.
Automatic Acquisition of Sentiment Words in Uyghur Based on Grammar
Merhaba Eset,Azragul,Yusup Abaydulla
(School of Computer Science & Technology,Xinjiang Normal University,Urumqi,Xinjiang 830054,China)
The sentiment vocabulary is essential for the sentiment analysis.To deal with the inefficiency of manual acquisition,this papers proposes an extension of features based on the grammar and context characteristics of Uyghur sentimental words.Combined with the TF-IDF measure,our algorithm is proved to effectively improve the recognition of sentiment words.
emotional words; Uyghur; grammar; automatic acquisition
瑪爾哈巴·艾賽提(1986—),碩士研究生,主要研究領(lǐng)域為計算語言學(xué)、自然語言處理。E-mail:278416557@qq.com艾孜爾古麗·玉素甫(1987—),講師,主要研究領(lǐng)域為計算語言學(xué)、自然語言處理。E-mail:Azragul2010@126.com玉素甫·艾白都拉(1958—),通信作者,教授,主要研究領(lǐng)域為計算語言學(xué)、自然語言處理。E-mail:ysp2002@126.com
1003-0077(2011)00-0126-07
2016-08-05 定稿日期:2016-09-30
國家自然科學(xué)基金(61262066,61662081);國家社科基金(14AZD11);國家語委重點項目(ZD135-28);新疆維吾爾自治區(qū)自然科學(xué)基金(2014211A045);新疆維吾爾自治區(qū)哲學(xué)社會科學(xué)研究規(guī)劃基金(14CYY093);教育部人文社會科學(xué)一般項目(14YJC740001);國家自然科學(xué)基金(61132009);國家自然科學(xué)基金(61163064);教育部人文社會科學(xué)工程科技人才培養(yǎng)專項(15JDGC022);2015-2016年度新疆師范大學(xué)文學(xué)院研究生創(chuàng)新基金(ZYW2015005);國家少數(shù)民族語言資源監(jiān)測中心項目
TP391
A