李晨 ,朱世偉 ,魏墨濟(jì) ,于俊鳳,李新天
(1.山東省科學(xué)院情報(bào)研究所,山東 濟(jì)南 250014;2.山東省科學(xué)院生物研究所,山東 濟(jì)南 250014)
基于詞典與規(guī)則的新聞文本情感傾向性分析
李晨1,朱世偉1,魏墨濟(jì)1,于俊鳳1,李新天2
(1.山東省科學(xué)院情報(bào)研究所,山東 濟(jì)南 250014;2.山東省科學(xué)院生物研究所,山東 濟(jì)南 250014)
通過對(duì)新聞?lì)愇捏w的結(jié)構(gòu)分析,將新聞文體按段落劃分,采用一種基于情感詞典和語義規(guī)則相結(jié)合的情感關(guān)鍵句抽取方法,對(duì)段落內(nèi)的句子進(jìn)行情感分析。綜合考慮情感、轉(zhuǎn)折、否定、程度和歸總等詞語信息構(gòu)建情感詞典,根據(jù)規(guī)則切割新聞文本,將新聞劃分為意群、句子、段落以及篇章,通過制定的規(guī)則計(jì)算情感關(guān)鍵句傾向值,最終獲得段落以及整個(gè)篇章的情感傾向值,從而得出新聞的情感傾向。與情感詞典和SVM情感分類方法的實(shí)驗(yàn)結(jié)果對(duì)比表明,本文方法在對(duì)新聞文本進(jìn)行傾向判別時(shí)效果較好,方法具可行性。
情感分析;規(guī)則;情感詞典;網(wǎng)絡(luò)新聞
文本情感傾向性分析又稱情感分析、意見挖掘,是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程,旨在研究人們對(duì)人物、事件及其屬性的主觀意見和評(píng)價(jià)[1-3]。文本情感分析已經(jīng)成為自然語言處理領(lǐng)域的熱點(diǎn)研究話題,涉及自然語言處理、信息檢索、數(shù)據(jù)挖掘等研究領(lǐng)域。
目前,國(guó)內(nèi)外使用最多的文本情感分析方式有兩種,一是基于機(jī)器學(xué)習(xí)的情感分析[4-5];二是基于語義的情感分析[6-7]?;跈C(jī)器學(xué)習(xí)的情感分析多采用傳統(tǒng)的文本分類技術(shù),該方式將情感詞匯作為分類的特征關(guān)鍵詞,然后再聯(lián)合其他特征訓(xùn)練分類器來完成文本情感分類,常用的方法有樸素貝葉斯、最大信息熵和支持向量機(jī)。Pang等[8]分別使用上述方法進(jìn)行情感傾向性分析研究,對(duì)英文電影評(píng)論進(jìn)行分類,并研究不同特征選擇方式對(duì)分類效果的影響。Tan等[9]分別使用NB(NaiveBayesian)、KNN(K-NearestNeighbor)、SVM(SupportVectorMachine)、CentroidClassifier和WindowClassifier5種分類方法并結(jié)合多種特征選擇方法對(duì)文章情感傾向性進(jìn)行分類。樊小超[10]通過對(duì)評(píng)論性文本的分析,結(jié)合詞典和規(guī)則將文本劃分成情感句集合、細(xì)節(jié)句集合和關(guān)鍵句集合,再對(duì)全部文本情感句集合和關(guān)鍵句集合進(jìn)行訓(xùn)練得到不同的分類器,最后使用投票策略將分類器進(jìn)行融合,得到最終情感分類結(jié)果。采用機(jī)器學(xué)習(xí)的方法進(jìn)行文本傾向性分類需要大規(guī)模標(biāo)注的訓(xùn)練集,想要獲得較高的分類結(jié)果時(shí),對(duì)訓(xùn)練集的質(zhì)量要求很高,而且在進(jìn)行文本向量化的時(shí)候往往會(huì)忽略情感詞匯的上下文信息?;谡Z義規(guī)則的文本傾向性研究中,研究者一般考慮詞語、句子、段落和篇章等多個(gè)角度自底向上進(jìn)行層次分析。首先,抽取文中具有明顯主觀色彩的情感詞匯;然后,找出對(duì)該詞匯進(jìn)行修飾的否定和程度詞匯等,通過規(guī)則計(jì)算情感詞匯情感值;最后,根據(jù)情感詞匯的情感值,計(jì)算得到句子、段落以及篇章的整體情感值,從而獲得最終的情感傾向信息。朱嫣嵐等[11]利用HowNet提供的語義相似度和語義相關(guān)場(chǎng)的定義,通過計(jì)算待評(píng)估詞與褒貶基準(zhǔn)詞的相似性和相關(guān)性,從而得到待評(píng)估詞的傾向度。Turney等[12]使用點(diǎn)互信息PMI(PointwiseMutualInformation)對(duì)基準(zhǔn)情感詞表進(jìn)行擴(kuò)充,并且采用了基于HNC(HierarchicalNetworkofConcepts)的語義相關(guān)度方法計(jì)算詞語的原始極性。馮亮祖[13]利用語句情感傾向性、文本關(guān)鍵詞、語句位置以及語句與標(biāo)題的相似度4種特征抽取情感關(guān)鍵句,通過對(duì)情感關(guān)鍵句進(jìn)行計(jì)算得出新聞文本的情感傾向。張成功等[14]構(gòu)建了一個(gè)包括基礎(chǔ)詞典、領(lǐng)域詞典、網(wǎng)絡(luò)詞典以及修飾詞典的高效極性詞典,將極性詞和修飾詞組合形成極性短語作為情感分析的基礎(chǔ)單元。
綜合分析現(xiàn)有的研究成果,在中文網(wǎng)絡(luò)新聞情感分析領(lǐng)域,對(duì)篇章級(jí)情感分析的研究方法中仍然存在沒有充分考慮文體特征和情感分布,以及對(duì)復(fù)雜句式缺乏有效的分析方法等問題。本文在上述研究基礎(chǔ)之上,綜合分析網(wǎng)絡(luò)新聞的結(jié)構(gòu)特點(diǎn),對(duì)篇章級(jí)的新聞情感分析進(jìn)行細(xì)化,把新聞自頂向下分割成篇章、句子以及意群,以HowNet情感詞典為基礎(chǔ),利用哈工大同義詞詞林和臺(tái)灣大學(xué)的中文情感極性詞典進(jìn)行擴(kuò)展獲得基準(zhǔn)情感詞典,再結(jié)合各類語義規(guī)則獲得網(wǎng)絡(luò)新聞的情感傾向。
1.1 網(wǎng)絡(luò)新聞文體研究
新聞的主觀性是指在現(xiàn)實(shí)生活中真實(shí)發(fā)生的事件過程中,敘述者在新聞事件中表現(xiàn)出來的立場(chǎng)、態(tài)度和情感[15]。新聞文體一般主題描述簡(jiǎn)單突出,情感表達(dá)方式簡(jiǎn)單明了,所以可以較好地提取新聞的情感信息。通過對(duì)新聞文體的分析研究發(fā)現(xiàn),對(duì)新聞情感分析起到關(guān)鍵作用的文本位置為:
(1)標(biāo)題:標(biāo)題是新聞作者主觀意志的直接表達(dá),是文章主旨的高度濃縮,能夠直接陳述新聞的概要。當(dāng)標(biāo)題含有明顯的情感傾向時(shí),它應(yīng)該被賦予較高的權(quán)重,同時(shí)可以將其他語句與標(biāo)題進(jìn)行相似度計(jì)算,進(jìn)而得到句子與新聞主旨的的相似性。與主旨越相似則就越接近文章作者的情感。
(2)段首與段尾:段首與段尾是新聞作者的開篇與總結(jié)。通過觀察研究,段首與段尾是表達(dá)作者情感的主觀句最常出現(xiàn)的位置,而且新聞文本的結(jié)構(gòu)是一種“倒金字塔”式[16]的結(jié)構(gòu)。
(3)其他位置:對(duì)于其他位置的句子,如果與標(biāo)題不相關(guān),則按照普通方式進(jìn)行情感傾向計(jì)算,不再附加額外權(quán)重。
對(duì)于篇章級(jí)的文本情感分析來說,通常都是對(duì)文本進(jìn)行降維,壓縮文本特征空間來優(yōu)化情感分類問題。Yessenalina等[17]使用SVM模型在進(jìn)行篇章級(jí)情感分類的同時(shí)抽取部分語句作為分類的特征空間,取得了較好的效果。李本陽等[18]使用ME模型處理小句級(jí)情感分類,以小句級(jí)的情感輸出作為篇章級(jí)的輸入,并結(jié)合句型特征和句子位置等信息作為特征,采用SVM模型對(duì)文本進(jìn)行篇章級(jí)情感分類。本文在對(duì)網(wǎng)絡(luò)新聞文本進(jìn)行情感分析時(shí),首先切割新聞文本,找出情感句,以情感句作為分析基礎(chǔ),最終通過融合各類規(guī)則計(jì)算出文本的情感傾向。
1.2 情感詞典構(gòu)建
新聞?dòng)删渥咏M成,句子由詞匯組成,因此詞匯是進(jìn)行情感傾向性分析的基礎(chǔ)。通過構(gòu)建情感詞典可以將句子中具有情感的詞匯識(shí)別出來,從而進(jìn)行分析。情感詞典在情感分析中起到了重要作用,一些研究者對(duì)情感詞典的構(gòu)建工作展開了深入的研究[19]。自然語言當(dāng)中一般會(huì)把詞匯分為褒義詞、貶義詞和中性詞3類,其中褒貶義詞明確地表達(dá)了作者對(duì)某一主題的情感傾向。
本文以HowNet為主體,合并中文負(fù)面情感詞語和中文負(fù)面評(píng)價(jià)詞語去重后構(gòu)建負(fù)面基礎(chǔ)情感詞典,合并中文正面情感詞語和中文正面評(píng)價(jià)詞語去重后構(gòu)建正面基礎(chǔ)情感詞典,以中文程度級(jí)別詞語作為描述情感詞的程度詞語詞典,考慮否定詞、轉(zhuǎn)折詞和新聞中的各類歸總詞語,分別構(gòu)建否定詞典、轉(zhuǎn)折歸總詞典。HowNet所包含的情感詞匯有限,本文采用哈工大同義詞詞林和臺(tái)灣大學(xué)NTUSD簡(jiǎn)體中文版本進(jìn)行去重、剔除歧義詞匯之后,分別加入正/負(fù)面基礎(chǔ)情感詞典。文中采用四元組對(duì)情感詞典進(jìn)行描述,定義如下:
sentimentword(name,polarity,pos,weight) ,
(1)
其中,name表示該詞匯的名稱,polarity表示極性,pos表示詞性,weight代表該詞的權(quán)重。name和pos通過文本分詞工具FudanNLP獲取,polarity和weight則通過定義好的情感詞典獲取。
1.2.1 程度詞典構(gòu)建
在各類語言描述當(dāng)中,修飾詞對(duì)情感詞匯的情感表達(dá)有著非常重要的作用,不同級(jí)別的詞語會(huì)產(chǎn)生不同級(jí)別的情感傾向。例如:這個(gè)人極其討厭和這個(gè)人很討厭,同樣是對(duì)“討厭”進(jìn)行修飾,但是“極其”所表達(dá)的情感傾向比“很”更加強(qiáng)烈。針對(duì)這些能夠?qū)η楦袃A向產(chǎn)生巨大作用的詞匯,本文借助HowNet提供的中文程度級(jí)別詞語,構(gòu)建了程度詞語詞典。HowNet對(duì)程度詞語進(jìn)行了級(jí)別分類,具體分為6個(gè)等級(jí):最(most)、很(very)、較(more)、稍(-ish)、欠(insufficiently)和超(over)。本文按照修飾程度的不同為這6個(gè)級(jí)別的程度詞分別賦予不同的權(quán)重值,程度詞典表如表1所示。
表1 程度詞典表
1.2.2 否定詞典與轉(zhuǎn)折歸總詞典構(gòu)建
否定詞在文本分析中起到置反情感傾向的作用,所以在分析文本情感傾向時(shí)也應(yīng)該將否定詞作為重要的分析對(duì)象,因此本文構(gòu)造了一部否定詞詞典。根據(jù)張誼生[20]的文獻(xiàn),本文使用了28個(gè)否定副詞,這些詞包括:不、沒、無、非、莫、弗、勿、毋、未、否、別、無、休、不要、沒有、未必、難以、未曾、不能等。由于否定詞在進(jìn)行情感判斷時(shí)具有置反作用,所以將其權(quán)值設(shè)置為-1。
文本中會(huì)存在很多轉(zhuǎn)折句型,在轉(zhuǎn)折句型中往往會(huì)發(fā)生情感反轉(zhuǎn),將前一部分表達(dá)的情感弱化,從而突出轉(zhuǎn)折之后的情感。同樣,文本中可能也會(huì)包含對(duì)作者觀點(diǎn)進(jìn)行總結(jié)的歸總類詞匯,包含這類詞匯的分句更能夠表達(dá)作者的情感傾向,所以需要賦予更高的權(quán)重比例。通過查閱金允經(jīng)等[21]的文獻(xiàn),本文選擇但、但是、卻、然而、不過、只是、就是、總之、總而言之、總體來看、認(rèn)為、覺得、總結(jié)、綜上所述等作為轉(zhuǎn)折歸總詞匯。
本文情感詞典的構(gòu)建過程如圖1所示:
圖1 情感詞典構(gòu)建流程Fig.1 Construction process of sentiment lexicons
1.3 規(guī)則定義
情感詞典的構(gòu)建可以把情感詞語從句子中孤立出來,但是如果孤立地看待這些詞語,并不能正確地反映新聞的情感傾向。為了提高分析的準(zhǔn)確度,必須將上下文的聯(lián)系考慮進(jìn)來。因此,在詞語情感計(jì)算的基礎(chǔ)上,應(yīng)該考慮上下文中能夠改變?cè)~語情感傾向或者情感強(qiáng)度的語義規(guī)則信息。
本文結(jié)合新聞文體的特點(diǎn),綜合情感詞典、情感句位置、標(biāo)題等元素定義了多種語義規(guī)則用于情感句的傾向性計(jì)算。
1.3.1 情感表達(dá)組合
對(duì)新聞進(jìn)行切割,分為段落、句子以及意群,以意群為最小情感單元進(jìn)行分詞獲取情感詞匯。以情感詞匯為中心,與情感表達(dá)有關(guān)的規(guī)則有如下幾種:
規(guī)則1:只包含情感詞匯而不包含其他修飾詞匯的意群,例如:今天心情不錯(cuò)。例子當(dāng)中只包含“不錯(cuò)”一個(gè)情感詞,該類別的意群權(quán)值計(jì)算如公式2所示,其中w為該意群的情感值,p為該情感詞匯的情感值,N為情感詞匯數(shù)量。
(2)
規(guī)則2:包含否定修飾詞意群,例如:今天我不高興!例子中存在否定詞“不”來修飾情感詞“高興”,那么句子的傾向性發(fā)生了反轉(zhuǎn),由正面變成了負(fù)面。該類別的意群情感值計(jì)算如公式3所示,其中m為修飾該情感詞的否定詞的個(gè)數(shù),m的選取采用了滑動(dòng)窗口方式。通過對(duì)情感語料的分析,本文將m設(shè)置為5,即選擇情感詞匯之前5個(gè)詞匯中的否定詞個(gè)數(shù)。
(3)
規(guī)則3:包含程度修飾詞的意群,例如:今天我很高興!例子中存在“很”這樣一個(gè)程度詞來修飾“高興”,那么本來的意群情感傾向在經(jīng)過修飾后得到了明顯的加強(qiáng)。該類別的意群情感值計(jì)算如公式4所示,其中d表示修飾該情感詞匯的程度詞的情感權(quán)重,程度修飾詞的選擇依然采用滑動(dòng)窗口的方式,根據(jù)對(duì)情感語料的分析,本文設(shè)置窗口大小為情感詞匯前后各3個(gè)。
(4)
規(guī)則4:包含否定詞、程度詞和情感詞匯的意群,其中否定詞位于程度詞之前,例如:今天我不是很高興。這種句型當(dāng)中,否定詞將程度詞的情感程度有所弱化,意群情感計(jì)算方式如公式5所示,其中α為否定詞和程度詞的位置信息權(quán)重,這里取0.8。
(5)
規(guī)則5:包含程度詞、否定詞和情感詞匯的意群,其中否定詞位于程度詞之后,例如:今天我很不高興。這種句型當(dāng)中,否定詞將程度詞的情感傾向明顯加強(qiáng),意群情感計(jì)算方式如公式5所示,其中w的取值為1.2。
規(guī)則6:當(dāng)上述規(guī)則中含有轉(zhuǎn)折、歸總詞匯或者位于段首與段尾時(shí),其情感值計(jì)算的權(quán)重要增強(qiáng)。計(jì)算方式如公式6所示,其中wori為未引入規(guī)則6時(shí)計(jì)算出的情感值:
w=1.2×wori。
(6)
根據(jù)上述規(guī)則可以計(jì)算出每個(gè)句子的意群情感傾向值,由此可以計(jì)算句子、段落以及篇章的最終情感值,從而得到新聞的情感傾向。其中,s為該句子的情感值;P為段落的情感值;K為該句意群總數(shù);M為該段落句子總數(shù);n為最終情感值;Q為該篇章段落總數(shù)。
(7)
(8)
(9)
1.3.2 分析流程
本文使用的基于規(guī)則的網(wǎng)絡(luò)新聞文本情感分析具體流程如下:
(1)文本切割。將文本Doc按照換行符“/r”或者“/n”切割成段落Para,再按照[“?!保??”,“!”]將Para分為Sen,最后按照[“,”]將Sen切割為多個(gè)意群SenGroup。
(2)文本預(yù)處理與情感定位。對(duì)每個(gè)意群使用FudanNLP進(jìn)行分詞,結(jié)合情感詞典獲取情感關(guān)鍵詞并按照sentimentword四元組進(jìn)行標(biāo)注。
(3)融合規(guī)則計(jì)算意群情感值。通過文中定義的6個(gè)規(guī)則,對(duì)得到的意群進(jìn)行情感值計(jì)算。
(4)計(jì)算句子情感傾向值。通過規(guī)則對(duì)意群加權(quán)得到句子的情感值之后需要再次計(jì)算該句子與標(biāo)題的文本相似度。文本采用SimHash算法進(jìn)行相似度計(jì)算,生成標(biāo)題和要對(duì)比句子的Hash值,再通過計(jì)算兩個(gè)Hash值的海明距離判斷相似度。此時(shí)句子的情感傾向值計(jì)算方式如公式10所示,其中α的值根據(jù)相似度進(jìn)行調(diào)整,相似度越高α越大。sori為未進(jìn)行相似度計(jì)算時(shí)的句子情感值:
s=α×sori。
(10)
(5)計(jì)算段落以及篇章的情感傾向值,最終得到文本的情感傾向。算法流程如圖2所示。
圖2 算法流程分析Fig.2 Algorithm flow analysis
2.1 數(shù)據(jù)來源及任務(wù)指標(biāo)
數(shù)據(jù)集1來源于網(wǎng)易和新浪新聞板塊,通過網(wǎng)絡(luò)爬蟲共采集1 000篇新聞?wù)Z料,采用人工標(biāo)注的方式進(jìn)行情感標(biāo)注,其中正面新聞320篇,負(fù)面新聞219篇,其余為中性新聞。數(shù)據(jù)集2采用網(wǎng)絡(luò)爬蟲爬取的新聞、博客、論壇各300篇作為測(cè)試數(shù)據(jù)集。文本采用準(zhǔn)確率(precision)、召回率(recall)和F1值對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。計(jì)算方式如下,其中a為判斷正確的文本數(shù)目;b為實(shí)際正確的文本數(shù)目,c為所有的文本數(shù)目,Pre為準(zhǔn)確率;Rec為召回率:
Pre=(a/b)×100% ,
(11)
Rec=(a/c)×100% ,
(12)
(13)
2.2 結(jié)果與分析
本文實(shí)驗(yàn)1以只考慮情感詞典而未加入任何規(guī)則條件的測(cè)試結(jié)果作為baseline,將融入規(guī)則的測(cè)試與之進(jìn)行對(duì)比。結(jié)果如表2所示,其中RPos為正面新聞?wù)倩芈?、PPos為正面新聞準(zhǔn)確率、F1Pos為正面新聞F1值;RNeg、PNeg和F1Neg分別代表負(fù)面新聞?wù)倩芈?、?zhǔn)確率和F1值。通過結(jié)果可知,只采用情感詞匯權(quán)重加權(quán)方式的情感傾向性計(jì)算方式比本文采用的基于情感詞典和規(guī)則的計(jì)算方式各項(xiàng)指標(biāo)明顯偏低,在復(fù)雜的語言環(huán)境下,相同的詞匯在不同的上下文中所代表的語義有所不同,單純只考慮詞匯本身的含義不能準(zhǔn)確表達(dá)情感信息。隨著各類規(guī)則的加入,綜合考慮上下文語義關(guān)系,本文得到的實(shí)驗(yàn)結(jié)果準(zhǔn)確率和召回率都在0.75以上,從而驗(yàn)證了本文方法是有效可行的。
表2 實(shí)驗(yàn)1結(jié)果
實(shí)驗(yàn)2對(duì)數(shù)據(jù)集2中的數(shù)據(jù)進(jìn)行分析,與目前比較主流的分析方法SVM進(jìn)行對(duì)比。SVM采用的是臺(tái)灣大學(xué)林智仁教授開發(fā)的LibSVM。實(shí)驗(yàn)結(jié)果如表3所示。其中Rec為召回率、Pre為準(zhǔn)確率。從實(shí)驗(yàn)結(jié)果來看,通過對(duì)各類規(guī)則的總結(jié),本文提供的方法要優(yōu)于SVM算法,說明本文提供的方法是有效的。
表3 實(shí)驗(yàn)2結(jié)果
本文在對(duì)網(wǎng)絡(luò)新聞文體結(jié)構(gòu)分析的基礎(chǔ)上,先后構(gòu)建了正負(fù)面情感詞典、否定詞詞典、程度副詞詞典、轉(zhuǎn)折歸總詞典,結(jié)合多種規(guī)則,提出了一種基于詞典和規(guī)則的網(wǎng)絡(luò)新聞文本情感分析方法,并通過實(shí)驗(yàn)對(duì)本方法的有效性和可行性進(jìn)行了驗(yàn)證。雖然此次研究取得了一定的成果,但是尚有許多工作需要完成,如含有歧義的詞語的處理;篇章級(jí)的情感值是通過段落加權(quán)平均得到,而段落的情感值又是通過句子的加權(quán)平均獲得,這種方式雖然能取得不錯(cuò)的效果,但是仍然比較簡(jiǎn)單。因此,如何消除詞語歧義和更好地獲取篇章級(jí)情感值是下一步的研究重點(diǎn)。
[1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.
[2]LIUB,HUMQ,CHENGJS.Opinionobserver:AnalyzingandcomparingopiniosontheWeb[C]//Proceedingsofthe14thinternationalconferenceonWorldWideWeb.NewYork,NY,USA:ACM,2005:342-351.
[3]PANGB,LEEL.Opinionminingandsentimentanalysis[J].Foundationsandtrendsininformationretrieval,2008,2(1/2):1-135.
[4]王成. 基于半監(jiān)督機(jī)器學(xué)習(xí)的文本情感分析技術(shù)[D]. 南京;南京理工大學(xué),2015.
[5]孫建旺,呂學(xué)強(qiáng),張雷瀚. 基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析研究[J]. 計(jì)算機(jī)應(yīng)用與軟件,2014, 31(7):177-181.
[6]楊佳能,陽愛民,周詠梅. 基于語義分析的中文微博情感分類方法[J]. 山東大學(xué)學(xué)報(bào)(理學(xué)版),2014,49(11):14-21.
[7]張志飛,苗奪謙,岳曉冬,等. 強(qiáng)語義模糊性詞語的情感分析[J]. 中文信息學(xué)報(bào),2015,29(2):68-78.
[8]PANGB,LEEL,VAITHYANATHANS.Thumbsup?Sentimentclassificationusingmachinelearningtechniques[EB/OL]. [2016-03-04].http://delivery.acm.org/10.1145/1120000/1118704/p79-pang.pdf?ip=222.173.55.212&id=1118704&acc=OPEN&key=4D4702B0C3E38B35%2E4D4702B0C3E38B35%2E4D4702B0C3E38B35%2E6D218144511F3437&CFID=849300259&CFTOKEN=78353276&__acm__=1475909422_f62191db62812a3a07db2d210c7dc31b.
[9]TANSB,ZHANGJ.AnempiricalstudyofsentimentanalysisforChinesedocuments[J].ExpertSystemswithApplications, 2008, 34(4):2622-2629.
[10]樊小超. 基于機(jī)器學(xué)習(xí)的中文文本主題分類及情感分類研究[D]. 南京:南京理工大學(xué), 2014.
[11]朱嫣嵐, 閔錦, 周雅倩,等. 基于HowNet的詞匯語義傾向計(jì)算[J]. 中文信息學(xué)報(bào), 2006, 20(1):14-20.
[12]TURNEYPD,LITTMANML.Measuringpraiseandcriticism:Inferenceofsemanticorientationfromassociation[J].AcmTransactionsonInformationSystems, 2003, 21(4):315-346.
[13]馮亮祖. 基于情感關(guān)鍵句的新聞文本情感分類研究[D]. 北京:北京郵電大學(xué), 2015.
[14]張成功, 劉培玉, 朱振方,等. 一種基于極性詞典的情感分析方法[J]. 山東大學(xué)學(xué)報(bào)(理學(xué)版), 2012, 47(3):47-50.
[15]李凌燕. 新聞敘事的主觀性研究[M]. 上海:東方出版中心, 2013.
[16]謝暉. 新聞文本學(xué)[M]. 北京:中國(guó)傳媒大學(xué)出版社, 2007.
[17]YESSENALINAA,YUEY,CARDIEC.Multi-levelstructuredmodelsfordocument-levelsentimentclassification[C]//ConferenceonEmpiricalmethodsinnaturallanguageprocessing.Massachusetts,USA:AssociationforComputationallinguistics,2010:1046-1105.
[18]李本陽. 句子和篇章文本傾向分析[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2010.
[19]杜偉夫. 文本傾向性分析中的情感詞典構(gòu)建技術(shù)研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué), 2010.
[20]張誼生.現(xiàn)代漢語副詞研究[M].上海:學(xué)林出版社,2000.
[21]金允經(jīng),金昌吉. 現(xiàn)代漢語轉(zhuǎn)折連詞組的同異研究[J]. 漢語學(xué)習(xí),2001(2):34-40.
DOI:10.3976/j.issn.1002-4026.2017.01.020
Lexiconandrulesbasednewstextsentimentanalysis
LIChen1,ZHUShi-wei1,WEIMo-ji1,YUJun-feng1,LIXin-tian2
(1.InformationInstitute,ShandongAcademyofSciences,Jinan250014,China;2.BiologyInstitute,ShandongAcademyofSciences,Jinan250014,China)
∶Accordingtothestructure,thenewsstylewasdividedintoseveralparagraphs.Basedonsentimentlexiconandsemanticrules,amethodofextractingsentimentalkeysentenceswasusedtoanalyzethesentimentofsentenceswithineachparagraph.Firstly,sentimentlexiconwasbuiltbyconsideringtheemotion,twist,negation,degreeandsumsupvocabularies;Secondly,accordingtorules,newstextwasdividedintosensegroups,sentences,paragraphsandchapters;Furthermore,orientationvalueofsentimentalkeysentenceswascomputedbytherulesestablished,andthenthesentimentalorientationvalueoftheparagraphsandthewholechapterswasobtainedbyweightedaverageofsentences,thusthesentimentalorientationofnewswasrevealed.ComparedwithlexiconbasedmethodandSVMsentimentclassification,experimentalresultsshowthatthemethodproposedhasgoodeffectsontheorientationidentificationofnewstext,showinggoodfeasibilityaswell.
∶sentimentanalysis;rules;sentimentlexicon;onlinenews
10.3976/j.issn.1002-4026.2017.01.019
2016-07-13
山東省科技發(fā)展計(jì)劃(2014GGX101013);山東省重點(diǎn)研發(fā)計(jì)劃(2015GGX101032,2015GGX101037,2016GGX101018)
李晨(1988—),男,碩士,研究方向?yàn)榇髷?shù)據(jù)和數(shù)據(jù)挖掘。
TP
A
1002-4026(2017)02-0115-07