吳 斌,吉 佳,孟 琳,石 川,趙惠東,李儀清
(北京郵電大學(xué)智能通信軟件與多媒體北京市重點(diǎn)實(shí)驗(yàn)室,北京 100876)
?
基于遷移學(xué)習(xí)的唐詩(shī)宋詞情感分析
吳 斌,吉 佳,孟 琳,石 川,趙惠東,李儀清
(北京郵電大學(xué)智能通信軟件與多媒體北京市重點(diǎn)實(shí)驗(yàn)室,北京 100876)
隨著計(jì)算社會(huì)學(xué)的興起,利用數(shù)據(jù)挖掘分析社會(huì)情感是近期的研究重點(diǎn).當(dāng)前的研究主要針對(duì)現(xiàn)代文本,對(duì)于古代詩(shī)歌這類短文本的情感分析相對(duì)較少.本文提出了一個(gè)基于短文本特征擴(kuò)展的遷移學(xué)習(xí)模型CATL-PCO,通過(guò)分析詩(shī)歌情感對(duì)當(dāng)時(shí)社會(huì)及文化進(jìn)行進(jìn)一步了解.該模型首先基于頻繁詞對(duì)對(duì)古文特征向量進(jìn)行擴(kuò)展,再通過(guò)遷移學(xué)習(xí)方式,建立三個(gè)分類器并投票得出最后的情感分析結(jié)果.CATL-PCO模型首先能夠解決古文短文本特征稀疏的問(wèn)題,在此基礎(chǔ)上進(jìn)一步解決由于現(xiàn)代譯文信息匱乏所導(dǎo)致的古代詩(shī)歌情感分析困難問(wèn)題,從而準(zhǔn)確的分析古詩(shī)詞情感傾向,從計(jì)算社會(huì)學(xué)的角度,增進(jìn)對(duì)中國(guó)歷史的認(rèn)識(shí).實(shí)驗(yàn)表明,當(dāng)訓(xùn)練集為中國(guó)唐詩(shī)時(shí),本文提出方法能夠準(zhǔn)確的對(duì)唐代詩(shī)歌進(jìn)行情感分類,并能應(yīng)用于唐代和宋代各個(gè)時(shí)期情感分析及代表流派分析.
情感分析;社會(huì)計(jì)算學(xué);唐詩(shī)宋詞;遷移學(xué)習(xí)
計(jì)算社會(huì)科學(xué)是社會(huì)學(xué)的分支,它利用計(jì)算機(jī)模擬、人工智能及復(fù)雜的統(tǒng)計(jì)方法來(lái)構(gòu)建社會(huì)交互的理論模型.目前利用計(jì)算的方法挖掘語(yǔ)言、詞語(yǔ)、文字的特性已成為熱門(mén)研究主題.以哈佛大學(xué)David Lazer為首的15名知名大學(xué)教授于2009年2月在Science(科學(xué))雜志上發(fā)表了題為Computational Social Science[1]的文章提出:隨著人們能夠收集和分析大規(guī)模的人類行為數(shù)據(jù)并從中發(fā)現(xiàn)個(gè)人和群體行為的模式,一個(gè)新興的研究領(lǐng)域“計(jì)算社會(huì)科學(xué)”涌現(xiàn)出來(lái).特別是近年來(lái),隨著SNS、微博等社會(huì)化媒體的興起,文字已經(jīng)成為人們表達(dá)情感的主要方式.因此通過(guò)分析文本中包含的情感,可以對(duì)人們的思想狀況進(jìn)行衡量,進(jìn)而反映社會(huì)整體情感.
中國(guó)古代文學(xué)作品可以看做用來(lái)表達(dá)古人某一階段思想感情的“微博”.文獻(xiàn)[2~4]研究了現(xiàn)代人們習(xí)慣使用的微博、微信等社會(huì)化媒體內(nèi)容.其中,文獻(xiàn)[4]主要研究了國(guó)內(nèi)微博這類短文本的情感傾向.針對(duì)古代篇幅較短文學(xué)作品的研究較少,Google[5]通過(guò)研究18世紀(jì)以來(lái)的部分出版書(shū)籍,分析了其中關(guān)鍵詞隨時(shí)間的變化及其反映出的文化的變化走勢(shì).古代文學(xué)作品的短文本特性對(duì)于其情感分析造成了一定困難.更重要的是,雖然對(duì)于單首古詩(shī)人們可以容易理解,但批量總體性的古詩(shī)集的情感理解有必要引入機(jī)器智能.
古詩(shī)作為一種包含諸多語(yǔ)義且言辭簡(jiǎn)練的短文本,其情感分析存在兩個(gè)挑戰(zhàn).第一,中國(guó)古代詩(shī)歌本身字?jǐn)?shù)很少,語(yǔ)言精練,如五言絕句的字?jǐn)?shù)為20,其情感特征并不明顯,尤其是經(jīng)過(guò)數(shù)據(jù)預(yù)處理之后,得到的特征向量會(huì)更少.第二,古文情感傾向的標(biāo)注困難,人工標(biāo)注的準(zhǔn)確率不高.對(duì)詩(shī)歌的現(xiàn)代譯文進(jìn)行情感傾向標(biāo)注較為簡(jiǎn)單,更符合現(xiàn)代人認(rèn)知.傳統(tǒng)機(jī)器學(xué)習(xí)要求訓(xùn)練集和測(cè)試集符合獨(dú)立同分布假設(shè),而遷移學(xué)習(xí)方法使用其他相近領(lǐng)域的知識(shí)弱化了這種假設(shè).正適合處理古詩(shī)詞領(lǐng)域數(shù)據(jù)較少而現(xiàn)代譯文領(lǐng)域有大量標(biāo)注數(shù)據(jù)這一情況.
本文提出一個(gè)基于短文本特征擴(kuò)展的遷移學(xué)習(xí)模型CATL-PCO(Correlation Analysis Transfer Learning-Probability Co-occurrence)解決中國(guó)古代文學(xué)作品的情感分類問(wèn)題.本文首先通過(guò)關(guān)聯(lián)挖掘擴(kuò)充短文本特征向量,解決古代詩(shī)歌這類短文本特征稀疏問(wèn)題;然后以遷移學(xué)習(xí)為主導(dǎo)思想,將現(xiàn)代譯文的知識(shí)運(yùn)用到無(wú)譯文的古代詩(shī)歌作品中,建立兩類古代詩(shī)歌的特征向量矩陣,解決由于現(xiàn)代譯文信息匱乏所導(dǎo)致的古代詩(shī)歌情感分析困難問(wèn)題。
情感分析的目的是對(duì)帶有主觀性情感的文字進(jìn)行分析和挖掘,其重點(diǎn)是情感分類.目前的文本情感分析的方法主要為基于詞典匹配的方法[6,7]和基于機(jī)器學(xué)習(xí)的方法[8].基于詞典匹配的方法的核心是情感詞典.很多研究者已經(jīng)建立了多種語(yǔ)言、多種情感分類的情感詞典[6],同時(shí)提出了多種利用種子詞庫(kù)擴(kuò)充情感詞典的方法.例如,文獻(xiàn)[7]提出一種依賴擴(kuò)張模型來(lái)得到情感詞典的方法.很多研究人員針對(duì)短文本也進(jìn)行了大量研究,Mihalcea[12]等提出了基于語(yǔ)料庫(kù)和知識(shí)庫(kù)測(cè)量短文本片段相似性的方法.Phan[14,15]等提出將傳統(tǒng)知識(shí)基于不同的主題轉(zhuǎn)化,用于提升短文本的描述.文獻(xiàn)[16]進(jìn)一步探索利用額外的更小的未標(biāo)記的文本信息庫(kù),利用他們將短文本文件擴(kuò)充為一個(gè)新的替代,這些更小的信息庫(kù)不需要和已有的短文本文件符合相同的分布,長(zhǎng)度和結(jié)構(gòu)都不受限制.上述方法對(duì)于語(yǔ)料庫(kù)和標(biāo)注較少的古代詩(shī)歌也不適用.
遷移學(xué)習(xí)被提出后受到了廣泛關(guān)注,其目的是將從源領(lǐng)域S中獲取的知識(shí)應(yīng)用到另外一個(gè)不同卻相關(guān)的目標(biāo)領(lǐng)域T中去.領(lǐng)域是由特征空間X和特征的邊緣概率分布P(X)組成的.源領(lǐng)域和目標(biāo)領(lǐng)域的特征空間和特征的邊緣概率分布一般不同,或者其中某一項(xiàng)不一樣.遷移學(xué)習(xí)根據(jù)源領(lǐng)域和目標(biāo)領(lǐng)域是否需要標(biāo)注數(shù)據(jù)以及任務(wù)是否相同可以分成三類:歸納遷移學(xué)習(xí)、直推式遷移學(xué)習(xí)和無(wú)監(jiān)督遷移學(xué)習(xí)[9].根據(jù)采用技術(shù)不同可以把遷移學(xué)習(xí)分成三類:基于權(quán)重的遷移學(xué)習(xí)、基于特征選擇的遷移學(xué)習(xí)和基于特征映射的遷移學(xué)習(xí).基于特征映射的遷移學(xué)習(xí)的核心是特征映射.Pan等[10]通過(guò)最小化隱性語(yǔ)音空間上的最大均值誤差來(lái)求解降維后的特征空間,隨后用監(jiān)督學(xué)習(xí)算法對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)進(jìn)行預(yù)測(cè).文獻(xiàn)[11]研究了多個(gè)相關(guān)聚類任務(wù)的學(xué)習(xí)問(wèn)題,建立了一種尋找共享特征子空間的框架.現(xiàn)有方法都是將源領(lǐng)域和目標(biāo)領(lǐng)域映射到了新的特征空間,但在映射時(shí)會(huì)損失部分信息,對(duì)于信息匱乏的情況并不適用.本文采用將目標(biāo)特征空間映射到源特征空間中的方法,以此減少信息損失.
3.1 問(wèn)題定義
針對(duì)古詩(shī)詞的特征提取,CATL-PCO模型采用傳統(tǒng)TF-IDF方法計(jì)算文本特征.給定大量目標(biāo)領(lǐng)域古詩(shī)詞短文本數(shù)據(jù)T和源領(lǐng)域S,通過(guò)基于關(guān)聯(lián)分析的遷移學(xué)習(xí)方式形成的分類器Ffinal(.)將T中古詩(shī)進(jìn)行情感分類,得出分類結(jié)果.具體過(guò)程可以表示成以下形式:
Classsify(T)=Ffinal(T,S)
(1)
3.2 情感分類模型CATL-PCO
CATL-PCO模型首先采用基于FP-Growth的關(guān)聯(lián)分析方法將古詩(shī)本身特征向量t擴(kuò)充為t′,隨后采用基于特征映射的遷移學(xué)習(xí)方法,提出兩種特征映射算法,將特征從目標(biāo)特征空間T映射到源特征空間S中,并利用其知識(shí).通過(guò)數(shù)據(jù)T和S,建立特征共現(xiàn)矩陣CO∈RMS*MT,然后計(jì)算出帶權(quán)重的條件概率矩陣PCO.通過(guò)PCO將t′映射到源特征空間S中.映射后得到的特征分別定義為是SE-PCO和SP-PCO.借鑒boost算法的思想,通過(guò)t′、SE-PCO和SP-PCO分別訓(xùn)練Ft(.)、FSE(.)和FSP(.)三個(gè)分類器.通過(guò)三個(gè)分類器投票表決,得到最終分類器Ffinal(.)的結(jié)果,下面是方法的描述.
3.3 基于關(guān)聯(lián)分析模型的特征擴(kuò)充
由于古代詩(shī)歌這類短文本的特征向量較少,描述情感特征較弱,使得在對(duì)詩(shī)歌進(jìn)行情感分類的過(guò)程中,其具體情感不能很明顯的表示出來(lái).本文采用FP-Growth方法來(lái)對(duì)古文進(jìn)行特征向量的擴(kuò)展.FP-Growth算法核心思想是將數(shù)據(jù)按照一定規(guī)則壓縮到頻繁模式樹(shù)中,然后在樹(shù)中求解頻繁項(xiàng)目集合.它是關(guān)聯(lián)規(guī)則經(jīng)典算法之一.
以源領(lǐng)域和目標(biāo)領(lǐng)域中所有古詩(shī)為背景,采用FP-Growth算法進(jìn)行關(guān)聯(lián)挖掘.詩(shī)集P={p1,p2,…,pn}中,每篇古詩(shī)的詞集為T(mén)={t1,t2,…,tn},C={正,中,負(fù)}為每首詩(shī)所對(duì)應(yīng)的類別.為了避免擴(kuò)展的特征向量中出現(xiàn)對(duì)古詩(shī)情感分類的干擾詞,本文對(duì)于頻繁詞對(duì)的關(guān)聯(lián)分析是建立在不同情感分類的古詩(shī)的基礎(chǔ)上來(lái)進(jìn)行的.具體步驟如下:
通過(guò)設(shè)定支持度閾a,可以得到全局支持度大于a的頻繁詞對(duì);通過(guò)設(shè)置置信度閾b,可以得到特征詞對(duì)w屬于類別c的可能性大小.本文采用FP-Growth算法針對(duì)有相同情感分類的二元詞對(duì)進(jìn)行關(guān)聯(lián)挖掘,得到多個(gè)二元頻繁詞對(duì).之后對(duì)古詩(shī)進(jìn)行特征向量擴(kuò)充,進(jìn)而擴(kuò)展這類短文本的特征向量.
3.4 特征共現(xiàn)矩陣
本文采用TF-IDF方法來(lái)提取特征,計(jì)算TF-IDF時(shí)采用該詞在每類詩(shī)文中的逆文檔頻率,得到正、中、負(fù)三類詩(shī)文中出現(xiàn)的詞的TF-IDF排序,選取各類排名在前20%的詞,按排序組成詞典.詞典中詞的出現(xiàn)的次數(shù)作為特征s和t.從古文中提取出的詞典DT共有MT個(gè)詞,即t由MT個(gè)非負(fù)整數(shù)組成;從現(xiàn)代譯文中提取出的詞典DS共有MS個(gè)詞,即s由MS個(gè)非負(fù)整數(shù)組成.根據(jù)s和t建立共現(xiàn)矩陣CO∈RMS*MT來(lái)表示古文和現(xiàn)代文的相關(guān)性.CO以DS和DT中的詞作為矩陣的邊,大小為MS*MT,矩陣中的值eij為目標(biāo)領(lǐng)域中詞ti與原領(lǐng)域中詞sj出現(xiàn)在同一首詩(shī)文中的次數(shù).
(2)
3.5 條件概率矩陣
本文提出的兩種映射方法SE-PCO和SP-PCO均是以條件概率矩陣PCO為基礎(chǔ).對(duì)于共現(xiàn)矩陣CO,計(jì)算每個(gè)源特征空間中特征出現(xiàn)的條件概率,
(3)
其中C(ti,sj)表示譯文特征sj和古文特征ti共同出現(xiàn)次數(shù),即eij.由于eij數(shù)值較小,本節(jié)引進(jìn)權(quán)重Wij來(lái)提高在兩個(gè)詞典中排名較高的詞的共現(xiàn)關(guān)系的重要程度.基于權(quán)重的C(ti,sj)如下:
CW(ti,sj)=C(ti,sj)*wij
(4)
其中,i為DT中的第i個(gè)詞,MT為DT的總詞數(shù),α表示將DT中的詞分為α個(gè)等級(jí),為避免分母為0的情況,在每個(gè)子式中+1.CW(ti,sj)的意義是將詞典中的詞分為α個(gè)等級(jí),排在前MT/α的詞的權(quán)重為1,接下來(lái)MT/α個(gè)詞的權(quán)重為1/2,直到最后的MT/α個(gè)詞的權(quán)重為1/α.
則P(sj|ti)轉(zhuǎn)化為PW(sj|ti),即
(5)
由PW(sj|ti)組成概率矩陣PCO∈RMT*MS,矩陣PCO和矩陣CO規(guī)模一樣,均是MS*MT,不同的是元素由eij變成了PW(sj|ti).
3.6 構(gòu)建新的特征表達(dá)
對(duì)于古詩(shī)詞來(lái)講,其擴(kuò)展后的古文特征t′是可以獲得的,但其現(xiàn)代譯文特征s是不確定的.很多古詩(shī)由于缺少譯文而無(wú)法獲得s.針對(duì)這一情況,本文提出兩種遷移方法:基于期望的條件概率矩陣和基于概率的條件概率矩陣,以此通過(guò)古文特征與之前獲得的條件概率矩陣獲得其在現(xiàn)代譯文特征空間中的映射.
基于期望的條件概率,通過(guò)擴(kuò)充后的古文特征t′映射為現(xiàn)代譯文特征的期望,即根據(jù)擴(kuò)充后的古文特征t′來(lái)映射s中每個(gè)特征的值,這些特征組成SE-PCO,長(zhǎng)度為MS,SE-PCO中的值為預(yù)測(cè)的詞頻.
(6)
基于概率的條件概率,是通過(guò)古文特征t映射為現(xiàn)代譯文特征的概率,即根據(jù)古文特征t′來(lái)映射sj中每個(gè)特征可能出現(xiàn)的概率,這些特征組成SP-PCO,長(zhǎng)度為MS,SP-PCO里的值即為預(yù)測(cè)的出現(xiàn)可能性,范圍是[0,1].這里t′的值需要修改為0或1,即詞ti出現(xiàn)為1,否則為0.
(7)
3.7 分權(quán)表決
通過(guò)上面的方法一首古詩(shī)可以得到t′、SE-PCO和SP-PCO三種特征,可以訓(xùn)練出3個(gè)分類器Ft(.)、FSE(.)和FSP(.).本文采用人工神經(jīng)網(wǎng)絡(luò)中的RBF Network分類器.RBF Network是一種采用徑向基函數(shù)(Radial basis function,RBF)的人工神經(jīng)網(wǎng)絡(luò)方法.該方法具備較強(qiáng)的輸入和輸出映射功能、其學(xué)習(xí)過(guò)程收斂速度快、分類能力強(qiáng)、網(wǎng)絡(luò)連接權(quán)值與輸出呈線性關(guān)系等優(yōu)點(diǎn),所以本文采用RBF Network作為分類器,其中徑向基核函數(shù)φ取高斯函數(shù).分類器基本函數(shù)為
(8)
(9)
(10)
根據(jù)三種分類器的投票表決結(jié)果來(lái)確定該首詩(shī)歌的情感分類,即通過(guò)Ft(.)、FSE(.)和FSP(.)的結(jié)果來(lái)確定總分類器Ffinal(.)的結(jié)果.表決公式如下,
(11)
即少數(shù)服從多少,如果三個(gè)結(jié)果都不同,取Ft(.)的結(jié)果.
4.1 數(shù)據(jù)來(lái)源
本節(jié)從互聯(lián)網(wǎng)中的文學(xué)網(wǎng)站獲取大量唐代詩(shī)詞數(shù)據(jù),得到數(shù)據(jù)集.具有來(lái)源為八斗文學(xué)(http://poem.8dou.net/)和古詩(shī)文網(wǎng)(http://www.gushiwen.org/),收集到大量詩(shī)詞數(shù)據(jù),共計(jì)253197首,其中唐朝45497首,宋朝211700首.邀請(qǐng)三名研究人員對(duì)其中950首唐詩(shī)進(jìn)行了人工標(biāo)注,將詩(shī)詞標(biāo)注為正、中、負(fù)三類情感傾向,標(biāo)注結(jié)果為正面情感386首,中性情感212首,負(fù)面情感352首.本實(shí)驗(yàn)的硬件環(huán)境為:Intel Pentium Dual T3400 2,16GHz,2G內(nèi)存.軟件環(huán)境為:Windows XP系統(tǒng).
4.2 情感分類實(shí)驗(yàn)
本節(jié)將基于遷移學(xué)習(xí)的情感分類TL-PCO方法[13]與本文提出CATL-PCO方法進(jìn)行對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)階段使用t、SE-PCO和SP-PCO三種特征建立Ft(.)、FSE(.)和FSP(.)三個(gè)基礎(chǔ)分類器.以上方法均與本文提出方法Ffinal(.)的進(jìn)行了對(duì)比實(shí)驗(yàn).
4.2.1 古詩(shī)特征向量擴(kuò)展分析
本節(jié)實(shí)驗(yàn)主要針對(duì)古詩(shī)這類短文本進(jìn)行特征向量擴(kuò)展,以此彌補(bǔ)其特征向量不足導(dǎo)致的情感分類不明確的問(wèn)題,通過(guò)基于FP-Growth關(guān)聯(lián)挖掘得到的頻繁詞對(duì),將對(duì)古詩(shī)原特征向量進(jìn)行特征向量擴(kuò)展.經(jīng)過(guò)多次實(shí)驗(yàn)討論頻繁詞對(duì)支持度和置信度這兩個(gè)參數(shù)的取值.實(shí)驗(yàn)首先設(shè)定置信度不同,支持度相同的參數(shù)進(jìn)行實(shí)驗(yàn),結(jié)果表明,支持度相同的情況下,置信度取不同的值對(duì)于實(shí)驗(yàn)結(jié)果影響很小.隨后,實(shí)驗(yàn)選取置信度為7%,選取不同的支持度進(jìn)行實(shí)驗(yàn),生成不同的頻繁詞對(duì),進(jìn)而生成不同長(zhǎng)度的擴(kuò)展后的古詩(shī)詞,并以Ft(.)為分類器,分別進(jìn)行情感分析實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖1.
由圖1可知,當(dāng)支持度a為8%,置信度為7%時(shí),基于古文特征建立的特征向量的分類效果較為準(zhǔn)確,所以實(shí)驗(yàn)選取支持度a為8%,置信度為7%.
使用FP-Growth進(jìn)行頻繁詞對(duì)匹配后,本文將每一首古詩(shī)分詞之后的結(jié)果在頻繁詞對(duì)庫(kù)中進(jìn)行匹配,從而得到擴(kuò)展的古詩(shī)詞特征向量.舉例來(lái)說(shuō),一首古詩(shī)在沒(méi)有進(jìn)行特征向量擴(kuò)展之前的分詞結(jié)果如下:紅豆 生 南國(guó) 春來(lái) 發(fā) 幾 枝 愿 君 多 采擷 此 物 最 相思.擴(kuò)展之后的結(jié)果如下:紅豆 生 南國(guó) 春來(lái) 發(fā) 幾 枝 愿 君 多 采擷 此 物 最 相 思 獨(dú) 春 無(wú) 山別 重 如 客 落 知 猶 空 愁 老 未 聞 過(guò) 來(lái) 更 得 萬(wàn) 一 里 人 不去 為 歸 夜 中 長(zhǎng) 言 我 入 年 已 豈 生 月 行 欲 有 風(fēng) 更 上 已 是 飛 還 煙 心聲 前 時(shí) 何 明 家 雨 見(jiàn) 花 秋,其中,經(jīng)過(guò)頻繁詞對(duì)匹配之后添加的詞中有以下幾個(gè)詞語(yǔ),如“別”、“落”、“愁”、“老”等,均能夠表達(dá)出原來(lái)古詩(shī)詞中的相思之情,加深了該詩(shī)的情感傾向.
4.2.2 情感分類實(shí)驗(yàn)準(zhǔn)確率
本節(jié)實(shí)驗(yàn)結(jié)果均為使用不同參數(shù)進(jìn)行20次10折交叉驗(yàn)證方式得出結(jié)果的平均值.F-t代表通過(guò)古文擴(kuò)展特征進(jìn)行機(jī)器學(xué)習(xí)的方法,F-SE代表基于期望的遷移學(xué)習(xí)方式,F-SP代表基于概率的遷移學(xué)習(xí)方式,F-final代表基于特征擴(kuò)展和遷移學(xué)習(xí)的分權(quán)表決方法.
由圖2可知,當(dāng)單獨(dú)使用F-t、F-SE和F-SP這三種特征進(jìn)行古詩(shī)情感分類時(shí),分類準(zhǔn)確率均較高,均在70%以上,其中直接使用t時(shí)效果最好,準(zhǔn)確率超過(guò)85%,這也是在表決中三者意見(jiàn)均不一樣時(shí)以Ft(.)為主的原因.本文提出CATL-PCO方法的分權(quán)表決方式,將準(zhǔn)確率提升至94.3%,較單純使用古文特征t進(jìn)行情感分類的準(zhǔn)確率提高了8%.兩種方法比較可知,由于CATL-PCO方法著重關(guān)注古詩(shī)詞的短文本特性,對(duì)古詩(shī)進(jìn)行特征向量擴(kuò)展后,情感分類的準(zhǔn)確率有明顯提升,可見(jiàn)本文提出基于關(guān)聯(lián)分析的遷移學(xué)習(xí)情感分類方式的有效性.
4.2.3 條件概率矩陣的權(quán)重實(shí)驗(yàn)
CATL-PCO方法中條件概率矩陣計(jì)算時(shí)需要權(quán)值參數(shù)α,α決定的權(quán)值對(duì)于共現(xiàn)矩陣中值的作用起到很大影響.對(duì)于α值的確定,本節(jié)采用實(shí)驗(yàn)方法來(lái)驗(yàn)證,α取值為[1,45],對(duì)比其準(zhǔn)確率,準(zhǔn)確率均為20次10折交叉驗(yàn)證的結(jié)果.α=1表示不帶有權(quán)重.由圖3可知,對(duì)于SE-PCO和SP-PCO方式,α的取值對(duì)于準(zhǔn)確率的影響不大,我們對(duì)SE-PCO方式選取α=1,對(duì)于SP-PCO選取α=25.
4.2.4 RBF Network高斯參數(shù)
本文提出的CATL-PCO方法,在情感分類過(guò)程中使用RBF Network進(jìn)行情感分類,RBF神經(jīng)網(wǎng)絡(luò)輸出層選擇函數(shù)分別為Ft(.)、FSE(.)和FSP(.),徑向基核函數(shù)φ取高斯核函數(shù).分類器基本函數(shù)為
(12)
4.3 實(shí)例研究
本節(jié)實(shí)驗(yàn)從收集到的253197首詩(shī)歌數(shù)據(jù)中隨機(jī)選取70827首詩(shī)詞,其中唐朝詩(shī)歌35543首,宋朝詩(shī)歌35284首.對(duì)這些詩(shī)詞通過(guò)本文提出CATL-PCO方法進(jìn)行情感分類.實(shí)例研究的目的是利用CATL-PCO模型對(duì)海量古詩(shī)詞進(jìn)行情感傾向分類,從而加深對(duì)歷史的了解.實(shí)驗(yàn)首先使用CATL-PCO模型對(duì)大量古詩(shī)詞進(jìn)行特征擴(kuò)展,增加其特征向量的長(zhǎng)度,在此基礎(chǔ)上利用遷移學(xué)習(xí)的方法,將譯文映射到古文當(dāng)中去,從而更加準(zhǔn)確的判斷七萬(wàn)余首古詩(shī)詞的情感分類.
4.3.1 唐代詩(shī)詞總體評(píng)價(jià)
本節(jié)首先利用CATL-PCO方法從整體上對(duì)唐代35543首詩(shī)歌和宋朝35284首詩(shī)歌進(jìn)行情感分類,實(shí)驗(yàn)結(jié)果如圖4.由圖4可知,唐朝和宋朝詩(shī)人的普遍情感較高.其中對(duì)于唐朝詩(shī)歌的情感分類結(jié)果與文獻(xiàn)[13]中提出的TL-PCO方法相比,CATL-PCO方法對(duì)于唐朝詩(shī)歌的正向情感預(yù)測(cè)較高,這是因?yàn)樵摲椒ㄡ槍?duì)詩(shī)歌這類短文本的特征向量擴(kuò)充,解決了古代詩(shī)歌特征向量稀疏等問(wèn)題,擴(kuò)充了詩(shī)歌的特征向量,加強(qiáng)了詩(shī)歌的情感傾向.4.3.2 唐代、宋代詩(shī)詞應(yīng)用分析
唐朝主要分為四個(gè)時(shí)期:初唐、盛唐、中唐和晚唐.宋朝主要分為北宋和南宋.實(shí)驗(yàn)在每個(gè)時(shí)期選取代表性詩(shī)人,以此來(lái)代表不同時(shí)期的詩(shī)歌情感狀況.實(shí)驗(yàn)中由于詩(shī)詞的數(shù)量巨大,本節(jié)實(shí)驗(yàn)對(duì)選取的詩(shī)歌中具有代表性詩(shī)人作品,結(jié)合朝代、流派、地位、處境等因素,分析情感分類.
唐代各時(shí)期詩(shī)詞情感變化分類結(jié)果如圖5所示.從實(shí)驗(yàn)數(shù)據(jù)可以看出唐代各時(shí)期詩(shī)詞的情感走向,正向詩(shī)詞比例除晚唐之外均較高,中性詩(shī)詞所占比例變化不大,負(fù)向詩(shī)詞所占比例和正向正好相反.總體上看,實(shí)驗(yàn)數(shù)據(jù)中初唐、盛唐和中唐時(shí)期的幸福度總體高于與晚唐,這與歷史狀況相符.
圖6表示宋代各時(shí)期詩(shī)詞情感變化分析結(jié)果.從圖6來(lái)看,對(duì)于宋朝來(lái)說(shuō),南宋的正向情感較北宋略高,這是因?yàn)?南宋是中國(guó)歷史上經(jīng)濟(jì)發(fā)達(dá)、文化繁榮、科技進(jìn)步的朝代.兩個(gè)時(shí)期的負(fù)向情感基本持平.可見(jiàn)以上兩圖中的曲線走向與歷史發(fā)展一致.
圖7表示盛唐兩個(gè)流派情感對(duì)比結(jié)果.唐朝的詩(shī)派主要以山水田園詩(shī)派和邊塞詩(shī)派.本實(shí)驗(yàn)選取兩個(gè)詩(shī)派的代表詩(shī)人的作品,對(duì)兩個(gè)詩(shī)派進(jìn)行對(duì)比分析.從實(shí)驗(yàn)數(shù)據(jù)結(jié)果圖7中可以發(fā)現(xiàn),山水田園派詩(shī)人的情感較為正向,負(fù)向較低.這是因?yàn)樯剿飯@派詩(shī)人更多的顯示出寧?kù)o閑適的精神狀態(tài).而邊塞派詩(shī)人更多表現(xiàn)征人離婦的思想感情.
圖8表示宋朝三個(gè)流派情感對(duì)比結(jié)果.由圖8可知,實(shí)驗(yàn)數(shù)據(jù)中宋初唐晚派詩(shī)人的情感較為正向,負(fù)向較低.昌黎詩(shī)派正負(fù)情感相差相對(duì)較小.實(shí)驗(yàn)數(shù)據(jù)中荊公詩(shī)派在早期以正向情感居多,后期以負(fù)向情感居多.
作為古代微博的一種表現(xiàn)形式,古代詩(shī)歌是研究時(shí)代概貌的良好素材.為了分析古代詩(shī)詞中表達(dá)的情感,本文提出了一種基于短文本特征擴(kuò)展的遷移學(xué)習(xí)情感分析方法CATL-PCO.首先通過(guò)關(guān)聯(lián)分析方法,彌補(bǔ)了古代詩(shī)歌的短文本特性稀疏對(duì)于情感分析所造成的挑戰(zhàn).其次通過(guò)遷移學(xué)習(xí)中特征映射方法,合理地利用了古文和現(xiàn)代譯文的知識(shí),建立三個(gè)分類器,通過(guò)分權(quán)表決的方法得到最終結(jié)果.實(shí)驗(yàn)表明,CATL-PCO方法能夠有效的對(duì)古代詩(shī)歌進(jìn)行情感的分類及分析,對(duì)古文進(jìn)行基于關(guān)聯(lián)分析的特征擴(kuò)展方式較傳統(tǒng)機(jī)器學(xué)習(xí)方法的效果有很大提升,在特征向量擴(kuò)展后的古文基礎(chǔ)上進(jìn)行遷移學(xué)習(xí)的情感分析方法較單純基于遷移學(xué)習(xí)的情感分析方式在對(duì)大量數(shù)據(jù)集進(jìn)行情感分析的準(zhǔn)確率上有所提升.隨后,本文利用提出的情感分析方法,分析了中國(guó)唐詩(shī)宋詞的種種方面,結(jié)合相關(guān)文學(xué)研究,證實(shí)了分析結(jié)果的合理性.因此,本文提出的CATL-PCO方法能夠在一定程度上對(duì)詩(shī)詞等歷史文獻(xiàn)中的情感進(jìn)行分析,將情感分析方法適用的范圍擴(kuò)展到了詩(shī)詞文獻(xiàn)的范圍之中,為情感分析領(lǐng)域拓展了新的研究道路.后續(xù)工作可以考慮更多的分析特征如詩(shī)人的年齡、性別、地位等,還可通過(guò)構(gòu)建詩(shī)人和詩(shī)歌的異質(zhì)網(wǎng)絡(luò)等擴(kuò)展分析角度和方法.
[1]DLazer,A S Pentland,L.Adamic,S Aral,et al.Life in the network:the coming age of computational social science[J].Science,2009,323(5915):721.
[2]Nakov P,Kozareva Z,Ritter A,et al.Semeval-2013 task 2:Sentiment analysis in twitter[A].In Proceedings of the International Workshop on Semantic Evaluation(SemEval 2013)[C].Dublin:Association for Computational Linguistics,2013.312-320.
[3]Fu X,Liu G,Guo Y,et al.Multi-aspect sentiment analysis for Chinese online social reviews based on topic modeling and HowNet lexicon[J].Knowledge-Based Systems,2013,37:186-195.
[4]劉楠.面向微博短文本的情感分析研究[D].武漢大學(xué),2013.
LIU Nan,The research of microblogging short text oriented sentiment analysis[D].Wuhan Univeristy,2013.(in Chinese)
[5]Michel J B,Shen Y K,Aiden A P,et al.Quantitative analysis of culture using millions of digitized books[J].Science,2011,331(6014):176-182.
[6]Dong Z,Dong Q.HowNet-a hybrid language and knowledge resource[A].Natural Language Processing and Knowledge Engineering[C].IEEE,2003.820-824.
[7]Liang J,Tan J,Zhou X,et al.Dependency Expansion Model for Sentiment Lexicon Extraction[A],Web Intelligence (WI) and Intelligent Agent Technologies (IAT),2013 IEEE/WIC/ACM International Joint Conferences on[C].IEEE,2013,3:62-65.
[8]Liu B.Sentiment analysis and opinion mining[J].Synthesis Lectures on Human Language Technologies,2012,5(1):1-167.
[9]張景祥,王士同,鄧趙紅,等.具有協(xié)同約束的共生遷移學(xué)習(xí)算法研究[J].電子學(xué)報(bào),2014,42(3):556-560.
ZHANG Jing-xiang,WANG Shi-tong,DENG Zhao-hong,et al.Symbiosis transfer learning method with collaborative constraints[J].Acta Electronica Sinica,2014,42(3):556-560.(in Chinese)
[10]Pan S J,Kwok J T,Yang Q.Transferlearning via dimensionality reduction[A],Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence[C].AAAI Press,2008.677-682.
[11]Gu Q,Zhou J.Learning the shared subspace for multi-task clustering and transductive transfer classification[A].Data Mining,2009.ICDM'09.Ninth IEEE International Conference on[C].IEEE,2009.159-168.
[12]R Mihalcea,C Corley,C Strapparava.Corpus-based and knowledge-based measures of text semantic similarity[A].In Proceedings of the 21st National Conference on Artificial Intelligence - Volume 1[C].AAAI Press,2006.775-780.
[13]Zhao Huidong,Wu Bin.Sentiment analysis based on transfer learning for Chinese ancient literature [A].Behavior,Economic and Social Computing (BESC),2014 International Conference on[C].IEEE,2014.1-7.
[14]Xuan-Hieu Phan,Cam-Tu Nguyen,Dieu-Thu Le,Le-Minh Nguyen,Susumu Horiguchi,Quang-Thuy Ha.A hidden topic-based framework toward building applications with short web documents[J].IEEE Transactions on Knowledge & Data Engineering,2011,23(7):961-976.
[15]X-H Phan,L-M Nguyen,S.Horiguchi.Learning to classify short and sparse text & web with hidden topics from large-scale data collections[A].In Proceeding of the 17th international conference on World WideWeb,WWW’08[C].ACM,2008.91-100.
[16]Petersen H,Poon J.Enhancing short text clustering with small external repositories[A].Proceedings of the Ninth Australasian Data Mining Conference [C].Australian Computer Society,Inc,2011.79-90.
吳 斌 男,1969年生,湖南長(zhǎng)沙人,教授、博士生導(dǎo)師.2002年中國(guó)科學(xué)院計(jì)算技術(shù)研究所博士畢業(yè).主要從事復(fù)雜網(wǎng)絡(luò)、數(shù)據(jù)挖掘、海量數(shù)據(jù)并行處理、可視分析、電信客戶關(guān)系管理等方面的研究工作.
E-mail:wubin@bupt.edu.cn
吉 佳 女,1989年生,遼寧鞍山人,北京郵電大學(xué)碩士研究生.主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘與物聯(lián)網(wǎng)大數(shù)據(jù).
孟 琳 女,1993年生,山東萊蕪人,2015年在北京郵電大學(xué)獲學(xué)士學(xué)位,現(xiàn)為北京郵電大學(xué)計(jì)算機(jī)學(xué)院碩士研究生.主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘.
Transfer Learning Based Sentiment Analysis for Poetry of the Tang Dynasty and Song Dynasty
WU Bin,JI Jia,MENG Lin,SHI Chuan,ZHAO Hui-dong,LI Yi-qing
(BeijingKeyLaboratoryofIntelligentTelecommunicationsSoftwareandMultimedia,BeijingUniversityofPostsandTelecommunications,Beijing100876,China)
With the rise of computational social science,analyzing social sentiment with data mining methods has attracted widespread attention and has become a hot spot in recent years.Existing researches of sentiment analysis mainly focus on modern text,but hardly involve the ancient short text literature.This paper proposes a short text feature extension based transfer learning model CATL-PCO(Correlation Analysis Transfer Learning-Probability Co-occurrence).Through sentiments analysis in ancient literature,this paper can discovery social and cultural development in the ancient era.CATL-PCO expands the ancient literature feature vector based on the frequent word pairs,and utilizes transfer learning method to train three sentiment classifiers.CATL-PCO solves the problem of sparsity of short text feature vector,and the scarcity of modern translation,which improves the cognition of Chinese History.Experiments demonstrate the effectiveness of the proposed method on the dataset of Chinese poems in Tang Dynasty.Moreover,different periods of Tang and Song Dynasty,and different genres are analyzed in this paper in details.
sentiment analysis;computational social science;poetries of the Tang dynasty and Song dynasty;transfer learning
2015-02-13;
2015-07-01;責(zé)任編輯:藍(lán)紅杰
國(guó)家973重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(No.2013CB329606);國(guó)家自然科學(xué)基金(No.71231002,No.61375058)
TP393
A
0372-2112 (2016)11-2780-08
??學(xué)報(bào)URL:http://www.ejournal.org.cn
10.3969/j.issn.0372-2112.2016.11.030