李 暉,張?zhí)煸?,金紓?/p>
沈陽工業(yè)大學 信息科學與工程學院,沈陽 110870
計算社會學[1]是社會學的分支之一,由哈佛大學的15名教授于2009年2月提出。該學科利用計算機模擬、人工智能及復雜的統(tǒng)計方法來分析大規(guī)模的人類行為,以此構(gòu)建社會交互的理論模型。根據(jù)計算社會學的研究思路,若利用現(xiàn)代信息技術(shù)對某一時期內(nèi)包含情感傾向的大量人類行為數(shù)據(jù)進行情感分析,便可由此反映出該時期的社會整體情感狀況。文本向來是人類表達情感的主要載體,對某一時期社會情感狀況的挖掘可通過對該時期內(nèi)的文本進行情感分析來實現(xiàn)?,F(xiàn)有研究多通過分析微博、論壇等媒體上的現(xiàn)代文本情感來反映現(xiàn)代社會情感[2-6],利用古代文本挖掘古代社會情感的研究較少。在古代中國,格律詩是人們抒情最集中、最豐富的文本,存世多、流傳廣。因此,在利用現(xiàn)代技術(shù)分析古代特定時期的社會情感時,該時期的格律詩集可作為理想數(shù)據(jù)集。
格律詩作為一種古代中國特有的文學體裁,具有言辭簡練、語義關(guān)系緊密、韻律嚴格等特性。這些特性導致其情感分析存在兩個困難。其一,格律詩本身字數(shù)較少,情感特征并不明顯。如一首五言絕句僅用字20個,這為其情感特征的提取增大了難度。其二,相較于現(xiàn)代文本,格律詩多包含組合式情感,語義表達極為緊湊,這導致在分析過程中必須考慮情感特征間的相對關(guān)系。如韋應物在七言絕句《休暇日訪王侍御不遇》中用28個字表達了“乘興—悵惘—嘆慕”的組合情感,僅針對情感特征本身進行的情感傾向判斷有失偏頗。
現(xiàn)代文本情感分析的研究方法主要為基于情感詞典匹配的方法[7-8]和基于機器學習的方法[9-11]。基于情感詞典的情感分析方法本質(zhì)是構(gòu)建規(guī)則對文本情感進行對照判別,對隱晦情感的識別較為困難,并不適用于語言精練、情感特征不明顯的格律詩文本。基于機器學習的情感分析方法常依靠神經(jīng)網(wǎng)絡(luò)的學習能力自動判別文本情感,對隱晦情感特征的判別能力有所提升。但由于以CNN 為代表的一些傳統(tǒng)神經(jīng)網(wǎng)絡(luò)采用池化層結(jié)構(gòu),仍會忽略細微的情感特征,且以標量形式存儲特征,無法完整保留特征間的位置關(guān)系,難以分析格律詩文本中緊湊的組合式情感。
膠囊網(wǎng)絡(luò)采用動態(tài)路由機制代替池化層結(jié)構(gòu),在膠囊中以多維向量的形式保留實例化特征,使數(shù)據(jù)特征能夠被完整留存,彌補了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在特征提取時忽略細微特征的缺陷,能夠識別格律詩文本中不明顯的情感特征。同時,膠囊網(wǎng)絡(luò)通過動態(tài)路由機制自動更新膠囊之間的連接權(quán)重,從而識別特征間關(guān)系的緊密程度,能夠挖掘格律詩文本中包含的組合式情感。
本文構(gòu)建了一個基于整合膠囊網(wǎng)絡(luò)的格律詩情感分析模型,通過該模型對中文格律詩的情感傾向進行快速高效的自動判別,解決了由情感特征不明顯、語義過于緊湊導致的格律詩文本情感分析困難問題。由于格律詩的具體格律與其情感表達方式有一定關(guān)聯(lián)(如五言絕句表達情感通常直觀、七言律詩多用意象表達情感等),單一標準的情感分析模型缺乏有效性。本文使用四種不同格律的詩集分別構(gòu)建參數(shù)不同的膠囊網(wǎng)絡(luò)模型,引入基于字數(shù)的規(guī)則將其整合,并利用整合后的情感分析模型,通過一系列實例化實驗推測了古代中國各個時期的社會情感和民生狀況。
文本情感分析的目的是對包含情感的文字進行分析與挖掘,其核心是情感分類。該方向的研究主要通過使用基于情感詞典匹配的方法和基于機器學習的方法實現(xiàn)情感分類。
基于情感詞典匹配的文本情感分析方法主要通過構(gòu)建包含情感詞與情感標簽的情感詞典,依據(jù)情感詞典對文本中的情感詞進行匹配和打分,從而判別文本的情感傾向。早期的情感詞典構(gòu)建基于半監(jiān)督的方式。Hatzivassiloglou 等人[12]提出基于人工標記樣本和設(shè)置簡單規(guī)則區(qū)分文本情感的方法。該方法由于無法分類含隱晦情感的文本,其分類效果并不理想。隨后,大量研究者開始關(guān)注構(gòu)建更有效情感詞典的方法[13-15]。陳國蘭[16]提出了一種基于情感詞典和語義規(guī)則的情感分析方法對微博評論進行情感分類。該方法構(gòu)建了大量情感詞典(開源情感詞典、表情符號情感詞典和微博網(wǎng)絡(luò)用語情感詞典等),并設(shè)計規(guī)則對子句和整句的情感值進行計算,提高了情感詞典的質(zhì)量。然而,在情感詞典構(gòu)建的過程中,需要大量的人工標注,開銷較大。李永帥等人[17]提出了一種基于雙向LSTM 的動態(tài)情感詞典的構(gòu)建方法,旨在提高情感詞典的可擴展性。該方法通過提取文本中的情感特征和語義特征,使用雙向LSTM進行情感分類訓練,有效地提高了情感分類的精度,節(jié)省人力?;谝陨涎芯康那楦蟹诸愐蕾囉谇楦性~典的構(gòu)建,情感詞典質(zhì)量越好,分類結(jié)果越準確。然而,基于情感詞典的文本情感分析方法在處理包含隱晦情感的文本時仍不具有適用性。
基于機器學習的文本情感分析方法主要利用神經(jīng)網(wǎng)絡(luò)模型強大的特征提取能力,自動提取和分析文本在語義空間中包含的情感特征,從而判別文本的情感傾向[18]。梁軍等人[19]提出使用遞歸自編碼器對文本中情感極性進行分析,提高了情感分析的準確性。該方法依據(jù)遞歸自編碼器構(gòu)建含有語義信息的二叉樹,通過葉節(jié)點的情感極性和權(quán)重對文本的情感狀態(tài)進行計算。盡管這種方法在一定程度上提高了情感判別的準確性,但由于其參數(shù)較多,訓練時易產(chǎn)生過擬合的現(xiàn)象。陳珂等人[20]提出了一種基于多通道卷積神經(jīng)網(wǎng)絡(luò)的情感分析模型,采用不同的特征組合,從多方面學習情感信息,有效地提取出在句子中每個詞語的重要程度。該方法得到了良好的結(jié)果,魯棒性強。然而,由于卷積神經(jīng)網(wǎng)絡(luò)模型采用池化層結(jié)構(gòu),僅能保留顯著的情感特征,因此在判別時存在一定的局限性。
膠囊網(wǎng)絡(luò)是一種新型的神經(jīng)網(wǎng)絡(luò)模型,改善了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在細微特征提取能力的局限性。2017 年,Sabour 等人[21]首次提出使用膠囊作為神經(jīng)元來實現(xiàn)深度學習的技術(shù),這也為文本情感分析的相關(guān)研究者提供了一套新的思路。Wei 等人[22]于2018 年分別使用膠囊網(wǎng)絡(luò)進行了文本的單分類和多分類,并利用其動態(tài)路由機制調(diào)整膠囊之間的連接強度,使文本分類的準確率得到了明顯的提高。同年,Ren 等人[23]在此基礎(chǔ)上提出了一種基于k-means 聚類理論的路由算法,在保證分類準確性的同時,減少了使用的參數(shù),從而節(jié)省了資源?;诖?,本文使用膠囊網(wǎng)絡(luò)作為情感分析的算法模型,對中文格律詩進行二元情感分類。
本文提出了一種基于整合膠囊網(wǎng)絡(luò)的中文格律詩情感分析方法。由于不同格律的格律詩常具有不同的抒情方式,該方法依據(jù)中文格律詩的格律分別構(gòu)建了四種參數(shù)不同的膠囊網(wǎng)絡(luò),采用基于字數(shù)的規(guī)則對其進行整合。利用整合后的膠囊網(wǎng)絡(luò)模型進行情感判別的流程如圖1所示。
基于機器學習的文本情感分析方法主要依靠情感特征及其關(guān)系的提取。與針對現(xiàn)代文本的情感分析方法不同的是文本集的預處理部分,即中文分詞和向量化文本的方法。
圖1 情感判別流程
如今,現(xiàn)代文本在中文分詞時大多使用統(tǒng)計與字典相結(jié)合或基于深度學習的方式?;诮y(tǒng)計與字典相結(jié)合的方式主要是在統(tǒng)計分詞模型中融入適合的詞典特征[24]。古代格律詩含有大量的繁體字,且各朝代用字情況繁簡不一,并沒有合適的字典可以融入統(tǒng)計分詞模型中?;谏疃葘W習的方式是將向量化的文本作為輸入,對其進行有效的特征和上下文表示[25]。由于本文使用的情感分析方法屬于深度學習的一種,若使用雙向LSTM對其進行分詞處理,情感分析的時間復雜度會較高,降低訓練的效率。由于古代格律詩言詞簡練,多數(shù)可以通過單字表達特殊情感,且基于以上提出的方法不適用于本文提出的模型的情況下,本文對格律詩的分詞選擇單詞成詞的方式。例如:“暮雪搖空江”的分詞結(jié)果為“暮|雪|搖|空|江”。實驗結(jié)果證明,單字成詞也可對格律詩所蘊含的情感進行準確的分析。
對于基于機器學習的現(xiàn)代文本情感分析來說,在詞語向量化階段,通常既可以選擇傳統(tǒng)的TF-idf 方法,也可以使用開源的已經(jīng)訓練好的詞向量或在機器學習的嵌入層對單詞進行隨機初始化的方式。然而,針對格律詩言辭簡練和多采用組合情感的特點,若采用傳統(tǒng)TFidf方法表示情感特征,會導致特征間關(guān)系被忽略,判別準確率低;若使用已有的詞向量直接對格律詩中的單字進行向量化,會導致大量的格律詩中的生僻字沒有與之對應的詞向量;若采用隨機初始化的方式,會導致情感分析模型的結(jié)果不夠準確。因此,本文采用word2vec中CBOW模型,對爬取的所有古詩詞進行訓練,以期得到較為準確的詞向量內(nèi)部的情感特征及其關(guān)系表示。隨即,對于不同格律的格律詩分別構(gòu)建相應的膠囊網(wǎng)絡(luò)模型。
受益于近兩年深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,研究人員對使用膠囊網(wǎng)絡(luò)提取完整的語義特征進行了相關(guān)研究。對于每首向量化后的格律詩,可用D∈?L·K表示。其中,第i行表示句子S中的第i個單詞wordi,每個單詞用k維詞向量進行表示。
向量化后文本作為卷積層的輸入,通常使用Xi:j表示由第i個字到第j個字的矢量矩陣,卷積核從Xi:j提取的特征ci可表示為公式(2):
其中,f為非線性激活函數(shù),b0為偏置項,W為卷積核。
膠囊網(wǎng)絡(luò)的特點為使用“膠囊”代替神經(jīng)元,并采用動態(tài)路由機制保存細微特征和特征間關(guān)系。在主膠囊層中,存在著大量以多維向量的輸出方式代替標量,保存實例化特征的膠囊單元。每個膠囊在特征學習中可以辨識實體文本對象,并輸出在有限范圍內(nèi)存在的概率及一組包含特征間關(guān)系的實體參數(shù)。采用動態(tài)路由機制保存實例化特征capi可用公式(3)表示:
其中,Ci表示卷積層輸出的特征集合,b1為偏置項,W"是主膠囊層權(quán)重矩陣,g為Squash函數(shù),是膠囊網(wǎng)絡(luò)特有的激活函數(shù),用于壓扁膠囊(即壓縮膠囊長度)。Squash函數(shù)可表示為公式(4):
其中,等式右側(cè)第一項為壓縮函數(shù),范圍在0 到1 之間;第二項為向量sj的歸一化,長度為1?;诠剑?),可確保輸出向量的長度在0 到1 之間,該長度也可以解釋為特定特征的概率。經(jīng)過squash 函數(shù)的最終輸出值反映了膠囊網(wǎng)絡(luò)認為文本是積極情感的概率,可以通過設(shè)置閾值得到最終的判別結(jié)果,如公式(5)所示:
整個網(wǎng)絡(luò)的參數(shù)更新由動態(tài)路由機制和反向傳播兩部分組成:動態(tài)路由機制能夠迭代自更新膠囊間權(quán)重,即情感特征間關(guān)系的緊密程度;反向傳播能夠更新網(wǎng)絡(luò)中各節(jié)點的權(quán)值。經(jīng)過調(diào)查研究,本文采用交叉熵損失函數(shù)。交叉熵函數(shù)處處光滑,且對異常值不敏感,避免了在異常值敏感的情況下產(chǎn)生的偏差過大的問題。為了加強規(guī)范化和防止過擬合,損失函數(shù)由誤差項和正則化項兩部分構(gòu)成??捎霉剑?)表示:
其中,yi為真實值,ypredictedi為根據(jù)模型得出的預測值,等號右側(cè)第一項為損失項,第二項為L2正則化。
膠囊網(wǎng)絡(luò)模型的整合體現(xiàn)在依據(jù)不同的格律分別訓練了參數(shù)不同的膠囊網(wǎng)絡(luò)。由于格律詩其格律能夠表示不同的抒情特點,若用同種參數(shù)的膠囊網(wǎng)絡(luò)對不同格律的格律詩統(tǒng)一進行情感分析,易產(chǎn)生過擬合以及情感分析準確率較低的問題。因此,本文根據(jù)四種不同格律的詩集,分別對其進行膠囊網(wǎng)絡(luò)訓練。當一首未知情感的格律詩輸入至所提出的情感分析模型時,首先通過統(tǒng)計格律詩的字數(shù)得到其屬于的格律類別,根據(jù)其類別可選擇與之對應的膠囊網(wǎng)絡(luò)模型,進行情感分析。
本文使用五言絕句、五言律詩、七言絕句、七言律詩四類格律詩分別訓練了膠囊網(wǎng)絡(luò)模型。每類格律詩文本在經(jīng)過預處理、情感極性標注和詞嵌入之后,分別輸入膠囊網(wǎng)絡(luò)模型進行訓練,從而得到4 種不同參數(shù)的、能夠準確判別格律詩情感的膠囊網(wǎng)絡(luò)模型。之后,引入一個基于字數(shù)的格律判別規(guī)則將4個模型進行整合,以保證不同格律的格律詩能夠被最合適的模型識別和判斷。整合模型后,本文將格律詩分別依據(jù)所屬朝代及時期分類,以此進行實例化實驗。
本文設(shè)計了爬蟲系統(tǒng)對選取的古詩文網(wǎng)(https://www.gushiwen.org/)中的格律詩進行爬取,構(gòu)建出總量為100 000 首的語料集。該語料集涵蓋唐、宋、元、明、清5代的格律詩。對其進行二元情感極性標注后,依據(jù)格律將其分為4 類。其中每個類別隨機選取包含積極情感和包含消極情感的詩各1 000首。各個類別均隨機抽取其80%作為訓練集、20%作為測試集,其構(gòu)成如表1所示。
表1 實驗語料集構(gòu)成
所有語料分類完成后,使用3-Gram 的CBOW 模型對其進行詞嵌入,以確保其能夠被膠囊網(wǎng)絡(luò)識別和分析。
本文使用ROC 曲線、AUC 值和準確率、精確率、召回率、F1 值等指標作為模型效果的判斷依據(jù),將本文模型(Init_Cap)與CNN 模型和未經(jīng)格律分類進行訓練的單一膠囊網(wǎng)絡(luò)模型(Single_Cap)的分類效果進行對比。
3.2.1 ROC曲線與AUC值
接受者操作特性曲線(ROC 曲線)又稱為感受性曲線。該曲線是在特定刺激條件下,以被試樣本在不同判斷標準下所得的假陽性率為橫坐標、真陽性率為縱坐標連綴而成的曲線。該曲線為凸曲線,曲線越靠近(0,1.0)坐標,表示通過模型取得的效果越好。其橫、縱坐標可表示為式(7):
其中,F(xiàn)PR為假陽性率,TPR為真陽性率,F(xiàn)P為N個負樣本中預測為真的樣本個數(shù);TP為P個正樣本中預測為真的樣本個數(shù);N為負樣本總數(shù),P為正樣本總數(shù)。
實驗結(jié)果顯示,本文方法的ROC曲線如圖2所示。
圖2 模型分類效果ROC曲線
圖2在標簽中示出了基于每個模型得到的AUC 面積。AUC 是ROC 曲線與x軸圍成的面積,同樣用于模型優(yōu)劣的評估。如圖2所示,整合膠囊網(wǎng)絡(luò)模型與單一膠囊網(wǎng)絡(luò)模型的ROC 曲線有交叉重疊的部分,肉眼無法區(qū)分二者孰優(yōu)孰劣。因此對模型AUC 值進行計算,在0.5~1.0范圍內(nèi),AUC值越大,模型效果越好。其計算過程可由公式(8)表示:
其中,ranki表示將預測概率從小到大排序之后,第i個樣本的序列號;M和N分別表示積極情感和消極情感的樣本數(shù)量。由于膠囊網(wǎng)絡(luò)能夠彌補CNN模型提取細微特征能力的不足,整合膠囊網(wǎng)絡(luò)模型與單一膠囊網(wǎng)絡(luò)模型的AUC值均大于CNN模型的AUC值;整合膠囊網(wǎng)絡(luò)模型的AUC值略大于單一膠囊網(wǎng)絡(luò)的AUC值,這是由于格律詩情感與其格律的關(guān)聯(lián)性。由于五言詩抒情方式更加簡單直接,七言詩多使用意向隱晦的表達情感,若使用相同的膠囊網(wǎng)絡(luò)模型進行情感判別,易造成神經(jīng)網(wǎng)絡(luò)欠擬合,判別結(jié)果不精準。因此,本文針對不同格律的格律詩分別構(gòu)建其相應的膠囊網(wǎng)絡(luò)模型,保證情感分類的準確性。
3.2.2 準確率、精確率、召回率和F1值
為進一步檢測本文方法用于中文格律詩情感分析的有效性,本文通過計算準確率(Acc)、精確率(P)、召回率(R)、F1 值對模型質(zhì)量進行綜合評估。其計算過程可表示為式(9)~(12):
其中,TP為實際為正樣本,檢測為正樣本的情況數(shù);FP為實際為負樣本,檢測為正樣本的情況數(shù);FN為實際為正樣本,檢測為負樣本的情況數(shù);TN為實際為負樣本,檢測為負樣本的情況數(shù)。Acc為準確率,反映了正確檢測出的文本數(shù)與總樣本數(shù)之比;P為精確率,反映了檢測正確與實際被檢測到的比值;R為召回率,反映了檢測正確與應該被檢測到的比例;F1 值為P和R的調(diào)和平均率,是一種兼顧了精準率和召回率的比率。
實驗結(jié)果顯示,CNN、單一膠囊網(wǎng)絡(luò)、整合膠囊網(wǎng)絡(luò)的以上各項指標如表2所示。
表2 模型效果評估指標對比
從表2可以得知,整合膠囊網(wǎng)絡(luò)對古代中國格律詩的情感判別效果最優(yōu),準確率可達到94%以上。這是由于整合膠囊網(wǎng)絡(luò)在彌補CNN忽略細微特征與特征間關(guān)系這一缺陷的同時,兼顧了格律與情感表達的關(guān)聯(lián)。
為分析古代中國各朝代社會情感狀況,本文對唐、宋、元、明、清5個朝代的格律詩分別使用提出的方法進行實例化情感分析實驗,以分析各朝代社會情感基調(diào)。其中,由于唐、宋、明、清歷時較長,階段性明顯,針對朝代全期進行的整體社會情感狀況分析具體性不足。故本文將唐、宋、明、清格律詩依據(jù)具體時期分類進行情感分析,旨在細化分析其社會情感。
3.3.1 古代中國各朝代社會情感挖掘
格律詩這一文體成型于唐代,并盛行于宋、元、明、清等大一統(tǒng)朝代。這5 個朝代在中國歷史上均居于重要地位,其社會情感能夠反映當時的社會狀況與民生水平,具有研究價值。實驗使用本文方法對各朝代的格律詩進行了情感分類,并結(jié)合《呂著中國通史》[26]對分類結(jié)果反映的社會情感進行了分析。本文隨機抽取唐、宋、元、明、清格律詩各10 000首,分別使用整合后的膠囊網(wǎng)絡(luò)模型進行情感分類實驗。實驗結(jié)果如圖3所示。
圖3 各朝代格律詩情感極性占比
由圖3 可知,就各朝代整體情況而言,唐代與明代的格律詩情感以積極情感為主流;元、清兩代則相對消極;宋代積極與消極情感占比基本持平。這反映了唐、明兩代由于國力強盛、貿(mào)易發(fā)達等原因,整體社會情感偏向于積極,民生狀況總體較好;元代為外族入侵統(tǒng)治,漢族人民社會地位低下,苛捐雜稅繁重,故整體社會情感消極;清代早期雖有盛世出現(xiàn),但晚期閉關(guān)鎖國,人民思想迂腐麻木,同時受到西方工業(yè)文明的侵略和文化沖擊,因此社會情感整體呈負面;宋代民生既由于繁榮的文化與經(jīng)濟得到改善,又因為暗弱的政治與軍事遭受沖擊,故整體社會情感并無明顯傾向。就整體趨勢而言,社會情感隨各朝代發(fā)展呈先下降、后上升、再下降的走向,這一趨勢與主流研究結(jié)論相符。
3.3.2 唐、宋各時期社會情感挖掘
本文依據(jù)史料研究將唐代劃分為初唐(公元618年至712年)、盛唐(公元712年至762年)、中唐(公元762年至827年)、晚唐(公元827年至859年)4個時期,各抽取格律詩3 000首;將宋代劃分為北宋(公元960至1127年)、南宋(公元1127 年至1279 年)兩個時期時期,各抽取格律詩5 000首。將以上數(shù)據(jù)集分別使用整合后的膠囊網(wǎng)絡(luò)模型進行情感分類實驗后,實驗結(jié)果如圖4所示。
圖4 唐、宋各時期格律詩情感極性占比
由圖4(a)可知,初唐、盛唐時期的格律詩多表達積極情感;中唐時期積極情感與消極情感占比相當;晚唐時期則以消極情感為主。這反映了初唐和盛唐時期由于政治清明、國力強盛,社會情感得以保持積極,并在盛唐時期達到頂峰;中唐時期雖承接了盛唐的良好發(fā)展,但由于政治、經(jīng)濟、軍事上的隱患開始出現(xiàn),民生水平有所下降,社會情感由以積極為主轉(zhuǎn)變?yōu)橼呌谥行?;晚唐則由于國內(nèi)局勢動蕩,人民幸福感普遍較低,社會情感普遍消極。就整體趨勢而言,唐代社會情感隨各時期發(fā)展呈先上升、后下降的走向,這一趨勢與主流研究結(jié)論相符。由圖4(b)可知,北宋時期格律詩情感偏向積極;南宋時期則相反。這反映了北宋時期由于經(jīng)濟繁榮、思想開放,民生水平較高,積極情感占據(jù)社會情感主流;南宋時期雖然商業(yè)與文化的發(fā)展水平維持在極高水準,但由于統(tǒng)治階級無能、內(nèi)憂外患并存,人民生活受到嚴重影響,故社會情感以消極為主。就整體趨勢而言,宋代社會情感隨各時期發(fā)展由高走低,這一趨勢與主流研究結(jié)論相符。
3.3.3 明、清各時期社會情感挖掘
本文依據(jù)史料研究將明代劃分為明初期(公元1368年至1435年)、明中期(公元1435年至1582年)、明晚期(公元1582 年至1644 年)3 個時期,各抽取格律詩3 000首;將清代劃分為清初期(公元1636年至1735年)、清中期(公元1735 年至1840 年)、清晚期(公元1840 年至1911年)3個時期,各抽取格律詩3 000首。將以上數(shù)據(jù)集分別使用整合后的膠囊網(wǎng)絡(luò)模型進行情感分類實驗后,實驗結(jié)果如圖5所示。
圖5 明、清各時期格律詩情感極性占比
由圖5(a)可知,明初期與明中期的格律詩表達積極情感居多;明晚期則以消極情感為主。這反映了明初期由于國家機器較為穩(wěn)定、經(jīng)濟資源龐大、風氣優(yōu)良,社會情感偏向積極;明中期一系列統(tǒng)治改革引發(fā)了許多沖突與斗爭,國家控制的社會資源不斷流失,國力由盛轉(zhuǎn)衰,但民間受到的影響有限,故社會情感雖有所下降,但仍能保持以積極為主;明晚期政治上的既得利益集團排除改革阻撓,上層社會日益腐朽,國家失去自我救治的可能,人民生活受到嚴重影響,故社會情感普遍消極。就整體趨勢而言,明代社會情感隨各時期發(fā)展呈先緩后急的下降走向,這一趨勢與主流研究結(jié)論相符。由圖5(b)可知,清初期的格律詩多表達積極情感;清中期與清末期則明顯以消極情感為主。這反映了清初期由于國力極其強盛,各領(lǐng)域得到有力發(fā)展,各階層生活較穩(wěn)定,積極情感成為社會主流情感;清中期雖有乾隆盛世,但統(tǒng)治階級嚴厲控制思想,政治僵化腐敗,國庫空虛,階級矛盾激化,故人民思想迂腐麻木,社會情感普遍消極;清晚期受到列強侵略,損失大量領(lǐng)土、主權(quán)與財富,國家逐漸半殖民地化,雖有改良中興,但已無力改變時局,故社會情感中消極情感占比劇增。就整體趨勢而言,清代社會情感隨各時期發(fā)展由高走低,這一趨勢與主流研究結(jié)論相符。
本文嘗試使用現(xiàn)代信息技術(shù)分析古代中國社會情感,提出了一種基于整合膠囊網(wǎng)絡(luò)的文本情感分析方法,利用格律詩情感對古代中國社會情感狀況進行挖掘。該方法對大量格律詩文本進行預處理后依據(jù)格律將其分類,分別構(gòu)建相應的膠囊網(wǎng)絡(luò)情感分析模型,再通過基于字數(shù)的規(guī)則將四個模型整合,實現(xiàn)對格律詩文本的情感判別。實驗結(jié)果表明,該方法對格律詩的情感判別準確率可以達到94%以上,優(yōu)于CNN 與單一膠囊網(wǎng)絡(luò),能夠解決古代短文本因情感特征不明顯和情感特征間關(guān)系難以保留導致的情感分析困難問題。同時,本文利用該方法分別對不同朝代、不同時期的格律詩進行了實例化實驗,將實驗結(jié)果與相關(guān)研究結(jié)合,證明了分析結(jié)果的合理性,挖掘了古代中國的社會情感,證實了利用現(xiàn)代信息技術(shù)分析古代短文本情感和挖掘古代社會情感的可行性,為文本情感分析領(lǐng)域和計算社會學領(lǐng)域提供了新的研究思路。該方法及其思想可應用于古代中國的社會情感分析、民生狀況分析和輿情分析等研究方向,為相關(guān)歷史學、社會學研究提供科學佐證與新的思路,并可與中國古詩詞信息化、智能化教育結(jié)合,開創(chuàng)出新的研究課題。