張伶俐,褚琦凱,王桂娟,張巍瀚,蒲慧,宋振金,吳亞東
1. 四川輕化工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,四川 自貢 643000;
2. 四川輕化工大學(xué)自動(dòng)化與信息工程學(xué)院,四川 自貢 643000;
3. 西南科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川 綿陽(yáng) 621000;
4. 西南科技大學(xué)計(jì)算機(jī)信息工程學(xué)院,四川 綿陽(yáng) 621000
情感是生物對(duì)外界價(jià)值關(guān)系產(chǎn)生的主觀反應(yīng),也是生物智能的重要組成部分[1]。文本情感分析針對(duì)以文本信息為代表的模態(tài),通過(guò)計(jì)算機(jī)技術(shù)提取其相關(guān)情感信息。隨著自然語(yǔ)言處理與數(shù)據(jù)挖掘等技術(shù)的不斷發(fā)展,現(xiàn)有技術(shù)已能有效獲取文本情感狀態(tài)信息。
可視分析技術(shù)以圖表為基礎(chǔ),基于數(shù)據(jù)的多角度呈現(xiàn),展現(xiàn)數(shù)據(jù)的隱藏信息。隨著InfoVis(information visualization)與VA(visual analytics)的不斷發(fā)展,情感可視分析近年來(lái)已成為熱門的研究主題,也被認(rèn)為是信息可視化與可視分析的一項(xiàng)重要研究挑戰(zhàn)[2-3]。
本文調(diào)研了近年來(lái)文本情感分析方法及文本情感可視分析方面的研究工作,對(duì)前沿研究技術(shù)與方法進(jìn)行總結(jié),文本情感可視分析流程如圖1所示。本文對(duì)文本數(shù)據(jù)來(lái)源和處理技術(shù)進(jìn)行匯總,根據(jù)研究方法將文本情感分析分為3類:基于情感詞典的文本情感分析(SD-sentiment analysis)、基于機(jī)器學(xué)習(xí)的文本情感分析(ML-sentiment analysis)以及引入特殊模型的文本情感分析(SM-sentiment analysis)。接著根據(jù)呈現(xiàn)形式將文本情感可視分析分為4類:情感主題詞可視分析、情感關(guān)聯(lián)可視分析、情感演變可視分析以及情感時(shí)空分布可視分析。最后對(duì)文本情感分析方法及可視分析方法進(jìn)行了展望。相較于Kucher K等人[3]對(duì)情感可視化的研究綜述,本文首先對(duì)現(xiàn)有文本情感分析技術(shù)進(jìn)行了總結(jié);其次根據(jù)可視分析呈現(xiàn)形式,按照4個(gè)主題進(jìn)行總結(jié)歸類;最后結(jié)合相關(guān)技術(shù)對(duì)各主題進(jìn)行層次性細(xì)化闡述。
圖1 文本情感可視分析流程
文本情感分析數(shù)據(jù)來(lái)源主要包含社交網(wǎng)絡(luò)、電商評(píng)論、新聞評(píng)論、書籍文本等。數(shù)據(jù)預(yù)處理技術(shù)則主要包括對(duì)獲取數(shù)據(jù)的進(jìn)行清洗與整理,如分詞(THULAC[4])、去無(wú)用詞(如虛詞、停用詞)、統(tǒng)一數(shù)據(jù)類別等[5]。
根據(jù)分析程度與情感標(biāo)注數(shù)據(jù)類別,情感分類任務(wù)被劃分為二分類(正面/積極、負(fù)面/消極)、三分類(積極、中性、消極)和多分類(高興、激動(dòng)、悲哀、憤怒等)任務(wù)[6]。情感二分類任務(wù)和三分類任務(wù)主要對(duì)情感極性分類,多分類任務(wù)則通過(guò)語(yǔ)言學(xué)理論、心理學(xué)理論等對(duì)情感進(jìn)行劃分。ISEAC數(shù)據(jù)集[7]包含5種情緒分類(憤怒、厭惡、悲傷、恐懼和高興),TEC數(shù)據(jù)集[8]包含6種情緒分類(憤怒、厭惡、高興、恐懼、驚訝和悲傷)。
情感標(biāo)記常被用于情感分類的訓(xùn)練數(shù)據(jù)中。單標(biāo)記學(xué)習(xí)(single learning)將單個(gè)情感標(biāo)簽關(guān)聯(lián)[9],如WEC[10]等單標(biāo)簽數(shù)據(jù)集應(yīng)用比較廣泛。但語(yǔ)句信息具有多義性,對(duì)于情感標(biāo)記來(lái)說(shuō),單標(biāo)記學(xué)習(xí)的準(zhǔn)確性較低?;诙鄻?biāo)記學(xué)習(xí)的情緒識(shí)別模型[11]能有效解決語(yǔ)句多義性問題。但多情緒分析仍存在建模能力較弱[8]、無(wú)法對(duì)情緒程度進(jìn)行定量表示[12]等問題。為了有效解決多情緒定量表示的問題,Zhou D Y等人[13]提出基于情感分布學(xué)習(xí)(emotion distribution learning,EDL)[14]的文本情緒識(shí)別方法。受已有標(biāo)簽情感數(shù)據(jù)集數(shù)量較少的影響,需對(duì)數(shù)據(jù)進(jìn)行情感標(biāo)記增強(qiáng),情感詞典是進(jìn)行情感分布標(biāo)記增強(qiáng)的一個(gè)重要手段,Zhang Y X等人[15]于2018年提出LLE——基于情感詞典的情感分布標(biāo)記增強(qiáng)技術(shù)。曾雪強(qiáng)等人[12]則針對(duì)情感詞典缺乏心理學(xué)相關(guān)性的問題,引入普魯契克情感輪心理學(xué)模型,提出基于情感輪及情感詞典的情感分布標(biāo)記增強(qiáng)方法,將心理學(xué)與語(yǔ)言學(xué)結(jié)合,有效解決了標(biāo)注數(shù)據(jù)不足的問題。
文本情感分析主要以文本數(shù)據(jù)為基礎(chǔ),實(shí)現(xiàn)對(duì)情感信息的探索。通過(guò)整理近10年已有的研究(見表1),對(duì)比文本情感分析模型的優(yōu)缺點(diǎn),探索不同情感分析模型的實(shí)驗(yàn)評(píng)估結(jié)果,并根據(jù)研究方法將文本情感分析方法總結(jié)為以下3種:基于情感詞典的文本情感分析、基于機(jī)器學(xué)習(xí)的文本情感分析以及引入特殊模型的文本情感分析。
情感詞典將數(shù)字、文本、符號(hào)整合起來(lái),是情感分析系統(tǒng)的知識(shí)庫(kù)[25]。情感詞典的文本情感分析常指通過(guò)情感詞典獲取情感詞的情感值,通過(guò)計(jì)算判定文本的情感傾向[26-27]?;谇楦性~典的文本情感分析方法包含4個(gè)部分:數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、情感詞典的訓(xùn)練、情感分析結(jié)果輸出[5]。
?
根據(jù)現(xiàn)有情感詞典進(jìn)行文本分析,往往因?yàn)槲谋緮?shù)據(jù)靈活性差、文本數(shù)據(jù)專業(yè)性弱等問題影響情感分析的準(zhǔn)確度。Zhang S X等人[16]基于情感詞典對(duì)微博文本進(jìn)行情感分析,為了提高情感分析的準(zhǔn)確性,結(jié)合微博文本數(shù)據(jù)的特點(diǎn)對(duì)傳統(tǒng)的情感詞典進(jìn)行擴(kuò)展,構(gòu)建了6個(gè)情感詞典,包含情感、否定詞等方面。在準(zhǔn)確率方面,在3類數(shù)據(jù)集中,本文提出的方法在積極、中性、消極3種情感標(biāo)簽的準(zhǔn)確率均優(yōu)于其他模型5%以上,中性文本數(shù)據(jù)的準(zhǔn)確率達(dá)到74.8%。Rice D R等人[17]則對(duì)專業(yè)文本數(shù)據(jù)進(jìn)行探索,從專業(yè)詞匯文本語(yǔ)料庫(kù)中創(chuàng)建情感詞典,提高情感詞典,在專業(yè)文本情感分析中的有效性,相較于現(xiàn)有情感詞典專業(yè)文本情感分析準(zhǔn)確性可提高10%。由于不同文本的語(yǔ)言種類不同,對(duì)應(yīng)的情感詞典往往也存在一定差異,小語(yǔ)種文本情感分析研究也在逐漸發(fā)展之中。Al-Thubaity A等人[28]基于由現(xiàn)代標(biāo)準(zhǔn)阿拉伯語(yǔ)和沙特阿拉伯方言構(gòu)成的沙特阿拉伯方言情感詞典,分析推特中與沙特阿拉伯相關(guān)的社交媒體數(shù)據(jù),并與現(xiàn)有情感詞典ArSenTi進(jìn)行比較。
基于情感詞典的文本情感分析可以準(zhǔn)確反映文本的非結(jié)構(gòu)化特征[5],可以有針對(duì)性地對(duì)匹配性較高的文本進(jìn)行比較準(zhǔn)確的情感分析,并且分析速度也比較快。但該方法也存在一些問題:情感詞典包含的極性詞語(yǔ)具有局限性;小語(yǔ)種的情感詞典較少且構(gòu)建相對(duì)困難;對(duì)于文本情感屬性上下文關(guān)聯(lián)性判定較弱。
基于機(jī)器學(xué)習(xí)的文本情感分析通過(guò)對(duì)帶標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練得到情感分析模型,實(shí)現(xiàn)文本數(shù)據(jù)的情感預(yù)測(cè)。線性分類器模型、神經(jīng)網(wǎng)絡(luò)模型等機(jī)器學(xué)習(xí)模型常被應(yīng)用于文本情感分析。Samal B R等人[29]對(duì)機(jī)器學(xué)習(xí)相關(guān)算法進(jìn)行探究,研究其相關(guān)性能,根據(jù)收集的5種不同大小的電影評(píng)論數(shù)據(jù)集,對(duì)比得到線性支持向量機(jī)(support vector machine,SVM)/支持向量機(jī)分類器(support vector classification,SVC)情感分類模型性能均優(yōu)于其他分類器。Nizam H等人[19]將樸素貝葉斯、決策樹等算法應(yīng)用于推特?cái)?shù)據(jù)的情感分類,并對(duì)各模型的情感分析精度進(jìn)行了判定與比較,得到序列最小優(yōu)化(sequental minimal optimization,SMO)算法在該數(shù)據(jù)集中具有較高的準(zhǔn)確率。
隨著神經(jīng)網(wǎng)絡(luò)模型的發(fā)展,將其應(yīng)用于情感分析的模型增多?,F(xiàn)在比較常用的有:雙向長(zhǎng)短期記憶(bi-directional long short-term memory,BiLSTM)[20]模型、雙向門控循環(huán)單元(bi-directional gated recurrent unit,BiGRU)[30]模型等。傳統(tǒng)的將單詞作為特征,對(duì)文本的充分利用具有一定的限制性,Li H K等人[20]將詞、語(yǔ)調(diào)、字符進(jìn)行融合,構(gòu)建WCT-Bi-LSTM模型,有效提高了情感分類效果,同時(shí)也對(duì)特征提取進(jìn)行了優(yōu)化。預(yù)訓(xùn)練模型通過(guò)構(gòu)建動(dòng)態(tài)詞向量模型有效解決了上下文關(guān)聯(lián)及一詞多義等問題,該模型常與神經(jīng)網(wǎng)絡(luò)模型結(jié)合,用于提升情感分析的準(zhǔn)確率。
引入特殊模型的文本情感分析這類方法建立在機(jī)器學(xué)習(xí)算法的基礎(chǔ)上,通過(guò)各類特殊模型在情感分析過(guò)程中對(duì)相關(guān)步驟的改善,提高情感分析的準(zhǔn)確性。
2.3.1 預(yù)訓(xùn)練模型
以Word2vec[31]、Glove[32]為代表的靜態(tài)詞向量模型在不同文本中通常以相同的向量表示相同的詞,靜態(tài)詞向量模型無(wú)法考慮文本中各詞匯之間的關(guān)聯(lián)程度,導(dǎo)致文本信息丟失,而動(dòng)態(tài)詞向量模型能有效解決該類問題。BERT(bidirectional encoder representation from transformers)同樣于2018年由谷歌公司[33]提出,是Transformer模型[34]的衍生,能獲取融合上下文信息的雙向語(yǔ)言特征。謝潤(rùn)忠等人[21]結(jié)合BERT預(yù)訓(xùn)練模型、注意力機(jī)制以及BiGRU模型,提高了情感特征的提取能力,提升了情感分類模型的性能,在不同實(shí)驗(yàn)數(shù)據(jù)集中,準(zhǔn)確率均超過(guò)93%。
遷移學(xué)習(xí)常指將相關(guān)領(lǐng)域的知識(shí)及信息遷移至該研究領(lǐng)域進(jìn)行研究。遷移模型建立在預(yù)訓(xùn)練模型之上,主要針對(duì)研究數(shù)據(jù)較少的領(lǐng)域?;谶w移學(xué)習(xí)的文本情感分析方法也被用于文學(xué)手法的檢測(cè)之中。Zhang S W等人[22]將該類方法用于推特等在線文本的反語(yǔ)檢測(cè)中,將有限的標(biāo)簽數(shù)據(jù)與外部情感語(yǔ)料庫(kù)(如情感詞語(yǔ)語(yǔ)料庫(kù)和推特情感語(yǔ)料庫(kù))進(jìn)行整合,通過(guò)遷移學(xué)習(xí)與基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型檢測(cè)反語(yǔ)。
2.3.2 注意力機(jī)制
注意力機(jī)制通過(guò)對(duì)模型中權(quán)重的控制提高情感分析模型的性能。注意力機(jī)制也與神經(jīng)網(wǎng)絡(luò)模型進(jìn)行結(jié)合,并通過(guò)權(quán)重控制提高情感分析的準(zhǔn)確率。Wang Y Q等人[23]提出ATAE-LSTM,并用于方面級(jí)情感分析,在二分類和三分類任務(wù)中準(zhǔn)確率均優(yōu)于LSTM。
Transformer[34]由谷歌機(jī)器翻譯團(tuán)隊(duì)于2017年提出,其創(chuàng)新點(diǎn)在于提出多頭注意力(multi-head attention)機(jī)制及Transformer模型,多頭注意力機(jī)制取代了遞歸層,Transformer模型相較于循環(huán)層與卷積層有明顯的性能提高。為了有效解決循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)難以并行化的問題,Song Y W等人[24]將多頭自注意力模型應(yīng)用于面向目標(biāo)的情感分析,提出了注意力編碼器網(wǎng)絡(luò)(attention encoder network, AEN),并用于在上下文和目標(biāo)信息之間建模。
對(duì)情感信息進(jìn)行分析能判定文本的情感傾向,有效預(yù)測(cè)社會(huì)事件的發(fā)展,挖掘文本信息,實(shí)現(xiàn)情感的量化。由于情感信息具有海量、非結(jié)構(gòu)、時(shí)變等特性,同時(shí)情感信息也具有強(qiáng)弱、喜悲之分,為了有效地對(duì)情感信息進(jìn)行界限的劃分,需要對(duì)圖形進(jìn)行恰當(dāng)?shù)恼故?。本文匯總了文本情感可視分析方法,并根據(jù)表現(xiàn)形式劃分為情感主題詞可視分析、情感關(guān)聯(lián)可視分析、情感演變可視分析以及情感時(shí)空分布可視分析,并對(duì)這4種方法的優(yōu)缺點(diǎn)進(jìn)行分類闡述,見表2。
表2 文本情感可視分析方法分類及特點(diǎn)
文本情感分析技術(shù)能有效挖掘文本的情感傾向。以詞為主題的情感主題詞可視分析能有效展現(xiàn)文本情感的強(qiáng)弱變化,將海量的情感信息數(shù)據(jù)轉(zhuǎn)化為圖表進(jìn)行展現(xiàn),常見的可視分析方法包含詞云圖、星座圖等。
詞云[63]又稱文字云、標(biāo)簽云,可被用于展現(xiàn)情感信息中的關(guān)鍵詞及其重要程度。詞云具有不同的形態(tài),Wang J等人[35]提出使用魚眼詞云(fisheye word cloud)和平行標(biāo)簽云(parallel tag cloud)展現(xiàn)時(shí)間序列中代表情感極性的關(guān)鍵詞及對(duì)應(yīng)情感的變化,頂部為最消極詞,底部為最積極詞。為了使詞云更準(zhǔn)確、直觀地表達(dá)對(duì)應(yīng)的情感信息,Naseem U等人[46]等將詞云的形狀設(shè)定為對(duì)應(yīng)的笑臉、苦臉等狀態(tài)。對(duì)于多標(biāo)簽多時(shí)變信息的數(shù)據(jù),靜態(tài)詞云顯得雜亂無(wú)章,社交媒體中的標(biāo)簽數(shù)據(jù)可用于衡量人們情緒的變化,但受其來(lái)源的影響,具有海量、異質(zhì)、時(shí)變的特性。基于此,Chen Y[36]提出了基于節(jié)點(diǎn)鏈接圖和詞云圖的Tagnet方法,用顏色編碼節(jié)點(diǎn)并連線,動(dòng)態(tài)展現(xiàn)標(biāo)簽的情感模式變化。詞云雖簡(jiǎn)單易懂,但各詞之間的關(guān)聯(lián)性并未展現(xiàn)。STViewer[37]將樹狀圖與詞云結(jié)合,既突出情感信息,也展現(xiàn)了詞的層次關(guān)聯(lián)性。
星座圖被用于展現(xiàn)各個(gè)情感網(wǎng)絡(luò),使數(shù)據(jù)的分類及數(shù)據(jù)中關(guān)鍵詞之間的關(guān)聯(lián)程度便于理解,如CosMovis[38]使用情感關(guān)鍵詞構(gòu)建聚類網(wǎng)絡(luò),并通過(guò)熱力圖編碼其情感極性。
環(huán)形圖可通過(guò)顏色與面積表示關(guān)鍵詞中不同情感信息的占比,如Zhang W等人[39]將環(huán)形圖用于詩(shī)詞意象的情感分析,并與節(jié)點(diǎn)鏈接圖結(jié)合,展現(xiàn)宋詞中不同詩(shī)詞意象中情感信息的變化。
情感數(shù)據(jù)因時(shí)間、主題、來(lái)源、社交網(wǎng)絡(luò)、文本等信息具有關(guān)聯(lián)性,情感關(guān)聯(lián)可視分析能展現(xiàn)情感關(guān)聯(lián)關(guān)系,常見的可視分析方式包括節(jié)點(diǎn)鏈接圖、樹圖等。
節(jié)點(diǎn)鏈接圖能有效展示網(wǎng)絡(luò)關(guān)系。節(jié)點(diǎn)的顏色常被用于編碼情感關(guān)系[64-65],Vizcarra J等人[65]以顏色編碼節(jié)點(diǎn)展現(xiàn)情感傾向,通過(guò)節(jié)點(diǎn)鏈接圖展現(xiàn)社交平臺(tái)用戶情緒狀態(tài)及社交活動(dòng),如圖2所示。不同于顏色編碼節(jié)點(diǎn)表示節(jié)點(diǎn)的情感屬性,SentiView[40]用話題橢圓代表評(píng)論主題及情感傾向,用節(jié)點(diǎn)代表用戶評(píng)論,用邊代表評(píng)論之間的關(guān)系,積極、消極情感屬性則以小橢圓對(duì)節(jié)點(diǎn)進(jìn)行覆蓋,其余部分則代表中性情感,橢圓大小由評(píng)論數(shù)和參與評(píng)論的人數(shù)決定。Molla A等人[41]則將情感信息量化以評(píng)分表示,圖表中的滑塊決定圖表中的情感分?jǐn)?shù),顏色編碼情感傾向,作者將代表不同情感的特征詞量化,并構(gòu)建節(jié)點(diǎn)鏈接圖進(jìn)行可視化展示。節(jié)點(diǎn)鏈接圖可用于展現(xiàn)時(shí)空信息的變化,Whisper[42]將地圖與節(jié)點(diǎn)鏈接圖結(jié)合,用于檢測(cè)時(shí)間的時(shí)空擴(kuò)散模式,以向日葵隱喻信息傳播路徑,顏色編碼評(píng)論情緒。節(jié)點(diǎn)鏈接圖也可通過(guò)邊的顏色變化分析情感狀態(tài)的變化,Zhang W等人[39]將宋詞文本的情感劃分為5個(gè)類別,將詩(shī)詞意象情感與作者進(jìn)行關(guān)聯(lián),通過(guò)節(jié)點(diǎn)鏈接圖與環(huán)形圖的結(jié)合,分析每個(gè)作者在不同詩(shī)詞意象下的情感分布變化及同一詩(shī)詞意象中作者分布和對(duì)應(yīng)情感分布。
圖2 節(jié)點(diǎn)鏈接圖
樹圖用于展現(xiàn)數(shù)據(jù)之間的層次及前后情感關(guān)聯(lián)關(guān)系。STViewer[37]將詞云與詞集之間的樹形結(jié)構(gòu)(word tree)結(jié)合,單詞大小表示出現(xiàn)頻率,通過(guò)連接邊的顏色進(jìn)行情感傾向的劃分。樹圖可用于展現(xiàn)輿論的擴(kuò)散路徑,OpinionFlow[43]通過(guò)樹圖展現(xiàn)輿論擴(kuò)散情況,并將其與密度圖進(jìn)行結(jié)合用于展現(xiàn)情感傾向。ConVis[44]則將用戶和話題通過(guò)邊進(jìn)行鏈接,并在鏈接之中以堆疊條形圖展現(xiàn)對(duì)話情感狀態(tài)。樹狀地圖(tree-maps)由Shneiderman B[45]提出,以空間矩陣地圖的形式展現(xiàn)樹狀結(jié)構(gòu)及其層次關(guān)系,Pulse[66]將其應(yīng)用于汽車評(píng)論,不同的汽車品牌下,每個(gè)矩形展現(xiàn)其關(guān)鍵詞及其對(duì)應(yīng)的用戶評(píng)論情感信息。
情感數(shù)據(jù)具有伴隨時(shí)間變化的特征,情感演變可視分析以時(shí)序數(shù)據(jù)可視分析為代表,展現(xiàn)情感信息隨時(shí)間變化情況,揭示重要的序列模式,突出情感變化特征。
情感演變可視分析常以時(shí)間軸為基礎(chǔ),通過(guò)時(shí)間軸上不同的圖表展現(xiàn)情感信息的變化,按照可視化通道的變化可將其分為線性時(shí)間可視分析、周期時(shí)間可視分析、日歷時(shí)間可視分析。
線性時(shí)間可視分析以線性時(shí)間軸為基礎(chǔ),橫軸展現(xiàn)其時(shí)間屬性變化,縱軸展現(xiàn)情感信息及主題信息的變化。折線圖[46,67-68]、散點(diǎn)圖[47]通過(guò)線條(數(shù)值)及散點(diǎn)的變化展現(xiàn)時(shí)間趨勢(shì)中情緒傾向的轉(zhuǎn)變,但折線圖及散點(diǎn)圖展示信息能力較弱,不能展現(xiàn)相關(guān)事件的細(xì)節(jié)。Lu Y F等人[48]通過(guò)氣泡圖中氣泡的顏色編碼情感得分(sentiment score),通過(guò)氣泡的大小(bubble size)映射社交評(píng)論轉(zhuǎn)發(fā)次數(shù)。
主題河流圖(theme river)[69]是一種常見的時(shí)序可視分析呈現(xiàn)方式,通過(guò)河流的寬度、顏色的差異展現(xiàn)各類主題隨時(shí)間變化的發(fā)展趨勢(shì)與關(guān)系變化。情感分析中常用不同顏色編碼各類情緒并映射于河流之中,Brooks M等人[70]通過(guò)情緒河流圖展現(xiàn)推特?cái)?shù)據(jù),用3種顏色代表3種情緒,展現(xiàn)不同時(shí)間包含不同情緒的推特評(píng)論數(shù)量變化。情緒變化常與文本主題進(jìn)行關(guān)聯(lián),Wang X T等人[49]提出IdeaFlow,不同顏色編碼不同時(shí)期各話題之間情感信息的變化,河流的寬度、顏色以及相關(guān)標(biāo)簽展示各主題隨時(shí)間的變化。OpinionFlow[43]將流圖與桑基圖結(jié)合,用流的變化展現(xiàn)時(shí)間遞增中意見擴(kuò)散的情況,在每條支流中以密度圖的方式展現(xiàn)用戶正/負(fù)面的意見情況,每條支流中以堆疊樹圖展現(xiàn)不同層次用戶感興趣的話題情況。StanceVis Prime[71]則以流圖為基礎(chǔ),在每個(gè)時(shí)間段加入對(duì)應(yīng)的情感/立場(chǎng)提示標(biāo)簽,并借助交互手段與條形柱狀圖結(jié)合的方式展現(xiàn)不同情感與立場(chǎng)中社交媒體文本變化的情況,如圖3所示。圖3中:a為堆疊圖,表示目標(biāo)/域組合的文檔計(jì)數(shù);b為范圍滑塊,提供完整加載數(shù)據(jù)集的概述;c為時(shí)間步長(zhǎng)選擇的指示器;d為一個(gè)表示情緒/立場(chǎng)的主觀性提示標(biāo)簽;e為文檔查詢的時(shí)間范圍選擇;f為主觀性線索控制和文檔查詢按鈕;g為情緒數(shù)據(jù)系列表示;h為立場(chǎng)數(shù)據(jù)序列表示;i為面板折疊按鈕。
圖3 線性時(shí)間可視分析
為了更方便地了解情感趨勢(shì)的動(dòng)態(tài)變化,更直觀、具體地展現(xiàn)情緒產(chǎn)生因素、演變過(guò)程,Cao N等人[72]提出一種基于DNA的隱喻可視化設(shè)計(jì),將不同社會(huì)群體情緒演變情況展示為DNA雙股螺旋中的主鏈,關(guān)鍵詞框則類似于堿基位于雙螺旋結(jié)構(gòu)的內(nèi)側(cè),用于展現(xiàn)事件相關(guān)背景,該結(jié)構(gòu)能直接展現(xiàn)情緒產(chǎn)生時(shí)間、產(chǎn)生原因以及演變情況。以環(huán)形模型[73]心理學(xué)研究表示情感具有多維性,單維線性情感可視分析方法未能對(duì)情感進(jìn)行全面的分析。Wang F Y等人[50]針對(duì)情感的二維性,提出SentiCompass,將時(shí)間軸以環(huán)形模型進(jìn)行劃分,在每個(gè)環(huán)形模型中,橫軸代表情感狀態(tài),縱軸代表情感激活程度,并以折線圖展示不同情感狀態(tài)中的情感激活程度。
周期時(shí)間可視分析將時(shí)間軸以環(huán)形呈現(xiàn),展現(xiàn)其周期性及多屬性在該周期內(nèi)的變化趨勢(shì)。不同于線性時(shí)間軸展現(xiàn)環(huán)形結(jié)構(gòu)的方式,徑向圖環(huán)形結(jié)構(gòu)中的橫軸代表時(shí)間,展現(xiàn)周期內(nèi)各類情感趨勢(shì)的變化。OpinionSeer[51]將散點(diǎn)圖及徑向圖結(jié)合,并將其應(yīng)用在情感分析中,以徑向圖展現(xiàn)周期內(nèi)用戶數(shù)量的變化,并通過(guò)散點(diǎn)圖展現(xiàn)不同年齡層次中用戶的情感傾向。Watson K等人[52]用環(huán)形時(shí)間軸隱喻電影的時(shí)長(zhǎng),通過(guò)各同心圓上不同位置的顏色變化編碼人物在不同場(chǎng)景中的情感狀態(tài),以《戀夏500天》(the 500 Days of Summer)為例,如圖4所示。
圖4 《戀夏500天》周期時(shí)間可視分析
日歷時(shí)間可視分析將時(shí)序數(shù)據(jù)以二維圖表按日歷的模型進(jìn)行展示。日歷圖能直觀地比較各時(shí)間段數(shù)據(jù)之間的變化情況。例如像素地圖日歷[53]將文獻(xiàn)指紋[74]與日歷可視化結(jié)合。
情感信息往往與地理、時(shí)間、文本內(nèi)容等各類信息關(guān)聯(lián),要展現(xiàn)時(shí)空特性,情感分析需感知地理信息、時(shí)空信息等,故文本情感可視分析常與時(shí)空分布關(guān)聯(lián)。
情感時(shí)空分布可視分析主要以地圖可視化為主要呈現(xiàn)方式。地圖可用于展現(xiàn)空間分布特征[75],輔以一定的交互技術(shù),地圖可展現(xiàn)信息的地理分布、信息的時(shí)空擴(kuò)散模式、信息的傳播規(guī)律。
分布點(diǎn)地圖(dot map)指在地圖上通過(guò)標(biāo)記及改變標(biāo)記視覺變量形成的地圖[75]。分布點(diǎn)地圖[54-55]將關(guān)聯(lián)地理信息的情感數(shù)據(jù)以點(diǎn)表示,通過(guò)顏色編碼地圖中的點(diǎn)用于展現(xiàn)情緒傾向,從而觀察區(qū)域輿論/評(píng)論情感的變化與信息的擴(kuò)散情況。Hao M C等人[56]在基于分布點(diǎn)地圖的基礎(chǔ)上引入關(guān)鍵詞,分布點(diǎn)地圖改進(jìn)使用了像素地圖,有效解決了高密度地區(qū)點(diǎn)遮擋的問題。關(guān)鍵術(shù)語(yǔ)地圖則將該區(qū)域的關(guān)鍵詞與情感進(jìn)行關(guān)聯(lián),關(guān)鍵詞大小代表該地區(qū)的意義值,顏色則被用來(lái)編碼情感傾向,通過(guò)此地圖能有效分析地圖中不同位置的情感變化和代表性關(guān)鍵詞。地圖也便于進(jìn)行多層次信息展示,Zhang C H等人[57]將地圖與社交網(wǎng)絡(luò)結(jié)合,為了避免地理信息造成節(jié)點(diǎn)鏈接圖的布局混亂,作者將城市作為一個(gè)節(jié)點(diǎn),通過(guò)各節(jié)點(diǎn)之間的網(wǎng)絡(luò)表達(dá)信息傳播關(guān)系,各個(gè)城市節(jié)點(diǎn)也通過(guò)顏色的變化來(lái)展現(xiàn)情感的變化,該圖表能有效展現(xiàn)城市之間信息傳播和不同城市的情感變化。
聚類點(diǎn)地圖建立在分布點(diǎn)地圖之上,有效解決了數(shù)據(jù)量較大、信息在分布點(diǎn)地圖難以展現(xiàn)等問題。聚類點(diǎn)地圖常用點(diǎn)的大小展現(xiàn)聚類情況,用點(diǎn)的中心位置表示地理信息[76]。Murthy J S等人[58]用點(diǎn)定位推文來(lái)源地區(qū),用點(diǎn)的大小代表該地區(qū)對(duì)應(yīng)的推文數(shù)量,用點(diǎn)的顏色代表情感極性,以分析不同地點(diǎn)中推文數(shù)量和情感變化情況。不同于以原點(diǎn)為聚類中心,推特情感圖譜[59]在地圖中繪制堆積多邊形來(lái)表示推文的空間聚類結(jié)果,多邊形不同顏色的邊代表不同的情緒分類,不同時(shí)間下多邊形的變化代表情緒聚類的遷移,該圖表可被用于展現(xiàn)推文情感空間聚類情況和遷移變化情況。與平面圖形不同,聚類點(diǎn)地圖也常與3D可視化圖表結(jié)合,通過(guò)多維度的可視化展現(xiàn)情感信息。Apollo[60]將地圖與3D柱狀圖結(jié)合,多層次分析不同地點(diǎn)下推文情感的分布和情感分?jǐn)?shù)的變化。
區(qū)域地圖[77]則是對(duì)某個(gè)區(qū)塊進(jìn)行劃分,以該區(qū)域的顏色及大小的差異展現(xiàn)情緒的變化。Yaqub U等人[61]將區(qū)域按照行政區(qū)域劃分,并結(jié)合顏色的變化表示同一主題在不同區(qū)域社交評(píng)論中情感信息的差異。由于情感分析常涉及多個(gè)因素,因此各因素在可視化圖表中的呈現(xiàn)將會(huì)影響視圖效果。例如,Kuang C等人[62]對(duì)顏色編碼情緒進(jìn)行改進(jìn),在地圖中,顏色編碼代表各地區(qū)微博帖子數(shù)量,而各區(qū)域內(nèi)的微博評(píng)論情感傾向則以各區(qū)域的紋理進(jìn)行展現(xiàn),正面情緒用圓點(diǎn)進(jìn)行展示,負(fù)面情緒則用橫線進(jìn)行展示,通過(guò)不同類型的情感表示方式分析不同區(qū)域內(nèi)情感的主題變化情況。
本文總結(jié)了文本情感分析的數(shù)據(jù)來(lái)源、預(yù)處理、基本分類以及情感標(biāo)記方法,歸納了文本情感分析技術(shù),并對(duì)近年來(lái)文本情感可視分析方法進(jìn)行了梳理。面對(duì)文本數(shù)據(jù)及多模態(tài)信息數(shù)據(jù)的持續(xù)衍生,文本情感可視分析依舊存在諸多的挑戰(zhàn)與機(jī)遇,具體如下。
一是可視分析輔助自適應(yīng)的選擇與優(yōu)化情感分析模型研究??梢暦治龇椒ㄔ跈C(jī)器學(xué)習(xí)領(lǐng)域得到廣泛的應(yīng)用,可用于輔助模型的研究,包括模型的選擇與對(duì)比、模型工作過(guò)程的展現(xiàn)等,有效提高了數(shù)據(jù)分析能力,增強(qiáng)了優(yōu)化模型的效果?,F(xiàn)有情感分析模型數(shù)量眾多、結(jié)構(gòu)復(fù)雜、參數(shù)眾多,難以高效地實(shí)現(xiàn)模型的優(yōu)化、選擇以及理解等??梢暦治鲚o助自適應(yīng)的選擇與優(yōu)化情感分析模型將是未來(lái)的可視分析研究趨勢(shì)之一。
二是多模態(tài)情感可視分析研究。當(dāng)前情感可視分析研究主要對(duì)文字進(jìn)行研究,但文字信息不夠充分。隨著可用的視頻、圖像資源不斷增加,未來(lái)情感分析研究將集中于多模態(tài)情感分析研究。多模態(tài)情感分析即通過(guò)文本、圖像、視頻、語(yǔ)音等方面的結(jié)合實(shí)現(xiàn)情感信息提取,多模態(tài)情感可視分析也是情感可視分析領(lǐng)域的研究熱點(diǎn)之一。如何將文本、語(yǔ)音等多種模態(tài)的情感信息進(jìn)行融合,基于不同的權(quán)重分布有效展現(xiàn)情感的變化,通過(guò)可視分析圖表多層次且更有效地展現(xiàn)多模態(tài)情感信息內(nèi)容以及將可視分析技術(shù)應(yīng)用于多模態(tài)情感分析方法的研究,需要進(jìn)一步深入的研究與探索。
三是情感分布的不確定性及可視分析研究。目前進(jìn)行情感可視分析研究是面向極性或者確定個(gè)數(shù)的情感標(biāo)簽的,但是有些時(shí)候情感并不是非此即彼。隨著情感分析數(shù)據(jù)內(nèi)容和來(lái)源的多元化,特別是面對(duì)具有多關(guān)聯(lián)關(guān)系、海量的文本數(shù)據(jù)且存在情感模糊性的情感分析任務(wù)解讀時(shí),設(shè)計(jì)一種有效的情感可視分析方法仍有挑戰(zhàn),是未來(lái)的研究熱點(diǎn)。