陳紅琳 魏瑞斌 張瑋
摘 要:[目的/意義]對國內(nèi)文本情感分析的研究成果進行梳理與計量分析,有助于從不同角度了解主題研究狀況、發(fā)文情況,對后續(xù)的研究具有一定的參考價值。[方法/過程]本文對發(fā)文期刊、作者團隊進行統(tǒng)計分析,并利用共詞分析法,研究關(guān)鍵詞之間的聯(lián)系,探討近十年來在文本情感分析的研究熱點及現(xiàn)狀。[結(jié)果/結(jié)論]結(jié)果表明,我國近兩年對文本情感分析的研究主要有基于情感詞典的機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)兩種方法,文章最后指出了兩種方法的研究現(xiàn)狀及未來研究方向。
關(guān)鍵詞:文本情感分析;共詞分析;情感詞典;深度學(xué)習(xí);神經(jīng)網(wǎng)絡(luò)
DOI:10.3969/j.issn.1008-0821.2019.06.010
〔中圖分類號〕TP391.1 〔文獻標(biāo)識碼〕A 〔文章編號〕1008-0821(2019)06-0091-11
Abstract:[Purpose/Importance]The research results of text sentient analysis were sorted out and quantitatively analyzed,which was helpful to understand the status of subject research and publishing,and it had certain reference value for subsequent research.[methods/Procedures]This paper made a statistical analysis of the published journals and author teams,and uses co-word method to study the relationship between keywords,and discussed the research hot spots and current situation of text sentient analysis in the past decade.[Results/Conclusion]The results showed that the research on text sentiment analysis in China in the past two years mainly included two methods:machine learning based on emotion dictionary and deep learning based on neural network.At last,the paper pointed out the future research direction of the two methods.
Key words:text sentiment analysis;co-word analysis;emotional dictionary;deep learning;neural network
目前,互聯(lián)網(wǎng)的應(yīng)用無論是廣度還是深度,都呈井噴式飛速發(fā)展,伴隨而來的是,網(wǎng)絡(luò)中的數(shù)據(jù)以每天數(shù)億計的速度快速增長。通過挖掘這些海量數(shù)據(jù),我們能從中得到很多有價值的信息。近年來,越來越多的學(xué)者開始關(guān)注網(wǎng)絡(luò)文本挖掘,其中文本情感分析成為最熱門的研究問題之一,涉及政治、軍事、經(jīng)濟、娛樂、生產(chǎn)生活等各個領(lǐng)域,通過分析其中蘊含的用戶情感,了解用戶喜好,將其作為決策依據(jù)。
為了系統(tǒng)全面地了解評論內(nèi)容、跟蹤輿情,越來越多的組織及個人利用計算機技術(shù),對網(wǎng)絡(luò)中的用戶文本信息進行分析,文本情感分析由此產(chǎn)生。文本情感傾向分析又稱意見挖掘,是針對觀點持有人對某產(chǎn)品、事件或人物等的評論,進行傾向性的研究。馬曉玲等[1]提出了文本情感分析的研究框架,并從基礎(chǔ)理論研究和應(yīng)用研究兩個角度對代表性成果進行了分析。擁措等[2]分析國內(nèi)外短文本情感分析的研究方法、研究熱點和研究趨勢。
1 數(shù)據(jù)來源與研究方法
1.1 數(shù)據(jù)來源
本文以CNKI(知網(wǎng))為數(shù)據(jù)來源,于2018年8月5日,以“文本情感分析”為主題詞,對CNKI全文數(shù)據(jù)庫進行搜索,共得到1 038篇文獻,排除學(xué)位論文,并對所有文獻進一步處理,刪除無作者、無單位、無年代、無關(guān)鍵字、無學(xué)科主題、重復(fù)的文獻,最終得到334篇文獻。
1.2 研究方法
提取適當(dāng)詞頻的關(guān)鍵詞能準(zhǔn)確描述文獻的研究內(nèi)容,能代表該領(lǐng)域的研究主題[3],將文獻的主題詞兩兩統(tǒng)計出它們在同一篇文獻中出現(xiàn)的次數(shù),對這些詞進行聚類分析,統(tǒng)計研究相關(guān)主題,從而找出領(lǐng)域研究熱點,并分析未來研究趨勢。
本文采用Excel、Python、SPSS作為研究工具,通過Excel對數(shù)據(jù)進行基礎(chǔ)分析,統(tǒng)計文獻分布情況;利用Python進行詞頻統(tǒng)計,并構(gòu)造共詞矩陣;SPSS對共詞矩陣進行聚類分析,統(tǒng)計當(dāng)今研究熱點。
2 研究基本情況
2.1 時間分布
按發(fā)表時間對文獻數(shù)量進行統(tǒng)計,結(jié)果如圖1所示,從圖1可以看出,國內(nèi)在文本情感分析的研究開始于2006年,最早的一篇文獻是葉強等[4]在《信息系統(tǒng)學(xué)報》上發(fā)表的“面向互聯(lián)網(wǎng)評論情感分析的中文主觀性自動判別方法》”,他們在論文中提出了一種中文主觀性自動判別方法。圖1顯示“文本情感分析領(lǐng)域”每年的發(fā)文量基本呈現(xiàn)為一個線性增長。2014年之后,每年的發(fā)文量基本保持在50篇左右。從論文累積發(fā)表的數(shù)量看,該領(lǐng)域的論文數(shù)量呈現(xiàn)為指數(shù)函數(shù),其增長的速度較快。這反映出該領(lǐng)域的研究得到了越來越多研究者的關(guān)注。
2.2 期刊分布
從統(tǒng)計結(jié)果來看,334篇論文分布于173種期刊。根據(jù)布拉德福定律,按照發(fā)文數(shù)遞減的順序?qū)ζ诳M行排序,把該領(lǐng)域的載文期刊分為3個區(qū)域(核心區(qū)、相關(guān)區(qū)和離散區(qū)),每個分區(qū)的論文數(shù)量大體相當(dāng)(107篇、105篇和122篇)。其中,核心區(qū)每本期刊為發(fā)文6篇以上,相關(guān)區(qū)每本期刊發(fā)文為2篇到5篇,離散區(qū)域每本期刊發(fā)文數(shù)為1篇。3個區(qū)域的期刊數(shù)量比為14∶37∶122,大致滿足1∶n∶n2的關(guān)系。根據(jù)比利時情報學(xué)家埃格郝的布拉德福核心區(qū)數(shù)量計算法,將核心區(qū)期刊數(shù)量用下列公式來計算[5]:
2.3 作者發(fā)文
從統(tǒng)計結(jié)果看,334篇論文共涉及作者814人,人均發(fā)表論文2.43篇。發(fā)文2篇以上的有27人。大多數(shù)作者(不限第一作者)發(fā)文數(shù)為1篇(共726人),72人發(fā)文數(shù)為2篇,發(fā)文數(shù)為3篇和4篇的均為8人。作者發(fā)文數(shù)量的這種分布反映出該領(lǐng)域的研究隊伍較大,但是其中持續(xù)產(chǎn)出數(shù)量較多的研究者較少。結(jié)合圖2看,目前該領(lǐng)域的研究人員還較為分散,基本是“單兵作戰(zhàn)”,周詠梅、李勇敢、樊娜、鄭嘯等合作規(guī)模較大。
對文章按照作者分類匯總,發(fā)現(xiàn)各個研究團隊研究的側(cè)重點略有不同。周詠梅、陽愛民團隊主要研究基于語料庫的文本情感分析,包括情感詞典的構(gòu)建方法[27-28]、語料情感類別自動標(biāo)注方法[25-26];李勇敢等研究了一個用于中文文本情感分類的評測系統(tǒng)[29-31]:包括構(gòu)建多級詞庫、制定成詞規(guī)則、開展串頻統(tǒng)計等的新詞識別方法、基于依存模式的觀點句識別算法等,并將其應(yīng)用于微博情感分類,實驗證明該方法的識別效率較高。樊娜團隊主要采用機器學(xué)習(xí)的方法進行文本情感分析,包含兩種研究方法:第一種是按照文本結(jié)構(gòu)的特點,依據(jù)語句相近的原則,將文本分隔成若干語義段,再采用條件隨機場模型進行主觀內(nèi)容提取和觀點識別,從而確定文本傾向[32];第二種采用K-鄰近算法將整個文本的情感分成局部情感和全局情感,建立條件隨機場模型,確定文本中的局部情感,再采用K-鄰近算法計算文本的全局情感[19]。鄭嘯團隊對情感分析的機器學(xué)習(xí)方法作了深入地研究,有傳統(tǒng)的機器學(xué)習(xí)方法[20]和基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法[21-22],神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法是近兩年來流行的一種文本情感分析方法,在復(fù)雜模型的海量數(shù)據(jù)訓(xùn)練方面有極大的優(yōu)勢。
2.4 高頻關(guān)鍵詞分布
關(guān)鍵詞作為期刊論文的一部分,通常反映論文的研究主題或研究方法等內(nèi)容。通過研究某一領(lǐng)域的關(guān)鍵詞,可以把握該領(lǐng)域的研究方向和研究熱點[33]。從334篇論文中共提取674個關(guān)鍵詞。本文對部分關(guān)鍵詞進行了合并等處理,如“微博”和“中文微博”、“支持向量機”和“SVM”等,由于本文檢索主題詞為“文本情感分析”,故從關(guān)鍵詞中剔除“情感分析”和“文本情感分析”,得到詞頻不低于4的關(guān)鍵詞,詞頻分布具體情況如表3所示。從表3可以看出,“情感詞典”詞頻居首,達50次,詞頻為1的關(guān)鍵詞530個,占比約79%。通過對文獻關(guān)鍵詞詞頻進行分析,發(fā)現(xiàn)諸如“情感分類”、“支持向量機”、“機器學(xué)習(xí)”、“卷積神經(jīng)網(wǎng)絡(luò)”等表示情感分析研究方法的關(guān)鍵詞出現(xiàn)次數(shù)較多,這在一定程度上反映出該領(lǐng)域?qū)ξ谋厩楦蟹治龅膶崿F(xiàn)方法和技術(shù)關(guān)注較多。
2.5 關(guān)鍵詞共詞矩陣分析
對關(guān)鍵詞按詞頻進行降序排序,能從一定程度上反映學(xué)科主題的研究方向,但是單純的詞頻排序不能反映高頻詞之間的內(nèi)在聯(lián)系,不能全面地揭示學(xué)科的結(jié)構(gòu)、研究熱點及研究動態(tài)。表4為40個高頻關(guān)鍵詞(部分)共現(xiàn)矩陣,反映關(guān)鍵詞共同出現(xiàn)在一篇文獻中的次數(shù)。在共詞矩陣中,兩個關(guān)鍵詞共同出現(xiàn)的次數(shù)越多,說明關(guān)鍵詞聯(lián)系越緊密,越能體現(xiàn)主題的研究內(nèi)容。因此,有必要根據(jù)高頻關(guān)鍵詞構(gòu)建共現(xiàn)矩陣。如表所示,矩陣的對角線為關(guān)鍵詞的詞頻,上三角或下三角表示兩個關(guān)鍵詞共同出現(xiàn)的次數(shù)。
在圖3樹狀圖中閾值約為21的位置劃分類團,可以得到4個熱點的研究領(lǐng)域,從上往下看,第一個類團包括“卷積神經(jīng)網(wǎng)絡(luò)”、“深度學(xué)習(xí)”、“詞向量”和“自然語言處理”等關(guān)鍵詞,主要是關(guān)于文本情感分析深度學(xué)習(xí)方法;第二個類團包括“情感信息抽取”、“語料庫”、“情感極性”和“情感強度”等關(guān)鍵詞,主要基于情感詞典的情感分析;第三個類團包括“主題模型”、“文本挖掘”、“LDA”和“神經(jīng)網(wǎng)絡(luò)”等關(guān)鍵詞,圍繞文本情感分析的相關(guān)模型和算法研究。第四個類團包括“網(wǎng)絡(luò)輿情”、“數(shù)據(jù)挖掘”和“短文本”、“機器學(xué)習(xí)”、“語義規(guī)則”和“情感計算”等關(guān)鍵詞,該類團主要是基于傳統(tǒng)機器學(xué)習(xí)的文本情感分析方法。具體分類如表7所示。
2.6 多維尺度分析
多維尺度分析是把樣本數(shù)據(jù)反映在二維空間距離,聯(lián)系緊密的兩點會靠得很近[34]。在SPSS中導(dǎo)入相異矩陣進行多維刻度分析,得到圖4所示的多維尺度分析圖。
從圖4可以看出,二維坐標(biāo)圖中整體布局呈邊緣分布,大致可以分成4簇。第一象限包含“情感詞典”、“情感詞”和“機器學(xué)習(xí)”等關(guān)鍵詞,
對應(yīng)聚類分析中的第四類,主要涉及情感詞典的構(gòu)建及應(yīng)用傳統(tǒng)機器學(xué)習(xí)算法進行情感分類;第二簇集中在第二象限處,對應(yīng)聚類分析第一類,體現(xiàn)深度學(xué)習(xí)算法在情感分類領(lǐng)域的應(yīng)用;第三象限對應(yīng)聚類分析的第三類,構(gòu)建神經(jīng)網(wǎng)絡(luò)分析模型進行情感分析;第四象限關(guān)鍵詞對應(yīng)聚類分析的第二類,依據(jù)語料庫確定感情詞的情感極性和情感強度,以此來確定文本情感。
3 結(jié)果分析
文本情感分析技術(shù)有兩類:基于外部知識庫(情感詞典)的技術(shù)和基于機器學(xué)習(xí)的技術(shù)。本文通過對文獻關(guān)鍵詞進行高頻詞分析和聚類分析,對“文本情感分析”領(lǐng)域的研究內(nèi)容有了整體的認識,將該領(lǐng)域的研究分為4類,其中第一類、第三類基于深度學(xué)習(xí)的機器學(xué)習(xí)方法,第二類是基于詞典的情感分析,第四類為傳統(tǒng)機器學(xué)習(xí)的情感分析。通過對文獻進行分析發(fā)現(xiàn),2016年前文本分析方法主要采用情感詞典和傳統(tǒng)機器學(xué)習(xí)的方法,2016年后深度學(xué)習(xí)技術(shù)的相關(guān)文獻呈逐年遞增的趨勢。
3.1 基于情感詞典的情感分析技術(shù)
情感詞典是文本情感分析的基礎(chǔ),構(gòu)造文本情感詞典,標(biāo)注詞的極性與強度,從而判斷文本情感。詞典構(gòu)建是文本情感分析的關(guān)鍵,研究人員在詞典構(gòu)建與改進方面作了大量的工作,在現(xiàn)有詞典基礎(chǔ)上不斷改進,充分考慮文本特性和用戶表達習(xí)慣。文本情感詞典有人工構(gòu)建和自動構(gòu)建兩種方式,比較典型的英文人工構(gòu)建詞典有WordNet、SentiWordNet、General Inquirer、Option Lexicon;中文人工構(gòu)建的開放性的詞典庫有知網(wǎng)(HowNet)提供的情感分析詞語集、大連理工的情感詞匯本體庫、臺灣大學(xué)構(gòu)建的情感詞典NTUSD[31]。人工構(gòu)建的方式由于效率低,且不適合跨領(lǐng)域研究,因而目前多采用自動構(gòu)建的方式,在一定程度上增強了領(lǐng)域的適用性。
基于情感詞典的文本情感分析的研究成果較多,在短文本情感分析方面效率較高。周詠梅等[18]在HowNet和SentiWordNet的基礎(chǔ)上,將詞語分解成多個義元后計算其情感傾向強度,并使用詞典校正方法對詞語的情感傾向值進行修正,并應(yīng)用到微博文本情感分析。對于特定領(lǐng)域的情感分析,為提高分析精度,需要構(gòu)建特定領(lǐng)域的情感詞典。王勇等[23]圍繞中文微博中的情感分類,構(gòu)建了四個情感詞典:基礎(chǔ)情感詞典、表情符號詞典、否定詞詞典和雙重否定詞詞典,在此基礎(chǔ)上,融合漢語言特征及微博情感表達特征,提出了一種基于極性詞典的分類方法,該方法準(zhǔn)確率達82.2%。王文遠等[24]提出一種構(gòu)建表情符號情感詞典的方法,通過對大量微博中與表情共現(xiàn)的文本的情感分析,從而來確定表情的情感傾向,以此構(gòu)建的面向情感分析的表情情感詞典,該方法對分析文本情感的準(zhǔn)確性方面有所提高。以上的研究主要是從不同維度來改進情感詞典,同時定義詞的情感極性,這種方法最大的問題是情感區(qū)分度不夠,對不同數(shù)據(jù)集適應(yīng)性欠佳。陽林[36]針對情感詞的情感確定性,提出了一種新的權(quán)值計算方法,即情感確定性越大,其權(quán)值也越大,詞的情感傾向更明確,從而字典內(nèi)的情感區(qū)分度明顯,這種方法在情感判斷中的準(zhǔn)確性上有很大提高。陽愛民等[37]介紹了一種情感詞典的構(gòu)建方法,選用若干情感種子詞,利用搜索引擎返回的詞的共現(xiàn)數(shù),通過改進的PMI(Pointwise Mutual Information)算法計算情感詞的情感權(quán)值,該方法應(yīng)用于不同的語料環(huán)境下,構(gòu)建的情感詞典,可有效用于情感特征選擇和直接情感分類。
3.2 基于機器學(xué)習(xí)的文本情感分析
從上面的聚類結(jié)果分析可以看出,機器學(xué)習(xí)的情感分析方法分為兩大類,一類是傳統(tǒng)的機器學(xué)習(xí)方法,該方法以情感詞典為依托,采用機器學(xué)習(xí)的算法進行情感分類,從而確定文本情感極性,該方法研究成果眾多。另外一類是基于神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)方法,相關(guān)的研究成果也呈逐年遞增的趨勢。
3.2.1 傳統(tǒng)的機器學(xué)習(xí)方法
傳統(tǒng)的機器學(xué)習(xí)方法分為無監(jiān)督的機器學(xué)習(xí)方法和有監(jiān)督的機器學(xué)習(xí)方法。
無監(jiān)督機器學(xué)習(xí)最常見的方法是計算整篇文檔的正向關(guān)聯(lián)度和負向關(guān)聯(lián)度,用兩者的差值判斷整篇文檔的情感極性。這種方法過分依賴于情感詞的選擇及語料測評的領(lǐng)域范圍,正確率較低。李勇敢等[21]在2013年采用中文依存句法分析的方法,并對依存分析的結(jié)果進行剪枝和歸并,再利用一些規(guī)則進行情感詞的抽取和極性判斷,在一定程度上克服了分詞系統(tǒng)簡單的分詞而造成情感極性判斷差錯。隨后在依存句法分析的基礎(chǔ)上,提出了一種基于規(guī)則和統(tǒng)計的新詞識別方法[22],在情感詞和評價對象的依存模式的基礎(chǔ)上給出基于詞語特征的觀點句識別算法,實現(xiàn)中文微博情感傾向性自動分類,并給出觀點句識別的算法。
有監(jiān)督的機器學(xué)習(xí)方法首先根據(jù)情感詞典進行文本特征標(biāo)注,然后采用機器學(xué)習(xí)方法對已標(biāo)注的訓(xùn)練數(shù)據(jù)訓(xùn)練出一個較好的模型,再利用模型預(yù)測文本的情感極性。所采用的機器學(xué)習(xí)算法主要有樸素貝葉斯(Naive Bayes,NB)方法、基于最大熵(Maximum Entropy,ME)方法、基于支持向量機(SVM)方法等。從關(guān)鍵詞詞頻可以看出,支持向量機詞頻為27,樸素貝葉斯為6,可見,SVM方法是學(xué)者們首選的機器學(xué)習(xí)算法,相關(guān)的研究成果較多[36-38]。由于文本包含詞、詞性、情感詞、否定詞和程度副詞等特征,通過詞的不同特征組合來進行情感分析效果更好,將SVM和CRF多特征組合用于微博情感分析,正確率較高[39-41]。
3.2.2 基于深度學(xué)習(xí)的情感分類技術(shù)
深度學(xué)習(xí)通過對數(shù)據(jù)進行多層級的建模來獲得關(guān)于數(shù)據(jù)特征的層次結(jié)構(gòu)以及數(shù)據(jù)的分布式表示。隨著深度學(xué)習(xí)技術(shù)在計算機視覺和語音識別領(lǐng)域的成功應(yīng)用,越來越多的深度學(xué)習(xí)技術(shù)被應(yīng)用于自然語言的處理,循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中影響力較大的神經(jīng)網(wǎng)絡(luò)算法。研究人員模擬人類的神經(jīng)元對文本進行情感理解,從而得出文本情感極性及情感強度等特征。
在循環(huán)神經(jīng)網(wǎng)絡(luò)方面,Mikolov T等[42]在2010年使用循環(huán)神經(jīng)網(wǎng)絡(luò)處理上下文語言信息。F Morin等[43]提出了LSTM(Long Short-Term Memory長短時記憶)型循環(huán)神經(jīng)網(wǎng)絡(luò),很好地解決了梯度膨脹和遺失問題。Socher R等[44]采用構(gòu)建在句法分析樹上的循環(huán)神經(jīng)網(wǎng)絡(luò)對電影評論文本進行情感極性判別。梁軍等[45]將LSTM型神經(jīng)網(wǎng)絡(luò)從鏈?zhǔn)浇Y(jié)構(gòu)擴展到基于樹形結(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)上,用于捕獲文本更深層次的語義語法信息,并根據(jù)前后語句的關(guān)聯(lián)性引入情感極性轉(zhuǎn)移模型,實踐證明,該模型性能較好。李天辰等[46]針對網(wǎng)絡(luò)文本主題分散的特點,先對文本主題進行聚類,然后在每個子類上應(yīng)用循環(huán)神經(jīng)網(wǎng)絡(luò),對正負情感樣本分別建立主題模型,最后基于所屬主題和所屬情感的概率極性聯(lián)合判斷,這種先通過主題聚類再進行分析的方法使得文本情感分類的準(zhǔn)確性得到顯著提高。郝志峰等[47]利用雙向RNN構(gòu)建基于序列標(biāo)注的細粒度意見分析模型,通過融合文本的詞向量、詞性和依存關(guān)系等語言學(xué)特征,學(xué)習(xí)文本的修飾和語義信息,并設(shè)計一個時間序列標(biāo)注模型,同時抽取屬性并判斷文本的情感極性。胡榮磊等[48]將LSTM和前饋注意力模型相結(jié)合,并在Tensorflow深度學(xué)習(xí)框架下實現(xiàn)了方案,根據(jù)準(zhǔn)確率、召回率和F1測度等指標(biāo)與現(xiàn)有方案的對比,該方案有明顯的優(yōu)勢。
Kim Y[49]在2014年將卷積神經(jīng)網(wǎng)絡(luò)從圖像領(lǐng)域引入到自然語言處理領(lǐng)域,通過文本向量化處理文本情感分析,取得了較好的效果,國內(nèi)不少學(xué)者在神經(jīng)網(wǎng)絡(luò)分析方面也取得了一定進展。陳釗等[50]提出了一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和情感計算資源的中文文本情感分析方法,先根據(jù)詞典資源的抽象表達式來分析詞語的屬性特征,并將詞語的情感極性和詞性特征應(yīng)用到文本特征表示,再利用卷積神經(jīng)網(wǎng)絡(luò)提取與文本表達式相關(guān)的序列特征作為文本特征向量進行情感分析,該方法比主流卷積神經(jīng)網(wǎng)絡(luò)有更好的性能。杜昌順等[51]針對傳統(tǒng)的卷積神經(jīng)模型沒有考慮句子的結(jié)構(gòu)信息,采用分段池化策略將句子結(jié)構(gòu)考慮進來,分段提取句子不同結(jié)構(gòu)的主要特征,并且引入Dropout算法以避免模型的過擬合和提升泛化能力。還有不少學(xué)者將注意力機制應(yīng)用到卷積神經(jīng)網(wǎng)絡(luò)[52-54],實踐證明,兩者的結(jié)合在文本情感分析上效果顯著。針對單通道卷積神經(jīng)網(wǎng)絡(luò)視覺單一、不能充分學(xué)習(xí)到文本特征信息的問題,李平等[55]提出雙通道卷積神經(jīng)網(wǎng)絡(luò)算法,一個通道為字向量,另一個為詞向量,利用細粒度的字向量輔助詞向量捕捉深層次的語義信息;陳珂等[56]提出一種基于多通道卷積神經(jīng)網(wǎng)絡(luò)的中文微博情感分析模型,該模型通過將不同特征信息結(jié)合形成不同的網(wǎng)絡(luò)輸入通道,從而可以從多方面的特征表示來學(xué)習(xí)輸入句子的情感信息。
以上研究主要是對文本的情感分析,有時圖片與文字融合能更充分地揭示用戶情感,同時不同背景的用戶均能容易地理解圖文的內(nèi)容和情感。蔡國永等[57]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的圖文融合媒體的情感分析方法,融合圖像特征與3個不同級別(詞語、短語、句子級)的文本特征構(gòu)建卷積網(wǎng)絡(luò)神經(jīng)模型,以分析比較不同層次的語義特征對情感預(yù)測的影響。鄧佩等[58]提出了一種基于轉(zhuǎn)移變量的圖文融合微博情感分析方法,該方法能更準(zhǔn)確地預(yù)測微博情感傾向。
可見,深度學(xué)習(xí)分析文本情感中神經(jīng)網(wǎng)絡(luò)模型占據(jù)重要地位,在模型的構(gòu)造和應(yīng)用的研究中已初見成效,未來還需要在情感分析的準(zhǔn)確性方面對算法進行改進與優(yōu)化。
4 結(jié)束語
伴隨著互聯(lián)網(wǎng)中數(shù)據(jù)量的劇增,文本情感分析對于客戶體驗、市場研究、數(shù)字分析和媒體測評等變得越來越重要。本文采用共詞分析方法,對文獻高頻關(guān)鍵詞進行統(tǒng)計分析,從不同層面分析“文本情感分析”,得出結(jié)論如下:
1)系統(tǒng)聚類分析和多維尺度分析顯示,文本情感分析過程中形成了情感詞典、機器學(xué)習(xí)、深度學(xué)習(xí)三大類群體,且無論是傳統(tǒng)的機器學(xué)習(xí)方法還是深度學(xué)習(xí)方法都與情感詞典情感分析方法存在一定的聯(lián)系,說明無論采用什么情感分析技術(shù),都離不開現(xiàn)有的語料庫,都以情感詞典為依托采用機器學(xué)習(xí)的方法進行情感分析。所以未來情感詞典的完善、特別是領(lǐng)域詞典,依然是一個需要不斷深入與細化的研究課題。
2)由于機器學(xué)習(xí)方法效率很大程度上依賴于所提取的文本特征,比如詞袋模型特征、n-gram模型特征都面臨數(shù)據(jù)稀疏及維數(shù)災(zāi)難等問題,因而近兩年在“文本情感分析”機器學(xué)習(xí)方法呈現(xiàn)向深度學(xué)習(xí)方法轉(zhuǎn)移的趨勢。其中神經(jīng)網(wǎng)絡(luò)是最常用的深度學(xué)習(xí)方法。神經(jīng)網(wǎng)絡(luò)模型可以對純文本、圖文融合文本進行情感分析,分類準(zhǔn)確率較高。下一步的研究重點應(yīng)放在增強模型的魯棒性方面,以適應(yīng)不同長度和語言的文本。
參考文獻
[1]馬曉玲,金碧漪,范并思.中文文本情感傾向分析研究[J].情報資料工作,2013,(1):52-56.
[2]擁措,史曉東,尼瑪扎西.短文本情感分析的研究現(xiàn)狀——從社交媒體到資源稀缺語言[J].計算機科學(xué),2018,45(S1):46-49,68.
[3]劉巖.基于共詞分析的國內(nèi)智慧圖書館研究探析[J].圖書館學(xué)研究,2018,(18):9-14.
[4]葉強,張紫瓊,羅振雄.面向互聯(lián)網(wǎng)評論情感分析的中文主觀性自動判別方法研究[J].信息系統(tǒng)學(xué)報,2007,(1):79-91.
[5]夏德元,寧傳林.“一帶一路”新聞傳播問題研究現(xiàn)狀及熱點分析[J].新聞與傳播研究,2018,(1):32-36.
[6]杜嘉忠,徐健,劉穎.網(wǎng)絡(luò)商品評論的特征-情感詞本體構(gòu)建與情感分析方法研究[J].現(xiàn)代圖書情報技術(shù),2014,(5):74-82.
[7]徐勇,張慧,陳亮.一種基于情感分析的UGC模糊綜合評價方法——以淘寶商品文本評論UGC為例[J].情報理論與實踐,2016,39(6):64-69.
[8]王仁武,宋家怡,陳川寶.基于Word2vec的情感分析在品牌認知中的應(yīng)用研究[J].圖書情報工作,2017,61(22):6-12.
[9]陳國蘭.基于情感詞典與語義規(guī)則的微博情感分析[J].情報探索,2016,(2):1-6.
[10]周瑛,劉越,蔡俊.基于注意力機制的微博情感分析[J].情報理論與實踐,2018,41(3):89-94.
[11]劉雯,高峰,洪凌子.基于情感分析的災(zāi)害網(wǎng)絡(luò)輿情研究——以雅安地震為例[J].圖書情報工作,2013,57(20):104-110.
[12]王波.基于跨領(lǐng)域知識的基金評論情感分析[J].情報雜志,2011,30(2):44-47.
[13]王波,郭曉軍.基于情感分析的網(wǎng)絡(luò)財經(jīng)媒體通貨膨脹預(yù)期研究[J].圖書情報工作,2011,55(16):140-143,90.
[14]王洪偉,張對,鄭麗娟,等.網(wǎng)絡(luò)股評對股市走勢的影響:基于文本情感分析的方法[J].情報學(xué)報,2015,34(11):1190-1202.
[15]李旭,于衛(wèi)紅.基于情感分析和關(guān)系網(wǎng)絡(luò)的影視產(chǎn)品評論數(shù)據(jù)文本挖掘研究[J].情報探索,2018,(4):1-5.
[16]鄭飏飏,徐健,肖卓.情感分析及可視化方法在網(wǎng)絡(luò)視頻彈幕數(shù)據(jù)分析中的應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2015,(11):82-90.
[17]陽愛民,周詠梅,周劍峰.中文微博語料情感類別自動標(biāo)注方法[J].計算機應(yīng)用,2014,34(8):2188-2191.
[18]周詠梅,王偉,陽愛民,等.一種基于特征簇的微博短文本情感分類方法[J].小型微型計算機系統(tǒng),2016,37(12):2713-2716.
[19]樊娜,安毅生,李慧賢.基于K-近鄰算法的文本情感分析方法研究[J].計算機工程與設(shè)計,2012,33(3):1160-1164.
[20]秦鋒,王恒,鄭嘯,等.基于上下文語境的微博情感分析[J].計算機工程,2017,43(3):241-246,252.
[21]鄭嘯,王義真,袁志祥,等.基于卷積記憶神經(jīng)網(wǎng)絡(luò)的微博短文本情感分析[J].電子測量與儀器學(xué)報,2018,32(3):195-200.
[22]謝鐵,鄭嘯,張雷,等.基于并行化遞歸神經(jīng)網(wǎng)絡(luò)的中文短文本情感分類[J].計算機應(yīng)用與軟件,2017,34(3):205-211,232.
[23]王勇,呂學(xué)強,姬連春,等.基于極性詞典的中文微博客情感分類[J].計算機應(yīng)用與軟件,2014,31(1):34-37,126.
[24]王文遠,王大玲,馮時,等.一種面向情感分析的微博表情情感詞典構(gòu)建及應(yīng)用[J].計算機與數(shù)字工程,2012,40(11):6-9.
[25]高琰,陳白帆,晁旭耀,等.基于對比散度-受限玻爾茲曼機深度學(xué)習(xí)的產(chǎn)品評論情感分析[J].計算機應(yīng)用,2016,36(4):1045-1049.
[26]劉續(xù)樂,何炎祥.基于多特征的微博情感分析研究[J].計算機工程,2017,43(12):160-164,172.
[27]周詠梅,陽愛民,林江豪.中文微博情感詞典構(gòu)建方法[J].山東大學(xué)學(xué)報:工學(xué)版,2014,44(3):36-40.
[28]周詠梅,楊佳能,陽愛民.面向文本情感分析的中文情感詞典構(gòu)建方法[J].山東大學(xué)學(xué)報:工學(xué)版,2013,43(6):27-33.
[29]李勇敢,周學(xué)廣,孫艷,等.結(jié)合依存關(guān)聯(lián)分析和規(guī)則統(tǒng)計分析的情感詞庫構(gòu)建方法[J].武漢大學(xué)學(xué)報:理學(xué)版,2013,59(5):491-498.
[30]李勇敢,周學(xué)廣,孫艷,等.基于依存分析和無監(jiān)督主題情感模型的中文微博情感分析研究與實現(xiàn)[J].軟件學(xué)報,2017,28(7):1-19.
[31]李勇敢,周學(xué)廣,孫艷,等.中文微博情感分析研究與實現(xiàn)[J].軟件學(xué)報,2017,28(12):3183-3205.
[32]樊娜,安毅生.基于語義分割的文本觀點傾向分析方法研究[J].計算機工程與應(yīng)用,2012,48(5):12-14,18.
[33]汪曼.國內(nèi)社會網(wǎng)絡(luò)分析應(yīng)用現(xiàn)狀研究[J].情報工程,2016,(5):75-85.
[34]陸慧雯.基于共詞分析的我國近十年行業(yè)與戰(zhàn)略情報研究[J].情報科學(xué),2016,(5):169-173.
[35]王科.情感詞典自動構(gòu)建方法綜述[J].自動化學(xué)報,2016,46(4):495-510.
[36]陽林.情感詞權(quán)值研究及在情感極性分析中的應(yīng)用[J].計算機應(yīng)用,2015,35(S2):125-127.
[37]陽愛民,林江豪,周詠梅.中文文本情感詞典構(gòu)建方法[J].計算機科學(xué)與探索,2013,7(11):1033-1039.
[38]楊經(jīng),林世平.基于SVM的文本詞句情感分析[J].計算機應(yīng)用與軟件,2011,28(9):225-228.
[39]唐曉波,嚴(yán)承希.基于旋進原則和支持向量機的文本情感分析研究[J].情報理論與實踐,2013,36(1):98-103,93.
[40]李婷婷,姬東鴻.基于SVM和CRF多特征組合的微博情感分析[J].計算機應(yīng)用研究,2015,32(4):978-981.
[41]黃發(fā)良,馮時,王大玲,等.基于多特征融合的微博主題情感挖掘[J].計算機學(xué)報,2017,40(4):872-888.
[42]Mikolov T,Karafiát M,Burget L.Recurrent Neural Network Based Language Model[C]//Proceedings of the 11th Annual Conference of the International Speech Comunication Association,2010:1045-1048.
[43]F Morin,Y Bengio.Hierarchical Probabilistic Neural Network Language Model[C]//The 8st International Conference on Artificial Intelligence and Statistics(AISTATS),2005.
[44]Socher R,Perelygin A,Wu J Y,et al.Recursive Deep Models for Semantic Compositionality Over a Senti-ment Treebank[C]//Proceedings of the EMNLP,2013:1631-1642.
[45]梁軍,柴玉梅,原慧斌,等.基于極性轉(zhuǎn)移和LSTM遞歸網(wǎng)絡(luò)的情感分析[J].中文信息學(xué)報,2015,29(5):152-159.
[46]李天辰,殷建平.基于主題聚類的情感極性判別方法[J].計算機科學(xué)與探索,2016,10(7):989-994.
[47]郝志峰,黃浩,蔡瑞初,等.基于多特征融合與雙向RNN的細粒度意見分析模型[J].計算機工程,2018,44(7):199-204,211.
[48]胡榮磊,芮璐,齊筱,等. 基于循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力模型的文本情感分析[J/OL].2019,36(11).http://www.arocmag.com/article/02-2019-11-025.html,2018-08-10.
[49]Kim Y.Convolutional Neural Networks for Sentence Classification[C]//Proceedings of the EMNLP,2014:1746-1751.
[50]陳釗,徐睿峰,桂林,等.結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和詞語情感序列特征的中文情感分析[J].中文信息學(xué)報,2015,29(6):172-178.
[51]杜昌順,黃磊.分段卷積神經(jīng)網(wǎng)絡(luò)在文本情感分析中的應(yīng)用[J].計算機工程與科學(xué),2017,39(1):173-179.
[52]梁斌,劉全,徐進,等.基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標(biāo)情感分析[J].計算機研究與發(fā)展,2017,54(8):1724-1735.
[53]馮興杰,張志偉,史金釧.基于卷積神經(jīng)網(wǎng)絡(luò)和注意力模型的文本情感分析[J].計算機應(yīng)用研究,2018,35(5):1434-1436.
[54]王文凱,王黎明,柴玉梅.基于卷積神經(jīng)網(wǎng)絡(luò)和Tree-LSTM的微博情感分析[J/OL].2019,36(5).http://www.arocmag.com/article/02-2019-05-007.html,2018-03-09.
[55]李平,戴月明,吳定會.雙通道卷積神經(jīng)網(wǎng)絡(luò)在文本情感分析中的應(yīng)用[J].計算機應(yīng)用,2018,38(6):1542-1546.
[56]陳珂,梁斌,柯文德,等.基于多通道卷積神經(jīng)網(wǎng)絡(luò)的中文微博情感分析[J].計算機研究與發(fā)展,2018,55(5):945-957.
[57]蔡國永,夏彬彬.基于卷積神經(jīng)網(wǎng)絡(luò)的圖文融合媒體情感預(yù)測[J].計算機應(yīng)用,2016,36(2):428-431,477.
[58]鄧佩,譚長庚.基于轉(zhuǎn)移變量的圖文融合微博情感分析[J].計算機應(yīng)用研究,2018,35(7):2038-2041.
(責(zé)任編輯:孫國雷)