張冠東, 楊琛, 詹曉琳, 方紅, 王繼芬
(1. 上海第二工業(yè)大學(xué) 文理學(xué)部, 上海 201209; 2. 武漢大學(xué) 經(jīng)濟與管理學(xué)院, 湖北 武漢 430072)
在大數(shù)據(jù)時代,人們依靠大量的數(shù)據(jù)來發(fā)現(xiàn)事物的規(guī)律和本質(zhì)。隨著科技的發(fā)展,數(shù)據(jù)分析已經(jīng)越來越離不開計算機的支持。在所有現(xiàn)有的數(shù)據(jù)類型中,文本數(shù)據(jù)是最普遍存在也是最容易獲得的數(shù)據(jù)。因此,文本數(shù)據(jù)分析已經(jīng)逐漸成為數(shù)據(jù)分析領(lǐng)域一個重要的研究方向。在中文的文本分析領(lǐng)域中,研究方向有很多,包括文本分類、文本排序、情感識別等。在這些研究方向上,文本的情感識別是一個比較熱門的研究方向,因為它能夠迅速識別所研究的目標(biāo)文本,為后續(xù)的深入分析打下基礎(chǔ)。這是因為目前微信、微博和各種社交媒體已經(jīng)成為公眾關(guān)注社會狀況的一種重要途徑。在這些社交媒體中,文字或者文本表述是它們主要的表現(xiàn)形式。由于中文詞匯豐富,由中文所組成的文本語句能夠用于表達作者的情感、觀點等信息,因此這些文字信息能夠讓讀者了解作者的意圖和想法。因此我們可以通過對文字所包含的褒貶信息進行判斷,推測出作者的意圖從而了解作者的喜好。
先前的文本語句褒貶研究是依托于詞匯的褒貶進行的,這種研究適用于詞匯的褒貶意義,但是對于文本整體而言,無法根據(jù)褒義或者貶義詞匯的多少來判斷該文本是褒義還是貶義的意思。此外,如果僅僅是計算褒貶詞匯之間的比例,也會因為忽略文本整體的信息量而使得研究結(jié)果缺乏一定的價值。由于信息熵(Information Entropy)具有檢驗整體信息量的功能,因此我們可以利用其對整體信息質(zhì)量進行檢測的方法來檢驗。
情感分析也被稱為具有感情色彩的傾向性數(shù)據(jù)挖掘,它是對用戶所發(fā)表的言論、評價、觀點等一系列文字內(nèi)容進行識別,找出用戶的觀點傾向。文本的情感分析可以從詞語、句子和段落方面來研究。然而,詞語的情感分析則太微小,因為畢竟詞匯的情感因素?zé)o法反映出整體語句的情感傾向;段落的情感分析則太寬,因為有些段落文字太多太長,所以我們只能從一大段語句中粗略看出情感的整體傾向。由此,語句的情感分析能幫助我們了解一個句子的情感傾向,從而看出作者的情感變化狀況。由于文本的情感分析也是屬于文本分析的范疇,所以我們采用文本分析的研究方法來做文本的情感分析。目前,有很多研究方法被用于對文本做系統(tǒng)性的分析,例如LDA、Topic Modeling、Information Entropy等。在這些方法中,信息熵是一種高效且先進的分析方法,它結(jié)合了概率的理念從整體的角度來檢測所包含的某些信息的質(zhì)量。對于文本分析而言,當(dāng)某一類特定的文本信息越多,那么說明這種文本所代表的意義被傳播得越廣泛,表達得越豐富。
在國內(nèi),李圣文等[1]采用熵的方法來檢測文本之間的相似程度,他們通過對公共字符串相似性的研究使得文本的相似度統(tǒng)計的精確度比傳統(tǒng)的分析方法更好。齊園和王琴[2]采用熵權(quán)TOPSIS法對獲取的國家和地方裝配式建筑配套政策的文本數(shù)據(jù)進行了分析研究,并以此對我國的相關(guān)政策和發(fā)展提出了相應(yīng)的建議。李輝等[3]則針對網(wǎng)頁中缺失的評價信息對網(wǎng)頁內(nèi)容推薦結(jié)果的影響做了分析研究,他們的研究通過利用特征詞及其相關(guān)權(quán)重計算出文本信息熵和最鄰近熵差得出推薦值進行文本推薦,從而提高了推薦算法的準(zhǔn)確性。黃文明和孫艷秋[4]利用最大熵的理念對社交媒體的評論文本進行情感分析,該研究利用有限擬牛頓平滑算法對情感分析的模型加以優(yōu)化,通過以關(guān)鍵字為劃分的評論數(shù)據(jù)集上的對比試驗驗證了模型的有效性。陳科文等[5]使用文本特征的詞的權(quán)重提出了一種基于支持向量機(Support Vector Machine,SVM)的 LTF-ECDP(Logarithmic Term Frequency & Entropy-based Class Distinguishing Power)方法,該方法不但使得文本分類更加準(zhǔn)確而且不會因為數(shù)據(jù)集的變化而性能不穩(wěn)定。
除了國內(nèi)的文本研究以外,國外的科研工作者也熱衷于文本信息的分析和研究。Maryam和Ali[6]提出了用Tsallis信息熵來對文本按照某種主題進行排序,他們通過應(yīng)用統(tǒng)計理論和概念設(shè)計出一種詞排序矩陣從文檔中來抽取關(guān)鍵詞,其實驗結(jié)果表明Tsallis熵優(yōu)于其他一些文本排序方法。Olga等[7]對阿拉伯新聞報紙中語言意思的變化做了研究,他們的研究在基于詞嵌入和詞統(tǒng)計過程的基礎(chǔ)上對出版的傳統(tǒng)媒體提出了一種動態(tài)的模式判斷方法,其實驗表明該方法能夠抓住文本語言信息中的顯著變化。Vashishtha和Seba[8]將模糊熵(Fuzzy Entropy)和K均值聚類算法(K-means)相結(jié)合對文本語句中的情感元素進行分析,該方法以電影評論為數(shù)據(jù)資料,通過檢驗發(fā)現(xiàn),該方法具有較高的準(zhǔn)確率。
在本研究中,我們將基于信息熵的理念,提出一種新穎的情感傾向分析模型——比例信息熵模型,該模型將褒貶意詞匯的比例和信息熵相結(jié)合來分析文本語句的整體情感傾向。首先,計算出詞匯的褒貶意傾向;然后,通過比例信息熵得出文本語句的褒貶傾向;最后,用公共文本數(shù)據(jù)庫來驗證模型的效果。
熵是由Shannon[9]所提出的,最初起源于熱力學(xué),它是一個用于描述分子狀態(tài)混亂程度的熱力學(xué)物理量。Shannon指的熵主要是用于描述各種信息的不確定程度。因此,熵可用來檢測信息包含量或者是信息質(zhì)量的優(yōu)劣程度。根據(jù)Shannon所介紹的,其計算式可以表達為式(1)。
(1)
其中,Pi為某信息在整個文本中所占的比重(0 (2) 本研究的研究對象是中文語句,所使用的中文數(shù)據(jù)集名為Chinese conversation sentiment master(該數(shù)據(jù)發(fā)布于https://github.com/z17176/Chinese_conversation_sentiment)。該數(shù)據(jù)集作為公共中文數(shù)據(jù)已經(jīng)被用于情感分析[10]。在該數(shù)據(jù)集中,中文語句的詞匯已經(jīng)做了分割,并且已經(jīng)預(yù)設(shè)了語句的褒貶含義。 在模型的比較過程中,一般需要采用較為公認的檢驗標(biāo)準(zhǔn)來檢測模型運行效果的優(yōu)劣。在文本研究過程中,一般采用褒貶精準(zhǔn)率、查全率、查準(zhǔn)率和F檢測值來評價文本模型的準(zhǔn)確程度,因為這些檢測指標(biāo)能夠有效評估分類的效果和結(jié)果的精確程度,但是由于查準(zhǔn)率在一般情況下是隨著查全率的降低而增加的[11]。因此,為了能提高對實驗結(jié)果的評估效果,本研究采用褒貶精準(zhǔn)率和F值來評價模型的表現(xiàn)。 褒貶精準(zhǔn)率(Commendatory and Derogatory Accuracy,CDAcc)描述的是由模型得出的褒貶語句和真實褒貶語句所匹配的數(shù)量與總的語句數(shù)量之間的比例,其檢驗式如式(3)。 (3) 其中,n表示由模型得出的褒貶語句和真實褒貶語句所匹配的數(shù)量;N表示總的語句數(shù)量。 F檢測值也是由實驗結(jié)果和原始數(shù)據(jù)的比較所構(gòu)成的,在計算該指標(biāo)之前,根據(jù)曾凡鋒等[11]所述,需要預(yù)先定義褒貶判斷模式,如表1所示。 表1 褒貶模式定義 根據(jù)表1,F(xiàn)-Score的檢驗式如式(4)。 (4) 由于SnowNLP庫已經(jīng)被前期的研究者所使用來分析詞匯的情感含義[12],該庫能夠區(qū)分詞匯含義的積極或消極觀點。因此在本研究中,我們先使用SnowNLP庫來判斷中文詞匯的褒貶,再使用比例信息熵來驗證整個語句的褒貶,同時我們選擇目前流行的熵:香農(nóng)熵(Shannon Entropy,SE);模糊熵(Fuzzy Entropy,F(xiàn)E);Tsallis熵(Tsallis Entropy,TE))來做對比,其流程示意圖如圖1所示。 圖1 語句褒貶流程圖 對于同一批中文文本數(shù)據(jù)而言,不同的熵會計算出不同的褒貶結(jié)果,從而做出不同的判斷。由于本研究所采用的公共數(shù)據(jù)集中已經(jīng)對每個語句有了褒貶的判斷,因此我們將用以上4種方法對該數(shù)據(jù)集進行分析計算并比較計算結(jié)果的準(zhǔn)確性。我們將分別選取該數(shù)據(jù)集中的前幾千條數(shù)據(jù)進行整體語句的褒貶分析,其褒貶精準(zhǔn)率和F檢測值的測試結(jié)果如表2、表3所示。 表2 褒貶精準(zhǔn)率 表3 F檢測值 從上述對比結(jié)果,我們發(fā)現(xiàn)比例信息熵對公共數(shù)據(jù)集分析結(jié)果的褒貶精準(zhǔn)率和F檢測值都分別要高于其他信息熵,對此我們還從準(zhǔn)確率提升百分比的角度出發(fā)對上述的分析結(jié)果進行研究,如表4、表5所示。 表4 平均褒貶精準(zhǔn)率提升百分比 表5 平均F檢測值提升百分比 雖然表2和表3已經(jīng)表明比例信息熵比其他所選的信息熵在文本語句整體褒貶檢測方面的效果都要優(yōu)越,但是表4和表5從優(yōu)越性的提升百分比角度出發(fā)說明了比例信息熵的檢測效果較其他所選的熵模型更加理想。 語句的褒貶含義和單個詞匯的褒貶含義有所不同,單個詞匯的褒貶含義不能真實地反映出整個語句的褒貶含義,而整個語句的褒貶含義能夠更加真實地反映出作者的觀點和態(tài)度,因此我們有必要去研究整個語句的褒貶意義。本文所提出的比例信息熵,從褒義詞匯的整體信息質(zhì)量和貶義詞匯的整體信息質(zhì)量出發(fā)來研究文本語句整體的褒貶含義。和其他所選的信息熵相比,該比例信息熵在公共數(shù)據(jù)集的測試中具有更高的準(zhǔn)確性,這說明該模型能夠更好地判斷中文語句整體的褒貶含義。3 數(shù)據(jù)來源
4 檢驗標(biāo)準(zhǔn)
4.1 褒貶精準(zhǔn)率
4.2 F檢測值
5 實例分析
6 總結(jié)