• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      卷積神經(jīng)網(wǎng)絡(luò)在短文本情感多分類(lèi)標(biāo)注應(yīng)用

      2018-11-17 02:50:32周錦峰葉施仁
      關(guān)鍵詞:正確率短語(yǔ)語(yǔ)義

      周錦峰,葉施仁,王 暉

      常州大學(xué) 信息科學(xué)與工程學(xué)院,江蘇 常州 213164

      1 引言

      隨著即時(shí)通訊技術(shù)的廣泛應(yīng)用,互聯(lián)網(wǎng)用戶(hù)不再只是簡(jiǎn)單的信息獲取者,同時(shí)成為信息制造者。社交媒體的快速發(fā)展,加速了用戶(hù)的這種身份轉(zhuǎn)變,并形成了以短文本為書(shū)寫(xiě)特點(diǎn)的用戶(hù)信息表達(dá)方式。例如,在電商平臺(tái)發(fā)表對(duì)已購(gòu)商品的點(diǎn)評(píng);在微博上發(fā)表對(duì)時(shí)事的看法。每天數(shù)以?xún)|計(jì)的用戶(hù)短文本信息,包含了豐富的用戶(hù)觀點(diǎn)和情感極性,從中可以挖掘和分析出大量的知識(shí)和模式。自然地,機(jī)器學(xué)習(xí)方法可以用來(lái)解決這類(lèi)情感分析問(wèn)題。而這些社會(huì)媒體文本長(zhǎng)度短、表達(dá)不規(guī)范、數(shù)量多的特點(diǎn),導(dǎo)致傳統(tǒng)機(jī)器學(xué)習(xí)方法面臨樣本特征表達(dá)稀疏[1]、計(jì)算復(fù)雜等問(wèn)題,不能獲得非常理想的結(jié)果。

      深度學(xué)習(xí)給經(jīng)典的數(shù)據(jù)挖掘任務(wù)提供了新的手段。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一種用來(lái)處理具有網(wǎng)狀拓?fù)浣Y(jié)構(gòu)數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)。CNN通過(guò)卷積操作,組合低層特征形成更加抽象的高層特征[2],使模型能夠針對(duì)目標(biāo)問(wèn)題,自動(dòng)學(xué)習(xí)良好的特征。CNN在文本情感分類(lèi)問(wèn)題中的應(yīng)用,能夠有效地避免傳統(tǒng)機(jī)器學(xué)習(xí)方法所面臨的問(wèn)題[3]。

      目前,以CNN為基礎(chǔ)的文本情感分類(lèi)方法廣泛利用文本局部最大語(yǔ)義進(jìn)行情感劃分。此類(lèi)方法在解決文本情感二分類(lèi)標(biāo)注問(wèn)題中已取得良好的效果。人類(lèi)的情感是復(fù)雜的,不是簡(jiǎn)單的正負(fù)極性可以描述,帶來(lái)了處理多分類(lèi)標(biāo)注、連續(xù)情感計(jì)算等問(wèn)題[4]。把情感二分類(lèi)問(wèn)題的深度學(xué)習(xí)方法推廣到情感多分類(lèi)問(wèn)題后,以單一窗口提取局部語(yǔ)義特征和僅保留文本最大語(yǔ)義的方法會(huì)忽略語(yǔ)義距離依賴(lài)性和語(yǔ)義多層次性[5],將導(dǎo)致分類(lèi)能力急劇下降。

      針對(duì)網(wǎng)絡(luò)短文本的情感多分類(lèi)標(biāo)注任務(wù),本文提出一種新的多窗口多池化層的卷積神經(jīng)網(wǎng)絡(luò)(multiwindows and multi-pooling Convolutional Neural Network,mwmpCNN)模型來(lái)解決其中的語(yǔ)義距離依賴(lài)性和語(yǔ)義多層次性問(wèn)題。該模型使用多個(gè)并行的卷積層提取不同窗口大小的上下文局部語(yǔ)義。局部語(yǔ)義表示向量經(jīng)過(guò)模型的多個(gè)并行的池化層,降低特征維度的同時(shí)提取短文本中不同層次的語(yǔ)義特征。由不同層次的語(yǔ)義特征構(gòu)成文本特征向量,最后在模型的全連接層利用文本特征向量實(shí)現(xiàn)多分類(lèi)標(biāo)注。

      本文采用斯坦福情感樹(shù)庫(kù)(Stanford Sentiment Treebank,SSTb)數(shù)據(jù)集來(lái)驗(yàn)證mwmpCNN模型的多分類(lèi)標(biāo)注的有效性。實(shí)驗(yàn)結(jié)果表明:在訓(xùn)練集包含短語(yǔ)和未包含短語(yǔ)的兩種設(shè)定條件下,基于本文模型的短文本情感多分類(lèi)正確率分別達(dá)到54.6%和43.5%,顯著高于報(bào)道的學(xué)習(xí)方法。

      2 相關(guān)工作

      2002年的EMNLP會(huì)議上,Pang等[6]首次提出情感分析問(wèn)題,并采用了樸素貝葉斯模型、最大熵模型和支持向量機(jī)(Support Vector Machine,SVM)模型三種傳統(tǒng)機(jī)器學(xué)習(xí)方法嘗試對(duì)文本進(jìn)行情感分類(lèi)。此后,以傳統(tǒng)機(jī)器學(xué)習(xí)為核心的情感分析模型層出不窮。為提高分類(lèi)正確率,傳統(tǒng)機(jī)器學(xué)習(xí)方法使用大量文本特征。隨著特征變多,訓(xùn)練樣本在每個(gè)特征上的描述會(huì)變得稀疏,機(jī)器學(xué)習(xí)的計(jì)算復(fù)雜性成倍增加。當(dāng)然,文本特征需要人工來(lái)構(gòu)造,特征越多,人工成本越大。

      2003年,Bengio等[7]提出了分布式表達(dá)詞向量概念,從大量未標(biāo)注的語(yǔ)料庫(kù)中無(wú)監(jiān)督地學(xué)習(xí)出詞向量,使得相關(guān)或相似的詞在向量空間中表示接近。由詞向量序列可以構(gòu)成文本的原始表示形式。分布式表達(dá)詞向量的出現(xiàn)有效解決了DNN的輸入部分對(duì)人工的依賴(lài),并推動(dòng)了DNN發(fā)展出新模型應(yīng)用于文本情感分類(lèi)問(wèn)題。Socher等[8]在遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)模型的基礎(chǔ)上,提出了RNTN(Recursive Neural Tensor Network)模型。已知樣本的語(yǔ)法解析樹(shù),RNTN模型在樹(shù)中每個(gè)結(jié)點(diǎn)上運(yùn)用基于張量的復(fù)合函數(shù),逐層提取各級(jí)短語(yǔ)和句子的合成語(yǔ)義,然后基于合成語(yǔ)義進(jìn)行情感二分類(lèi)和多分類(lèi)標(biāo)注。RNTN模型過(guò)于依賴(lài)句子的語(yǔ)法解析樹(shù),應(yīng)用范圍受限。Santos等[9]基于單詞的構(gòu)造(以構(gòu)成單詞的字母為單位),提出CharSCNN(Character to Sentence Convolutional Neural Network)模型。CharSCNN模型以CNN為基礎(chǔ),采用兩個(gè)卷積層分別學(xué)習(xí)單詞的構(gòu)造特征和句子的語(yǔ)義特征,充分體現(xiàn)CNN對(duì)文本局部特征抽象和提取能力。該模型在短文本情感二分類(lèi)任務(wù)中展示了良好的效果。

      盡管二分類(lèi)效果良好,但是CharSCNN模型在特征提取過(guò)程中忽略了語(yǔ)義距離依賴(lài)性和語(yǔ)義多層次性。而網(wǎng)絡(luò)短文本情感多分類(lèi)標(biāo)注問(wèn)題,由于語(yǔ)料中文本通常很短,對(duì)于這兩種語(yǔ)義特征異常敏感。這使得短文本情感多分類(lèi)時(shí),CharSCNN模型性能顯著下降。針對(duì)這一問(wèn)題,本文提出具有提取和保留更豐富語(yǔ)義特征能力的分類(lèi)模型。

      3 mwmp CNN模型

      如圖1所示,經(jīng)典的CNN模型解決情感分類(lèi)標(biāo)注問(wèn)題時(shí),通常將一個(gè)句子或一段文本以某種形式(例如詞向量序列)輸入到CNN的卷積層。經(jīng)過(guò)卷積操作,提取出文本的局部抽象語(yǔ)義;池化層對(duì)該局部語(yǔ)義表達(dá)進(jìn)行降維,同時(shí)保留某一個(gè)級(jí)別的語(yǔ)義特征;串接層將這些語(yǔ)義特征向量拼接成一個(gè)句級(jí)或文本語(yǔ)義特征向量;全連接層對(duì)這個(gè)語(yǔ)義特征向量進(jìn)一步抽象,最后計(jì)算出情感分析結(jié)果。

      圖1 CNN模型結(jié)構(gòu)

      本文針對(duì)網(wǎng)絡(luò)短文本的情感多分類(lèi)標(biāo)注任務(wù),對(duì)CNN進(jìn)行改進(jìn),提出mwmpCNN模型。如圖2所示,mwmpCNN模型使用多種卷積核提取不同窗口大小的上下文語(yǔ)義;然后這些上下文語(yǔ)義向量分別送入多種池化層,降低特征維度,同時(shí)盡可能地保留了多個(gè)層次的語(yǔ)義特征;串接層將多層次的語(yǔ)義特征向量串接成一個(gè)文本特征向量;全連接層對(duì)這個(gè)文本特征向量進(jìn)一步抽象,最后計(jì)算對(duì)每個(gè)情感分類(lèi)標(biāo)簽的分?jǐn)?shù)。

      3.1 詞向量序列

      詞向量是詞的分布式表示,將詞表示為一個(gè)稠密的、低維度的向量,它包含一個(gè)詞的語(yǔ)法或語(yǔ)義信息。

      圖2 mwmpCNN模型結(jié)構(gòu)

      給定由n個(gè)單詞組成的一個(gè)短文本{Wrd1,Wrd2,…,Wrdn},轉(zhuǎn)換每個(gè)單詞為其對(duì)應(yīng)的dwrd維詞向量。設(shè)第i個(gè)單詞Wrdi對(duì)應(yīng)的詞向量為xi,xi∈Rdwrd。該短文本可以表示成一個(gè)長(zhǎng)度為n的詞向量序列s={x1,x2,…,xn}。這個(gè)詞向量序列作為mwmpCNN中卷積層的輸入。

      3.2 不同窗口大小的多卷積層

      與n-gram模型[10]類(lèi)似,CNN通常使用固定大小的窗口對(duì)文本的詞向量序列進(jìn)行一維卷積操作,提取局部語(yǔ)義。除非窗口放到數(shù)據(jù)集中最長(zhǎng)的文本長(zhǎng)度,否則固定大小的窗口只能捕捉固定距離上的語(yǔ)義依賴(lài)關(guān)系。如若放大窗口到最長(zhǎng)文本的長(zhǎng)度,則將導(dǎo)致數(shù)據(jù)稀疏、模型參數(shù)數(shù)量增大等問(wèn)題。

      文本分析研究早已指出文本的語(yǔ)義具有距離依賴(lài)性[11],這種依賴(lài)性在許多語(yǔ)言現(xiàn)象中起著重要作用,例如否定關(guān)系、附屬關(guān)系等語(yǔ)言關(guān)系。語(yǔ)言關(guān)系隱式地影響情感分析的結(jié)果。網(wǎng)絡(luò)短文本中長(zhǎng)句子少,詞義依賴(lài)的距離短。一個(gè)詞僅與它附近出現(xiàn)的一個(gè)或幾個(gè)詞具有依存關(guān)系。因此,mwmpCNN模型采用多個(gè)窗口大小不同的卷積層對(duì)輸入的詞向量序列s進(jìn)行卷積操作,提取不同窗口大小的上下文局部語(yǔ)義。

      mwmpCNN模型在卷積操作時(shí)可提供m個(gè)窗口大小不同的卷積層,它們的窗口大小分別為{k1,k2,…,km},如圖3所示。每個(gè)卷積層有cnt個(gè)卷積單元。卷積操作時(shí),上述m×cnt個(gè)卷積單元將會(huì)并行計(jì)算,計(jì)算結(jié)果送至被分配的池化層。

      圖3 并行的多窗口卷積層

      卷積單元計(jì)算時(shí),kj窗口中第l個(gè)卷積單元(即第 j個(gè)卷積層中第l個(gè)卷積單元)的計(jì)算方法見(jiàn)式(1),其中0≤l≤cnt-1。

      式(1)中,n為詞向量序列s的長(zhǎng)度;cj,l是以kj為窗口,對(duì)當(dāng)前短文本的詞向量序列,連續(xù)n-kj+1次卷積操作的結(jié)果產(chǎn)生文本局部語(yǔ)義向量,cj,l向量將落在維度為n-kj+1的實(shí)數(shù)空間中,即是kj窗口中第l個(gè)卷積單元的權(quán)重矩陣,Wj,l∈Rkj×dwrd;bj,l是 kj窗口中第l個(gè)卷積單元的偏置,bj,l∈R;矩陣Zj,i代表一個(gè)kj窗口的詞向量組合。以s中第i個(gè)詞向量xi為中心,矩陣Zj,i由xi前后各kj/2個(gè)詞向量串接生成,即:

      3.3 不同池化方法的多池化層

      受作者創(chuàng)作時(shí)隨意性、碎片性的影響,網(wǎng)絡(luò)短文本所蘊(yùn)含的情感異常豐富。一段文本中可能部分表達(dá)正面情感,部分表達(dá)負(fù)面情感。同時(shí),文本各部分的情感強(qiáng)度又有差異。只有捕捉到多層次的文本語(yǔ)義特征,才能夠分析文本的細(xì)粒度情感。

      mwmpCNN模型在池化操作時(shí)設(shè)計(jì)了多池化層。并行的多池化層可對(duì)各卷積單元提取的局部語(yǔ)義進(jìn)行統(tǒng)計(jì)匯總。池化操作過(guò)程中卷積單元產(chǎn)生的局部語(yǔ)義向量將被降維至固定長(zhǎng)度。

      mwmpCNN模型有t個(gè)并行的池化層,各池化層的池化方法不同,如圖4所示。局部語(yǔ)義向量經(jīng)卷積單元提取后,被送至指定的池化層進(jìn)行池化操作。雖然模型實(shí)現(xiàn)時(shí)卷積單元的分配方法因人而異,但是每個(gè)窗口經(jīng)池化操作后均產(chǎn)生固定的cnt個(gè)元素。為方便表述,本文認(rèn)為由每個(gè)窗口經(jīng)池化操作后產(chǎn)生的cnt個(gè)元素構(gòu)成該窗口所對(duì)應(yīng)的局部文本語(yǔ)義特征向量。對(duì)有m個(gè)窗口的卷積層,多池化層最終對(duì)應(yīng)輸出一個(gè)包含m個(gè)文本語(yǔ)義特征向量的序列vsent={v1,v2,…,vm}。這里,v1(v1∈Rcnt)為k1窗口所對(duì)應(yīng)的局部文本語(yǔ)義特征向量,v2等依此類(lèi)推。

      圖4 對(duì)各卷積單元輸出進(jìn)行多池化操作

      設(shè)文本局部語(yǔ)義向量cj,l被送至池化層a,用于生成kj窗口所對(duì)應(yīng)的語(yǔ)義特征向量vj的一個(gè)元素vj[l]。cj,l的池化過(guò)程為:

      其中,pa為池化層a采用的池化方法。池化操作時(shí),常用的池化方法有提取文本最強(qiáng)烈語(yǔ)義的max-pooling方法和提取文本平均語(yǔ)義的avg-pooling方法等。

      3.4 串接層與全連接層

      串接層串接操作vsent中每個(gè)元素,得到文本特征向量rsent∈Rcnt×m。串接操作為:

      全連接層進(jìn)一步抽象特征向量,為情感多分類(lèi)T中的每個(gè)情感分類(lèi)t(t∈T)計(jì)算得分。全連接層采用兩層設(shè)計(jì),即式(5):

      最后,mwmpCNN模型使用softmax函數(shù)計(jì)算詞向量序列s在每個(gè)情感標(biāo)簽t下的得分,即:

      4 mwmp CNN模型訓(xùn)練

      mwmpCNN模型是通過(guò)最小化負(fù)對(duì)數(shù)似然函數(shù)進(jìn)行訓(xùn)練。對(duì)式(6)取對(duì)數(shù):

      采用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)算法來(lái)最小化負(fù)對(duì)數(shù)似然函數(shù),得到:

      其中,D代表訓(xùn)練語(yǔ)料;si、yi表示訓(xùn)練語(yǔ)料的一條句子及其對(duì)應(yīng)的情感標(biāo)簽;θ表示模型所有參數(shù)。

      由于網(wǎng)絡(luò)短文本包含的上下文信息有限,噪聲較多,過(guò)度擬合的語(yǔ)義關(guān)系是由訓(xùn)練數(shù)據(jù)集采樣噪聲產(chǎn)生,并不真實(shí)地存在于測(cè)試數(shù)據(jù)集中[12]。這個(gè)現(xiàn)象將降低模型的泛化能力。此外,SSTb數(shù)據(jù)集中用來(lái)做長(zhǎng)句訓(xùn)練集的樣本數(shù)量較少,在進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練時(shí),過(guò)擬合現(xiàn)象比較容易發(fā)生[13]。因此,訓(xùn)練過(guò)程中,本文在mwmpCNN模型的輸入層和全連接層使用Srivastava等人[12]提出的Dropout技術(shù),有效地防止過(guò)擬合,明顯降低泛化誤差。

      5 實(shí)驗(yàn)

      5.1 情感分析數(shù)據(jù)集

      SSTb的語(yǔ)料內(nèi)容來(lái)源于在線(xiàn)影評(píng),屬于網(wǎng)絡(luò)短文本[8],它包含11 845條句子和227 385條短語(yǔ),其中短語(yǔ)由句子的語(yǔ)法解析樹(shù)產(chǎn)生。數(shù)據(jù)集有句子和短語(yǔ)的情感實(shí)證概率。根據(jù)分類(lèi)標(biāo)準(zhǔn)界限[0,0.2],(0.2,0.4],(0.4,0.6],(0.6,0.8],(0.8,1.0],情感實(shí)證概率可映射到五分類(lèi)中,即表達(dá)非常負(fù)面、負(fù)面、中性、正面、非常正面的情感。

      實(shí)驗(yàn)時(shí),本文設(shè)置有兩個(gè)訓(xùn)練集和一個(gè)測(cè)試集。其中,訓(xùn)練集A只包含句子,訓(xùn)練集B包含句子和短語(yǔ),測(cè)試集則只包含句子。實(shí)驗(yàn)用數(shù)據(jù)集劃分見(jiàn)表1。

      表1 SSTb數(shù)據(jù)集實(shí)驗(yàn)數(shù)據(jù)劃分

      5.2 模型參數(shù)設(shè)定

      本文訓(xùn)練集上使用五倍交叉驗(yàn)證(Cross Validation)確定以下超參數(shù):卷積層的窗口大小{k1,k2,k3,k4}、每個(gè)卷積層所擁有的卷積單元數(shù)量cnt以及詞向量維度dwrd。綜合考慮小窗口有利于捕捉細(xì)節(jié)特征和大窗口有利于捕捉遠(yuǎn)距離上的語(yǔ)義依賴(lài)性,從{2,3,5,7}、{2,3,7,9}和{3,5,7,9}中選擇{k1,k2,k3,k4},從{50,100,200,300}中確定cnt,dwrd則從{25,50,100}中選取。這3個(gè)參數(shù)構(gòu)成36種不同的參數(shù)組合,使用網(wǎng)格搜索方法(Grid Search)確定優(yōu)化以上超參數(shù)。對(duì)于其他超參數(shù):hlc是全連接層中隱藏層神經(jīng)元數(shù)量,與隱藏層的輸入向量維度有直接關(guān)系[14],本文模型的隱藏層輸入向量rsent維度為4×cnt,為了隨著rsent維度的變化調(diào)整hlc的值,直接設(shè)定hlc為4×cnt。參照其他基于CNN的文本分類(lèi)模型使用Dropout的設(shè)置[15-16],以 p=0.5的概率隨機(jī)保留輸入層的輸入和全連接層的隱藏單元。||D為每個(gè)訓(xùn)練批次包含的樣本數(shù),實(shí)驗(yàn)中固定為64。所有超參數(shù)的設(shè)定值見(jiàn)表2。

      表2 mwmpCNN實(shí)驗(yàn)超參數(shù)設(shè)定

      5.3 詞向量預(yù)訓(xùn)練

      本文在實(shí)驗(yàn)中使用兩種詞向量:經(jīng)過(guò)預(yù)訓(xùn)練的詞向量和未經(jīng)過(guò)預(yù)訓(xùn)練的詞向量。在訓(xùn)練過(guò)程中,這兩種詞向量都作為可訓(xùn)練參數(shù)進(jìn)行調(diào)整。

      實(shí)驗(yàn)選擇GloVe算法[17]進(jìn)行詞向量預(yù)訓(xùn)練。因Twitter與SSTb同屬社交網(wǎng)絡(luò)文本,Twitter語(yǔ)料庫(kù)的詞語(yǔ)空間分布接近于SSTb的詞語(yǔ)空間分布,所以本文詞向量預(yù)訓(xùn)練使用Twitter語(yǔ)料庫(kù)。

      詞向量訓(xùn)練后,本文得到一個(gè)包括一百多萬(wàn)條目的單詞表。對(duì)于SSTb中未出現(xiàn)在單詞表中的單詞,實(shí)驗(yàn)時(shí)使用零向量代替。

      對(duì)未經(jīng)過(guò)預(yù)先訓(xùn)練的詞向量,向量中每個(gè)值由均勻分布在區(qū)間(-0.01,+0.01)的隨機(jī)數(shù)初始化[18]。

      5.4 mwmpCNN結(jié)構(gòu)設(shè)置

      實(shí)驗(yàn)中的mwmpCNN模型結(jié)構(gòu)具體設(shè)定如下:

      mwmpCNN模型卷積操作時(shí)有四個(gè)并行的卷積層,其窗口大小見(jiàn)表2。池化操作時(shí)有兩個(gè)并行的池化層。池化方法采用max-pooling方法和avg-pooling方法。每個(gè)卷積層內(nèi)有一半的卷積單元的輸出送到avg-pooling池化層,另一半的卷積單元的輸出送到max-pooling池化層。

      為了有效地對(duì)比實(shí)驗(yàn)結(jié)果,本文還基于mwmpCNN模型的兩種特殊結(jié)構(gòu)進(jìn)行實(shí)驗(yàn)。一種特殊結(jié)構(gòu)為單窗口多池化結(jié)構(gòu),即swmpCNN(single-windows and multipooling Convolutional Neural Network),該結(jié)構(gòu)中窗口大小只有一種,設(shè)定為3,其他部分設(shè)定與mwmpCNN一樣。另一種特殊結(jié)構(gòu)為多窗口單池化結(jié)構(gòu),即mwspCNN(multi-windows and single-pooling Convolutional Neural Network),該結(jié)構(gòu)中只有單一池化方法的池化層,池化方法為max-pooling,其他部分設(shè)定與mwmpCNN一樣。

      5.5 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)機(jī)器選用Intel I5-4200的CPU,8 GB內(nèi)存,256 GB的SSD硬盤(pán),Linux操作系統(tǒng)。經(jīng)過(guò)約20小時(shí)的運(yùn)行得出實(shí)驗(yàn)結(jié)果。

      mwmpCNN模型在SSTb數(shù)據(jù)集上執(zhí)行情感五分類(lèi)標(biāo)注的結(jié)果見(jiàn)表3。表中“預(yù)訓(xùn)練”一欄標(biāo)識(shí)為“是”,表示模型使用的詞向量經(jīng)過(guò)預(yù)訓(xùn)練;標(biāo)識(shí)為“否”,表示使用的詞向量采用隨機(jī)值初始化。“短語(yǔ)”一欄標(biāo)識(shí)為“是”,表示訓(xùn)練集包含短語(yǔ),標(biāo)識(shí)為“否”,表示訓(xùn)練集中不包含短語(yǔ)。為了比較和論證,表3中還含有Socher[8]使用RNTN、RNN及SVM模型,和Santos[9]使用CharSCNN、SCNN模型在SSTb數(shù)據(jù)集上進(jìn)行情感五分類(lèi)標(biāo)注的正確率。

      5.6 實(shí)驗(yàn)結(jié)果分析

      5.6.1 mwmp CNN模型與其他模型比較

      從表3中可以看出,訓(xùn)練集中未加入短語(yǔ)的情況下,mwmpCNN、CharSCNN和SCNN的分類(lèi)正確率持平(43.5%)。而在訓(xùn)練集加入短語(yǔ)后,mwmpCNN的正確率(54.6%)要超過(guò)文獻(xiàn)[8]和文獻(xiàn)[9]所報(bào)道的結(jié)果。

      表3 在SSTb數(shù)據(jù)集上不同模型實(shí)驗(yàn)正確率

      通過(guò)實(shí)驗(yàn)可以看到,當(dāng)訓(xùn)練數(shù)據(jù)集中加入了短語(yǔ)后,mwmpCNN性能提高(如測(cè)試1和測(cè)試2對(duì)比,測(cè)試3和測(cè)試4對(duì)比)會(huì)比CharSCNN(如測(cè)試11和測(cè)試13對(duì)比)和SCNN(測(cè)試12和測(cè)試14對(duì)比)要快。其中的原因可能是,當(dāng)訓(xùn)練樣本達(dá)到一定數(shù)量后,比僅僅使用一種窗口大小的卷積層和max-pooling池化層的設(shè)計(jì),mwmpCNN可以學(xué)習(xí)到語(yǔ)義表達(dá)更精確、層次更豐富的文本特征向量,使全連接層能夠有效地計(jì)算文本的細(xì)粒度情感。

      對(duì)于不使用短語(yǔ)訓(xùn)練的一組測(cè)試,即測(cè)試2、測(cè)試6、測(cè)試8、測(cè)試13和測(cè)試14,正確率均相差不大,可能是因?yàn)樵诓皇褂枚陶Z(yǔ)訓(xùn)練情況下,訓(xùn)練集數(shù)量相對(duì)于需要訓(xùn)練的模型參數(shù)不足,不能有效地反映模型效果的差別。

      5.6.2 不同窗口大小卷積層的影響

      對(duì)比測(cè)試1(54.6%)和測(cè)試5(51.1%),測(cè)試2(43.5%)和測(cè)試6(42.1%)兩組實(shí)驗(yàn)的正確率,無(wú)論訓(xùn)練集含有或未含有短語(yǔ)樣本的情況下,使用多窗口mwmpCNN的正確率高于使用單窗口swmpCNN,特別在訓(xùn)練集含有短語(yǔ)樣本的情況下,這種提高比較明顯。說(shuō)明當(dāng)訓(xùn)練樣本達(dá)到一定數(shù)量后,多種窗口大小的卷積層提取的多種局部特征[19],有效地捕捉多種距離上的語(yǔ)義依賴(lài)性,有助于更精確地計(jì)算文本在每個(gè)情感標(biāo)簽下的得分。下面的例子說(shuō)明在遠(yuǎn)距離上的語(yǔ)義依賴(lài)性對(duì)整個(gè)句子情感的影響:

      (1)at all clear what it's trying to say and even if it were--I doubt it.

      (2)at all clear what it's trying to say and even if it were--I doubt it would be all that interesting.

      可以看出(2)的負(fù)面情感程度比(1)要弱一些,因?yàn)閐oubt后面四個(gè)詞距離上的all影響了它的強(qiáng)烈程度,從而影響了全句的負(fù)面情感的強(qiáng)烈程度。(1)的真實(shí)分類(lèi)是負(fù)面,而(2)的真實(shí)分類(lèi)是中性。

      5.6.3 多種池化方法的影響

      對(duì)比測(cè)試1(54.6%)和測(cè)試7(49.8%),測(cè)試2(43.5%)和測(cè)試8(43.0%)兩組實(shí)驗(yàn)的正確率,無(wú)論訓(xùn)練集含有或未含有短語(yǔ)樣本的情況下,使用多池化mwmpCNN的正確率高于使用單池化mwspCNN,特別在訓(xùn)練集含有短語(yǔ)樣本的情況下,這種提高非常明顯。多種池化方法保留的多層次語(yǔ)義特征對(duì)細(xì)粒度情感的判斷是很重要的。以SSTb數(shù)據(jù)集中的句子為例:

      The storylines are woven together skillfully.|0.5972 2

      以大小為3的窗口將該句分割成四個(gè)短語(yǔ),短語(yǔ)及對(duì)應(yīng)的實(shí)證概率值如下:

      (1)The storylines are|0.5

      (2)storylines are woven|0.5

      (3)are woven together|0.569 44

      (4)woven together skillfully|0.777 78

      可以看到一個(gè)句子包含著不同語(yǔ)義層次的短語(yǔ),它們都會(huì)對(duì)整個(gè)句子的情感傾向產(chǎn)生影響,因此僅保留一種語(yǔ)義層次很難精確地判斷文本情感傾向。

      5.6.4 詞向量的影響

      由于詞向量是mwmpCNN的可訓(xùn)練參數(shù),訓(xùn)練過(guò)程實(shí)際上也在調(diào)整詞向量,使其更適合情感多分類(lèi)任務(wù)。如表3所示,mwmpCNN模型使用預(yù)訓(xùn)練初始化詞向量的兩組實(shí)驗(yàn)正確率要高于使用隨機(jī)數(shù)初始化的詞向量。特別是只使用句子進(jìn)行訓(xùn)練時(shí),使用預(yù)訓(xùn)練初始化詞向量比使用隨機(jī)數(shù)初始化詞向量的實(shí)驗(yàn)正確率提高10.4%(測(cè)試2和測(cè)試4對(duì)比)。這表明經(jīng)過(guò)預(yù)訓(xùn)練的詞向量包含大量先驗(yàn)知識(shí),這個(gè)先驗(yàn)知識(shí)能夠有效地提高情感分析的正確率。而且僅包含句子的訓(xùn)練集中只有8 000多條樣本,不足以充分地從“零基礎(chǔ)”訓(xùn)練詞向量。同時(shí)表3也顯示,當(dāng)加入了短語(yǔ)到訓(xùn)練集時(shí),使用預(yù)訓(xùn)練初始化詞向量的實(shí)驗(yàn)正確率只比使用隨機(jī)數(shù)初始化詞向量的實(shí)驗(yàn)提高3%(測(cè)試1和測(cè)試3對(duì)比)。這是因?yàn)榘ǘ陶Z(yǔ)和句子的訓(xùn)練集含有23萬(wàn)多條樣本,已經(jīng)可以較好地從“零基礎(chǔ)”訓(xùn)練詞向量,而且這種訓(xùn)練是針對(duì)本分類(lèi)問(wèn)題進(jìn)行的專(zhuān)門(mén)訓(xùn)練,所以當(dāng)訓(xùn)練集中加入短語(yǔ),正確率提升很多。當(dāng)訓(xùn)練樣本數(shù)量足夠大時(shí),用隨機(jī)數(shù)初始化的詞向量和預(yù)訓(xùn)練初始化的詞向量作為輸入,標(biāo)注正確率相差可能會(huì)很小。需要注意,從實(shí)驗(yàn)過(guò)程中可以得知:相比使用預(yù)訓(xùn)練初始化詞向量,當(dāng)mwmpCNN使用隨機(jī)數(shù)初始化詞向量,模型完成訓(xùn)練過(guò)程需要更多的訓(xùn)練批次。

      5.6.5 短語(yǔ)的影響

      如表3所示,使用短語(yǔ)訓(xùn)練模型比不使用短語(yǔ)訓(xùn)練模型正確率有較大的提高。在使用預(yù)訓(xùn)練初始化詞向量的情況下,正確率提高11.1%(測(cè)試1和測(cè)試2對(duì)比)。而在使用隨機(jī)數(shù)初始化詞向量的情況下,正確率提高達(dá)到18.5%(測(cè)試3和測(cè)試4對(duì)比)。如果既沒(méi)有預(yù)訓(xùn)練初始化的詞向量,也沒(méi)有短語(yǔ)參加訓(xùn)練,模型能夠?qū)W習(xí)的先驗(yàn)知識(shí)是非常有限的,這種情況下實(shí)驗(yàn)的正確率是非常低的(33.1%)。這表明:由語(yǔ)法分析樹(shù)生成且已經(jīng)完成情感標(biāo)注的短語(yǔ),作為訓(xùn)練樣本加入到訓(xùn)練集后,雖然在訓(xùn)練過(guò)程中沒(méi)有直接使用語(yǔ)法分析樹(shù)的信息,但依然有助于提高模型正確率。這些短語(yǔ)給出它們?nèi)绾涡纬删渥忧楦械男畔?,使得模型可以在?xùn)練過(guò)程中學(xué)習(xí)到更復(fù)雜的現(xiàn)象[9]。

      6 結(jié)束語(yǔ)

      網(wǎng)絡(luò)短文本的情感多分類(lèi)標(biāo)注對(duì)于語(yǔ)義特征敏感。針對(duì)這一特點(diǎn),本文提出一種能夠有效地捕捉語(yǔ)義距離依賴(lài)性和多層次語(yǔ)義特征的CNN改進(jìn)模型mwmpCNN。它使用窗口大小不同的多個(gè)卷積層,抽象出包含不同窗口大小的上下文局部語(yǔ)義;同時(shí)使用多種池化層在局部語(yǔ)義基礎(chǔ)上提取和保留多層次的語(yǔ)義特征。實(shí)驗(yàn)結(jié)果可見(jiàn)該模型和其他模型比較,在正確率上有顯著的提高。

      嘗試通過(guò)調(diào)整超參數(shù)和模型部分結(jié)構(gòu),探索mwmpCNN在中文情感多分類(lèi)標(biāo)注問(wèn)題的應(yīng)用,是下一步的工作。

      猜你喜歡
      正確率短語(yǔ)語(yǔ)義
      門(mén)診分診服務(wù)態(tài)度與正確率對(duì)護(hù)患關(guān)系的影響
      語(yǔ)言與語(yǔ)義
      生意
      品管圈活動(dòng)在提高介入手術(shù)安全核查正確率中的應(yīng)用
      生意
      “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
      認(rèn)知范疇模糊與語(yǔ)義模糊
      語(yǔ)義分析與漢俄副名組合
      南康市| 扎赉特旗| 江西省| 涞源县| 子长县| 来宾市| 堆龙德庆县| 丰县| 七台河市| 桐城市| 汶上县| 保山市| 西昌市| 雅安市| 大英县| 綦江县| 德阳市| 郴州市| 离岛区| 平顶山市| 甘德县| 璧山县| 吉林省| 特克斯县| 纳雍县| 桂东县| 手机| 措勤县| 义马市| 南部县| 禹州市| 合水县| 广东省| 延川县| 涞水县| 雷波县| 黄大仙区| 达拉特旗| 阜康市| 乐安县| 三原县|