• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于層級(jí)注意力模型的無監(jiān)督文檔表示學(xué)習(xí)①

      2018-09-17 08:48:46歐陽文俊徐林莉
      關(guān)鍵詞:層級(jí)文檔注意力

      歐陽文俊,徐林莉

      (中國科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230027)

      大數(shù)據(jù)時(shí)代,隨著文本數(shù)據(jù)的大量增長,如何通過計(jì)算機(jī)的存儲(chǔ)和表示這些文本成為一個(gè)重要的問題.許多文本任務(wù)的首要步驟就是文本表示(Text Representation),它在自然語言處理(Natural Language Processing,NLP)中一直是一個(gè)熱門的話題也具有非常廣泛的應(yīng)用[1,2],早期的文本表示模型統(tǒng)計(jì)單詞中文本中的詞頻或者通過少量的文特征詞來表現(xiàn)整個(gè)句子的特征.Harris 在 1954 年提出了詞袋(Bag-of-Words,BoW)和Bag-of-n-gram模型.BoW將一段文本表示成一個(gè)與詞匯表等長的向量,但是這種方法失去單詞在文本中出現(xiàn)的次序信息,不同句子可能有相同的向量表示.Bag-of-n-gram雖然加入了單詞的次序信息,但同時(shí)向量的維度也大大提高了.詞頻-逆文檔頻率(TFIDF)用統(tǒng)計(jì)特征提取的方法表示文本.這些方法都屬于文本的高維集中式表示,通常向量的維度很大而且很稀疏,丟失了文本的語義信息,計(jì)算復(fù)雜度非常高.

      Bengio 2003年提出基于神經(jīng)網(wǎng)絡(luò)模型的單詞分布式表示(Distributed Representations)算法[3],它是一種將文本表示成低維實(shí)數(shù)向量的方法.此后分布式表示學(xué)習(xí)的研究發(fā)展迅速,其中包括單詞表示和文檔表示,也可以稱為詞嵌入(Word Embeddings)和文檔嵌入(Document Embeddings),將詞或者文檔嵌入到一個(gè)連續(xù)的空間,得到詞和文檔的分布式表示[4–7].標(biāo)記數(shù)據(jù)在大數(shù)據(jù)時(shí)代是非常昂貴的,文本的分布式表示作為一種無監(jiān)督學(xué)習(xí)(Unsupervised Learning),能夠直接從大量未標(biāo)記文本中學(xué)習(xí)特征,這是分布式表示的一大優(yōu)勢.此外,分布式表示的另一個(gè)優(yōu)點(diǎn)是得到的向量具有良好的語義性質(zhì),例如詞向量的類比(analogy)性質(zhì):v(北京)-v(中國)=v(巴黎)-v(法國).分布式表示學(xué)習(xí)得到的向量作為其他機(jī)器學(xué)習(xí)模型的輸入,很大程度提升它們對(duì)文本的理解能力,所以分布式表示在自然語言應(yīng)用中起到非常重要的作用.

      現(xiàn)有的無監(jiān)督文檔表示方法沒有考慮單詞在句子中的重要性,也沒有考慮句子在文檔中的重要性,等價(jià)的看待所有的單詞和句子,這與人類在理解文本的時(shí)候是不相符的.為了解決這種文本中單詞不同重要性的問題,注意力機(jī)制開始引入到文本任務(wù)中[8–10].注意力機(jī)制考慮的是在文本序列中每個(gè)單詞對(duì)目標(biāo)任務(wù)起到的作用不是等價(jià)的,而是著重關(guān)注在句子中關(guān)鍵的一些詞.現(xiàn)有大部分具有注意力機(jī)制的NLP工作都是監(jiān)督學(xué)習(xí)(Supervised Learning)模型,它們?yōu)閱蝹€(gè)任務(wù)提出相適應(yīng)的注意力機(jī)制.注意力機(jī)制在一系列監(jiān)督的自然語言處理任務(wù)中體現(xiàn)了它的作用和價(jià)值,但在無監(jiān)督的任務(wù)中還沒有過多的研究,如何將注意力機(jī)制引入到無監(jiān)督的文本表示學(xué)習(xí)上成文本文研究的重點(diǎn).對(duì)于文檔來說,它的層級(jí)結(jié)構(gòu)也使得本文的注意力機(jī)制與眾不同,文檔中的重要成分是句子,句子的重要成分才是詞,所以本文研究了一個(gè)層級(jí)的注意力機(jī)制.

      最終,文本將無監(jiān)督的文本表示應(yīng)用在文檔表示中,同時(shí)考慮文檔的層級(jí)結(jié)構(gòu),加入注意力機(jī)制,構(gòu)建一個(gè)基于層級(jí)注意力機(jī)制的無監(jiān)督文檔表示模型(Hierarchical Attention Document Representation,HADR).本文提出的文檔表示方法更加具有語義性,得到文檔表示的同時(shí)得到了每個(gè)詞的重要性和每個(gè)句子的重要性.下面總結(jié)本文的主要貢獻(xiàn):

      1)提出一種無監(jiān)督的注意力機(jī)制應(yīng)用在文檔的分布式表示中;

      2)在得到文檔表示時(shí),考慮了文檔的層級(jí)結(jié)構(gòu);

      3)HADR模型得到的文檔表示在情感分類實(shí)驗(yàn)上取得了更好的表現(xiàn).

      1 相關(guān)工作

      1.1 詞嵌入與文檔表示

      單詞分布式表示高效的從大量未標(biāo)記文本中學(xué)習(xí)單詞向量,也稱作詞嵌入.該方法將詞嵌入到一個(gè)低維空間,得到每個(gè)詞的稠密向量表示,向量的每個(gè)維度都具有一定的語義信息.相似含義的詞匯具有相似的表示,也就是它們的余弦相似度比較大.相反的可以通過兩個(gè)詞語向量的余弦相似度來判斷它們?cè)谡Z義空間是否相似.這樣,詞的語義相關(guān)性很好的通過向量計(jì)算量化.

      最早的單詞分布式表示模型是Bengio 2003年提出的神經(jīng)網(wǎng)絡(luò)語言模型(Neural Network Language Model,NNLM)[3],它是一個(gè) 4 層的神經(jīng)網(wǎng)絡(luò)模型,通過上文的詞來預(yù)測下文的詞,輸入層的參數(shù)即詞向量表示矩陣可以自動(dòng)學(xué)習(xí).由于NNLM隱藏層數(shù)目過多導(dǎo)致計(jì)算復(fù)雜度過高,因此詞嵌入技術(shù)受到限制,無法應(yīng)用于海量文本的訓(xùn)練,詞嵌入技術(shù)也因此在很長一段時(shí)間內(nèi)停滯不前.Mikolov 2013 年改進(jìn)了 NNLM,提出了現(xiàn)在經(jīng)典的Word2Vec[4,5],該模型去掉一個(gè)非線性隱層,是一個(gè)只有輸入層、隱藏層和輸出層的3層神經(jīng)網(wǎng)絡(luò).作者還分別提出兩種不同的訓(xùn)練方式CBOW和Skip-Gram,都是通過目標(biāo)單詞和上下文之間的關(guān)系建模.與NNLM模型相比,Word2Vec大大的提升了詞向量訓(xùn)練效率.除了神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)詞向量以外,還有基于共現(xiàn)矩陣分解的方法[11,12],并且Omer Levy證明了對(duì)PMI矩陣分解的方法與Skip-Gram模型是等價(jià)的[12].

      單詞的分布式表示技術(shù)在NLP應(yīng)用中取得了不錯(cuò)的效果,一些研究開始將分布式表示學(xué)習(xí)利用到文檔上,希望得到一篇文檔的表示向量[7,13–15].Le 等人2014年擴(kuò)展CBOW和Skip-Gram分別提出了文檔的分布式表示學(xué)習(xí)模型PV-DM和PV-DBOW[7],它們的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與Word2Vec模型相比沒有變化,只不過在輸入層添加了文檔向量的學(xué)習(xí).如果兩篇文檔具有較多相似的詞語,那它們的文檔向量也是比較接近的.實(shí)驗(yàn)驗(yàn)證了文檔表示在分類任務(wù)上有不錯(cuò)的效果.現(xiàn)有的文檔表示模型沒有考慮文檔中詞語的重要性,即使兩篇文章有較多相似的但不重要單詞,也不能認(rèn)為兩篇文檔相似,所以在學(xué)習(xí)文檔表示時(shí),考慮單詞重要性尤為關(guān)鍵.因此本文在表示文檔的時(shí)候著重考慮了各部分的重要性.

      1.2 注意力機(jī)制

      注意力機(jī)制首先應(yīng)用在圖像問題中[8,16],該研究動(dòng)機(jī)來源于人類的注意力機(jī)制,在圖像和自然語言處理問題中,可以看成圖像或者文本中不同部分的重要性體現(xiàn).

      Bahdanau第一次在機(jī)器翻譯模型中引入了注意力機(jī)制[9],之后注意力機(jī)制在自然語言處理中得到廣泛應(yīng)用.Wang嘗試把注意力機(jī)制引入到無監(jiān)督句子表示學(xué)習(xí)上,擴(kuò)展 PV-DM 方法,提出了 aCSE 模型[14],Wang認(rèn)為窗口中的所有單詞重要性是不一樣的,上下文的每個(gè)單詞應(yīng)該賦予一個(gè)權(quán)值,這個(gè)權(quán)值依賴距離目標(biāo)詞的位置,并且在訓(xùn)練的時(shí)候得到.這種注意力的構(gòu)造是一種局部的注意力,體現(xiàn)的是局部重要性,仍然無法看出一個(gè)詞對(duì)于理解整個(gè)句子或文檔的全局重要性.

      Yang為了解決文檔分類問題,提出了一個(gè)層級(jí)注意力模型(Hierachical Attention Network,HAN)[10].該文考慮一篇文檔具有的層級(jí)結(jié)構(gòu),即文檔由句子構(gòu)成,句子由詞構(gòu)成,在構(gòu)建文檔的表示之前先構(gòu)建句子表示,然后通過句子表示得到文檔的最終表示,單詞和句子的重要性在不同的文檔中都可能不同.Yang構(gòu)建的層級(jí)注意力模型是一個(gè)監(jiān)督的學(xué)習(xí)模型,并且僅限于應(yīng)用在單個(gè)自然語言處理任務(wù)上.

      在基于無監(jiān)督學(xué)習(xí)的文檔表示模型中,現(xiàn)有的模型沒有考慮文檔的層級(jí)關(guān)系,aCSE[14]只考慮單詞的局部重要性,而且這種基于位置的注意力不合理,沒有考慮單詞與單詞的關(guān)系,它適用于較短的文本.另一方面,在基于監(jiān)督學(xué)習(xí)的文檔表示模型中,HAN雖然考慮了文檔的層級(jí)關(guān)系和使用了層級(jí)注意力機(jī)制,但由于監(jiān)督學(xué)習(xí)局限性,無法處理大量的未標(biāo)記的文本,學(xué)習(xí)的特征受到局限.

      結(jié)合上述的模型,本文把大量的未標(biāo)記文本數(shù)據(jù)利用起來,同時(shí)考慮到文檔的層級(jí)結(jié)構(gòu)和文本的注意力機(jī)制,通過無監(jiān)督的學(xué)習(xí)方式得到文檔的表示,稱為基于層級(jí)注意力機(jī)制的無監(jiān)督文檔表示學(xué)習(xí)方法.該模型可以高效的學(xué)習(xí)海量數(shù)據(jù)特征,通過淺層模型得到文本的語義表示.

      2 HADR 模型

      2.1 CBOW模型和Skip-Gram模型

      詞嵌入模型一般通過大量的無監(jiān)督文本訓(xùn)練詞向量.在詞嵌入模型中,假設(shè)詞匯表是 V,一般的,中文文本需要將句子進(jìn)行分詞操作才能統(tǒng)計(jì)詞匯表,每個(gè)詞將表示成一個(gè)長度為d的向量,所有的詞向量可以組成一個(gè)詞矩陣 W ∈Rd×|V|,詞wi,{i=1,2,···,|V|}的向量表示可以寫成v(wi).給定一篇文檔可以表示成S={w1,w2,···,wl},l是文檔的長度.大部分詞嵌入模型都需要構(gòu)建句子中的滑動(dòng)窗口,假設(shè)wt為目標(biāo)單詞,wt的上下文由相鄰的一些單詞構(gòu)成,表示為ct={wt?k,···,wt+k},不包括wt,ct可以看成一個(gè)隨著變化而移動(dòng)的滑動(dòng)窗口,2k是窗口的大小.Word2Vec的兩個(gè)模型可以寫成極大化如下目標(biāo)函數(shù)的形式:

      其中,ct是wt的上下文,概率函數(shù)可以表示成一個(gè)softmax函數(shù):

      在CBOW模型中,ywt表示成隱藏變量和向量的內(nèi)積,在 S k i p-G r a m模型中,.CBOW中的隱藏變量可以用上下文的窗口向量表示,一般是窗口內(nèi)所有單詞向量的均值或者相連,而Skip-Gram中的隱藏變量就是wt上下文中的一個(gè)單詞向量.如果是利用均值表示,隱藏變量寫成如下形式:

      訓(xùn)練過程需要大量的文本語料庫,將語料庫構(gòu)造一系列的滑動(dòng)窗口,利用隨機(jī)梯度下降和反向傳播算法優(yōu)化,不斷的對(duì)參數(shù)更新,同時(shí)對(duì)詞向量進(jìn)行更新,得到最終的語言模型.CBOW和Skip-Gram的優(yōu)勢在于用一個(gè)比較簡單的神經(jīng)網(wǎng)絡(luò)模型就可以構(gòu)造出語言模型,同時(shí)得到了具有語義相關(guān)性的單詞分布式表示.而且論文利用負(fù)采樣(Negative Sampling),子采樣(Subsampling)和層級(jí)softmax等技術(shù)進(jìn)一步提升了模型的效率[3,4].

      2.2 PV-DM和PV-DBOW

      PV-DM和PV-DBOW類比Word2Vec的方式學(xué)習(xí)文檔的特征表示,分別在CBOW和Skip-Gram模型中添加一個(gè)段ID(Paragraph ID),這個(gè)段ID就是指句子或者文檔的表示向量,維度與詞向量相同,記為v(S).基于CBOW的句子表示模型稱為PV-DM,它在構(gòu)造隱藏變量時(shí)聯(lián)合窗口內(nèi)的詞向量和文檔向量v(S),隱藏向量可以寫成如下形式:

      PV-DBOW是直接通過當(dāng)前的段ID來預(yù)測文檔中所有的目標(biāo)單詞.隱藏向量就是文檔向量h(wt)=v(S).相比Word2Vec模型,PV-DM和PV-DBOW的優(yōu)化方式相似,每篇文檔多出一個(gè)文檔向量的更新,它們的結(jié)構(gòu)如圖1所示.

      圖1 PV-DM 和 PV-DBOW 模型

      2.3 HADR模型

      HADR模型是本文提出的一個(gè)基于注意力機(jī)制文檔表示模型,該模型研究了文檔的層級(jí)結(jié)構(gòu),提出一種基于層級(jí)的注意力機(jī)制利用在文檔的表示學(xué)習(xí)中.相比于PV-DM和aCSE來說考慮更加詞與詞之間的相關(guān)性[7,14].

      假設(shè)文檔具有層級(jí)關(guān)系,文檔由句子構(gòu)成,句子由單詞構(gòu)成.D= {S1,S2,···,SN},N表示文檔包含的句子的個(gè)數(shù),同樣的,第n個(gè)句子可以表示成是第n個(gè)句子的長度.與Word2Vec結(jié)構(gòu)類似,假設(shè)目標(biāo)單詞是wn,t,上下文可以表示成.為了同時(shí)得到句子向量和文檔向量,層級(jí)結(jié)構(gòu)語言模型通過句子,文檔和窗口單詞來預(yù)測目標(biāo)單詞,HADR模型的目標(biāo)函數(shù)如下:

      通過窗口向量v(cn,t),句子向量v(Sn),文檔向量v(D)三個(gè)向量構(gòu)造當(dāng)前窗口的隱藏變量,然后通過隱藏變量和單詞向量構(gòu)造的softmax函數(shù)實(shí)現(xiàn)目標(biāo)單詞wn,t的預(yù)測.最關(guān)鍵的問題就是如何構(gòu)建這個(gè)隱藏向量才能體現(xiàn)文檔中的重要組成部分.下面介紹通過層級(jí)的方式來構(gòu)造層級(jí)的隱藏變量,構(gòu)造一種層級(jí)的注意力機(jī)制.

      相比于CBOW模型,為了體現(xiàn)窗口中單詞對(duì)窗口向量的貢獻(xiàn)不一樣,在將所有詞向量相加的時(shí)候,給每個(gè)詞向量賦予一個(gè)權(quán)值.表示成如下形式,a0代表0級(jí)注意力機(jī)制,窗口向量也可以看成0級(jí)隱藏變量:

      在上下文中,窗口內(nèi)的詞與目標(biāo)詞語義越相近,它對(duì)窗口的貢獻(xiàn)越大,賦予更大的權(quán)值.例如窗口單詞是“the cat is”,目標(biāo)單詞是“playing”,“cat”與“playing”相關(guān),權(quán)值越大,“the”、“is”與“playing”不相關(guān),權(quán)值小.由于詞向量的語義相關(guān)性,可以通過向量的內(nèi)積來表示單詞之間的相關(guān)性.0級(jí)注意力可以通過歸一化的向量內(nèi)積表示:

      0級(jí)注意力機(jī)制的設(shè)計(jì)是針對(duì)一個(gè)單詞的局部注意力.另外一方面,本文希望能得到一個(gè)句子或者一篇文檔的全局注意力,也就是針對(duì)句子或者文檔中的每個(gè)單詞的重要性.當(dāng)詞向量和句子向量比較接近時(shí),模型給句子賦予更大的權(quán)值,這樣1級(jí)注意力就可以用加入sigmoid函數(shù)的詞向量和句向量內(nèi)積表示,如下:

      Sigmoid函數(shù)作為神經(jīng)網(wǎng)絡(luò)的激活函數(shù),形式如下sigmoid(x)=1/(1+exp(?x)).與 PV-DM 模型類似,1 級(jí)隱藏變量就可以表示成上一級(jí)隱藏向量和句子向量的加權(quán)求和:

      至此,最終的隱藏向量構(gòu)造出來了,a2n表示句子Sn在文檔D中的重要性.接下來的步驟與PV-DM相同了,通過最終隱藏向量去預(yù)測目標(biāo)詞wn,t.HADR模型在更新文檔向量、句子向量和詞向量的同時(shí)更新各級(jí)的注意力值,并且所有的變量直到得到最優(yōu)的模型更新停止,最終得到具有更強(qiáng)語義的句子表示和文檔表示,并且量化了詞在句子中的重要性(注意力)和句子在文檔中的重要性.HADR結(jié)構(gòu)如圖2所示.

      圖2 層級(jí)注意力結(jié)構(gòu)的文檔表示模型

      3 實(shí)驗(yàn)與結(jié)果分析

      為了研究層級(jí)注意力機(jī)制在文檔表示中的作用,本文從情感分析實(shí)驗(yàn)與現(xiàn)有的未加入注意力機(jī)制的PV-DM和Word2Vec模型進(jìn)行對(duì)比.在這個(gè)章節(jié)中,本文開始介紹模型使用的數(shù)據(jù)集,然后介紹實(shí)驗(yàn)代碼的實(shí)現(xiàn)以及參數(shù)的設(shè)置,最后介紹基于文檔表示的情感分析,并且與現(xiàn)有一些模型對(duì)比.

      3.1 IMDB數(shù)據(jù)集和預(yù)處理

      IMDB(Internet Movie Data Base)是英文的電影評(píng)分?jǐn)?shù)據(jù)集,每條評(píng)論包括一條文本,可能是一個(gè)句子(sentence),也可能是由多個(gè)句子組成的文檔(document).在所有IMDB數(shù)據(jù)中,一部分評(píng)論已經(jīng)打分為1-10,更高的評(píng)分表示用戶更加喜歡該電影,對(duì)應(yīng)的評(píng)論也具有更積極地評(píng)價(jià).更多的,把打分劃分為消極的(1,2,3,4 分)、積極的(7,8,9,10 分),將中性打分(5,6分)的評(píng)論數(shù)據(jù)刪除.IMDB情感分類的任務(wù)就是給定一條評(píng)論文本,預(yù)測它的情感是積極的還是消極的.除了已打分的評(píng)論,還有一部分評(píng)論沒有任何打分,本文的模型通過無監(jiān)督學(xué)習(xí)方式把這些未標(biāo)記評(píng)論也加入到單詞向量的學(xué)習(xí)中來.圖3中展示了100 000條積極、消極和未標(biāo)記評(píng)論數(shù)據(jù)的分布.

      圖3 IMDB積極、消極和未標(biāo)記數(shù)據(jù)大小

      在實(shí)驗(yàn)中,本文對(duì)評(píng)論數(shù)據(jù)進(jìn)行了預(yù)處理操作,刪除停用詞(stop words),例如在英文中的停用詞有:the,a,of等.在情感分析中,停用詞的作用非常小,幾乎不影響整個(gè)句子的含義.同時(shí)將所有的字符都轉(zhuǎn)化成小寫字符,刪除語料庫中頻率低于5個(gè)的單詞,最終得到的詞匯表大小為64 720.通過這樣一系列的預(yù)處理操作降低了計(jì)算復(fù)雜度.

      3.2 實(shí)現(xiàn)與參數(shù)設(shè)置

      本文擴(kuò)展Python庫gensim中Doc2Vec腳本,實(shí)現(xiàn)了文本提出的HADR模型.為了讓HADR模型和現(xiàn)有的模型具有可比性,文本使用了相似的參數(shù)設(shè)置:初始的學(xué)習(xí)率alpha設(shè)置為0.05,滑動(dòng)窗口大小為5(目標(biāo)單詞左右各5個(gè)單詞),負(fù)采樣大小為25個(gè)單詞,子采樣取值為 10e–3.訓(xùn)練的時(shí)候采用了分層 softmax,刪除了詞頻小于5的單詞.為了使得單詞向量和句子向量充分的學(xué)習(xí),HADR算法和對(duì)比算法都迭代20次.在對(duì)比模型的時(shí)候使用相同的向量維度進(jìn)行對(duì)比.

      3.3 情感分析實(shí)驗(yàn)

      通過模型得到文檔的特征表示之后,本文使用IMDB數(shù)據(jù)情感分析來評(píng)價(jià)文本表示學(xué)習(xí)的性能.電影評(píng)論信息能表示一個(gè)電影的評(píng)價(jià),它代表了一個(gè)電影的商業(yè)價(jià)值,對(duì)電影評(píng)論進(jìn)行情感分析具有重大的意義.實(shí)驗(yàn)通過給定的訓(xùn)練集來預(yù)測測試集合中評(píng)論的情感分類,分類器使用了來自scikit-learn庫的邏輯回歸代碼,邏輯回歸是一個(gè)成熟的特征分類模型,在很多分類問題上取得不錯(cuò)的效果.本文使用50 000個(gè)已標(biāo)記的數(shù)據(jù)進(jìn)行情感分類實(shí)驗(yàn),利用5折交叉驗(yàn)證進(jìn)行實(shí)驗(yàn),也就是將數(shù)據(jù)分成5份,其中4份作為訓(xùn)練數(shù)據(jù),剩下的一份作為測試數(shù)據(jù),最終取5次實(shí)驗(yàn)的均值值作為指標(biāo).

      本文對(duì)比了一些文本表示模型,其中包括:

      (1)Word2Vec[4,5]:Word2Vec 模型得到詞向量,參數(shù)設(shè)置和本文模型相似,文檔表示向量通過所有的詞向量相加得到(Google的C代碼);

      (2)Doc2Vec[7]:通過 gensim 中的 Doc2Vec 腳本得到的文檔表示,參數(shù)設(shè)置與本文的模型相似(gensim實(shí)現(xiàn));

      (3)TF-IDF:通過 TF-IDF 算法統(tǒng)計(jì)文本的詞頻-逆文檔頻率作為的文本特征(scikit-learn實(shí)現(xiàn)).

      本文使用相同參數(shù)的邏輯回歸分類器對(duì)不同模型得到的文檔表示進(jìn)行分類實(shí)驗(yàn),實(shí)驗(yàn)通過正確率(Accuracy)來評(píng)價(jià),正確率越高表明模型的效果越好.文本對(duì)比了在不同維度下,不同模型的情感分類效果,如圖4所示.我們可以看出隨著維度的增長,不同模型都呈現(xiàn)的性能都有提升的趨勢,HADR模型在考慮了文檔中單詞和句子的重要性之后取得了最好的效果,并且在dim=200的時(shí)候效果基本接近最佳,之后增大文本表示維度對(duì)情感分類的效果影響不大.

      同時(shí)實(shí)驗(yàn)對(duì)比了Doc2Vec和HADR模型在不同迭代步數(shù)的分類正確率,兩個(gè)模型使用相同的向量維度dim=200,而且運(yùn)行到20最大的迭代步數(shù),其他參數(shù)與3.2章節(jié)相同.Doc2Vec和HADR模型實(shí)驗(yàn)對(duì)比結(jié)果如圖5所示.同樣的每次分類使用5折交叉驗(yàn)證取5次實(shí)驗(yàn)的平均值.從圖中可以看出,兩個(gè)模型在隨著迭代步數(shù)增長,性能都有所提升,而且迭代步數(shù)達(dá)到一定步數(shù),性能提升比較小.

      圖4 HADR算法與對(duì)比算法的分類正確率對(duì)比

      圖5 HADR 算法與 Doc2Vec 不同迭代次數(shù)的性能

      4 結(jié)論與展望

      基于Le等人提出的PV-DM算法[7],本文在考慮了句子中不同單詞具有不同重要性以及文檔中句子也具有不同重要因素,提出一種具有層級(jí)結(jié)構(gòu)的注意力模型來學(xué)習(xí)文本表示.改進(jìn)的算法不僅得到了文檔更好的表示,也得到文檔的多級(jí)表示,同時(shí)通過這樣無監(jiān)督的注意力模型得到句子中每個(gè)單詞重要性以及文檔中每個(gè)句子的重要性,這樣將文本中每個(gè)部分的注意力值量化出來.下一步工作將繼續(xù)考慮文本的其他因素學(xué)習(xí)文本表示,模擬人類遺忘機(jī)制,人類在閱讀一段文本的時(shí)候不僅會(huì)將注意力轉(zhuǎn)移到幾個(gè)關(guān)鍵的單詞上或者句子上還會(huì)部分遺忘之前看的內(nèi)容.之后的工作希望能構(gòu)建一個(gè)具有遺忘機(jī)制的文本表示模型.

      猜你喜歡
      層級(jí)文檔注意力
      讓注意力“飛”回來
      有人一聲不吭向你扔了個(gè)文檔
      軍工企業(yè)不同層級(jí)知識(shí)管理研究實(shí)踐
      基于軍事力量層級(jí)劃分的軍力對(duì)比評(píng)估
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      A Beautiful Way Of Looking At Things
      任務(wù)期內(nèi)多層級(jí)不完全修復(fù)件的可用度評(píng)估
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      不讓他人隨意下載Google文檔
      電腦迷(2012年4期)2012-04-29 06:12:13
      江西省| 汉中市| 南部县| 凌海市| 陕西省| 黎城县| 桦南县| 玉环县| 富阳市| 南靖县| 奉新县| 安徽省| 锡林浩特市| 峨山| 宁国市| 明溪县| 漳浦县| 筠连县| 铁岭市| 称多县| 平南县| 盖州市| 岳西县| 法库县| 平利县| 利津县| 邯郸县| 东兰县| 桦甸市| 璧山县| 中阳县| 桑日县| 天台县| 晋城| 金平| 胶南市| 萨迦县| 上饶县| 鲁甸县| 彩票| 凌源市|