• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于HDP的主題詞向量構造
      ——以柬語為例*

      2020-06-22 12:29:54徐廣義莫源源
      計算機工程與科學 2020年6期
      關鍵詞:主題詞語料文檔

      李 超,嚴 馨,謝 俊,徐廣義,周 楓,莫源源

      (1.昆明理工大學信息工程與自動化學院,云南 昆明 650504;2.昆明理工大學云南省人工智能重點實驗室,云南 昆明 650504; 3.云南南天電子信息產(chǎn)業(yè)股份有限公司,云南 昆明 650400;4.云南民族大學東南亞南亞語言文化學院,云南 昆明 650500; 5.上海師范大學語言研究所,上海 200234)

      1 引言

      詞向量又稱為詞編碼,是一種使用自然語言處理方法從大量的文本中學習、提取詞特征信息的一種表示方法,它將文本中的多種上下文關系使用數(shù)學中的向量進行表示。自然語言處理中,詞是表義的基本單元,詞向量是非?;A和重要的,廣泛地應用于命名實體識別、句法情感分析等方面。東南亞小語種之一的柬埔寨語,又稱高棉語,其發(fā)展過程中受到多種語言的影響,其構詞方式多樣,例如四音歌詞[1],特殊的構詞,結構緊密,語義有較強的概括性,1個詞具有多個義項,有的義項與該詞本身意義相差甚遠。由于自然語言處理研究大部分集中于英語,且不能有效地應用于柬語等小語種,在面對語料匱乏,人工標注花費巨大等問題時,我們希望資源較少的柬語也能學習出更高效的詞向量,作為柬語信息處理乃至柬漢雙語信息處理技術的基礎資源,為接下來的研究作鋪墊,所以我們以柬語為例提出基于層次狄利克雷過程HDP(Hierarchical Dirichlet Process)的主題詞向量構建方法。

      目前構建的單一詞向量,無法更有效地解決一詞多義和一義多詞等問題?;谏窠?jīng)網(wǎng)絡的詞向量學習方法的最重要思想是通過給定的上下文對目標詞匯出現(xiàn)的概率進行預測。Mikolov等[2]通過一個循環(huán)神經(jīng)網(wǎng)絡的模型來實現(xiàn)詞向量的訓練,其特點是簡化了原有模型中復雜參數(shù)的訓練過程,并且更為全面地利用到語料中的上下文信息。在文獻[2]的詞向量模型的基礎上改進而來的模型word2vec[3],是由Google公司提出的一個能夠?qū)⒄Z料中的單詞轉(zhuǎn)化為詞向量的工具,該訓練模型中將原有神經(jīng)網(wǎng)絡中最復雜的隱藏層刪除掉了,這樣能夠大大降低模型訓練時的計算復雜度。該模型主要是由根據(jù)上下文來預測目標詞的CBOW(Continuous Bag Of Words)模型和根據(jù)目標詞對上下文進行預測的Skip-Gram模型組成。上述訓練詞向量的模型訓練出的詞向量均是1個單詞對應著1個詞向量,無法合理地分辨多義詞,且無法很好地解決詞向量的歧義等問題。Liu等[4]提出了TWE(Topic Word Embeddings)模型,其基本思想是通過LDA(Latent Dirichlet Allocation)主題模型獲取單詞主題,形成單詞-主題對,然后將主題視為偽單詞,通過Skip-Gram模型分別學習主題向量和詞向量,最后進行級聯(lián)得到主題詞向量。該主題詞向量將詞的主題信息融入到詞向量信息中,解決了單一詞向量存在的一詞多義和一義多詞的問題,但是該模型中使用的LDA主題模型的主題數(shù)目需要人工設定。人工主題數(shù)目的設定與個人經(jīng)驗息息相關,因而人工經(jīng)驗對于主題模型的訓練結果影響較大。而后在此基礎上,吳旭康等[5]針對TWE模型中將單詞向量和主題向量進行簡單連接的方式會存在向量表達性上不夠突出的問題,提出了單詞主題混合WTM(Word-Topic Mixture)模型。李思宇[6]提出使用BTM(Biterm Topic Mode)主題模型來代替LDA主題模型的方法,解決了LDA主題模型在短文本的主題建模上效果不佳的問題。

      上述前期調(diào)研表明,目前對詞向量構建的研究,已有一些可借鑒的成果。目前存在單一詞向量無法對多義詞有效分辨;一詞對應多個詞向量,過于繁復;LDA主題模型人工設定主題數(shù)對模型訓練結果影響較大等問題。為有效地進一步研究我們面對的柬語等小語種資料匱乏,不同語境下詞的歧義,一詞多義等特殊情況,本文提出了基于HDP主題模型的主題詞向量構造方法,能夠較好地解決上述存在的一詞多義和一義多詞等問題,且主題數(shù)目通過訓練的語料學習得到,領域適應性也有擴大。該方法在單一詞向量基礎上融入了主題信息,首先通過HDP主題模型得到單詞主題標簽;然后將其視為偽單詞與單詞一起輸入Skip-Gram模型,同時訓練出主題向量和詞向量;最后將文本主題信息的主題向量與單詞訓練后得到的詞向量進行級聯(lián),獲得文本中每個詞的主題詞向量。

      2 HDP主題模型

      2.1 HDP主題模型的原理

      通常認為文檔中的單詞是由許多潛在的“主題”產(chǎn)生的,其中1個主題通常被建模為一些基本詞匯中單詞的多項式概率分布。我們希望擴展模型,在多個文檔中共享潛在的主題,Teh等[7]定義了層次狄利克雷過程HDP,HDP本身是一組隨機概率測度的分布。為了確保文檔之間可以共享主題,HDP文檔之間共享從連續(xù)基分布H得出的離散分布G0,G0是一個離散的隨機度量,是每個文檔主題分布的先驗。

      HDP主題模型的基礎是狄利克雷過程,其原理如圖1所示,在該原理圖中,圓形代表分布,小矩形框代表參數(shù),陰影部分代表觀測到的變量,大矩形框代表其中過程可重復,進行實驗的語料集是1個含有M篇文檔的文檔集,假定在其中的每篇文檔的主題信息是相互共享的,那么此時各個文檔的主題都是以基分布H為基礎的。更正式地說,HDP為每個文檔d定義了一組隨機概率度量Gj,以及一個全局隨機概率度量G0。G0是從基本分布H構造的狄利克雷過程中得出的。在這種結構中,全局度量G0從基本分布H中選擇所有可能的主題,然后每個Gj從G0得出文檔d所需的主題。因此,HDP主題模型的過程為:

      (1)從H和聚集度參數(shù)γ構成的狄利克雷過程抽樣產(chǎn)生一個G0,即整個文檔集的基分布滿足狄利克雷過程,具體表示如式(1)所示:

      G0~DP(γ,H)

      (1)

      (2)以G0作為基分布和聚集度參數(shù)α0對每一篇文檔構造狄利克雷過程,此時每篇文檔都滿足一個狄利克雷過程,具體表示如式(2)所示:

      Gj|G0~DP(α0,G0)

      (2)

      (3)最后依據(jù)Gj這一層次狄利克雷過程作為先驗分布,構造狄利克雷過程混合模型,具體表示如式(3)和式(4)所示:

      θji|Gj~Gj

      (3)

      xji|θji~F(θji)

      (4)

      其中,F(xiàn)(θji)表示在給定參數(shù)θji的前提下,觀測變量xji的分布,這里采取多項式分布,與基分布H構成共軛分布。參數(shù)θji條件獨立服從分布Gj,觀測的變量xji條件獨立服從分布Fji(θji)。

      此模型本質(zhì)上是實現(xiàn)了LDA的非參數(shù)版本,該LDA在語料庫的所有文檔中共享無限數(shù)量的主題。

      Figure 1 Schematic diagram of HDP model圖1 HDP主題模型的原理圖

      2.2 HDP主題模型的構造過程

      θji|θj1,θj2,…,θj,i-1,α0,

      (5)

      Ψjt|Ψ11,Ψ12,…,Ψ21,…,Ψj,t-1,γ,

      (6)

      從上述構造過程可以看出,CRF的過程就是按照一定的概率規(guī)則為顧客分配菜和餐桌,首先為每個顧客分配餐桌,已有餐桌被選中的概率與其就座的顧客數(shù)成正比,而新餐桌也允許以一定的概率被選中,在完成餐桌指派后,為每張餐桌分配菜肴,已有菜肴被選中的概率與其供應的餐桌數(shù)成正比,而新菜肴也允許以一定的概率被選中。對應到文檔的聚類問題上,即為文檔中單詞對應主題的過程,一旦完成CRF構造,即可采用模型參數(shù)后驗分布推斷方法求解HDP主題模型,進而獲取整個文檔集的主題分布。

      Figure 2 CRF construction process圖2 CRF構造過程

      2.3 基于吉布斯采樣的參數(shù)估計

      CRF的構造分為3個步驟,首先將每個文檔中的單詞劃分到每一張餐桌,然后為每張餐桌劃分配菜(也就是主題),最后從此種層次化的劃分中為單詞分配潛在主題。通過上述基于CRF構造的Gibbs采樣算法迭代地為每個單詞分配潛在的主題標簽,我們將對文檔j中每個單詞標記的tji進行采樣,然后對文檔j中每個kjt進行采樣。

      (1)對t進行采樣。

      首先根據(jù)式(6)可得xjt的條件概率為:

      p(xji|t-ji,tji=tnew,k)=

      (7)

      則可得到tji的條件概率為:

      (8)

      如果采樣的tji是tnew,此時通過式(8)可以得到kjtnew的采樣概率:

      (9)

      (2)對k進行采樣。

      在完成所有的餐桌分配之后,便可以對餐桌進行菜品的分配。kjt采樣類似于tji,因此kjt的后驗概率正比于選擇菜品k的桌子數(shù)目與xjt的條件概率之積:

      (10)

      其中,k表示已有顧客點的菜。

      3 主題詞向量模型

      3.1 Skip-Gram模型

      基于層次Softmax的Skip-Gram模型根據(jù)輸入的單詞對上下文進行預測,每個單詞對應唯一1個向量,輸入單詞詞向量用作預測上下文的特征。該模型的最終優(yōu)化目標是:

      (11)

      (12)

      (13)

      如引言部分所述,本文希望結合詞向量模型Skip-Gram和主題模型HDP增強向量的表示能力。

      3.2 改進主題詞向量模型

      在Skip-Gram的詞向量模型中,每個詞都是用唯一的向量進行表示。為了能夠?qū)⑽谋局胁煌Z境下?lián)碛胁煌x的單詞在進行向量表達時區(qū)分開來,并且克服LDA主題模型需要人工設定主題的缺點,本文采用了HDP主題模型來對向量的語義信息進行補充,也就是說通過結合主題模型HDP和詞向量模型Skip-Gram來增強向量的表示能力,于是本文提出了基于HDP主題模型和Skip-Gram模型的改進主題詞向量模型。

      主題詞向量的構造依賴于每個單詞的主題信息。首先通過HDP模型獲取單詞主題并將其視為偽單詞;然后分別將單詞和主題作為Skip-Gram模型的初始輸入分別學習詞嵌入與主題嵌入;最后將訓練得到的單詞的詞向量和主題向量進行級聯(lián),得到單詞的主題詞向量,并通過詞相似度任務和文本分類任務對得到的主題詞向量進行實驗,以評估得到的主題詞向量性能的好壞。主題詞向量模型如圖3所示,該主題詞向量模型的目標函數(shù)是最大化式(14)所示的對數(shù)函數(shù):

      logP(wi+j|zi)

      (14)

      其中,wi表示目標單詞,zi表示目標單詞的主題(被視為偽單詞),為每一個詞分配一個潛在主題zi∈TS。因為我們使用的是基于層次Softmax的Skip-Gram模型,通過隨機行走的方式為每一個單詞賦予一個概率。使用隨機梯度算法時,通過歸一化向量以保證最終目標函數(shù)能夠較快收斂。

      Figure 3 Improved topic word embeddings model圖3 改進的主題詞向量模型

      從圖3可知,本文中的主題詞向量模型與Skip-Gram模型相類似,包含有3層結構,訓練完成后輸出w和z,分別是單詞所對應的詞向量和主題向量。輸出層則可根據(jù)級聯(lián)之后的主題詞向量對其目標單詞上下文進行預測。

      改進的主題詞向量模型的基本思想是將HDP主題模型訓練出來的每個主題看做是一個偽單詞,出現(xiàn)在分配給該主題的單詞的所有位置,那么訓練出來的主題向量便代表了該主題下所有單詞的集合語義。

      在該主題詞向量模型中,通過級聯(lián)w和z(即wz=w⊕z)來獲得詞的主題詞向量。其中,⊕是級聯(lián)操作符號,為了簡化整個模型的計算過程,在本文中設置的主題向量的維度和詞向量的維度相同。因此,級聯(lián)之后的主題詞向量wz的向量維度是w或者z的2倍。

      但是,由于訓練得到的主題向量和詞向量數(shù)值相差較大,其中主題向量較大,詞向量較小,因而需要對主題向量和詞向量分別進行歸一化,如式(15)和式(16)所示。

      (15)

      (16)

      其中,A∈Rm×n和B∈Rm×n為主題向量和詞向量矩陣(為了簡便計算,模型要求單詞向量和主題向量擁有相同的維度),其中m是詞表中單詞個數(shù),n是詞向量維數(shù);i=1,2,3,…,m;j=1,2,3,…,n;A′∈Rm×n和B′∈Rm×n為歸一化后的主題向量和詞向量矩陣。然后將歸一化后的單詞詞向量和主題向量進行級聯(lián)獲得主題詞向量。

      上述獲得的主題詞向量可以應用于上下文單詞相似度的計算。這里的相似度計算并不是直接對得到的主題詞向量進行相似度計算,而是需要基于單詞的上下文,即通過當前單詞的主題詞向量來獲得其上下文單詞的主題詞向量。具體來說,對于文本中的每個單詞w和其上下文c,首先根據(jù)HDP主題模型可以推斷出若將上下文c看成1個文檔,則可以得到P(z|w,c),即此時P(z|w,c)∝P(w|z)P(z|c)。在此之后便可以進一步得到詞w的上下文詞c向量,即:

      wc=∑z∈TSP(z|w,c)oz

      (17)

      其中,oz為主題詞向量,通過連接歸一化后的詞向量和主題向量獲得。通過式(17)可知,本文將模型中得到的所有的主題的概率作為權重,進行加權求和,得到最終的上下文詞向量。

      Figure 4 Reptile crawling Khmer corpus圖4 爬取的柬埔寨語料

      由式(17)得到上下文詞向量的目的是用于衡量兩個詞之間的相似性,于是,給定2組具有上下文的單詞(wi,ci)和(wj,cj),其上下文單詞相似度的計算采用AVGSimC公式,如式(18)所示:

      ∑z∈TS∑z′∈TS′P(z|wi,ci)P(z′|wj,cj)S(oz,oz′)

      (18)

      (19)

      4 實驗結果與分析

      本節(jié)將主題詞向量分別從上下文單詞相似度、文本分類2個任務進行實驗,對比評估多種相關模型的性能。

      4.1 數(shù)據(jù)集

      本文實驗所需要的語料包括2類:第1類是能夠提供訓練主題詞向量的訓練語料;第2類是為檢測文中改進的主題詞向量模型的性能而進行相關測試的測試語料。本文中的實驗訓練數(shù)據(jù)全部來自于柬埔寨語的各大官方網(wǎng)站[9],如圖4所示,首先將爬取的柬埔寨篇章語料通過預處理切分為小文檔;然后對柬埔寨語進行分詞,采用實驗室已搭建好的分詞工具得到的語料規(guī)模為5 000篇文檔,1 108 423個單詞。針對2種不同的實驗任務采用了不同的測試集。

      4.2 實驗設置

      在本文提出的主題詞向量模型中,由于使用的是自適應主題數(shù)目的HDP主題模型,所以該模型中需要設定的參數(shù)只有主題向量和詞向量的維度,為了簡化計算,本文中設置主題向量和詞向量的維度均為100。本文使用Skip-Gram模型,并將模型窗口的大小設置為5。使用HDP主題模型訓練詞的主題標簽時需要設置該模型的超參數(shù)α,γ,以及迭代次數(shù),本文中這些參數(shù)分別設置為α=1,γ=0.1,迭代次數(shù)為100。整個實驗環(huán)境為Intel i7的處理器,64 GB內(nèi)存。

      4.3 單詞相似度和文本分類實驗

      (1)單詞相似度實驗。

      這里的單詞相似度需要考慮單詞的上下文,但是傳統(tǒng)的諸如WordSim353等的測試集是孤立的單個單詞,并不適于本文實驗,于是,本文采用的是具有上下文的單詞數(shù)據(jù)集SCWS(具體語料如圖5所示),此數(shù)據(jù)集包括2 003對單詞和包含這些單詞的句子,應用于本文的柬埔寨語時需要將其翻譯為柬埔寨語。然后再由10個柬埔寨語學習者對測試集中每2個單詞的相似度進行打分,打分的原則是個人根據(jù)理解給每一對單詞打出1個0~10的分數(shù)。本文取10個打分值的平均數(shù)作為參考分數(shù)值。而且考慮到模型計算得到的相似度與人為打分值差異較大,本文采用斯皮爾曼相關系數(shù)評價最終模型打分與人為打分的接近程度。具體的計算公式如式(20)所示:

      (20)

      其中,r表示等級個數(shù),即測試集中包含的詞語對的數(shù)量;g表示2組單詞之間的等級差數(shù);gi表示第i組單詞的等級差。

      Figure 5 SCWS data set圖5 數(shù)據(jù)集SCWS

      在該實驗任務中進行的對比實驗是將本文所得到的主題詞向量模型和Skip-Gram模型、LDA主題模型、HDP主題模型、LDA-Skip-Gram的主題詞向量模型在上下文單詞相似度任務上進行結果對比。

      (2)文本分類實驗。

      文本分類實驗采用的數(shù)據(jù)集是基于柬埔寨語官方網(wǎng)站爬取的,其中80%的語料作為實驗訓練集,20%的語料用于實驗測試集。然后對這些語料進行整理并進行預處理。文本的預處理是對原始語料進行分詞和去停用詞,使用的分詞工具是Khmer Unicode Line Breake。為了能夠提取文檔的特征,本文引入文檔向量:

      (21)

      在該實驗任務中,將本文得到的主題詞向量模型和LDA主題模型、Skip-Gram模型、HDP主題模型以及LDA-Skip-Gram主題詞向量模型進行對比。其中,LDA主題模型和HDP主題模型均是使用其模型中的主題分布來代表文檔;Skip-Gram模型則是將文本中所有單詞的詞向量按數(shù)目求平均來代表文檔的向量;LDA-Skip-Gram主題詞向量模型則是使用類似于本文提出的主題詞向量模型中的方法進行文本分類。

      為了能夠直接評價各種模型針對文本分類任務的效果,文本使用精確度P、召回率R和F值評價方法對文本分類實驗結果進行估計。

      (22)

      (23)

      (24)

      4.4 實驗結果及分析

      本文的單詞相似度實驗是在柬埔寨語版本下的單詞具有上下文關系的SCWS測試集上進行的。

      實驗結果如表1所示,最終通過斯皮爾曼相關系數(shù)來對模型的相關性能進行判定,即在本文實驗中斯皮爾曼相關系數(shù)ρ越大,代表該模型對單詞相似度計算的結果越好。

      在本文實驗中,將本文提出的基于HDP主題模型和Skip-Gram詞向量模型構成的主題詞向量模型分別與其它主題模型和詞向量模型在單詞相似度上進行對比,從實驗結果可以看出,在相似度檢測實驗中,主題詞向量模型的結果優(yōu)于其他模型的。

      Table 1 Spielman coefficient of word similarity on SCWS data set表1 SCWS數(shù)據(jù)集上單詞相似度斯皮爾曼相關系數(shù)

      將本文提出的主題詞向量模型分別與LDA主題模型、HDP主題模型、Skip-Gram詞向量模型以及基于LDA主題模型和Skip-Gram詞向量模型的主題詞向量模型從精確度P、召回率R、F值指標方面進行了對比。結果如表2所示。

      Table 2 Experimental results of text classification表2 文本分類實驗結果

      通過上述實驗結果可知,在柬埔寨語測試語料的環(huán)境下,本文所提出的基于HDP主題模型和Skip-Gram詞向量模型在本文分類任務中精確度達到了74.5%,相較于傳統(tǒng)的單一詞向量模型Skip-Gram模型在分類精確度上有了一定的提高,同時相較于同類型的基于LDA主題模型和Skip-Gram詞向量模型的主題詞向量模型也有了一定的提高。由此可以說明,本文所提出的主題詞向量模型在針對柬埔寨語的文本分類任務中有著十分重要的作用。相比傳統(tǒng)模型和其他模型,本文模型的優(yōu)勢在于,HDP主題詞向量方法相對簡潔,且對不同上下文語境語義相似情況也有所優(yōu)化;對于LDA-Skip-Gram模型,本文模型可以避免LDA主題數(shù)目需要人工設定的問題,能夠得到基于上下文的詞向量,生成的詞向量具有特定的主題,簡化了計算,提升了整體的運行速度。

      5 結束語

      本文提出一種基于HDP的柬語主題詞向量構造方法,在單一詞向量基礎上融入了主題信息,首先通過HDP模型得到單詞主題標簽;然后將其視為偽單詞與單詞一起輸入Skip-Gram模型,同時訓練出主題向量和詞向量;最后將文本主題信息的主題向量與單詞訓練后得到的詞向量進行級聯(lián),獲得文本中每個詞的主題詞向量。實驗結果表明,本文提出的主題詞向量模型在單詞相似度以及文本分類方面都有明顯的優(yōu)勢。將主題整合到了基本的詞向量表示中,并允許得到的主題詞向量能夠在不同的語境下對單詞的不同含義進行建模。與單一的詞向量模型相比,這種方法不僅學習到了文本層面中單詞的主題信息,而且學習到了詞層面的信息;能夠較好地解決單一詞向量存在的一詞多義和一義多詞等問題,且主題數(shù)目不需要手工設定。下一步我們將改進級聯(lián)方法,獲得更為完善的主題詞向量模型的構建方法。

      猜你喜歡
      主題詞語料文檔
      有人一聲不吭向你扔了個文檔
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      基于RI碼計算的Word復制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      華語電影作為真實語料在翻譯教學中的應用
      我校學報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
      我校學報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
      2014年第16卷第1~4期主題詞索引
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學實證研究比較:語料類型與收集方法
      环江| 福泉市| 信阳市| 进贤县| 庆云县| 平陆县| 丰顺县| 同江市| 南汇区| 宜川县| 开原市| 温泉县| 嘉禾县| 长垣县| 道孚县| 融水| 阿图什市| 报价| 古交市| 云阳县| 呈贡县| SHOW| 济南市| 东城区| 东港市| 马边| 青海省| 噶尔县| 新兴县| 马尔康县| 彩票| 南郑县| 平南县| 丰镇市| 磐石市| 华坪县| 贡觉县| 罗平县| 宁河县| 海丰县| 历史|