• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Skip-Gram結(jié)構(gòu)和詞嵌入特性的文本主題建模

    2020-07-13 06:16:26夏家莉曹中華彭文忠張守勝
    關(guān)鍵詞:中心詞主題詞一致性

    夏家莉,曹中華,2,彭文忠,張守勝

    1(江西財(cái)經(jīng)大學(xué) 信息管理學(xué)院、財(cái)政大數(shù)據(jù)中心,南昌 330032) 2(江西師范大學(xué) 軟件學(xué)院,南昌 330022)

    1 引 言

    從大量文本中獲取主題,一直是文本挖掘領(lǐng)域的研究熱點(diǎn).主題挖掘相關(guān)模型常采用無(wú)監(jiān)督的學(xué)習(xí)方式,可以從文本語(yǔ)料挖掘具有不同語(yǔ)義的主題,并將文本表示為不同主題的混合分布,從而幫助人們理解大量文本所描述的主要內(nèi)容.

    隨著神經(jīng)網(wǎng)絡(luò)和詞嵌入方法在許多NLP任務(wù)中取得成功,近年來(lái),出現(xiàn)了許多應(yīng)用詞嵌入向量和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的文本主題模型研究,這些研究結(jié)果顯示,使用詞嵌入的主題模型能夠極大地提高文本主題的挖掘效果.早期的主題效果評(píng)價(jià)多采用困惑度的方法,然而后續(xù)的一些研究也表明,困惑度的評(píng)價(jià)和人們對(duì)主題詞的理解結(jié)果并不一致,由此研究者提出了主題一致性的評(píng)價(jià)標(biāo)準(zhǔn),主題代表詞的一致性可以更好的評(píng)價(jià)主題模型的效果.

    常見(jiàn)的詞嵌入向量獲取模型[1,2]和主題一致性評(píng)價(jià)[3,4]方法都使用了詞的點(diǎn)互信息(point-wise mutual information,pmi),二者存在緊密的聯(lián)系,但是現(xiàn)今還較少見(jiàn)到,在深入分析二者間的聯(lián)系后,將詞向量自身所具有的主題特點(diǎn)應(yīng)用于主題模型的研究.本文主要貢獻(xiàn)有:1)分析了主題一致性和詞嵌入向量間的聯(lián)系,引入Softmax函數(shù)生成主題-詞項(xiàng)分布,從而關(guān)聯(lián)主題嵌入和詞嵌入,以能夠使用詞嵌入的主題特性;2)提出主題分布式假設(shè):具有相似鄰居的詞具有相似的主題分布值,并設(shè)計(jì)了一種主題和詞間Skip-Gram神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的主題模型(Skip-Gram structure Topic Model,SG-TM),SG-TM模型能充分使用詞向量的相似性和關(guān)聯(lián)性信息,得到主題一致性更好的主題.

    2 相關(guān)研究工作

    主題模型研究早期常采用統(tǒng)計(jì)的方式,模型評(píng)價(jià)采用困惑度的方法,隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)概率主題模型是該方面的代表[5].由于模型假設(shè)文本內(nèi)每個(gè)詞的生成相互獨(dú)立,這樣會(huì)丟失詞間的序列信息,因此有研究通過(guò)修改模型的先驗(yàn)信息,或給模型加入后驗(yàn)約束信息來(lái)增強(qiáng)詞之間的關(guān)聯(lián).例如:詞的熵加權(quán)[6]、稀疏約束[7]、概念關(guān)系[8]、點(diǎn)互信息關(guān)系矩陣約束[9]、玻利亞甕模型增強(qiáng)詞和文本的主題頻數(shù)等[10,11].但是前期約束內(nèi)容處理結(jié)果會(huì)直接影響到模型的效果;且隨著語(yǔ)料的不同,一些詞之間的關(guān)系或具有多樣性,需要重新調(diào)整約束集內(nèi)容.

    近年來(lái)出現(xiàn)了一些神經(jīng)網(wǎng)絡(luò)相關(guān)結(jié)構(gòu)的主題模型研究,它們考慮到詞的嵌入式表示含有豐富的詞語(yǔ)義信息,所以期望通過(guò)神經(jīng)網(wǎng)絡(luò)直接利用詞嵌入結(jié)果,描述文檔的生成,獲得主題-詞和文檔-主題分布,提高主題挖掘效果.例如:可以使用神經(jīng)變分編碼方法[12];將每個(gè)主題建模為詞向量上的高斯分布[13];文本表示為詞向量的序列,從而用卷積神經(jīng)網(wǎng)絡(luò)獲得文本主題[14];把文檔-主題和主題-詞項(xiàng)參數(shù)分別用兩個(gè)前饋神經(jīng)網(wǎng)絡(luò)描述,然后結(jié)合兩個(gè)神經(jīng)網(wǎng)絡(luò)生成文本內(nèi)的目標(biāo)詞[15];還有用詞嵌入實(shí)現(xiàn)具有自適應(yīng)消息傳遞功能的監(jiān)督主題模型[16].但是這些主題模型多使用困惑度作為評(píng)價(jià)標(biāo)準(zhǔn),基于困惑度的主題評(píng)測(cè)方法,未解決人們對(duì)主題詞所表達(dá)語(yǔ)義的理解困難問(wèn)題.

    Ding和Krasnashchok考慮到詞嵌入的獲取方式和常見(jiàn)主題一致性的評(píng)價(jià)方法存在聯(lián)系[17,18],所以分別在Miao和Jey提出的神經(jīng)主題模型基礎(chǔ)上[12,14],使用詞嵌入構(gòu)造了類(lèi)似點(diǎn)互信息的約束項(xiàng),用于提高模型的主題一致性.但是他們都未區(qū)分詞的輸入、輸出嵌入向量和主題一致性的聯(lián)系;也未分析主題嵌入和主題詞嵌入間的聯(lián)系,并以此構(gòu)造主題模型.

    本文主題挖掘也采用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的詞向量建模方法,模型和標(biāo)準(zhǔn)LDA模型類(lèi)似,結(jié)構(gòu)較簡(jiǎn)單,但是能夠有效使用詞嵌入向量的相似性、關(guān)聯(lián)性,文本內(nèi)詞間序列信息,從而有效提高主題模型的一致性值,挖掘出更好地文本主題結(jié)果.

    3 主題一致性與詞嵌入向量間關(guān)系

    設(shè)主題模型的詞典集合是W,主題數(shù)為T(mén),Topic_Wordst?W表示第t個(gè)主題的代表詞集合,1≤t≤T,通常取每個(gè)主題的概率值最大的前10個(gè)詞.主題一致性是現(xiàn)今常見(jiàn)的主題效果評(píng)價(jià)標(biāo)準(zhǔn)[3,4,9],詞的點(diǎn)互信息常被用于度量主題的一致性,它通過(guò)計(jì)算主題代表詞在語(yǔ)料內(nèi)固定窗口大小的共現(xiàn)關(guān)系評(píng)價(jià)主題模型.主題一致性定義為:

    其中,p(wi,wo)表示詞對(duì)(wi,wo)的共現(xiàn)概率,p(wi),p(wo)表示詞wi,wo出現(xiàn)概率,是較小的常數(shù).

    詞嵌入向量學(xué)習(xí)模型多數(shù)基于分布式假設(shè):具有相似鄰居的詞具有相似語(yǔ)義的分布式表示.設(shè)中心詞為wi,上下文窗口大小為c,詞wi當(dāng)前上下文窗口內(nèi)的近鄰詞集表示為context(wi).Mikolov等基于中心詞和上下文窗口內(nèi)詞間關(guān)系,構(gòu)建了兩種詞嵌入學(xué)習(xí)模型:Skip-Gram、CBOW[2],還使用層狀Softmax或負(fù)采樣方法解決詞典集合W過(guò)大所造成的模型訓(xùn)練困難問(wèn)題.為獲得更好的詞嵌入表示向量,許多學(xué)者對(duì)詞嵌入向量表示進(jìn)行了更深入的研究.Pennington等提出了GloVe模型[1],該模型利用語(yǔ)料內(nèi)詞間全局共現(xiàn)信息訓(xùn)練詞嵌入向量,并在許多評(píng)測(cè)中取得了比Skip-Gram等模型更好的實(shí)驗(yàn)結(jié)果.由GloVe模型所采用的詞向量獲取方法能容易得出詞嵌入和主題一致性評(píng)價(jià)所存在的緊密聯(lián)系.

    (1)

    (2)

    ≈pmi(wi,wo)-pmi(wj,wo)

    (3)

    詞wi,wo的嵌入向量點(diǎn)積約等于它們間點(diǎn)互信息,所以:

    (4)

    pmi(wi,wo)=lnp(wi,wo)-lnp(wi)-lnp(wo)

    (5)

    令bi=-lnp(wi),bo=-lnp(wo),則由式(4),式(5)可得到:

    (6)

    式(6)如果將bi,bo作為殘差參數(shù)變量,則上述公式學(xué)習(xí)的目標(biāo)和GloVe模型類(lèi)似,而Shi的實(shí)驗(yàn)表明[19],GloVe模型的殘差參數(shù)變量bi,bo和lnp(wi),lnp(wo)具有很強(qiáng)的相關(guān)性;如果將bi,bo作為常數(shù)變量,等于lnp(wi),lnp(wo),則公式學(xué)習(xí)目標(biāo)和李等[20]、Levy等[21]提出的基于pmi值的詞向量學(xué)習(xí)模型類(lèi)似.此外,Levy等的分析表明,Mikolov提出的Skip-Gram負(fù)采樣模型(Skip-Gram with Negative Sampling,SGNS)結(jié)果類(lèi)似于隱式分解移位的詞間pmi矩陣.

    4 本文模型

    4.1 Softmax函數(shù)的主題-詞項(xiàng)分布特性

    定義 2.設(shè)第t個(gè)主題βt的主題嵌入向量為vβt∈Rk,詞wi在主題βt的概率p(wi|βt)采用Softmax函數(shù)描述為:

    (7)

    性質(zhì) 1.采用Softmax函數(shù)描述主題詞項(xiàng)參數(shù)后,相似詞wi,wj在主題內(nèi),具有相似的主題概率值.

    由性質(zhì)1可知,當(dāng)主題訓(xùn)練語(yǔ)料內(nèi)某個(gè)詞wi成為主題代表詞,則和其詞向量高度相似的其它詞wj在該主題的概率值也較大,使其也能成為主題代表詞.所以在主題模型訓(xùn)練后,語(yǔ)料中相似詞wi,wj雖具有不同的詞頻,但詞向量的相似性將減弱詞的主題語(yǔ)義受詞頻率不同的影響.

    當(dāng)詞wi∈Topic_Wordst,且p(wi|βt)≥p(wl|βt),?wl∈W,l≠i,稱(chēng)詞wi為第t個(gè)主題的主題最高代表詞,由于設(shè)定預(yù)訓(xùn)練詞向量固定不變,采用Softmax函數(shù)描述主題-詞項(xiàng)分布參數(shù)后,該分布參數(shù)只是需要優(yōu)化所有的主題嵌入向量.

    4.2 主題分布式假設(shè)

    由性質(zhì)2,使用Softmax函數(shù)表示主題詞項(xiàng)分布,會(huì)使主題向量在訓(xùn)練后與主題最高代表詞wi的嵌入向量相似性較大,而詞之間的相鄰序列關(guān)系可以促進(jìn)該結(jié)果形成.本文提出主題分布式假設(shè):具有相似鄰居的詞具有相似的主題分布值.例如:不同形態(tài)的詞,相同概念、語(yǔ)義下的詞等.依據(jù)本文假設(shè),使用中心詞的主題和上下文詞間的Skip-Gram結(jié)構(gòu),相似詞將獲得相似的主題嵌入向量,也可促進(jìn)中心詞的主題向量和中心詞的詞向量相似.設(shè)中心詞wi的當(dāng)前主題編號(hào)表示為T(mén)opic(wi)(1≤Topic(wi)≤T).規(guī)定如果存在Topic(wi)=t,則:?wo∈context(wi)→Topic(wo)=t即模型將中心詞的主題值用于預(yù)測(cè)自己和它上下文內(nèi)詞的生成,因此在主題向量訓(xùn)練時(shí),需要添加一些和中心詞相關(guān)的上下文內(nèi)詞作為主題的生成目標(biāo),該主題值和詞間的Skip-Gram結(jié)構(gòu)表示如圖1所示.

    圖1 c=2時(shí),主題和詞的Skip-Gram結(jié)構(gòu)

    由上述性質(zhì)可以看出,采用Softmax函數(shù)描述主題-詞項(xiàng)分布和使用Skip-Gram主題詞結(jié)構(gòu),能夠充分利用詞的相似性和相鄰詞之間的高關(guān)聯(lián)性,在模型訓(xùn)練中使相似詞和具有高關(guān)聯(lián)的詞成為主題代表詞,將會(huì)提高主題模型的主題一致性值.

    4.3 文本生成與似然函數(shù)

    通過(guò)上述分析,本文設(shè)計(jì)了如下神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的SG-TM主題模型,模型先導(dǎo)入預(yù)訓(xùn)練的詞向量,用Softmax函數(shù)生成主題-詞向量分布參數(shù),通過(guò)類(lèi)似LDA模型過(guò)程生成目標(biāo)文本,在獲得每個(gè)詞的主題值后,將通過(guò)輸入中心詞的主題值,輸出中心詞和它的上下文內(nèi)詞,更新主題向量,從而實(shí)現(xiàn)充分利用詞的相似向量和主題值與詞之間的相鄰關(guān)系.模型的文本生成過(guò)程描述如下:假設(shè)有M個(gè)文檔{d1,…,dM},文本狄利克雷先驗(yàn)分布為α,參數(shù)Θ∈RT×k表示T個(gè)主題的分布式向量,則文本dj的生成過(guò)程可以描述為:

    1)采樣文本dj的主題分布θj~Dir(α);

    2)取出文本中詞wi,context(wi);

    3)采樣詞wi的主題分布tji~Mult(θj),wi添加為該主題的生成目標(biāo).并將符合Skip-Gram關(guān)系條件的context(wi)和tji添加作為附加的主題向量?jī)?yōu)化目標(biāo);

    4)從Softmax函數(shù)p(wi|βtji)生成目標(biāo)詞wi.

    上述文本生成過(guò)程,一個(gè)文本的生成概率為:

    (8)

    通過(guò)最大化文本生成概率,可以求解到文本的主題分布、詞的主題值和主題的分布式表示.

    4.4 模型優(yōu)化策略

    模型參數(shù)優(yōu)化采用變分EM算法,使用多項(xiàng)式分布qφji(tji)和狄利克雷分布qγj(θj)分別作為隱含變量tji和θj的變分分布,算法先固定每個(gè)主題的嵌入向量,優(yōu)化文本的變分參數(shù)φji和γj.由于模型添加了主題嵌入向量,改進(jìn)了主題詞項(xiàng)分布的描述方式,可以對(duì)原始LDA模型的β參數(shù)用式(7)替換,求解φji參數(shù),γj參數(shù)更新和原式基本一樣.由文本生成概率公式,其變分下界可以寫(xiě)為:

    logp(dj|α,Θ)≥Eq[logp(θj)]-Eq[logq(θj)]+

    Eq[logq(tji|φji)]

    (9)

    文本dj求解目標(biāo)變分參數(shù)φji和γj為:

    (10)

    γj=αj+∑i∈{1,…,N}φji

    (11)

    而后將文本內(nèi)每個(gè)詞wi的Topic(wi)作為輸入,wi∪context(wi)作為輸出,更新主題向量.由于將每個(gè)詞的上下文內(nèi)容,也添加為當(dāng)前主題輸出目標(biāo),主題向量需要優(yōu)化的目標(biāo)函數(shù)則表示為:

    L=∑dj∈M∑wi∈djφji(logp(wi|βtji)+

    ∑wo∈Context(wi)logp(wo|βtji))

    (12)

    上述目標(biāo)函數(shù)需要計(jì)算詞集W內(nèi)所有詞的概率值,當(dāng)詞集很大時(shí),會(huì)造成計(jì)算量非常大,本文采用Sampled Softmax算法[22]求解,則目標(biāo)詞wi在候選數(shù)據(jù)集合Ci=Si∪{wi}的對(duì)數(shù)似然函數(shù)為:

    logp(wi|βtji,Ci)=logp(wi|βtji)-logQ(wi|βtji)-

    log∑yi∈Ci[logp(yi|βtji)-logQ(yi|βtji)]

    (13)

    式(13)Si表示采樣數(shù)據(jù)集合,由當(dāng)前選擇的采樣函數(shù)而生成,其類(lèi)似于標(biāo)準(zhǔn)SGNS模型方法,Q(wi|βtji)表示采樣函數(shù)生成wi的概率,算法優(yōu)化采用Adadelta方法.

    5 實(shí)驗(yàn)與分析

    5.1 實(shí)驗(yàn)設(shè)置

    本文實(shí)驗(yàn)主要包括主題一致性和主題詞的專(zhuān)有性(exclusivity,excl)[18],主題嵌入與代表詞嵌入關(guān)系兩部分內(nèi)容.基準(zhǔn)模型使用主題驅(qū)動(dòng)神經(jīng)語(yǔ)言模型(Topically Driven Neural Language Model,TDLM)[14]和其改進(jìn)的主題一致性約束模型(Coherence Regularization TDLM,CRTDLM)[18],它們都使用現(xiàn)今流行的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和詞向量方法建模.Ding[17]的研究沒(méi)有提供相同數(shù)據(jù)集結(jié)果,所以未列入比較.

    實(shí)驗(yàn)的預(yù)訓(xùn)練詞向量來(lái)自于三種不同模型,分別是SGNS,GloVe和移位的正點(diǎn)互信息(Shifted Positive Pointwise Mutual Information,SPPMI)矩陣分解模型[21],用于檢測(cè)不同模型的詞向量對(duì)主題結(jié)果的影響.Li的方法使用詞間pmi值作為學(xué)習(xí)目標(biāo)和SPPMI類(lèi)似,所以未將其用于模型比較.主題模型訓(xùn)練前,會(huì)先用相關(guān)工具從訓(xùn)練文本獲得詞嵌入向量,SGNS模型詞向量使用Gensim工具訓(xùn)練得到,GloVe程序是從作者網(wǎng)上下載得到,SPPMI模型詞向量通過(guò)直接分解訓(xùn)練數(shù)據(jù)的SPPMI矩陣而得到,它的負(fù)例值設(shè)為1.所有模型的詞向量維度k=300,其它詞向量模型參數(shù)都使用默認(rèn)值.本文模型主題向量維度和詞向量維度大小一樣,窗口c=5,文本狄利克雷先驗(yàn)分布α=0.1.

    5.2 主題一致性與主題詞專(zhuān)有性

    主題一致性評(píng)測(cè)數(shù)據(jù)集選用TDLM模型提供的數(shù)據(jù)集,主要包括有三個(gè)類(lèi)別的數(shù)據(jù):美聯(lián)社新聞(Associated Press News,APNews),英國(guó)國(guó)家語(yǔ)料庫(kù)(British National Corpus,BNC)和互聯(lián)網(wǎng)電影資料庫(kù)(Internet Movie Database,IMDB).模型訓(xùn)練前去除了停用詞、數(shù)字、特殊符號(hào)和少量高頻詞等,經(jīng)過(guò)預(yù)處理后,每類(lèi)數(shù)據(jù)含有2萬(wàn)個(gè)左右單詞.

    表1 主題一致性和專(zhuān)有性值

    Table 1 Topic coherence and exclusivity score

    TopicnumbermodelNPMI/exclAPNewsBNCIMDB50TDLM.150/.868.145/.885.026/.634CRTDLM.151/.869.143/.905.035/.620SG-TM(SGNS).136/.744.127/.740.088/.710SG-TM(Glove).176/.666.130/.650.088/.626SG-TM(SPPMI).201/.832.200/.820.166/.700100TDLM.162/.659.140/.656.044/.422CRTDLM.155/.674.142/.620.045/.409SG-TM(SGNS).148/.699.140/.701.092/.555SG-TM(Glove).177/.602.142/.609.097/.529SG-TM(SPPMI).200/.743.205/.718.159/.633150TDLM.160/.531.137/.510.043/.366CRTDLM.163/.504.137/.504.041/.361SG-TM(SGNS).165/.704.137/.646.093/.516SG-TM(Glove).181/.562.144/.539.100/.509SG-TM(SPPMI).213/.666.192/.656.155/.528

    從實(shí)驗(yàn)結(jié)果表1可以看出,本文SG-TM模型結(jié)果多數(shù)優(yōu)于TDLM等模型,在APNews、BNC和IMDB數(shù)據(jù)集上,主題一致性值能提高將近6%;主題詞的專(zhuān)有性多數(shù)都有所提高,最優(yōu)值部分能提高2%.而主題詞的專(zhuān)有性隨主題值的增加,多會(huì)下降,表明主題結(jié)果的冗余度逐漸提高.僅從NPMI值結(jié)果可以得出,APNews、BNC數(shù)據(jù)集的最優(yōu)主題值大于100,IMDB數(shù)據(jù)集的最優(yōu)主題值小于100.這三種數(shù)據(jù)集中,IMDB數(shù)據(jù)集的結(jié)果要低于APNews和BNC數(shù)據(jù)集結(jié)果.實(shí)驗(yàn)分析發(fā)現(xiàn):IMDB數(shù)據(jù)集用詞比較簡(jiǎn)單,經(jīng)過(guò)預(yù)處理后,它的文本篇幅都較小.此外,在相同數(shù)據(jù)集和超參數(shù)條件下,當(dāng)模型使用不同的預(yù)訓(xùn)練詞向量,所得到的主題一致性結(jié)果差別也很大.雖然SGNS、GloVe和SPPMI模型的詞向量都含有詞語(yǔ)義信息,但是SGNS模型是通過(guò)訓(xùn)練詞間相鄰信息獲得詞嵌入向量;GloVe模型詞向量直接含有詞之間共現(xiàn)值,結(jié)果還會(huì)受到殘差值影響;SPPMI模型詞向量直接來(lái)自于語(yǔ)料的全局詞間pmi值,其更能夠體現(xiàn)詞間的點(diǎn)互信息大小,從而直接幫助提高主題的一致性值.

    5.3 主題嵌入與主題詞嵌入關(guān)系

    實(shí)驗(yàn)打印出了APNews數(shù)據(jù)集在T=100時(shí),使用SPPMI模型詞向量的8個(gè)主題代表詞,結(jié)果如表2所示.由主題代表詞可以理解該主題所表示的語(yǔ)義信息,例如:Topic1表示航空飛行、Topic2表示藝術(shù)展覽、Topic3表示總統(tǒng)選舉等.這些主題的主題向量和主題代表詞的輸入向量和輸出向量之間的余弦值如圖2、圖3所示.由結(jié)果可見(jiàn):每個(gè)主題向量和該主題的最高代表詞的輸入向量余弦值在0.7左右,它們間的相似性較高;且主題向量和詞的輸入向量余弦值普遍大于主題向量和詞的輸出向量余弦值,這體現(xiàn)了主題分布假設(shè),主題向量類(lèi)似于中心詞的輸入向量;主題嵌入向量與后面主題代表詞向量的余弦值則基本上呈下降趨勢(shì),說(shuō)明它們的向量相似性減弱.

    表2 T=100,APNews部分主題詞

    Table 2 T=100,some topic words of APNews

    TopicsidTopicwordsTopic1planeenginepilotlandingjetpilotscockpitcrashedflightaviationTopic2museumexhibitpaintingsexhibitionartgallerydisplaycuratorartifactsexhibitsTopic3romneypresidentialmittgingrichtrumpsantorumnewtpalinbachmanncaucusesTopic4spacenasashuttleastronautsspacecraftatlantisorbitastronautendeavourmissionTopic5gulfspillbpoilgallonsrigdeepwaterlitersclean-upcoastTopic6medicalpatientpatientshospitalhospitalsdoctorsdoctornurseclinicphysiciansTopic7campusuniversityfacultyundergraduatecollegeu-niversitiesgraduatefraternitystudentcollegesTopic8shipcruisevesselshipsboatcarnivalvesselsvoy-agesankconcordia

    圖2 主題向量和代表詞輸入向量余弦值

    圖3 主題向量和代表詞輸出向量余弦值

    圖4、圖5描述了主題嵌入和主題詞嵌入的向量點(diǎn)積值,最高主題詞和其它主題詞的向量點(diǎn)積.由圖4可見(jiàn)主題和詞的相關(guān)性成下降趨勢(shì),而圖5最高主題代表詞和其它詞之間相關(guān)性有些波動(dòng),但總體也成下降趨勢(shì).表3列出了與每個(gè)主題最高代表詞點(diǎn)積最大的前10個(gè)詞,從相關(guān)詞結(jié)果可見(jiàn),表2和表3詞之間的重合度較高,也存在一些詞不重合,體現(xiàn)了圖5 的小幅波動(dòng)性特點(diǎn).上述實(shí)驗(yàn)結(jié)果體現(xiàn)了性質(zhì)2、性質(zhì)3所分析的結(jié)論,當(dāng)主題向量和主題最高代表詞向量相似時(shí),主題向量和詞向量間的點(diǎn)積選擇出的主題詞,可近似表示為主題最高代表詞和其它主題詞之間的相關(guān)性.這也說(shuō)明向量的相似性雖然在減小,但是主題最高代表詞與部分主題代表詞間的pmi值還是較大.

    圖4 主題向量和代表詞向量點(diǎn)積值

    圖5 最高主題詞向量和其它代表詞向量點(diǎn)積值

    綜上結(jié)果分析,模型訓(xùn)練將使主題向量和最高代表詞的輸入向量相似較高,且這些與主題最高代表詞相似性高或點(diǎn)互信值高的詞,被選擇成為主題代表詞的可能性也很高,當(dāng)這些詞作為主題詞時(shí),可以推測(cè),這些詞之間也具有較高的詞間相關(guān)性值,能夠使模型獲得較高的主題一致性.

    表3 主題最高代表詞相關(guān)的前10個(gè)詞

    Table 3 Top 10 words related to the first topic word

    ThefirsttopicwordTop10relatedwordsplaneflightpilotlandingjetaviationpilotsaircraftair-portairplaneenginemuseumexhibitartifactsexhibitioncuratordisplayexhibitsgallerypaintingsmuseumsartromneypresidentialmittgingrichnewtsantorumbach-manncaucusesnomineepalinpollsspacenasashuttleastronautsorbitspacecraftatlantisas-tronautendeavourmissionlaunchgulfbpspilloildeepwaterrighorizonliterscoastplcgallonsmedicalpatientpatientsdoctorsdoctordrhospitalphysi-ciansclinicphysicianhospitalscampusfacultyuniversitycollegeundergraduatefraternitycampusesuniversitieschancellorstudentsemestershipcruiseshipsvesselussvoyagesanknavaldockconcordiavessels

    6 結(jié)束語(yǔ)

    本文分析了詞嵌入和主題一致性之間的聯(lián)系,描述了一種使用預(yù)訓(xùn)練詞嵌入向量,Softmax函數(shù)生成主題-詞項(xiàng)分布,采用主題分布式假設(shè)的文本主題模型.SG-TM模型使用主題和詞之間的Skip-Gram結(jié)構(gòu),中心詞的主題用于生成自己和增加的上下文內(nèi)詞.實(shí)驗(yàn)表明將詞嵌入向量信息應(yīng)用于該主題模型,能顯著改善模型整體效果,學(xué)習(xí)到主題一致性更好的文本主題.

    猜你喜歡
    中心詞主題詞一致性
    關(guān)注減污降碳協(xié)同的一致性和整體性
    公民與法治(2022年5期)2022-07-29 00:47:28
    注重教、學(xué)、評(píng)一致性 提高一輪復(fù)習(xí)效率
    IOl-master 700和Pentacam測(cè)量Kappa角一致性分析
    Why I ride
    同位語(yǔ)從句與中心詞的句法關(guān)系
    基于事件觸發(fā)的多智能體輸入飽和一致性控制
    我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞
    我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個(gè)21世紀(jì)的Ei主題詞
    2014年第16卷第1~4期主題詞索引
    《疑難病雜志》2014年第13卷主題詞索引
    乱人伦中国视频| 99国产精品免费福利视频| 欧美激情国产日韩精品一区| 中文欧美无线码| 色吧在线观看| 亚洲综合精品二区| 91成人精品电影| 国产精品.久久久| 午夜av观看不卡| 自拍欧美九色日韩亚洲蝌蚪91 | 美女脱内裤让男人舔精品视频| 久久国产乱子免费精品| 久久精品久久精品一区二区三区| 国产中年淑女户外野战色| 欧美97在线视频| 日本免费在线观看一区| 黑人高潮一二区| 亚洲国产最新在线播放| 久久久a久久爽久久v久久| 波野结衣二区三区在线| 亚洲欧洲国产日韩| 噜噜噜噜噜久久久久久91| 美女福利国产在线| 菩萨蛮人人尽说江南好唐韦庄| 男的添女的下面高潮视频| 一级,二级,三级黄色视频| 中文欧美无线码| 97超视频在线观看视频| 国产国拍精品亚洲av在线观看| 一级二级三级毛片免费看| 亚洲欧美日韩卡通动漫| 纯流量卡能插随身wifi吗| 国产一区二区三区综合在线观看 | 看免费成人av毛片| 少妇人妻久久综合中文| 性色avwww在线观看| 精品亚洲乱码少妇综合久久| 日本免费在线观看一区| 有码 亚洲区| 精品一区二区三区视频在线| 亚洲人成网站在线观看播放| 日本与韩国留学比较| 久久午夜综合久久蜜桃| 亚洲国产欧美日韩在线播放 | 午夜91福利影院| 九九爱精品视频在线观看| 大香蕉久久网| 七月丁香在线播放| 热99国产精品久久久久久7| 国产精品麻豆人妻色哟哟久久| 大陆偷拍与自拍| 国产精品秋霞免费鲁丝片| 一二三四中文在线观看免费高清| av在线app专区| 精品国产一区二区三区久久久樱花| 草草在线视频免费看| 少妇猛男粗大的猛烈进出视频| 亚洲人成网站在线播| 成人免费观看视频高清| 亚洲伊人久久精品综合| 日本欧美国产在线视频| 人人妻人人看人人澡| 日日啪夜夜撸| av国产精品久久久久影院| 精品一区在线观看国产| 男人狂女人下面高潮的视频| 看十八女毛片水多多多| 免费不卡的大黄色大毛片视频在线观看| 性色avwww在线观看| 国产色爽女视频免费观看| 欧美xxⅹ黑人| 伦理电影免费视频| 18禁动态无遮挡网站| 国产欧美亚洲国产| 中国三级夫妇交换| 欧美xxxx性猛交bbbb| 另类亚洲欧美激情| 汤姆久久久久久久影院中文字幕| av天堂久久9| 韩国高清视频一区二区三区| 成人亚洲精品一区在线观看| 国产男人的电影天堂91| 韩国av在线不卡| 欧美+日韩+精品| 日本午夜av视频| 一二三四中文在线观看免费高清| 国产日韩欧美亚洲二区| 精品人妻偷拍中文字幕| 天美传媒精品一区二区| 黑人巨大精品欧美一区二区蜜桃 | 亚洲久久久国产精品| 男女边摸边吃奶| 黑人高潮一二区| 亚洲欧洲精品一区二区精品久久久 | 亚洲av欧美aⅴ国产| 国产成人91sexporn| av国产精品久久久久影院| 久久久久网色| 亚洲美女搞黄在线观看| 日韩欧美一区视频在线观看 | 国产日韩一区二区三区精品不卡 | 亚洲欧美清纯卡通| 99久久综合免费| 日韩不卡一区二区三区视频在线| 精品久久久久久电影网| 丰满乱子伦码专区| 国模一区二区三区四区视频| 简卡轻食公司| 亚洲av在线观看美女高潮| 人妻 亚洲 视频| 岛国毛片在线播放| 日韩av不卡免费在线播放| 免费播放大片免费观看视频在线观看| 高清av免费在线| 能在线免费看毛片的网站| 麻豆精品久久久久久蜜桃| 少妇精品久久久久久久| 久久精品国产亚洲av涩爱| 久久热精品热| 国产精品国产三级国产av玫瑰| 国产高清有码在线观看视频| 国产精品久久久久久精品电影小说| 亚洲av免费高清在线观看| 亚洲欧美中文字幕日韩二区| 免费在线观看成人毛片| 久久精品国产鲁丝片午夜精品| 久久久精品免费免费高清| 18+在线观看网站| 天堂中文最新版在线下载| 男女边摸边吃奶| 国产一区亚洲一区在线观看| 校园人妻丝袜中文字幕| 国产老妇伦熟女老妇高清| 在线亚洲精品国产二区图片欧美 | 国产深夜福利视频在线观看| 亚洲,欧美,日韩| 在线观看免费日韩欧美大片 | 香蕉精品网在线| 国产男女超爽视频在线观看| 亚洲精品色激情综合| 狂野欧美白嫩少妇大欣赏| 在线精品无人区一区二区三| 亚洲自偷自拍三级| 亚洲av不卡在线观看| 99精国产麻豆久久婷婷| 亚洲情色 制服丝袜| 亚洲精品国产av蜜桃| 九九在线视频观看精品| 在线观看国产h片| 亚洲av不卡在线观看| 你懂的网址亚洲精品在线观看| 男女边吃奶边做爰视频| 亚洲图色成人| 国产精品国产三级专区第一集| 黄色毛片三级朝国网站 | 成人漫画全彩无遮挡| 蜜桃久久精品国产亚洲av| 午夜福利在线观看免费完整高清在| 男女国产视频网站| 国产亚洲av片在线观看秒播厂| 中文天堂在线官网| 综合色丁香网| 国产淫语在线视频| 亚洲欧美成人综合另类久久久| 老司机亚洲免费影院| 国产毛片在线视频| 啦啦啦在线观看免费高清www| 在线免费观看不下载黄p国产| 黄色一级大片看看| 日韩强制内射视频| 一级爰片在线观看| 最新中文字幕久久久久| 少妇 在线观看| 久久久久国产网址| 亚洲精品国产色婷婷电影| 亚洲av不卡在线观看| 制服丝袜香蕉在线| 一二三四中文在线观看免费高清| 久久毛片免费看一区二区三区| 日本色播在线视频| 狂野欧美白嫩少妇大欣赏| 岛国毛片在线播放| 久久久久人妻精品一区果冻| 国产一区有黄有色的免费视频| 一级,二级,三级黄色视频| 91精品国产国语对白视频| tube8黄色片| 日本与韩国留学比较| 美女视频免费永久观看网站| 亚洲av欧美aⅴ国产| 一区二区三区四区激情视频| 成人午夜精彩视频在线观看| 七月丁香在线播放| 欧美 日韩 精品 国产| 欧美日韩一区二区视频在线观看视频在线| 国产精品女同一区二区软件| 日韩视频在线欧美| 日韩伦理黄色片| 99久久精品国产国产毛片| 男女无遮挡免费网站观看| 制服丝袜香蕉在线| 中文字幕av电影在线播放| 日韩电影二区| 国产一区二区在线观看av| 最近2019中文字幕mv第一页| 免费观看av网站的网址| 91久久精品国产一区二区成人| 久久精品熟女亚洲av麻豆精品| 观看av在线不卡| 在现免费观看毛片| 三级经典国产精品| 偷拍熟女少妇极品色| 日本91视频免费播放| 免费高清在线观看视频在线观看| 女性被躁到高潮视频| 人妻制服诱惑在线中文字幕| 久久午夜综合久久蜜桃| 久久婷婷青草| 少妇人妻 视频| 欧美xxxx性猛交bbbb| av福利片在线观看| 99九九线精品视频在线观看视频| 日韩精品免费视频一区二区三区 | 内射极品少妇av片p| 在线观看三级黄色| 高清在线视频一区二区三区| 精品国产乱码久久久久久小说| 欧美精品亚洲一区二区| 免费观看在线日韩| 久久午夜福利片| 97超碰精品成人国产| 国产成人免费观看mmmm| 性色av一级| 大话2 男鬼变身卡| 能在线免费看毛片的网站| 人妻一区二区av| 国产亚洲91精品色在线| 精品亚洲成国产av| 久久久久精品久久久久真实原创| 啦啦啦啦在线视频资源| 亚洲精品视频女| 最后的刺客免费高清国语| 日韩成人伦理影院| 黑人猛操日本美女一级片| 亚洲图色成人| 日韩伦理黄色片| 久久人人爽人人片av| 欧美日韩一区二区视频在线观看视频在线| 中文字幕av电影在线播放| 亚洲人成网站在线观看播放| 2018国产大陆天天弄谢| 国产在线一区二区三区精| 国产精品福利在线免费观看| 秋霞在线观看毛片| 精品人妻偷拍中文字幕| 久久久久网色| 成人亚洲欧美一区二区av| 观看美女的网站| 日韩精品免费视频一区二区三区 | 全区人妻精品视频| av卡一久久| 91精品一卡2卡3卡4卡| 亚洲精品色激情综合| 99热这里只有精品一区| 精华霜和精华液先用哪个| 水蜜桃什么品种好| 天天操日日干夜夜撸| 美女福利国产在线| 岛国毛片在线播放| 嫩草影院新地址| 少妇被粗大的猛进出69影院 | 国产女主播在线喷水免费视频网站| 一二三四中文在线观看免费高清| 免费看光身美女| a级毛片免费高清观看在线播放| 乱人伦中国视频| 成人毛片60女人毛片免费| 男人舔奶头视频| 日韩av不卡免费在线播放| 精品久久国产蜜桃| 国产亚洲一区二区精品| 人妻一区二区av| 99热国产这里只有精品6| 中文字幕av电影在线播放| 久久久久久久久久久丰满| 中文字幕人妻丝袜制服| 国产精品免费大片| 亚洲av不卡在线观看| 22中文网久久字幕| 日本猛色少妇xxxxx猛交久久| 人妻系列 视频| 久久久久久久久久成人| 中文精品一卡2卡3卡4更新| 建设人人有责人人尽责人人享有的| 高清午夜精品一区二区三区| av天堂久久9| 超碰97精品在线观看| 99精国产麻豆久久婷婷| 多毛熟女@视频| 欧美3d第一页| 91久久精品国产一区二区成人| 亚洲国产成人一精品久久久| 国产熟女欧美一区二区| 一级a做视频免费观看| 免费看av在线观看网站| 欧美日韩综合久久久久久| 九九久久精品国产亚洲av麻豆| 欧美日韩国产mv在线观看视频| 亚洲,欧美,日韩| 狂野欧美激情性xxxx在线观看| 观看免费一级毛片| 亚洲国产精品专区欧美| 精品人妻一区二区三区麻豆| 七月丁香在线播放| 日本91视频免费播放| 草草在线视频免费看| 18禁动态无遮挡网站| 街头女战士在线观看网站| 少妇人妻精品综合一区二区| 亚洲精品自拍成人| 在线免费观看不下载黄p国产| 边亲边吃奶的免费视频| 国产 精品1| 我的老师免费观看完整版| 日韩免费高清中文字幕av| h日本视频在线播放| 国产高清有码在线观看视频| 国产成人精品福利久久| av国产精品久久久久影院| 伦精品一区二区三区| 久久久久人妻精品一区果冻| 蜜桃在线观看..| 多毛熟女@视频| 精品一品国产午夜福利视频| √禁漫天堂资源中文www| 久久狼人影院| 九色成人免费人妻av| 国产一区有黄有色的免费视频| 国产成人免费观看mmmm| 欧美精品高潮呻吟av久久| 久久久久久久久大av| 亚洲精品一区蜜桃| 又大又黄又爽视频免费| 99热这里只有精品一区| 99久久精品热视频| 国产爽快片一区二区三区| 国产一区二区在线观看日韩| 午夜精品国产一区二区电影| 国产欧美日韩综合在线一区二区 | 久久女婷五月综合色啪小说| 久久99蜜桃精品久久| 老司机影院成人| 大话2 男鬼变身卡| 水蜜桃什么品种好| 汤姆久久久久久久影院中文字幕| 久久久久国产精品人妻一区二区| 日韩一本色道免费dvd| 简卡轻食公司| 久久久午夜欧美精品| 亚洲精品第二区| 亚洲av中文av极速乱| 亚洲人与动物交配视频| 亚洲真实伦在线观看| 国产国拍精品亚洲av在线观看| 亚洲三级黄色毛片| 97在线视频观看| 久久久精品免费免费高清| 国产精品欧美亚洲77777| 久久久精品免费免费高清| 97在线视频观看| av视频免费观看在线观看| av一本久久久久| 欧美高清成人免费视频www| 亚洲欧洲精品一区二区精品久久久 | 丝袜在线中文字幕| 亚洲真实伦在线观看| 三级国产精品片| 自拍偷自拍亚洲精品老妇| 人妻系列 视频| 在线观看免费日韩欧美大片 | 亚洲欧美日韩东京热| 免费观看性生交大片5| 九草在线视频观看| 欧美日韩国产mv在线观看视频| 国产av精品麻豆| 一本久久精品| 午夜福利网站1000一区二区三区| 国产成人aa在线观看| 亚洲精品视频女| a级毛色黄片| 欧美精品一区二区免费开放| 久久久久久久国产电影| 我的女老师完整版在线观看| 美女中出高潮动态图| 色哟哟·www| 亚洲人成网站在线观看播放| 国产综合精华液| 亚洲国产日韩一区二区| videossex国产| 国产精品久久久久久久电影| a 毛片基地| 日韩av在线免费看完整版不卡| 国产日韩欧美视频二区| 美女主播在线视频| 国产乱人偷精品视频| 最近最新中文字幕免费大全7| 九九爱精品视频在线观看| 国产极品天堂在线| 欧美日韩视频高清一区二区三区二| 国产亚洲最大av| 色视频www国产| 高清午夜精品一区二区三区| 国产精品一区二区在线不卡| 国产色爽女视频免费观看| av福利片在线| 少妇人妻精品综合一区二区| 高清午夜精品一区二区三区| 在线观看免费高清a一片| 中国美白少妇内射xxxbb| 中文精品一卡2卡3卡4更新| 乱人伦中国视频| 精华霜和精华液先用哪个| 在线免费观看不下载黄p国产| 欧美三级亚洲精品| 日日摸夜夜添夜夜爱| 国产伦理片在线播放av一区| 一边亲一边摸免费视频| 极品少妇高潮喷水抽搐| 久久精品久久久久久噜噜老黄| 国产精品伦人一区二区| 99久久精品热视频| 美女中出高潮动态图| 噜噜噜噜噜久久久久久91| 十八禁网站网址无遮挡 | 国产精品一区二区三区四区免费观看| 国产在视频线精品| 久久久亚洲精品成人影院| 日本黄色片子视频| 亚洲怡红院男人天堂| 在线观看一区二区三区激情| 日韩强制内射视频| 亚洲中文av在线| 婷婷色综合www| 久久热精品热| 欧美成人精品欧美一级黄| 亚洲国产精品专区欧美| 99久久精品一区二区三区| 国产精品女同一区二区软件| 久久女婷五月综合色啪小说| av女优亚洲男人天堂| 日产精品乱码卡一卡2卡三| 久久久久久久大尺度免费视频| 亚洲综合色惰| 久久久精品免费免费高清| 少妇裸体淫交视频免费看高清| 亚洲自偷自拍三级| 久久婷婷青草| 午夜免费鲁丝| 你懂的网址亚洲精品在线观看| 熟女人妻精品中文字幕| 日本午夜av视频| 丁香六月天网| 噜噜噜噜噜久久久久久91| 九草在线视频观看| 国产老妇伦熟女老妇高清| 国产精品国产三级专区第一集| 纯流量卡能插随身wifi吗| 我的女老师完整版在线观看| 国产午夜精品一二区理论片| 国产免费视频播放在线视频| 久久99一区二区三区| 国产日韩欧美视频二区| 国产伦精品一区二区三区视频9| 久久国产精品男人的天堂亚洲 | 中文精品一卡2卡3卡4更新| 赤兔流量卡办理| 免费观看性生交大片5| 国产av码专区亚洲av| 狂野欧美激情性bbbbbb| 日韩伦理黄色片| 在线观看一区二区三区激情| 偷拍熟女少妇极品色| 国产精品一区二区在线观看99| 国产片特级美女逼逼视频| 国产午夜精品久久久久久一区二区三区| 99久久人妻综合| 免费久久久久久久精品成人欧美视频 | 一二三四中文在线观看免费高清| 在线看a的网站| 久久99热6这里只有精品| 亚洲怡红院男人天堂| 日韩电影二区| 亚洲欧美日韩卡通动漫| 成人毛片60女人毛片免费| 超碰97精品在线观看| 我的女老师完整版在线观看| 欧美老熟妇乱子伦牲交| 精品国产国语对白av| 日韩av不卡免费在线播放| 久久久久久久国产电影| 国产男女内射视频| 少妇高潮的动态图| 人妻少妇偷人精品九色| 观看av在线不卡| 在线观看一区二区三区激情| 少妇裸体淫交视频免费看高清| 九九在线视频观看精品| 国产乱来视频区| 少妇人妻久久综合中文| 蜜桃在线观看..| 一区二区三区免费毛片| 亚洲精品视频女| 国产深夜福利视频在线观看| 欧美另类一区| 三级经典国产精品| 国产精品一区www在线观看| 成人黄色视频免费在线看| 少妇精品久久久久久久| 观看美女的网站| 午夜福利在线观看免费完整高清在| 性色av一级| 18禁裸乳无遮挡动漫免费视频| 亚洲无线观看免费| 国语对白做爰xxxⅹ性视频网站| 亚洲av国产av综合av卡| av在线app专区| 青春草亚洲视频在线观看| 免费av不卡在线播放| 欧美日韩av久久| 免费播放大片免费观看视频在线观看| 日韩欧美一区视频在线观看 | 亚洲精品自拍成人| 精品亚洲乱码少妇综合久久| 久久午夜综合久久蜜桃| 国产有黄有色有爽视频| 欧美丝袜亚洲另类| 日韩中文字幕视频在线看片| 伊人久久精品亚洲午夜| 老司机影院成人| 欧美日韩精品成人综合77777| 大又大粗又爽又黄少妇毛片口| 人人妻人人添人人爽欧美一区卜| 亚洲国产精品一区二区三区在线| 欧美日韩亚洲高清精品| 国产精品三级大全| 黄色日韩在线| 国产日韩欧美视频二区| 18禁裸乳无遮挡动漫免费视频| 久久久欧美国产精品| 亚洲精品久久午夜乱码| 熟女av电影| 欧美精品一区二区大全| 乱系列少妇在线播放| av网站免费在线观看视频| 五月天丁香电影| 亚洲精品日韩在线中文字幕| 超碰97精品在线观看| 99久久精品热视频| 国产淫语在线视频| 人人妻人人添人人爽欧美一区卜| 久久国产精品大桥未久av | av有码第一页| 久久国内精品自在自线图片| 国内少妇人妻偷人精品xxx网站| 国产视频内射| 国产精品无大码| 一级av片app| 亚洲av成人精品一二三区| 在线观看人妻少妇| 国产精品三级大全| 午夜福利,免费看| 天美传媒精品一区二区| 亚洲av二区三区四区| 久久午夜福利片| 欧美xxⅹ黑人| 大香蕉97超碰在线| av网站免费在线观看视频| 亚洲精品第二区| 中文天堂在线官网| 国产乱来视频区| av免费观看日本| 久久久久久人妻| 日韩制服骚丝袜av| 97在线人人人人妻| 五月玫瑰六月丁香| 少妇的逼水好多| 日本av手机在线免费观看| 国产精品.久久久| 免费观看无遮挡的男女| 夜夜看夜夜爽夜夜摸| 国产老妇伦熟女老妇高清| 亚洲精品日韩在线中文字幕| 特大巨黑吊av在线直播| 亚洲av.av天堂| 秋霞伦理黄片| 欧美日韩国产mv在线观看视频| 日本av免费视频播放| 日韩一区二区视频免费看| 一级毛片我不卡| 五月伊人婷婷丁香| 免费看不卡的av| 国产精品嫩草影院av在线观看| 26uuu在线亚洲综合色| 午夜免费男女啪啪视频观看| 免费观看性生交大片5| 美女脱内裤让男人舔精品视频| 亚洲高清免费不卡视频| 免费看av在线观看网站| 日本色播在线视频| 中文字幕人妻熟人妻熟丝袜美| 久久久国产一区二区| 91精品一卡2卡3卡4卡| av在线播放精品| av.在线天堂| 亚洲精品成人av观看孕妇|