• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    藏漢跨語言話題模型構(gòu)建及對齊方法研究

    2017-04-25 07:30:22媛,趙
    中文信息學(xué)報 2017年1期
    關(guān)鍵詞:模型

    孫 媛,趙 倩

    (1.中央民族大學(xué) 信息工程學(xué)院,北京 100081;2.國家語言資源監(jiān)測與研究中心少數(shù)民族語言分中心,北京 100081)

    藏漢跨語言話題模型構(gòu)建及對齊方法研究

    孫 媛1,2,趙 倩1,2

    (1.中央民族大學(xué) 信息工程學(xué)院,北京 100081;2.國家語言資源監(jiān)測與研究中心少數(shù)民族語言分中心,北京 100081)

    如何獲取藏文話題在其他語種中的相關(guān)信息,對于促進少數(shù)民族地區(qū)的社會管理科學(xué)化水平、維護民族團結(jié)和國家統(tǒng)一、構(gòu)建和諧社會具有重要意義。目前大多數(shù)研究集中在英漢跨語言信息處理方面,針對藏漢跨語言研究較少。如何根據(jù)藏語、漢語的特點,并結(jié)合目前藏語信息處理的研究現(xiàn)狀,實現(xiàn)藏漢多角度的社會網(wǎng)絡(luò)關(guān)系關(guān)聯(lián),同步發(fā)現(xiàn)關(guān)注話題并進行數(shù)據(jù)比較,是迫切需要解決的問題。該文在藏漢可比語料的基礎(chǔ)上,利用詞向量對文本詞語進行語義擴展,進而構(gòu)建LDA話題模型,并利用Gibbs sampling進行模型參數(shù)的估計,抽取出藏語和漢語話題。在LDA話題模型生成的文檔-話題分布的基礎(chǔ)上,提出一種基于余弦相似度、歐氏距離、Hellinger距離和KL距離四種相似度算法的投票方法,來實現(xiàn)藏漢話題的對齊。

    藏漢跨語言;話題抽?。籐DA;話題對齊

    1 引言

    我國是一個統(tǒng)一的多民族國家,由56個民族組成,有著豐富的語言資源。隨著互聯(lián)網(wǎng)在少數(shù)民族地區(qū)的普及,越來越多少數(shù)民族民眾開始認識網(wǎng)絡(luò)、利用網(wǎng)絡(luò),并通過網(wǎng)絡(luò)了解外界知識和信息。隨著少數(shù)民族地區(qū)人民網(wǎng)絡(luò)使用率的飛速增加,少數(shù)民族新聞網(wǎng)站每天有大量的新聞發(fā)布,巨大的信息量使得人們無法快速、準(zhǔn)確地獲取有價值的信息。而且,網(wǎng)絡(luò)信息對民眾認識、了解社會起了一定的導(dǎo)向作用,其準(zhǔn)確性也會對社會穩(wěn)定乃至國家政策的制定產(chǎn)生影響。通過跨語言話題抽取和對齊的研究,可以提高各民族不同語言之間的知識共享,增強民族地區(qū)網(wǎng)絡(luò)信息安全,推進民族地區(qū)經(jīng)濟文化發(fā)展,促進民族團結(jié),為構(gòu)建“和諧社會”和“科學(xué)發(fā)展”的社會環(huán)境提供重要的條件支撐。藏漢話題抽取和對齊作為藏漢跨語言話題檢測與跟蹤的基礎(chǔ),對其相關(guān)研究起著重要的作用。

    本文首先對話題模型的發(fā)展進行了研究,分析了LSI和pLSI的不足,并將繼承兩者優(yōu)點的LDA模型作為新聞文本表示模型。然后基于藏漢可比語料庫來構(gòu)建藏、漢LDA話題模型,在構(gòu)建過程中利用詞向量對文本詞語進行語義擴展,分別抽取出藏語和漢語話題,然后基于相似度計算進行投票,將同一話題的藏語和漢語描述聯(lián)系起來,實現(xiàn)藏漢話題的對齊,從而構(gòu)建起跨語言LDA話題模型。

    2 相關(guān)研究

    隨著藏文信息處理技術(shù)的發(fā)展,藏文信息處理無論是在藏字信息處理研究及其相關(guān)標(biāo)準(zhǔn)制定方面,還是在藏語信息處理應(yīng)用開發(fā)方面,眾多科研人員進行了不懈的努力和有益的探索,并取得了不少成績。藏文的字處理技術(shù)研究是最早的[1-2],也是取得成效較好的。在基本完成以“字”為單位的研究內(nèi)容后,以“詞”、“句”、“段”、“篇”為主的研究也逐步開展起來。藏語分詞、詞類研究、語料庫建設(shè)、機器翻譯等都取得了一定的進展。但與國內(nèi)外語言文字信息處理技術(shù)的總體發(fā)展水平和研究狀況相比較,藏文信息處理的相關(guān)研究都還只是一些初步的探討,發(fā)展得還不夠完善,有待深入研究。

    話題(Topic)[3]就是一個核心事件以及與之直接相關(guān)的事件。通常情況下,可以簡單地認為話題就是對特定事件相關(guān)報道的集合,如果新聞報道的內(nèi)容與某一話題的核心事件相關(guān),那么可以認為此報道與這個話題相關(guān)。傳統(tǒng)的向量空間模型(Vector Space Model,VSM)使用關(guān)鍵字來表示話題,但偏重于對文檔貢獻度較大的詞語,有時候這些詞語中會存在一些有二義性的詞,描述文檔的效果往往不太理想,為了彌補向量空間模型的這些不足,隱性語義索引(Latent Semantic Indexing,LSI)[4]被提了出來,利用奇異值分解(Singular Value Decomposition,SVD)技術(shù),實現(xiàn)對文本的降維。LSI并不屬于概率模型,也算不上一個話題模型,但它是話題模型發(fā)展的基礎(chǔ)。Hofmann[5]在LSI的基礎(chǔ)上提出了概率隱性語義索引(probabilistic Latent Semantic Indexing,pLSI),該模型假設(shè)每篇文檔是由多個話題組合而成的,文檔中的每一個詞是由一個話題產(chǎn)生,因此文檔中不同的詞可以由不同的話題生成。Blei等人[6]又在pLSI的基礎(chǔ)上進行了擴展,得到一個更為完全的概率生成模型——隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)。

    2.1 LSI話題模型

    LSI,又稱為潛在語義分析(Latent Semantic Analysis,LSA)。它使用SVD來分解詞語—文檔矩陣。SVD可以從詞語—文檔矩陣中發(fā)現(xiàn)不相關(guān)的索引變量,將原本的數(shù)據(jù)映射到語義空間。

    LSI方法的引入可以減輕一義多詞和一詞多義的問題?;赟VD分解,我們可以基于原始向量矩陣構(gòu)造一個低秩逼近矩陣,把原本的向量轉(zhuǎn)化到一個低維隱含語義空間中,實現(xiàn)對特征的降維。奇異值與語義維度的權(quán)重相對應(yīng),將不太重要的權(quán)重置為0,只保留最重要的維度信息,這樣可以去掉一些噪音,因此可以得到文檔的一種更好的表示方式。

    2.2 pLSI話題模型

    雖然基于奇異值分解的LSI取得了一定的成效,但是沒有嚴(yán)謹(jǐn)?shù)臄?shù)理統(tǒng)計基礎(chǔ)作支撐,并且SVD的分解十分耗時。Hofmann就在此基礎(chǔ)上提出了基于概率統(tǒng)計的pLSI模型,用期望最大化算法(Expectation Maximization Algorithm,EM)算法學(xué)習(xí)模型參數(shù)。該模型假定文檔d、特征詞w、話題z三者間的條件概率相互獨立,那么特征詞w和文檔d之間的關(guān)系如式(1)所示。

    p(d,w)=p(d)∑p(w|z)p(z|d)

    (1)

    2.3LDA話題模型

    LDA 模型[7-8],也稱為三層貝葉斯概率模型,是一種文檔話題生成模型,包含詞語、話題和文檔三層結(jié)構(gòu)。文檔到話題服從多項式分布,話題到詞也服從多項式分布。由于pLSI模型的參數(shù)數(shù)量會由于文檔數(shù)量的增加而線性增加,不能很好地預(yù)測沒有觀測到的文本。LDA克服了這些缺點并繼承了pLSI的所有優(yōu)點,可以很好地產(chǎn)生話題分布,而且參數(shù)的數(shù)量不會隨文檔數(shù)量的增加而線性增加。

    LDA是一種無監(jiān)督的機器學(xué)習(xí)方法[9-10],用來識別大規(guī)模文檔集或語料庫中隱藏的話題信息。它采用詞袋的方法,將每一篇文檔視為一個用詞頻表示的向量,從而將文本信息轉(zhuǎn)化為計算機可以處理的數(shù)字信息。詞袋的方法忽略了詞的先后順序,使問題的處理變得簡單。

    3 藏漢LDA話題模型的構(gòu)建

    3.1 模型構(gòu)建過程

    LDA生成過程可以如圖1所示。

    圖1 LDA話題模型

    雖然LDA模型采用的詞袋的方法簡化了問題的復(fù)雜度,但同時也帶了一個問題。詞袋方法認為,一個文檔中的所有的詞是等價的,并沒有重要性的區(qū)分。而在現(xiàn)實中,不同的詞對一篇新聞文檔的貢獻程度有時也是不同的。例如,位于標(biāo)題的詞比位于正文中的詞要重要,名詞比修飾詞的貢獻度要強?;谶@種考慮,我們在進行文檔輸入的時候,加入了詞性選擇和位置重要性,根據(jù)詞性和位置對輸入的詞進行篩選。在詞性選擇方面,我們認為名詞、動詞以及包括人名、地名、組織機構(gòu)名在內(nèi)的命名實體對一個話題的標(biāo)識性更強。對于位置的影響,我們按照新聞文本中詞語出現(xiàn)的位置來說,分為三類:在標(biāo)題和正文中都存在的詞、只存在于標(biāo)題中的詞和只存在于正文中的詞。對網(wǎng)絡(luò)新聞來說,標(biāo)題具有舉足輕重的作用,因此標(biāo)題中的詞應(yīng)有較高的權(quán)重,所以這三類詞的權(quán)重依次降低。

    通過語料庫訓(xùn)練,按照式(2)計算得到每個詞的IDF值,根據(jù)式(3)中詞的位置不同賦予不同的重要性,得到新的權(quán)重IDF′。

    (2)

    D為語料中的文檔總數(shù),Di為包含詞語i的文檔數(shù)。

    (3)

    3.2 詞向量

    我們采用詞向量對文本關(guān)鍵詞進行語義擴展,利用跨語言文本相似度匹配藏語和漢語文本,從而獲得藏漢可比資料。

    1.詞向量訓(xùn)練的過程

    (1) 從訓(xùn)練文件讀入詞匯;

    (2) 統(tǒng)計詞頻,初始化詞向量,放入哈希表中;

    (3) 構(gòu)建哈夫曼樹,得到每個詞匯的哈夫曼樹中的路徑;

    (4) 從訓(xùn)練文件讀入一行語句,去除停用詞,獲得該行語句中每一個中心詞的上下文,詞向量求和Xw。獲得中心詞的路徑,使用路徑上所有節(jié)點的目標(biāo)函數(shù)對Xw的偏導(dǎo)數(shù)的和優(yōu)化中心詞詞向量;

    (5) 統(tǒng)計已訓(xùn)練詞匯數(shù)目,大于10 000時更新學(xué)習(xí)率;

    (6) 保存詞向量。

    2.詞語語義距離

    當(dāng)計算詞語語義的距離時,首先需要加載存儲詞向量的二進制文件。將文件中詞向量讀入到哈希表中。在加載過程中,為了后續(xù)詞義距離計算的方便,對詞語的每個向量做了除以它向量長度的計算,如式(4)所示。

    (4)

    獲得訓(xùn)練語料詞語的詞向量之后,采用余弦值法計算詞語與詞語之間的語義距離。假設(shè)詞語A的向量表示為(Va1,Va2,…,Van),詞語B的向量表示為(Vb1,Vb2,…,Vbn),則詞語A和詞語B的語義計算如式(5)所示。

    (5)

    之前已經(jīng)完成了對向量距離的除運算,所以上述公式的計算轉(zhuǎn)化如式(6)所示。

    (6)

    3.3 參數(shù)估計

    本文采用吉布斯抽樣法[11-12](Gibbs sampling)對LDA模型進行參數(shù)估計。Gibbs sampling是馬爾科夫鏈蒙特卡洛(Markov-Chain Monte Carlo,MCMC)算法的一種簡單實現(xiàn),主要思想是構(gòu)造出收斂于目標(biāo)概率分布函數(shù)的馬爾科夫鏈,并且從中抽取最接近目標(biāo)概率的樣本。利用Gibbs sampling對LDA模型進行參數(shù)估計的過程[13-14]如圖2所示。

    圖2 Gibbs sampling 進行LDA參數(shù)估計的過程

    事先人為設(shè)置迭代次數(shù),參數(shù)α和β通常分別設(shè)為50/K、0.01。根據(jù)式(7)訓(xùn)練產(chǎn)生話題—詞匯分布φk,v,即出現(xiàn)在話題k中的詞語v的概率。

    (7)

    針對文檔集中每篇文檔,根據(jù)式(8)計算文檔的文檔—話題分布θm,k,即文檔m中話題k所占的概率。

    (8)

    4 藏漢話題對齊

    在構(gòu)建出LDA話題模型后,在生成的話題—文檔概率分布中,每一個話題在每一篇文檔中都會以一定的概率出現(xiàn)。因此,對每個話題來說,可以表示成文檔上的空間向量。通過向量之間的相似度來衡量藏漢話題的相關(guān)性,將藏漢話題對齊。話題對齊的過程如圖3所示。

    圖3 藏漢話題對齊過程

    此算法不需要藏漢詞典,也不需要機器翻譯,只需要我們之前已經(jīng)建立起的可比語料庫。

    對于藏語話題ti和漢語話題tj,計算兩者的相關(guān)性的步驟如下:

    (1) 將事先已經(jīng)構(gòu)建出的m對藏漢可比新聞文檔,作為概念空間索引文檔集;

    a.余弦相似度,利用向量的余弦夾角來計算相似度,余弦值越大,相關(guān)性越大,如式(9)所示。

    (9)

    b.歐氏距離,用來描述空間中兩個點的常規(guī)距離。計算的值越小,兩點之間的距離就越近,相似度就越大,如式(10)所示。

    (10)

    c.Hellinger距離,度量兩個分布之間差異的一種方法。由于話題可以表示成離散的概率分布,因此,Hellinger距離可以用來計算話題之間的相似度。計算值越大,話題之間的差異度就越大,相似度就越?。挥嬎阒翟叫?,話題之間的相似度就越大,如式(1)所示。

    (11)

    DKL(P||Q)=P*log(P/Q)

    (12)

    Q到P的KL距離如式(13)所示。

    DKL(Q||P)=Q*log(Q/P)

    (13)

    KL距離是非對稱的,而事實上,藏語話題ti到漢語話題tj的距離與tj到ti的距離是相等的。因此,我們使用對稱的KL距離來計算話題的距離,如式(14)所示。

    (14)

    將式(14)代入,得到式(15) 。

    (15)

    整理得到式(16)。

    (16)

    (5) 比較上述四種常用方法并嘗試將四種方法結(jié)合起來來觀察效果,我們基于以上四種方法對結(jié)果進行投票,第n種方法methodn在藏語話題ti上對漢語話題tj的投票值為1或者0,記為Vote(methodn,ti,tj)∈{1,0},當(dāng)投票結(jié)果Votes(ti,tj)≥3時為有效投票;否則,為無效投票。當(dāng)投票無效時,投票方法一以余弦計算的結(jié)果為最終的投票結(jié)果,投票方法二將Hellinger距離作為最終結(jié)果,兩種方法進行對比,選擇合適的計算方法。

    5 實驗結(jié)果及分析

    5.1 詞向量擴展實驗

    1.實驗數(shù)據(jù)來源

    利用網(wǎng)絡(luò)爬蟲,從有藏漢雙語鏈接的新聞網(wǎng)站爬取語料。具體網(wǎng)站網(wǎng)址如表1所示,語料統(tǒng)計信息如表2所示。

    表1 藏漢雙語網(wǎng)站

    表2 語料統(tǒng)計信息

    2.根據(jù)Word2Vec擴展關(guān)鍵詞

    利用獲得的語料,訓(xùn)練出詞向量??傆嬘?xùn)練出365 428個漢語詞的詞向量,382 022個藏語詞的詞向量。對于每篇文本,計算每個詞詞義距離最近的三個詞,加入到文本表示中。每次計算的詞義距離都保存下來,避免之后進行重復(fù)計算。漢語詞義擴展示例如表3所示,藏語詞義擴展示例如表4所示。

    表3 漢語詞義擴展

    表4 藏語詞義擴展

    5.2 藏漢LDA話題模型構(gòu)建實驗

    本文采用java編程來構(gòu)建LDA話題模型,主要包括四個階段:文檔輸入、話題建模、話題預(yù)測、話題輸出。

    在話題建模之前,我們要事先設(shè)置好先驗參數(shù),以便于后續(xù)的話題預(yù)測。

    (1) 話題數(shù)量K:通過經(jīng)驗,人工設(shè)置找到合適的值;

    (2) 迭代次數(shù):本文設(shè)為800;

    (3)α:默認設(shè)為50/K;

    (4)β:通常設(shè)為0.01;

    (5) 話題詞的數(shù)量:設(shè)為20。

    話題模型構(gòu)建訓(xùn)練語料是從中國西藏新聞網(wǎng)漢語版和藏語版下載的語料,得到132篇藏漢可比新聞文本對。將訓(xùn)練語料中的文本進行分詞標(biāo)注、去除停用詞,通過調(diào)試,選擇出合適的話題數(shù)量。通過實驗獲得漢語話題70個,藏語話題65個。對每個話題類選取概率最大的二十個詞語來展現(xiàn)該話題。我們從藏語話題出發(fā),尋找與藏語話題相對應(yīng)的漢語話題,實現(xiàn)藏漢話題的對齊,由此建立起跨語言LDA話題模型。

    我們從訓(xùn)練集中隨機抽取出新聞文本,來檢驗話題模型的同話題聚類效果,列出這些新聞文本的主要話題分布(按照比重選取前三個話題),如表5和表6所示,分別列出了漢語和藏語同話題新聞聚類。

    表5 漢語新聞報道中同話題新聞聚類

    表6 藏語新聞報道中同話題新聞聚類

    續(xù)表

    由表5和表6可以看出,具有相似報道內(nèi)容的新聞文本被聚集在一個話題類中,接下來要進行話題的對齊,話題對齊之后能夠?qū)⒂嘘P(guān)于同一話題的藏語和漢語新聞報道聯(lián)系起來。

    5.2 話題對齊實驗

    抽取出藏語話題和漢語話題之后,需要進行藏漢話題的對齊。將話題映射到文檔概念空間,計算藏語話題和漢語話題的相似度,四種方法以及投票方法實驗結(jié)果的準(zhǔn)確率如表7所示。

    表7 多種方法準(zhǔn)確率比較

    圖4 各方法準(zhǔn)確率比較柱狀圖/%

    由表7和圖4可以看出,在余弦距離、歐式距離、Hellinger距離和KL距離四種相似度計算算法中,余弦距離和Hellinger距離在本文的工作中較有優(yōu)勢,因此在投票過程中,當(dāng)產(chǎn)生無效投票時,考慮分別將余弦距離和Hellinger距離作為最終的投票結(jié)果,并將這兩種投票方法進行比較。從實驗結(jié)果可以看出,投票無效時將余弦距離作為最終投票結(jié)果的方法即投票1有較好的效果。投票過程示例如表8所示。

    表8 話題對齊票數(shù)

    續(xù)表

    以表8中數(shù)據(jù)為例,每種方法對藏語話題22在漢語話題4上都投出了一票,表明對于藏語話題22與漢語話題4對齊,四種方法都表示贊成。四種方法中有三種方法對藏語話題1和漢語話題9對齊投出了贊成票。少于三種方法對藏語話題57與漢語話題61對齊表示贊成,因此,這時依據(jù)余弦相似度的計算結(jié)果,作為最終的投票結(jié)果。對齊的藏漢話題示例如表9所示。

    表9 藏漢對齊話題列表

    由表9可以看出,通過話題對齊,描述同一話題的藏語和漢語基本能夠?qū)?yīng)。但由于相比于漢語的分詞,藏語分詞在準(zhǔn)確度和效果上還是有所欠缺,因此,對于同一話題的藏語和漢語描述詞只是大致能夠?qū)?yīng)上,還不能準(zhǔn)確到具體的每一個詞。

    6 結(jié)論與展望

    伴隨互聯(lián)網(wǎng)的飛速發(fā)展和廣泛應(yīng)用,人類步入網(wǎng)絡(luò)時代,互聯(lián)網(wǎng)成了人們獲取信息的主要途徑??缯Z言話題抽取和對齊可以幫助人們從雜亂無章的網(wǎng)絡(luò)信息中快速地獲取到所需的關(guān)鍵信息,并且可以了解不同語種的相關(guān)信息。本文在可比語料的基礎(chǔ)上構(gòu)建出LDA話題模型,分別抽取出藏語和漢語話題,并提出了一種基于投票機制的話題對齊方法,該方法跨越了語言的障礙,能夠很好地實現(xiàn)不同語言同話題的聚集。

    本文也存在一些不足:

    1.用于實驗的新聞?wù)Z料規(guī)模還不夠大,后續(xù)將會擴大語料庫規(guī)模,并在此基礎(chǔ)上對提出的方法進行完善;

    2.相比于漢語分詞,藏語分詞準(zhǔn)確率還有待提高,分詞的準(zhǔn)確性對計算的效果有著至關(guān)重要的作用,這也是進行后續(xù)研究的基礎(chǔ);

    3.詞向量訓(xùn)練語料的好壞直接影響到語義距離的計算,相比于漢語,由于網(wǎng)絡(luò)上藏語語料環(huán)境的復(fù)雜性和藏語語料的缺乏,常常會導(dǎo)致藏語詞向量使用效果不佳,今后,需要尋求相對規(guī)范化的藏語語料,并對藏語詞向量訓(xùn)練語料規(guī)模進行擴大。

    [1] 高定國,關(guān)白.回顧藏文信息處理技術(shù)的發(fā)展[J].西藏大學(xué)學(xué)報:社會科學(xué)版,2009(3):18-27.

    [2] 何明華.當(dāng)代藏文信息處理的現(xiàn)狀與展望[J].科技資訊,2014,12(23):249-249.

    [3] J Allan,J Carbonell,G Doddington,et al.Topic Detection and Tracking Pilot Study:Final Report[C]//Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop,Virginia:Lansdowne,1998:194-218.

    [4] Deerwester S C,Dumais S T,Landauer T K,et al.Indexing by latent semantic analysis[J].JASIS,1990,41(6):391-407.

    [5] Hofmann T.Probabilistic latent semantic indexing[C]//Proceedings of SIGIR.ACM,1999:50-57.

    [6] Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].The Journal of machine learning research,2003(3):993-1022.

    [7] Connell M,Feng A,Kumaran G,et al.UMass at TDT 2004[C]//Proceedings of the Topic Detection and Tracking Workshop Report.2004.

    [8] Allan J,Papka R,Lavrenko V.On-line New Event Detection and Tracking[C]//Proceedings of SIGIR,1998:37-45.

    [9] 洪宇,張宇,劉挺,等.話題檢測與跟蹤的評測及研究綜述[J].中文信息學(xué)報,2007,21(6):71-87.

    [10] Yang Y,Pierce T,Carbonell J.A Study of Retrospective and On-line Event Detection[C]//Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval.ACM,1998:28-36.

    [11] Wei X,Croft W B.LDA-based document models for ad-hoc retrieval[C]//Proceedings of the SIGIR.ACM,2006:178-185.

    [12] 徐戈,王厚峰.自然語言處理中主題模型的發(fā)展[J].計算機學(xué)報,2011,34(8):1423-1436.

    [13] 陸前.英、漢跨語言話題檢測與跟蹤技術(shù)研究[D].中央民族大學(xué)博士學(xué)位論文,2013.

    [14] 石杰.中泰跨語言話題檢測方法與技術(shù)研究[D].昆明理工大學(xué)碩士學(xué)位論文,2015.

    Research on the Extraction and Alignment of Tibetan-Chinese Cross-language Topics

    SUN Yuan1,2,ZHAO Qian1,2

    (1.School of Information Engineering,Minzu University of China,Beijing,100081,China;2.Minority Languages Branch,National Language Resource and Monitoring Research Center,Beijing,100081,China)

    In contrast to the,To discover synchronication topics associated in Tibetan and Chinese social networking,we build LDA topic model on the basis of Tibetan-Chinese comparable corpus,with word2vec as the input and Gibbs sampling to estimate model parameters.To align Tibetan topics and Chinese topics,we calculate the similarity between Tibetan and Chinese topics according to the distribution of text-topic disctrbution via a voting method based on cosine distance,Euclidean distance,Hellinger distance and KL distance.

    topic extraction; LDA model; topic alignment

    孫媛(1979—),博士,副教授,碩士生導(dǎo)師,主要研究領(lǐng)域為自然語言處理和知識工程。E-mail:173701102@qq.com趙倩(1990—),碩士研究生,主要研究領(lǐng)域為自然語言處理。E-mail:393984725@qq.com

    1003-0077(2017)01-0102-10

    2016-05-18 定稿日期:2016-08-05

    國家自然科學(xué)基金(61501529,61331013);國家語委項目(ZDI125-36,YB125-139)

    TP391

    A

    猜你喜歡
    模型
    一半模型
    一種去中心化的域名服務(wù)本地化模型
    適用于BDS-3 PPP的隨機模型
    提煉模型 突破難點
    函數(shù)模型及應(yīng)用
    p150Glued在帕金森病模型中的表達及分布
    函數(shù)模型及應(yīng)用
    重要模型『一線三等角』
    重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
    3D打印中的模型分割與打包
    久久精品国产亚洲av天美| 我的女老师完整版在线观看| 亚洲欧美清纯卡通| 久久久a久久爽久久v久久| 亚洲国产日韩一区二区| 哪个播放器可以免费观看大片| 伦理电影免费视频| 狂野欧美白嫩少妇大欣赏| 精品一区二区三卡| 日本黄大片高清| 精品国产三级普通话版| 国语对白做爰xxxⅹ性视频网站| 在线亚洲精品国产二区图片欧美 | 又黄又爽又刺激的免费视频.| 成人免费观看视频高清| 草草在线视频免费看| 青青草视频在线视频观看| 最近2019中文字幕mv第一页| kizo精华| 亚洲熟女精品中文字幕| 91久久精品国产一区二区成人| 久久精品久久久久久久性| 久久久欧美国产精品| 国产女主播在线喷水免费视频网站| 亚洲伊人久久精品综合| 亚洲欧美清纯卡通| 成人一区二区视频在线观看| 这个男人来自地球电影免费观看 | av免费在线看不卡| 男人和女人高潮做爰伦理| 乱码一卡2卡4卡精品| 老司机影院毛片| 亚洲av成人精品一二三区| 亚洲,一卡二卡三卡| 国产精品伦人一区二区| 亚洲中文av在线| av免费观看日本| 少妇裸体淫交视频免费看高清| 99热这里只有是精品在线观看| av女优亚洲男人天堂| 免费黄频网站在线观看国产| 在线看a的网站| 自拍欧美九色日韩亚洲蝌蚪91 | av线在线观看网站| 你懂的网址亚洲精品在线观看| 精品一区二区免费观看| 亚洲色图综合在线观看| 国产淫片久久久久久久久| 国产中年淑女户外野战色| 亚洲av综合色区一区| 99热这里只有精品一区| 国产免费又黄又爽又色| 色5月婷婷丁香| 国产高清不卡午夜福利| 国产高潮美女av| 日本与韩国留学比较| www.色视频.com| 男女边吃奶边做爰视频| 女人十人毛片免费观看3o分钟| 99久国产av精品国产电影| a级毛色黄片| 亚洲av在线观看美女高潮| 精品一品国产午夜福利视频| 国产探花极品一区二区| av.在线天堂| 日本av免费视频播放| 一本—道久久a久久精品蜜桃钙片| 欧美少妇被猛烈插入视频| 欧美zozozo另类| 国产片特级美女逼逼视频| 嘟嘟电影网在线观看| 高清在线视频一区二区三区| 精品一品国产午夜福利视频| 日韩,欧美,国产一区二区三区| 精品国产一区二区三区久久久樱花 | 国产在线视频一区二区| 亚洲成人中文字幕在线播放| 啦啦啦中文免费视频观看日本| 蜜桃亚洲精品一区二区三区| 欧美区成人在线视频| 99久久中文字幕三级久久日本| 国产亚洲精品久久久com| 又黄又爽又刺激的免费视频.| 制服丝袜香蕉在线| 欧美少妇被猛烈插入视频| 久久精品国产亚洲网站| 国产欧美亚洲国产| 18禁裸乳无遮挡动漫免费视频| 国产精品久久久久成人av| 99热这里只有是精品50| 日韩av在线免费看完整版不卡| 搡老乐熟女国产| 国产69精品久久久久777片| 亚洲久久久国产精品| 五月伊人婷婷丁香| 国产亚洲精品久久久com| 国产淫语在线视频| 男女边摸边吃奶| 成人影院久久| 女的被弄到高潮叫床怎么办| 你懂的网址亚洲精品在线观看| 亚洲国产欧美在线一区| 久久97久久精品| 亚洲国产精品成人久久小说| 亚洲精品国产av蜜桃| 国产免费又黄又爽又色| 大香蕉久久网| 蜜臀久久99精品久久宅男| 日韩制服骚丝袜av| 丰满迷人的少妇在线观看| 2021少妇久久久久久久久久久| 国产v大片淫在线免费观看| 成人一区二区视频在线观看| 国产毛片在线视频| 久久人妻熟女aⅴ| 黄片无遮挡物在线观看| 亚洲精品乱久久久久久| 人人妻人人添人人爽欧美一区卜 | 午夜免费观看性视频| 三级经典国产精品| 国产乱人视频| 久久久久久久久大av| 国产黄片视频在线免费观看| 成年人午夜在线观看视频| 国产一级毛片在线| 99久久精品一区二区三区| 波野结衣二区三区在线| 3wmmmm亚洲av在线观看| 日本猛色少妇xxxxx猛交久久| 国产成人a∨麻豆精品| 麻豆精品久久久久久蜜桃| 亚洲三级黄色毛片| 熟女电影av网| 又大又黄又爽视频免费| 久久影院123| 最后的刺客免费高清国语| 国产69精品久久久久777片| 美女中出高潮动态图| 黄色日韩在线| av播播在线观看一区| 2018国产大陆天天弄谢| 欧美成人a在线观看| 日本黄色片子视频| 成人免费观看视频高清| 黑人猛操日本美女一级片| 热re99久久精品国产66热6| 性高湖久久久久久久久免费观看| 多毛熟女@视频| 婷婷色av中文字幕| 欧美xxⅹ黑人| 人人妻人人添人人爽欧美一区卜 | 日本与韩国留学比较| 美女福利国产在线 | 亚洲欧美成人综合另类久久久| 美女cb高潮喷水在线观看| 亚洲av中文字字幕乱码综合| 两个人的视频大全免费| 在线观看一区二区三区| 在线观看美女被高潮喷水网站| 久久女婷五月综合色啪小说| 五月玫瑰六月丁香| 欧美 日韩 精品 国产| 人体艺术视频欧美日本| 视频中文字幕在线观看| 久久精品国产鲁丝片午夜精品| 日本免费在线观看一区| 黄色怎么调成土黄色| 日日啪夜夜爽| 欧美精品一区二区免费开放| 在现免费观看毛片| 岛国毛片在线播放| 国产亚洲最大av| 在线亚洲精品国产二区图片欧美 | 一个人看的www免费观看视频| 五月玫瑰六月丁香| 国产精品久久久久久久久免| 亚洲av欧美aⅴ国产| 黄色怎么调成土黄色| 老女人水多毛片| 欧美精品人与动牲交sv欧美| 卡戴珊不雅视频在线播放| 免费少妇av软件| 中文欧美无线码| 一本久久精品| 91精品一卡2卡3卡4卡| 亚洲欧美成人综合另类久久久| 在线免费十八禁| 一个人看视频在线观看www免费| 亚洲av男天堂| 免费看日本二区| 高清午夜精品一区二区三区| 久久99热这里只频精品6学生| 乱码一卡2卡4卡精品| 亚洲精品久久久久久婷婷小说| 少妇猛男粗大的猛烈进出视频| 最近最新中文字幕大全电影3| 黑丝袜美女国产一区| av播播在线观看一区| 国产高清国产精品国产三级 | 国产永久视频网站| 又粗又硬又长又爽又黄的视频| 国产人妻一区二区三区在| 日本欧美视频一区| 亚洲第一区二区三区不卡| 国产精品国产三级国产av玫瑰| 久久6这里有精品| 超碰97精品在线观看| 中国美白少妇内射xxxbb| 91午夜精品亚洲一区二区三区| 男女边吃奶边做爰视频| 久久久久网色| 日韩电影二区| 免费观看在线日韩| 一本—道久久a久久精品蜜桃钙片| 精品久久久精品久久久| 欧美成人午夜免费资源| 女人久久www免费人成看片| 国产精品成人在线| 在线观看美女被高潮喷水网站| 日韩一区二区三区影片| 人人妻人人看人人澡| 男女啪啪激烈高潮av片| a级毛片免费高清观看在线播放| 男人爽女人下面视频在线观看| 夜夜爽夜夜爽视频| 人妻夜夜爽99麻豆av| 九色成人免费人妻av| 亚洲国产精品成人久久小说| 午夜免费观看性视频| 日韩av不卡免费在线播放| 91久久精品国产一区二区三区| 亚洲精品第二区| 人人妻人人看人人澡| 汤姆久久久久久久影院中文字幕| 国产亚洲最大av| 美女cb高潮喷水在线观看| 精品亚洲成国产av| 亚洲欧美一区二区三区黑人 | 汤姆久久久久久久影院中文字幕| 成人特级av手机在线观看| 少妇熟女欧美另类| 欧美高清成人免费视频www| 汤姆久久久久久久影院中文字幕| 狂野欧美激情性xxxx在线观看| 久久久久精品性色| 国产在线男女| 国产精品偷伦视频观看了| 一级毛片久久久久久久久女| 亚洲av不卡在线观看| 亚洲经典国产精华液单| 亚洲美女视频黄频| 王馨瑶露胸无遮挡在线观看| av黄色大香蕉| 久久久久久久久久人人人人人人| 最近最新中文字幕免费大全7| 在线免费观看不下载黄p国产| 国产男女超爽视频在线观看| 91精品国产国语对白视频| 亚洲精华国产精华液的使用体验| 精品久久久久久久久av| av在线老鸭窝| 国产成人91sexporn| 天堂俺去俺来也www色官网| 午夜福利在线观看免费完整高清在| 久久精品久久精品一区二区三区| 亚洲欧美成人精品一区二区| 国产亚洲午夜精品一区二区久久| 国产成人a区在线观看| 精品人妻视频免费看| 水蜜桃什么品种好| 精品国产露脸久久av麻豆| 久久综合国产亚洲精品| 国产伦精品一区二区三区四那| 亚洲av.av天堂| 亚洲精品456在线播放app| 国产乱人视频| 国产 精品1| 成人亚洲欧美一区二区av| 一级毛片久久久久久久久女| 日日摸夜夜添夜夜添av毛片| 欧美另类一区| 久久久精品免费免费高清| 久久久久久伊人网av| 国产无遮挡羞羞视频在线观看| 国内少妇人妻偷人精品xxx网站| 一区二区三区免费毛片| 久久精品国产亚洲av涩爱| 美女国产视频在线观看| 最近手机中文字幕大全| 精品视频人人做人人爽| 日韩欧美 国产精品| 在线观看国产h片| 欧美极品一区二区三区四区| 美女脱内裤让男人舔精品视频| 久久人人爽人人爽人人片va| av女优亚洲男人天堂| 久久av网站| 亚洲av成人精品一二三区| 大香蕉97超碰在线| 午夜免费男女啪啪视频观看| 国产真实伦视频高清在线观看| 久久国产亚洲av麻豆专区| 少妇人妻精品综合一区二区| av视频免费观看在线观看| 亚洲熟女精品中文字幕| 午夜老司机福利剧场| 精品一品国产午夜福利视频| 久久99蜜桃精品久久| 精品久久久久久久末码| 中文字幕久久专区| 一区在线观看完整版| 久久久久人妻精品一区果冻| 美女视频免费永久观看网站| 免费观看在线日韩| 超碰av人人做人人爽久久| 老女人水多毛片| 在线观看免费日韩欧美大片 | 亚洲av日韩在线播放| 伦理电影免费视频| 熟妇人妻不卡中文字幕| 大话2 男鬼变身卡| 亚洲国产精品一区三区| 高清在线视频一区二区三区| 国产爱豆传媒在线观看| 国产av国产精品国产| tube8黄色片| 这个男人来自地球电影免费观看 | .国产精品久久| 黑人猛操日本美女一级片| 亚洲人成网站在线播| 午夜福利高清视频| 欧美性感艳星| 97在线人人人人妻| 亚洲精品亚洲一区二区| 国精品久久久久久国模美| 国产成人a区在线观看| 黄片无遮挡物在线观看| 女人十人毛片免费观看3o分钟| 99热这里只有是精品50| 国产精品偷伦视频观看了| 成人无遮挡网站| 丝袜喷水一区| 午夜福利在线在线| 91精品国产国语对白视频| 精品久久久噜噜| 久久久久久九九精品二区国产| 91在线精品国自产拍蜜月| 久久久久久久亚洲中文字幕| 亚洲一区二区三区欧美精品| 黄色怎么调成土黄色| 久久毛片免费看一区二区三区| 观看免费一级毛片| 只有这里有精品99| 国产亚洲精品久久久com| 欧美老熟妇乱子伦牲交| 精品一区二区免费观看| 韩国av在线不卡| 高清午夜精品一区二区三区| 一级毛片久久久久久久久女| 久久久久久久亚洲中文字幕| 少妇人妻一区二区三区视频| 夜夜骑夜夜射夜夜干| 不卡视频在线观看欧美| xxx大片免费视频| 18禁动态无遮挡网站| 国产高潮美女av| 国产精品久久久久久av不卡| 小蜜桃在线观看免费完整版高清| 99热国产这里只有精品6| 黄色视频在线播放观看不卡| 五月开心婷婷网| 大片电影免费在线观看免费| 国产91av在线免费观看| 午夜福利高清视频| 嫩草影院入口| 亚洲无线观看免费| 一本色道久久久久久精品综合| 日本黄色片子视频| av在线蜜桃| 免费大片18禁| 大又大粗又爽又黄少妇毛片口| 中文字幕av成人在线电影| 亚洲高清免费不卡视频| 国产欧美日韩精品一区二区| 视频区图区小说| 亚洲国产色片| 国产欧美亚洲国产| 在线观看三级黄色| 亚洲国产成人一精品久久久| 日韩一本色道免费dvd| 在线观看免费高清a一片| 免费看不卡的av| 日韩精品有码人妻一区| 人妻系列 视频| 永久网站在线| 日本av手机在线免费观看| 精品亚洲成国产av| 亚洲欧美精品专区久久| 国产精品熟女久久久久浪| 国产一区二区三区综合在线观看 | 精品亚洲成a人片在线观看 | 一个人看视频在线观看www免费| 精品少妇久久久久久888优播| 一个人看视频在线观看www免费| 久久6这里有精品| 一个人看的www免费观看视频| 国模一区二区三区四区视频| 亚洲欧美一区二区三区黑人 | 人人妻人人看人人澡| 亚洲国产精品一区三区| 国产成人精品福利久久| 一本久久精品| 国产爱豆传媒在线观看| 免费观看的影片在线观看| 黄色一级大片看看| 伦理电影免费视频| 久久久a久久爽久久v久久| 精品久久久久久久久亚洲| 久久精品夜色国产| 亚洲第一区二区三区不卡| 国产成人免费无遮挡视频| 国产成人一区二区在线| 大码成人一级视频| 狠狠精品人妻久久久久久综合| 日韩一本色道免费dvd| 亚洲欧美清纯卡通| 少妇高潮的动态图| 亚洲av电影在线观看一区二区三区| 国产一区有黄有色的免费视频| 欧美日韩精品成人综合77777| 午夜激情福利司机影院| 国产成人精品久久久久久| 嫩草影院入口| 免费看光身美女| 国产视频首页在线观看| 亚洲三级黄色毛片| 日日撸夜夜添| 极品教师在线视频| 亚洲精品视频女| 日本欧美国产在线视频| 夫妻性生交免费视频一级片| av国产精品久久久久影院| 国产精品不卡视频一区二区| 一级a做视频免费观看| 涩涩av久久男人的天堂| 在线观看一区二区三区| 美女高潮的动态| 亚洲一区二区三区欧美精品| 精品一区二区三区视频在线| 美女脱内裤让男人舔精品视频| 久久99热这里只频精品6学生| 国产精品国产av在线观看| 一区二区三区四区激情视频| 欧美97在线视频| 丰满乱子伦码专区| 看免费成人av毛片| 美女cb高潮喷水在线观看| 22中文网久久字幕| 香蕉精品网在线| 一区二区av电影网| 免费人成在线观看视频色| 狂野欧美激情性xxxx在线观看| 日韩,欧美,国产一区二区三区| 国模一区二区三区四区视频| 久久热精品热| 一级av片app| 少妇人妻久久综合中文| 国产伦精品一区二区三区四那| 在线观看美女被高潮喷水网站| 亚洲成色77777| 久久久久网色| 欧美精品一区二区免费开放| 日日啪夜夜爽| 丰满乱子伦码专区| 亚洲中文av在线| 2021少妇久久久久久久久久久| 午夜福利高清视频| 国产美女午夜福利| 日韩人妻高清精品专区| 毛片女人毛片| 日本免费在线观看一区| 精品久久久久久久末码| 网址你懂的国产日韩在线| 最近中文字幕高清免费大全6| 亚洲国产精品999| 国产精品一区二区在线不卡| 国产在线男女| 黑人猛操日本美女一级片| 亚洲丝袜综合中文字幕| 国产黄片视频在线免费观看| 久久人妻熟女aⅴ| 国产乱来视频区| 草草在线视频免费看| 国产淫语在线视频| av国产精品久久久久影院| 免费观看在线日韩| 国产精品久久久久久精品电影小说 | 又大又黄又爽视频免费| 女的被弄到高潮叫床怎么办| 精品人妻视频免费看| 热re99久久精品国产66热6| 精品人妻视频免费看| 久久精品国产亚洲网站| 亚洲精品视频女| 国产精品99久久99久久久不卡 | 青青草视频在线视频观看| 在线精品无人区一区二区三 | 99re6热这里在线精品视频| 我要看日韩黄色一级片| 在线播放无遮挡| 噜噜噜噜噜久久久久久91| 亚洲人成网站在线观看播放| a级毛片免费高清观看在线播放| 成人午夜精彩视频在线观看| 久久久国产一区二区| 一级毛片aaaaaa免费看小| 少妇的逼好多水| 午夜免费观看性视频| 97在线视频观看| 人妻 亚洲 视频| 激情 狠狠 欧美| 国产伦在线观看视频一区| 激情 狠狠 欧美| 国产成人一区二区在线| 视频中文字幕在线观看| 伊人久久精品亚洲午夜| 久久久久久久精品精品| 国产成人freesex在线| 国精品久久久久久国模美| 女人久久www免费人成看片| 女人十人毛片免费观看3o分钟| 少妇高潮的动态图| 亚洲成人手机| 99精国产麻豆久久婷婷| 国语对白做爰xxxⅹ性视频网站| 亚洲电影在线观看av| 国产精品嫩草影院av在线观看| 日本-黄色视频高清免费观看| 国产精品久久久久成人av| 成人毛片60女人毛片免费| 在线免费十八禁| 亚洲精品日韩在线中文字幕| 少妇熟女欧美另类| 街头女战士在线观看网站| 久久久久久久大尺度免费视频| 26uuu在线亚洲综合色| 久久99热6这里只有精品| av播播在线观看一区| 久热久热在线精品观看| 亚洲天堂av无毛| 免费黄网站久久成人精品| 亚洲av男天堂| 国产一区有黄有色的免费视频| 777米奇影视久久| 久久精品熟女亚洲av麻豆精品| 夫妻午夜视频| 免费看不卡的av| 午夜福利视频精品| 亚洲一区二区三区欧美精品| 中文字幕人妻熟人妻熟丝袜美| 舔av片在线| 免费观看在线日韩| 晚上一个人看的免费电影| 国产国拍精品亚洲av在线观看| 人妻制服诱惑在线中文字幕| 国产精品99久久99久久久不卡 | 亚洲欧美日韩东京热| 国产黄片视频在线免费观看| 国产白丝娇喘喷水9色精品| 嫩草影院入口| 永久网站在线| 免费黄色在线免费观看| 国产一区二区三区av在线| 亚洲精品乱码久久久v下载方式| 国产精品一及| 久久精品熟女亚洲av麻豆精品| 国产精品爽爽va在线观看网站| 麻豆成人av视频| 大片免费播放器 马上看| 免费观看在线日韩| 国产精品久久久久久精品电影小说 | 欧美国产精品一级二级三级 | 99视频精品全部免费 在线| 久久久久网色| 欧美亚洲 丝袜 人妻 在线| 一级av片app| 日日撸夜夜添| 国产伦精品一区二区三区四那| 天堂8中文在线网| 岛国毛片在线播放| 中文字幕精品免费在线观看视频 | 我要看日韩黄色一级片| 亚洲最大成人中文| 亚洲国产最新在线播放| 全区人妻精品视频| 久久久久精品性色| 国产午夜精品久久久久久一区二区三区| 欧美成人精品欧美一级黄| 久久久久久久久大av| 午夜免费观看性视频| 综合色丁香网| 黄色一级大片看看| 插阴视频在线观看视频| 亚洲激情五月婷婷啪啪| 男人狂女人下面高潮的视频| 搡女人真爽免费视频火全软件| 久久久久久久亚洲中文字幕| 亚洲精品国产色婷婷电影| www.av在线官网国产| 大香蕉97超碰在线| 午夜福利在线在线| 九九爱精品视频在线观看| 国产成人免费观看mmmm| 久久久精品免费免费高清| 视频中文字幕在线观看|