• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于LDA的社科文獻(xiàn)主題建模方法

    2018-03-05 02:06:40李昌亞劉方方
    關(guān)鍵詞:特征詞社科文檔

    李昌亞,劉方方

    (上海大學(xué) 計(jì)算機(jī)工程與科學(xué)學(xué)院,上海 200444)

    0 引 言

    社會(huì)科學(xué)文獻(xiàn),簡(jiǎn)稱社科文獻(xiàn),是指記載有關(guān)社會(huì)科學(xué)知識(shí)、信息的一切物質(zhì)載體。在現(xiàn)代信息社會(huì)中,社科文獻(xiàn)數(shù)量龐大,內(nèi)容廣泛,種類繁多,載體多樣,發(fā)展速度快[1],尤其是社科文獻(xiàn)領(lǐng)域下的專題文獻(xiàn)主題交叉比較明顯。隨著社會(huì)發(fā)展,文獻(xiàn)中會(huì)不斷出現(xiàn)很多新詞,很多詞語會(huì)具有特定含義,如“四化并舉”、“黃金水道”、“成本化解”等。這種情況僅僅通過人工分類,或者單純地依靠機(jī)器自動(dòng)進(jìn)行主題提取、分類,不能很好地提取出文獻(xiàn)的主題和類別。

    對(duì)于處理自然語言中的問題,主題模型是一種很常見和成熟的技術(shù)。主題模型的起源是隱性語義索引(latent semantic analysis,LSA)[2],嚴(yán)格意義上講,隱性語義索引并不是真正的主題模型,但是其基本思想促進(jìn)了主題模型的發(fā)展。概率隱性語義索引(probabilistic latent semantic analysis,pLSA)[3]就是由LSA發(fā)展而來的一個(gè)基于概率模型的主題模型。Blei等以pLSA為基礎(chǔ)提出的LDA(latent Dirichlet allocation)[4]是一個(gè)完全的概率生成模型。近年來,業(yè)內(nèi)出現(xiàn)的許多概率模型都是以LDA為基礎(chǔ),結(jié)合不同的業(yè)務(wù)進(jìn)行改進(jìn)的,但是這些算法都不太適合對(duì)社科文獻(xiàn)領(lǐng)域類的文檔集進(jìn)行主題提取。

    因此,為了能夠高效、準(zhǔn)確地提取社科文獻(xiàn)領(lǐng)域類中文檔集的主題,文中提出一種以LDA模型為基礎(chǔ),結(jié)合社科文獻(xiàn)的特點(diǎn),改進(jìn)主題建模過程的主題建模方法。

    1 相關(guān)工作

    LDA主題模型,本質(zhì)思想是以概率為基礎(chǔ)對(duì)文本進(jìn)行主題建模。它獨(dú)立于文本自身特點(diǎn),所以對(duì)于不同領(lǐng)域的業(yè)務(wù)需求,如果直接應(yīng)用LDA算法進(jìn)行主題建模,結(jié)果都是不夠精準(zhǔn)的。因此,提出了很多結(jié)合不同的業(yè)務(wù)需求,對(duì)LDA進(jìn)行相應(yīng)改進(jìn)的算法。首先是將LDA模型運(yùn)用到短文本領(lǐng)域,如微博、用戶評(píng)論等,它們對(duì)LDA模型本身沒有過多的改進(jìn),而是偏向?qū)DA模型的應(yīng)用。張志飛等[5]利用LDA建模后的主題特點(diǎn)對(duì)短文本進(jìn)行分類;高明等[6]將LDA主題模型應(yīng)用在對(duì)微博的個(gè)性推薦方面。將LDA模型應(yīng)用到博客、帖子和話題追蹤和預(yù)測(cè)等方面[7-8]都有很好的價(jià)值,但是對(duì)于該論文背景中篇幅較長(zhǎng)、量比較大的社科文獻(xiàn),這些方法明顯不太適合。

    其次,主要是在LDA模型的基礎(chǔ)上引入新的參數(shù)或者約束條件。何錦群[9]提出對(duì)文檔集的所有隱藏主題進(jìn)行分類,即主題層之上再引入一層表示主題的類別,該算法適合文檔集主題分布比較廣泛的情形,但是對(duì)于主題交叉和特征詞比較明顯的文檔集效果不太明顯。SA-LDA[10]算法和SRC-LDA[11]中利用句法分析構(gòu)建語料庫(kù)的約束條件,從而引導(dǎo)主題建模,但該算法使用于短文本,不太適合具有篇幅較長(zhǎng)的文檔。

    另外,還有就是從LDA概率模型的基本原理出發(fā),認(rèn)為概率模型主要受高頻詞的影響,會(huì)使得建模后的主題不夠明確。胡勇軍等[12]利用LDA高頻詞作為短文本分類的空間模型的特征向量。張小平[13]在建模過程中選擇降低高頻詞的權(quán)重,這個(gè)改進(jìn)雖然可以降低常用高頻詞匯對(duì)建模的影響,但是對(duì)于那些主題詞比較明顯、具有很多新詞新義的文檔集依然存在不足。雖然從整體上降低了常用高頻詞的干擾,但是不能提高特征詞和新詞在主題建模過程中的重要性。

    因此,文中提出一種根據(jù)文檔集自身的主題特征進(jìn)行特征詞標(biāo)注,然后在LDA建模過程中增加主題特征詞權(quán)重的建模方法,從而使得建模結(jié)果的主題分布更加準(zhǔn)確,更加符合文檔集自身的特點(diǎn)。

    2 LDA模型

    2.1 模型描述

    LDA是一種非監(jiān)督學(xué)習(xí)技術(shù),可以用來識(shí)別大規(guī)模文檔集(document collection)或語料庫(kù)(corpus)中潛藏的主題信息[14-15]。LDA模型從實(shí)際情況出發(fā),一個(gè)文檔由多個(gè)隱含主題隨機(jī)組成,而每個(gè)主題又可以由文檔中的多個(gè)詞語進(jìn)行表示(如圖1所示)。因此,可將一篇文檔表示為隱含主題的概率分布(doc-topic),而每一個(gè)隱含主題又可以看作詞語的概率分布(topic-word)。這種思想有利于大規(guī)模文檔集處理中的空間降維,即把文檔映射到topic層面上。LDA在建立兩個(gè)分布時(shí),采用了詞袋(bag of words)[16]的方法,這種方法忽略了每一篇文檔中句子的語法、次序,以及詞之間的關(guān)系,文檔中每個(gè)詞語的出現(xiàn)都是相互獨(dú)立的。

    圖1 文檔-主題-詞語關(guān)系

    LDA建模的基本層次結(jié)構(gòu)是文檔-主題-詞語。簡(jiǎn)單理解為:每篇文檔都是由若干個(gè)詞語組成的,同時(shí)每篇文檔都有潛在的幾個(gè)相關(guān)的主題,而組成這篇文檔所有的有用詞語可以看成是這幾個(gè)主題詞對(duì)應(yīng)的一部分相關(guān)的詞語。因此,認(rèn)為文檔與主題之間的概率分布(doc-topic)是多項(xiàng)分布Z~Multinational(θm),主題與詞語之間的概率分布(topic-word)也是多相分布W~Multinational(ψk)。LDA引入了Dirichlet分布作為多項(xiàng)分布的先驗(yàn)分布進(jìn)行求解,LDA模型的結(jié)構(gòu)如圖2所示。

    圖2 LDA模型結(jié)構(gòu)

    利用LDA模型[17]對(duì)文檔集主題模型進(jìn)行生成可以理解為對(duì)整個(gè)文檔集中的詞語進(jìn)行生成,其具體過程如下:

    (1)建模過程中,首先給定α和β的值,及主題K的取值。對(duì)于α和β通常根據(jù)經(jīng)驗(yàn)取值。

    (3)確定文檔中的詞語。首先,在給定主題zij的情況下,根據(jù)β值結(jié)合

    (4)重復(fù)步驟2和步驟3,直到完成對(duì)一篇文檔的所有詞語的生成,再到所有文檔的生成。

    由LDA模型的建立過程可知,對(duì)于圖2中參數(shù)的理解,可以得到所有變量的聯(lián)合分布公式:

    p(Zm,n|θm)p(θm|α)p(ψk|β)

    (1)

    利用上述LDA模型對(duì)社科文獻(xiàn)領(lǐng)域的文檔集建模后的部分主題結(jié)果如表1所示。結(jié)果表明,同一個(gè)主題下的所有主題詞明顯是同一類別的詞語,但是部分主題中仍然存在一些相關(guān)度很低的詞語,而且對(duì)于一些文檔集中出現(xiàn)次數(shù)較少且很重要的詞語-主題特征詞,明顯是不會(huì)出現(xiàn)在主題詞中或者位序很靠后。

    表1 LDA模型建模后的主題類別

    2.2 模型實(shí)現(xiàn)方法

    LDA模型的超參數(shù)估計(jì)通常采用EM算法和Gibbs Sampling算法,其中Gibbs Sampling算法通過迭代采樣來逼近真實(shí)的概率分布[18],實(shí)現(xiàn)相對(duì)簡(jiǎn)單,而且應(yīng)用較廣泛。

    在實(shí)際應(yīng)用過程中,從文檔集的輸入到最終主題模型結(jié)果的輸出,對(duì)文檔集預(yù)處理、分詞之后直接應(yīng)用Gibbs采樣對(duì)文檔集進(jìn)行LDA模型的實(shí)現(xiàn)處理,其步驟如下:

    Step1:輸入文檔集進(jìn)行預(yù)處理、分詞;

    Step2:利用Gibbs Sampling算法對(duì)分詞后的文本進(jìn)行迭代采樣;

    Step3:迭代完成,輸出主題模型結(jié)果。

    整個(gè)模型實(shí)現(xiàn)過程并沒有考慮到文檔集自身的主題特點(diǎn),而是對(duì)預(yù)處理、分詞之后的文檔集直接利用Gibbs Sampling算法進(jìn)行實(shí)現(xiàn)。這種做法會(huì)造成主題分布偏向文檔中那些常用的高頻詞,忽略了文檔中那些主題特征明顯的詞語在建模過程中的影響。

    (2)

    (3)

    (4)

    在實(shí)際處理過程中,超參數(shù)α和β是作為常量處理的。式(3)表示文檔m下的主題k的分布情況,其中nm.k表示文檔m下主題k出現(xiàn)的次數(shù),分母表示文檔m中所有主題出現(xiàn)次數(shù)的總和。式(4)表示主題k下的詞w的分布情況,其中nk,w表示主題k下的詞w出現(xiàn)的次數(shù),分母表示主題k中所有詞語出現(xiàn)次數(shù)的總和。

    根據(jù)Gibbs Sampling的公式可以得出,nm.k和nk,w是對(duì)所有的詞或者主題通過詞自身出現(xiàn)的次數(shù)或者主題被記錄次數(shù)的統(tǒng)計(jì),而并沒有考慮詞本身對(duì)該篇文檔的重要性。由于高頻詞在主題中和文檔中占有的比例都較大,導(dǎo)致主題的分布偏向高頻詞的主題傾斜。對(duì)于那些主題特征比較明顯的詞語,出現(xiàn)的次數(shù)比較少,就會(huì)在建模過程中低作用化,甚至沒有作用。

    如果在利用Gibbs采樣過程中,對(duì)于采樣那些主題特征比較明顯的詞語時(shí),不僅考慮統(tǒng)計(jì)次數(shù),而且考慮它們?cè)谖臋n中的權(quán)重值,那么就能增加這些詞語在建模過程中的重要性。如表1中的主題3的“文化產(chǎn)業(yè)”和“世博會(huì)”、主題4的“金融機(jī)構(gòu)”、主題5的“知識(shí)產(chǎn)權(quán)”、主題6中的“長(zhǎng)江三角洲”等詞語,如果增加這些詞語的權(quán)重值,那么在模型結(jié)果中,它們對(duì)應(yīng)的主題詞位序就會(huì)上升,主題詞間相關(guān)度也會(huì)增加。

    3 改進(jìn)的LDA模型建模方法

    由于LDA模型是一種概率模型,建模過程中是以詞頻作為基礎(chǔ),所以對(duì)主題的采樣結(jié)果會(huì)偏向高頻詞。這種建模方法是不符合社科文獻(xiàn)主題分布特點(diǎn)的。為了能夠?qū)ι缈祁愇墨I(xiàn)提取更加準(zhǔn)確的主題模型,提出一種結(jié)合文檔集自身隱含的主題特征,改進(jìn)LDA建模過程中采樣策略的方法,然后應(yīng)用該方法對(duì)文檔集進(jìn)行主題的提取。

    3.1 主題建模過程

    主要介紹的是對(duì)建模過程中的改進(jìn)方法,不同于改進(jìn)前的LDA建模過程。改進(jìn)后的建模過程中將考慮文檔集自身的主題特點(diǎn),即在文檔集預(yù)處理之后,先進(jìn)行初步采樣,根據(jù)文檔集的特征詞標(biāo)記文檔中的詞語信息,形成一個(gè)主題引導(dǎo)詞庫(kù),然后再利用主題引導(dǎo)詞庫(kù)計(jì)算特征詞的權(quán)重,從而達(dá)到增加主題引導(dǎo)詞對(duì)主題建模時(shí)的影響。與之前的三步實(shí)現(xiàn)過程比較,增加了相應(yīng)的四個(gè)處理步驟,改進(jìn)后的總體實(shí)現(xiàn)步驟如下:

    Step1:輸入文檔集進(jìn)行預(yù)處理、分詞;

    Step2:初步采樣;

    Step3:特征詞標(biāo)注;

    Step4:獲取主題引導(dǎo)詞庫(kù);

    Step5:結(jié)合步驟2、4,計(jì)算引導(dǎo)詞權(quán)重;

    Step6:利用Gibbs Sampling算法對(duì)分詞后的文本進(jìn)行迭代采樣;

    Step7:迭代完成,輸出主題模型結(jié)果。

    在利用Gibbs采樣之前對(duì)預(yù)處理、分詞后的文檔集進(jìn)行初步采樣、特征詞標(biāo)注、計(jì)算引導(dǎo)詞權(quán)重三個(gè)過程。通過這三個(gè)過程可以提取出文檔集中主題特征比較明顯的詞語信息,然后利用這些信息再進(jìn)行Gibbs采樣。

    初步采樣:記錄文檔集中文檔數(shù)量和每篇文檔中詞語的數(shù)量。

    特征詞標(biāo)記:標(biāo)記每一個(gè)主題特征詞在每一篇文檔中出現(xiàn)的次數(shù)。該過程的結(jié)果形成一個(gè)主題引導(dǎo)詞庫(kù),詞庫(kù)中的詞都是文檔中出現(xiàn)頻率較小的,而且是文檔主題導(dǎo)向的關(guān)鍵詞。

    計(jì)算引導(dǎo)詞權(quán)重:根據(jù)初步采樣的信息和特征詞標(biāo)記的結(jié)果,計(jì)算主題特征詞中每一個(gè)詞在每篇文檔中對(duì)應(yīng)的權(quán)重值。

    由于引導(dǎo)詞庫(kù)中不同的詞語出現(xiàn)的頻率不一樣,而且對(duì)于不同文檔的重要程度也不一樣,故借鑒TF-IDF[19]的思想和一個(gè)可變參數(shù)δ對(duì)引導(dǎo)詞進(jìn)行權(quán)值計(jì)算。

    (5)

    計(jì)算好主題引導(dǎo)詞對(duì)應(yīng)的權(quán)重之后,在Gibbs Sampling過程中,在求主題和詞的分布時(shí)加上該詞對(duì)應(yīng)的權(quán)重值即可。

    由于該方法中考慮了文檔集自身的特點(diǎn),增加了主題特征詞在采樣過程中的重要性,所以會(huì)增加主題特征詞在文檔主題分布中的影響,最終使建模結(jié)果更加準(zhǔn)確,文檔集的主題分布更加精準(zhǔn)。

    3.2 主題建模方法的實(shí)現(xiàn)步驟

    改進(jìn)后的建模方法較改進(jìn)前的建模過程在Gibbs采樣前增加了一些與計(jì)算主題特征詞相關(guān)的處理過程。因此,改進(jìn)后算法的基本步驟如下:

    步驟1:輸入分詞后的每一篇文檔,一行為一篇文檔,同時(shí)輸入α、β、δ、主題數(shù)K,以及迭代次數(shù)。

    步驟2:掃描每一篇文檔的每一個(gè)詞語和特征詞庫(kù)進(jìn)行比較,并記錄每篇文檔詞的個(gè)數(shù)dm,如果不是特征詞,循環(huán)此步驟,直至所有的文檔都被掃描完。

    步驟5:Gibbs采樣,采樣過程中統(tǒng)計(jì)每篇文檔中每個(gè)詞語的頻率時(shí),要和特征詞進(jìn)行比對(duì),如果是,需要在主題特征詞中查找對(duì)應(yīng)的權(quán)重,并且加上該詞對(duì)應(yīng)的權(quán)值。

    步驟6:循環(huán)執(zhí)行步驟5,直至結(jié)果收斂,即迭代次數(shù)完成。

    步驟7:輸出主題建模結(jié)果。

    (6)

    (7)

    (8)

    已知文檔集中“文化產(chǎn)業(yè)”、“世博會(huì)”、“金融機(jī)構(gòu)”、“知識(shí)產(chǎn)權(quán)”、“長(zhǎng)江三角洲”等詞語都屬于文檔集中文檔的主題特征詞語,它們?cè)谥黝}建模過程中應(yīng)該起著很重要的作用。為了增加這些詞語的重要性,在進(jìn)行初步采樣時(shí),首先把這些詞作為主題特征詞進(jìn)行標(biāo)記加入主題引導(dǎo)詞庫(kù)中,然后計(jì)算它們各自在每篇文章的權(quán)重值,最后在進(jìn)行Gibbs采樣的過程中,掃描到這些詞語后,在統(tǒng)計(jì)頻率時(shí)加入它們對(duì)應(yīng)的權(quán)重值,即式(7)和式(8)的實(shí)現(xiàn)過程。

    按照改進(jìn)后的實(shí)現(xiàn)步驟進(jìn)行相應(yīng)的實(shí)驗(yàn)得到建模結(jié)果,其中包含了主題特征詞的部分主題分布,與表1中展示的結(jié)果相比,那些主題引導(dǎo)詞庫(kù)中的主題特征詞在主題詞中的位序明顯有所提高。部分主題分布對(duì)比的情況如下:

    主題3:“文化產(chǎn)業(yè)”、“世博會(huì)”分別上升了1個(gè)位序和3個(gè)位序;

    主題4:“金融機(jī)構(gòu)”上升了5個(gè)位序;

    主題5:“知識(shí)產(chǎn)權(quán)”上升了7個(gè)位序;

    主題6:“長(zhǎng)江三角洲”上升了4個(gè)位序。

    通過上述的建模過程,可以促使采樣的主題分布偏向主題特征詞的方向,同時(shí)那些常見高頻詞的影響就會(huì)有所降低,最終使文檔的主題建模更加準(zhǔn)確。

    4 實(shí) 驗(yàn)

    實(shí)驗(yàn)主要通過應(yīng)用LDA模型改進(jìn)建模方法前后兩種情況的對(duì)比進(jìn)行。

    4.1 實(shí)驗(yàn)分析

    實(shí)驗(yàn)中文檔集使用的是社科文獻(xiàn)領(lǐng)域類的專題文獻(xiàn)。對(duì)于文檔集的數(shù)量大小,依次是100篇、1000篇、5000篇、10000篇。α的默認(rèn)值是1/K(K是主題數(shù)量,取值為20);β一般設(shè)置為0.02;δ默認(rèn)取0.02;吉布斯采樣的迭代次數(shù)一般設(shè)置為2000。

    為了保證實(shí)驗(yàn)的對(duì)比性,其他參數(shù)都是相同的。即相同文檔集下,α、β、主題數(shù)K,以及迭代次數(shù)都是一樣的。

    對(duì)相同的文檔主題特征詞增加權(quán)重值前后在主題建模后的模型結(jié)果中的情況進(jìn)行對(duì)比。圖3展示了主題特征詞(t1:文化產(chǎn)業(yè),t2:世博會(huì),t3:金融機(jī)構(gòu),t4:知識(shí)產(chǎn)權(quán),t5:長(zhǎng)江三角洲)在對(duì)應(yīng)主題中的概率值的變化。結(jié)果表明,這些主題特征詞增加權(quán)重后,其概率值明顯有所增加,即它們?cè)诮_^程中對(duì)主題分布的影響有所增強(qiáng)。

    圖3主題特征詞概率值對(duì)比

    兩種不同建模方法得到的主題模型中,對(duì)同一個(gè)主題下的主題詞之間的相似度,即主題的明確度進(jìn)行對(duì)比,相似度越高,文檔主題提取的越明確。圖4展示了兩種模型結(jié)果中部分主題的主題詞相似度對(duì)比情況。

    圖4 主題的主題詞相似度對(duì)比

    圖5為在兩種不同方法下建模后文檔主題之間的相似度的對(duì)比情況。結(jié)果表明,主題之間相似度越低,文檔集主題提取的類別越準(zhǔn)確。

    圖5主題之間的相似度對(duì)比

    4.2 實(shí)驗(yàn)結(jié)果

    通過對(duì)主題引導(dǎo)詞的加權(quán),提高主題引導(dǎo)詞在文檔中的重要性,從而影響文檔和文檔集的主題分布情況,最終使主題建模的結(jié)果更加符合文檔集自身的主題分布特點(diǎn)。實(shí)驗(yàn)表明,在主題建模過程中增加文檔集中主題特征詞的權(quán)重進(jìn)行主題建模的方法是行之有效的。

    算法中對(duì)主題引導(dǎo)詞加權(quán)時(shí)需要用到的引導(dǎo)參數(shù)δ,依據(jù)經(jīng)驗(yàn)選取了0.02。在具體的應(yīng)用中,可以根據(jù)主題引導(dǎo)詞對(duì)文檔集的重要性進(jìn)行適當(dāng)改變,δ值越大,引導(dǎo)詞對(duì)主題的貢獻(xiàn)率就越大,對(duì)主題的分布就越偏向該引導(dǎo)詞。

    5 結(jié)束語

    提出一種針對(duì)社科文獻(xiàn)領(lǐng)域類的文檔集的主題建模方法。首先利用文檔集中主題特征詞處理得到主題引導(dǎo)詞庫(kù),然后計(jì)算主題引導(dǎo)詞權(quán)重并將其權(quán)重值增加到建模過程中,引導(dǎo)模型的主題分布,最后得到符合文檔集自身主題特點(diǎn)的建模結(jié)果。

    實(shí)驗(yàn)結(jié)果表明,該方法可以成功引導(dǎo)主題分布的情況,達(dá)到建模后的主題更加符合文檔集本身主題分布特點(diǎn)的目的。

    [1] 王 昱.社科文獻(xiàn)的特點(diǎn)、作用及省級(jí)社科文獻(xiàn)資源建設(shè)[J].青海社會(huì)科學(xué),1994(6):83-89.

    [2] DEERWESTER S,DUMAIS S T,FURNAS G W,et al.Indexing by latent semantic analysis[J].Journal of the Association for Information Science and Technology,1990,41(6):391-407.

    [3] DAN O.Probabilistic latent semantic analysis[C]//Proceed-ings of uncertainty in artificial intelligence.[s.l.]:[s.n.],1999:289-296.

    [4] BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

    [5] 張志飛,苗奪謙,高 燦.基于LDA主題模型的短文本分類方法[J].計(jì)算機(jī)應(yīng)用,2013,33(6):1587-1590.

    [6] 高 明,金澈清,錢衛(wèi)寧,等.面向微博系統(tǒng)的實(shí)時(shí)個(gè)性化推薦[J].計(jì)算機(jī)學(xué)報(bào),2014,37(4):963-975.

    [7] YANO T,COHEN W W,SMITH N A.Predicting response to political blog posts with topic models[C]//Human language technologies:the2009conference of the north american chapter of the association for computational linguistics.[s.l.]:Association for Computational Linguistics,2009:477-485.

    [8] 張曉艷,王 挺,梁曉波.LDA模型在話題追蹤中的應(yīng)用[J].計(jì)算機(jī)科學(xué),2011,38(10A):136-139.

    [9] 何錦群.LDA在信息檢索中的應(yīng)用研究[D].天津:天津理工大學(xué),2014.

    [10] 余維軍,劉子平,楊衛(wèi)芳.基于改進(jìn)LDA主題模型的產(chǎn)品特征抽取[J].計(jì)算機(jī)與現(xiàn)代化,2016(11):1-6.

    [11] 彭 云,萬常選,江騰蛟,等.基于語義約束LDA的商品特征和情感詞提取[J].軟件學(xué)報(bào),2017,28(3):676-693.

    [12] 胡勇軍,江嘉欣,常會(huì)友.基于LDA高頻詞擴(kuò)展的中文短文本分類[J].現(xiàn)代圖書情報(bào)技術(shù),2013(6):42-48.

    [13] 張小平,周雪忠,黃厚寬,等.一種改進(jìn)的LDA主題模型[J].北京交通大學(xué)學(xué)報(bào):自然科學(xué)版,2010,34(2):111-114.

    [14] 施乾坤.基于LDA模型的文本主題挖掘和文本靜態(tài)可視化的研究[D].南寧:廣西大學(xué),2013.

    [15] 倪麗萍,劉小軍,馬馳宇.基于LDA模型和AP聚類的主題演化分析[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016,26(12):6-11.

    [16] WALLACH H.Topic modeling:beyond bag of words[C]//Proceedings of the23rd international conference on machine learning.Pittsburgh,Pennsylvania:[s.n.],2006.

    [17] WEI Xing,CROFT W B.LDA-based document models for Ad-hoc retrieval[C]//Proceedings of the29th annual international ACM SIGIR conference on research and development in information retrieval.New York:ACM,2006:178-185.

    [18] NEVADA L V. Fast collapsed Gibbs sampling for latent Dirichlet allocation[C]//Proceeding of the14th ACM SIGKDD international conference on knowledge discovery and data mining.New York,USA:ACM,2008:569-577.

    [19] SALTON G. Introduction to modern information retrieval[M].New York:McGraw-Hill Book Company,1983.

    猜你喜歡
    特征詞社科文檔
    社科成功展示
    社科成果展示
    有人一聲不吭向你扔了個(gè)文檔
    社科成果展示
    基于改進(jìn)TFIDF算法的郵件分類技術(shù)
    產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    人文社科
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    面向文本分類的特征詞選取方法研究與改進(jìn)
    波多野结衣高清无吗| svipshipincom国产片| 在线观看免费午夜福利视频| 久久热在线av| 成年版毛片免费区| 在线观看一区二区三区| 欧美日韩亚洲综合一区二区三区_| 亚洲五月婷婷丁香| 午夜成年电影在线免费观看| 搞女人的毛片| 久久人人97超碰香蕉20202| 国产精品久久久久久精品电影 | 色综合站精品国产| 久久午夜亚洲精品久久| 国产精品一区二区在线不卡| 久久香蕉精品热| 亚洲精品久久成人aⅴ小说| 久久人妻熟女aⅴ| 亚洲成a人片在线一区二区| 久久 成人 亚洲| 亚洲 欧美 日韩 在线 免费| 免费在线观看完整版高清| 人成视频在线观看免费观看| 亚洲免费av在线视频| 在线国产一区二区在线| 黑人巨大精品欧美一区二区蜜桃| or卡值多少钱| 亚洲成a人片在线一区二区| 亚洲国产欧美网| 纯流量卡能插随身wifi吗| 岛国视频午夜一区免费看| 午夜福利在线观看吧| 人妻久久中文字幕网| 中文字幕精品免费在线观看视频| 国产在线观看jvid| 69av精品久久久久久| www国产在线视频色| 91在线观看av| 亚洲美女黄片视频| 日本免费a在线| 久久久国产成人免费| 最新美女视频免费是黄的| 久热爱精品视频在线9| 国产主播在线观看一区二区| 又大又爽又粗| xxx96com| 12—13女人毛片做爰片一| 亚洲精品美女久久久久99蜜臀| 黄片大片在线免费观看| 日韩大尺度精品在线看网址 | 男人操女人黄网站| 99精品在免费线老司机午夜| 午夜视频精品福利| 久久久国产精品麻豆| 日韩有码中文字幕| 看免费av毛片| 999久久久国产精品视频| 99精品欧美一区二区三区四区| 久久精品成人免费网站| 9色porny在线观看| 亚洲国产欧美日韩在线播放| 国产精品日韩av在线免费观看 | 亚洲伊人色综图| 色综合站精品国产| 性欧美人与动物交配| av电影中文网址| 村上凉子中文字幕在线| 日本a在线网址| 国内精品久久久久久久电影| 一本综合久久免费| 免费少妇av软件| 免费看美女性在线毛片视频| 首页视频小说图片口味搜索| 亚洲va日本ⅴa欧美va伊人久久| 99国产极品粉嫩在线观看| 女性生殖器流出的白浆| av福利片在线| 亚洲午夜理论影院| 国产成人系列免费观看| 日本 欧美在线| 国内久久婷婷六月综合欲色啪| 又黄又爽又免费观看的视频| 久久婷婷人人爽人人干人人爱 | 每晚都被弄得嗷嗷叫到高潮| 久久久久久久午夜电影| 欧美黄色淫秽网站| 欧美国产精品va在线观看不卡| 国产在线观看jvid| 亚洲aⅴ乱码一区二区在线播放 | 久久久精品国产亚洲av高清涩受| 女人爽到高潮嗷嗷叫在线视频| 免费看a级黄色片| 成在线人永久免费视频| 大码成人一级视频| 欧美激情久久久久久爽电影 | 怎么达到女性高潮| 亚洲伊人色综图| 少妇裸体淫交视频免费看高清 | 十八禁网站免费在线| 给我免费播放毛片高清在线观看| 高潮久久久久久久久久久不卡| 黄网站色视频无遮挡免费观看| 亚洲,欧美精品.| 国产色视频综合| 丁香六月欧美| 亚洲国产精品sss在线观看| 最近最新中文字幕大全免费视频| 日本在线视频免费播放| 国产精品综合久久久久久久免费 | 91老司机精品| 此物有八面人人有两片| cao死你这个sao货| 午夜免费鲁丝| 午夜免费成人在线视频| cao死你这个sao货| 国产精品一区二区在线不卡| 久久人人97超碰香蕉20202| 日韩视频一区二区在线观看| 99久久综合精品五月天人人| 亚洲成人免费电影在线观看| 国产成年人精品一区二区| 国产欧美日韩一区二区精品| 亚洲午夜理论影院| 一区福利在线观看| 制服诱惑二区| 成人三级做爰电影| 麻豆成人av在线观看| 黄片小视频在线播放| 国产高清有码在线观看视频 | av视频在线观看入口| www.精华液| 又紧又爽又黄一区二区| 在线免费观看的www视频| 如日韩欧美国产精品一区二区三区| 怎么达到女性高潮| av天堂在线播放| 日本a在线网址| 国产精品 欧美亚洲| 亚洲中文字幕日韩| 免费高清在线观看日韩| 法律面前人人平等表现在哪些方面| 手机成人av网站| 在线永久观看黄色视频| 成人手机av| 黄色毛片三级朝国网站| 男人舔女人下体高潮全视频| 亚洲成av人片免费观看| 美国免费a级毛片| 国产又色又爽无遮挡免费看| 国产熟女午夜一区二区三区| 波多野结衣巨乳人妻| 亚洲成人精品中文字幕电影| 这个男人来自地球电影免费观看| 久久国产精品人妻蜜桃| 欧美精品亚洲一区二区| 国产欧美日韩精品亚洲av| 欧美日韩一级在线毛片| 一本大道久久a久久精品| 午夜a级毛片| 大香蕉久久成人网| 午夜日韩欧美国产| 美女免费视频网站| 国产精华一区二区三区| 女人爽到高潮嗷嗷叫在线视频| 国产精品香港三级国产av潘金莲| 两性夫妻黄色片| 可以在线观看毛片的网站| 亚洲少妇的诱惑av| 99国产精品一区二区蜜桃av| 脱女人内裤的视频| 国产精品香港三级国产av潘金莲| av福利片在线| 手机成人av网站| 欧美黑人欧美精品刺激| 免费不卡黄色视频| 一边摸一边做爽爽视频免费| 一个人免费在线观看的高清视频| 人妻久久中文字幕网| 国产亚洲精品久久久久久毛片| 19禁男女啪啪无遮挡网站| 十分钟在线观看高清视频www| 激情在线观看视频在线高清| 男女床上黄色一级片免费看| 十分钟在线观看高清视频www| 一级黄色大片毛片| 91成年电影在线观看| av片东京热男人的天堂| av免费在线观看网站| 啦啦啦 在线观看视频| 亚洲成国产人片在线观看| 在线观看免费视频日本深夜| 丝袜美腿诱惑在线| 黄片播放在线免费| 99re在线观看精品视频| 日本一区二区免费在线视频| 一二三四在线观看免费中文在| 国产午夜精品久久久久久| www国产在线视频色| 亚洲电影在线观看av| 99国产综合亚洲精品| 午夜成年电影在线免费观看| 免费看a级黄色片| 国产成人影院久久av| 精品高清国产在线一区| 丰满的人妻完整版| 成人国语在线视频| 久久婷婷成人综合色麻豆| 日本免费a在线| 91老司机精品| 在线观看一区二区三区| 操美女的视频在线观看| 身体一侧抽搐| 色精品久久人妻99蜜桃| 国产伦一二天堂av在线观看| 十八禁网站免费在线| 精品欧美一区二区三区在线| 大型黄色视频在线免费观看| 电影成人av| 中文字幕av电影在线播放| 久久国产精品男人的天堂亚洲| 国产av又大| 熟妇人妻久久中文字幕3abv| 久久久久久国产a免费观看| 欧美另类亚洲清纯唯美| 黑人巨大精品欧美一区二区蜜桃| 成人手机av| 日韩国内少妇激情av| 欧美黑人欧美精品刺激| 色尼玛亚洲综合影院| 国产欧美日韩一区二区三区在线| 日韩高清综合在线| 国产成+人综合+亚洲专区| 欧美黄色片欧美黄色片| 午夜福利成人在线免费观看| 神马国产精品三级电影在线观看 | 日日干狠狠操夜夜爽| 窝窝影院91人妻| 男人舔女人下体高潮全视频| 欧美丝袜亚洲另类 | 久久久国产成人免费| 亚洲一区中文字幕在线| 亚洲人成77777在线视频| 正在播放国产对白刺激| 啦啦啦免费观看视频1| 在线观看日韩欧美| 黑人巨大精品欧美一区二区mp4| 天天添夜夜摸| 窝窝影院91人妻| av视频免费观看在线观看| 精品一区二区三区四区五区乱码| 久久婷婷成人综合色麻豆| 亚洲国产精品成人综合色| 91精品国产国语对白视频| 欧美黑人精品巨大| 欧美中文日本在线观看视频| 悠悠久久av| a级毛片在线看网站| 亚洲av片天天在线观看| 免费高清视频大片| √禁漫天堂资源中文www| 亚洲精品在线观看二区| 麻豆国产av国片精品| 亚洲午夜精品一区,二区,三区| 色综合站精品国产| 看免费av毛片| 亚洲av美国av| 亚洲国产中文字幕在线视频| 久久久国产欧美日韩av| 三级毛片av免费| 动漫黄色视频在线观看| 18美女黄网站色大片免费观看| 国产亚洲精品一区二区www| 中文字幕人妻丝袜一区二区| 亚洲欧洲精品一区二区精品久久久| 久久人人精品亚洲av| 国产欧美日韩综合在线一区二区| 不卡一级毛片| 色精品久久人妻99蜜桃| 欧美日韩精品网址| 亚洲av第一区精品v没综合| 窝窝影院91人妻| 国产私拍福利视频在线观看| 国产精品 欧美亚洲| 日韩成人在线观看一区二区三区| 极品人妻少妇av视频| 在线观看www视频免费| 日本a在线网址| 看黄色毛片网站| 免费在线观看完整版高清| 亚洲精品国产一区二区精华液| 人人妻,人人澡人人爽秒播| 青草久久国产| 亚洲欧美激情在线| 久久精品成人免费网站| 久久国产精品影院| 电影成人av| 亚洲va日本ⅴa欧美va伊人久久| 成人亚洲精品一区在线观看| 级片在线观看| 两个人免费观看高清视频| 欧美丝袜亚洲另类 | 中出人妻视频一区二区| 91成人精品电影| 99精品久久久久人妻精品| 精品少妇一区二区三区视频日本电影| 免费人成视频x8x8入口观看| 99国产精品一区二区三区| 日韩视频一区二区在线观看| 9191精品国产免费久久| or卡值多少钱| 精品国产国语对白av| 亚洲熟妇熟女久久| 高潮久久久久久久久久久不卡| 他把我摸到了高潮在线观看| √禁漫天堂资源中文www| 搡老岳熟女国产| 97超级碰碰碰精品色视频在线观看| 一进一出抽搐gif免费好疼| 18禁裸乳无遮挡免费网站照片 | 亚洲精品中文字幕在线视频| 午夜精品在线福利| 不卡一级毛片| 亚洲色图 男人天堂 中文字幕| 亚洲专区国产一区二区| 色精品久久人妻99蜜桃| 侵犯人妻中文字幕一二三四区| 日本a在线网址| 久久精品亚洲精品国产色婷小说| 国产亚洲精品久久久久5区| 男男h啪啪无遮挡| 国产精品二区激情视频| 亚洲精品国产色婷婷电影| 午夜福利欧美成人| 久久久国产成人精品二区| 韩国精品一区二区三区| 精品无人区乱码1区二区| 国产精品综合久久久久久久免费 | 一级a爱视频在线免费观看| 久久精品国产亚洲av高清一级| 亚洲一区二区三区不卡视频| 精品国产乱码久久久久久男人| 中文字幕高清在线视频| 久久精品人人爽人人爽视色| 免费观看精品视频网站| 亚洲精品粉嫩美女一区| 国产成人免费无遮挡视频| 中文字幕人妻丝袜一区二区| 精品国内亚洲2022精品成人| 久久久水蜜桃国产精品网| 黄片播放在线免费| АⅤ资源中文在线天堂| 亚洲精品av麻豆狂野| 99国产精品免费福利视频| xxx96com| АⅤ资源中文在线天堂| 国产精品野战在线观看| 91成年电影在线观看| 一区二区三区国产精品乱码| 亚洲人成77777在线视频| 中文字幕高清在线视频| 国产av精品麻豆| netflix在线观看网站| or卡值多少钱| 无限看片的www在线观看| 久久人妻福利社区极品人妻图片| 老司机深夜福利视频在线观看| 免费观看人在逋| 在线观看舔阴道视频| 午夜福利免费观看在线| 91九色精品人成在线观看| 黄色视频,在线免费观看| 91在线观看av| 一夜夜www| 熟妇人妻久久中文字幕3abv| 欧美在线一区亚洲| 久热爱精品视频在线9| 麻豆av在线久日| 亚洲欧美日韩另类电影网站| a在线观看视频网站| 中文亚洲av片在线观看爽| 亚洲人成电影观看| 色哟哟哟哟哟哟| 精品欧美国产一区二区三| 国产午夜福利久久久久久| 午夜精品在线福利| 91字幕亚洲| 亚洲人成伊人成综合网2020| 亚洲成人精品中文字幕电影| 亚洲avbb在线观看| 日韩欧美一区二区三区在线观看| 国产精品一区二区在线不卡| 老汉色av国产亚洲站长工具| 久久国产亚洲av麻豆专区| 久久精品人人爽人人爽视色| 亚洲专区字幕在线| 99国产精品一区二区蜜桃av| 黑人巨大精品欧美一区二区mp4| 高清毛片免费观看视频网站| 999久久久精品免费观看国产| 国产色视频综合| 亚洲国产欧美日韩在线播放| 免费在线观看亚洲国产| 国产成人系列免费观看| 日本在线视频免费播放| 88av欧美| 国产99久久九九免费精品| 久久久久久久午夜电影| 亚洲专区字幕在线| 电影成人av| 国产视频一区二区在线看| 一区二区三区精品91| 999久久久精品免费观看国产| 久久香蕉激情| 99国产极品粉嫩在线观看| 国产精品亚洲av一区麻豆| 国产xxxxx性猛交| 国产激情久久老熟女| 国产免费av片在线观看野外av| 精品第一国产精品| 久久香蕉国产精品| 亚洲专区字幕在线| 色精品久久人妻99蜜桃| 丝袜在线中文字幕| 极品人妻少妇av视频| 亚洲国产精品sss在线观看| 校园春色视频在线观看| 他把我摸到了高潮在线观看| 免费在线观看日本一区| 国产精品爽爽va在线观看网站 | 亚洲五月色婷婷综合| a在线观看视频网站| 麻豆久久精品国产亚洲av| 久99久视频精品免费| 此物有八面人人有两片| 精品午夜福利视频在线观看一区| 国产免费av片在线观看野外av| 人人澡人人妻人| 久久久水蜜桃国产精品网| 精品卡一卡二卡四卡免费| 久久人妻福利社区极品人妻图片| 国产精品99久久99久久久不卡| 免费看美女性在线毛片视频| 97人妻天天添夜夜摸| www.www免费av| 欧美日韩黄片免| 操出白浆在线播放| 亚洲国产精品成人综合色| 女人爽到高潮嗷嗷叫在线视频| 免费高清在线观看日韩| 亚洲午夜精品一区,二区,三区| 日韩高清综合在线| 91字幕亚洲| 狂野欧美激情性xxxx| 国产主播在线观看一区二区| 亚洲欧美日韩高清在线视频| 成在线人永久免费视频| 国语自产精品视频在线第100页| 青草久久国产| av天堂在线播放| 午夜福利成人在线免费观看| 免费在线观看完整版高清| 看片在线看免费视频| 久久中文字幕人妻熟女| 亚洲专区国产一区二区| 亚洲人成电影免费在线| 丁香欧美五月| 两个人看的免费小视频| 女生性感内裤真人,穿戴方法视频| 午夜福利影视在线免费观看| 一级,二级,三级黄色视频| 麻豆久久精品国产亚洲av| 日本vs欧美在线观看视频| 啦啦啦免费观看视频1| 国产精品一区二区在线不卡| 色综合站精品国产| 成人国产综合亚洲| 男人操女人黄网站| 国产亚洲精品第一综合不卡| 亚洲第一电影网av| 黄色视频不卡| 欧美性长视频在线观看| 一区二区三区精品91| 久久欧美精品欧美久久欧美| 成人三级做爰电影| www.999成人在线观看| 色综合婷婷激情| 亚洲aⅴ乱码一区二区在线播放 | 少妇 在线观看| 麻豆国产av国片精品| 亚洲自拍偷在线| 亚洲欧洲精品一区二区精品久久久| 国产午夜精品久久久久久| 老司机深夜福利视频在线观看| 日韩高清综合在线| 亚洲精品在线观看二区| 成人18禁在线播放| videosex国产| 97人妻天天添夜夜摸| 欧美人与性动交α欧美精品济南到| 亚洲自拍偷在线| 中文字幕最新亚洲高清| 精品久久久久久久毛片微露脸| 手机成人av网站| 麻豆国产av国片精品| 亚洲欧美日韩无卡精品| 国产在线精品亚洲第一网站| 成在线人永久免费视频| 在线观看免费视频日本深夜| 免费在线观看亚洲国产| 国产精品久久久久久精品电影 | 乱人伦中国视频| 欧美中文综合在线视频| 国产黄a三级三级三级人| 欧美绝顶高潮抽搐喷水| 午夜精品在线福利| 丁香欧美五月| 黄色a级毛片大全视频| 俄罗斯特黄特色一大片| 日韩中文字幕欧美一区二区| 亚洲成a人片在线一区二区| 国产欧美日韩一区二区三| 久久久久久久久中文| av超薄肉色丝袜交足视频| 午夜视频精品福利| 精品久久久久久成人av| 19禁男女啪啪无遮挡网站| 亚洲国产精品合色在线| 99精品久久久久人妻精品| 中文字幕人成人乱码亚洲影| 精品国产乱子伦一区二区三区| 男女之事视频高清在线观看| 精品国产亚洲在线| 十分钟在线观看高清视频www| 亚洲第一青青草原| 欧美乱码精品一区二区三区| 亚洲五月婷婷丁香| 亚洲国产毛片av蜜桃av| 国产精品一区二区免费欧美| 精品免费久久久久久久清纯| 国产一级毛片七仙女欲春2 | 亚洲av五月六月丁香网| 99精品久久久久人妻精品| 男人舔女人下体高潮全视频| 免费一级毛片在线播放高清视频 | 女人被躁到高潮嗷嗷叫费观| 91麻豆av在线| 19禁男女啪啪无遮挡网站| 激情在线观看视频在线高清| 18禁黄网站禁片午夜丰满| 亚洲精品久久成人aⅴ小说| 久久国产亚洲av麻豆专区| a级毛片在线看网站| 久久欧美精品欧美久久欧美| 制服人妻中文乱码| 免费女性裸体啪啪无遮挡网站| 国产一级毛片七仙女欲春2 | 精品福利观看| 在线观看免费午夜福利视频| 久久婷婷人人爽人人干人人爱 | 中亚洲国语对白在线视频| www.自偷自拍.com| 在线播放国产精品三级| 大陆偷拍与自拍| 午夜两性在线视频| 亚洲第一欧美日韩一区二区三区| 老汉色av国产亚洲站长工具| 国产乱人伦免费视频| x7x7x7水蜜桃| 欧美激情 高清一区二区三区| 好看av亚洲va欧美ⅴa在| 午夜免费激情av| 欧美日本亚洲视频在线播放| 精品第一国产精品| 香蕉丝袜av| 黄网站色视频无遮挡免费观看| 国产区一区二久久| 黄片小视频在线播放| 国产熟女xx| 禁无遮挡网站| 啦啦啦免费观看视频1| 欧美最黄视频在线播放免费| 亚洲av熟女| 亚洲国产欧美日韩在线播放| 欧美日韩亚洲国产一区二区在线观看| 免费高清视频大片| 一边摸一边抽搐一进一出视频| 99香蕉大伊视频| 精品一品国产午夜福利视频| 一区二区三区国产精品乱码| 久久久久国内视频| av天堂在线播放| 国产日韩一区二区三区精品不卡| 91av网站免费观看| 999久久久精品免费观看国产| 99久久综合精品五月天人人| 天堂√8在线中文| 美女国产高潮福利片在线看| 亚洲人成电影免费在线| 男女做爰动态图高潮gif福利片 | av视频免费观看在线观看| 亚洲av成人一区二区三| 一边摸一边抽搐一进一小说| 涩涩av久久男人的天堂| 黑人欧美特级aaaaaa片| 亚洲欧美一区二区三区黑人| 天天躁夜夜躁狠狠躁躁| 伦理电影免费视频| 国内毛片毛片毛片毛片毛片| 亚洲一区二区三区色噜噜| 人妻久久中文字幕网| 成人免费观看视频高清| 精品不卡国产一区二区三区| 亚洲一区高清亚洲精品| www.999成人在线观看| 9热在线视频观看99|