• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于張量分解的分布式主題分類模型①

    2018-06-14 08:49:06馬年圣卞藝杰唐明偉
    計算機系統(tǒng)應(yīng)用 2018年6期
    關(guān)鍵詞:張量文檔詞語

    馬年圣,卞藝杰,唐明偉

    1(河海大學(xué) 商學(xué)院,南京 211100)

    2(南京審計大學(xué) 管理科學(xué)與工程學(xué)院,南京 211815)

    大數(shù)據(jù)時代,網(wǎng)絡(luò)信息紛繁復(fù)雜,需要我們從眾多網(wǎng)絡(luò)數(shù)據(jù)中提取出高價值的隱含信息,挖掘出的分類信息可用于內(nèi)容推薦、針對性營銷以及實時預(yù)測等功能.而其中主題分類又是現(xiàn)今網(wǎng)絡(luò)信息時代的一大研究熱點,傳統(tǒng)的主題分類主要是以基本分類方法以及人工標(biāo)簽來實現(xiàn),但是人工干預(yù)過多勢必影響到最終的分類結(jié)果,這就需要我們尋求一個無監(jiān)督的方法,從文檔信息的采集到最后的結(jié)果輸出無需人工參與.

    LDA (Latent Distributed Allocation)主題模型便是一個無監(jiān)督的數(shù)據(jù)挖掘方法,該模型可從大規(guī)模數(shù)據(jù)中進行文檔主題的抽取,能夠出色地完成挖掘文本的潛在關(guān)系、判別關(guān)聯(lián)性等工作,顯著提高信息的分類及利用效率.LDA模型參數(shù)計算的空間以及時間復(fù)雜度較高,并且對軟硬件需求也提出高要求,所以模型參數(shù)求解優(yōu)化一直是研究熱點.Blei等人采用“變分推斷-EM”算法進行LDA模型參數(shù)計算,在單機模式下,隨機變分推斷快速而準(zhǔn)確,但是在分布式計算中因交互過高而顯疲態(tài)[1];批量變分推斷具有很高的交互效率,但在計算E-step時并行效率差強人意[2];馬爾可夫鏈在分布式同步和異步計算方面體現(xiàn)出較好的移植性,但其計算效率過低還有待優(yōu)化[3];唐曉波等人采用熱度進行模型參數(shù)計算的優(yōu)化,通過求解微博的熱度來實現(xiàn)信息的分類工作,其結(jié)果也更加直觀,但是其熱度的計算方法比較單一,并不適用于其他的網(wǎng)絡(luò)數(shù)據(jù)的分類工作[4].

    而在LDA模型的針對性使用方案方面也進行了大量研究,Ramage等人提出Labeled LDA模型進行有監(jiān)督的主題分類,在主題建模中添加文檔的標(biāo)簽,克服了原始模型強制分配主題的缺陷,但是也使得計算量翻倍增加[5];桂思思等人融入多時間節(jié)點函數(shù)進行用戶興趣的預(yù)測,但是時間差值的確定比較主觀,偏差不可避免[6];關(guān)鵬等人采用生命周期理論同主題模型結(jié)合,能夠展現(xiàn)所觀察文本的隨時間所發(fā)生的變化,然而參數(shù)的計算沒有改進為適合生命周期理論的方法[7].

    上述國內(nèi)外對于LDA主題模型的改進都針對特定的數(shù)據(jù)分類,而在處理數(shù)據(jù)量大、維度較高的網(wǎng)絡(luò)信息時效率、準(zhǔn)確性等問題便凸顯出來,且上述研究大部分都是單機下進行實驗,平臺移植性較差.LDA主題模型涵蓋了大量的數(shù)據(jù)以及變量,構(gòu)成了高維數(shù)據(jù)問題,在時間軸上產(chǎn)生了大量的多元數(shù)據(jù),其中也包含很多數(shù)據(jù)噪聲,而張量分解方法能夠通過數(shù)據(jù)降維以及張量近似的方法來優(yōu)化計算.本文通過隨機奇異值分解和白化變換將主題模型參數(shù)計算轉(zhuǎn)化為三階張量的CP分解,加之以ALS算法以及數(shù)據(jù)處理技術(shù),極大地提高了并行化和準(zhǔn)確性,可達到更高的收斂率以及抗干擾性.本文實驗在Spark集群上進行,充分發(fā)揮Spark作為輕量級大數(shù)據(jù)處理框架的特點,及其大規(guī)模數(shù)據(jù)的計算效率明顯優(yōu)于Hadoop的特性.改進后的LDA計算模型適用于大數(shù)據(jù)時代復(fù)雜且高維的信息特點,能夠出色地完成巨量網(wǎng)絡(luò)信息的分類工作,適用于搜索引擎、文本解讀、信息推送等數(shù)據(jù)應(yīng)用領(lǐng)域.

    1 相關(guān)基礎(chǔ)理論

    在國內(nèi)外學(xué)者的討論當(dāng)中,LDA主題模型暴露出其不足的方面,單機模式下,模型訓(xùn)練時間長,精確度不高,并且對于模型超參求解的要求較高,這些都對模型的發(fā)展應(yīng)用提出了挑戰(zhàn).現(xiàn)被廣泛使用的LDA參數(shù)求解方法有變分推斷和馬爾可夫鏈,但數(shù)據(jù)量較大的情況下,兩種方法的計算效率還是比較低下,這就需要我們采用“分治”思想,選用張量分解的方法來優(yōu)化模型參數(shù)計算,采用更高效率和精確度的降維計算方法,同時使用分布式計算模式來提升模型訓(xùn)練的效率,以適用于網(wǎng)絡(luò)大數(shù)據(jù)量文本的主題分類推薦.

    1.1 LDA主題模型

    潛在狄利克雷分布模型LDA由Blei等人于2003年提出后,便被廣泛應(yīng)用于觀點挖掘、主題相關(guān)性和信息檢索等領(lǐng)域[8].LDA通過對離散數(shù)據(jù)集的建模,從中提取文本隱含主題,能在海量網(wǎng)絡(luò)數(shù)據(jù)中自動尋找信息間的語義主題,克服傳統(tǒng)信息檢索中文檔相似度計算方法的缺陷.LDA主題模型屬于詞袋模型,它認(rèn)為文本中包含著無序的詞語,參數(shù)空間的規(guī)模與訓(xùn)練文檔數(shù)量無關(guān),適合處理大規(guī)模語料庫.同時作為全概率生成模型,LDA主題模型的突出優(yōu)點是具有清晰的層次結(jié)構(gòu)[9],LDA是一個三層的貝葉斯框架模型,每一層都有相應(yīng)的隨機變量或者參數(shù)控制,包含詞匯、主題、文檔的三層結(jié)構(gòu),數(shù)據(jù)集中的文檔被看作是有限個隱含主題所構(gòu)成的混合分布,而相應(yīng)的每個主題也都是對應(yīng)的數(shù)據(jù)集中一組特征詞匯的混合分布,模型的概率圖如圖1所示.

    圖1 LDA主題模型概率圖

    圖1中,只有W是可觀察到的變量,其他都是隱含變量或者參數(shù).其中,φ表示“主題-詞語”分布,θ表示“文檔-主題”分布,α、 β分別是 θ和 φ的先驗分布,N表示文檔的單詞總數(shù),M表示文檔的總數(shù),Z為選定的主題,由以上LDA主題模型概率圖可得到主題生成的聯(lián)合概率如公式(1)所示:

    LDA模型訓(xùn)練便是求得參數(shù) α和 β的值,使P(θ|α,β)為最大.同LSA和PLSA模型會產(chǎn)生的過擬合問題不同,LDA主題模型采用狄利克雷分布,從而簡化了模型的推導(dǎo)過程,并且具有很好的先驗概率假設(shè),參數(shù)數(shù)量不會隨著文本數(shù)量的增長而線性增長,泛化能力強,在算法復(fù)雜度和展示效果方面表現(xiàn)優(yōu)越,廣泛應(yīng)用于文本的處理當(dāng)中.

    1.2 CP分解

    CP分解,即Candecomp/Parafac分解,是傳統(tǒng)矩陣分解的拓展,廣泛應(yīng)用于信號傳輸、數(shù)據(jù)分析等領(lǐng)域,它是把張量分解為一系列rank-one張量的計算過程,對于一個三階張量分解可以寫成如下的向量和的形式:

    其中,?表示張量積運算,R表示張量的秩公式(2)中三階張量也可寫成如下元素乘和的等價形式:

    式中根據(jù)公式(3),CP分解便將張量表示為有限數(shù)目的rankone張量之和,分解模型如圖2所示.

    圖2 CP分解模型

    CP分解具有唯一性,其實質(zhì)上指的是張量的秩分解是唯一的,而傳統(tǒng)的矩陣分解并不是唯一的[10].目前已有多種方法可以計算CP分解,其中最簡單有效的是交替最小二乘法(Alternating Least Square,ALS),也是本文所選用的張量分解方法.對于三階張量ALS的思想是找到R個rank-one張量或者一組因子矩陣來逼近如公式(4)所示:

    式中,符號⊙表示Khatri-Rao積,當(dāng)滿足一定的迭代條件時,迭代終止.因為ALS算法需多次迭代才收斂,所以我們將算法應(yīng)用到Spark平臺中進行分布式計算,以求快速的求得全局的最優(yōu)參數(shù),減少大量的實驗時間,這也是分布式計算在現(xiàn)今模型求解中的優(yōu)勢之處.

    2 基于張量分解的主題分類模型

    2.1 基于張量分解的LDA主題分類主體模型

    在LDA主題模型中,每篇文檔都存在著K個潛在的主題,第k個主題具有“主題-詞語”的條件分布概率將所有主題的條件分布概率組成矩陣為總詞匯量,則 φ便是模型求解的“主題-詞語”分布矩陣.而在第m篇文檔中,其混合分布的潛在話題是根據(jù)狄利克雷先驗參數(shù)所求得,已知先驗參數(shù)分布下,便可求得文檔m的“文檔-主題”分布矩陣

    傳統(tǒng)的LDA主題模型的參數(shù)估計方法包括變分推斷,馬爾可夫鏈等,本文采用矩量法將參數(shù)估計轉(zhuǎn)化為張量分解的方式進行迭代.主題為的LDA主題模型可通過文本詞匯表示為張量的形式,Anandkumar等人[12]對主題模型張量的表現(xiàn)形式有如下定義.

    其中表示一個詞語,V為文檔集中所有的詞匯,為同一篇文章的詞語,對于詞語v,任意u≠v,符號 ?為張量積運算,任意的E為向量期望表示話題分布的稀疏程度,α0越小,表明文檔中隱含的主題越少.張量M2、M3通過分解可轉(zhuǎn)化為如下張量積的表現(xiàn)形式:

    其中,K為我們從文檔集中抽取的主題數(shù),通過公式(5)~(9),主題模型參數(shù)求解便可轉(zhuǎn)化為矩陣張量分解的方式.從公式(8)可以得出二階矩M2的低秩分解可求得包含 αk和 φk的子空間,而M3的張量分解可求得潛在狄利克雷先驗分布 α以及“主題-詞語”分布矩陣,最終通過先驗分布 α求解“文檔-主題”矩陣.

    在進行M3張量分解分解前,通過數(shù)據(jù)的預(yù)處理(包括數(shù)據(jù)向量化、正交化和降維操作等)來保證模型的收斂率和抗噪聲干擾,隨機奇異值分解[13]作為高效的矩陣低秩分解手段,此處選用該方法來執(zhí)行對的正交分解,接下來利用矩量法將LDA主題模型參數(shù)估計轉(zhuǎn)化為低維下張量的CP分解,最終生成“文檔-主題”、“主題-詞語”矩陣.模型參數(shù)求解步驟如表(1)所示.

    模型最終會生成“文檔-主題”、“主題-詞語”概率分布,根據(jù)“文檔-主題”矩陣可選取概率最大的主題為該文檔的第一候選主題,而通過“主題-詞語”矩陣可推斷是該主題的具體含義,結(jié)合文檔中已經(jīng)得出的候選主題,便可實現(xiàn)該文檔的主題分類.

    表1 基于張量分解的主題分類模型求解步驟

    2.2 模型的關(guān)鍵技術(shù)

    2.1小節(jié)中基于張量分解的LDA主題分類模型可拆分為3個重要階段,第1階段為數(shù)據(jù)預(yù)處理,第2階段為基于ALS算法的CP分解,第3階段為主題分類計算.

    (1) 數(shù)據(jù)預(yù)處理

    網(wǎng)絡(luò)信息不同于普通文本信息,數(shù)據(jù)形式、結(jié)構(gòu)均有差異,所以預(yù)處理的首要工作便是進行分詞等一系列操作,數(shù)據(jù)預(yù)處理完成后,需對數(shù)據(jù)進行向量化以及降維操作,以便大量減少參數(shù)迭代時的計算量.在進行張量形式的多維數(shù)組操作時,數(shù)據(jù)維數(shù)的大小直接決定了矩陣操作的計算量大小,尤其是在處理自然語言這種高維數(shù)據(jù)時,在內(nèi)存中進行三階矩的存儲操作的運算量都是極大的.數(shù)據(jù)稀疏化是其中一類方法,更好的則是進行線性降維,加之以張量乘積的形式來避免直接生成張量,能夠大幅度減少計算規(guī)模,并且對于張量的操作也是高效的[14].

    在此首先進行張量白化變換(Whitening Transformation),低秩正交分解二階矩.奇異值分解在進行矩陣分解中表現(xiàn)出極大的優(yōu)勢,但當(dāng)數(shù)據(jù)的行列數(shù)過大時,奇異值分解表現(xiàn)出分解緩慢、效率低等缺點,而隨機奇異值分解通過生成子空間進行迭代運算能夠加快分解工作,此處采用隨機奇異值分解進行的分解操作[13].

    隨機奇異值分解算法可以總結(jié)為兩步計算,第一階段構(gòu)造一個正交基,其值域接近于M2,即構(gòu)造正交矩陣Q,使得第二階段將矩陣約束于K維子空間中,運用奇異值分解來計算QTM2,求得U、Σ、Z.

    由隨機奇異值分解可得定義為白化矩陣,令則便是正交向量,證明如下:

    最后使用公式(7)可計算生成維數(shù)為K3的正交三階矩至此,便完成了M3白化以及正交化操作,即數(shù)據(jù)預(yù)處理階段結(jié)束.

    (2) 基于ALS算法的張量分解

    計算生成后,運行基于交替最小二乘法的張量分解,ALS算法的核心是找到最接近的有限數(shù)目的rank-one之和[11],即為:

    其中,為分解的rank-one之和,交替最小二乘法是一個迭代算法,算法交替的進行A,B,C的優(yōu)化,每一次迭代過程中,總是假定其他兩個矩陣是已知的,通過求解最小化的問題來分解矩陣.當(dāng)B和C值固定后,可以將公式改寫為如下形式:

    將? 帶入最小值求解中,最終基于交替最小二乘法的張量分解便轉(zhuǎn)化為如下的最優(yōu)化計算:

    其中,⊙表示Khatri-Rao積,每次迭代都進行 λ的計算以保證特征向量每一列均為歸一化,此處采用Khatri-Rao積的偽逆矩陣形式優(yōu)化計算[15],如公式(13)所示:

    式中,?為哈達馬乘積,通過變換,僅需計算K×K的偽逆矩陣而無需計算K×K2原矩陣.ALS算法是一種批量同步并行計算模型[16],在K階并行的保證下,公式(11)中左邊的每一行均可作為獨立的一部分來進行參數(shù)的估計,并且在使用Spark計算框架進行分析時,每運行一個ALS子程序之前可通過廣播變量同步最新估計的參數(shù)[17],進行算法迭代時的空間需求以及每個節(jié)點所進行的總交互量均為

    (3) 模型主題分類計算

    張量分解收斂后,采用反白化變換,計算原文檔集中的狄利克雷先驗分布以及“主題-詞語”分布矩陣.反白化變換強調(diào)張量結(jié)構(gòu)的特殊性[12],通過分解后的張量數(shù)據(jù)來投影反射出LDA模型參數(shù),如下所示:

    給定CP分解后的向量線性無關(guān),標(biāo)量均大于0,則:

    ①的特征值和特征向量分別為

    ②原詞匯空間的狄利克雷先驗參數(shù)

    ③是的穆爾彭羅斯偽逆矩陣[18],原詞匯空間的“主題-詞語”分布概率

    由反白化變化可推導(dǎo)出同時給定分解后的特征向量,求解矩陣使得待原詞匯空間參數(shù)求解后,根據(jù)原輸入文檔集和先驗分布生成“文檔-主題”分布矩陣最后,為了更直觀的顯示以及更精準(zhǔn)的分類,將“文檔-主題”、“主題-詞語”矩陣進行概率排序,在進行文檔分類時需指定特定的分類類別,所以我們根據(jù)文檔中的重點主題以及主題中的重點詞語,選取其中概率最高主題為該文檔的主題類別,抽取概率為前20的詞語作為該主題的特征詞,進行下一步的主題分類工作.

    3 仿真實驗

    3.1 平臺構(gòu)建

    實驗包括模型對比和主題分布分析,實驗數(shù)據(jù)通過WebMagic爬蟲技術(shù)在網(wǎng)絡(luò)上自動抓取,通過對頁面的分析來下載相應(yīng)的新聞信息文本,主要采集于各大新聞網(wǎng)站的新聞信息數(shù)據(jù),如“中國新聞網(wǎng)”、“鳳凰網(wǎng)”等,主要涉及經(jīng)濟、軍事、文化等領(lǐng)域,在進行文本的白噪聲處理后,篩選出1800條作為原始分析數(shù)據(jù).為保證實驗的可靠性以及可識別性,需定義停用詞表,詞表中包含常用詞、常見語氣詞、助詞等高頻率出現(xiàn)的詞語,同時根據(jù)中文文本的特殊性,還進行了繁簡轉(zhuǎn)換,保證實驗數(shù)據(jù)的格式統(tǒng)一,通過該停用詞典可剔除大部分的噪聲詞語[19].

    實驗使用Scala作為編程語言,在Spark集群模式上進行模型訓(xùn)練與預(yù)測,主節(jié)點master進行任務(wù)調(diào)度,從節(jié)點worker進行同步的運算.worker之間交替的計算更新的參數(shù),廣播參數(shù)至其他的節(jié)點,最后進行數(shù)據(jù)的同步.而master則負(fù)責(zé)檢查是否實時的檢驗是否需要結(jié)束運算以及負(fù)責(zé)各節(jié)點資源之間的調(diào)度,實驗集群均為Centos 7系統(tǒng),每個節(jié)點內(nèi)存均為4 G,實驗主要步驟如圖3所示.

    圖3 仿真實驗步驟

    3.2 實驗結(jié)果與分析

    實驗首先將模型訓(xùn)練時間和困惑度同基于EM算法的LDA模型進行對比,其中,模型生成時間是體現(xiàn)模型計算是否高效的重要指標(biāo)之一,而困惑度則是衡量模型是否同原始數(shù)據(jù)相吻合的重要檢驗標(biāo)準(zhǔn),最后通過網(wǎng)絡(luò)新聞數(shù)據(jù)的預(yù)測,來說明基于張量分解的LDA主題模型適用于網(wǎng)絡(luò)數(shù)據(jù)的分類工作.

    (1) 訓(xùn)練時間對比

    在相同運行環(huán)境下,設(shè)置迭代次數(shù)為500次,主題數(shù)為50,將本文模型同基于EM算法的主題模型進行訓(xùn)練對比,通過增加計算節(jié)點數(shù)來對比模型訓(xùn)練時間長短,結(jié)果顯示基于張量分解的主題模型在時間方面顯現(xiàn)出極大的優(yōu)勢,如圖4所示.

    圖4 模型時間對比圖

    從圖中可以看出,基于張量分解的主題模型在訓(xùn)練時間明顯優(yōu)于基于EM算法的LDA主題模型.增加節(jié)點數(shù)對于運算時間的減少是明顯的,體現(xiàn)出Spark大數(shù)據(jù)平臺在各節(jié)點內(nèi)存不變的情況下,節(jié)點個數(shù)對于運行時間是成反比的.兩個算法開始增加節(jié)點數(shù)對于時間的優(yōu)化更是相當(dāng)顯著,但隨著節(jié)點數(shù)的增加,增益效果降低,同基于EM算法的LDA主題模型相比,基于張量分解的LDA模型在節(jié)點數(shù)增加時,其計算時間下降幅度更大,表明基于張量分解的LDA主題模型對多節(jié)點的集群有更好的計算能力,更加表現(xiàn)出模型對于大運算量的適應(yīng)性.

    (2) 困惑度對比

    困惑度作為文本建模中常用的評價指標(biāo),其值越小,模型對于上下文的約束能力就越強,表明語言模型吻合度越好[8].其公式如下所示:

    式中,Dtest為測試文檔集,Wm為測試m文檔中觀測到的單詞,P(Wm)為模型產(chǎn)生文本W(wǎng)m的概率,Nm為文檔m的單詞數(shù).

    在相同的語料和參數(shù)設(shè)置下,計算基于EM算法的LDA主題模型和基于張量分解的主題模型,兩種方法困惑度隨隱含主題數(shù)目的變化情況如圖5所示.

    通過圖5可得到,隨著主題數(shù)量的不斷增加,兩個模型的困惑度都在相應(yīng)的降低,在達到最低點時,主題抽取的個數(shù)各不相同,基于張量分解的LDA主題模型在該訓(xùn)練文檔集中主題數(shù)為50時困惑度最小.在數(shù)據(jù)量較大、主題較多時,本文模型困惑度明顯低于基于EM算法的LDA主題模型.

    圖5 抽取主題數(shù)的困惑度對比

    (3) 主題分布分析

    將預(yù)處理的新聞信息通過本文LDA主題分類模型進行訓(xùn)練,針對新聞文本的特殊性,在定義特征詞時,進行數(shù)據(jù)預(yù)處理時加入了時間等詞的停用,設(shè)置主題數(shù)為待模型預(yù)測完成后,隨機抽取三個文檔以及他們相對應(yīng)的主題進行分析,部分結(jié)果如表2、表3所示.

    表2 topicN= 50時文檔與主題的分布概率

    表3 topicN= 50時主題與詞的分布概率

    表2可以看出,每篇文檔根據(jù)文中詞語的分布,不局限于單個主題,但第一個主題的概率較大,可以整體概括整篇文檔的大概主題方向.例如文檔5中主題1的概率為0.777 85,相對應(yīng),主題一中出現(xiàn)的都是企業(yè)發(fā)展類的詞匯,則主題1便為企業(yè)主題,進一步的將文檔5便可分類到企業(yè)模塊.

    表3清晰地展現(xiàn)出不同主題其中的含義,可讀性強,同時本文實證數(shù)據(jù)來源于網(wǎng)絡(luò)新聞信息,從中可窺探社會熱點.主題1涉及企業(yè)發(fā)展,其大部分的詞語均是企業(yè)在現(xiàn)代社會發(fā)展所重視的方面,同時也是企業(yè)發(fā)展中強調(diào)的高頻詞.而主題30則是經(jīng)濟類,通過各經(jīng)濟詞語的羅列,能夠?qū)Σ糠值慕鹑诘膶I(yè)用詞有一定的了解,可運用于新聞定位推送,同時在新聞里出現(xiàn),更能說明媒體以及公眾對于經(jīng)濟的關(guān)注.最后主題48則為文化產(chǎn)業(yè)電影類,新聞中能夠涉及到如下的詞語,說明人們在現(xiàn)今生活高壓力下對于電影、文化的關(guān)注.以上的“主題-詞語”分布能夠說明主題模型對于網(wǎng)絡(luò)數(shù)據(jù)分類的高效性,顯性地挖掘網(wǎng)絡(luò)信息中所蘊含的內(nèi)涵,可充分適用于信息推薦、搜索引擎當(dāng)中.

    4 結(jié)論與展望

    本文將張量分解引入到LDA主題模型的訓(xùn)練中,利用矩量法將數(shù)據(jù)轉(zhuǎn)換為張量分解的計算形式,運行基于交替最小二乘法的CP分解進行參數(shù)迭代,最后使用網(wǎng)絡(luò)數(shù)據(jù)在大數(shù)據(jù)平臺Spark中驗證分析,實驗表明,基于張量分解的LDA主題模型在網(wǎng)絡(luò)數(shù)據(jù)主題、詞匯生成方面同基礎(chǔ)主題模型更有優(yōu)勢,更加適用于網(wǎng)絡(luò)數(shù)據(jù)主題的分類.當(dāng)然,網(wǎng)絡(luò)數(shù)據(jù)的預(yù)處理準(zhǔn)確性有待提高,對于主題模型的原始輸入以及計算優(yōu)化是我們下一階段需要研究的內(nèi)容.

    1 Hoffman MD,Blei DM,Wang C,et al.Stochastic variational inference.Journal of Machine Learning Research,2013,14(5):1303-1347.

    2 Nallapati R,Cohen W,Lafferty J.Parallelized variational em for latent dirichlet allocation:An experimental evaluation of speed and scalability.Proceedings of 2007 Seventh IEEE International Conference on Data Mining Workshops(ICDMW 2007).Omaha,NE,USA.2007.349-354.

    3 Griffiths TL,Steyvers M.Finding scientific topics.Proceedings of the National Academy of Sciences of the United States of America,2004,101(S1):5228-5235.

    4 唐曉波,向坤.基于LDA模型和微博熱度的熱點挖掘.圖書 情 報 工 作 ,2014,58(5):58-63.[doi:10.11925/infotech.1003-3513.2014.05.08]

    5 Ramage D,Hall D,Nallapati R,et al.Labeled LDA:A supervised topic model for credit attribution in multi-labeled corpora.Proceedings of 2009 Conference on Empirical Methods in Natural Language Processing.Singapore.2009.248-256.

    6 桂思思,陸偉,黃詩豪,等.融合主題模型及多時間節(jié)點函數(shù)的用戶興趣預(yù)測研究.現(xiàn)代圖書情報技術(shù),2015,(9):9-16.[doi:10.11925/infotech.1003-3513.2015.09.02]

    7 關(guān)鵬,王曰芬.基于LDA主題模型和生命周期理論的科學(xué)文獻主題挖掘.情報學(xué)報,2015,34(3):286-299.

    8 Blei DM,Ng AY,Jordan MI.Latent dirichlet allocation.Journal of Machine Learning Research,2003,3(4/5):993-1022.

    9 李湘東,胡逸泉,黃莉.采用LDA主題模型的多種類型文獻混合自動分類研究.圖書館論壇,2015,35(1):74-80.

    10 Sidiropoulos ND,Bro R.On the uniqueness of multilinear decomposition of N-way arrays.Journal of Chemometrics,2000,14:229-239.[doi:10.1002/(ISSN)1099-128X]

    11 Kolda TG,Bader BW.Tensor decompositions and applications.SIAM Review,2009,51(3):455-500.[doi:10.1137/07070111X]

    12 Anandkumar A,Foster DP,Hsu D,et al.A spectral algorithm for latent dirichlet allocation.Algorithmica,2015,72(1):193-214.[doi:10.1007/s00453-014-9909-1]

    13 Halko N,Martinsson PG,Tropp JA.Finding structure with randomness:Probabilistic algorithms for constructing approximate matrix decompositions.SIAM Review,2010,53(2):217-288.

    14 Anandkumar A,Ge R,Hsu D,et al.Tensor decompositions for learning latent variable models.The Journal of Machine Learning Research,2014,15(1):2773-2832.

    15 Liu SZ,Trenkler G.Hadamard,khatri-rao,kronecker and other matrix products.International Journal of Information and Systems Sciences,2008,4(1):160-177.

    16 Valiant LG.A bridging model for parallel computation.Communications of the ACM,1990,33(8):103-111.[doi:10.1145/79173.79181]

    17 Wang YN,Tung HY,Smola A J,et al.Fast and guaranteed tensor decomposition via sketching.Proceedings of 2015 Advances in Neural Information Processing Systems (NIPS).Montreal,Canada.2015.991-999.

    18 Macausland R.The moore-penrose inverse and least squares[Thesis].Tacoma,Washington,USA:University of Puget Sound,2014.

    19 馮永,李華,鐘將,等.基于自適應(yīng)中文分詞和近似SVM的文本分類算法.計算機科學(xué),2010,37(1):251-254,293.

    猜你喜歡
    張量文檔詞語
    容易混淆的詞語
    有人一聲不吭向你扔了個文檔
    偶數(shù)階張量core逆的性質(zhì)和應(yīng)用
    找詞語
    四元數(shù)張量方程A*NX=B 的通解
    詞語欣賞
    擴散張量成像MRI 在CO中毒后遲發(fā)腦病中的應(yīng)用
    基于RI碼計算的Word復(fù)制文檔鑒別
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    一枚詞語一門靜
    久久99一区二区三区| 少妇猛男粗大的猛烈进出视频| 婷婷色综合www| 九九爱精品视频在线观看| 免费看不卡的av| 成年美女黄网站色视频大全免费| 欧美精品一区二区免费开放| 亚洲精品久久午夜乱码| 纯流量卡能插随身wifi吗| 深夜精品福利| 婷婷色综合大香蕉| 国产精品 欧美亚洲| 国产日韩一区二区三区精品不卡| 亚洲av成人精品一二三区| 日韩av不卡免费在线播放| 欧美激情高清一区二区三区 | 免费观看a级毛片全部| 欧美在线一区亚洲| 亚洲av中文av极速乱| 一区在线观看完整版| 性少妇av在线| 各种免费的搞黄视频| av网站在线播放免费| 两个人看的免费小视频| 美女福利国产在线| 女性被躁到高潮视频| 国产精品一二三区在线看| 免费黄网站久久成人精品| 国产又爽黄色视频| 90打野战视频偷拍视频| 精品国产一区二区久久| 日韩欧美精品免费久久| 日韩视频在线欧美| 亚洲国产精品一区二区三区在线| 欧美中文综合在线视频| 少妇 在线观看| 一区福利在线观看| 亚洲国产欧美一区二区综合| 欧美久久黑人一区二区| 另类精品久久| 久久鲁丝午夜福利片| av免费观看日本| 人人澡人人妻人| 一区二区三区激情视频| 久久久久精品人妻al黑| 亚洲国产av新网站| 色婷婷久久久亚洲欧美| 久久狼人影院| a级毛片在线看网站| 亚洲欧洲日产国产| 亚洲三区欧美一区| 久久鲁丝午夜福利片| 波多野结衣一区麻豆| 人人妻人人添人人爽欧美一区卜| 晚上一个人看的免费电影| 九草在线视频观看| 七月丁香在线播放| 最近手机中文字幕大全| 久久精品aⅴ一区二区三区四区| 人成视频在线观看免费观看| 中文字幕最新亚洲高清| 久久人人爽人人片av| kizo精华| 欧美日韩福利视频一区二区| 国产成人a∨麻豆精品| 九九爱精品视频在线观看| 久久女婷五月综合色啪小说| 18禁裸乳无遮挡动漫免费视频| 一区二区三区乱码不卡18| 国产精品蜜桃在线观看| 韩国精品一区二区三区| 如何舔出高潮| 老司机靠b影院| 亚洲精品中文字幕在线视频| 国产精品蜜桃在线观看| 亚洲欧美色中文字幕在线| 亚洲精品美女久久av网站| 欧美日韩一区二区视频在线观看视频在线| 亚洲精品,欧美精品| 十分钟在线观看高清视频www| 精品第一国产精品| 高清欧美精品videossex| 国产精品蜜桃在线观看| 1024视频免费在线观看| 欧美日韩视频高清一区二区三区二| 妹子高潮喷水视频| 精品国产一区二区三区久久久樱花| 七月丁香在线播放| 在线免费观看不下载黄p国产| 久久毛片免费看一区二区三区| 免费人妻精品一区二区三区视频| 大片免费播放器 马上看| av在线app专区| 天堂中文最新版在线下载| 一级片'在线观看视频| www日本在线高清视频| 欧美在线黄色| 亚洲精品久久久久久婷婷小说| 久久综合国产亚洲精品| videos熟女内射| 亚洲国产精品一区二区三区在线| 欧美另类一区| 午夜精品国产一区二区电影| 一级毛片黄色毛片免费观看视频| 伦理电影免费视频| 久久久久久人妻| 黑丝袜美女国产一区| 日韩大片免费观看网站| 欧美成人午夜精品| 色94色欧美一区二区| 成人国语在线视频| 亚洲熟女毛片儿| 久久av网站| 99精品久久久久人妻精品| 亚洲国产欧美网| 在线观看人妻少妇| 天天躁夜夜躁狠狠久久av| av天堂久久9| 久久久久久人人人人人| 国产高清不卡午夜福利| 精品一区在线观看国产| 狠狠精品人妻久久久久久综合| 亚洲av电影在线进入| 国产一区亚洲一区在线观看| 激情视频va一区二区三区| 在线天堂中文资源库| 日本一区二区免费在线视频| 国产片特级美女逼逼视频| 亚洲精华国产精华液的使用体验| 操出白浆在线播放| 久久久久精品性色| 午夜福利,免费看| 日韩伦理黄色片| 一本久久精品| 亚洲国产精品999| 久久精品久久久久久噜噜老黄| 久久精品国产综合久久久| 免费少妇av软件| 男女边摸边吃奶| 两个人看的免费小视频| 天天躁狠狠躁夜夜躁狠狠躁| 男女边摸边吃奶| 久久精品久久精品一区二区三区| 午夜福利视频在线观看免费| 国产黄色免费在线视频| 精品久久久精品久久久| 欧美人与善性xxx| 少妇人妻 视频| 女性被躁到高潮视频| 亚洲精品一二三| 日韩伦理黄色片| 高清欧美精品videossex| 国产精品久久久人人做人人爽| 超色免费av| 久久 成人 亚洲| 亚洲国产毛片av蜜桃av| 别揉我奶头~嗯~啊~动态视频 | 中文字幕最新亚洲高清| 精品亚洲成国产av| 欧美亚洲 丝袜 人妻 在线| 欧美日韩视频高清一区二区三区二| av线在线观看网站| 老鸭窝网址在线观看| 天堂8中文在线网| 亚洲国产精品国产精品| 亚洲精品自拍成人| netflix在线观看网站| 国产精品香港三级国产av潘金莲 | 两个人看的免费小视频| 波多野结衣av一区二区av| 日韩av在线免费看完整版不卡| 黄色怎么调成土黄色| 国产日韩欧美亚洲二区| 国产精品偷伦视频观看了| 精品少妇内射三级| 欧美黄色片欧美黄色片| 中文精品一卡2卡3卡4更新| 99热全是精品| 狠狠婷婷综合久久久久久88av| 免费av中文字幕在线| 女的被弄到高潮叫床怎么办| 亚洲国产精品一区二区三区在线| 国产成人a∨麻豆精品| 日韩电影二区| 欧美日韩福利视频一区二区| 欧美日韩精品网址| 亚洲av电影在线进入| 夫妻午夜视频| 新久久久久国产一级毛片| 一级片免费观看大全| 免费观看性生交大片5| 国产日韩欧美在线精品| 人人妻人人澡人人看| www日本在线高清视频| 高清视频免费观看一区二区| 亚洲成国产人片在线观看| 日韩一区二区三区影片| 肉色欧美久久久久久久蜜桃| 精品第一国产精品| 日韩精品免费视频一区二区三区| bbb黄色大片| 老司机在亚洲福利影院| 女性生殖器流出的白浆| 久久影院123| 亚洲av在线观看美女高潮| av网站免费在线观看视频| 亚洲,一卡二卡三卡| 男人添女人高潮全过程视频| 日本vs欧美在线观看视频| 亚洲五月色婷婷综合| 成人免费观看视频高清| 黑人欧美特级aaaaaa片| 欧美97在线视频| 日本午夜av视频| 欧美国产精品va在线观看不卡| 高清视频免费观看一区二区| 色综合欧美亚洲国产小说| 国产精品蜜桃在线观看| 欧美亚洲 丝袜 人妻 在线| 女人爽到高潮嗷嗷叫在线视频| 国产一卡二卡三卡精品 | 国产精品久久久久久精品古装| 在线天堂最新版资源| 亚洲情色 制服丝袜| 国产成人系列免费观看| 波多野结衣一区麻豆| 美女国产高潮福利片在线看| 黄色一级大片看看| 国产视频首页在线观看| 美女中出高潮动态图| 69精品国产乱码久久久| 麻豆乱淫一区二区| 国产精品女同一区二区软件| 一级爰片在线观看| 欧美日韩一级在线毛片| 久久久精品区二区三区| 国产精品 国内视频| 国产免费一区二区三区四区乱码| 精品人妻熟女毛片av久久网站| 久久久久国产一级毛片高清牌| 婷婷成人精品国产| 亚洲av中文av极速乱| 亚洲综合精品二区| 国产精品二区激情视频| 丰满乱子伦码专区| 精品一区二区三卡| 最新在线观看一区二区三区 | 久久久国产欧美日韩av| 国产亚洲精品第一综合不卡| 国产成人精品在线电影| 久久久久人妻精品一区果冻| 久久97久久精品| 丝袜喷水一区| 99精品久久久久人妻精品| 国产黄色视频一区二区在线观看| 最近最新中文字幕大全免费视频 | 婷婷色av中文字幕| 午夜日本视频在线| 欧美日韩精品网址| 高清黄色对白视频在线免费看| 中文字幕高清在线视频| 精品少妇黑人巨大在线播放| 亚洲欧洲精品一区二区精品久久久 | 丝袜脚勾引网站| 在线观看国产h片| 亚洲第一av免费看| 亚洲美女视频黄频| 日韩免费高清中文字幕av| 在线观看人妻少妇| 日本vs欧美在线观看视频| 韩国高清视频一区二区三区| 这个男人来自地球电影免费观看 | 18在线观看网站| 亚洲自偷自拍图片 自拍| 欧美日本中文国产一区发布| 国产一区二区 视频在线| 国产色婷婷99| 国产成人91sexporn| 国产精品久久久久久精品古装| 亚洲av欧美aⅴ国产| 丰满少妇做爰视频| 国产高清不卡午夜福利| av在线播放精品| 久久婷婷青草| 高清av免费在线| 97在线人人人人妻| 精品一区二区免费观看| 国产深夜福利视频在线观看| 视频区图区小说| 精品国产超薄肉色丝袜足j| 天天操日日干夜夜撸| 亚洲婷婷狠狠爱综合网| 90打野战视频偷拍视频| 国产成人a∨麻豆精品| 高清视频免费观看一区二区| 亚洲国产精品一区三区| 国产一卡二卡三卡精品 | 乱人伦中国视频| 波多野结衣一区麻豆| 国产亚洲av高清不卡| 久久99一区二区三区| 日韩欧美精品免费久久| 精品国产一区二区三区久久久樱花| 国产av国产精品国产| 午夜福利,免费看| 欧美国产精品一级二级三级| 日韩一区二区视频免费看| 日韩大片免费观看网站| 午夜福利视频在线观看免费| 日韩伦理黄色片| 蜜桃国产av成人99| 国产精品偷伦视频观看了| 狂野欧美激情性bbbbbb| 麻豆av在线久日| 老司机影院成人| 精品国产露脸久久av麻豆| 亚洲,一卡二卡三卡| 久久亚洲国产成人精品v| 国产精品三级大全| avwww免费| 一本色道久久久久久精品综合| 国产深夜福利视频在线观看| 免费在线观看黄色视频的| 一区二区三区激情视频| 青草久久国产| 欧美亚洲日本最大视频资源| 欧美人与性动交α欧美精品济南到| 久久人人爽人人片av| 男的添女的下面高潮视频| 超碰成人久久| 天堂中文最新版在线下载| 亚洲国产最新在线播放| 99国产综合亚洲精品| 亚洲成人手机| 人体艺术视频欧美日本| 亚洲综合精品二区| 精品免费久久久久久久清纯 | 国产精品久久久av美女十八| 亚洲国产欧美在线一区| 日韩电影二区| 中文精品一卡2卡3卡4更新| tube8黄色片| 亚洲免费av在线视频| 亚洲国产精品国产精品| 色吧在线观看| 国产精品久久久av美女十八| 国产精品人妻久久久影院| 国产亚洲av片在线观看秒播厂| 视频区图区小说| 亚洲专区中文字幕在线 | 亚洲国产看品久久| 国产成人啪精品午夜网站| 久久国产精品男人的天堂亚洲| 色吧在线观看| 日韩视频在线欧美| 国产精品三级大全| 1024香蕉在线观看| 人人妻人人添人人爽欧美一区卜| 在线天堂中文资源库| 校园人妻丝袜中文字幕| 国产在线免费精品| 王馨瑶露胸无遮挡在线观看| 一级毛片黄色毛片免费观看视频| 老司机亚洲免费影院| av.在线天堂| av电影中文网址| 天天添夜夜摸| 亚洲欧美清纯卡通| 久久精品国产亚洲av高清一级| 免费日韩欧美在线观看| 国产成人精品久久二区二区91 | 午夜福利在线免费观看网站| 一级毛片我不卡| 最近中文字幕2019免费版| 久久韩国三级中文字幕| 国产精品av久久久久免费| netflix在线观看网站| 色网站视频免费| 9191精品国产免费久久| 天堂中文最新版在线下载| 热99国产精品久久久久久7| 精品免费久久久久久久清纯 | 精品一品国产午夜福利视频| av一本久久久久| 午夜免费男女啪啪视频观看| 亚洲av电影在线观看一区二区三区| 日本wwww免费看| 久久久久久久大尺度免费视频| 欧美人与性动交α欧美精品济南到| 亚洲国产欧美日韩在线播放| 人人妻人人澡人人看| 亚洲av成人不卡在线观看播放网 | 看非洲黑人一级黄片| 亚洲专区中文字幕在线 | 久久精品aⅴ一区二区三区四区| 欧美国产精品一级二级三级| 亚洲男人天堂网一区| 黄色怎么调成土黄色| 啦啦啦 在线观看视频| 国产av国产精品国产| 日韩熟女老妇一区二区性免费视频| 在线观看免费高清a一片| 国产精品一区二区在线观看99| 咕卡用的链子| 国产成人精品久久二区二区91 | 免费女性裸体啪啪无遮挡网站| 色婷婷久久久亚洲欧美| 这个男人来自地球电影免费观看 | 亚洲免费av在线视频| 国产日韩欧美在线精品| 亚洲精品国产色婷婷电影| 亚洲视频免费观看视频| 精品一区二区三区av网在线观看 | 欧美另类一区| 亚洲在久久综合| 亚洲欧洲精品一区二区精品久久久 | 亚洲av国产av综合av卡| 婷婷成人精品国产| 日韩制服骚丝袜av| 日韩视频在线欧美| 制服人妻中文乱码| 国产在线视频一区二区| 99久久99久久久精品蜜桃| av.在线天堂| 欧美日韩av久久| 十八禁人妻一区二区| 999精品在线视频| 在线观看免费午夜福利视频| 在线观看人妻少妇| 欧美日韩亚洲国产一区二区在线观看 | 国产野战对白在线观看| 午夜激情久久久久久久| 亚洲精品一二三| 久久精品久久精品一区二区三区| 老司机影院毛片| 久久精品亚洲熟妇少妇任你| 又大又爽又粗| 午夜精品国产一区二区电影| 桃花免费在线播放| 一区福利在线观看| 我的亚洲天堂| 美女脱内裤让男人舔精品视频| 五月天丁香电影| 又大又爽又粗| 久久久久久人妻| 爱豆传媒免费全集在线观看| 国产又色又爽无遮挡免| av在线播放精品| 叶爱在线成人免费视频播放| 九色亚洲精品在线播放| 香蕉国产在线看| av线在线观看网站| 美女扒开内裤让男人捅视频| 18禁国产床啪视频网站| 一区二区三区四区激情视频| 狠狠婷婷综合久久久久久88av| 亚洲欧美一区二区三区国产| 69精品国产乱码久久久| 久久久国产欧美日韩av| 伦理电影免费视频| av有码第一页| 在线 av 中文字幕| 免费看不卡的av| 久久综合国产亚洲精品| 久久精品人人爽人人爽视色| 中文乱码字字幕精品一区二区三区| 国产极品天堂在线| 自线自在国产av| 亚洲av福利一区| 久久亚洲国产成人精品v| 久久 成人 亚洲| 亚洲欧美精品自产自拍| 一区二区三区激情视频| 日韩一卡2卡3卡4卡2021年| 亚洲第一av免费看| 黄片播放在线免费| 99精国产麻豆久久婷婷| 国产精品免费视频内射| 日韩伦理黄色片| 在线观看一区二区三区激情| 9色porny在线观看| 人体艺术视频欧美日本| 精品少妇一区二区三区视频日本电影 | 黑人欧美特级aaaaaa片| 成人亚洲欧美一区二区av| 欧美日韩av久久| 一区在线观看完整版| 无遮挡黄片免费观看| 午夜久久久在线观看| 日本黄色日本黄色录像| 国产精品久久久久成人av| 日韩大码丰满熟妇| 亚洲国产精品国产精品| av一本久久久久| 性高湖久久久久久久久免费观看| 美女国产高潮福利片在线看| 婷婷色综合大香蕉| 欧美在线黄色| xxxhd国产人妻xxx| 狠狠婷婷综合久久久久久88av| 韩国av在线不卡| 日韩不卡一区二区三区视频在线| 国产淫语在线视频| 亚洲精品久久午夜乱码| 国产成人精品久久久久久| 天堂俺去俺来也www色官网| 精品久久久久久电影网| 国产成人午夜福利电影在线观看| 亚洲国产欧美网| 亚洲激情五月婷婷啪啪| 黑人巨大精品欧美一区二区蜜桃| 国产成人啪精品午夜网站| 黄色视频不卡| 女性被躁到高潮视频| 国产 一区精品| 欧美av亚洲av综合av国产av | 精品国产露脸久久av麻豆| 韩国av在线不卡| 亚洲伊人久久精品综合| 考比视频在线观看| 一区二区三区四区激情视频| 亚洲精品aⅴ在线观看| 亚洲精品在线美女| 亚洲免费av在线视频| 久久亚洲国产成人精品v| 亚洲欧美一区二区三区久久| 国产极品天堂在线| 韩国精品一区二区三区| 欧美精品av麻豆av| 亚洲人成77777在线视频| 亚洲欧美精品综合一区二区三区| 一区在线观看完整版| 亚洲精品一区蜜桃| 色综合欧美亚洲国产小说| 少妇被粗大的猛进出69影院| 国产人伦9x9x在线观看| 丰满少妇做爰视频| 欧美在线黄色| 久久久精品94久久精品| 国产色婷婷99| 自拍欧美九色日韩亚洲蝌蚪91| 日本欧美视频一区| 狂野欧美激情性xxxx| 在线观看一区二区三区激情| 激情五月婷婷亚洲| 亚洲久久久国产精品| xxxhd国产人妻xxx| 国产成人精品福利久久| 亚洲欧美一区二区三区久久| 中文字幕人妻丝袜制服| 曰老女人黄片| 日韩av在线免费看完整版不卡| 建设人人有责人人尽责人人享有的| 91国产中文字幕| 女人被躁到高潮嗷嗷叫费观| 亚洲天堂av无毛| 婷婷成人精品国产| 99热国产这里只有精品6| 亚洲国产成人一精品久久久| 国产麻豆69| 成年动漫av网址| 久久人人爽av亚洲精品天堂| 国产免费现黄频在线看| 不卡av一区二区三区| 午夜日本视频在线| 女人被躁到高潮嗷嗷叫费观| 最近最新中文字幕免费大全7| 国产成人系列免费观看| 国产亚洲午夜精品一区二区久久| 日韩一区二区视频免费看| 国产一区二区 视频在线| 亚洲精品美女久久av网站| 久久韩国三级中文字幕| 精品国产乱码久久久久久男人| 日日摸夜夜添夜夜爱| 精品国产露脸久久av麻豆| 侵犯人妻中文字幕一二三四区| 免费观看人在逋| 婷婷色综合www| 久久久亚洲精品成人影院| 777久久人妻少妇嫩草av网站| 国产熟女午夜一区二区三区| av在线老鸭窝| 亚洲精品成人av观看孕妇| 亚洲精品日韩在线中文字幕| 亚洲精品国产区一区二| av福利片在线| 亚洲伊人色综图| 自拍欧美九色日韩亚洲蝌蚪91| 久久久欧美国产精品| 日本av手机在线免费观看| 国产精品一区二区在线观看99| 在线 av 中文字幕| 免费高清在线观看视频在线观看| 黄色 视频免费看| e午夜精品久久久久久久| 日韩视频在线欧美| 91老司机精品| 中文字幕另类日韩欧美亚洲嫩草| 侵犯人妻中文字幕一二三四区| 亚洲美女黄色视频免费看| 精品亚洲乱码少妇综合久久| 亚洲av福利一区| 亚洲精品一二三| 中文字幕高清在线视频| 日韩一本色道免费dvd| 亚洲国产成人一精品久久久| 色综合欧美亚洲国产小说| 国产毛片在线视频| 少妇猛男粗大的猛烈进出视频| 亚洲成色77777| 少妇人妻精品综合一区二区| 人人妻人人澡人人看| 老汉色∧v一级毛片| 日本wwww免费看|