• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    主題模型在檢索結(jié)果聚類中的應(yīng)用

    2018-02-12 12:24蔣宗禮趙思露
    軟件導(dǎo)刊 2018年12期

    蔣宗禮 趙思露

    摘要:檢索結(jié)果聚類能夠有效幫助提高獲取信息的效率和質(zhì)量。針對(duì)傳統(tǒng)文本聚類模型存在數(shù)據(jù)維數(shù)過高、缺乏語義理解等問題,提出一種面向檢索結(jié)果聚類的融合共現(xiàn)分析主題建模算法?;诟倪M(jìn)的LDA模型,對(duì)得到的“文檔-主題”概率分布進(jìn)行聚類分析,采用K-means算法完成聚類過程,最后提出根據(jù)聚類中心提取主題詞作為類簇標(biāo)簽。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的LDA算法在檢索結(jié)果聚類應(yīng)用上不僅獲得了很好的聚類效果,類簇標(biāo)簽也有良好的可讀性。

    關(guān)鍵詞:LDA;共現(xiàn)分析;檢索結(jié)果聚類;類簇標(biāo)簽

    Research on Application of Topic Model in Clustering Search Results

    JIANG Zong?li,ZHAO Si?lu

    (Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China)

    Abstract:The clustering of search results can effectively help improve the efficiency and quality of information retrieval. Aiming at the problems of traditional data clustering models such as high data dimension and lack of semantic understanding, this paper proposes a fusion co?occurrence analysis topic modeling algorithm oriented to the retrieval of results clustering.Based on the improved LDA model, the obtained “document?subject” probability distribution is clustered, the K?means algorithm is used to complete the clustering process, and finally the clustering center is used to extract topic words as cluster?like tags. The experimental results show that the improved LDA algorithm not only has a good clustering effect on the clustering of search results, but also has a good readability of cluster labels.

    Key Words:LDA;co?occurrence analysis;clustering of search results;cluster label

    0?引言

    網(wǎng)絡(luò)資源的不斷增長使檢索得到的返回結(jié)果數(shù)量龐大,而且根據(jù)檢索相關(guān)性算法與排序算法的不同,返回的結(jié)果也具有一定差異性。檢索結(jié)果聚類可以對(duì)得到的檢索結(jié)果進(jìn)行挖掘與組織,對(duì)信息進(jìn)行合理總結(jié)與描述,從而有效提高了用戶獲取信息的效率和質(zhì)量。它通過聚類技術(shù)將檢索結(jié)果依據(jù)主題相似性劃分到不同類簇,并提供類簇標(biāo)簽,使用戶根據(jù)標(biāo)簽快速、準(zhǔn)確定位到感興趣信息所在的類別[1]。其主要有以下3個(gè)特征:①檢索結(jié)果聚類不僅需要得到高質(zhì)量的類簇,還需要描述每個(gè)類簇主題的可讀標(biāo)簽;②檢索結(jié)果聚類有許多可利用的信息,例如查詢?cè)~信息、相關(guān)文檔集信息等;③檢索結(jié)果集本身就是一個(gè)以查詢?cè)~為主題的大類簇,聚類后的類簇為查詢?cè)~相關(guān)子主題的類簇。

    傳統(tǒng)基于VSM的聚類分析方法由于沒有考慮文本中潛在的語義關(guān)聯(lián),不僅聚類效果受到限制,也使得到的類簇標(biāo)簽可讀性差。

    LDA主題模型可以有效挖掘文本內(nèi)部的語義知識(shí),因而被廣泛應(yīng)用于不同領(lǐng)域[2]。不同文本對(duì)象有其自身特點(diǎn),當(dāng)面向不同應(yīng)用領(lǐng)域使用原始LDA主題模型時(shí),結(jié)果都不夠精準(zhǔn)。本文在檢索結(jié)果聚類應(yīng)用研究基礎(chǔ)上提出了基于查詢關(guān)聯(lián)分析的主題模型,并完成了檢索聚類過程。

    1?相關(guān)工作

    Cutting等[3]首先在Scatter/Gather系統(tǒng)中引入對(duì)檢索結(jié)果進(jìn)行聚類以便用戶快速瀏覽的思想,其采用的是經(jīng)典的K-means聚類。最早的檢索結(jié)果聚類算法利用已有的文本聚類算法,在聚類完成后抽取類簇標(biāo)簽。雖然在聚類質(zhì)量上占有優(yōu)勢(shì),但提取標(biāo)簽的可讀性較差。然而,對(duì)于檢索結(jié)果聚類而言,沒有一個(gè)好的標(biāo)簽,聚類將失去主要意義,由此產(chǎn)生了基于標(biāo)簽的聚類算法。該算法先從返回的檢索結(jié)果中抽取詞或短語作為標(biāo)簽,再將結(jié)果分類到對(duì)應(yīng)標(biāo)簽中。典型代表有Zamir等[4]提出的STC后綴樹聚類算法,該算法主要通過發(fā)現(xiàn)高頻共現(xiàn)短語作為聚類依據(jù),但其過度依賴高頻關(guān)鍵詞,而忽略了詞項(xiàng)間的隱含語義關(guān)系。為強(qiáng)調(diào)標(biāo)簽的可讀性與對(duì)簇的描述性,Banerjee等[5]基于Wikipedia挖掘高頻詞語義相關(guān)詞作為候選簇標(biāo)簽;Tseng等[6]基于WordNet抽取查詢關(guān)聯(lián)類別作為聚類描述,這種依賴抽取規(guī)則與外部信息資源的方法雖然使標(biāo)簽質(zhì)量較好,但增大了聚類的時(shí)空復(fù)雜度,且簇的連貫性較差。

    查詢關(guān)鍵詞為檢索結(jié)果聚類的一個(gè)重要線索,文獻(xiàn)[7]中通過對(duì)查詢的抽取,尋找查詢的修飾與限制成分及概念外延,以確定潛在的類別標(biāo)簽,該方法需要外部資源與句法分析知識(shí)作為支撐;Gelgi等[8]使用關(guān)系圖表示查詢?cè)~與詞項(xiàng)的關(guān)聯(lián)關(guān)系,通過查詢?cè)~關(guān)聯(lián)度分析對(duì)詞項(xiàng)進(jìn)行加權(quán),以提高檢索結(jié)果聚類質(zhì)量,但文獻(xiàn)中未涉及類簇標(biāo)簽的獲取。

    類簇標(biāo)簽的需求使文本語義信息挖掘在檢索結(jié)果聚類中顯得尤為重要。LDA模型能夠挖掘文本的潛在語義信息,一些學(xué)者將其應(yīng)用于情感分析、文本分類與推薦系統(tǒng)等方面[9?11],取得了很好的效果。文獻(xiàn)[12]中將原始LDA模型應(yīng)用于檢索結(jié)果的聚類,在聚類質(zhì)量與聚類標(biāo)簽提取方面都具有較好的語義描述效果,但其忽略了文本對(duì)象的特殊性及模型本身的缺陷。本文在面向特定檢索結(jié)果聚類任務(wù)中對(duì)LDA主題模型進(jìn)行了改進(jìn),將查詢關(guān)聯(lián)度融入吉布斯采樣,使建模結(jié)果不再向高頻詞傾斜,突出了相關(guān)主題詞權(quán)重查詢,基于該模型完成了檢索結(jié)果聚類任務(wù)。

    2?LDA主題模型

    2.1?模型介紹

    LDA主題模型是Blei等[13]提出的一個(gè)對(duì)離散數(shù)據(jù)集建模的三層產(chǎn)生式概率模型,其圖模型表示如圖1所示。

    其中,?M表示文檔集總數(shù),N?m為文檔m下的詞總數(shù),T為主題數(shù)目,θ?m表示文檔m的主題概率分布,φ?t表示主題t的詞項(xiàng)概率分布,α、β分別表示θ?m和φ?t?Dirichlet先驗(yàn)分布的超參數(shù),?w?mn、z?mn表示第m篇文檔下第n個(gè)單詞與其主題,陰影節(jié)點(diǎn)表示可觀測(cè)變量。該模型也解釋了文本集中每篇文檔的生成過程,共分為兩步,對(duì)于文檔m,先采樣文檔的主題概率分布為θ?m~Dir(α),對(duì)于文檔m的第n個(gè)單詞w?mn,先采樣詞的主題z?mn~Mult(θ?m)以及主題z?mn的詞分布采樣w?mn~Mult(φ?z?mn),重復(fù)N?m次得到文檔m。

    采用Gibbs采樣[14]對(duì)模型進(jìn)行參數(shù)估計(jì),其通過對(duì)聯(lián)合分布各個(gè)分量輪換采樣,構(gòu)造收斂于目標(biāo)概率分布的馬爾可夫鏈,然后從中進(jìn)行樣本值采樣。采樣更新過程即估計(jì)當(dāng)前采樣詞的主題后驗(yàn)分布如下:

    得到每個(gè)詞項(xiàng)的主題分配后,參數(shù)計(jì)算如下:

    以上公式中,文檔集中第i個(gè)詞項(xiàng)w?i=j,z?i=k表示w?i對(duì)應(yīng)第k個(gè)主題;n(k)?m,i表示第m篇文檔除去第m個(gè)詞后,主題k出現(xiàn)的次數(shù);n(j)?k,i表示第k個(gè)主題除去第i個(gè)詞后,詞項(xiàng)j出現(xiàn)的次數(shù);α?k、β?j分別為主題k?與詞項(xiàng)?j?的Dirichlet先驗(yàn)參數(shù)。

    Gibbs算法通過采樣得到每個(gè)主題的詞項(xiàng)分布與文檔主題分布,然后根據(jù)式(1)得到當(dāng)前采樣詞主題,最終得到一篇文檔主題概率分布的表述。由分析可知,一個(gè)詞的主題分配與該詞在主題中的概率比,以及該詞所在文檔的主題概率分布有關(guān),則高頻詞在文檔與主題中的占比會(huì)較大。

    2.2?LDA在檢索結(jié)果聚類應(yīng)用中存在的問題

    根據(jù)對(duì)以上模型的分析,將主題模型應(yīng)用于檢索結(jié)果聚類具有以下優(yōu)勢(shì):①可以避免傳統(tǒng)聚類算法的維數(shù)災(zāi)難,將文檔映射到較低維空間,實(shí)現(xiàn)文本基于語義層面的降維;②傳統(tǒng)文本聚類方法基于概率詞頻統(tǒng)計(jì),脫離了語義層面,基于主題模型的聚類以主題為依據(jù),能將包含相似主題的文檔聚為一類[15];③通過主題建模對(duì)文本集進(jìn)行挖掘可以得到豐富的信息,并將其用于指導(dǎo)聚類質(zhì)心選取等,改進(jìn)聚類質(zhì)量與效率[16];④對(duì)聚類結(jié)果的類簇標(biāo)簽抽取進(jìn)行優(yōu)化,得到的主題標(biāo)簽可讀性更好,因而對(duì)于檢索結(jié)果聚類具有重要意義;⑤模型參數(shù)空間規(guī)模固定,與文本自身規(guī)模無關(guān),適合于大規(guī)模文本集。

    然而原始的LDA模型基于詞袋模型假設(shè),認(rèn)為每個(gè)詞同等重要,使得模型向高頻詞主題傾斜,容易導(dǎo)致一些詞出現(xiàn)次數(shù)不多但與查詢?cè)~強(qiáng)相關(guān),且主題區(qū)分度明顯的詞在建模過程中作用降低。本文充分利用查詢?cè)~與查詢相關(guān)文檔的信息,將查詢關(guān)聯(lián)度權(quán)重融入主題模型,以改進(jìn)文檔建模效果,進(jìn)而優(yōu)化聚類質(zhì)量。

    3?面向檢索結(jié)果聚類的LDA主題模型

    3.1?檢索結(jié)果文檔集特征分析

    檢索結(jié)果文檔都在查詢?cè)~所限定的一個(gè)寬泛的主題下,通過聚類將其細(xì)分為一些更具體的子主題,每個(gè)子主題的文本都與查詢?cè)~相關(guān),每個(gè)子主題也與查詢相關(guān)。為了更明確文本所屬的子主題,通過表征該文本的特征詞加以判斷。圖2為檢索結(jié)果文本聚類結(jié)構(gòu)。

    顯然與查詢?cè)~關(guān)聯(lián)程度越大的特征詞,越能有效幫助一篇文檔區(qū)分所屬的子主題。

    3.2?查詢關(guān)聯(lián)度計(jì)算

    對(duì)于查詢關(guān)鍵詞,一般認(rèn)為那些與其經(jīng)常搭配出現(xiàn)的詞可以更好地表現(xiàn)詞的語義主題,其共現(xiàn)度越高,詞項(xiàng)與其存在主題相關(guān)的可能性越大,越具有主題表達(dá)能力[17]。通過共現(xiàn)分析可以衡量詞項(xiàng)與查詢關(guān)鍵詞之間的關(guān)聯(lián)度,關(guān)聯(lián)度越高,詞項(xiàng)權(quán)重越大。

    通常采用互信息分析詞的共現(xiàn)關(guān)系,詞?w?i與w?j?之間的互信息計(jì)算如式(4)所示.

    p(w?i,w?j)為w?i、w?j同時(shí)出現(xiàn)的概率,p(w?i)為w?i出現(xiàn)的概率,p(w?j)為w?j出現(xiàn)的概率。假設(shè)檢索結(jié)果集文檔中每一個(gè)文檔都包含查詢?cè)~q,則對(duì)于文檔集中任意詞項(xiàng)w?i,計(jì)算得到的共現(xiàn)關(guān)聯(lián)度MI(w?i,q)=0。若查詢?cè)~在檢索返回相關(guān)文檔集中出現(xiàn)頻率過高,則不適合采用互信息對(duì)查詢?cè)~與文檔集中的詞項(xiàng)進(jìn)行共現(xiàn)分析。而且這種方法只考慮了詞項(xiàng)的共文檔頻率,而沒有考慮兩個(gè)詞項(xiàng)的共現(xiàn)頻度以及詞項(xiàng)重要度。所謂共文檔頻度是指查詢關(guān)鍵詞與詞項(xiàng)在檢索結(jié)果文檔集中共同出現(xiàn)在同一文檔中的頻度,而共現(xiàn)頻度是指查詢關(guān)鍵詞與詞項(xiàng)在同一篇文檔中共同出現(xiàn)時(shí),在該文檔中兩個(gè)詞項(xiàng)分別出現(xiàn)的頻度。

    設(shè)D為檢索結(jié)果文檔集,|D|=M,d?m∈D,m∈[1,M];W為文檔集中所有的詞項(xiàng)集合,|W|=N,w?i∈W,i∈[1,N];Q為查詢關(guān)鍵詞集合,查詢?cè)~q?∈Q;對(duì)于任意w?i∈W,且w?i≠q,w?i、q在d?m中出現(xiàn)的頻度分別記作freq(w?i|d?m)與freq(q|d?m),包含詞項(xiàng)w?i的文檔集合記作D?w?i,則共現(xiàn)文檔集合記作D?w?i,q;用M(w?i,q)表示詞項(xiàng)w?i相對(duì)于查詢關(guān)鍵詞q的共文檔率,即在出現(xiàn)查詢?cè)~q的文檔集中,同時(shí)出現(xiàn)w?i的文檔數(shù)與只出現(xiàn)查詢?cè)~文檔數(shù)的比。計(jì)算公式如下:

    用F(w?i,q)表示w?i與查詢?cè)~q在同一篇文檔中的共現(xiàn)頻度關(guān)系,查詢?cè)~與共現(xiàn)詞的緊密程度計(jì)算公式如下:

    此外考慮詞項(xiàng)與查詢關(guān)鍵詞在整個(gè)文檔集中的重要性,以避免出現(xiàn)與查詢關(guān)鍵詞關(guān)聯(lián)度很高的詞在整個(gè)語料集上的重要性偏低,即其主題區(qū)分度不明顯。此處引入逆文檔頻率IDF[18],計(jì)算公式如下:

    其中C表示語料庫中的文檔集合,C?w?i為包含w?i的文檔集合。基于以上對(duì)共現(xiàn)因素的分析,構(gòu)造查詢關(guān)鍵詞關(guān)聯(lián)程度度量公式,用Cor(w?i,Q)表示詞項(xiàng)w?i與查詢?cè)~集Q的關(guān)聯(lián)程度,?即:

    其中?F(w?i,q)?計(jì)算時(shí)需進(jìn)行歸一化處理。

    3.3?改進(jìn)后的LDA算法

    得到各詞項(xiàng)的查詢關(guān)聯(lián)度后,在對(duì)每個(gè)詞的主題進(jìn)行Gibbs采樣過程中,當(dāng)文檔m的第i個(gè)詞項(xiàng)w?i=j分配到主題k時(shí),式(2)中n(j)?k,i的值不是累加1而是累加w?i的詞項(xiàng)關(guān)聯(lián)度Cor(w?i,Q)。同理,式(3)中的n(k)?m,i也累加Cor(w?i,Q)。由此得到“文檔-主題”分布θ與“主題-詞項(xiàng)”分布φ計(jì)算公式如下:

    上式中,∑Mi=1n(k)?m,i·Cor(w?i,Q)為文檔m主題k下所有詞的關(guān)聯(lián)度權(quán)重和,n(j)?k,i·Cor(w?i,Q)為主題k下所有詞為j的關(guān)聯(lián)度之和。

    4?改進(jìn)模型在檢索結(jié)果聚類中的應(yīng)用

    本文采用基于劃分的K?means聚類算法[19],該算法具有線性時(shí)間復(fù)雜度,適合于處理大規(guī)模數(shù)據(jù)集合,其通過優(yōu)化一個(gè)準(zhǔn)則函數(shù)進(jìn)行聚類劃分。通過LDA建模后,文本被表示為主題概率向量。為發(fā)揮主題模型的優(yōu)勢(shì),本文使用衡量概率分布差異的函數(shù)JS距離替代傳統(tǒng)的相似度計(jì)算方法[20],其為KL散度的對(duì)稱版本,將距離定義在區(qū)間[0,1]上。對(duì)于主題概率向量?p=(p?1,p?2,…,p?T)與q=(q?1,q?2,…,q?T)?,其相似度定義為:

    由于類簇標(biāo)簽抽取對(duì)檢索結(jié)果聚類具有重要意義,類簇標(biāo)簽應(yīng)能清晰、準(zhǔn)確地概括聚類中所有文檔的共同主題[21]。傳統(tǒng)基于最大詞頻的標(biāo)簽提取缺乏語義信息、可讀性差、用戶不易理解,對(duì)聚類的描述不夠準(zhǔn)確且與查詢?cè)~的關(guān)聯(lián)度低,主題特征不明顯。LDA可將文本表示為主題概率分布向量,通過聚類,主題分布相似的文檔被放在同一類簇中,主題分布率高的主題即代表該類簇主題,因此選取主題下詞項(xiàng)概率分布高的詞作為描述該類簇的標(biāo)簽,標(biāo)簽抽取具體步驟如下:

    (1)得到聚類算法迭代終止時(shí)各類簇的聚類中心,選取距離聚類中心最近的s篇文檔集合S={d?1,…,d?s}。

    (2)統(tǒng)計(jì)集合S中每篇文檔的主題概率分布,將概率分布最大的主題作為類簇主題,記作Z?max?(i),i=1,…,K。

    (3)得到主題Z?max?(i)?的“主題-詞項(xiàng)”概率分布,選取占比最大的前兩個(gè)詞項(xiàng)作為主題描述詞,即該類簇標(biāo)簽。

    整個(gè)實(shí)驗(yàn)算法步驟如圖3所示。

    5?實(shí)驗(yàn)數(shù)據(jù)及結(jié)果分析

    5.1?實(shí)驗(yàn)數(shù)據(jù)

    由于目前尚沒有一個(gè)應(yīng)用于檢索結(jié)果聚類評(píng)價(jià)的標(biāo)準(zhǔn)中文測(cè)試集,本文通過構(gòu)造不同的查詢關(guān)鍵詞提交給百度搜索引擎,選取返回結(jié)果的前10頁,約100個(gè)結(jié)果(排序算法已可保證覆蓋查詢?cè)~的大部分語義分布)作為數(shù)據(jù)源,用于構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集。構(gòu)造5個(gè)查詢?cè)~:“蘋果”、“金剛”、“長城”、“獵豹”、“熊貓”,采集5個(gè)檢索結(jié)果集合,共670篇網(wǎng)頁文本。對(duì)網(wǎng)頁文本進(jìn)行預(yù)處理,包括HTML解析、分詞、去停用詞等,并對(duì)文檔表示格式進(jìn)行處理,作為LDA建模的輸入。同時(shí)對(duì)每個(gè)集合中的文檔采用人工進(jìn)行分類,每個(gè)類別對(duì)應(yīng)查詢?cè)~在檢索結(jié)果集合中的一個(gè)語義分布。

    5.2?參數(shù)設(shè)置

    LDA模型對(duì)檢索結(jié)果集進(jìn)行建模時(shí),模型中的先驗(yàn)超參數(shù)按照經(jīng)驗(yàn)值設(shè)置為?α=50/T,β=0.01,主題數(shù)T?設(shè)為20,Gibbs采樣迭代次數(shù)為500次。聚類過程中,?若K值過大會(huì)導(dǎo)致聚類結(jié)果不易理解,過小則聚類效果不明顯。為便于模型的實(shí)驗(yàn)測(cè)評(píng),本文選取人工分類得到的主題數(shù)K進(jìn)行聚類,隨機(jī)選取初始聚類中心,為避免收斂到局部最優(yōu),重復(fù)執(zhí)行多次。

    5.3?建模結(jié)果評(píng)價(jià)分析

    對(duì)“獵豹”的檢索結(jié)果集分別使用原始LDA與BQ-LDA進(jìn)行建模,表1、表2為兩種模型的部分主題詞項(xiàng)分布,詞項(xiàng)根據(jù)分布數(shù)量由高到低排列。

    由表1、表2可以看出,在LDA模型中,分布靠前的詞項(xiàng)存在著一些主題區(qū)別度差且重要性低的詞,而改進(jìn)后的結(jié)果主題語義區(qū)分明顯,靠前的詞項(xiàng)能清晰地描述主題,與查詢關(guān)聯(lián)度更大的詞項(xiàng)分布位序都得到了提升。

    本文分別對(duì)不同查詢?cè)~進(jìn)行聚類,對(duì)于聚類結(jié)果,采用F-Measure作為評(píng)價(jià)標(biāo)準(zhǔn),其定義參照信息檢索的評(píng)測(cè)方法。假設(shè)聚類文檔數(shù)為?N,N?i表示正確劃分時(shí)類別i中的文檔個(gè)數(shù),N?j表示聚類結(jié)果類簇j中的文檔個(gè)數(shù),N(i,j)表示結(jié)果類簇j正確劃分i中的文檔數(shù),則類別i與聚類結(jié)果j?的F-Measure計(jì)算如下:

    其中P表示準(zhǔn)確率,R表示召回率。

    整個(gè)聚類結(jié)果的評(píng)價(jià)函數(shù)為:

    圖4為不同查詢下文檔集合使用不同模型的聚類效果。

    由圖4可以看到,使用主題模型的聚類質(zhì)量比傳統(tǒng)VSM要高,而改進(jìn)后模型應(yīng)用于聚類后的F值相比原始LDA更高,最多時(shí)高出了9個(gè)百分點(diǎn)。

    在標(biāo)簽提取過程中,?將s值?設(shè)為3,查詢?cè)~為“獵豹”時(shí),各模型聚類下的類簇標(biāo)簽結(jié)果如表3所示。

    由表3可以看出,VSM下的標(biāo)簽語義描述效果最差,根據(jù)標(biāo)簽并不能理解類簇主題,而相比于傳統(tǒng)LDA模型,改進(jìn)后的模型對(duì)簇的描述與區(qū)分度更好。

    6?結(jié)語

    將查詢?cè)~信息融入聚類,基于融合查詢關(guān)聯(lián)度的主題模型對(duì)檢索結(jié)果文檔建模,使用基于主題模型的類簇抽取方法,可以得到不錯(cuò)的聚類效果與區(qū)分性強(qiáng)的類簇標(biāo)簽。然而,聚類算法實(shí)驗(yàn)中需要設(shè)定初始聚類數(shù)目,在Gibbs采樣的時(shí)間效率方面尚存在不足之處,有待下一步改進(jìn)。

    參考文獻(xiàn):

    [1]?柏晗,成穎,柯青.網(wǎng)絡(luò)檢索結(jié)果聚類研究綜述[J].情報(bào)理論與實(shí)踐,2015,38(10):138?144.

    [2]?祖弦,謝飛.LDA主題模型研究綜述[J].合肥師范學(xué)院學(xué)報(bào),2015,33(6):55?58.

    [3]?CUTTING D R, KARGER D R,PEDERSEN J O, et al. Scatter/Gather: a cluster?based approach to browsing large document collections[J]. 1992:318?329.

    [4]?ZAMIR O E. Clustering Web documents: a phrase based method for grouping seach engine results[C].University of Washington,1999.

    [5]?BANERJEE S, RAMANATHAN K, GUPTA A. Clustering short texts using Wikipedia[C].International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM,2007:787?788.

    [6]?TSENG Y H, LIN C J, CHEN H H,et al. Toward generic title generation for clustered documents[M]. Berlin: Springer Berlin Heidelberg,2006.

    [7]?陳毅恒.文本檢索結(jié)果聚類及類別標(biāo)簽抽取技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2010.

    [8]?GELGI F, DAVULCU H, VADREVU S. Term ranking for clustering Web search results[J]. Proceedings of International Workshop on the Web & Databases,2007.

    [9]?LI F,HUANG M, ZHU X. Sentiment analysis with global topics and local dependency[C].Twenty?Fourth AAAI Conference on Artificial Intelligence. AAAI Press,2010:1371?1376.

    [10]?李文波,孫樂,張大鯤.基于Labeled?LDA模型的文本分類新算法[J].計(jì)算機(jī)學(xué)報(bào),2008,31(4):620?627.

    [11]?YANG M, CUI T, TU W. Ordering?sensitive and semantic?aware topic modeling[C].Proceedings of the Twenty?Ninth AAAI Conference on Artificial Intelligence, 2015:2353?2359.

    [12]?阮光冊(cè),夏磊.基于主題模型的檢索結(jié)果聚類應(yīng)用研究[J].情報(bào)雜志,2017,36(3):179?184.

    [13]?BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. J Machine Learning Research Archive,2003,3:993?1022.

    [14]?GRIFFITHS T L, STEYVERS M. Finding scientific topics[J].Proceedings of the National Academy of Sciences of USA, 2004(1):5228?5235.

    [15]?王李冬,魏寶剛,袁杰.基于概率主題模型的文檔聚類[J].電子學(xué)報(bào),2012,40(11):2346?2350.

    [16]?王春龍,張敬旭.基于LDA的改進(jìn)K?means算法在文本聚類中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2014,34(1):249?254.

    [17]?趙蓉英,陳晨.基于共現(xiàn)分析的中文文獻(xiàn)檢索結(jié)果聚類研究[J].情報(bào)科學(xué),2014(1):115?118.

    [18]?JONES K S. A statistical interpretation of term specificity and its application in retrieval[J]. Journal of Documentation, 1972,28(1):493?502.

    [19]?NASRAOUI O. Web data mining: exploring hyperlinks, contents, and usage data[M]. New York:ACM,2008.

    [20]?ENDRES D M, SCHINDELIN J E. A new metric for probability distributions[J]. IEEE Transactions on Information Theory,2003,49(7):1858?1860.

    [21]?韓中華.檢索結(jié)果聚類中的類別標(biāo)簽抽取技術(shù)研究[D].哈爾濱: 哈爾濱工業(yè)大學(xué),2011.

    国产精品久久视频播放| av天堂中文字幕网| 又爽又黄无遮挡网站| 亚洲人成伊人成综合网2020| 国内精品宾馆在线| 国产淫片久久久久久久久| 国产欧美日韩一区二区精品| 久久久久国内视频| 中国美女看黄片| 久久亚洲真实| 丝袜美腿在线中文| 乱人视频在线观看| 久久久精品欧美日韩精品| 亚洲最大成人av| 欧美日韩中文字幕国产精品一区二区三区| a级毛片免费高清观看在线播放| 亚洲一级一片aⅴ在线观看| 成人三级黄色视频| 欧美+亚洲+日韩+国产| 男女啪啪激烈高潮av片| 日韩欧美国产一区二区入口| av中文乱码字幕在线| 日本五十路高清| 精品久久久久久,| 一a级毛片在线观看| 深夜a级毛片| 日韩精品有码人妻一区| 国产精品,欧美在线| 亚洲av免费在线观看| 长腿黑丝高跟| 深爱激情五月婷婷| 18禁在线播放成人免费| 欧美在线一区亚洲| 中国美女看黄片| 好男人在线观看高清免费视频| 国产高清视频在线观看网站| 免费观看在线日韩| 午夜福利高清视频| 欧美+亚洲+日韩+国产| 国产 一区精品| 91麻豆精品激情在线观看国产| 国产一区二区在线av高清观看| av在线天堂中文字幕| 91久久精品国产一区二区成人| a在线观看视频网站| 午夜精品久久久久久毛片777| x7x7x7水蜜桃| 日本在线视频免费播放| 淫妇啪啪啪对白视频| 欧美日韩国产亚洲二区| 少妇高潮的动态图| 国产午夜福利久久久久久| 午夜福利高清视频| 亚洲精品日韩av片在线观看| 久久久久久伊人网av| 色综合站精品国产| а√天堂www在线а√下载| 啪啪无遮挡十八禁网站| 男人的好看免费观看在线视频| 午夜爱爱视频在线播放| 婷婷丁香在线五月| 尤物成人国产欧美一区二区三区| 男女那种视频在线观看| 在线国产一区二区在线| 成年版毛片免费区| 日本-黄色视频高清免费观看| av天堂在线播放| 免费av毛片视频| 久久久久久国产a免费观看| 国产高清有码在线观看视频| 最后的刺客免费高清国语| 99热6这里只有精品| 久久99热6这里只有精品| 干丝袜人妻中文字幕| 在线播放国产精品三级| 久久国产精品人妻蜜桃| 别揉我奶头 嗯啊视频| 婷婷丁香在线五月| 老女人水多毛片| 真人做人爱边吃奶动态| 不卡视频在线观看欧美| 国产精品1区2区在线观看.| 日本-黄色视频高清免费观看| 日本五十路高清| 国产91精品成人一区二区三区| 国产欧美日韩精品亚洲av| 偷拍熟女少妇极品色| 一区二区三区免费毛片| 无人区码免费观看不卡| 欧美高清性xxxxhd video| 亚洲三级黄色毛片| 天天一区二区日本电影三级| 夜夜看夜夜爽夜夜摸| 午夜福利在线在线| 在线观看一区二区三区| 亚洲自偷自拍三级| 制服丝袜大香蕉在线| 一本久久中文字幕| 久久精品国产99精品国产亚洲性色| 久久国产精品人妻蜜桃| 老司机深夜福利视频在线观看| 国产亚洲精品久久久久久毛片| 最好的美女福利视频网| 久久久成人免费电影| 女生性感内裤真人,穿戴方法视频| 欧美黑人巨大hd| 精品人妻熟女av久视频| 蜜桃久久精品国产亚洲av| 精品国内亚洲2022精品成人| 老司机午夜福利在线观看视频| 天堂网av新在线| 我要搜黄色片| 又粗又爽又猛毛片免费看| 两人在一起打扑克的视频| 欧美色欧美亚洲另类二区| 亚洲男人的天堂狠狠| 国产欧美日韩精品一区二区| av天堂中文字幕网| 日韩欧美国产一区二区入口| 一进一出好大好爽视频| 免费看美女性在线毛片视频| 亚洲国产色片| 老司机福利观看| 成人综合一区亚洲| 欧美激情久久久久久爽电影| 男女啪啪激烈高潮av片| 国产精品一及| 69人妻影院| 可以在线观看的亚洲视频| 欧美日韩亚洲国产一区二区在线观看| 成人美女网站在线观看视频| 日韩,欧美,国产一区二区三区 | 一区二区三区高清视频在线| 国产 一区精品| 亚洲av成人av| 毛片一级片免费看久久久久 | 一个人看视频在线观看www免费| 不卡一级毛片| 色视频www国产| 成年女人毛片免费观看观看9| 欧美一级a爱片免费观看看| 欧美绝顶高潮抽搐喷水| 中文字幕av成人在线电影| 色吧在线观看| 欧美成人性av电影在线观看| 在线免费观看不下载黄p国产 | 3wmmmm亚洲av在线观看| 露出奶头的视频| 美女cb高潮喷水在线观看| 久久99热6这里只有精品| 国产色婷婷99| .国产精品久久| 亚洲自拍偷在线| 亚洲av日韩精品久久久久久密| 日韩高清综合在线| 两人在一起打扑克的视频| 欧美潮喷喷水| 亚洲电影在线观看av| 久久精品久久久久久噜噜老黄 | 欧美成人一区二区免费高清观看| 99热这里只有是精品在线观看| 窝窝影院91人妻| 女同久久另类99精品国产91| 精品久久久久久久久亚洲 | 免费av观看视频| 亚洲成人久久性| 他把我摸到了高潮在线观看| 日本爱情动作片www.在线观看 | 干丝袜人妻中文字幕| 真人做人爱边吃奶动态| 成年女人看的毛片在线观看| 亚洲成人精品中文字幕电影| a级毛片免费高清观看在线播放| 俺也久久电影网| 亚洲人成网站在线播| 欧美人与善性xxx| 波多野结衣高清无吗| 久久久成人免费电影| 超碰av人人做人人爽久久| 亚洲人成伊人成综合网2020| 国产 一区 欧美 日韩| 日韩在线高清观看一区二区三区 | 国产亚洲91精品色在线| 69人妻影院| 欧美丝袜亚洲另类 | 他把我摸到了高潮在线观看| 丝袜美腿在线中文| 婷婷丁香在线五月| 欧美激情久久久久久爽电影| 久久国产乱子免费精品| 99九九线精品视频在线观看视频| 精品无人区乱码1区二区| 久久人妻av系列| 亚洲专区国产一区二区| 99久久精品热视频| 最近最新免费中文字幕在线| 蜜桃亚洲精品一区二区三区| 欧美日韩国产亚洲二区| 人人妻,人人澡人人爽秒播| 九色成人免费人妻av| 禁无遮挡网站| 天堂影院成人在线观看| 精品不卡国产一区二区三区| 3wmmmm亚洲av在线观看| а√天堂www在线а√下载| 麻豆av噜噜一区二区三区| 亚洲午夜理论影院| 久久久久久九九精品二区国产| 国产男人的电影天堂91| 精品久久久久久久末码| 特大巨黑吊av在线直播| 国产免费男女视频| 成人三级黄色视频| 一级毛片久久久久久久久女| 夜夜夜夜夜久久久久| 18+在线观看网站| 悠悠久久av| 日本精品一区二区三区蜜桃| 春色校园在线视频观看| 又爽又黄a免费视频| 国产精品久久久久久久电影| 99久久精品热视频| 亚洲精品久久国产高清桃花| 精品99又大又爽又粗少妇毛片 | 听说在线观看完整版免费高清| 很黄的视频免费| 中文字幕av在线有码专区| 波多野结衣高清无吗| 俄罗斯特黄特色一大片| 成人鲁丝片一二三区免费| 国产亚洲精品av在线| 婷婷精品国产亚洲av在线| 亚洲精品国产成人久久av| 国产麻豆成人av免费视频| 国产在线男女| 男人舔奶头视频| 国产精品女同一区二区软件 | 97人妻精品一区二区三区麻豆| 欧美性感艳星| 亚洲一区高清亚洲精品| 国产免费男女视频| 国产一区二区在线观看日韩| 男女视频在线观看网站免费| 亚洲国产精品久久男人天堂| 变态另类成人亚洲欧美熟女| 久久这里只有精品中国| 日韩高清综合在线| 黄色欧美视频在线观看| 国产一区二区三区视频了| 国产成人福利小说| 国内精品久久久久久久电影| 中国美白少妇内射xxxbb| 精品久久久久久,| 男女之事视频高清在线观看| 精品久久久久久成人av| 一个人看的www免费观看视频| 色综合亚洲欧美另类图片| 午夜福利视频1000在线观看| 中文在线观看免费www的网站| 91午夜精品亚洲一区二区三区 | 亚洲av中文字字幕乱码综合| 欧美+亚洲+日韩+国产| 嫩草影院精品99| 亚洲一区高清亚洲精品| 日韩精品中文字幕看吧| 国产精品久久久久久精品电影| 久久九九热精品免费| 国产在线精品亚洲第一网站| 在线观看av片永久免费下载| 乱人视频在线观看| 成人鲁丝片一二三区免费| 婷婷亚洲欧美| 97超视频在线观看视频| 亚洲国产色片| 日韩在线高清观看一区二区三区 | 色播亚洲综合网| 观看免费一级毛片| 成人毛片a级毛片在线播放| 噜噜噜噜噜久久久久久91| 美女高潮的动态| 一个人看的www免费观看视频| 免费av毛片视频| 久久久国产成人免费| 人人妻人人看人人澡| 国产真实伦视频高清在线观看 | 在线a可以看的网站| 国产高清视频在线观看网站| 久久精品国产亚洲网站| 国产精品乱码一区二三区的特点| 久久99热这里只有精品18| 国产精品嫩草影院av在线观看 | 午夜福利18| 丝袜美腿在线中文| 日韩欧美国产在线观看| 免费在线观看影片大全网站| a级毛片免费高清观看在线播放| 在线免费观看不下载黄p国产 | 最近中文字幕高清免费大全6 | 国产精品亚洲一级av第二区| АⅤ资源中文在线天堂| 麻豆精品久久久久久蜜桃| 色5月婷婷丁香| 男女下面进入的视频免费午夜| 日本一二三区视频观看| 少妇的逼水好多| 黄片wwwwww| 久久国内精品自在自线图片| 亚洲av成人精品一区久久| 国产精品综合久久久久久久免费| av在线天堂中文字幕| 精品99又大又爽又粗少妇毛片 | 久久国内精品自在自线图片| 99久久精品一区二区三区| 2021天堂中文幕一二区在线观| 夜夜爽天天搞| 真实男女啪啪啪动态图| 婷婷精品国产亚洲av在线| 亚洲黑人精品在线| 黄色欧美视频在线观看| 国产三级在线视频| 久久6这里有精品| 国产高清三级在线| 午夜福利在线在线| 一个人观看的视频www高清免费观看| 国产又黄又爽又无遮挡在线| ponron亚洲| 亚洲欧美日韩卡通动漫| 观看免费一级毛片| 欧美+亚洲+日韩+国产| 免费大片18禁| 观看免费一级毛片| 国产精品久久久久久亚洲av鲁大| 最近中文字幕高清免费大全6 | 欧美日韩黄片免| 久久久精品欧美日韩精品| 国产精品久久电影中文字幕| 国产一级毛片七仙女欲春2| 嫩草影院精品99| 亚洲第一电影网av| 久久热精品热| 一个人免费在线观看电影| 久久国产精品人妻蜜桃| 波多野结衣高清无吗| 毛片一级片免费看久久久久 | 日韩人妻高清精品专区| 色播亚洲综合网| 99久久精品一区二区三区| avwww免费| 在线免费十八禁| 亚洲av五月六月丁香网| 日本精品一区二区三区蜜桃| 性欧美人与动物交配| av.在线天堂| 亚洲精品国产成人久久av| 久久精品国产99精品国产亚洲性色| av天堂中文字幕网| 丰满乱子伦码专区| 男人狂女人下面高潮的视频| 国产老妇女一区| 最近视频中文字幕2019在线8| 亚洲人成网站在线播| 我的老师免费观看完整版| а√天堂www在线а√下载| 国产色婷婷99| 美女免费视频网站| a在线观看视频网站| 亚洲成av人片在线播放无| 黄片wwwwww| 亚洲国产色片| 婷婷亚洲欧美| 国国产精品蜜臀av免费| 欧美高清性xxxxhd video| 在线观看av片永久免费下载| 成人午夜高清在线视频| 免费观看精品视频网站| 国产 一区精品| 一本一本综合久久| 少妇熟女aⅴ在线视频| 免费高清视频大片| 国产精品伦人一区二区| 一区二区三区激情视频| 噜噜噜噜噜久久久久久91| 真实男女啪啪啪动态图| 亚洲美女黄片视频| а√天堂www在线а√下载| 大又大粗又爽又黄少妇毛片口| 日韩中字成人| 在现免费观看毛片| 少妇高潮的动态图| 国产一区二区在线av高清观看| 亚洲男人的天堂狠狠| 日日啪夜夜撸| 免费观看的影片在线观看| 亚洲无线观看免费| 亚洲精品色激情综合| 91精品国产九色| 午夜福利在线观看免费完整高清在 | 日本 欧美在线| 在线免费观看不下载黄p国产 | 亚洲av第一区精品v没综合| 成人综合一区亚洲| 日韩精品有码人妻一区| 三级毛片av免费| 精品不卡国产一区二区三区| 99九九线精品视频在线观看视频| 国产aⅴ精品一区二区三区波| 自拍偷自拍亚洲精品老妇| 午夜福利视频1000在线观看| 老司机深夜福利视频在线观看| 久久精品综合一区二区三区| 久久精品国产亚洲av天美| av中文乱码字幕在线| www.www免费av| 人妻制服诱惑在线中文字幕| 有码 亚洲区| 人妻久久中文字幕网| 成人国产一区最新在线观看| 亚洲精华国产精华精| 亚洲成av人片在线播放无| 国内揄拍国产精品人妻在线| 日本撒尿小便嘘嘘汇集6| 国产熟女欧美一区二区| 一夜夜www| 日日夜夜操网爽| 热99在线观看视频| 日本撒尿小便嘘嘘汇集6| 国产一级毛片七仙女欲春2| 毛片一级片免费看久久久久 | 婷婷精品国产亚洲av在线| 好男人在线观看高清免费视频| 国语自产精品视频在线第100页| 国产精品自产拍在线观看55亚洲| 久久精品国产鲁丝片午夜精品 | 如何舔出高潮| 12—13女人毛片做爰片一| 成人无遮挡网站| 欧美日韩瑟瑟在线播放| 中文字幕熟女人妻在线| 国产色爽女视频免费观看| av国产免费在线观看| 18禁黄网站禁片午夜丰满| 精品一区二区三区视频在线观看免费| 亚洲aⅴ乱码一区二区在线播放| 欧美日本视频| АⅤ资源中文在线天堂| 99久久成人亚洲精品观看| 国产真实伦视频高清在线观看 | 12—13女人毛片做爰片一| 最近最新免费中文字幕在线| 日韩精品有码人妻一区| 在线观看美女被高潮喷水网站| 小蜜桃在线观看免费完整版高清| 亚洲一级一片aⅴ在线观看| 亚洲人成网站在线播| 国产精品无大码| 99热6这里只有精品| 999久久久精品免费观看国产| 中亚洲国语对白在线视频| 国产精品国产高清国产av| 欧美一区二区亚洲| 国产探花在线观看一区二区| 他把我摸到了高潮在线观看| 一卡2卡三卡四卡精品乱码亚洲| 自拍偷自拍亚洲精品老妇| 18禁黄网站禁片午夜丰满| 麻豆久久精品国产亚洲av| 欧美成人一区二区免费高清观看| 国产探花极品一区二区| 乱人视频在线观看| 中文字幕高清在线视频| 天堂动漫精品| 老师上课跳d突然被开到最大视频| 黄片wwwwww| 久久草成人影院| 色在线成人网| 桃色一区二区三区在线观看| 悠悠久久av| 免费观看的影片在线观看| 老熟妇乱子伦视频在线观看| 偷拍熟女少妇极品色| 麻豆一二三区av精品| 久久人人爽人人爽人人片va| 最近最新中文字幕大全电影3| 草草在线视频免费看| 免费看日本二区| 国产精品福利在线免费观看| 很黄的视频免费| 久久久午夜欧美精品| 欧美xxxx性猛交bbbb| 国产高清视频在线播放一区| 成年人黄色毛片网站| 国产高清不卡午夜福利| 免费搜索国产男女视频| 两性午夜刺激爽爽歪歪视频在线观看| 免费看美女性在线毛片视频| 午夜日韩欧美国产| 国国产精品蜜臀av免费| 大又大粗又爽又黄少妇毛片口| 99热只有精品国产| 国产在线精品亚洲第一网站| 丰满人妻一区二区三区视频av| 欧美国产日韩亚洲一区| 国产主播在线观看一区二区| 一卡2卡三卡四卡精品乱码亚洲| 婷婷色综合大香蕉| 女人被狂操c到高潮| 精品人妻视频免费看| 最新在线观看一区二区三区| 久久久午夜欧美精品| 很黄的视频免费| 日本五十路高清| 国产69精品久久久久777片| 日日啪夜夜撸| 99热这里只有是精品在线观看| 亚洲av中文av极速乱 | 国产高潮美女av| 可以在线观看的亚洲视频| 久久精品人妻少妇| 国产真实乱freesex| 久久热精品热| 亚洲人与动物交配视频| 欧美+亚洲+日韩+国产| 非洲黑人性xxxx精品又粗又长| 日韩精品青青久久久久久| 久久精品国产亚洲网站| 免费看a级黄色片| 日本黄色片子视频| 日本色播在线视频| 国产v大片淫在线免费观看| 亚洲欧美日韩无卡精品| 免费看日本二区| 五月伊人婷婷丁香| 午夜福利成人在线免费观看| 久久精品夜夜夜夜夜久久蜜豆| 国产精品久久久久久久久免| 精华霜和精华液先用哪个| 老司机福利观看| 草草在线视频免费看| 精品人妻一区二区三区麻豆 | 午夜福利在线在线| 日本撒尿小便嘘嘘汇集6| 精品久久久久久,| 老司机午夜福利在线观看视频| 婷婷色综合大香蕉| 蜜桃久久精品国产亚洲av| 久久亚洲精品不卡| 亚洲国产精品久久男人天堂| 久久久成人免费电影| 最近最新中文字幕大全电影3| 精品午夜福利在线看| 国产av麻豆久久久久久久| 国产一区二区激情短视频| 在线播放无遮挡| 国产一区二区激情短视频| 国产精品人妻久久久久久| 免费观看人在逋| 成人国产综合亚洲| 午夜福利在线观看吧| 欧美日韩瑟瑟在线播放| 国内毛片毛片毛片毛片毛片| 两性午夜刺激爽爽歪歪视频在线观看| 岛国在线免费视频观看| 看十八女毛片水多多多| 男人的好看免费观看在线视频| 亚洲成人免费电影在线观看| 99精品久久久久人妻精品| av中文乱码字幕在线| 如何舔出高潮| 久久久久久久久大av| 中文字幕久久专区| 欧美性猛交黑人性爽| 欧美日韩国产亚洲二区| 日韩av在线大香蕉| 国产熟女欧美一区二区| 国产淫片久久久久久久久| 亚洲av中文av极速乱 | 少妇人妻一区二区三区视频| 国产精品伦人一区二区| 色噜噜av男人的天堂激情| 黄色丝袜av网址大全| 亚洲av成人av| 亚洲精华国产精华液的使用体验 | 欧美日韩黄片免| 三级毛片av免费| 3wmmmm亚洲av在线观看| 日韩欧美国产在线观看| 亚洲内射少妇av| 欧美日韩国产亚洲二区| 国产精品久久久久久av不卡| 欧美三级亚洲精品| 非洲黑人性xxxx精品又粗又长| 午夜福利18| 日本三级黄在线观看| 五月玫瑰六月丁香| 亚洲精华国产精华液的使用体验 | 国产高潮美女av| 精品无人区乱码1区二区| 五月伊人婷婷丁香| 中文字幕人妻熟人妻熟丝袜美| 有码 亚洲区| 免费看光身美女| 性色avwww在线观看| 在线观看av片永久免费下载| 免费看日本二区| 香蕉av资源在线| 午夜视频国产福利| 成人午夜高清在线视频| 999久久久精品免费观看国产| 很黄的视频免费| 少妇丰满av| 成人综合一区亚洲| 狂野欧美激情性xxxx在线观看| 99久久九九国产精品国产免费| 给我免费播放毛片高清在线观看| 99国产极品粉嫩在线观看|