• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    文本聚類技術(shù)綜述

    2023-02-18 05:36:28都云程施水才
    軟件導(dǎo)刊 2023年1期
    關(guān)鍵詞:特征提取準(zhǔn)確率卷積

    范 縝,都云程,施水才

    (北京信息科技大學(xué) 計算機(jī)學(xué)院,北京 100101)

    0 引言

    目前,Twitter、雅虎、新浪微博、騰訊新聞、學(xué)習(xí)強(qiáng)國等互聯(lián)網(wǎng)應(yīng)用廣泛普及,文本數(shù)量激增,發(fā)掘文本中有價值的信息對研究用戶喜好具有重要意義。處理文本常用的技術(shù)包括自動化文本分類和聚類。其中,文本分類屬于有監(jiān)督學(xué)習(xí)方法,需要對文本進(jìn)行標(biāo)記,同時要對語料庫模型進(jìn)行訓(xùn)練;文本聚類(Text Clustering,TC)則屬于無監(jiān)督學(xué)習(xí)方法,無需標(biāo)記文本,只需將距離相近的文本聚類到同一個簇中[1],因此被廣泛應(yīng)用于新聞信息聚合、垃圾郵件過濾、客戶問題分析、假新聞識別等領(lǐng)域。

    為了進(jìn)一步分析文本聚類技術(shù),本文將分別對文本聚類的流程、聚類評價標(biāo)準(zhǔn)、文本聚類數(shù)據(jù)集、文本聚類算法等方面進(jìn)行詳細(xì)介紹。

    1 文本聚類流程

    圖1 為文本聚類流程,具體包括待聚類文本、數(shù)據(jù)預(yù)處理、文本表示、選擇合適的文本聚類算法4 個步驟。其中,數(shù)據(jù)預(yù)處理步驟中通常使用分詞及去停用詞操作;文本表示步驟中包含特征提取、權(quán)值計算等操作。

    Fig.1 Text clustering flow圖1 文本聚類流程

    1.1 數(shù)據(jù)預(yù)處理

    數(shù)據(jù)預(yù)處理步驟中通常使用分詞及去停用詞操作。由于文本是一種非結(jié)構(gòu)化數(shù)據(jù),需要先將其轉(zhuǎn)化為數(shù)字量化的結(jié)構(gòu)化數(shù)據(jù)。

    在分詞過程中,中、英文文本存在明顯差異,英文文本可使用空格切分各單詞,但中文文本只能依靠分詞器[2]?,F(xiàn)階段常用的分詞器包括jieba、httpcws、盤古分詞、IKAnalyzer、Ansj、Paoding、清 華 大 學(xué) 的SEGTAG、中 科 院NLPIR 等[3]。

    分詞后會進(jìn)行去停用詞操作,該操作也是數(shù)據(jù)預(yù)處理的重要環(huán)節(jié),可提升待聚類文本特征的質(zhì)量,降低文本維度,提升文本聚類準(zhǔn)確率。目前較為常見的停用詞通常為冠詞、介詞、代詞、連詞等,在中文文本中表現(xiàn)為“這”“你”“我”“的”“就”“什么”等,在英文文本中表現(xiàn)為“the”“a”“an”“so”“what”等。

    1.2 特征提取

    特征提取目的是對數(shù)據(jù)集進(jìn)行降維,即從數(shù)據(jù)集中提取出代表性子集。常用的特征提取算法包括TF-IDF、Word2Vec、Doc2Vec[4]等。其中,TF-IDF[5]為一種加權(quán)計算,表示某個詞在文本中的重要性,TF 表示詞在文本中出現(xiàn)的頻率,TF 值越大,表示該詞越代表性越強(qiáng)。例如,在以“手機(jī)”為主題的文本中,“手機(jī)”為高頻詞,具有很強(qiáng)的代表性,但“的”“你”“我”等常用詞出現(xiàn)的頻率也較高。因此,僅通過TF 值無法準(zhǔn)確衡量某個詞在文本中的重要程度。為此,本文引入IDF 對詞進(jìn)行衡量,當(dāng)某個詞在當(dāng)前文本使用次數(shù)多,而在其它文本中使用較少時,IDF 的值偏大,說明該詞對當(dāng)前文本更為重要,具體數(shù)學(xué)表達(dá)式為:

    其中,Wi代表第i個特征詞的重要性,Wi較大說明該特征詞為當(dāng)前文本的高頻詞,對當(dāng)前文本較為重要,但并非通用詞。此外,在使用TF-IDF 算法進(jìn)行文本特征提取時,可設(shè)置閾值W獲取所需特征詞。

    然而,在實際特征提取過程中,TF-IDF 未考慮詞語語義與語境等因素造成的影響,具有一定的局限性。為了解決該問題,Church 等[6]提出利用Word2Vec、Doc2Vec 算法基于語義與語境關(guān)系來提取文本特征。

    2 文本聚類評價指標(biāo)

    文本聚類評價指標(biāo)包括純度(Purity)、蘭德指數(shù)(Rand Index,RI)、調(diào)整蘭德指數(shù)(Adjusted Rand Index,ARI)、準(zhǔn)確率(Precision)、召回率(Recall)、F 值(F-Score)、聚類精確度(Accuracy,AC)[7]等。

    其中,準(zhǔn)確率、召回率和F 值常用于評價文本分類結(jié)果,也適用于對文本聚類結(jié)果進(jìn)行評價,具體計算公式如式(2)-式(4)。

    準(zhǔn)確率P計算公式如下:

    其中,Sa表示待聚類文本集合中包含文本a的集合,Sb表示聚類結(jié)果中包含文本a的集合,準(zhǔn)確率P表示聚類結(jié)果正確的百分比。

    召回率R取值范圍在[0,1]區(qū)間,當(dāng)R趨近1 則說明同類數(shù)據(jù)聚到同一個簇中。計算公式如下:

    F值是綜合P、R的評估指標(biāo),當(dāng)準(zhǔn)確率P與召回率R矛盾時,可利用F值對結(jié)果進(jìn)行評價,計算公式如下:

    純度是一種易于理解的評價指標(biāo),具體計算公式如下:

    其中,N為樣本總數(shù),π={w1,w2,w3…,wk},wi表示第i個聚類簇,C={c1,c2,c3…,ck}表示文本集合,Purity的值位于[-1,1]區(qū)間,當(dāng)該值越趨近1,代表聚類越準(zhǔn)確。

    調(diào)整蘭德指數(shù)ARI 取值范圍在[-1,1]區(qū)間,當(dāng)ARI 的值趨近1,則說明同類數(shù)據(jù)聚到同一個簇中,具體計算公式如下:

    其中,E[RI]為RI的期望。

    蘭德指數(shù)RI將聚類定義為一系列的決策,具體計算公式如下:

    其中,TP為將兩個相似文本歸入同一簇的正確決策,TN為將兩個不相似的文本歸入不同簇的正確決策,N表示文本數(shù)。

    3 文本聚類數(shù)據(jù)集

    數(shù)據(jù)集是驅(qū)動文本聚類快速發(fā)展的重要因素,但目前尚未形成統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)集,通常使用文本分類數(shù)據(jù)集進(jìn)行測評。常見的文本聚類數(shù)據(jù)集如表1 所示。其中,最具代表性且被廣泛使用的數(shù)據(jù)集為20 Newsgroup、Sougou、THUCNews[8]等。

    Table 1 Common text clustering data sets表1 常見文本聚類數(shù)據(jù)集

    20Newsgroup 數(shù)據(jù)集由18 828 篇文章組成,包括20 種話題,包含訓(xùn)練集與測試集,被廣泛應(yīng)用于文本分類與文本聚類;Sougou 數(shù)據(jù)集來源于Sougou Labs,包括搜狐新聞數(shù)據(jù)和全網(wǎng)新聞數(shù)據(jù)(SogouCA),涵蓋2012 年6-7 月國內(nèi)國際的體育、社會、娛樂等18 個頻道的新聞數(shù)據(jù),其中新聞文章數(shù)量共計1 245 835 個,能夠基本滿足中文文本聚類測評;THUCNews 是清華大學(xué)開源的文本數(shù)據(jù)集,由微博RSS 頻道2005-2011 年歷史數(shù)據(jù)篩選而成,包含金融、地產(chǎn)、科學(xué)、家裝、社會新聞等14 個類別共74 萬篇新聞文本,相較于20Newsgroup 數(shù)據(jù)集和Sougou 數(shù)據(jù)集,THUCNews不僅能夠?qū)崿F(xiàn)文本聚類測評,還能提供demo 程序、運(yùn)行參數(shù)、程序接口等,受到了研究人員的廣泛使用。

    4 傳統(tǒng)文本聚類算法

    傳統(tǒng)文本聚類算法包括層次聚類算法、劃分聚類算法、密度聚類算法、網(wǎng)格聚類算法、模型聚類算法、圖聚類算法、模糊聚類算法[9-10]等。

    4.1 層次聚類算法

    層次聚類分為凝聚型層次聚類與分裂型層次聚類,此類算法的目的是將數(shù)據(jù)聚類成一顆以簇為節(jié)點的樹,分別從下向上,自上而下實現(xiàn)層次聚類[11]。常見的層次聚類算法包括BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)算法、CURE(Clustering Using Representative)算法等。其中,BIRCH 算法基于聚類特征樹(Clustering Feature Tree,CF-Tree)進(jìn)行聚類,聚類過程中首先將樣本依次讀入建立樹結(jié)構(gòu),然后去除異常點(例如稀疏數(shù)據(jù))得到較優(yōu)的樹,最后根據(jù)質(zhì)心進(jìn)行聚類;CURE 算法屬于凝聚型聚類,可對大規(guī)模、多種形狀的文本數(shù)據(jù)進(jìn)行聚類,并能夠檢測離群點。

    4.2 劃分聚類算法

    劃分聚類的常用文本聚類算法包括K-Means、K-Medoids等,此類算法的思想是經(jīng)過數(shù)次迭代重定位將待聚類數(shù)據(jù)劃分為指定數(shù)目的簇。

    K-Means 算法簡單易懂、聚類速度快、操作便捷,但也存在以下不足:①需要用戶自行指定簇的數(shù)目;②無法處理非球形等不規(guī)則數(shù)據(jù);③對離群點(噪聲)敏感;④結(jié)果不穩(wěn)定,不同輸入順序或初始質(zhì)心的選取都會造成聚類結(jié)果不穩(wěn)定。

    為了解決以上問題,Krishnapuram 等[12]提出K-Medoids 算法,相較于傳統(tǒng)K-Means 算法對噪聲的魯棒性更強(qiáng),但運(yùn)行速度較慢,時間復(fù)雜度高,因此只適用于數(shù)據(jù)量較小的文本聚類任務(wù)。

    4.3 密度聚類算法

    密度聚類算法包括DBSCAN 算法、OPTICS 算法、DENCLUE 算法[13]等,此類算法認(rèn)為能夠通過待聚類數(shù)據(jù)整體分布的緊密程度來確定聚類結(jié)構(gòu)。

    DBSCAN 算法聚類速度快,可用于大規(guī)模數(shù)據(jù)聚類,無需手動設(shè)定簇的個數(shù),但該算法對參數(shù)距離閾值和鄰域樣本數(shù)閾值較為敏感,當(dāng)數(shù)據(jù)規(guī)模過大時,內(nèi)存占用大,處理時間較長;OPTICS 算法通過對數(shù)據(jù)集合中的對象進(jìn)行排序以得到有序的列表提取信息,生成數(shù)據(jù)聚類;DENCLUE 算法的思想是利用數(shù)學(xué)函數(shù)形式模擬每個數(shù)據(jù)對象,該算法在面對噪聲數(shù)據(jù)時仍具有良好的聚類效果,但對參數(shù)非常敏感。

    4.4 網(wǎng)格聚類算法

    網(wǎng)格聚類算法包括STING 算法、CLIQUE 算法、Wave-Cluster 算法[14]等,此類算法的思想是將數(shù)據(jù)空間劃分為網(wǎng)格單元,將對象映射到各單元中,并根據(jù)單元中對象的密度劃分不同的簇。

    STING 算法將數(shù)據(jù)對象空間劃分為矩形單元,形成一個層次結(jié)構(gòu),使用自頂向下方法刪除每層中不相關(guān)的網(wǎng)格單元,以此實現(xiàn)數(shù)據(jù)聚類,具有運(yùn)算效率高,時間復(fù)雜度低的優(yōu)點,但聚類效果常受網(wǎng)格最底層數(shù)據(jù)粒度的影響,并且容易忽略網(wǎng)絡(luò)單元間的聯(lián)系;CLIQUE 算法適用于高維數(shù)據(jù)聚類,通過設(shè)置網(wǎng)格步長和密度閾值劃分空間和密集網(wǎng)格;WaveCluster 算法以處理多維信號的方式聚類數(shù)據(jù)對象,首先將數(shù)據(jù)空間劃分為網(wǎng)格結(jié)構(gòu),然后通過小波變換數(shù)據(jù)空間,最后在變換空間中對密集區(qū)進(jìn)行簇劃分。

    4.5 模型聚類算法

    模型聚類算法包括高斯混合模型(Gaussian Mixture Model,GMM)、自組織映射算法(Self Organized Maps,SOM)[15]等,此類算法的思想是為每個簇構(gòu)建一個模型,通過數(shù)據(jù)對象的分布情況計算模型參數(shù),使用合適的模型完成聚類。

    GMM 根據(jù)樣本數(shù)據(jù)概率密度函數(shù)將其劃分為獨立的簇,各個簇均根據(jù)特征混合高斯概率密度分布,基于相應(yīng)的模型實現(xiàn)數(shù)據(jù)聚類。該算法以樣本分屬于不同類別的概率來展示聚類結(jié)果,但不同初始值會導(dǎo)致聚類簇數(shù)目不一致。

    SOM 算法屬于一種無監(jiān)督的神經(jīng)網(wǎng)絡(luò)算法,通過自動尋找文本的內(nèi)在規(guī)律與屬性,自適應(yīng)地調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)參數(shù),可獲得較高質(zhì)量的聚類結(jié)果,但計算復(fù)雜度較高。

    4.6 圖聚類算法

    圖聚類算法包括AP(Affinity Propagation)算法、譜聚類(Spectral Clustering,SC)算法[16]等,此類算法的思想是將聚類問題通過鄰近度矩陣轉(zhuǎn)換為圖,以此劃分問題并實現(xiàn)聚類。

    AP 算法將數(shù)據(jù)對象看作為各節(jié)點來構(gòu)建樣本網(wǎng)絡(luò),通過網(wǎng)絡(luò)中的各個邊傳遞節(jié)點間的“消息”,即吸引度(Responsibility)和歸屬度(Availability),以此計算聚類中心完成聚類任務(wù);譜聚類算法將數(shù)據(jù)看作空間中的點,點與點之間用邊相連接,距離遠(yuǎn)的點權(quán)重低,距離近的點權(quán)重高,通過切分?jǐn)?shù)據(jù)點組成的圖完成聚類任務(wù)。

    4.7 模糊聚類算法

    模糊聚類算法包括FCM(Fuzzy C-means)算法[17]等,此類算法的核心是利用“模糊集合理論”克服分類中的缺點,以模糊集合論為數(shù)學(xué)基礎(chǔ)實現(xiàn)聚類分析。

    FCM 通過數(shù)據(jù)點的隸屬度來確定歸屬聚類簇,通過建立模糊矩陣及目標(biāo)函數(shù)迭代,構(gòu)建隸屬矩陣來確定數(shù)據(jù)所屬的類。該算法理論簡單、應(yīng)用廣泛,但對噪聲敏感,容易陷入局部最優(yōu)。

    綜上所述,傳統(tǒng)的文本聚類算法各有優(yōu)缺點,表2 為常見算法間的性能比較。

    Table 2 Comparison of common text clustering algorithms表2 常見文本聚類算法比較

    4.8 融合聚類算法

    為了優(yōu)化聚類效果,不少學(xué)者提出融合聚類算法。例如,F(xiàn)redana 等[18]提出將K-Means 融合投票機(jī)制,以解決K-Means 無法確定簇個數(shù)的問題,有效提升聚類準(zhǔn)確率。Hu 等[19]提出一種融合維基百科增強(qiáng)文本語義的文本聚類算法,在Reuters 數(shù)據(jù)集中的測評表明,該算法的聚類性能相較于傳統(tǒng)方法平均提升16.2%,但聚合型層次聚類算法在文本聚類時的合并操作是不可逆的。呂琳等[20]提出融合蟻群優(yōu)化算法,使聚合型層次聚類算法能夠更好地選擇合并點,在UCI 的3 個不同的數(shù)據(jù)集中的測評表明,該算法的聚類準(zhǔn)確率相較于傳統(tǒng)K-means 算法均存在不同程度的提升。Ai 等[21]利用粗粒度聚類融合Spark,建立兩層余弦相似性聚類模型,相較于HTD-LDA 模型在準(zhǔn)確率方面提升19.5%。李玥等[22]提出融合改進(jìn)量子粒子群優(yōu)化算法和K-Means 算法,相較于傳統(tǒng)K-Means 算法在準(zhǔn)確率、召回率及F 值方面均具有較大的提升。潘成勝等[23]為解決K-Means 局部最優(yōu)解問題,融合改進(jìn)的灰狼優(yōu)化算法提高聚類的收斂速度、尋找能力和文本聚類準(zhǔn)確率。Bezdam等[24]提出一種融合果蠅優(yōu)化的K-means 算法,解決了初始質(zhì)心隨機(jī)化的問題,在20Newsgroups 等數(shù)據(jù)集中的測試結(jié)果表示,該算法純度、準(zhǔn)確率等指標(biāo)相較于傳統(tǒng)K-means算法均存在不同程度的提升。表3 為部分融合聚類算法與傳統(tǒng)聚類算法的效果比較。

    5 基于深度學(xué)習(xí)的文本聚類

    5.1 聚類流程

    基于深度學(xué)習(xí)的文本聚類主要包括分詞、去除停用詞、利用模型得到原始詞向量、利用神經(jīng)網(wǎng)絡(luò)等模型提取特征、文本聚類等步驟,如圖2所示。

    5.2 研究現(xiàn)狀

    現(xiàn)階段,深度學(xué)習(xí)已廣泛適用于圖像處理、語音處理、自然語言處理、計算機(jī)視覺等領(lǐng)域。常見的深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、長短期記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)、雙向長短時記憶網(wǎng)絡(luò)(BiLSTM)、Transformer 等。

    5.2.1 卷積神經(jīng)網(wǎng)絡(luò)

    卷積神經(jīng)網(wǎng)絡(luò)是一種具有卷積操作的前饋神經(jīng)網(wǎng)絡(luò),由卷積層、池化層和全連接層構(gòu)成。其中,卷積層負(fù)責(zé)特征提取,利用權(quán)重矩陣與卷積核矩陣相乘得到各區(qū)域的特征,通常設(shè)置多組卷積核以獲得不同角度的特征;池化層也稱為下采樣層,主要對數(shù)據(jù)進(jìn)行降維;全連接層則輸出最后結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)特征提取示意圖如圖3所示。

    劉鼎立[25]提出一種基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的文本聚類方法。首先,通過Word2Vec 模型訓(xùn)練得到原始特征詞向量,將該向量作為CNN 的輸入;然后,將卷積核寬度設(shè)置為詞向量的維數(shù)值以確保掃描范圍的完整性,并在卷積層中增加多個空洞率不同的卷積核,對文本特征進(jìn)行精確提??;接下來,采用最大池化思想將卷積層中的最大向量作為關(guān)鍵特征;最后,通過全連接層輸出提取的文本特征。通過在Stack Overflow 英文新聞數(shù)據(jù)集中的測試結(jié)果表明,該方法相較于TF-IDF 提取特征的K-Means 算法,在準(zhǔn)確率方面提升22.9%;相較于TF-IDF 算法僅將詞頻作為唯一的衡量標(biāo)準(zhǔn),Word2Vec 模型能夠從語義角度提取準(zhǔn)確代表原始文本的特征向量。

    Table 3 Comparison between fusion clustering algorithm and traditional clustering algorithm表3 融合聚類算法與傳統(tǒng)聚類算法的效果比較

    Fig.2 Flow of text clustering based on deep learning圖2 基于深度學(xué)習(xí)文本聚類流程

    Fig.3 Convolutional neural network feature extraction圖3 卷積神經(jīng)網(wǎng)絡(luò)特征提取

    孫昭穎等[26]提出一種用于短文本聚類的改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)框架。首先,利用Word2Vec 模型學(xué)習(xí)詞與詞之間的語義關(guān)聯(lián),通過多維向量表示單個詞,將短文本轉(zhuǎn)化為多維向量,以此改進(jìn)CNN 的輸入;然后,構(gòu)建高度可滑動的卷積核以提高每個詞向量的準(zhǔn)確性;最后,將其合理組合成一個完整的特征向量作為短文本的全部特征。該框架改善了短文本因數(shù)據(jù)稀疏性及高維度特性導(dǎo)致文本聚類準(zhǔn)確率低、計算復(fù)雜度高等問題。通過由搜狐新聞標(biāo)題組成的數(shù)據(jù)集上的測試結(jié)果表明,該框架的F 值高于70%,而傳統(tǒng)K-Means 算法F值僅為50%左右。

    賈君霞等[27]提出一種基于Doc2Vec 和卷積神經(jīng)網(wǎng)絡(luò)的特征提取方法。首先,通過Doc2Vec 的DM 模型訓(xùn)練得到句向量,并將該向量作為CNN 的輸入;然后,計算卷積核寬度以獲取完整的句向量特征;接下來,采用最大池化思想將卷積層中最大向量作為關(guān)鍵特征;最后,通過全連接層輸出提取出的文本特征。通過搜狗新聞數(shù)據(jù)集上的測試結(jié)果表明,Doc2Vec+CNN 模型的準(zhǔn)確率為77.6%,而Doc2Vec模型的準(zhǔn)確率僅為69.4%。

    5.2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

    循環(huán)神經(jīng)網(wǎng)絡(luò)是一種用于處理序列數(shù)據(jù)的人工神經(jīng)網(wǎng)絡(luò),作為特征提取工具,RNN 通過模擬神經(jīng)元的生理模式提取特征,實現(xiàn)模型層與層的相互連接。

    由于在長語句應(yīng)用中RNN 會“遺忘”初始內(nèi)容信息,因此利用長短期記憶確保信息的完整性。具體的,LSTM在RNN 的基礎(chǔ)上增加了一個“門”裝置,通過控制“記憶門”與“遺忘門”實現(xiàn)上下文信息的有效存儲與更新;BiLSTM 則將前向的LSTM 與后向的LSTM 相互結(jié)合,在對詞向量進(jìn)行特征提取時效果更好,能夠獲得更多的上下文語義關(guān)系特征。

    萬昊雯[28]提出一種短文本聚類模型ST-CNN。首先,利用BiLSTM 挖掘短文本前后文信息,獲得深層語義關(guān)系依賴和向量化的文本特征;然后,結(jié)合改進(jìn)CNN 模型提取更具代表性的文本低維特征。通過在微博和頭條的數(shù)據(jù)集上的測試結(jié)果表明,該模型相較于K-Means 聚類,在ARI與NMI指數(shù)方面均存在不同程度的提升。

    表4 為部分基于深度學(xué)習(xí)文本聚類與傳統(tǒng)文本聚類算法的效果比較。綜上所述,基于深度學(xué)習(xí)的文本聚類方法可充分利用文本的前后文信息對詞向量進(jìn)行語義擴(kuò)展,并通過神經(jīng)網(wǎng)絡(luò)提取低維且客觀的文本特征,以提高聚類效果。

    Table 4 Comparison between text clustering based on partial depth learning and traditional text clustering表4 部分基于深度學(xué)習(xí)的文本聚類與傳統(tǒng)文本聚類效果比較

    6 結(jié)語

    本文對文本聚類的研究背景、聚類流程、評價指標(biāo)、常用數(shù)據(jù)集和文本聚類算法進(jìn)行闡述與歸納,將文本聚類技術(shù)的發(fā)展分為以下3 個階段:①以傳統(tǒng)聚類算法K-Means為代表的文本聚類技術(shù);②采用融合聚類算法的文本聚類技術(shù);③基于深度學(xué)習(xí)的文本聚類技術(shù)。

    在經(jīng)過這3 個階段的發(fā)展后,文本聚類技術(shù)在理論研究方面取得了顯著成效,在應(yīng)用實踐中獲得良好效果。但文本聚類技術(shù)的研究仍存在以下不足之處,有待進(jìn)一步提高和完善:尚未形成標(biāo)準(zhǔn)化數(shù)據(jù)集和評價指標(biāo),不同研究項目所采用的數(shù)據(jù)集各不相同,難以橫向比較不同的研究成果;現(xiàn)有文本聚類算法的準(zhǔn)確率仍未超過90%,無法適用于對聚類效果要求較高的應(yīng)用場景。

    目前,基于深度學(xué)習(xí)的方法在挖掘語義關(guān)系、提取文本特征、降低文本維度等方面具有明顯優(yōu)勢,但如何在此基礎(chǔ)上深入挖掘深度學(xué)習(xí)在文本聚類相關(guān)技術(shù)領(lǐng)域的潛力,將是后期首要的研究方向。

    猜你喜歡
    特征提取準(zhǔn)確率卷積
    基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
    乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
    健康之家(2021年19期)2021-05-23 11:17:39
    不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
    2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于Daubechies(dbN)的飛行器音頻特征提取
    電子制作(2018年19期)2018-11-14 02:37:08
    高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    Bagging RCSP腦電特征提取算法
    基于MED和循環(huán)域解調(diào)的多故障特征提取
    a级片在线免费高清观看视频| 久久亚洲国产成人精品v| 自线自在国产av| 中文字幕亚洲精品专区| 中文字幕亚洲精品专区| 亚洲图色成人| 内地一区二区视频在线| 国产无遮挡羞羞视频在线观看| 亚洲精品成人av观看孕妇| 婷婷色综合www| 毛片一级片免费看久久久久| 国模一区二区三区四区视频| 亚洲欧美清纯卡通| 最近的中文字幕免费完整| 久久99热6这里只有精品| 熟妇人妻不卡中文字幕| 伊人久久国产一区二区| 成人综合一区亚洲| 亚洲久久久国产精品| 亚洲人成77777在线视频| 伊人亚洲综合成人网| 亚洲精品国产av成人精品| 综合色丁香网| av在线播放精品| 热re99久久国产66热| 国产国拍精品亚洲av在线观看| 婷婷色综合大香蕉| 亚洲精品乱码久久久久久按摩| 一级,二级,三级黄色视频| 在线观看三级黄色| 国产精品一区www在线观看| 老女人水多毛片| 国产免费现黄频在线看| 97超视频在线观看视频| 国产片特级美女逼逼视频| 国产精品麻豆人妻色哟哟久久| 老司机影院毛片| 日韩精品有码人妻一区| videossex国产| 成年av动漫网址| 久久久久国产网址| 日韩制服骚丝袜av| av电影中文网址| 新久久久久国产一级毛片| 亚洲经典国产精华液单| 97超视频在线观看视频| 在现免费观看毛片| 一个人免费看片子| 亚洲精品aⅴ在线观看| 精品午夜福利在线看| 亚洲精品国产av成人精品| 老女人水多毛片| 国产熟女欧美一区二区| 久久久国产一区二区| 热99国产精品久久久久久7| 国产色爽女视频免费观看| 日本免费在线观看一区| 精品久久久久久久久av| 国产精品一二三区在线看| 日韩在线高清观看一区二区三区| 一级,二级,三级黄色视频| a级毛片免费高清观看在线播放| 老司机影院成人| 一个人免费看片子| 男女边摸边吃奶| 男女边吃奶边做爰视频| 亚洲人与动物交配视频| 国产毛片在线视频| av播播在线观看一区| 一级二级三级毛片免费看| 热re99久久精品国产66热6| 尾随美女入室| 最黄视频免费看| 一二三四中文在线观看免费高清| 丁香六月天网| 久久热精品热| 观看美女的网站| 欧美亚洲日本最大视频资源| 大陆偷拍与自拍| 日本vs欧美在线观看视频| 99九九在线精品视频| 高清在线视频一区二区三区| 天天操日日干夜夜撸| 国产男女内射视频| 超碰97精品在线观看| 精品人妻熟女毛片av久久网站| 日本色播在线视频| 一级毛片我不卡| 又黄又爽又刺激的免费视频.| 久久人妻熟女aⅴ| 亚洲综合色网址| 亚洲国产色片| 成人午夜精彩视频在线观看| 午夜av观看不卡| 精品少妇久久久久久888优播| 欧美 日韩 精品 国产| 人人妻人人澡人人爽人人夜夜| 九九久久精品国产亚洲av麻豆| 一二三四中文在线观看免费高清| 天天影视国产精品| 日韩人妻高清精品专区| 精品少妇久久久久久888优播| 成年av动漫网址| 久久久久久久久久人人人人人人| 又粗又硬又长又爽又黄的视频| 亚洲国产精品成人久久小说| 欧美激情国产日韩精品一区| 成人国语在线视频| 秋霞在线观看毛片| 女性生殖器流出的白浆| 成人国产av品久久久| 国产视频内射| 另类亚洲欧美激情| 国产 一区精品| 日韩强制内射视频| 99久久人妻综合| 中文字幕人妻丝袜制服| 中国国产av一级| 另类精品久久| 国产精品一区二区在线观看99| 女人精品久久久久毛片| 在现免费观看毛片| 精品人妻熟女毛片av久久网站| 亚洲av成人精品一二三区| 最后的刺客免费高清国语| 欧美一级a爱片免费观看看| 欧美精品人与动牲交sv欧美| 久久99热这里只频精品6学生| 亚洲不卡免费看| 中文字幕人妻丝袜制服| 久久综合国产亚洲精品| 亚洲国产毛片av蜜桃av| 亚洲av国产av综合av卡| 王馨瑶露胸无遮挡在线观看| 午夜免费观看性视频| 久久久午夜欧美精品| 最近中文字幕高清免费大全6| 丝瓜视频免费看黄片| 亚洲第一区二区三区不卡| 精品久久国产蜜桃| 蜜桃国产av成人99| 国产有黄有色有爽视频| 18禁在线播放成人免费| 老女人水多毛片| 日韩av不卡免费在线播放| 国产综合精华液| 黑人巨大精品欧美一区二区蜜桃 | 美女国产视频在线观看| 亚洲欧美日韩另类电影网站| 老司机影院毛片| 日韩av免费高清视频| a 毛片基地| 伦精品一区二区三区| 国产 精品1| 国产免费又黄又爽又色| 一区在线观看完整版| videossex国产| 成年女人在线观看亚洲视频| 久久久久精品久久久久真实原创| 欧美xxxx性猛交bbbb| 尾随美女入室| 国产精品国产三级国产av玫瑰| 大片免费播放器 马上看| 中文字幕久久专区| 亚洲av中文av极速乱| 免费观看性生交大片5| 新久久久久国产一级毛片| 精品人妻偷拍中文字幕| 毛片一级片免费看久久久久| 国产成人午夜福利电影在线观看| 亚洲av.av天堂| 免费日韩欧美在线观看| 99re6热这里在线精品视频| 女人精品久久久久毛片| 91精品国产九色| 国产av码专区亚洲av| 国产精品免费大片| 精品亚洲乱码少妇综合久久| av在线观看视频网站免费| 亚洲婷婷狠狠爱综合网| 麻豆成人av视频| 亚洲av成人精品一二三区| a级毛片黄视频| 亚洲,欧美,日韩| 亚洲综合色惰| 999精品在线视频| 免费观看在线日韩| 国产高清有码在线观看视频| 久久狼人影院| 日韩精品有码人妻一区| a 毛片基地| 国产在线免费精品| 国产男人的电影天堂91| 精品99又大又爽又粗少妇毛片| 亚洲国产精品一区二区三区在线| av卡一久久| 久久精品熟女亚洲av麻豆精品| 日本av免费视频播放| 久久国内精品自在自线图片| 久久鲁丝午夜福利片| 成人国产av品久久久| 欧美精品一区二区免费开放| 色婷婷久久久亚洲欧美| 伦理电影大哥的女人| 国产国拍精品亚洲av在线观看| 国产精品久久久久久久久免| 亚洲中文av在线| 亚洲国产欧美在线一区| 国产精品一二三区在线看| 九九在线视频观看精品| 青春草亚洲视频在线观看| av黄色大香蕉| 男女啪啪激烈高潮av片| 亚洲欧美清纯卡通| 看十八女毛片水多多多| 欧美精品国产亚洲| 国产精品久久久久久精品古装| 国产在线免费精品| 亚洲国产精品一区三区| 涩涩av久久男人的天堂| 国产极品天堂在线| 一区二区三区乱码不卡18| 天天影视国产精品| www.色视频.com| 午夜激情福利司机影院| 天堂中文最新版在线下载| 观看美女的网站| 夜夜爽夜夜爽视频| 国产成人91sexporn| 人妻系列 视频| 大陆偷拍与自拍| 18禁在线播放成人免费| 99久久精品一区二区三区| 又大又黄又爽视频免费| 热re99久久精品国产66热6| 熟女电影av网| 99久久综合免费| 18+在线观看网站| 最新中文字幕久久久久| 欧美3d第一页| 亚洲精品视频女| 能在线免费看毛片的网站| 成年女人在线观看亚洲视频| 免费大片黄手机在线观看| 日本黄色片子视频| 日韩视频在线欧美| 免费av不卡在线播放| 亚洲色图 男人天堂 中文字幕 | 免费观看av网站的网址| 色婷婷av一区二区三区视频| videossex国产| av在线老鸭窝| 肉色欧美久久久久久久蜜桃| 大码成人一级视频| 大片电影免费在线观看免费| 国产精品秋霞免费鲁丝片| 天美传媒精品一区二区| 高清在线视频一区二区三区| 91久久精品电影网| 美女xxoo啪啪120秒动态图| 婷婷成人精品国产| 欧美最新免费一区二区三区| 日韩三级伦理在线观看| 99热6这里只有精品| 91精品三级在线观看| 国产国语露脸激情在线看| 午夜91福利影院| 亚洲不卡免费看| 性高湖久久久久久久久免费观看| 亚洲精品,欧美精品| 美女xxoo啪啪120秒动态图| 99热6这里只有精品| 在线精品无人区一区二区三| 日韩一本色道免费dvd| 亚洲情色 制服丝袜| 另类精品久久| videosex国产| 最近最新中文字幕免费大全7| 一二三四中文在线观看免费高清| 亚洲精品一区蜜桃| 夫妻性生交免费视频一级片| 久久久久久久久大av| 国产亚洲精品久久久com| 大又大粗又爽又黄少妇毛片口| 精品国产乱码久久久久久小说| 99热全是精品| 美女大奶头黄色视频| 美女cb高潮喷水在线观看| 成年人免费黄色播放视频| 久久影院123| 大又大粗又爽又黄少妇毛片口| 亚洲av男天堂| 免费黄网站久久成人精品| 亚洲美女黄色视频免费看| 狂野欧美白嫩少妇大欣赏| 日本黄大片高清| 国产免费一区二区三区四区乱码| 女人久久www免费人成看片| 亚洲情色 制服丝袜| 人妻 亚洲 视频| 一级毛片黄色毛片免费观看视频| 九九爱精品视频在线观看| 久热这里只有精品99| 国产成人精品在线电影| 啦啦啦在线观看免费高清www| 99热全是精品| 国产高清不卡午夜福利| 美女内射精品一级片tv| 国产在线免费精品| 在线观看美女被高潮喷水网站| 熟妇人妻不卡中文字幕| 日韩成人伦理影院| 亚洲成人一二三区av| 亚洲少妇的诱惑av| 亚洲国产日韩一区二区| 国产欧美日韩综合在线一区二区| 最近手机中文字幕大全| kizo精华| 国产极品粉嫩免费观看在线 | 美女福利国产在线| 欧美精品高潮呻吟av久久| 日本-黄色视频高清免费观看| 日本猛色少妇xxxxx猛交久久| 国产精品久久久久久精品电影小说| 99久久精品一区二区三区| 熟女电影av网| 日本vs欧美在线观看视频| 人人妻人人添人人爽欧美一区卜| 少妇 在线观看| 在线观看一区二区三区激情| 亚洲国产精品一区二区三区在线| 高清av免费在线| 美女国产高潮福利片在线看| 免费少妇av软件| 久久99精品国语久久久| 免费观看无遮挡的男女| 国产精品久久久久久久久免| 黄色配什么色好看| av又黄又爽大尺度在线免费看| 韩国av在线不卡| 日本黄色日本黄色录像| www.色视频.com| 国产成人aa在线观看| 看免费成人av毛片| 亚洲av福利一区| 国产精品嫩草影院av在线观看| 人妻一区二区av| 亚洲精品乱久久久久久| 国产精品蜜桃在线观看| 久久久久精品久久久久真实原创| 国产欧美日韩一区二区三区在线 | 免费黄网站久久成人精品| 欧美日韩精品成人综合77777| 亚洲国产欧美日韩在线播放| 婷婷色综合大香蕉| 亚洲美女搞黄在线观看| 日本wwww免费看| 亚洲图色成人| 成人国语在线视频| 精品一区二区三卡| 男女边吃奶边做爰视频| 80岁老熟妇乱子伦牲交| 欧美另类一区| 国产伦理片在线播放av一区| 黑人欧美特级aaaaaa片| 久久久久国产网址| 精品卡一卡二卡四卡免费| 女性生殖器流出的白浆| 丰满少妇做爰视频| 天堂中文最新版在线下载| 久久国内精品自在自线图片| 午夜福利网站1000一区二区三区| 久久久久精品性色| 亚洲精品亚洲一区二区| 国产乱来视频区| 久久99精品国语久久久| 亚洲国产欧美日韩在线播放| 亚洲美女视频黄频| av黄色大香蕉| 亚洲综合色网址| 免费人成在线观看视频色| 国产亚洲欧美精品永久| 人妻 亚洲 视频| 男女国产视频网站| 伦精品一区二区三区| 国产成人av激情在线播放 | 国产精品三级大全| 在线 av 中文字幕| 日韩av不卡免费在线播放| 97精品久久久久久久久久精品| a级毛片在线看网站| 亚洲精品第二区| 亚洲精品,欧美精品| 欧美丝袜亚洲另类| 又大又黄又爽视频免费| 91成人精品电影| 一本—道久久a久久精品蜜桃钙片| 亚洲国产毛片av蜜桃av| 精品久久久久久久久av| 赤兔流量卡办理| 亚洲av电影在线观看一区二区三区| 91精品一卡2卡3卡4卡| 一级二级三级毛片免费看| 99re6热这里在线精品视频| 一区二区三区四区激情视频| 久久久久久久久久人人人人人人| 亚洲综合精品二区| 边亲边吃奶的免费视频| a级毛色黄片| 国产熟女午夜一区二区三区 | xxx大片免费视频| 亚洲精品久久成人aⅴ小说 | 美女中出高潮动态图| 多毛熟女@视频| 91精品一卡2卡3卡4卡| 观看美女的网站| av有码第一页| 国产精品久久久久成人av| 日本黄大片高清| 亚洲欧美一区二区三区国产| 国产精品一国产av| 九九爱精品视频在线观看| 久久久久久久久大av| 亚洲第一av免费看| 成人影院久久| 久久鲁丝午夜福利片| 亚洲高清免费不卡视频| 在线看a的网站| 狂野欧美激情性bbbbbb| 这个男人来自地球电影免费观看 | 久久久久视频综合| 另类亚洲欧美激情| 亚洲,一卡二卡三卡| 成人免费观看视频高清| 日本欧美国产在线视频| 日韩一本色道免费dvd| 久久久精品区二区三区| 一区二区av电影网| 在线观看一区二区三区激情| 搡老乐熟女国产| 99re6热这里在线精品视频| 91精品伊人久久大香线蕉| 你懂的网址亚洲精品在线观看| 亚洲国产精品成人久久小说| 欧美精品一区二区免费开放| 亚洲精品一区蜜桃| 午夜久久久在线观看| 熟女av电影| 一二三四中文在线观看免费高清| 天堂中文最新版在线下载| 九色亚洲精品在线播放| 亚洲精品日韩av片在线观看| 精品亚洲成a人片在线观看| 国产国拍精品亚洲av在线观看| 97超碰精品成人国产| 99九九线精品视频在线观看视频| 国产又色又爽无遮挡免| 国产片内射在线| 国产精品免费大片| 黑人巨大精品欧美一区二区蜜桃 | 少妇被粗大的猛进出69影院 | 国产伦精品一区二区三区视频9| 超碰97精品在线观看| 超色免费av| 亚洲国产精品成人久久小说| 国产成人精品无人区| 在线 av 中文字幕| 亚洲欧美一区二区三区黑人 | 成人黄色视频免费在线看| 久久精品国产亚洲网站| 久久久亚洲精品成人影院| 精品一区二区三区视频在线| 久久人妻熟女aⅴ| 国产在视频线精品| 老司机影院毛片| 久久国产亚洲av麻豆专区| 日韩伦理黄色片| 欧美日韩av久久| a级毛片在线看网站| 狂野欧美白嫩少妇大欣赏| 国产精品 国内视频| 婷婷色综合www| 日本免费在线观看一区| 精品国产国语对白av| 岛国毛片在线播放| 日本av手机在线免费观看| 亚洲欧美成人精品一区二区| 国产一区亚洲一区在线观看| 免费黄频网站在线观看国产| 一区二区av电影网| 成年av动漫网址| 哪个播放器可以免费观看大片| 少妇熟女欧美另类| 亚洲精品aⅴ在线观看| 99久国产av精品国产电影| 看十八女毛片水多多多| 天美传媒精品一区二区| 尾随美女入室| 国产亚洲午夜精品一区二区久久| 夜夜爽夜夜爽视频| 国产一区亚洲一区在线观看| 伊人久久国产一区二区| 国产国语露脸激情在线看| 中文字幕免费在线视频6| 欧美精品一区二区免费开放| 国产精品国产三级国产专区5o| 国产黄色免费在线视频| 国产精品99久久99久久久不卡 | 美女福利国产在线| 久久久久久久久久久久大奶| 飞空精品影院首页| 大片电影免费在线观看免费| 欧美激情国产日韩精品一区| 国产精品久久久久成人av| 久久免费观看电影| 18禁观看日本| 夫妻午夜视频| 亚洲av二区三区四区| 日韩 亚洲 欧美在线| 精品久久久久久久久亚洲| 天天影视国产精品| 久久99热这里只频精品6学生| 人体艺术视频欧美日本| 韩国高清视频一区二区三区| 亚洲av.av天堂| a级片在线免费高清观看视频| 午夜91福利影院| 最新的欧美精品一区二区| av线在线观看网站| 国产精品三级大全| 亚洲经典国产精华液单| 免费黄色在线免费观看| 色婷婷av一区二区三区视频| 国产精品不卡视频一区二区| 亚洲国产最新在线播放| 亚洲精品,欧美精品| 午夜福利视频在线观看免费| 欧美日韩视频高清一区二区三区二| 全区人妻精品视频| 超碰97精品在线观看| 大码成人一级视频| 看免费成人av毛片| a 毛片基地| 人人妻人人澡人人看| 80岁老熟妇乱子伦牲交| av国产久精品久网站免费入址| 亚洲精品日韩在线中文字幕| 中文字幕人妻熟人妻熟丝袜美| 亚洲欧洲精品一区二区精品久久久 | av视频免费观看在线观看| 大片免费播放器 马上看| 亚洲一区二区三区欧美精品| 新久久久久国产一级毛片| 9色porny在线观看| 精品国产一区二区三区久久久樱花| 亚洲精品第二区| 国产成人免费观看mmmm| 久久久久久久久久成人| 2021少妇久久久久久久久久久| 街头女战士在线观看网站| 免费黄频网站在线观看国产| 久久久久久久精品精品| 成人毛片a级毛片在线播放| 在线亚洲精品国产二区图片欧美 | 黄色配什么色好看| 日韩 亚洲 欧美在线| 亚洲伊人久久精品综合| 国产不卡av网站在线观看| 午夜福利影视在线免费观看| 成人黄色视频免费在线看| 久久婷婷青草| 国产免费一区二区三区四区乱码| 大香蕉久久成人网| 中文字幕人妻熟人妻熟丝袜美| 久久人人爽av亚洲精品天堂| 人妻夜夜爽99麻豆av| 亚洲美女搞黄在线观看| 久久影院123| 肉色欧美久久久久久久蜜桃| 久久久欧美国产精品| 亚洲综合精品二区| 欧美人与性动交α欧美精品济南到 | 亚洲国产精品一区三区| 日本黄大片高清| 内地一区二区视频在线| 青春草亚洲视频在线观看| 制服丝袜香蕉在线| 内地一区二区视频在线| 亚洲av电影在线观看一区二区三区| 免费观看在线日韩| 亚洲人成网站在线播| 久久午夜综合久久蜜桃| 亚洲国产精品一区二区三区在线| 亚洲美女搞黄在线观看| 亚洲情色 制服丝袜| 天天操日日干夜夜撸| 精品人妻一区二区三区麻豆| 久久久久久久精品精品| 一级,二级,三级黄色视频| 丝袜喷水一区| 最近中文字幕高清免费大全6| 久久免费观看电影| 成年av动漫网址| 18禁在线播放成人免费| 国产女主播在线喷水免费视频网站| 熟妇人妻不卡中文字幕| 9色porny在线观看| 欧美精品人与动牲交sv欧美| 涩涩av久久男人的天堂| 一区二区三区四区激情视频| 国产黄色免费在线视频| 成人综合一区亚洲| av国产久精品久网站免费入址| 日本色播在线视频| 久久久欧美国产精品|