• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    短文本聚類(lèi)方法研究綜述

    2022-01-24 08:04:32和志強(qiáng)王夢(mèng)雪
    關(guān)鍵詞:短文聚類(lèi)向量

    和志強(qiáng),王夢(mèng)雪,馬 寧,陳 萌

    (河北經(jīng)貿(mào)大學(xué) 信息技術(shù)學(xué)院,河北 石家莊 050061)

    0 引言

    隨著信息傳播速度的提高與網(wǎng)絡(luò)空間的不斷擴(kuò)大,互聯(lián)網(wǎng)信息量呈指數(shù)級(jí)快速增長(zhǎng),非結(jié)構(gòu)化文本數(shù)據(jù)量不斷增大[1]。為有效利用文本數(shù)據(jù)中所蘊(yùn)含的有價(jià)值信息,通過(guò)聚類(lèi)算法依據(jù)文本數(shù)據(jù)間的共性特征構(gòu)建文本聚簇來(lái)完成后續(xù)的信息處理與分析,是有價(jià)值信息提取的重要一環(huán)。短文本數(shù)據(jù)主要分為社交媒體類(lèi)、新聞?lì)?、觀點(diǎn)評(píng)論類(lèi)、問(wèn)答類(lèi)、摘要類(lèi)等,通常應(yīng)用于事件檢測(cè)[2-3]、信息檢索[4]、信息推薦[5]等方面。短文本數(shù)據(jù)呈現(xiàn)語(yǔ)義稀疏、表意歧義和噪聲較多的特點(diǎn)[6]。因此對(duì)低詞匯量的短文本提取其有效特征進(jìn)行低維稠密向量化表示,是影響聚類(lèi)結(jié)果好壞的關(guān)鍵步驟。此外在不同應(yīng)用場(chǎng)景下,應(yīng)根據(jù)數(shù)據(jù)特點(diǎn)來(lái)計(jì)算文本間相似度,以達(dá)到聚簇內(nèi)部相似性高與簇間相似性低的聚類(lèi)要求。

    本文從短文本向量化表示方法和聚類(lèi)評(píng)價(jià)兩方面對(duì)短文本聚類(lèi)研究進(jìn)行綜述,在不同類(lèi)別的聚類(lèi)算法的基礎(chǔ)上,對(duì)基于文本離散化表示與分布式表示的聚類(lèi)方法的優(yōu)化、改進(jìn)與應(yīng)用進(jìn)行研究,并對(duì)聚類(lèi)效果的常用評(píng)價(jià)方法進(jìn)行總結(jié)。

    1 短文本聚類(lèi)方法研究概述

    短文本聚類(lèi)算法是一種無(wú)監(jiān)督分析算法,能夠定量化描述數(shù)據(jù)中的集聚現(xiàn)象,挖掘非結(jié)構(gòu)化短文本數(shù)據(jù)中隱含的重要信息。文本聚類(lèi)方法主要分為基于劃分的聚類(lèi)算法、基于層次的聚類(lèi)算法、基于密度的聚類(lèi)算法、基于網(wǎng)格的聚類(lèi)算法、基于模型的聚類(lèi)算法和基于模糊的聚類(lèi)算法[7],其主要思想、典型算法與特點(diǎn)如表1所示。文本的向量化表示是短文本間相似度計(jì)算與聚類(lèi)分析的基礎(chǔ),文本向量化是將文本表示成為計(jì)算機(jī)可識(shí)別與計(jì)算的結(jié)構(gòu)化實(shí)數(shù)向量。文本表示方法依據(jù)其粒度大小分為基于字、基于詞、基于句子和基于篇章四種層次,方法包括文本數(shù)據(jù)的離散化表示與分布式表示。

    表1 文本聚類(lèi)算法類(lèi)別

    1.1 基于文本離散化表示的聚類(lèi)方法

    文本的離散化表示以字、詞匯之間相互獨(dú)立為基礎(chǔ),構(gòu)成不考慮關(guān)聯(lián)性的獨(dú)立詞典,通過(guò)詞頻統(tǒng)計(jì)的方式對(duì)文本進(jìn)行表示,常用離散化文本表示方法及其特點(diǎn)如表2所示。One-Hot Representation作為最簡(jiǎn)單的詞向量化表示方法,目前主要應(yīng)用于其他語(yǔ)言模型中文本的輸入編碼。在此基礎(chǔ)上的詞袋模型是基于句子與篇章級(jí)的文本編碼模型,其根據(jù)一段文本中包含詞的出現(xiàn)次數(shù)來(lái)對(duì)文本進(jìn)行編碼。N-gram算法常應(yīng)用于相似度計(jì)算與歧義切分。王賢明[8]等提出了一種基于隨機(jī)N-gram的長(zhǎng)文本相似度計(jì)算方法,充分利用粗粒度與細(xì)粒度的上下文特征對(duì)文本進(jìn)行編碼表示。鳳麗洲[9]等利用N-gram能獲取雙向局部特征的特性,來(lái)實(shí)現(xiàn)最優(yōu)分詞序列的選擇,有效解決長(zhǎng)詞歧義切分問(wèn)題。

    Salton G[10]等提出的TF-IDF算法常作為基礎(chǔ)表示向量的特征權(quán)重計(jì)算方法與其他特征屬性提取算法相結(jié)合使用。黃承慧[11]等在使用TF-IDF提取重要詞項(xiàng)的基礎(chǔ)上,借助外部詞典擴(kuò)充語(yǔ)義信息來(lái)計(jì)算文本間相似度。王少鵬[12]等把LDA主題模型與TF-IDF結(jié)合,依據(jù)主題與特征權(quán)重兩方面來(lái)計(jì)算相似度,利用K-means進(jìn)行聚類(lèi)實(shí)現(xiàn)輿情分析。陳朔鷹[13]等在TF-IDF的基礎(chǔ)上利用詞語(yǔ)的時(shí)間屬性來(lái)計(jì)算增長(zhǎng)速度,將詞語(yǔ)的動(dòng)態(tài)屬性融入編碼特征中,利用CURE來(lái)進(jìn)行聚類(lèi)實(shí)現(xiàn)話題檢測(cè)。葉雪梅[14]等使用NLPIR PARSE中文分詞工具對(duì)文檔新詞的TF-IDF權(quán)重進(jìn)行優(yōu)化,在保證提取文本中有效特征的同時(shí),降低其特征向量維度。張蕾[15]等將已有學(xué)科分類(lèi)信息加入至TF-IDF特征權(quán)重的計(jì)算中,來(lái)解決一詞多義的編碼問(wèn)題,并通過(guò)K-mean++依據(jù)論文關(guān)鍵詞進(jìn)行學(xué)科聚類(lèi)。

    表2 離散化文本表示方法

    1.2 基于文本分布式表示的聚類(lèi)方法

    針對(duì)文本的離散化表示中存在的維度災(zāi)難、向量稀疏、不能捕捉長(zhǎng)距離信息、不能表示文本潛在的語(yǔ)法與語(yǔ)義信息的問(wèn)題,產(chǎn)生了將高維向量映射為更加低維、稠密的連續(xù)向量的分布式表示方法[16],該方法利用語(yǔ)言模型依據(jù)上下文信息來(lái)對(duì)詞匯進(jìn)行表示,充分考慮詞之間的聯(lián)系。常用分布式文本表示方法及特點(diǎn)如表3所示。其中NNML[17]和Word2Vec[18]屬于靜態(tài)詞向量表示,Word2Vec因?yàn)槠溆?xùn)練的高效性與表示的低維性常作為原始特征向量,來(lái)進(jìn)行后續(xù)特征提取與融合運(yùn)算。孫昭穎[19]等針對(duì)短文本特征稀疏的特點(diǎn),在Word2Vec的基礎(chǔ)上利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取形成稠密向量,再通過(guò)K-means進(jìn)行分析驗(yàn)證其有效性。蔡慶平[20]等同樣將Word2Vec與卷積神經(jīng)網(wǎng)絡(luò)聯(lián)合使用,對(duì)產(chǎn)品評(píng)論進(jìn)行縮短分割,依據(jù)提取的特征詞實(shí)現(xiàn)產(chǎn)品與評(píng)論的聚類(lèi)。顏端武[21]等利用LDA主題模型提取的淺層特征與加權(quán)Word2Vec提取的語(yǔ)義特征融合構(gòu)建文本表示向量,再使用K-means實(shí)現(xiàn)微博的主題聚類(lèi)。

    屬于動(dòng)態(tài)詞向量的表示方法ELMo[22]、GPT[23]和BERT[24]是在基礎(chǔ)語(yǔ)言模型訓(xùn)練得到詞向量的基礎(chǔ)上,再在實(shí)際應(yīng)用場(chǎng)景中對(duì)其進(jìn)行動(dòng)態(tài)調(diào)整,解決了靜態(tài)詞向量表示中的一詞多義問(wèn)題[25]。2018年由Google發(fā)布的基于雙向Transformer的BERT模型在各項(xiàng)NLP任務(wù)中表現(xiàn)出驚人成績(jī),BERT模型利用大規(guī)模無(wú)標(biāo)注語(yǔ)料進(jìn)行訓(xùn)練,來(lái)獲取包含豐富語(yǔ)義信息的表示特征。程思偉[26]等利用BERT的預(yù)訓(xùn)練詞向量和圖卷積神經(jīng)網(wǎng)絡(luò)來(lái)強(qiáng)化特征表示。朱良奇[27]等在BERT預(yù)訓(xùn)練的文本表示基礎(chǔ)上利用自編碼器與K-means聯(lián)合訓(xùn)練,優(yōu)化特征提取與聚類(lèi)模塊,實(shí)現(xiàn)短文本聚類(lèi)。唐曉波[28]等在LDA主題聚類(lèi)的基礎(chǔ)上,通過(guò)Sentence-BERT 預(yù)訓(xùn)練模型編碼問(wèn)題的語(yǔ)義表示,實(shí)現(xiàn)輔助問(wèn)答系統(tǒng)。

    表3 分布式文本表示方法

    2 聚類(lèi)結(jié)果的無(wú)監(jiān)督評(píng)價(jià)方法

    對(duì)無(wú)標(biāo)簽數(shù)據(jù)的聚類(lèi)結(jié)果進(jìn)行評(píng)價(jià),是引導(dǎo)聚類(lèi)算法優(yōu)化與改進(jìn)的重要依據(jù),采用人工評(píng)價(jià)方法存在低效、高主觀性與高成本的問(wèn)題,無(wú)監(jiān)督聚類(lèi)評(píng)價(jià)指標(biāo)的構(gòu)建在一定程度上解決了這些問(wèn)題。聚類(lèi)結(jié)果的無(wú)監(jiān)督評(píng)價(jià)是基于聚類(lèi)自身進(jìn)行評(píng)估,即保證聚類(lèi)的結(jié)果是類(lèi)間相似性低,類(lèi)內(nèi)相似性高。常用指標(biāo)及其計(jì)算方法如下。

    2.1 誤差平方和(SSE)

    通過(guò)計(jì)算擬合數(shù)據(jù)與原始數(shù)據(jù)對(duì)應(yīng)點(diǎn)的誤差平方和來(lái)判斷聚類(lèi)效果,其在K-means中應(yīng)用的計(jì)算公式如式(1)。其中p代表預(yù)測(cè)值,m代表原始樣本點(diǎn),SSE值越接近于0,則說(shuō)明模型與數(shù)據(jù)擬合度越好。

    (1)

    2.2 輪廓系數(shù)(SC)

    輪廓系數(shù)由評(píng)價(jià)簇內(nèi)樣本點(diǎn)差異的聚合度和評(píng)價(jià)簇間差異的分離度兩部分組成,聚合度由樣本點(diǎn)到其他樣本點(diǎn)的平均距離,聚合度a(k)計(jì)算如式(2),簇內(nèi)樣本點(diǎn)的緊密程度由所有樣本點(diǎn)聚合度的均值表示。

    (2)

    分離度由簇內(nèi)樣本點(diǎn)到其他簇外樣本點(diǎn)的最小平均距離,分離度b(k)計(jì)算如式(3),簇間樣本點(diǎn)的緊密程度由同簇內(nèi)所有樣本點(diǎn)分離度的均值表示。

    (3)

    簇內(nèi)樣本點(diǎn)Xk的輪廓系數(shù)計(jì)算如式(4),聚類(lèi)的輪廓系數(shù)由簇內(nèi)所有樣本點(diǎn)的輪廓系數(shù)的均值表示,當(dāng)輪廓系數(shù)趨近于1時(shí)表示聚類(lèi)效果越好。輪廓系數(shù)適用于類(lèi)別未知的情況,不適用于不同聚類(lèi)算法之間的比較。

    (4)

    2.3 Calinski-Harabasz(CH)指數(shù)

    CH指數(shù)通過(guò)最小化簇內(nèi)數(shù)據(jù)協(xié)方差,最大化類(lèi)別之間協(xié)方差來(lái)評(píng)價(jià)聚類(lèi)效果,其計(jì)算如式(5),其中m為訓(xùn)練樣本數(shù),k為聚簇?cái)?shù),Bk為簇間協(xié)方差矩陣,Wk為簇內(nèi)協(xié)方差矩陣,CH指數(shù)越大表示聚類(lèi)效果越好。CH指數(shù)不適用于基于密度的聚類(lèi)算法評(píng)價(jià)。

    (5)

    2.4 Davies-Bouldin(DB)指數(shù)

    DB指數(shù)通過(guò)計(jì)算任意兩聚簇的簇內(nèi)所有點(diǎn)到中心的平均距離和,除以兩聚簇中心距離,求最大值,計(jì)算如式(6)。其中n為聚簇?cái)?shù),ci表示第i個(gè)聚簇的中心,σi表示簇內(nèi)樣本點(diǎn)到聚簇中心的平均距離,DB指數(shù)越小代表聚類(lèi)效果越好。DB指數(shù)不適用于環(huán)狀分布聚類(lèi)評(píng)價(jià)。

    (6)

    3 總結(jié)與展望

    本文根據(jù)短文本數(shù)據(jù)特點(diǎn)解釋了文本的向量化表示與特征提取對(duì)其聚類(lèi)分析與處理的關(guān)鍵性,并分別闡述了基于文本離散化表示與基于文本分布式表示的短文本聚類(lèi)方法及其優(yōu)化、改進(jìn)與應(yīng)用。介紹了常用聚類(lèi)評(píng)價(jià)算法原理及其應(yīng)用特點(diǎn)。經(jīng)過(guò)對(duì)現(xiàn)有算法與研究的總結(jié)與分析,得出在短文本聚類(lèi)分析過(guò)程中,首先應(yīng)該對(duì)文本進(jìn)行基礎(chǔ)詞向量編碼,再對(duì)其特征向量進(jìn)行賦權(quán)調(diào)整,融合深層語(yǔ)義與文本結(jié)構(gòu)信息,使其映射至低維稠密向量,最后根據(jù)聚類(lèi)評(píng)價(jià)指標(biāo)來(lái)訓(xùn)練優(yōu)化聚類(lèi)模型。

    短文本數(shù)據(jù)爆炸式增長(zhǎng)的態(tài)勢(shì)下,提取其中有效信息仍然是研究的重點(diǎn)。針對(duì)短文本稀疏性特點(diǎn),識(shí)別短文本中關(guān)鍵信息與關(guān)鍵信息的強(qiáng)化,對(duì)后續(xù)的聚類(lèi)聚類(lèi)分析實(shí)現(xiàn)與聚類(lèi)效果的提高具有極高的促進(jìn)作用,因此后續(xù)工作應(yīng)圍繞其進(jìn)行研究與開(kāi)發(fā)。

    猜你喜歡
    短文聚類(lèi)向量
    向量的分解
    聚焦“向量與三角”創(chuàng)新題
    KEYS
    Keys
    基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
    向量垂直在解析幾何中的應(yīng)用
    基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
    向量五種“變身” 玩轉(zhuǎn)圓錐曲線
    一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
    自適應(yīng)確定K-means算法的聚類(lèi)數(shù):以遙感圖像聚類(lèi)為例
    湘潭县| 甘泉县| 蒙城县| 山东省| 天峻县| 冕宁县| 同仁县| 东光县| 太仆寺旗| 晋江市| 通城县| 冷水江市| 苍梧县| 吉首市| 虞城县| 乐平市| 海宁市| 宁远县| 渑池县| 台安县| 新余市| 巴林左旗| 南开区| 建水县| 武城县| 桦南县| 湟源县| 顺昌县| 延寿县| 贺兰县| 广灵县| 元阳县| 台湾省| 汝州市| 泾阳县| 本溪市| 甘德县| 合作市| 丰镇市| 修武县| 政和县|