• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    不平衡數(shù)據(jù)集文本多分類深度學(xué)習(xí)算法

    2021-09-16 02:28:00王德志梁俊艷
    關(guān)鍵詞:數(shù)據(jù)量聚類向量

    王德志,梁俊艷

    (1.華北科技學(xué)院 計(jì)算機(jī)學(xué)院,河北 廊坊 065201;2.華北科技學(xué)院 圖書館,河北 廊坊 065201)

    0 引 言

    在自然語言處理中,文本分類研究中主要分為二分類和多分類問題[1,2]。訓(xùn)練數(shù)據(jù)集的平衡性對深度學(xué)習(xí)算法的性能有重要的影響。文本多分類的訓(xùn)練數(shù)據(jù)集多是不平衡數(shù)據(jù)集。所謂不平衡數(shù)據(jù)集就是在同一個(gè)數(shù)據(jù)集中的某類數(shù)據(jù)的樣本數(shù)量遠(yuǎn)遠(yuǎn)大于或者小于其它樣本的數(shù)量。而少數(shù)類樣本被錯(cuò)誤分類的代價(jià)要比多數(shù)類樣本錯(cuò)誤分類造成的損失更大。文獻(xiàn)[3]提出在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中基于標(biāo)簽權(quán)重修改損失函數(shù)結(jié)果,強(qiáng)化少數(shù)類樣本對模型參數(shù)的影響。文獻(xiàn)[4]提出基于詞向量遷移的預(yù)訓(xùn)練任務(wù)選擇方法,區(qū)分小類別樣本,提升小類別分類準(zhǔn)確度。文獻(xiàn)[5]提出基于層次聚類的不平衡數(shù)據(jù)加權(quán)方法,根據(jù)密度因子確定采樣頻率,提升小樣本權(quán)重。文獻(xiàn)[6]提出基于差分孿生卷積神經(jīng)網(wǎng)絡(luò)的超平面特征圖,利用樣本與不同超平面的距離進(jìn)行不平衡數(shù)據(jù)集分類的算法。目前研究中主要側(cè)重于文本的二分類問題或者是通用性的低維特征向量的不平衡數(shù)據(jù)集的分類問題[7-10]。而基于高維度詞向量的文本不平衡數(shù)據(jù)集多分類問題面臨巨大的挑戰(zhàn)。本文基于高維度向量聚類方法,提出一種混合式不平衡文本數(shù)據(jù)集采樣方法,在保障大樣本數(shù)據(jù)分類準(zhǔn)確度的基礎(chǔ)上,提升小樣本數(shù)據(jù)分類的準(zhǔn)確率,并通過實(shí)驗(yàn)驗(yàn)證了該方法的分類效果和準(zhǔn)確率。

    1 基于詞向量的文本多分類特點(diǎn)

    1.1 詞向量的高維特性

    在文本多分類處理中,首先需要對文本中各個(gè)詞進(jìn)行向量化表示,經(jīng)典的方法有TF-IDF、skip-gram和CBOW等方法。文本數(shù)據(jù)集的詞向量處理可以采用自定義模型訓(xùn)練方式或者采用經(jīng)典的詞向量模型,例如Word2vec、GloVe和FastText等[11]。但是,無論采用哪一種方式,當(dāng)文本訓(xùn)練樣本數(shù)據(jù)非常多時(shí),訓(xùn)練所涉及到的基本詞匯量也會不斷增多。尤其是對非規(guī)范文本處理時(shí)(例如微博文本),會遇到大量新生詞匯。為了更準(zhǔn)確表示文本之間的關(guān)系,就需要對文本中的詞進(jìn)行高維度向量化,每個(gè)維度代表一個(gè)文本特征,只有詞的向量維度達(dá)到一定規(guī)模時(shí),才能夠提供特征具有區(qū)分度的文本分類訓(xùn)練樣本數(shù)據(jù)。谷歌公司基于大量通用新聞材料訓(xùn)練了具有300維的Word2vec詞向量模型。Facebook基于通用的維基新聞材料訓(xùn)練了具有300維的FastText模型。這些高維度模型為文本多分類提供了堅(jiān)實(shí)的詞向量基礎(chǔ)。

    1.2 數(shù)據(jù)集不平衡性

    高維度詞向量模型只是為分詞向量化提供了支撐,但是在文本多分類中,還需要大量的訓(xùn)練樣本數(shù)據(jù)。由于目前文本多分類大量使用有監(jiān)督學(xué)習(xí)方法,因此需要對訓(xùn)練數(shù)據(jù)進(jìn)行樣本標(biāo)注。而大量的文本數(shù)據(jù)進(jìn)行多分類標(biāo)注是一個(gè)困難的事情,要想獲得完全平衡的已標(biāo)注文本分類訓(xùn)練數(shù)據(jù)基本是不可能的。而且隨著分類數(shù)據(jù)的增多,也對訓(xùn)練數(shù)據(jù)集的平衡性提出了挑戰(zhàn)。在實(shí)際文本多分類研究中,大量使用不平衡的訓(xùn)練數(shù)據(jù)集。其中,小樣本數(shù)量標(biāo)注數(shù)據(jù)的預(yù)測準(zhǔn)確性,在特定應(yīng)用領(lǐng)域中有重要作用。例如,在電子郵件中分類出具有詐騙性質(zhì)的郵件,相對于普通郵件和廣告垃圾郵件就屬于小樣本數(shù)量標(biāo)注數(shù)據(jù)。數(shù)據(jù)集的不平衡性已經(jīng)成為多數(shù)文本多分類的基本屬性。

    2 文本多分類混合式均分聚類采樣算法(HCSA)

    2.1 總體架構(gòu)

    為解決文本多分類訓(xùn)練數(shù)據(jù)集不平衡問題,可以采用欠采樣(下采樣)或過采樣(上采樣)方式進(jìn)行數(shù)據(jù)集的預(yù)處理。其中欠采樣以小樣本數(shù)量為標(biāo)準(zhǔn),對大樣本數(shù)據(jù)進(jìn)行減量提取,使大樣本數(shù)量與小樣本數(shù)量具有相同的規(guī)模,數(shù)據(jù)集總量減少。而過采樣正好與之相反,以大樣本數(shù)量為標(biāo)準(zhǔn),對小樣本數(shù)據(jù)進(jìn)行復(fù)制增量,使小樣本數(shù)量與大樣本數(shù)量具有相同規(guī)模,數(shù)據(jù)集總量增加。但在文本多分類數(shù)據(jù)集中,由于分類標(biāo)簽是多個(gè),如果僅基于最小樣本和最大樣本進(jìn)行處理,都會導(dǎo)致數(shù)據(jù)集的不合理性,影響最終深度學(xué)習(xí)模型的訓(xùn)練結(jié)果。因此,本文提出一種基于聚類的均分混合式采樣算法(HCSA)。其主要步驟如下:

    (1)計(jì)算樣本數(shù)據(jù)量均線

    如式(1)所示,計(jì)算出所有不同分類樣本數(shù)量的算數(shù)平均數(shù),以此作為樣本數(shù)據(jù)量均線。其中N表示分類標(biāo)簽數(shù)量,Xi表示每個(gè)分類中樣本的總數(shù)量

    (1)

    (2)進(jìn)行樣本分區(qū)

    以Lavg均線為基準(zhǔn),對每個(gè)分類樣本進(jìn)行分區(qū)。如式(2)所示,其中樣本大于均線的為上區(qū)zup,樣本數(shù)量小于均線的為下區(qū)zdn,并計(jì)算出與均線的差值di

    di=Xi-Lavg

    (2)

    (3)進(jìn)行混合采樣

    對上區(qū)zup樣本數(shù)據(jù)采用基于K-means聚類的欠采樣方法,每個(gè)分類樣本減少di個(gè)數(shù)據(jù),實(shí)現(xiàn)每類樣本數(shù)據(jù)量為Lavg。對于下區(qū)zdn樣本數(shù)據(jù)采用基于K-means聚類的過采樣方法,每個(gè)分類樣本增加di個(gè)數(shù)據(jù),實(shí)現(xiàn)每類樣本數(shù)據(jù)量為Lavg。最終形成的新樣本數(shù)據(jù)集樣本數(shù)量為N×Lavg,從而實(shí)現(xiàn)不同分類樣本數(shù)據(jù)量的均衡性。

    通過上述步驟實(shí)現(xiàn)了多分類樣本的均衡性,其關(guān)鍵步驟是上分區(qū)和下分區(qū)的不同采樣方法。本文提出基于K-means聚類采樣方法,對聚類小樣本數(shù)據(jù)進(jìn)行等比例擴(kuò)充,對聚類大樣本數(shù)據(jù)進(jìn)行等比例縮減,從而保證各聚類樣本數(shù)據(jù)特征的均衡性,為后續(xù)深度模型訓(xùn)練提供保障。

    2.2 基于K-means聚類的過采樣均線下數(shù)據(jù)

    在不平衡數(shù)據(jù)集中,均線下數(shù)據(jù)屬于小樣本數(shù)據(jù),需要增加數(shù)據(jù)樣本數(shù)量。本算法采用基于K-means聚類的方法,對每類樣本數(shù)據(jù)進(jìn)行聚類,根據(jù)同類樣本中聚類的分布情況,進(jìn)行樣本增加。聚類簇內(nèi)數(shù)據(jù)越多,說明數(shù)據(jù)特征向量相似,增加的數(shù)據(jù)相對就少;聚類數(shù)據(jù)越少說明樣本特征比較特殊,就增加相對多一些。

    2.2.1 文本向量距離計(jì)算

    在傳統(tǒng)的K-means算法中多采用歐式距離進(jìn)行空間中節(jié)點(diǎn)距離計(jì)算,但是在文本多分類中,要通過文本詞向量空間距離來體現(xiàn)文本的相似度,因此采用歐式距離不適合。本算法采用文本余弦距離來計(jì)算多維空間中節(jié)點(diǎn)的距離,如式(3)所示

    (3)

    式中:x和y是多維詞向量空間中的兩個(gè)節(jié)點(diǎn);向量空間維度n維;xi和yi表示兩個(gè)向量在第i維空間的值。從公式中可以看出,對于兩個(gè)文本向量,如果文本越相似,則Dis(x,y)越小,距離越近。當(dāng)兩個(gè)文本完全一致時(shí),距離為0。當(dāng)兩個(gè)文本完全不相同時(shí),距離最大值為1,即Dis(x,y)∈[0,1]。

    2.2.2 基于輪廓系數(shù)的K-means聚類

    在K-means聚類中K值代表聚類簇的數(shù)量。由于聚類屬于無監(jiān)督學(xué)習(xí),因此無法提前確定最佳的K值。K值的大小直接影響到最終聚類的效果。因此,本算數(shù)采用動(dòng)態(tài)調(diào)整的基于輪廓系統(tǒng)的K值選取與數(shù)據(jù)聚類,其步驟如下。

    (1)K值與平均輪廓系統(tǒng)數(shù)S初始化

    在有M個(gè)節(jié)點(diǎn)的向量空間中,聚類的簇?cái)?shù)量K∈[1,M],即聚類的極端可能性是所有節(jié)點(diǎn)都在一個(gè)聚類中,或者每個(gè)節(jié)點(diǎn)獨(dú)立一個(gè)簇,與其它任何節(jié)點(diǎn)無關(guān)。因此K值初始化為2,從最小可能聚類簇?cái)?shù)開始。平均輪廓系數(shù)S由于還沒有計(jì)算,因此取最小值-1,方便后面比較。隨機(jī)選取兩個(gè)節(jié)點(diǎn)作為初始聚類簇的質(zhì)心節(jié)點(diǎn)。

    (2)所有節(jié)點(diǎn)聚類

    基于當(dāng)前K簇,首先,每個(gè)節(jié)點(diǎn)i計(jì)算其與所屬簇質(zhì)心的距離,然后選取距離最小的簇為其所在簇。在計(jì)算完所有節(jié)點(diǎn)后,如式(4)所示,計(jì)算本簇中所有節(jié)點(diǎn)與質(zhì)心的平均距離,然后選取到質(zhì)心距離與平均距離最接近的節(jié)點(diǎn)作為新的質(zhì)心。最后計(jì)算新質(zhì)心與舊質(zhì)心的距離,如果小于一定的值,結(jié)束聚類,否則開始新一輪以新質(zhì)心為核心的聚類

    hk_new=

    (4)

    (3)計(jì)算每個(gè)節(jié)點(diǎn)的凝聚度

    在聚類結(jié)束后,為了利用輪廓系數(shù)動(dòng)態(tài)優(yōu)化選取K值,首先計(jì)算每個(gè)節(jié)點(diǎn)xi的凝聚度。所謂節(jié)點(diǎn)的凝聚度就是此節(jié)點(diǎn)xi與同簇的其它節(jié)點(diǎn)的平均距離,其計(jì)算如式(5)所示。ci為節(jié)點(diǎn)i所在的簇

    (5)

    (4)計(jì)算機(jī)每個(gè)節(jié)點(diǎn)的分離度

    所謂分離度是節(jié)點(diǎn)xi與其最近簇cm中所有節(jié)點(diǎn)的平均距離,如式(6)所示。而最近簇cm的計(jì)算如式(7)所示,就是用xi到某個(gè)簇所有節(jié)點(diǎn)平均距離作為衡量該點(diǎn)到該簇的距離后,選擇最小平均距離的簇作為最近簇cm

    (6)

    (7)

    (5)計(jì)算平均輪廓系數(shù)

    凝聚度代表了簇內(nèi)的密度程度,分離度代表了簇間的距離。理論上凝聚度越小,簇間距離越遠(yuǎn),聚類效果越好,因此,基于式(8)計(jì)算所有節(jié)點(diǎn)平均輪廓系數(shù)S。公式中Si表示節(jié)點(diǎn)i的輪廓系數(shù),S表示平均輪廓系數(shù),它是所有節(jié)點(diǎn)輪廓系數(shù)之和的算數(shù)平均數(shù),其取值范圍為S∈[-1,1]。S的值越大代表聚類效果越好

    (8)

    (6)動(dòng)態(tài)調(diào)整K值

    增加K值,重復(fù)上述步驟(2)到步驟(5),計(jì)算出新一輪迭代中的輪廓系數(shù)。當(dāng)?shù)鶱次后,選取平均輪廓系數(shù)最大值的K作為聚類簇?cái)?shù),并以此時(shí)的聚類結(jié)果為最終結(jié)果。

    2.2.3 均線下數(shù)據(jù)過采樣

    在對數(shù)據(jù)集的每類數(shù)據(jù)進(jìn)行完聚類后,如式(2)所示,Lavg均線下的分類數(shù)據(jù)集需要增加|di|個(gè)數(shù)據(jù),從而達(dá)到均線數(shù)據(jù)量。第i類數(shù)據(jù)集增加數(shù)據(jù)量如式(9)所示

    (9)

    Ni,j表示數(shù)據(jù)集中第i類數(shù)據(jù)中聚類后第j簇需要增加的數(shù)據(jù)量。Xi表示第i類數(shù)據(jù)集的總量,Mi,j表示第i類數(shù)據(jù)集中聚類后第j簇的數(shù)據(jù)量,Ki表示第i類數(shù)據(jù)集聚類的簇?cái)?shù)量。從公式中可以看出,在聚類后,聚類簇中數(shù)據(jù)量越多在本類數(shù)據(jù)中增加的數(shù)據(jù)量就越少。不同類別數(shù)據(jù)之間,距離均線Lavg越遠(yuǎn),整體的增加數(shù)據(jù)量越多。在同一簇中數(shù)據(jù)的增加方法,采用隨機(jī)復(fù)制法。其過程就是,首先對簇中Mi,j個(gè)數(shù)據(jù)進(jìn)行編號,其編號范圍為[1,Mi,j],然后在此數(shù)據(jù)范圍內(nèi)進(jìn)行隨機(jī)抽簽。如果Ni,j≤Mi,j,則隨機(jī)抽簽Ni,j個(gè)不重復(fù)數(shù)據(jù)復(fù)制。如果Ni,j>Mi,j,隨機(jī)抽簽Ni,j個(gè)可重復(fù)數(shù)據(jù)復(fù)制。

    2.3 基于K-means聚類的欠采樣均線上數(shù)據(jù)

    在不平衡數(shù)據(jù)集中,均線上數(shù)據(jù)屬于大樣本數(shù)據(jù),為了防止分類模型過擬合與提升訓(xùn)練速度,需要減少數(shù)據(jù)樣本數(shù)量。與小樣本數(shù)據(jù)處理方式類似,大樣本數(shù)據(jù)也采用基于輪廓系數(shù)的K-means動(dòng)態(tài)聚類方法,對每類樣本數(shù)據(jù)進(jìn)行聚類,根據(jù)同類樣本中聚類的分布情況,進(jìn)行樣本減少。聚類簇內(nèi)數(shù)據(jù)越多,說明數(shù)據(jù)特征向量相似,減少的數(shù)據(jù)相對就多;聚類數(shù)據(jù)越少說明樣本特征比較特殊,就減少相對少一些。其第i類數(shù)據(jù)集減少數(shù)據(jù)量如式(10)所示

    (10)

    Qi,j表示數(shù)據(jù)集中第i類數(shù)據(jù)中聚類后第j簇需要減少的數(shù)據(jù)量,|di|表示Lavg均線上的第i類數(shù)據(jù)集需要減少的數(shù)據(jù)個(gè)數(shù)。在同一簇中數(shù)據(jù)的選取方法,采用隨機(jī)選擇法,就是在Mi,j個(gè)數(shù)中隨機(jī)選取|Xi-Qi,j|個(gè)數(shù)。

    3 文本多分類卷積神經(jīng)網(wǎng)絡(luò)

    卷積神經(jīng)網(wǎng)絡(luò)(CNN)是機(jī)器學(xué)習(xí)中的經(jīng)典神經(jīng)網(wǎng)絡(luò)模型,在多個(gè)領(lǐng)域中都得到成功的應(yīng)用。針對自然語言分析,CNN一般采用一維模型結(jié)構(gòu),可以修改為并行的文本分類卷積神經(jīng)網(wǎng)絡(luò)TextCNN,其模型結(jié)構(gòu)如圖1所示。可以有多個(gè)并行的卷積層對輸入的文本進(jìn)行處理,最大池化層可以采用步長為3、4和5的方案進(jìn)行數(shù)據(jù)處理,目的是提取不同單詞間隔的文本特征信息,最后通過平鋪層進(jìn)行特征信息的匯總。為了保障模型的運(yùn)行效率,本文根據(jù)詞向量高維度特性,設(shè)計(jì)的TextCNN模型采用具有3個(gè)并行卷積層的一維卷積模型結(jié)構(gòu),如圖2所示。模型中卷積層輸入維度為(50,300)結(jié)構(gòu),輸出為(50,256)。卷積層激活函數(shù)采用“relu”函數(shù),輸出層激活函數(shù)采用“softmax”函數(shù),優(yōu)化器采用“adam”,損失函數(shù)采用“catego-rical_crossentropy”。

    圖1 TextCNN網(wǎng)絡(luò)模型結(jié)構(gòu)

    圖2 TextCNN模型參數(shù)

    4 不均衡微博災(zāi)害數(shù)據(jù)集

    文本多分類算法一般都是針對特定文本數(shù)據(jù)集進(jìn)行優(yōu)化。本算法的優(yōu)化主要針對微博災(zāi)害數(shù)據(jù)集。此數(shù)據(jù)集來自于CrisisNLP網(wǎng)站(https://crisisnlp.qcri.org)。其提供了2013年至2015年的2萬1千多條災(zāi)害相關(guān)的微博數(shù)據(jù),并人工對這些數(shù)據(jù)進(jìn)行了多分類標(biāo)注。其標(biāo)注樣本數(shù)據(jù)情況見表1。標(biāo)注包含受傷、死亡、失蹤、查找、人員安置、疏散等9類信息。其中最大分類樣本數(shù)量約是最小樣本分類數(shù)量的13倍,5種分類在數(shù)據(jù)集均線下,4種分類在數(shù)據(jù)集均線上,屬于典型的不平衡文本數(shù)據(jù)集。在數(shù)據(jù)集預(yù)處理方面,由于在微博文章中要求內(nèi)容不能超過140個(gè)單詞,因此在文本向量化前需要先進(jìn)行關(guān)鍵詞提取,為了保證提取的關(guān)鍵詞能夠代表文章的目標(biāo)分類,經(jīng)統(tǒng)計(jì)分析最終選取文章平均詞語量50作為參數(shù),即詞頻統(tǒng)計(jì)前50的單詞作為文章的關(guān)鍵詞。

    表1 微博災(zāi)害數(shù)據(jù)集標(biāo)定情況

    5 實(shí)驗(yàn)數(shù)據(jù)分析

    5.1 實(shí)驗(yàn)條件

    本實(shí)驗(yàn)基于個(gè)人工作站,其軟硬件配置見表2。本實(shí)驗(yàn)基于Word2vec模型對微博災(zāi)害數(shù)據(jù)集進(jìn)行分詞向量化,每條文本維度為(50,300)。其中,50代表此文本中的關(guān)鍵詞,如果關(guān)鍵詞個(gè)數(shù)不足50,補(bǔ)零進(jìn)行處理。300代表每個(gè)詞的維度,即詞特征向量空間為300維。實(shí)驗(yàn)中共使用21 125條微博數(shù)據(jù),其中90%用來進(jìn)行模型訓(xùn)練,10%用來模型測試。TextCNN模型數(shù)據(jù)輸出維度為(9,1),表示分類為9個(gè)。

    表2 實(shí)驗(yàn)配置條件

    5.2 評價(jià)指標(biāo)

    機(jī)器學(xué)習(xí)算法的評價(jià)指標(biāo)通常采用準(zhǔn)確率(Acc)、精確率(P)、召回率(R)和F1值。在文本多分類中,準(zhǔn)確率、召回率和F1值可以采用算術(shù)平均(Pm、Rm和F1m)和加權(quán)平均(Pw、Rw和F1w)計(jì)算兩種方法,其計(jì)算如式(11)、式(12)所示

    (11)

    (12)

    其中,Pi為每個(gè)分類的精確率,即“本類正確預(yù)測的數(shù)量/所有預(yù)測為本類的數(shù)量”;Ri為召回率,即“本類正確預(yù)測的數(shù)量/所有本類的數(shù)量”;F1i是“2*(Pi*Ri)/(Pi+Ri)”。αi為不同分類樣本占總樣本的比例,N為分類總數(shù)。

    5.3 實(shí)驗(yàn)結(jié)果分析

    為驗(yàn)證本算法性能,進(jìn)行了4種方法進(jìn)行實(shí)驗(yàn)數(shù)據(jù)對比。第一種是常規(guī)方法,未對數(shù)據(jù)集進(jìn)行欠采樣或過采樣;第二種是隨機(jī)欠采樣方式,以最小分類數(shù)據(jù)集數(shù)據(jù)量為標(biāo)準(zhǔn),其它分類數(shù)據(jù)集進(jìn)行隨機(jī)欠采樣;第三種是隨機(jī)過采樣方式,以最大分類數(shù)據(jù)集數(shù)據(jù)量為標(biāo)準(zhǔn),其它分類數(shù)據(jù)集進(jìn)行隨機(jī)復(fù)制過采樣;第四種是本文提出的HCSA采樣方法。4種方法實(shí)驗(yàn)結(jié)果的混淆矩陣,如圖3所示。

    圖3 預(yù)測結(jié)果混淆矩陣

    基于各方法的混淆矩陣計(jì)算出對應(yīng)各分類數(shù)據(jù)集的評價(jià)指標(biāo)值見表3。從表中數(shù)據(jù)可以看出,分類5為最小數(shù)據(jù)集,在F1值中HCSA算法值最大,小樣本的預(yù)測精確率和召回率都有提升。分類7為最大數(shù)據(jù)集,在F1值中HCSA算法值最大,精確率和召回率性能都沒有下降。

    表3 各方法評價(jià)指標(biāo)值

    圖4和圖5展示了各方法的算數(shù)平均值和加權(quán)平均值指標(biāo)數(shù)據(jù)。從圖中可以看出,HCSA算法的準(zhǔn)確率和F1值最高,過采樣與常規(guī)方法性能相近,欠采樣方法指標(biāo)值最低。欠采樣由于隨機(jī)丟棄了訓(xùn)練樣本數(shù)據(jù),導(dǎo)致性能下降嚴(yán)重。而過采樣雖然增加了訓(xùn)練數(shù)據(jù),但是由于是隨機(jī)復(fù)制,沒能保證一定增加文本向量空間中小特征向量。另一方面,過采樣由于存在大量的復(fù)制數(shù)據(jù),導(dǎo)致TextCNN模型在訓(xùn)練中出現(xiàn)了過擬合現(xiàn)象。說明,雖然增加了訓(xùn)練數(shù)據(jù)數(shù)量,但是如果增加的不合理,會導(dǎo)致模型過擬合,不能提升模型的預(yù)測性能。而在HCSA算法中,由于進(jìn)行了聚類,對小樣本中小特征向量提高了復(fù)制的比例,因此能夠提升小特征的預(yù)測準(zhǔn)確率。對大樣本數(shù)據(jù),為了防止過擬合,進(jìn)行了訓(xùn)練數(shù)據(jù)集拋棄。但是沒有導(dǎo)致指標(biāo)值像欠采樣一樣下降非常多,這是由于在數(shù)據(jù)拋棄時(shí),是基于聚類結(jié)果,聚類的數(shù)據(jù)越多,拋棄的比例就增多。這樣最終保證各類特征在數(shù)據(jù)集中分布平衡。

    圖4 算數(shù)平均指標(biāo)值

    圖5 加權(quán)平均指標(biāo)值

    上面的實(shí)驗(yàn)結(jié)果可以看出,通過在HCSA算法中引入動(dòng)態(tài)聚類方法,能夠進(jìn)一步基于文本的高維特征對數(shù)據(jù)集進(jìn)行區(qū)分,為欠采樣和過采樣提供基礎(chǔ),最終實(shí)現(xiàn)文本訓(xùn)練數(shù)據(jù)集中數(shù)據(jù)在高維向量空間中特征向量的平衡分布,為提高文本多分類性能提供支持。

    6 結(jié)束語

    本文在文本不平衡數(shù)據(jù)集的多分類算法中,引入基于輪廓系數(shù)的動(dòng)態(tài)K-means聚類方法對不平衡數(shù)據(jù)集進(jìn)行聚類,并利用聚類簇采用混合式采樣方式,實(shí)現(xiàn)文本數(shù)據(jù)集的平衡分布。以微博災(zāi)害數(shù)據(jù)集為例,驗(yàn)證了HCSA算法在TextCNN模型上的性能。通過實(shí)驗(yàn)驗(yàn)證此算法相對常規(guī)方法、過采樣和欠采樣方法在準(zhǔn)確率和F1值等方面都有性能提升。下一步工作可以針對文本高維空間的聚類方法進(jìn)行優(yōu)化,提升算法的執(zhí)行速度,進(jìn)一步提升高維度文本向量的聚類效果,提高基于文本不平衡數(shù)據(jù)集的多分類準(zhǔn)確性。

    猜你喜歡
    數(shù)據(jù)量聚類向量
    向量的分解
    基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
    計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
    聚焦“向量與三角”創(chuàng)新題
    高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
    寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
    電子制作(2019年13期)2020-01-14 03:15:18
    基于DBSACN聚類算法的XML文檔聚類
    電子測試(2017年15期)2017-12-18 07:19:27
    向量垂直在解析幾何中的應(yīng)用
    基于改進(jìn)的遺傳算法的模糊聚類算法
    向量五種“變身” 玩轉(zhuǎn)圓錐曲線
    18禁动态无遮挡网站| 国产精品偷伦视频观看了| 日韩一卡2卡3卡4卡2021年| 久久热在线av| 侵犯人妻中文字幕一二三四区| 国产日韩欧美在线精品| 女性生殖器流出的白浆| 日韩精品有码人妻一区| 熟女少妇亚洲综合色aaa.| 男女边吃奶边做爰视频| 国产av精品麻豆| 精品少妇久久久久久888优播| 夫妻午夜视频| 久久 成人 亚洲| 性色avwww在线观看| 人妻系列 视频| 久热久热在线精品观看| 超碰成人久久| 日韩中文字幕视频在线看片| 国产精品一区二区在线不卡| 久久国内精品自在自线图片| 亚洲综合精品二区| 咕卡用的链子| 亚洲婷婷狠狠爱综合网| 亚洲国产欧美网| 亚洲欧美中文字幕日韩二区| 国产精品 欧美亚洲| 日韩大片免费观看网站| 久久97久久精品| 成人二区视频| 久久鲁丝午夜福利片| 街头女战士在线观看网站| 男女高潮啪啪啪动态图| 久久久久久免费高清国产稀缺| 亚洲精华国产精华液的使用体验| 欧美日韩成人在线一区二区| 日本av手机在线免费观看| 另类精品久久| 精品人妻熟女毛片av久久网站| 国产精品国产三级专区第一集| 欧美少妇被猛烈插入视频| 曰老女人黄片| 国产av一区二区精品久久| 国产女主播在线喷水免费视频网站| 少妇的丰满在线观看| 亚洲欧美清纯卡通| 日韩一区二区视频免费看| 亚洲一码二码三码区别大吗| 97在线视频观看| 97人妻天天添夜夜摸| 一区福利在线观看| 亚洲精品,欧美精品| 中国国产av一级| 99热全是精品| 亚洲成av片中文字幕在线观看 | 丰满迷人的少妇在线观看| 少妇人妻精品综合一区二区| 久久av网站| 两性夫妻黄色片| 国产一区二区 视频在线| 国产日韩欧美视频二区| 久久久久国产网址| 欧美日韩精品成人综合77777| 人人妻人人添人人爽欧美一区卜| 免费看av在线观看网站| 久久女婷五月综合色啪小说| 一本色道久久久久久精品综合| 美国免费a级毛片| av在线老鸭窝| 免费女性裸体啪啪无遮挡网站| 少妇的丰满在线观看| 日本欧美国产在线视频| 男女无遮挡免费网站观看| 天天操日日干夜夜撸| 国产精品免费大片| 免费黄色在线免费观看| 国产精品二区激情视频| 日韩制服骚丝袜av| 国产精品熟女久久久久浪| 亚洲欧美色中文字幕在线| 满18在线观看网站| 久久久久久久久免费视频了| 九九爱精品视频在线观看| 亚洲成色77777| 少妇人妻久久综合中文| 成年人午夜在线观看视频| 精品一品国产午夜福利视频| 超色免费av| 黄片播放在线免费| 久久精品国产a三级三级三级| 国产高清不卡午夜福利| 国产激情久久老熟女| 最近的中文字幕免费完整| 国产不卡av网站在线观看| 国产精品国产三级专区第一集| 黑人欧美特级aaaaaa片| 在线亚洲精品国产二区图片欧美| 熟女电影av网| 男女国产视频网站| 晚上一个人看的免费电影| 伦理电影大哥的女人| 久久久久久伊人网av| 国产精品久久久久成人av| 国产日韩欧美在线精品| 欧美亚洲 丝袜 人妻 在线| 亚洲情色 制服丝袜| 亚洲国产成人一精品久久久| 欧美日韩一区二区视频在线观看视频在线| 大片电影免费在线观看免费| 超碰97精品在线观看| 国产一区二区激情短视频 | 青春草视频在线免费观看| 老鸭窝网址在线观看| 伦理电影免费视频| 乱人伦中国视频| 狠狠婷婷综合久久久久久88av| 一级片'在线观看视频| 水蜜桃什么品种好| 国产欧美亚洲国产| 亚洲国产欧美在线一区| 妹子高潮喷水视频| 美女脱内裤让男人舔精品视频| 国产男人的电影天堂91| 三级国产精品片| 亚洲国产日韩一区二区| 少妇的丰满在线观看| 国产精品99久久99久久久不卡 | 青草久久国产| 亚洲欧美一区二区三区久久| 国产又色又爽无遮挡免| 亚洲熟女精品中文字幕| 久久国内精品自在自线图片| 国产不卡av网站在线观看| 欧美人与性动交α欧美精品济南到 | 国产无遮挡羞羞视频在线观看| www.av在线官网国产| 亚洲av.av天堂| 男人爽女人下面视频在线观看| 18+在线观看网站| 亚洲熟女精品中文字幕| 一本久久精品| 免费看不卡的av| 69精品国产乱码久久久| 成年人午夜在线观看视频| 欧美国产精品va在线观看不卡| 晚上一个人看的免费电影| 国产高清不卡午夜福利| 久久午夜综合久久蜜桃| 乱人伦中国视频| 亚洲一码二码三码区别大吗| 国产精品.久久久| 99热网站在线观看| 久久精品久久久久久久性| 国产精品.久久久| 亚洲av福利一区| 一边摸一边做爽爽视频免费| 国产白丝娇喘喷水9色精品| 亚洲精品乱久久久久久| 婷婷成人精品国产| 满18在线观看网站| 国产成人免费无遮挡视频| 一级爰片在线观看| 日韩中字成人| 最近2019中文字幕mv第一页| 五月开心婷婷网| 可以免费在线观看a视频的电影网站 | 性色av一级| 久久国产精品大桥未久av| 久久久国产一区二区| 人妻系列 视频| 看十八女毛片水多多多| 成人影院久久| tube8黄色片| 婷婷色麻豆天堂久久| 久久韩国三级中文字幕| 日韩视频在线欧美| 免费播放大片免费观看视频在线观看| 少妇人妻精品综合一区二区| 久久精品人人爽人人爽视色| 夫妻午夜视频| 在线观看人妻少妇| 欧美日韩精品成人综合77777| 高清欧美精品videossex| 免费看不卡的av| 一区二区av电影网| 一边摸一边做爽爽视频免费| 亚洲欧美精品自产自拍| 日日摸夜夜添夜夜爱| 免费少妇av软件| 香蕉国产在线看| 夜夜骑夜夜射夜夜干| 熟女av电影| 精品一区二区免费观看| 黄色视频在线播放观看不卡| 国产成人精品在线电影| 亚洲情色 制服丝袜| 91成人精品电影| 久久99精品国语久久久| av电影中文网址| 日韩在线高清观看一区二区三区| 在线观看三级黄色| www.自偷自拍.com| 中文欧美无线码| 婷婷色综合www| a级片在线免费高清观看视频| 日本wwww免费看| 国产 精品1| 大香蕉久久网| 久久久久久久久免费视频了| 日韩一区二区视频免费看| 又大又黄又爽视频免费| 久久精品久久久久久久性| 熟女电影av网| 国产成人免费无遮挡视频| 成年女人在线观看亚洲视频| 人人妻人人澡人人看| 国产成人aa在线观看| 久久久久久久久久久免费av| 久久人人爽av亚洲精品天堂| 久久久a久久爽久久v久久| 亚洲美女黄色视频免费看| 大陆偷拍与自拍| 美女视频免费永久观看网站| 寂寞人妻少妇视频99o| 日本av手机在线免费观看| 涩涩av久久男人的天堂| 看非洲黑人一级黄片| 黄色视频在线播放观看不卡| 色94色欧美一区二区| 免费av中文字幕在线| 国产深夜福利视频在线观看| 午夜av观看不卡| 成年人午夜在线观看视频| 五月开心婷婷网| 男女国产视频网站| 国产淫语在线视频| 亚洲成国产人片在线观看| 蜜桃国产av成人99| 最新的欧美精品一区二区| 夜夜骑夜夜射夜夜干| 久久精品国产亚洲av涩爱| 久热这里只有精品99| 69精品国产乱码久久久| av女优亚洲男人天堂| 久久久久久久久久久免费av| 日本av手机在线免费观看| 成年女人在线观看亚洲视频| 亚洲精品乱久久久久久| 久久精品国产鲁丝片午夜精品| 免费高清在线观看视频在线观看| 秋霞伦理黄片| 美女国产视频在线观看| 人妻系列 视频| 国产免费福利视频在线观看| 午夜老司机福利剧场| 精品少妇黑人巨大在线播放| 国产人伦9x9x在线观看 | 免费观看a级毛片全部| 一本大道久久a久久精品| 黄色配什么色好看| 我的亚洲天堂| 国产淫语在线视频| 亚洲成国产人片在线观看| 久久久久久久大尺度免费视频| 伊人亚洲综合成人网| 亚洲婷婷狠狠爱综合网| 伦理电影大哥的女人| 青春草亚洲视频在线观看| 少妇精品久久久久久久| 精品一区二区免费观看| 自线自在国产av| 免费人妻精品一区二区三区视频| 亚洲精品第二区| 肉色欧美久久久久久久蜜桃| 精品久久久精品久久久| 伦理电影大哥的女人| 丰满迷人的少妇在线观看| 亚洲国产看品久久| 国产一区亚洲一区在线观看| 久久久a久久爽久久v久久| 最新中文字幕久久久久| 女人被躁到高潮嗷嗷叫费观| 中文欧美无线码| 777久久人妻少妇嫩草av网站| 人体艺术视频欧美日本| 卡戴珊不雅视频在线播放| 蜜桃在线观看..| 国产精品三级大全| 高清av免费在线| 欧美 日韩 精品 国产| 老鸭窝网址在线观看| 亚洲精品国产av成人精品| 免费大片黄手机在线观看| 国产激情久久老熟女| 在线观看人妻少妇| 桃花免费在线播放| 久久精品国产a三级三级三级| 男人操女人黄网站| 国产无遮挡羞羞视频在线观看| a级毛片在线看网站| av不卡在线播放| 色网站视频免费| 啦啦啦在线免费观看视频4| 亚洲第一青青草原| 久久久久人妻精品一区果冻| 国产精品国产av在线观看| 日韩中文字幕视频在线看片| 在线观看一区二区三区激情| 亚洲精品乱久久久久久| 久久久久久久亚洲中文字幕| 少妇的丰满在线观看| 亚洲精品一区蜜桃| 亚洲伊人久久精品综合| 韩国精品一区二区三区| 美女主播在线视频| 女人被躁到高潮嗷嗷叫费观| 中文字幕人妻熟女乱码| 天天躁夜夜躁狠狠躁躁| 免费播放大片免费观看视频在线观看| 久久久久久人妻| 69精品国产乱码久久久| 女的被弄到高潮叫床怎么办| 日产精品乱码卡一卡2卡三| 欧美精品亚洲一区二区| 亚洲激情五月婷婷啪啪| 韩国av在线不卡| 久久久亚洲精品成人影院| 国产老妇伦熟女老妇高清| 国产有黄有色有爽视频| 欧美 亚洲 国产 日韩一| 免费高清在线观看日韩| 亚洲欧美一区二区三区久久| 在线天堂最新版资源| 亚洲国产欧美网| 看十八女毛片水多多多| 中文字幕av电影在线播放| 亚洲在久久综合| 人人澡人人妻人| 亚洲欧美成人精品一区二区| 国产日韩一区二区三区精品不卡| 久久亚洲国产成人精品v| 国产亚洲最大av| 欧美变态另类bdsm刘玥| 制服人妻中文乱码| 高清视频免费观看一区二区| 精品少妇久久久久久888优播| 午夜福利,免费看| av天堂久久9| 国产午夜精品一二区理论片| 青春草亚洲视频在线观看| 18+在线观看网站| 亚洲精品国产色婷婷电影| 国产av一区二区精品久久| 国产精品三级大全| 国产又色又爽无遮挡免| 亚洲情色 制服丝袜| 欧美激情 高清一区二区三区| 久久久久人妻精品一区果冻| 亚洲成av片中文字幕在线观看 | 国产欧美日韩一区二区三区在线| 久久精品国产自在天天线| 18禁动态无遮挡网站| 五月伊人婷婷丁香| 午夜精品国产一区二区电影| 人人妻人人澡人人看| 免费黄网站久久成人精品| 视频区图区小说| 欧美 日韩 精品 国产| 观看av在线不卡| 国产精品久久久久久久久免| 亚洲欧洲国产日韩| 女人高潮潮喷娇喘18禁视频| av又黄又爽大尺度在线免费看| 亚洲欧美色中文字幕在线| 日韩中文字幕视频在线看片| 午夜免费观看性视频| 国产亚洲午夜精品一区二区久久| 蜜桃在线观看..| 精品第一国产精品| 国产一区二区三区综合在线观看| 国产精品一区二区在线不卡| 91精品三级在线观看| 精品少妇久久久久久888优播| 国产一区二区三区综合在线观看| 精品少妇内射三级| 精品国产一区二区三区久久久樱花| 天天躁日日躁夜夜躁夜夜| 大陆偷拍与自拍| 日韩免费高清中文字幕av| 中文字幕另类日韩欧美亚洲嫩草| 成年人午夜在线观看视频| 男的添女的下面高潮视频| 欧美精品亚洲一区二区| 国产精品成人在线| 国产爽快片一区二区三区| 亚洲国产av影院在线观看| 老熟女久久久| 777米奇影视久久| 久久婷婷青草| 9色porny在线观看| 在线天堂中文资源库| 一二三四中文在线观看免费高清| 亚洲av电影在线进入| 美国免费a级毛片| 成年美女黄网站色视频大全免费| 亚洲欧美一区二区三区国产| 亚洲美女黄色视频免费看| 女的被弄到高潮叫床怎么办| 久久久久久伊人网av| 国产一区有黄有色的免费视频| 久久久久视频综合| 亚洲人成网站在线观看播放| 亚洲精品久久午夜乱码| 亚洲人成77777在线视频| 人妻人人澡人人爽人人| 永久免费av网站大全| 亚洲欧美精品综合一区二区三区 | 成年人午夜在线观看视频| 久久免费观看电影| 国产精品嫩草影院av在线观看| 欧美激情高清一区二区三区 | 亚洲国产色片| 亚洲第一区二区三区不卡| 精品久久久久久电影网| 日韩一区二区三区影片| 亚洲精品日韩在线中文字幕| 中文乱码字字幕精品一区二区三区| 天堂中文最新版在线下载| 国产日韩一区二区三区精品不卡| kizo精华| 精品一区在线观看国产| 少妇被粗大的猛进出69影院| 高清av免费在线| 欧美精品高潮呻吟av久久| 亚洲美女视频黄频| 国产爽快片一区二区三区| 美女主播在线视频| 一区二区三区激情视频| 亚洲av国产av综合av卡| a 毛片基地| 纵有疾风起免费观看全集完整版| 丰满少妇做爰视频| 国产白丝娇喘喷水9色精品| av在线播放精品| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 大片免费播放器 马上看| 久久久欧美国产精品| 中文精品一卡2卡3卡4更新| 久久精品人人爽人人爽视色| 夫妻午夜视频| 青春草视频在线免费观看| 日韩制服骚丝袜av| 午夜精品国产一区二区电影| 91国产中文字幕| 欧美成人午夜精品| 麻豆av在线久日| 97人妻天天添夜夜摸| 午夜福利网站1000一区二区三区| 99久久精品国产国产毛片| 美女脱内裤让男人舔精品视频| 午夜日韩欧美国产| 久久久国产精品麻豆| 日日爽夜夜爽网站| 免费女性裸体啪啪无遮挡网站| 欧美精品亚洲一区二区| 观看av在线不卡| 久久久a久久爽久久v久久| 欧美少妇被猛烈插入视频| 精品人妻熟女毛片av久久网站| 99九九在线精品视频| 国产成人精品无人区| 激情视频va一区二区三区| 日韩不卡一区二区三区视频在线| 美女中出高潮动态图| 久久久久久久久免费视频了| 99国产综合亚洲精品| 水蜜桃什么品种好| 婷婷色综合大香蕉| 巨乳人妻的诱惑在线观看| 国产日韩一区二区三区精品不卡| 国产精品一区二区在线观看99| 成年人午夜在线观看视频| 青草久久国产| 精品亚洲成国产av| 在线观看国产h片| 色94色欧美一区二区| 亚洲国产精品成人久久小说| 国产熟女午夜一区二区三区| 国产精品麻豆人妻色哟哟久久| 免费av中文字幕在线| 九草在线视频观看| 免费日韩欧美在线观看| 只有这里有精品99| 极品少妇高潮喷水抽搐| 男女国产视频网站| 亚洲成色77777| 人妻少妇偷人精品九色| 26uuu在线亚洲综合色| 国产xxxxx性猛交| 人人澡人人妻人| 国产精品av久久久久免费| 少妇人妻精品综合一区二区| 久久久精品国产亚洲av高清涩受| 青春草视频在线免费观看| 午夜免费鲁丝| 免费女性裸体啪啪无遮挡网站| 国产乱来视频区| 免费播放大片免费观看视频在线观看| 日韩精品免费视频一区二区三区| 久久97久久精品| 在线看a的网站| 国产精品久久久久久精品古装| 一级毛片 在线播放| 热99久久久久精品小说推荐| 嫩草影院入口| 一级,二级,三级黄色视频| 国产爽快片一区二区三区| 高清av免费在线| 久久鲁丝午夜福利片| 中国三级夫妇交换| 久热这里只有精品99| 卡戴珊不雅视频在线播放| 国产女主播在线喷水免费视频网站| 国产一级毛片在线| 777米奇影视久久| 亚洲在久久综合| 亚洲av免费高清在线观看| 如日韩欧美国产精品一区二区三区| 久久久国产欧美日韩av| 天堂8中文在线网| 你懂的网址亚洲精品在线观看| 国产精品一二三区在线看| 国产欧美日韩综合在线一区二区| 秋霞伦理黄片| 精品少妇内射三级| 国产黄色免费在线视频| 新久久久久国产一级毛片| 制服人妻中文乱码| 精品国产乱码久久久久久男人| 三级国产精品片| 中国三级夫妇交换| 99国产精品免费福利视频| 99久国产av精品国产电影| 波多野结衣一区麻豆| 亚洲第一av免费看| 9色porny在线观看| 制服丝袜香蕉在线| 中文字幕亚洲精品专区| 黑人猛操日本美女一级片| 免费高清在线观看日韩| 麻豆精品久久久久久蜜桃| 国产97色在线日韩免费| 中文字幕人妻丝袜一区二区 | av线在线观看网站| 国产视频首页在线观看| 黑丝袜美女国产一区| 色婷婷久久久亚洲欧美| 亚洲av日韩在线播放| 国产精品免费视频内射| 成人手机av| 美女视频免费永久观看网站| 桃花免费在线播放| 久久毛片免费看一区二区三区| 日本av手机在线免费观看| 亚洲成人av在线免费| 国产精品久久久久久精品电影小说| 18在线观看网站| 国产精品国产三级国产专区5o| 男女啪啪激烈高潮av片| 国产无遮挡羞羞视频在线观看| 欧美日韩一级在线毛片| 亚洲美女搞黄在线观看| 国产极品粉嫩免费观看在线| 精品亚洲成国产av| √禁漫天堂资源中文www| 免费在线观看完整版高清| 亚洲 欧美一区二区三区| 久久久久久久久久人人人人人人| 2021少妇久久久久久久久久久| 男女无遮挡免费网站观看| 美女xxoo啪啪120秒动态图| 伦理电影大哥的女人| 99久国产av精品国产电影| 这个男人来自地球电影免费观看 | 亚洲精品一区蜜桃| 大片电影免费在线观看免费| 欧美激情 高清一区二区三区| 91精品伊人久久大香线蕉| 久久99一区二区三区| 五月天丁香电影| 久久99蜜桃精品久久| 中文字幕制服av| 日本wwww免费看| 巨乳人妻的诱惑在线观看| 成人18禁高潮啪啪吃奶动态图| 久久精品人人爽人人爽视色| 国产 精品1| 精品国产乱码久久久久久小说| 美女午夜性视频免费| 久久久久久久久免费视频了| 波野结衣二区三区在线| 狂野欧美激情性bbbbbb| 人人妻人人澡人人看| 亚洲精品久久成人aⅴ小说| 久久精品久久精品一区二区三区| 中文字幕人妻丝袜制服| 少妇人妻精品综合一区二区| 少妇被粗大猛烈的视频| 欧美av亚洲av综合av国产av | 中文字幕最新亚洲高清| 国产成人精品福利久久| 2021少妇久久久久久久久久久| 亚洲精品久久久久久婷婷小说| 999久久久国产精品视频| 精品国产乱码久久久久久男人|