• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于Word2vec的文檔分類方法①

    2017-12-12 08:59:39杰,陳彩,梁
    關(guān)鍵詞:特征詞文檔語義

    陳 杰,陳 彩,梁 毅

    (北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)

    基于Word2vec的文檔分類方法①

    陳 杰,陳 彩,梁 毅

    (北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)

    文檔的特征提取和文檔的向量表示是文檔分類中的關(guān)鍵,本文針對這兩個(gè)關(guān)鍵點(diǎn)提出一種基于word2vec的文檔分類方法.該方法根據(jù)DF采集特征詞袋,以盡可能的保留文檔集中的重要特征詞,并且利用word2vec的潛在語義分析特性,將語義相關(guān)的特征詞用一個(gè)主題詞乘以合適的系數(shù)來代替,有效地濃縮了特征詞袋,降低了文檔向量的維度;該方法還結(jié)合了TF-IDF算法,對特征詞進(jìn)行加權(quán),給每個(gè)特征詞賦予更合適的權(quán)重.本文與另外兩種文檔分類方法進(jìn)行了對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文提出的基于word2vec的文檔分類方法在分類效果上較其他兩種方法均有所提高.

    文檔向量;文檔特征提取;文檔分類;TF-IDF;word2vec

    ?

    1 概述

    隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的信息來自于互聯(lián)網(wǎng),如何有效的挖掘、利用這些海量信息,尤其海量文檔信息,將成為關(guān)鍵,對文檔進(jìn)行有效分類可以縮小信息的規(guī)模,因此,精準(zhǔn)的文檔分類方法依然是當(dāng)前眾多科研工作者所研究的熱點(diǎn)問題[1-3].

    對海量文檔進(jìn)行分類涉及兩個(gè)難點(diǎn)問題:文檔的特征提取和文檔的向量表示[4].要想對不同格式的海量文檔進(jìn)行有效分類,首先要提取出每篇文檔的主題信息,通常的做法是提取文檔的主題特征詞并賦予這些特征詞合適的權(quán)重.要想對文檔進(jìn)行分類,單純的文字信息是無法完成分類工作的,最常用的方法是將文檔映射為一個(gè)高維數(shù)字向量,進(jìn)而再對向量進(jìn)行分類[5].

    目前,眾多科研工作者對文本分類都嘗試做了很多改進(jìn)工作,比如,文獻(xiàn)[6]中,李學(xué)明等人提出TFIDFIGE算法,在實(shí)驗(yàn)中選取信息增益值前1000的詞做特征詞袋,用TFIDFIGE算法計(jì)算權(quán)重,為每篇文檔建立一個(gè)1000維的數(shù)字向量,分類器選用為KNN,進(jìn)而完成海量文檔的分類工作.該方法很好的解決了文檔中特征詞的分布權(quán)重問題,但容易引起維度災(zāi)難,比如:文檔集規(guī)模非常龐大,那么,特征詞袋也需要更加龐大,信息增益值前1000的詞將不能覆蓋整個(gè)文檔集的特征,隨之建立的文檔向量的維度也將大幅提升,且該方法形成的文檔向量將是高維的、稀疏的,對后期分類的時(shí)間復(fù)雜度將有較大影響;文獻(xiàn)[7]中,唐明等人將分詞結(jié)果直接作為特征詞袋,用word2vec分析得到詞袋中每個(gè)特征詞的詞向量,并把每篇文檔中的特征詞向量通過TF-IDF加權(quán)累加而成文檔向量,最終把這些文檔向量作為分類器的輸入,進(jìn)而完成海量文檔的分類工作.該方法很好的解決了文檔向量的維度災(zāi)難,但忽略了特征詞的語義特征,比如:有兩篇文檔,一篇文檔有A、B、C三個(gè)特證詞,另一篇有D、E兩個(gè)特征詞,其中A、B、C、D、E五個(gè)特征詞主題且語義均不相關(guān),使用文獻(xiàn)[7]中的方法有可能出現(xiàn)Vec(A)*TFIDF(A)+ Vec(B)* TFIDF(B)+ Vec(C)* TFIDF(C)=Vec(D)* TFIDF(D)+ Vec(E)* TFIDF(E)的情況,這樣兩篇主題不相關(guān)的文檔就會(huì)被分到一個(gè)類別中.

    綜上,本文在總結(jié)前人研究經(jīng)驗(yàn)的基礎(chǔ)上,提出一種基于word2vec的文檔分類方法,該方法的優(yōu)勢在于:① 采用DF采集特征詞袋,盡可能的保留文檔集中的重要特征詞;② 結(jié)合word2vec,利用其潛在的語義分析特性濃縮特征詞袋,將語義相關(guān)的特征詞用一個(gè)主題詞乘以合適的系數(shù)來代替,有效降低了文檔向量的維度;③ 結(jié)合TF-IDF算法進(jìn)行特征詞加權(quán),給每個(gè)特征詞賦予更合適的權(quán)重.

    2 相關(guān)技術(shù)

    2.1 詞袋模型

    到目前為止,在文檔分類和自然語言處理領(lǐng)域,最直觀也是最常用的詞的表示方法就是詞袋模型.構(gòu)建詞袋模型之前,往往會(huì)收集一個(gè)忽略詞順序的特征詞袋,并以特征詞袋中詞的個(gè)數(shù)作維數(shù),使向量的每一維代表一個(gè)特征詞,構(gòu)建高維詞向量,并輔以特征詞的出現(xiàn)次數(shù)或特征詞的其他特征權(quán)重作為該維向量的值[8].

    舉例說明,如果收集的特征詞袋為{西紅柿、玉米、小麥、番茄……},詞袋大小為100,用詞的出現(xiàn)次數(shù)做權(quán)重.假設(shè)某篇文檔中只出現(xiàn)過“西紅柿”一詞,且“西紅柿”出現(xiàn)過 10 次,則該文檔可表示為[10,0,0,0,0,0,0……];假設(shè)某篇文檔中只出現(xiàn)過“番茄”一詞,且“番茄”出現(xiàn)過 8 次,則該篇文檔可表示為[0,0,0,8,0,0,0……].

    詞袋模型會(huì)把每篇文檔表示為一個(gè)維度統(tǒng)一但長度很長的向量,其中絕大多數(shù)元素為0,向量中的非0維度就代表當(dāng)前文檔中出現(xiàn)過該特征詞.這種表示方法除了形成向量過于稀疏的問題,還存在一個(gè)重要的問題:任意兩個(gè)詞之間都是孤立的,僅從向量中看不出兩個(gè)詞是否有關(guān)系,即使是“西紅柿”和“番茄”這樣的同義詞也不能幸免于難.

    2.2 TF-IDF詞權(quán)算法

    首先,介紹三個(gè)與TF-IDF算法相關(guān)的概念:TF、DF、IDF.

    TF即Term Frequency,是指某個(gè)特征詞在一篇文檔中出現(xiàn)的頻率,TF可以很好的表示某個(gè)特征詞對一篇文檔的重要程度,其計(jì)算公式可描述為:

    式(1)中,分子為特征詞word在本篇文檔中出現(xiàn)的次數(shù),分母為本篇文檔一共包含的詞的個(gè)數(shù).

    DF 即 Document Frequency,是指某個(gè)特征詞在文檔集中出現(xiàn)的頻率,DF可以很好的表示某個(gè)特征詞在文檔集中的分布特征,其計(jì)算公式可描述為:

    式(2)中,分子為文檔集中包含特征詞word的文檔數(shù)量,分母為文檔集中文檔的總篇數(shù).

    IDF 即 Inverse Document Frequency,是指逆向文檔頻率,它可以很好的表示某個(gè)特征詞的類別區(qū)分能力,其計(jì)算公式可描述為:

    因此,Salton 在 1973 年提出了 TF-IDF (Term Frequency-Inverse Documentation Frequency)算法[9],并被論證了在信息檢索領(lǐng)域的有效性[10].TF-IDF算法是目前最常用的特征詞權(quán)重計(jì)算方法,其計(jì)算公式可描述為:

    2.3 word2vec

    Word2vec是由Mikolov提出的一種可以快速有效訓(xùn)練詞向量的模型,word2vec吸收了Bengio在文獻(xiàn)[11]中提出的 NNLM 模型 (Neural Network Language Model)和Hinton在文獻(xiàn)[12]中提出的logLinear模型的優(yōu)點(diǎn),使用 Distributed Representation 作為詞向量的表示方式[13].其基本思想是:通過訓(xùn)練,將每個(gè)詞映射成K維實(shí)數(shù)向量(K一般為模型中的超參數(shù)),通過詞向量之間的距離來判斷它們之間的語義相似度,采用一個(gè)三層的神經(jīng)網(wǎng)絡(luò),分別為:輸入層-投影層-輸出層.并根據(jù)詞頻生成Huffman編碼 ,使得所有詞頻相似的詞隱藏層激活的內(nèi)容基本一致,使出現(xiàn)頻率越高的詞語激活的隱藏層數(shù)目越少,有效的降低了計(jì)算的復(fù)雜度,從而大大提高了word2vec處理效率,Mikolov曾在在文獻(xiàn)[14]中指出,一個(gè)優(yōu)化的單機(jī)版本一天可訓(xùn)練上千億詞.

    Word2vec除了擁有很高的處理效率外,經(jīng)word2vec訓(xùn)練出的詞向量還有一個(gè)重要特征:可以揭示特征詞之間的潛在聯(lián)系.使用word2vec訓(xùn)練出的詞向量,其每一維可以表示該特征詞的一個(gè)潛在特征,該特征包含但不限于該特征詞所在的句子結(jié)構(gòu)、上下文語義.通過word2vec訓(xùn)練得到的詞向量,根據(jù)余弦夾角公式,如式(5),可以很容易地推算出在語義上與某個(gè)特征詞最為相近的其他特征詞.

    3 基于 word2vec 的文檔分類方法

    本文提出的基于word2vec的文檔分類方法,共可分為三個(gè)階段:預(yù)處理階段、特征提取-建向量階段、分類階段,總流程圖如圖1所示.

    3.1 預(yù)處理階段

    預(yù)處理階段主要有兩項(xiàng)任務(wù):去掉文檔中無用的格式和停詞、進(jìn)行文檔分詞.

    從互聯(lián)網(wǎng)上采集到的文檔,大部分是格式不一、排版不齊的文檔,這些文檔中往往會(huì)包含大量html標(biāo)簽、空行、標(biāo)點(diǎn),為提高后續(xù)任務(wù)的效率與精準(zhǔn)度,必須把這些無用的格式過濾掉.眾所周知,文檔的行文中往往還會(huì)含有一些“的”、“了”、“嗎”、“等”……這些出現(xiàn)頻率極高但又毫無語義的詞匯,即停詞[15,16],停詞對后續(xù)任務(wù)的執(zhí)行效率和精準(zhǔn)度也是有很大影響的,所有也必須過濾掉.

    經(jīng)由前一個(gè)步驟的處理,文檔集的規(guī)模會(huì)縮小三分之一左右,大大提高了文檔分詞的效率.接下來便是采用分詞器對文檔進(jìn)行分詞操作,文檔分詞對于下一個(gè)階段的特征詞袋建立和建立文檔向量至關(guān)重要,文檔分詞是將文檔集變?yōu)閿?shù)字向量集的先決條件.

    圖1 總流程圖

    3.2 特征提取-建向量階段

    經(jīng)由上一個(gè)階段處理,文檔集中的每一篇文檔都變成了一個(gè)詞集doc={word|word∈doc}={word1、word2、word3……}.本階段主要有三項(xiàng)任務(wù):建立特征詞袋、濃縮特征詞袋、建立文檔向量.

    在第二節(jié)中已經(jīng)介紹到,DF即某個(gè)特征詞在文檔集中出現(xiàn)的頻率,在該階段的第一個(gè)任務(wù)便是根據(jù)特征詞的DF建立特征詞袋,以盡可能的保留文檔集中的重要特征.某個(gè)特征詞的DF值越大說明該特征詞在文檔集中分布越廣泛,同時(shí)也說明該特征詞的個(gè)性描述能力越低.DF 的取值范圍為[1/n,1],其中:

    DF取值為1時(shí),表示文檔集中每篇文檔都包含該特征詞;DF不可能取0值,只可能無限接近于0,若某個(gè)特征詞的DF等于1/n,其中n為文檔集中文檔的總篇數(shù),則表示該特征詞只在一篇文檔中出現(xiàn)過.顯然,若要選取即能兼顧覆蓋率又能保證特征描述力的特征詞袋,DF=1和DF=1/n的特征詞是均不能放入詞袋的.根據(jù)經(jīng)驗(yàn)值及實(shí)驗(yàn)論證,能放入特征詞袋的特征詞DF 的取值范圍一般為:[0.1/CN,1/2],其中CN為訓(xùn)練集數(shù)據(jù)分類結(jié)果中類簇的個(gè)數(shù),即放入特征詞袋的特征詞至少保證在某類文檔集的十分之一的文檔中都出現(xiàn)過,同時(shí)又不會(huì)在全部文檔集的一半以上的文檔中出現(xiàn)過,這樣既可以保證特征詞的“個(gè)性”,也可以很好兼顧特征詞的“共性”.

    該階段的第二個(gè)任務(wù)是濃縮特征詞袋.將上一個(gè)步驟得到的詞袋中的特征詞輸入進(jìn)word2vec,利用word2vec將特征詞集訓(xùn)練成詞向量,并將這些詞向量進(jìn)行劃分聚類,選取詞向量之間的夾角余弦做相似度度量.當(dāng)兩個(gè)詞向量夾角余弦等于1時(shí),這兩個(gè)特征詞完全重復(fù);當(dāng)兩個(gè)詞向量夾角的余弦值接近于1時(shí),兩個(gè)特征詞相似;兩個(gè)詞向量夾角的余弦越小,兩個(gè)特征詞越不相關(guān).通過word2vec的訓(xùn)練和聚類劃分,語義相似或相近的特征詞會(huì)聚到一個(gè)類簇中,因此,幾個(gè)語義相關(guān)的特征詞,可以從中選取一個(gè)特征詞乘以與其的夾角余弦值來表示,如公式(7)所示:

    舉例說明,經(jīng) word2vec 訓(xùn)練,“番茄”的詞向量與“西紅柿”的詞向量夾角余弦為0.73(訓(xùn)練結(jié)果與輸入詞集有關(guān)).顯然,特征詞袋以及文檔集中的“番茄”可以用“西紅柿”乘以 0.73 來代替,以此類推,利用 word2vec這一優(yōu)良特性可以大幅縮減特征詞袋的大小,有效預(yù)防后期文檔向量維度災(zāi)難的發(fā)生.

    該階段的最后一個(gè)任務(wù)的是建立文檔向量.首先,依據(jù)TF-IDF詞權(quán)算法計(jì)算出特征詞袋中每個(gè)特征詞在每篇文檔中的權(quán)重,然后以每個(gè)特征詞為維度建立文檔向量,文檔向量的維度等于特征詞袋中特征詞的個(gè)數(shù).至此,文檔不再由文字或詞語來描述,而是由數(shù)字來描述,文檔集由文字的集合變成了數(shù)字向量的集合,如式(8)所示,方便了后期的分類計(jì)算.

    3.3 分類階段

    本階段的主要任務(wù)是對文檔向量集進(jìn)行分類.

    分類階段的相似度計(jì)算公式為:

    相似度計(jì)算公式采用歐式距離乘以夾角余弦的倒數(shù),這樣既考慮了向量間的空間距離大小又兼顧了向量間的夾角方向問題,防止了距離小但方向反向的向量被分類到一個(gè)類簇中.

    該階段完成后,相似度高的文檔便會(huì)被分到一個(gè)類簇中.至此,便完成了對文檔的分類工作.

    4 實(shí)驗(yàn)設(shè)計(jì)及分析

    4.1 實(shí)驗(yàn)設(shè)計(jì)

    針對上文提出的基于word2vec的文檔分類方法進(jìn)行了實(shí)驗(yàn)設(shè)計(jì),本文實(shí)驗(yàn)選用的數(shù)據(jù)集為搜狗中文實(shí)驗(yàn)室的全網(wǎng)中文新聞數(shù)據(jù)集——“SogouCA”精簡版[17],該數(shù)據(jù)集采集了來自多家新聞?wù)军c(diǎn)9個(gè)欄目的分類新聞數(shù)據(jù),共17910篇文檔,實(shí)驗(yàn)數(shù)據(jù)集中的文檔分類情況如表1所示.

    表1 “SogouCA”數(shù)據(jù)集分布

    本文實(shí)驗(yàn)的預(yù)處理階段,分詞器選用的是中國科學(xué)院的漢語詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology Chinese Lexical Analysis System)[18].在最終的分類階段,選用 KNN(K=10)和SVM兩種分類器分別進(jìn)行了分類實(shí)驗(yàn),以消除不同分類器對分類結(jié)果的影響,并且采用五分交叉驗(yàn)證法,把數(shù)據(jù)量隨機(jī)分成5份,每次取其中4份作為訓(xùn)練集,剩余1分做測試集,最終取5次實(shí)驗(yàn)結(jié)果的平均值.

    本文實(shí)驗(yàn)采用C++作為算法的實(shí)現(xiàn)語言,開發(fā)環(huán)境為 Visual Studio 2013,將本文提出的文檔分類方法同文獻(xiàn)[6]中的方法和文獻(xiàn)[7]中的方法進(jìn)行了對比實(shí)驗(yàn).

    4.2 評價(jià)指標(biāo)

    本文實(shí)驗(yàn)引入三個(gè)文本分類領(lǐng)域常用的評價(jià)指標(biāo),即:召回率、精準(zhǔn)率和F-measure值[19].

    其中,召回率(Recall)是指某個(gè)類簇內(nèi)同屬于某類別文檔的數(shù)量與文檔集中本屬于該類別文檔的數(shù)量的比值,一般用字母R表示;準(zhǔn)確率(Precision)是指某個(gè)類簇內(nèi)同屬于某類別文檔的數(shù)量與該類簇內(nèi)所有文檔的數(shù)量的比值,一般用字母P表示;F-measure值是召回率(R)和準(zhǔn)確率(P)的幾何平均值,是用來綜合評價(jià)文檔的分類效果的一種指標(biāo),其計(jì)算公式可描述為:

    4.3 實(shí)驗(yàn)結(jié)果分析

    17910篇文檔經(jīng)過去停詞、分詞器分詞后,特征詞袋中不重復(fù)的特征詞有84874個(gè),根據(jù)DF排序,提取DF大于0.01且小于0.5的特征詞,共提取特征詞2493個(gè),經(jīng)word2vec濃縮后,特征詞袋還有340個(gè)特征詞,大大消除了后期文檔向量的維度災(zāi)難隱患.

    表2 文獻(xiàn)[6]分類方法效果 (單位:%)

    表3 文獻(xiàn)[7]分類方法效果 (單位:%)

    表4 本文分類方法效果 (單位:%)

    從表2、表3、表4中可以看出,排除分類器因素,本文提出的文檔分類方法在召回率上,較文獻(xiàn)[6]中的分類方法提高了6.82%,較文獻(xiàn)[7]中的分類方法提高了4.15%;在準(zhǔn)確率上,較文獻(xiàn)[6]中的分類方法提高了5.71%,較文獻(xiàn)[7]中的分類方法提高了 2.12%;在 F-measure值上,較文獻(xiàn)[6]中的分類方法提高了6.29%,較文獻(xiàn)[7]中的分類方法提高了3.14%.因此,本文提出的基于word2vec的文檔分類方法在分類效果上均優(yōu)于其他兩種方法,證明了本文提出的方法在文檔分類方面的有效性.

    5 結(jié)語

    本文在分析、總結(jié)前人研究經(jīng)驗(yàn)的基礎(chǔ)上,針對文檔分類中的兩個(gè)難點(diǎn)——文檔的特征提取和文檔的向量表示,提出了一種基于word2vec的文檔分類方法.該方法根據(jù)DF采集特征詞袋,以盡可能的保留文檔集中的重要特征詞,利用word2vec的潛在語義分析特性,濃縮了特征詞袋的大小,將語義相關(guān)的特征詞用一個(gè)主題詞乘以合適的系數(shù)來代替,降低了文檔向量的維度,節(jié)約了分類階段的耗時(shí),并且該方法還結(jié)合TFIDF改進(jìn)算法,對特征詞進(jìn)行加權(quán),賦予每個(gè)特征詞合適的權(quán)重.最后,本文設(shè)計(jì)了三組對比實(shí)驗(yàn),與另外兩種文檔分類方法相比,本文提出的基于word2vec的文檔分類方法在分類效果上較其他兩種方法均有所提高.

    1 Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space.arXiv:1301.3781,2013.

    2 Hwang M,Choi C,Youn B,et al.Word sense disambiguation based on relation structure.Proc.of the 2008 International Conference on Advanced Language Processing and Web Information Technology.Dalian,Liaoning,China.2008.15–20.

    3 蘇金樹,張博鋒,徐昕.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展.軟件學(xué)報(bào),2006,17(9):1848–1859.

    4 孫建濤.Web挖掘中的降維和分類方法研究[博士學(xué)位論文].北京:清華大學(xué),2005.

    5 胡承成.基于文本向量的微博情感分析[碩士學(xué)位論文].北京:中國科學(xué)院大學(xué),2015.

    6 李學(xué)明,李海瑞,薛亮,等.基于信息增益與信息熵的TFIDF 算法.計(jì)算機(jī)工程,2012,38(8):37–40.

    7 唐明,朱磊,鄒顯春.基于 Word2Vec 的一種文檔向量表示.計(jì)算機(jī)科學(xué),2016,43(6):214–217,269.[doi:10.11896/j.issn.1002-137X.2016.06.043]

    8 Lauly S,Boulanger A,Larochelle H.Learning multilingual word representations using a bag-of-words autoencoder.Computer Science,2014.

    9 Salton G,Yu CT.On the Construction of Effective Vocabularies for Information Retrieval.Proc.of the 1973 Meeting on Programming Languages and Information Retrieval.New York,NY,USA.1973.48–60.

    10 Salton G,Fox EA,Wu H.Extended boolean information retrieval.Communications of the ACM,1983,26(11):1022–1036.[doi:10.1145/182.358466]

    11 Bengio Y,Ducharme R,Vincent P,et al.A neural probabilistic language model.The Journal of Machine Learning Research,2003,3(6):1137–1155.

    12 Mnih A,Hinton G.Three new graphical models for statistical language modelling.Proc.of the 24th International Conference on Machine Learning.Corvalis,Oregon,USA.2007.641–648.

    13 Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space.arXiv:1301.3781,2013.

    14 Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality.Proc.of Advances in Neural Information Processing Systems 26.2013.

    15 熊文新,宋柔.信息檢索用戶查詢語句的停用詞過濾.計(jì)算機(jī)工程,2007,33(6):195–197.

    16 Lo RTW,He B,Ounis I.Automatically building a stopword list for an information retrieval system.Journal of Digital Information Management,2005,(3):3–8.

    17 “SogouCA”語料庫.http://www.sogou.com/labs/resource/ca.php,2012.

    18 Zhang HP,Yu HK,Xiong DY,et al.HHMM-based Chinese lexical analyzer ICTCLAS.Proc.of the 2nd SIGHAN Workshop on Chinese Language Processing.Sapporo,Japan.2003.184–187.

    19 Anoual H,Aboutajdine D,Elfkihi S,et al.Features extraction for text detection and localization.Proc.of the 5th International Symposium on I/V Communications and Mobile Network (ISVC).Rabat,Morocco.2010.1–4.

    Document Classification Method Based on Word2vec

    CHEN Jie,CHEN Cai,LIANG Yi
    (Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China)

    The feature extraction and the vector representation are the key points in document classification.In this paper,we propose a classification method based on word2vec for the two key points.This method builds the bag of feature words by Document Frequency (DF)to retain the important feature of the document as much as possible.It takes advantage of the Latent Semantic Analysis of word2vec thus to reduce the size of bag of feature words and the dimension of document vector effectively,which replaces the semantically relevant words with the product of a topic word and proper parameters.Besides,it also gives each feature word the optimal weight by combining with the TF-IDF algorithm.Finally,compared with two other document classification methods,the method presented in this paper has made some significant progress,and the experimental result has proved its effectiveness.

    document vector;feature extraction of document;document classification;TF-IDF;word2vec

    陳杰,陳彩,梁毅.基于 Word2vec 的文檔分類方法.計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(11):159–164.http://www.c-s-a.org.cn/1003-3254/6055.html

    2017-02-23;修改時(shí)間:2017-03-09;采用時(shí)間:2017-03-20

    ?

    猜你喜歡
    特征詞文檔語義
    有人一聲不吭向你扔了個(gè)文檔
    語言與語義
    基于改進(jìn)TFIDF算法的郵件分類技術(shù)
    產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    “上”與“下”語義的不對稱性及其認(rèn)知闡釋
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    面向文本分類的特征詞選取方法研究與改進(jìn)
    認(rèn)知范疇模糊與語義模糊
    不讓他人隨意下載Google文檔
    電腦迷(2012年4期)2012-04-29 06:12:13
    精品久久久久久久久久久久久| 亚洲成人中文字幕在线播放| av一本久久久久| 亚洲最大成人手机在线| 精品亚洲乱码少妇综合久久| 国内精品一区二区在线观看| 日韩av不卡免费在线播放| 日韩欧美三级三区| 男插女下体视频免费在线播放| 中文字幕免费在线视频6| 日日摸夜夜添夜夜添av毛片| 国产精品国产三级专区第一集| 777米奇影视久久| 国产成人a∨麻豆精品| 最近2019中文字幕mv第一页| 久久久久久久久中文| 午夜福利网站1000一区二区三区| 麻豆国产97在线/欧美| 禁无遮挡网站| 亚洲在线自拍视频| 国产有黄有色有爽视频| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 卡戴珊不雅视频在线播放| 亚洲一区高清亚洲精品| 久久久久免费精品人妻一区二区| 国产乱人视频| 色综合站精品国产| 免费在线观看成人毛片| 小蜜桃在线观看免费完整版高清| 国产av在哪里看| 色综合站精品国产| 国产精品久久久久久精品电影小说 | 亚洲aⅴ乱码一区二区在线播放| 亚洲一区高清亚洲精品| 国产精品一区二区三区四区免费观看| 婷婷六月久久综合丁香| 亚洲综合精品二区| 国产成人精品一,二区| 最近中文字幕2019免费版| 日韩精品有码人妻一区| 日韩av在线大香蕉| 国产单亲对白刺激| av卡一久久| 蜜桃亚洲精品一区二区三区| 日韩,欧美,国产一区二区三区| 国产av在哪里看| 舔av片在线| 日韩一区二区三区影片| kizo精华| 晚上一个人看的免费电影| 亚洲av不卡在线观看| 亚洲精品一二三| 亚洲精品亚洲一区二区| 一级毛片电影观看| 水蜜桃什么品种好| 日韩欧美一区视频在线观看 | 69av精品久久久久久| 国产精品伦人一区二区| 国产一区二区三区综合在线观看 | 日韩欧美 国产精品| 777米奇影视久久| 精品欧美国产一区二区三| 欧美一级a爱片免费观看看| 亚洲电影在线观看av| 国产成人免费观看mmmm| 最近手机中文字幕大全| 欧美潮喷喷水| 男人舔奶头视频| 国产亚洲最大av| 97精品久久久久久久久久精品| 80岁老熟妇乱子伦牲交| 亚洲成人精品中文字幕电影| 亚洲国产精品成人综合色| 中文字幕免费在线视频6| 女人久久www免费人成看片| 91av网一区二区| 日本爱情动作片www.在线观看| 如何舔出高潮| 国产av码专区亚洲av| 97超视频在线观看视频| 精品人妻熟女av久视频| 欧美激情国产日韩精品一区| 久久国产乱子免费精品| 丝袜美腿在线中文| 亚洲在线观看片| 三级国产精品欧美在线观看| 国产高清国产精品国产三级 | 日韩亚洲欧美综合| 国内少妇人妻偷人精品xxx网站| 777米奇影视久久| 毛片一级片免费看久久久久| 在线免费观看不下载黄p国产| 干丝袜人妻中文字幕| 国产 一区 欧美 日韩| www.av在线官网国产| 看十八女毛片水多多多| 日本免费在线观看一区| 男女啪啪激烈高潮av片| 2018国产大陆天天弄谢| 超碰97精品在线观看| 一个人看视频在线观看www免费| 欧美日韩在线观看h| 免费观看性生交大片5| 中文字幕制服av| 国产白丝娇喘喷水9色精品| 亚洲国产av新网站| 久久久久精品性色| 国产又色又爽无遮挡免| av国产免费在线观看| 毛片一级片免费看久久久久| 免费人成在线观看视频色| 寂寞人妻少妇视频99o| 国产国拍精品亚洲av在线观看| 亚洲欧美一区二区三区国产| 久久亚洲国产成人精品v| 亚洲成人精品中文字幕电影| 亚洲综合精品二区| 午夜视频国产福利| 欧美日韩精品成人综合77777| 深爱激情五月婷婷| 国产美女午夜福利| av在线亚洲专区| 色网站视频免费| eeuss影院久久| 午夜福利在线观看吧| av在线老鸭窝| 久久精品人妻少妇| 女人十人毛片免费观看3o分钟| 亚洲久久久久久中文字幕| 精品不卡国产一区二区三区| 国产成人福利小说| 国产视频内射| .国产精品久久| 免费电影在线观看免费观看| 久久精品国产亚洲网站| 免费av不卡在线播放| 黑人高潮一二区| 久久久久精品性色| 欧美不卡视频在线免费观看| 高清av免费在线| 久久久久性生活片| 大陆偷拍与自拍| 亚洲av成人av| 色视频www国产| 精品酒店卫生间| 色吧在线观看| 水蜜桃什么品种好| 波野结衣二区三区在线| 国产精品爽爽va在线观看网站| 如何舔出高潮| 午夜福利高清视频| 亚洲精品久久午夜乱码| 日韩视频在线欧美| 日本午夜av视频| 欧美xxxx黑人xx丫x性爽| 国产探花在线观看一区二区| 日韩欧美精品v在线| 男女视频在线观看网站免费| 国产淫语在线视频| 欧美日韩精品成人综合77777| 午夜老司机福利剧场| 秋霞伦理黄片| 日韩不卡一区二区三区视频在线| 秋霞在线观看毛片| 夜夜看夜夜爽夜夜摸| 亚洲欧洲日产国产| 亚洲不卡免费看| 精品一区二区三区人妻视频| 狂野欧美激情性xxxx在线观看| 免费看av在线观看网站| 午夜福利网站1000一区二区三区| 69av精品久久久久久| 国产成人a区在线观看| 午夜日本视频在线| 午夜免费激情av| 国产伦精品一区二区三区四那| 97人妻精品一区二区三区麻豆| 亚洲欧美清纯卡通| 少妇熟女aⅴ在线视频| 美女黄网站色视频| 一级av片app| 欧美日韩综合久久久久久| 有码 亚洲区| 亚洲国产成人一精品久久久| 日韩人妻高清精品专区| 国模一区二区三区四区视频| 人人妻人人看人人澡| 少妇被粗大猛烈的视频| 麻豆成人午夜福利视频| 久久久久国产网址| 国产欧美另类精品又又久久亚洲欧美| 中文字幕亚洲精品专区| 国产乱人视频| 午夜老司机福利剧场| 国产又色又爽无遮挡免| 国产一区亚洲一区在线观看| 午夜精品国产一区二区电影 | 国产精品福利在线免费观看| 日韩亚洲欧美综合| av福利片在线观看| 欧美日韩视频高清一区二区三区二| 亚洲国产精品国产精品| 中文字幕av成人在线电影| 亚洲欧美日韩卡通动漫| 国产又色又爽无遮挡免| 日日撸夜夜添| 亚洲av不卡在线观看| 大话2 男鬼变身卡| av在线播放精品| 成人美女网站在线观看视频| av播播在线观看一区| 久久久久九九精品影院| 99久久九九国产精品国产免费| 一级片'在线观看视频| 免费看日本二区| 亚洲av日韩在线播放| 免费观看性生交大片5| 免费少妇av软件| 美女大奶头视频| 久久国内精品自在自线图片| 亚洲经典国产精华液单| 97在线视频观看| 别揉我奶头 嗯啊视频| 国产黄色免费在线视频| 97热精品久久久久久| 国产精品不卡视频一区二区| 七月丁香在线播放| 晚上一个人看的免费电影| 中文天堂在线官网| 男插女下体视频免费在线播放| 麻豆成人av视频| 国产精品一及| 中文字幕制服av| 国产永久视频网站| 国产精品熟女久久久久浪| 国内精品一区二区在线观看| 乱人视频在线观看| 免费av观看视频| 久久99蜜桃精品久久| 日本一二三区视频观看| h日本视频在线播放| 九色成人免费人妻av| 午夜精品国产一区二区电影 | av国产免费在线观看| 久久久久精品性色| 十八禁网站网址无遮挡 | 国产伦在线观看视频一区| 国产精品人妻久久久影院| 欧美3d第一页| 亚洲精品自拍成人| 18禁裸乳无遮挡免费网站照片| 中国美白少妇内射xxxbb| 亚洲精品色激情综合| 又爽又黄无遮挡网站| 永久免费av网站大全| 丝袜美腿在线中文| 国产成人一区二区在线| 国产精品日韩av在线免费观看| 久久久久久久久久久丰满| 亚洲精品久久久久久婷婷小说| 国语对白做爰xxxⅹ性视频网站| 亚洲精品一二三| 国产精品一区二区三区四区久久| 伊人久久国产一区二区| 日韩中字成人| 亚洲欧美一区二区三区国产| 亚洲成人av在线免费| 欧美性猛交╳xxx乱大交人| 国产成人a区在线观看| 欧美日韩在线观看h| 在线免费十八禁| 伦理电影大哥的女人| 激情五月婷婷亚洲| 成人亚洲精品av一区二区| 亚洲色图av天堂| 亚洲精品国产成人久久av| 韩国高清视频一区二区三区| 成年版毛片免费区| 日韩成人av中文字幕在线观看| 美女被艹到高潮喷水动态| 国产精品一及| 18禁动态无遮挡网站| 精品国产露脸久久av麻豆 | 国产精品精品国产色婷婷| 国产精品伦人一区二区| 欧美三级亚洲精品| av免费观看日本| 美女内射精品一级片tv| 亚洲国产精品国产精品| 欧美最新免费一区二区三区| 久久久久久久久大av| 亚洲最大成人手机在线| 夫妻性生交免费视频一级片| 国产视频首页在线观看| 久久草成人影院| 三级经典国产精品| 精品国内亚洲2022精品成人| 日韩欧美精品免费久久| 国产午夜精品一二区理论片| 日韩中字成人| 精品人妻熟女av久视频| av福利片在线观看| 色综合站精品国产| 在线观看人妻少妇| 精品人妻视频免费看| 亚洲va在线va天堂va国产| 国产淫语在线视频| 婷婷色综合大香蕉| 禁无遮挡网站| 国产探花极品一区二区| 亚洲欧洲日产国产| 天堂影院成人在线观看| 亚洲欧美日韩无卡精品| 最后的刺客免费高清国语| 免费看不卡的av| 亚洲精品乱久久久久久| 国产91av在线免费观看| 久久久亚洲精品成人影院| 国产综合精华液| 国产色爽女视频免费观看| 只有这里有精品99| 丝袜美腿在线中文| 亚洲三级黄色毛片| 国产国拍精品亚洲av在线观看| 观看免费一级毛片| 丰满人妻一区二区三区视频av| 欧美成人午夜免费资源| 精品国产三级普通话版| 亚洲美女搞黄在线观看| 成人国产麻豆网| 亚洲av不卡在线观看| 国产一区二区三区av在线| 国产视频内射| 国产精品福利在线免费观看| 亚洲成人一二三区av| 国产av在哪里看| 最近的中文字幕免费完整| 日韩欧美 国产精品| 精品欧美国产一区二区三| 欧美日韩一区二区视频在线观看视频在线 | 国产黄频视频在线观看| 久久精品久久久久久久性| 婷婷色麻豆天堂久久| 午夜爱爱视频在线播放| 男女啪啪激烈高潮av片| 久久久久性生活片| 亚洲成人精品中文字幕电影| 如何舔出高潮| 日韩不卡一区二区三区视频在线| 日日啪夜夜爽| 亚洲av免费在线观看| 最近最新中文字幕大全电影3| 日韩制服骚丝袜av| 又爽又黄a免费视频| 亚洲伊人久久精品综合| 国产 一区 欧美 日韩| 七月丁香在线播放| 精品久久久噜噜| 亚洲自偷自拍三级| 成人欧美大片| 亚洲最大成人av| 久久久欧美国产精品| 97在线视频观看| 成人午夜精彩视频在线观看| 青春草亚洲视频在线观看| 久久久久久久久中文| 91久久精品国产一区二区三区| 成人一区二区视频在线观看| 一级片'在线观看视频| 联通29元200g的流量卡| 国产亚洲午夜精品一区二区久久 | 国产乱人视频| 国产视频内射| av国产免费在线观看| 女的被弄到高潮叫床怎么办| 亚洲欧洲国产日韩| videos熟女内射| 国产成人免费观看mmmm| 男女那种视频在线观看| 一边亲一边摸免费视频| 久久久欧美国产精品| 日韩强制内射视频| 内射极品少妇av片p| 日本免费a在线| 亚洲,欧美,日韩| 一夜夜www| 99re6热这里在线精品视频| 嫩草影院新地址| 人妻制服诱惑在线中文字幕| 观看美女的网站| 国产色婷婷99| 麻豆国产97在线/欧美| 成人一区二区视频在线观看| 有码 亚洲区| 黄色欧美视频在线观看| 久久久久久久午夜电影| 高清视频免费观看一区二区 | 熟女电影av网| 在线 av 中文字幕| 91午夜精品亚洲一区二区三区| 成人性生交大片免费视频hd| 只有这里有精品99| 中文字幕亚洲精品专区| 高清日韩中文字幕在线| 韩国av在线不卡| 婷婷色麻豆天堂久久| 国产亚洲一区二区精品| 又大又黄又爽视频免费| 天堂影院成人在线观看| 国产国拍精品亚洲av在线观看| 日韩电影二区| 日韩大片免费观看网站| 国产伦精品一区二区三区四那| or卡值多少钱| 人妻制服诱惑在线中文字幕| 最后的刺客免费高清国语| 国产精品久久久久久久电影| 能在线免费观看的黄片| 黄片无遮挡物在线观看| 丝瓜视频免费看黄片| 色吧在线观看| 80岁老熟妇乱子伦牲交| 亚洲精品久久午夜乱码| 色网站视频免费| 亚洲av免费高清在线观看| 国产爱豆传媒在线观看| 韩国高清视频一区二区三区| 免费播放大片免费观看视频在线观看| 国产色爽女视频免费观看| 国产av不卡久久| 国产精品人妻久久久久久| 国产精品女同一区二区软件| 国产精品.久久久| 国产在视频线精品| av网站免费在线观看视频 | 亚洲精品aⅴ在线观看| 久久精品夜色国产| av免费观看日本| 色尼玛亚洲综合影院| 亚洲精品乱久久久久久| 亚洲人成网站在线观看播放| 免费观看性生交大片5| av天堂中文字幕网| 男人爽女人下面视频在线观看| 久久鲁丝午夜福利片| 久久午夜福利片| 国产午夜福利久久久久久| 亚洲欧美一区二区三区国产| av免费观看日本| 极品少妇高潮喷水抽搐| 久久久久久国产a免费观看| 高清视频免费观看一区二区 | 日韩欧美 国产精品| 国产精品国产三级国产专区5o| 精品久久久久久久久亚洲| 日韩欧美国产在线观看| 色哟哟·www| 亚洲国产日韩欧美精品在线观看| 一二三四中文在线观看免费高清| 亚洲第一区二区三区不卡| 最近2019中文字幕mv第一页| 精品久久久久久久久亚洲| 国产大屁股一区二区在线视频| 少妇的逼好多水| 亚洲性久久影院| 六月丁香七月| 国产爱豆传媒在线观看| 91精品国产九色| 亚洲av.av天堂| 午夜免费观看性视频| 日本免费a在线| av天堂中文字幕网| 简卡轻食公司| 欧美日韩精品成人综合77777| 尤物成人国产欧美一区二区三区| 我的女老师完整版在线观看| 午夜视频国产福利| 91久久精品国产一区二区成人| 亚洲电影在线观看av| 亚洲精品成人av观看孕妇| 看非洲黑人一级黄片| 国产精品麻豆人妻色哟哟久久 | 国产精品一区二区三区四区免费观看| 亚洲av免费高清在线观看| 蜜臀久久99精品久久宅男| 成年av动漫网址| 亚洲熟妇中文字幕五十中出| 国产精品99久久久久久久久| 性色avwww在线观看| 国产精品综合久久久久久久免费| 又爽又黄无遮挡网站| av免费在线看不卡| 18+在线观看网站| 国产精品久久久久久av不卡| 国产爱豆传媒在线观看| 免费看日本二区| 久久久久久伊人网av| 波多野结衣巨乳人妻| 啦啦啦中文免费视频观看日本| 免费观看av网站的网址| 国产精品国产三级国产专区5o| 亚洲欧美成人综合另类久久久| 精品国内亚洲2022精品成人| 免费观看性生交大片5| 日本-黄色视频高清免费观看| 久久久久性生活片| 日日撸夜夜添| 中文资源天堂在线| 插阴视频在线观看视频| 只有这里有精品99| 国产大屁股一区二区在线视频| 日韩强制内射视频| av天堂中文字幕网| 秋霞在线观看毛片| 久久久久久伊人网av| 人人妻人人看人人澡| 毛片一级片免费看久久久久| 在线观看av片永久免费下载| 成年av动漫网址| 精品久久国产蜜桃| 岛国毛片在线播放| 麻豆成人午夜福利视频| 97人妻精品一区二区三区麻豆| 亚洲人成网站高清观看| 国产精品日韩av在线免费观看| 成人高潮视频无遮挡免费网站| 日韩亚洲欧美综合| 黄片wwwwww| 亚洲丝袜综合中文字幕| 少妇猛男粗大的猛烈进出视频 | 国产精品日韩av在线免费观看| 黄色配什么色好看| 亚洲欧美中文字幕日韩二区| 久久久久精品久久久久真实原创| 欧美潮喷喷水| 一个人观看的视频www高清免费观看| 1000部很黄的大片| 中文字幕免费在线视频6| 国产黄a三级三级三级人| 少妇高潮的动态图| 国产成人aa在线观看| 少妇丰满av| 国产 一区 欧美 日韩| 偷拍熟女少妇极品色| 亚洲电影在线观看av| 婷婷色av中文字幕| 一级片'在线观看视频| 黄色一级大片看看| av女优亚洲男人天堂| 欧美bdsm另类| 亚洲av中文字字幕乱码综合| 亚洲精品影视一区二区三区av| 亚洲精品日韩在线中文字幕| 又爽又黄a免费视频| 听说在线观看完整版免费高清| 国产有黄有色有爽视频| 又爽又黄无遮挡网站| 亚洲av成人av| 国产白丝娇喘喷水9色精品| 水蜜桃什么品种好| 色综合亚洲欧美另类图片| 亚洲精华国产精华液的使用体验| 婷婷色综合www| 日韩欧美精品v在线| 免费观看精品视频网站| 91久久精品国产一区二区成人| 男女边摸边吃奶| 久久精品国产亚洲av天美| 91久久精品国产一区二区三区| 人体艺术视频欧美日本| 麻豆av噜噜一区二区三区| av又黄又爽大尺度在线免费看| 国内精品一区二区在线观看| 国产麻豆成人av免费视频| 久久久成人免费电影| 亚洲性久久影院| 中文乱码字字幕精品一区二区三区 | 国产精品美女特级片免费视频播放器| 日本wwww免费看| 欧美日本视频| 亚洲av免费高清在线观看| 男人舔女人下体高潮全视频| 赤兔流量卡办理| 丰满少妇做爰视频| 亚洲国产精品sss在线观看| 秋霞伦理黄片| 日韩欧美精品免费久久| 美女大奶头视频| 国产伦精品一区二区三区四那| 成人无遮挡网站| 国产 一区精品| 国产伦精品一区二区三区四那| 亚洲国产最新在线播放| 精品人妻视频免费看| 国产伦精品一区二区三区四那| 日韩欧美精品免费久久| 97人妻精品一区二区三区麻豆| 日韩欧美一区视频在线观看 | 国产黄色免费在线视频| 日本一本二区三区精品| 日日干狠狠操夜夜爽| 午夜日本视频在线| 亚洲av成人精品一区久久| 成人午夜高清在线视频| 国产黄色免费在线视频| 天堂网av新在线| 91久久精品国产一区二区成人| av在线观看视频网站免费| 午夜精品一区二区三区免费看| 亚洲婷婷狠狠爱综合网| 少妇人妻一区二区三区视频| 日韩一区二区视频免费看| 天天躁日日操中文字幕| 免费高清在线观看视频在线观看| 国产 一区 欧美 日韩|