• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多類別文本分類方法比較研究

    2022-02-22 12:20:28于衛(wèi)紅
    關(guān)鍵詞:決策樹類別文檔

    于衛(wèi)紅

    (大連海事大學(xué) 航運(yùn)經(jīng)濟(jì)與管理學(xué)院,遼寧 大連 116026)

    0 引 言

    文本分類是指對于一個特定的文檔,判斷其是否屬于某個類別。根據(jù)目標(biāo)類別的不同,通常將文本分類問題分為三種類型:

    (1)二分類:表示分類任務(wù)中有兩個類別(0或者1),如垃圾郵件分類。

    (2)多類別分類:表示分類任務(wù)中有多個類別,如客戶的評論情感可分為5個類別:非常滿意、滿意、一般、不滿意、非常不滿意。

    (3)多標(biāo)簽分類:表示給每個樣本分配一個標(biāo)簽集。如,一個文本可能被同時認(rèn)為是與宗教、政治或教育都相關(guān)的話題,或全部無關(guān)。

    在文本挖掘的實(shí)際應(yīng)用中,多類別分類問題更加常見,并且,多標(biāo)簽分類問題也可以轉(zhuǎn)化為多類別分類問題來加以解決。多類別分類問題較之二分類問題更加復(fù)雜,如何選擇合適的算法,構(gòu)建出性能較優(yōu)的多類別分類模型至關(guān)重要。

    決策樹、隨機(jī)森林、樸素貝葉斯等算法都可用于多類別分類問題,但每個算法都是基于某些特定的假設(shè)的,都具有各自的優(yōu)缺點(diǎn),沒有任何一種分類算法可以在所有的問題解決中都有良好的表現(xiàn)。因此,只有比較了多種算法的性能才能為具體的問題選擇出較佳的模型。

    1 文本分類的流程、方法與性能評價指標(biāo)

    1.1 文本分類的流程

    如圖1所示,無論何種類型的文本分類問題,其處理過程大都包括文本預(yù)處理、文本特征表示、分類模型構(gòu)建、模型評估幾個步驟。其中,文本特征表示和分類模型的構(gòu)建是文本分類問題的核心。

    圖1 文本分類的流程

    1.2 文本特征表示的幾種方法

    1.2.1 詞袋模型

    詞袋模型是一種基于詞頻的對文檔進(jìn)行特征提取的方法,即將文檔看作詞的集合,對文檔中出現(xiàn)的所有詞進(jìn)行詞頻統(tǒng)計(jì),用詞頻向量來表示文檔。詞袋模型忽略了文本的語法和語序等要素,只考慮詞在文檔中出現(xiàn)的次數(shù)。

    1.2.2 TF-IDF模型

    TF-IDF模型在考慮詞頻的基礎(chǔ)上考慮了詞對于一篇文章的重要性。TF(term frequency)指的是一個單詞在某個文檔中出現(xiàn)的頻率。通常,一個詞在一篇文檔中出現(xiàn)的頻率越高,這個詞對于該文檔越重要。IDF(inverse document frequency)指的是逆向文檔頻率,代表了詞對于文檔的區(qū)分度,如果一個詞在一篇文檔中多次出現(xiàn),但在其他文檔中很少出現(xiàn),則認(rèn)為這個詞對于該文檔的區(qū)分能力較強(qiáng)。一個詞的TF-IDF值的計(jì)算公式為:

    TF-IDF=TF*IDF;

    (1)

    1.2.3 詞嵌入模型

    基于詞嵌入的文本特征表示是一種文本深度表示模型,其主要思想是將文本轉(zhuǎn)換為較低維度空間的矢量表示。首先基于大量的語料庫訓(xùn)練出詞嵌入模型,即將每個詞映射成

    K

    維實(shí)數(shù)向量(通常

    K

    =50~200),并且使得這些向量能較好地表達(dá)不同詞之間的相似和類比關(guān)系,以引入一定的語義信息。常用的詞嵌入算法有Word2Vec和Glove。本研究使用Word2Vec算法,Word2Vec有兩種實(shí)現(xiàn)詞嵌入的方式,即CBOW(連續(xù)詞袋)和SKIP-GRAM(跳字模型)。CBOW方法以上下文單詞作為輸入,預(yù)測目標(biāo)單詞;而SKIP-GRAM方法以目標(biāo)單詞作為輸入,預(yù)測單詞周圍的上下文。最后,基于訓(xùn)練好的詞嵌入模型,使用Doc2Vec算法生成文本的向量表示模型,即將每個文本映射成

    K

    維實(shí)數(shù)向量。

    1.3 構(gòu)建文本分類模型的常用算法

    構(gòu)建文本分類模型的算法有很多,如傳統(tǒng)算法:決策樹、多層感知器、樸素貝葉斯、邏輯回歸和SVM;集成學(xué)習(xí)算法:隨機(jī)森林、AdaBoost、lightGBM和xgBoost;以及深度學(xué)習(xí)算法:前饋神經(jīng)網(wǎng)絡(luò)和LSTM。對所有算法進(jìn)行比較,工作量巨大,本研究只比較常用的5種算法:決策樹、KNN、樸素貝葉斯、SVM和隨機(jī)森林。

    1.3.1 決策樹

    決策樹是一種以樹形結(jié)構(gòu)來展示決策規(guī)則和分類結(jié)果的模型,其思想是通過ID3、C4.5、CART等算法將看似無序、雜亂的訓(xùn)練數(shù)據(jù)轉(zhuǎn)化成可以預(yù)測未知實(shí)例的樹狀模型。決策樹中每一條從根節(jié)點(diǎn)(對最終分類結(jié)果貢獻(xiàn)最大的屬性)到葉子節(jié)點(diǎn)(最終分類結(jié)果)的路徑都代表一條決策規(guī)則。

    1.3.2 KNN

    KNN算法又稱

    K

    鄰近算法、

    K

    最近鄰算法,其核心思想是如果一個樣本在特征空間中的

    K

    個最相鄰的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。

    1.3.3 樸素貝葉斯

    樸素貝葉斯算法的核心思想非常樸素:對于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認(rèn)為此待分類項(xiàng)屬于哪個類別。

    1.3.4 SVM

    SVM即支持向量機(jī)算法,最初提出是為了解決二分類問題,核心思想是基于訓(xùn)練集在樣本空間中找到最優(yōu)的一條線(超平面),將不同類別的樣本分開。所謂的“支持向量”就是那些落在分離超平面邊緣的數(shù)據(jù)點(diǎn)形成的線。SVM算法也可以用于解決多類別分類問題,此時,支持向量機(jī)仍將問題視為二分類問題,但會引入多個支持向量機(jī)用來兩兩區(qū)分每一個類,直到所有的類之間都有區(qū)別。

    1.3.5 隨機(jī)森林

    隨機(jī)森林是一種集成學(xué)習(xí)算法,通過構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)。隨機(jī)森林的出現(xiàn)主要是為了解決單一決策樹可能出現(xiàn)的很大誤差和過擬合的問題,其核心思想是將多個不同的決策樹進(jìn)行組合,利用這種組合降低單一決策樹有可能帶來的片面性和判斷不準(zhǔn)確性。隨機(jī)森林中的每一棵決策樹都是獨(dú)立、無關(guān)聯(lián)的,當(dāng)對一個新的樣本進(jìn)行判斷或預(yù)測時,讓森林中的每一棵決策樹分別進(jìn)行判斷,看看這個樣本應(yīng)該屬于哪一類,然后統(tǒng)計(jì)哪一類被選擇最多,就預(yù)測這個樣本為哪一類。

    1.4 分類模型的評估指標(biāo)

    二分類問題常用準(zhǔn)確率、查準(zhǔn)率、召回率等指標(biāo)評估模型的優(yōu)劣,而對于多類別分類問題,有些二分類的評價指標(biāo)則不適用。

    通常使用Kappa系數(shù)對多類別分類模型進(jìn)行評估。Kappa系數(shù)是統(tǒng)計(jì)學(xué)中用于評估一致性的一種方法,分類問題的一致性就是模型的預(yù)測結(jié)果與實(shí)際分類結(jié)果是否一致。Kappa系數(shù)的取值范圍是[-1,1],值越大,則表示模型的分類性能越好。

    Kappa系數(shù)的計(jì)算公式為:

    (2)

    其中,

    p

    是每一類正確分類的樣本數(shù)量之和除以總樣本數(shù),也就是總體分類精度。假設(shè)每一類的真實(shí)樣本個數(shù)分別為

    a

    ,

    a

    ,…,

    a

    ;而預(yù)測出來的每一類的樣本個數(shù)分別為

    b

    ,

    b

    ,…,

    b

    ;總樣本個數(shù)為

    n

    ,則有:

    (3)

    2 多類別文本分類方法比較方案的設(shè)計(jì)

    2.1 比較對象

    本研究在比較對象上考慮了文本特征表示方法和分類算法兩個維度。其中,文本特征表示選取了TF-IDF、詞嵌入CBOW和詞嵌入SKIP-GRAM三種方法;分類算法包括5種:決策樹、SVM、KNN、樸素貝葉斯和隨機(jī)森林。對不同的文本特征表示方法和分類算法進(jìn)行組合,構(gòu)成15種分類模型,以這15種分類模型為比較對象。

    2.2 比較指標(biāo)

    在比較指標(biāo)上考慮了時間和分類效果。分類效果使用Kappa系數(shù)來衡量,時間方面包括:(1)文本特征表示的處理時間;(2)分類模型的構(gòu)建時間與測試樣本的預(yù)測時間之和。時間均以秒為單位。

    2.3 比較流程

    在比較流程上考慮了數(shù)據(jù)規(guī)模與比較次數(shù)?;舅悸肥牵?/p>(1)在原始數(shù)據(jù)集中隨機(jī)采樣

    N

    條數(shù)據(jù);(2)分別使用TF-IDF、詞嵌入CBOW、詞嵌入SKIP-GRAM方法構(gòu)建這

    N

    條數(shù)據(jù)的文本特征矩陣,將這

    N

    條數(shù)據(jù)按照一定的比例(如8∶2)拆分成訓(xùn)練集和測試集;

    (3)分別使用SVM、KNN等不同的分類算法基于不同的文本特征表示構(gòu)建分類模型,并對測試集進(jìn)行預(yù)測,統(tǒng)計(jì)各模型的Kappa系數(shù)、運(yùn)行時間等指標(biāo);

    (4)重復(fù)步驟(1)~(3)

    M

    次(如

    M

    =50)后,計(jì)算在數(shù)據(jù)規(guī)模為

    N

    條數(shù)據(jù)時,

    M

    次比較后各比較指標(biāo)的平均值;(5)增加數(shù)據(jù)規(guī)模后繼續(xù)執(zhí)行步驟(1)~步驟(4),如設(shè)定每次增加200條數(shù)據(jù),即

    N

    =

    N

    +200,得到新的數(shù)據(jù)規(guī)模下

    M

    次比較后各比較指標(biāo)的平均值;

    (6)當(dāng)數(shù)據(jù)規(guī)模超過了原始數(shù)據(jù)集的條數(shù)后停止比較,綜合評估不同數(shù)據(jù)規(guī)模下不同模型的性能。

    3 多類別文本分類方法比較實(shí)例

    3.1 數(shù)據(jù)集

    3.1.1 原始數(shù)據(jù)集

    使用八爪魚采集器從好奇心日報、新浪網(wǎng)、網(wǎng)易等媒體閱讀網(wǎng)站爬取了3 000條不同類別的資訊文本,整理成研究所需要的原始數(shù)據(jù)集,保存到CSV格式的文件中。該數(shù)據(jù)集由分類、標(biāo)題、正文三個字段組成,如圖2所示。

    圖2 原始數(shù)據(jù)集示例

    其中,文本類別有6個:商業(yè)、娛樂、游戲、文化、智能和時尚,各類別文本的數(shù)據(jù)量在原始數(shù)據(jù)集中大致呈平均分布,數(shù)據(jù)集適合做多類別文本分類研究。

    3.1.2 訓(xùn)練數(shù)據(jù)集與測試數(shù)據(jù)集

    本實(shí)例只研究文本標(biāo)題的自動分類,因此訓(xùn)練集和測試集只涉及到類別和標(biāo)題兩個字段。如前文所述,在比較過程中,每次從原始數(shù)據(jù)集中采樣一定規(guī)模的數(shù)據(jù),將這些數(shù)據(jù)按照8∶2的比例拆分成訓(xùn)練集和測試集。采樣規(guī)模從400條逐漸遞增到3 000條,步長為200,并且,同一規(guī)模的訓(xùn)練集和測試集進(jìn)行50次建模比較。

    3.1.3 原始數(shù)據(jù)集中“正文”字段的作用

    原始數(shù)據(jù)集中每一條數(shù)據(jù)的正文都是一個長文本,正文總字?jǐn)?shù)達(dá)到了7 854 428,完全可以將正文內(nèi)容作為訓(xùn)練詞嵌入模型的語料庫。

    3.2 標(biāo)題文本的特征表示

    3.2.1 TF-IDF文本特征表示

    在R語言環(huán)境下使用quanteda包中的corpus()、tokens()、dfm()、dfm_tfidf等函數(shù)構(gòu)建標(biāo)題的TF-IDF文本特征表示模型,主要語法如下:

    原始文件<-read.csv(文件名.csv)

    標(biāo)題內(nèi)容<-corpus(原始文件$標(biāo)題)

    分詞<-tokens(標(biāo)題內(nèi)容)

    分詞<-tokens_remove(分詞, stopwords(language="zh",source="misc"))

    文檔詞條矩陣<-dfm(分詞)

    TF-IDF文本特征表示<-dfm_tfidf(文檔詞條矩陣)

    以采樣400條數(shù)據(jù)為例,得到的標(biāo)題文本的TF-IDF文本特征矩陣如圖3所示。

    圖3 標(biāo)題文本的TF-IDF表示矩陣示例

    很顯然,使用TF-IDF進(jìn)行文本特征表示文檔詞條矩陣過于龐大并高度稀疏。

    3.2.2 基于詞嵌入的文本特征表示

    使用R語言的word2vec包構(gòu)建基于詞嵌入的文本表示,主要步驟如下:

    步驟1:詞嵌入模型訓(xùn)練文本的分詞、去停用詞等處理。

    如前文所述,本實(shí)例將原始數(shù)據(jù)集中“正文”字段的所有文本作為訓(xùn)練詞嵌入模型的語料庫。由于word2vec算法的輸入是詞語列表而不是整篇文章,因此首先需要對訓(xùn)練語料庫進(jìn)行分詞、去停用詞、去符號、去數(shù)字等處理,并將分詞后的語料文件保存成CSV格式文件以備后續(xù)訓(xùn)練詞嵌入模型使用。

    步驟2:使用語料文件訓(xùn)練詞嵌入模型。

    使用步驟1形成的語料文件和word2vec函數(shù)生成詞嵌入模型。主要語法如下:

    詞嵌入語料<-read.csv(語料文件.csv)

    CBOW詞嵌入模型<- word2vec(x=詞嵌入語料$語料庫詞條,type="cbow",dim=50,iter=20,split=" ")

    將word2vec函數(shù)中的參數(shù)type設(shè)定為“skip-gram”則可以訓(xùn)練出SKIP-GRAM詞嵌入模型,即:

    SKIPGRAM詞嵌入模型<- word2vec(x=詞嵌入語料$語料庫詞條, type="skip-gram",dim=50,iter=20,split=" ")

    步驟3:使用詞嵌入模型對標(biāo)題文本進(jìn)行特征表示。

    基于步驟2訓(xùn)練出的詞向量模型,使用doc2vec函數(shù)將分詞后的標(biāo)題內(nèi)容表示成向量模型,即將每個標(biāo)題內(nèi)容映射成50維實(shí)數(shù)向量。主要語法如下:

    文檔ID<-seq(1:采樣條數(shù)))

    數(shù)據(jù)框<- data.frame(doc_id=文檔ID,text=標(biāo)題文本分詞后的詞表, stringsAsFactors=FALSE)

    基于CBOW詞嵌入的文本特征表示<-doc2vec(CBOW詞嵌入模型,數(shù)據(jù)框,type="embedding")

    基于SKIP-GRAM詞嵌入的文本特征表示<-doc2vec(SKIPGRAM詞嵌入模型, 數(shù)據(jù)框, type="embedding")

    通過上述過程,將每一個標(biāo)題文本映射成50維的實(shí)數(shù)向量。

    3.3 文本分類模型的構(gòu)建及性能評估

    對于本研究所涉及的SVM、KNN、決策樹、樸素貝葉斯、隨機(jī)森林五種分類算法,在R語言環(huán)境下,使用party、e1071、randomForest等包中提供的函數(shù)進(jìn)行文本分類模型的構(gòu)建。

    以使用randomForest包中的隨機(jī)森林算法構(gòu)建基于不同特征表示的分類模型為例:

    (1)基于TF-IDF的文本特征表示。

    TFIDF分類模型<-randomForest(類別~.,TFIDF特征表示的訓(xùn)練數(shù)據(jù)集,ntree=30,na.action=na.roughfix)

    TFIDF預(yù)測結(jié)果<-predict(TFIDF分類模型,TFIDF特征表示的測試數(shù)據(jù)集,proximity=TRUE)

    (2)基于詞嵌入CBOW的文本特征表示。

    CBOW分類模型<-randomForest(類別~.,CBOW特征表示的訓(xùn)練數(shù)據(jù)集,ntree=30,na.action=na.roughfix )

    CBOW預(yù)測結(jié)果<- predict(CBOW分類模型,CBOW特征表示的測試數(shù)據(jù)集,proximity=TRUE)

    (3)基于詞嵌入SKIP-GRAM的文本特征表示。

    SKIP-GRAM分類模型<-randomForest(類別~.,SKIP-GRAM特征表示的訓(xùn)練數(shù)據(jù)集,ntree=30,na.action=na.roughfix )

    SKIP-GRAM預(yù)測結(jié)果<- predict(SKIP-GRAM分類模型,SKIP-GRAM特征表示的測試數(shù)據(jù)集,proximity=TRUE)

    在模型構(gòu)建及對測試數(shù)據(jù)集進(jìn)行預(yù)測的過程中統(tǒng)計(jì)運(yùn)行時間,并且在預(yù)測之后構(gòu)建預(yù)測值與真實(shí)值的混淆矩陣,使用VCD包中的Kappa函數(shù)基于混淆矩陣計(jì)算模型的Kappa系數(shù),衡量模型的分類效果。

    3.4 模型的比較結(jié)果

    3.4.1 文本特征表示處理時間的比較

    在不同的數(shù)據(jù)規(guī)模下,使用TF-IDF、詞嵌入CBOW和詞嵌入SKIP-GRAM三種方法對文本進(jìn)行特征表示的處理時間變化如圖4所示。

    圖4 不同數(shù)據(jù)規(guī)模下使用不同方法進(jìn)行 文本特征表示的處理時間

    從圖4可以看出:

    在相同的數(shù)據(jù)規(guī)模下,詞嵌入的文本特征表示處理時間都遠(yuǎn)遠(yuǎn)超過TF-IDF,這是因?yàn)樵~嵌入需要對大量的語料庫進(jìn)行訓(xùn)練,而在兩種詞嵌入方法中,SKIP-GRAM比CBOW的訓(xùn)練時間更長(大約是2.5倍)。

    三種特征表示的處理時間與數(shù)據(jù)規(guī)模的相關(guān)系數(shù)如表1所示。

    表1 文本表示處理時間與數(shù)據(jù)規(guī)模的相關(guān)性

    從表1可以看出:

    (1)TF-IDF文本特征表示的處理時間與數(shù)據(jù)規(guī)模高度正相關(guān),采樣數(shù)據(jù)越多,處理的詞條數(shù)越多,TF-IDF文本特征表示的處理時間越長;

    (2)兩種詞嵌入特征表示的處理時間與所處理數(shù)據(jù)的數(shù)據(jù)規(guī)模之間的相關(guān)性不強(qiáng)。

    3.4.2 模型構(gòu)建與預(yù)測時間比較

    15種模型在不同數(shù)據(jù)規(guī)模下運(yùn)行時間的變化如圖5所示。由于使用TF-IDF進(jìn)行文本特征表示的模型與使用詞嵌入進(jìn)行文本特征表示的模型在運(yùn)行時間上數(shù)值范圍相差極大,所以在圖5中用上下兩幅圖來闡釋,上圖表示使用TF-IDF進(jìn)行文本特征表示的模型,下圖表示使用詞嵌入進(jìn)行文本特征表示的模型。

    圖5 不同數(shù)據(jù)規(guī)模下不同模型的分類建模與預(yù)測時間

    從圖5可以看出:

    (1)15種模型的運(yùn)行時間均與數(shù)據(jù)規(guī)模高度正相關(guān),相關(guān)系數(shù)如表2所示。

    表2 模型的運(yùn)行時間與數(shù)據(jù)規(guī)模的相關(guān)性

    (2)在相同數(shù)據(jù)規(guī)模、相同的文本分類算法下,文本特征表示使用TF-IDF的模型運(yùn)行時間遠(yuǎn)遠(yuǎn)超過文本特征表示使用詞嵌入模型的運(yùn)行時間。

    (3)綜合來看,在相同的數(shù)據(jù)規(guī)模下,隨機(jī)森林+CBOW模型的運(yùn)行時間最短;而決策樹+TF-IDF模型的運(yùn)行時間最長。最短時間與最長時間的線性擬合關(guān)系如圖6所示。

    圖6 隨機(jī)森林+CBOW及決策樹+TF-IDF模型 運(yùn)行時間的線性擬合

    3.4.3 模型的分類效果比較

    文本多分類模型的分類效果使用Kappa系數(shù)來衡量,15種模型在不同數(shù)據(jù)規(guī)模下Kappa系數(shù)的變化如圖7所示。

    圖7 不同數(shù)據(jù)規(guī)模下不同模型的分類效果

    從圖7可以看出:

    (1)在本研究的任何一種數(shù)據(jù)規(guī)模下,SVM+CBOW模型的分類效果都是最好的;而樸素貝葉斯+TF-IDF模型的分類效果則最差。

    (2)在相同的數(shù)據(jù)規(guī)模、相同的分類算法下,文本表示使用TF-IDF方法的模型分類效果都是最差的;使用詞嵌入方法的分類模型的Kappa系數(shù)要比使用TF-IDF的模型的Kappa系數(shù)大很多;兩種詞嵌入模型的Kappa系數(shù)相差不大,總體來說,CBOW模型的分類效果略優(yōu)于SKIP-GRAM模型。

    (3)隨機(jī)森林作為集成算法,容易給人造成的誤解是:其性能一定比單一算法要好。但比較結(jié)果發(fā)現(xiàn),在本研究中,當(dāng)使用詞嵌入進(jìn)行文本特征表示時,隨機(jī)森林的分類效果雖然比單一決策樹的分類效果要好,但卻比SVM、KNN、樸素貝葉斯的分類效果差;當(dāng)使用TF-IDF進(jìn)行文本特征表示時,隨機(jī)森林的分類效果最好,然后依次是決策樹、KNN、SVM和樸素貝葉斯。這說明:隨機(jī)森林在高維度、大規(guī)模數(shù)據(jù)集的分類處理上具有一定的優(yōu)勢,但對于少量和低維數(shù)據(jù)集的分類不一定可以得到很好的分類效果。

    15種模型的分類效果與數(shù)據(jù)規(guī)模的相關(guān)性如表3所示。

    表3 模型的分類效果與數(shù)據(jù)規(guī)模的相關(guān)性

    從表3可以看出:

    (1)KNN算法和隨機(jī)森林算法與高維的TF-IDF文本表示方法組合時,數(shù)據(jù)規(guī)模越大分類效果越好,說明這兩種算法適合對數(shù)據(jù)量大、高維的數(shù)據(jù)集進(jìn)行分類處理。

    (2)決策樹算法與低維的詞嵌入文本表示方法組合時,分類數(shù)據(jù)量越大分類效果越好,說明決策樹方法適合對大量的低維數(shù)據(jù)進(jìn)行分類處理。

    (3)樸素貝葉斯和SVM算法明顯不適合對高維數(shù)據(jù)進(jìn)行處理,當(dāng)使用TF-IDF進(jìn)行文本表示時,分類數(shù)據(jù)量越大,這兩種算法的分類效果越差。

    4 結(jié)束語

    本研究綜合考慮了數(shù)據(jù)規(guī)模、數(shù)據(jù)維度(文本表示方法)、分類算法三方面,設(shè)計(jì)了多類別文本分類方法比較方案,從時間和分類效果兩個維度評估分類模型的性能。綜合評估后認(rèn)為,對于多類別文本分類問題:

    (1)文本特征表示不建議使用TF-IDF方法。使用TF-IDF方法,盡管在前期文本特征表示的處理時間上有一定的優(yōu)勢,但是由于文本特征矩陣過于稀疏和龐大,導(dǎo)致分類模型的運(yùn)行時間過長、分類效果亦極不理想。

    (2)在兩種word2vec詞嵌入算法中,建議選擇CBOW方法,該方法不僅在文本特征表示階段具有明顯的時間優(yōu)勢,而且在建模階段,CBOW與樸素貝葉斯、SVM、KNN算法組合的模型分類效果均非常理想。

    (3)在分類算法的選擇上,當(dāng)數(shù)據(jù)規(guī)模不是很大時,不建議選擇隨機(jī)森林等集成算法,隨機(jī)森林算法的優(yōu)勢體現(xiàn)在對高維數(shù)據(jù)的處理上,其與詞嵌入文本表示方法組合未必能達(dá)到非常理想的分類效果。

    猜你喜歡
    決策樹類別文檔
    有人一聲不吭向你扔了個文檔
    一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
    決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
    電子制作(2018年16期)2018-09-26 03:27:06
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    基于決策樹的出租車乘客出行目的識別
    服務(wù)類別
    新校長(2016年8期)2016-01-10 06:43:59
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
    論類別股東會
    商事法論集(2014年1期)2014-06-27 01:20:42
    中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
    久久亚洲真实| 制服人妻中文乱码| 可以免费在线观看a视频的电影网站| 精品久久久久久久末码| 俄罗斯特黄特色一大片| 老汉色av国产亚洲站长工具| 久久精品国产清高在天天线| 国产91精品成人一区二区三区| 午夜免费观看网址| 中文字幕人妻丝袜一区二区| 国产精品二区激情视频| 在线天堂中文资源库| 国产又爽黄色视频| 国产av一区二区精品久久| ponron亚洲| 亚洲国产精品sss在线观看| 在线视频色国产色| 两个人免费观看高清视频| 亚洲av美国av| www.999成人在线观看| 亚洲 国产 在线| 亚洲国产精品合色在线| 欧美在线一区亚洲| 欧美在线一区亚洲| 午夜免费激情av| 亚洲国产欧美一区二区综合| 久久久久久人人人人人| 国产三级在线视频| 亚洲真实伦在线观看| 久久国产精品男人的天堂亚洲| 国产精品免费一区二区三区在线| 亚洲av美国av| 欧美日韩乱码在线| 高清毛片免费观看视频网站| 免费在线观看亚洲国产| 欧洲精品卡2卡3卡4卡5卡区| 欧美最黄视频在线播放免费| 不卡av一区二区三区| 欧美三级亚洲精品| 男女午夜视频在线观看| 亚洲激情在线av| 久久久久久大精品| a级毛片在线看网站| 脱女人内裤的视频| 欧美日韩福利视频一区二区| 99精品久久久久人妻精品| 日韩有码中文字幕| 久久久国产成人精品二区| 国产av一区在线观看免费| 人人妻人人看人人澡| 亚洲av五月六月丁香网| 色哟哟哟哟哟哟| 久久久国产欧美日韩av| 香蕉av资源在线| 一个人免费在线观看的高清视频| 亚洲五月天丁香| 人人妻人人澡人人看| 久久伊人香网站| 男男h啪啪无遮挡| av免费在线观看网站| 天天躁夜夜躁狠狠躁躁| 他把我摸到了高潮在线观看| 中文字幕人妻丝袜一区二区| 久热爱精品视频在线9| 欧美色欧美亚洲另类二区| 久久久久久大精品| 国产精品久久久久久精品电影 | 久久精品影院6| 日本黄色视频三级网站网址| av免费在线观看网站| 欧美不卡视频在线免费观看 | а√天堂www在线а√下载| 国产高清有码在线观看视频 | 免费在线观看完整版高清| 88av欧美| 日韩视频一区二区在线观看| 性欧美人与动物交配| 成人亚洲精品一区在线观看| 亚洲性夜色夜夜综合| 一个人观看的视频www高清免费观看 | 别揉我奶头~嗯~啊~动态视频| 成人手机av| 国产伦人伦偷精品视频| 叶爱在线成人免费视频播放| 日本精品一区二区三区蜜桃| 91字幕亚洲| netflix在线观看网站| 午夜久久久久精精品| 国内精品久久久久久久电影| 亚洲成av人片免费观看| 这个男人来自地球电影免费观看| а√天堂www在线а√下载| 黄频高清免费视频| 他把我摸到了高潮在线观看| 亚洲专区中文字幕在线| 美女国产高潮福利片在线看| 黑人操中国人逼视频| 成人18禁在线播放| 亚洲avbb在线观看| 99久久国产精品久久久| 国产成人精品无人区| 欧美日韩亚洲综合一区二区三区_| 一个人免费在线观看的高清视频| 成人免费观看视频高清| 深夜精品福利| 久久天堂一区二区三区四区| 2021天堂中文幕一二区在线观 | 成人免费观看视频高清| 亚洲电影在线观看av| 国产精品亚洲美女久久久| 伦理电影免费视频| 麻豆国产av国片精品| 欧美黑人巨大hd| 99精品欧美一区二区三区四区| 国产精品1区2区在线观看.| 99热这里只有精品一区 | 91老司机精品| 国产区一区二久久| 久久精品91无色码中文字幕| 免费人成视频x8x8入口观看| 少妇裸体淫交视频免费看高清 | 黄色 视频免费看| 国产精品免费视频内射| 香蕉久久夜色| 国产激情偷乱视频一区二区| 热re99久久国产66热| 精品午夜福利视频在线观看一区| 91国产中文字幕| 又黄又粗又硬又大视频| 老司机午夜福利在线观看视频| 在线观看免费日韩欧美大片| а√天堂www在线а√下载| 亚洲熟妇熟女久久| 国产成人系列免费观看| 18禁观看日本| 国产精品综合久久久久久久免费| 久久精品91蜜桃| 亚洲av五月六月丁香网| av免费在线观看网站| 成人国产综合亚洲| 99国产精品一区二区三区| 看片在线看免费视频| 黑人欧美特级aaaaaa片| 欧美另类亚洲清纯唯美| 欧美大码av| 欧美黑人精品巨大| 一二三四在线观看免费中文在| 久久久久久久久免费视频了| 黄片播放在线免费| 麻豆成人av在线观看| 国产精品,欧美在线| 中文字幕另类日韩欧美亚洲嫩草| 90打野战视频偷拍视频| 老汉色av国产亚洲站长工具| 午夜福利成人在线免费观看| 首页视频小说图片口味搜索| 午夜福利视频1000在线观看| a级毛片在线看网站| 视频在线观看一区二区三区| 性色av乱码一区二区三区2| 欧美日韩乱码在线| 亚洲aⅴ乱码一区二区在线播放 | 香蕉av资源在线| 色在线成人网| 少妇粗大呻吟视频| 精品福利观看| 搡老熟女国产l中国老女人| 在线观看舔阴道视频| 熟妇人妻久久中文字幕3abv| 亚洲国产日韩欧美精品在线观看 | 老司机午夜福利在线观看视频| 性欧美人与动物交配| 亚洲免费av在线视频| 成人三级做爰电影| 日韩一卡2卡3卡4卡2021年| aaaaa片日本免费| 国产成人欧美在线观看| 色精品久久人妻99蜜桃| 在线看三级毛片| 国产国语露脸激情在线看| 午夜免费观看网址| 国产精品免费一区二区三区在线| 免费女性裸体啪啪无遮挡网站| 国内精品久久久久久久电影| 国产精品野战在线观看| 亚洲精品在线美女| 午夜免费观看网址| 日韩高清综合在线| 午夜久久久久精精品| 女同久久另类99精品国产91| 午夜福利一区二区在线看| 一级片免费观看大全| 日韩欧美在线二视频| 老司机在亚洲福利影院| 他把我摸到了高潮在线观看| 母亲3免费完整高清在线观看| 国产成人av教育| 女生性感内裤真人,穿戴方法视频| 自线自在国产av| 夜夜看夜夜爽夜夜摸| 午夜亚洲福利在线播放| 性色av乱码一区二区三区2| 免费av毛片视频| 午夜福利欧美成人| 成年版毛片免费区| 亚洲熟女毛片儿| 动漫黄色视频在线观看| 亚洲中文字幕日韩| 一区二区三区国产精品乱码| 久久香蕉精品热| 香蕉久久夜色| 亚洲国产精品合色在线| 好看av亚洲va欧美ⅴa在| 久久久久久久久中文| 亚洲va日本ⅴa欧美va伊人久久| 亚洲中文字幕日韩| 欧美av亚洲av综合av国产av| www.999成人在线观看| 成人免费观看视频高清| 亚洲国产精品成人综合色| 18禁裸乳无遮挡免费网站照片 | 国产麻豆成人av免费视频| 亚洲avbb在线观看| 国产爱豆传媒在线观看 | 国产精品av久久久久免费| 国产精品自产拍在线观看55亚洲| 无遮挡黄片免费观看| 精品国产国语对白av| 变态另类成人亚洲欧美熟女| 18禁观看日本| 欧美激情 高清一区二区三区| 无遮挡黄片免费观看| 午夜视频精品福利| 超碰成人久久| 一二三四在线观看免费中文在| 精品卡一卡二卡四卡免费| 黄色毛片三级朝国网站| 亚洲精品av麻豆狂野| 成人欧美大片| 欧美绝顶高潮抽搐喷水| 成人国产综合亚洲| 欧美成人午夜精品| 亚洲精品中文字幕在线视频| 国产爱豆传媒在线观看 | www国产在线视频色| 99精品久久久久人妻精品| 国产成人一区二区三区免费视频网站| 亚洲成人久久爱视频| 中文字幕精品亚洲无线码一区 | 日韩欧美免费精品| 成人免费观看视频高清| 国产黄色小视频在线观看| 一本久久中文字幕| 给我免费播放毛片高清在线观看| 日本一区二区免费在线视频| 成熟少妇高潮喷水视频| 亚洲一区高清亚洲精品| 欧美黄色淫秽网站| 国产日本99.免费观看| 国产亚洲av嫩草精品影院| 国产熟女午夜一区二区三区| 久久久久久亚洲精品国产蜜桃av| 午夜免费激情av| 亚洲一卡2卡3卡4卡5卡精品中文| 亚洲成国产人片在线观看| 国产片内射在线| 国产免费男女视频| 亚洲熟女毛片儿| 天天躁狠狠躁夜夜躁狠狠躁| 国产一卡二卡三卡精品| 国产黄a三级三级三级人| 母亲3免费完整高清在线观看| 国产真实乱freesex| 在线观看免费日韩欧美大片| 精品无人区乱码1区二区| 非洲黑人性xxxx精品又粗又长| 精品无人区乱码1区二区| www.精华液| 正在播放国产对白刺激| 一级毛片高清免费大全| 久久久久久久久中文| 日本熟妇午夜| 国产精品亚洲一级av第二区| 欧美日本亚洲视频在线播放| 一a级毛片在线观看| 国产精品爽爽va在线观看网站 | 99精品久久久久人妻精品| 久久国产精品人妻蜜桃| 天天一区二区日本电影三级| 黄色 视频免费看| 国产真人三级小视频在线观看| 变态另类丝袜制服| 国产黄a三级三级三级人| 国产精品久久视频播放| 亚洲五月婷婷丁香| 50天的宝宝边吃奶边哭怎么回事| 久久 成人 亚洲| 欧美一级a爱片免费观看看 | 丰满人妻熟妇乱又伦精品不卡| 精品第一国产精品| 国产不卡一卡二| 一进一出好大好爽视频| 变态另类丝袜制服| 老鸭窝网址在线观看| 欧美色欧美亚洲另类二区| 亚洲欧美日韩高清在线视频| 亚洲色图av天堂| 国产男靠女视频免费网站| 亚洲精品美女久久久久99蜜臀| 亚洲国产欧美一区二区综合| 99久久国产精品久久久| 欧美久久黑人一区二区| 亚洲自偷自拍图片 自拍| 久久国产精品男人的天堂亚洲| 免费高清在线观看日韩| 最近在线观看免费完整版| 两性夫妻黄色片| 日韩有码中文字幕| 国产精品 欧美亚洲| 麻豆一二三区av精品| 亚洲精品国产区一区二| 宅男免费午夜| 久久久久国产一级毛片高清牌| svipshipincom国产片| 色播亚洲综合网| 老司机午夜福利在线观看视频| 99热这里只有精品一区 | 日本一区二区免费在线视频| 黄片播放在线免费| 亚洲精品一卡2卡三卡4卡5卡| 国产精品久久久久久亚洲av鲁大| 18禁国产床啪视频网站| 亚洲一码二码三码区别大吗| 成年免费大片在线观看| 欧美久久黑人一区二区| 亚洲va日本ⅴa欧美va伊人久久| 午夜免费成人在线视频| 午夜福利一区二区在线看| 国产在线观看jvid| 在线免费观看的www视频| 哪里可以看免费的av片| 午夜精品在线福利| 亚洲欧洲精品一区二区精品久久久| 成年版毛片免费区| 国产精品久久久av美女十八| 丝袜美腿诱惑在线| 亚洲人成伊人成综合网2020| 欧美最黄视频在线播放免费| 动漫黄色视频在线观看| 久久久久久国产a免费观看| 国产亚洲欧美精品永久| 国产熟女xx| 好男人电影高清在线观看| 国产精品久久久av美女十八| 亚洲一码二码三码区别大吗| 欧美色视频一区免费| xxx96com| 不卡av一区二区三区| 久久人人精品亚洲av| 国产精品一区二区三区四区久久 | 中国美女看黄片| 欧美中文综合在线视频| 中文字幕高清在线视频| 亚洲五月色婷婷综合| 亚洲成人国产一区在线观看| 色精品久久人妻99蜜桃| 亚洲欧美精品综合久久99| 免费在线观看视频国产中文字幕亚洲| 国产精品久久久av美女十八| 中文字幕另类日韩欧美亚洲嫩草| 十分钟在线观看高清视频www| 亚洲国产欧美网| 午夜福利在线在线| 黄色视频,在线免费观看| 国产精品美女特级片免费视频播放器 | 丰满人妻熟妇乱又伦精品不卡| 中文字幕av电影在线播放| 可以在线观看毛片的网站| 女同久久另类99精品国产91| 日韩 欧美 亚洲 中文字幕| 国产伦人伦偷精品视频| 美女 人体艺术 gogo| 9191精品国产免费久久| av天堂在线播放| 久久中文字幕人妻熟女| 成人国语在线视频| 熟妇人妻久久中文字幕3abv| 亚洲欧美日韩无卡精品| 亚洲精品中文字幕一二三四区| 成人三级做爰电影| 黄色成人免费大全| 99热只有精品国产| 久久午夜亚洲精品久久| 黑人欧美特级aaaaaa片| 欧美一区二区精品小视频在线| 国产欧美日韩精品亚洲av| 99热6这里只有精品| 国产亚洲精品综合一区在线观看 | 麻豆成人av在线观看| 啦啦啦免费观看视频1| 夜夜爽天天搞| 高清在线国产一区| 亚洲精品中文字幕在线视频| 91成年电影在线观看| 国产单亲对白刺激| 国产精品一区二区精品视频观看| 男女做爰动态图高潮gif福利片| 一区二区三区精品91| 午夜日韩欧美国产| 91成人精品电影| 人成视频在线观看免费观看| 久久午夜综合久久蜜桃| 不卡一级毛片| 一二三四社区在线视频社区8| 后天国语完整版免费观看| xxx96com| 亚洲第一av免费看| 两个人视频免费观看高清| 91老司机精品| 亚洲美女黄片视频| 麻豆av在线久日| 成人一区二区视频在线观看| 午夜福利18| 亚洲精华国产精华精| 淫妇啪啪啪对白视频| 亚洲 国产 在线| 亚洲国产精品成人综合色| 国产在线精品亚洲第一网站| 老熟妇仑乱视频hdxx| 午夜亚洲福利在线播放| 级片在线观看| 老熟妇仑乱视频hdxx| 一夜夜www| 人妻久久中文字幕网| 亚洲熟女毛片儿| 亚洲av电影在线进入| 老司机福利观看| 757午夜福利合集在线观看| 亚洲国产精品999在线| 欧美人与性动交α欧美精品济南到| 午夜免费鲁丝| 午夜福利高清视频| 久久久国产精品麻豆| 国产麻豆成人av免费视频| 国产黄片美女视频| ponron亚洲| 99国产综合亚洲精品| 18禁裸乳无遮挡免费网站照片 | 性欧美人与动物交配| 国产亚洲精品一区二区www| 国产精品一区二区免费欧美| 热99re8久久精品国产| 99热6这里只有精品| 国产黄片美女视频| 亚洲中文av在线| 级片在线观看| 亚洲精品在线观看二区| 真人一进一出gif抽搐免费| 国产精品亚洲美女久久久| 在线天堂中文资源库| 精品欧美一区二区三区在线| 国产亚洲av高清不卡| 免费看美女性在线毛片视频| 国产片内射在线| 午夜免费成人在线视频| 亚洲aⅴ乱码一区二区在线播放 | 黄色片一级片一级黄色片| 亚洲最大成人中文| 亚洲男人天堂网一区| 日本撒尿小便嘘嘘汇集6| 久久国产精品影院| 国产精品爽爽va在线观看网站 | 又黄又粗又硬又大视频| 宅男免费午夜| 成人国语在线视频| 精品国产超薄肉色丝袜足j| 国内毛片毛片毛片毛片毛片| 黑人欧美特级aaaaaa片| 婷婷六月久久综合丁香| 热99re8久久精品国产| 国产视频一区二区在线看| а√天堂www在线а√下载| 日韩大尺度精品在线看网址| 国产在线观看jvid| 精品无人区乱码1区二区| 一级黄色大片毛片| 精品国产乱码久久久久久男人| 精品国产乱子伦一区二区三区| 国产真人三级小视频在线观看| 精品一区二区三区四区五区乱码| 欧美成人午夜精品| 极品教师在线免费播放| 日韩大尺度精品在线看网址| 国产又色又爽无遮挡免费看| 国产麻豆成人av免费视频| 亚洲中文字幕日韩| 满18在线观看网站| 亚洲中文日韩欧美视频| 宅男免费午夜| 婷婷丁香在线五月| 日韩欧美国产一区二区入口| 国产色视频综合| av免费在线观看网站| 91av网站免费观看| 久久人妻av系列| 18禁黄网站禁片免费观看直播| 麻豆国产av国片精品| 777久久人妻少妇嫩草av网站| 听说在线观看完整版免费高清| 欧美一级a爱片免费观看看 | 国产精品久久久久久亚洲av鲁大| 午夜免费激情av| 激情在线观看视频在线高清| 午夜福利免费观看在线| 国产成人av激情在线播放| 国产高清激情床上av| 免费看日本二区| 999久久久国产精品视频| 一区二区三区精品91| 老熟妇乱子伦视频在线观看| 欧美性猛交╳xxx乱大交人| 国产精品野战在线观看| 欧美激情 高清一区二区三区| 午夜久久久在线观看| 人人妻人人澡欧美一区二区| 国产真实乱freesex| 亚洲电影在线观看av| 99国产精品一区二区蜜桃av| 好看av亚洲va欧美ⅴa在| 国产精品自产拍在线观看55亚洲| 黄色丝袜av网址大全| 亚洲真实伦在线观看| 三级毛片av免费| 亚洲五月色婷婷综合| 丝袜美腿诱惑在线| 久久青草综合色| 午夜a级毛片| 免费在线观看成人毛片| 日韩中文字幕欧美一区二区| 中文字幕另类日韩欧美亚洲嫩草| 一级毛片精品| 丰满的人妻完整版| 亚洲免费av在线视频| 午夜福利高清视频| 一个人观看的视频www高清免费观看 | 欧美中文日本在线观看视频| 亚洲真实伦在线观看| 国产真实乱freesex| 亚洲精品国产区一区二| 这个男人来自地球电影免费观看| 两性午夜刺激爽爽歪歪视频在线观看 | 不卡一级毛片| 日韩高清综合在线| 白带黄色成豆腐渣| 丝袜美腿诱惑在线| 99久久99久久久精品蜜桃| 国产午夜精品久久久久久| 制服人妻中文乱码| 在线永久观看黄色视频| 日韩欧美国产在线观看| 亚洲片人在线观看| 亚洲国产中文字幕在线视频| 日韩欧美一区视频在线观看| 精品久久久久久久久久久久久 | 精品久久久久久久毛片微露脸| 中文字幕久久专区| www.999成人在线观看| 91老司机精品| 男女床上黄色一级片免费看| 正在播放国产对白刺激| 久久精品夜夜夜夜夜久久蜜豆 | 国产精品爽爽va在线观看网站 | 夜夜看夜夜爽夜夜摸| 这个男人来自地球电影免费观看| 精品福利观看| 久久亚洲真实| 曰老女人黄片| 亚洲黑人精品在线| 免费无遮挡裸体视频| 日本a在线网址| 欧美精品啪啪一区二区三区| 国产精品99久久99久久久不卡| 99久久无色码亚洲精品果冻| 国产亚洲欧美98| 国产成人欧美| bbb黄色大片| 国产精品久久久久久亚洲av鲁大| e午夜精品久久久久久久| 亚洲午夜精品一区,二区,三区| 美女大奶头视频| 可以免费在线观看a视频的电影网站| 国产三级在线视频| www国产在线视频色| 欧美在线黄色| 国产久久久一区二区三区| 亚洲激情在线av| 久久久久久久久免费视频了| 色综合亚洲欧美另类图片| 日本在线视频免费播放| 1024香蕉在线观看| 成人一区二区视频在线观看| or卡值多少钱| 香蕉久久夜色| 狠狠狠狠99中文字幕| 久久久久国产精品人妻aⅴ院| 欧美在线一区亚洲| 精品不卡国产一区二区三区| 18禁裸乳无遮挡免费网站照片 | 色播在线永久视频| 嫩草影院精品99| 搡老熟女国产l中国老女人| av视频在线观看入口| 曰老女人黄片| 午夜福利在线观看吧| 亚洲中文字幕一区二区三区有码在线看 |