• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度學(xué)習(xí)的中文文本分類綜述*

    2024-04-23 12:46:36李世杰蔡志平
    計算機(jī)工程與科學(xué) 2024年4期
    關(guān)鍵詞:單詞分類深度

    高 珊,李世杰,蔡志平

    (國防科技大學(xué)計算機(jī)學(xué)院,湖南 長沙 410073)

    1 引言

    文本分類是指為文本指定預(yù)定義標(biāo)簽的過程,是許多自然語言處理NLP(Natural Language Processing)應(yīng)用程序中的一項重要任務(wù),具有眾多的應(yīng)用場景,例如情感分析[1]如圖1所示;問答系統(tǒng)[2,3]的基本流程如圖2所示;對話行為分類[4]、話題分類[5]等。

    Figure 1 Sentiment analysis

    Figure 2 Basic process of question and answer system

    近年來,國內(nèi)外的文本分類研究者在傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)2個方向?qū)ξ谋痉诸悊栴}做了許多探索和研究。本文將簡要介紹傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類方法,詳細(xì)闡述使用深度學(xué)習(xí)的文本分類方法。

    2 文本特征表示

    文本特征表示是對原始文本進(jìn)行預(yù)處理,以便訓(xùn)練分類模型。文本特征表示通常包括分詞、數(shù)據(jù)清理和統(tǒng)計,是文本分類的基礎(chǔ)。

    2.1 中文文本預(yù)處理的特殊挑戰(zhàn)

    和英文文本處理分類相比,中文文本的預(yù)處理是關(guān)鍵技術(shù)。中文文本預(yù)處理通常要進(jìn)行分詞、去除停用詞、過濾低頻詞等。其中,最重要的是分詞部分。在中文表達(dá)中,詞是表達(dá)完整含義的最小單位。由于漢字的粒度較小,在大部分情況下,無法表達(dá)完整的含義,如圖3所示,“鼠”可以是“老鼠”,也可能定義為“鼠標(biāo)”,而句子的粒度又較大,承載的信息量過多,難以復(fù)用。

    Figure 3 Example of Chinese word segmentation

    中文語句需要通過分詞,構(gòu)成詞的集合,為后續(xù)文本分類奠定基礎(chǔ)。在分詞上,中文文本與英文文本有很大的不同。中文分詞難點(diǎn)主要體現(xiàn)在3個方面:分詞的規(guī)范、歧義詞的切分和未登錄詞識別。英文文本使用空格作為分隔符,中文文本沒有該特點(diǎn),切分時需要根據(jù)語義,因此如何切分中文文本成為一個難點(diǎn),例如“兵乓球拍賣完了”,不同的分詞方式可表達(dá)出不同的涵義:

    乒乓球 拍賣 完了

    乒乓 球拍 賣 完了

    隨著網(wǎng)絡(luò)社交的不斷發(fā)展,人類處于信息爆炸的時代,在網(wǎng)絡(luò)上新出現(xiàn)了一些網(wǎng)絡(luò)流行語,如“藍(lán)瘦香菇”“房姐”“奧特”“累覺不愛”等,這些網(wǎng)絡(luò)流行語也給中文的分詞技術(shù)加大了難度。此外,中文詞在文本中的前后關(guān)系復(fù)雜,不同詞在不同的語境中具有不同的含義,中文里也常見一詞多義的情況,導(dǎo)致分詞易出現(xiàn)歧義。

    中文分詞方法常見為3大類:基于詞典匹配的方法、基于統(tǒng)計的方法和基于深度學(xué)習(xí)的方法。基于詞典匹配的分詞方法,基本思想是基于詞典匹配,將待分詞的中文文本根據(jù)一定規(guī)則切分和調(diào)整,根據(jù)詞典中的詞語進(jìn)行匹配,如果該詞語在詞典中,則分詞成功;否則繼續(xù)拆分匹配直到成功,然后進(jìn)行反復(fù)循環(huán)。代表性的方法有:基于正向最大匹配方法、基于逆向最大匹配方法和雙向匹配方法?;诮y(tǒng)計的方法統(tǒng)計由相鄰單詞組成的單詞出現(xiàn)的概率。相鄰單詞的出現(xiàn)次數(shù)和出現(xiàn)概率都很大。根據(jù)概率值進(jìn)行分割,主要有隱馬爾科夫模型HMM(Hidden Markov Model)[6]和條件隨機(jī)場模型 CRF(Conditional Random Field)[7]。比如Stanford和HanLP[8]分詞工具都是基于CRF算法的。

    近年來,隨著基于深度學(xué)習(xí)算法的中文分詞方法的提出,其分詞效果在一定程度上優(yōu)于傳統(tǒng)的分詞方法,使用深度學(xué)習(xí)算法進(jìn)行中文分詞的基本思想是同步進(jìn)行分詞、語句、語義以及語法的分析。Peng 等人[9]采用長短時記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)提取中文分詞特征,使用 CRF對標(biāo)簽進(jìn)行聯(lián)合解碼,其本質(zhì)上為序列標(biāo)注。此外,還有常用的Python中文分詞工具jieba等方法。

    中文文本相對于英文文本,通常存在大量的“的”“和”等副詞,以及量詞、感嘆詞和數(shù)詞等與理解語義無關(guān)的詞組且出現(xiàn)頻率較高,容易帶來噪聲。去停用詞可以減少特征詞的數(shù)量,提高文本分類的準(zhǔn)確性??赏ㄟ^建立中文的停用詞表,掃描分詞詞典進(jìn)行字符匹配。

    對于分詞后的中文文本,還可以根據(jù)不同的任務(wù)進(jìn)行詞性標(biāo)注,比如情感分析、輿情挖掘等任務(wù)。

    2.2 中文文本表示

    文本表示旨在以一種對計算機(jī)來說更容易且最小化信息損失的形式來表達(dá)預(yù)處理的文本,例如BOW(Bag Of Words)[10]、N-gram、詞頻逆文檔頻率TF-IDF(Term Frequency-Inverse Document Frequency)、word2vec[11]以及單詞表示的全局向量GloVe(Global Vectors)[12]。

    BOW的思想是創(chuàng)建一個含有來自于訓(xùn)練語料庫全部詞語的字典,每個詞語都與其獨(dú)特的識別編號一一對應(yīng)。其中,One-Hot可對中文文本進(jìn)行字符級編碼,即存在的詞語用1表示,不存在的用0表示。BOW只關(guān)注了詞語出現(xiàn)的次數(shù),無視句子或者文檔中的語法、語序關(guān)系和順序。

    與BOW相比,N-gram考慮了相鄰的中文文本信息,并通過考慮相鄰中文文本來構(gòu)建詞典。N-gram常用于計算句子的概率模型。句子的概率表示為句子中每個文本的聯(lián)合概率。

    TF-IDF使用單詞頻率并反轉(zhuǎn)文檔頻率來建模文本。統(tǒng)計文本詞頻,生成文本的詞向量空間。TF是特定文章中某個詞的詞頻,IDF是包含該詞的文章占語料庫中文章總數(shù)的比例的倒數(shù),TF-IDF是兩者的乘積。TF-IDF用于評估一個單詞對一組文件或語料庫中一個文檔的重要性。一個單詞隨著它在文檔中出現(xiàn)的次數(shù)成比例地增加。然而,它在語料庫中的頻率總體上呈反比下降。TF-IDF沒有考慮詞的上下文和重要性,單純以“詞頻”衡量一個詞的重要性,不夠全面。

    word2vec使用2個基本模型CBOW(Continuous Bag Of Words)和Skip gram,如圖4和圖5所示。前者是在已知當(dāng)前單詞的上下文的前提下來預(yù)測該詞,FastText[13]是基于CBOW模型提出的快速文本分類方法。后者是在已知當(dāng)前單詞時預(yù)測上下文。word2vec在對大量的語料進(jìn)行訓(xùn)練之后,使用給定維度的向量來對每個單詞進(jìn)行表示,單詞之間的語義和語法相似度均可用向量的相似度表示。由于詞和向量是一對一的關(guān)系,所以多義詞的問題無法解決。此外,word2vec是一種靜態(tài)的方式,如圖6展示了使用word2vec進(jìn)行中文文本表示的示例,其具有較強(qiáng)的通用性,但是無法根據(jù)指定任務(wù)進(jìn)行動態(tài)處理和優(yōu)化。

    Figure 4 CBOW model

    Figure 5 Skip gram model

    Figure 6 Example of word2vec Chinese representation

    GloVe通過局部上下文和全局統(tǒng)計特征來訓(xùn)練單詞,單詞屬于共現(xiàn)矩陣中的非零元素。它使詞向量能夠包含盡可能多的語義和語法信息,以語料庫為基礎(chǔ),建立詞匯的共現(xiàn)矩陣并結(jié)合 GloVe模型進(jìn)行詞向量學(xué)習(xí)。最后,根據(jù)所選特征將所表示的文本反饋到分類器中。

    3 中文文本分類的傳統(tǒng)機(jī)器學(xué)習(xí)方法

    使用傳統(tǒng)的機(jī)器學(xué)習(xí)對文本進(jìn)行分類,主要是進(jìn)行文本特征表示(包含文本預(yù)處理、特征提取、文本表示3個部分)、構(gòu)造分類器、分類結(jié)果的評估與反饋等過程。文本表示主要以布爾模型 (Boolean Model)、概率模型(Probabilistic Model) 和向量空間模型(Vector Space Model) 3種模型為代表。構(gòu)造分類器是傳統(tǒng)機(jī)器學(xué)習(xí)進(jìn)行文本分類的核心之一,通過使用提取詞頻或者詞袋特征的方法,將提取出的特征放入模型中進(jìn)行訓(xùn)練。

    對于傳統(tǒng)模型,樸素貝葉斯NB(Naive Bayesian)[14]是用于文本分類任務(wù)的第一個模型,如圖7及式(1)所示,其中文本T=[T1,T2,…,Tn]獨(dú)立。

    y∈{T1,T2,…,Tn}

    (1)

    Figure 7 Naive Bayes

    隨后,研究者提出了通用分類模型,K值鄰近算法KNN(K-Nearest Neighbor)[15]如圖8所示、支持向量機(jī)SVM(Support Vector Machine)[16]、隨機(jī)森林RF(Random Forest)[17]、決策樹DT(Decision Tree)、中心向量法以及Ada Boost技術(shù)[18]等,廣泛地用于文本分類。最近的研究發(fā)現(xiàn),極限梯度增強(qiáng)XGBoost(eXtreme Gradient Boosting)[19]和光梯度增強(qiáng)機(jī)LightGBM(Light Gradient Boosting Machine)[20]具有優(yōu)異的性能。

    Figure 8 K-value proximity algorithm (K=3)

    傳統(tǒng)機(jī)器學(xué)習(xí)方法都具有一定的優(yōu)缺點(diǎn),比如樸素貝葉斯算法,對小規(guī)模的數(shù)據(jù)表現(xiàn)很好但對缺失數(shù)據(jù)不敏感,算法思想較為簡單,通過先驗和數(shù)據(jù)來決定后驗的概率從而決定文本分類。樸素貝葉斯算法需要數(shù)據(jù)集屬性之間的關(guān)系相對獨(dú)立,對輸入數(shù)據(jù)的表達(dá)形式較為敏感。因此,在屬性數(shù)量較多或者屬性之間相關(guān)性較大時,其分類效果較差;基于KNN文本分類算法具有穩(wěn)定、準(zhǔn)確率較高的優(yōu)點(diǎn),但其預(yù)測的結(jié)果容易受到含噪聲數(shù)據(jù)的影響,并且對樣本均衡的要求較高。

    目前,傳統(tǒng)機(jī)器學(xué)習(xí)表現(xiàn)出的分類效果相對較低,這是因為傳統(tǒng)機(jī)器學(xué)習(xí)是淺層次的特征提取,忽略了詞與詞之間以及句子和句子間的關(guān)系,對于文本背后的語義、結(jié)構(gòu)、序列和上下文理解不夠,對高維數(shù)據(jù)的處理和泛化能力較差,模型的表征能力有限。

    隨著研究者的不斷探索,2006年Hinton等[21]提出了深度學(xué)習(xí)(Deep Learning)的概念。自此,文本分類問題的重心逐漸從傳統(tǒng)機(jī)器學(xué)習(xí)轉(zhuǎn)向基于深度學(xué)習(xí)的研究,并成為了文本分類領(lǐng)域的主流研究內(nèi)容。

    4 中文文本分類的深度學(xué)習(xí)方法

    相較于傳統(tǒng)的機(jī)器學(xué)習(xí),深度學(xué)習(xí)可利用其自身的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行學(xué)習(xí),從而獲得數(shù)據(jù)特征。例如,卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)[22]、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)[23]等。

    圖9展示了利用傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)進(jìn)行文本分類過程的流程圖。文本數(shù)據(jù)不同于數(shù)字、圖像或信號數(shù)據(jù)。第一個重要步驟是為模型預(yù)訓(xùn)練文本數(shù)據(jù)。傳統(tǒng)模型通常需要通過人工方法獲得良好的樣本特征,然后用經(jīng)典的機(jī)器學(xué)習(xí)算法對其進(jìn)行分類。因此,特征提取在很大程度上限制了該方法的有效性。然而,與傳統(tǒng)機(jī)器學(xué)習(xí)模型不同,深度學(xué)習(xí)通過學(xué)習(xí)一組用于將特征直接映射到輸出的非線性變換,將特征工程集成到模型擬合過程中[24]。

    Figure 9 Traditional machine learning and deep learning text classification processes

    4.1 CNN

    CNN因其卷積濾波器可以提取圖像的特征,最初被提出用于圖像分類。CNN能對多個序列塊進(jìn)行多核的卷積運(yùn)算。因此,神經(jīng)網(wǎng)絡(luò)在很多 NLP問題中得到了應(yīng)用。

    首先,將輸入文本的單詞向量拼接成矩陣。然后,矩陣被送入卷積層,卷積層包含幾個不同維度的濾波器。最后,卷積層的結(jié)果經(jīng)過池化層并連接池化結(jié)果,以獲得文本的最終矢量表示。類別由最終向量進(jìn)行預(yù)測,如圖10所示。

    Figure 10 CNN text classification

    在CNN網(wǎng)絡(luò)的基礎(chǔ)上,Kim[25]提出了一種卷積神經(jīng)網(wǎng)絡(luò)的無偏模型TextCNN。它可以通過一層卷積更好地確定最大池化層中的區(qū)分短語,并通過保持單詞向量靜態(tài)來學(xué)習(xí)除單詞向量之外的超參數(shù)。僅對標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練對于數(shù)據(jù)驅(qū)動的深度模型是不夠的。因此,一些研究人員考慮利用未標(biāo)記的數(shù),與傳統(tǒng)圖像的 CNN 網(wǎng)絡(luò)相比,TextCNN保持原有網(wǎng)絡(luò)結(jié)構(gòu),簡化了卷積層,使其具有網(wǎng)絡(luò)結(jié)構(gòu)簡單、參數(shù)量少、計算量少和訓(xùn)練速度快的優(yōu)點(diǎn)。

    CNN以及TextCNN都為淺層網(wǎng)絡(luò),Alexis等人[26]在此基礎(chǔ)上,對深度網(wǎng)絡(luò)在文本分類任務(wù)上的問題進(jìn)行了研究,提出了字符級的深層卷積神經(jīng)網(wǎng)絡(luò)VDCNN(Very Deep Convolutional Neural Network for Text Classification);Johnson 等人[27]在2015年提出了一種基于兩視圖半監(jiān)督學(xué)習(xí)進(jìn)行文本分類任務(wù)的模型;在此基礎(chǔ)上,Johnson等人[28]又提出了一種深度金字塔卷積神經(jīng)網(wǎng)絡(luò)DPCNN(Deep Pyramid Convolutional Neural Networks for Text Categorization),通過提高網(wǎng)絡(luò)深度來提高計算精度,DPCNN比殘差網(wǎng)絡(luò)ResNet[29]結(jié)構(gòu)更為簡單;2015年Zhang等人[30]提出的CharCNN,通過卷積的方式共享參數(shù),可以有效地減少嵌入層需要訓(xùn)練的參數(shù)量,從而提高計算效率;Adams 等人[31]提出了一種字符級CNN模型,稱為MGTC(Multilingual Geographic Text Classification),可以實(shí)現(xiàn)對多語言文本的分類;Kipf等人[32]在圖卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出了GCN(Graph Convolutional Network)模型,后續(xù)的研究者對GCN模型進(jìn)行了研究和變體,尤其是在文本分類任務(wù)上,又提出了TextGCN[33]、FastGCN[34]、TensorGCN[35]、Text-level GCN[36]、D-GCN(Dynamic-Graph Convolutional Network)[37]和GCNII[38]等模型。

    4.2 RNN

    循環(huán)神經(jīng)網(wǎng)絡(luò)RNN常用于通過遞歸計算來獲取序列的演進(jìn)方向。其中在深度學(xué)習(xí)中,門控循環(huán)單元GRU(Gate Recurrent Unit)[39]和LSTM較為常見。

    RNN的核心為有向圖,以循環(huán)單元為元素進(jìn)行鏈?zhǔn)巾楁?易捕獲文本分類任務(wù)的所有單詞中的位置信息。圖11展示了RNN文本分類模型。首先,使用詞嵌入技術(shù),將每一個詞匯用特定的向量表示。然后,嵌入的詞匯向量將連續(xù)反饋給循環(huán)單元(RNN Cell)。最后,可以通過隱藏層的輸出來預(yù)測文本的分類標(biāo)簽。

    Figure 11 RNN text classification

    Koutnik等人[40]為了克服RNN梯度爆炸或消失等問題,提出了CW-RNN(Clock Work RNN),通過時鐘頻率使RNN獲得最佳效果;為了對具有長輸入序列的主題標(biāo)記任務(wù)進(jìn)行建模,Dieng等人[41]提出了TopicRNN用于主題分類,其模型將RNN和文本的潛在主題結(jié)合起來,以此獲得句法和語義之間的依賴關(guān)系;Schuster等人[42]在單向RNN的基礎(chǔ)上,提出雙向循環(huán)神經(jīng)網(wǎng)絡(luò),模型可獲取過去和未來2個方向上的信息,提高了文本分類任務(wù)的準(zhǔn)確性;Wang等人[43]提出的膠囊結(jié)構(gòu)的RNN模型,在情感分類任務(wù)上起到了很好的效果。

    LSTM可以有效緩解因RNN在連續(xù)乘法中的梯度消失問題,為文本分類模型提供了基礎(chǔ),如Tai等人[44]提出的Tree-LSTM,即從樹結(jié)構(gòu)來改進(jìn)語義表示;袁婷婷等人[45]基于微博上的性格情感分析提出了PLSTM(Personality-based LSTM)。

    GRU作為LSTM的變體,在一定程度上對LSTM的結(jié)構(gòu)進(jìn)行了精簡改進(jìn)。2019年孫明敏[46]提出的基于GRU和Attention聯(lián)合的中文文本分類,利用注意力機(jī)制,找出中文文本中的關(guān)鍵詞。

    4.3 Attention

    CNN和RNN均在文本分類相關(guān)任務(wù)上展示出了優(yōu)異的結(jié)果。然而,由于隱藏數(shù)據(jù)的不可讀性,導(dǎo)致這些模型在分類錯誤的情況下難以解釋。

    在Bahdanau等人[47]提出的基于機(jī)器翻譯注意力機(jī)制的基礎(chǔ)上,Yang等人[48]提出了分層注意力網(wǎng)絡(luò)HAN(Hierarchical Attention Network),可以對每個句子使用注意力機(jī)制提取出關(guān)鍵信息,進(jìn)而對關(guān)鍵信息使用注意力機(jī)制并用其進(jìn)行文本分類。

    4.4 預(yù)訓(xùn)練模型

    預(yù)訓(xùn)練語言模型[49]可以高效地學(xué)習(xí)全局語義,并顯著提高NLP任務(wù)的效率和結(jié)果的準(zhǔn)確率。預(yù)訓(xùn)練語言模型通常使用無監(jiān)督方法自動挖掘語義知識以及并行化計算,從而提高文本分類的效率。

    2019年,Devlin等人[50]提出了BERT(Bidirectional Encoder Representations from Transformers)模型,BERT應(yīng)用雙向編碼器,通過聯(lián)合調(diào)整所有層中的上下文來預(yù)訓(xùn)練深度的雙向表示。在處理自然語言處理的下游任務(wù)時,只需要對其進(jìn)行微調(diào)。

    在BERT的基礎(chǔ)上,RoBERTa[51]進(jìn)行了改進(jìn),它采用動態(tài)掩蔽方法,每次生成掩蔽模式,并將序列送入模型;ALBERT(A Lite BERT)[52]通過減少了碎片向量的長度和與所有編碼器共享參數(shù)的方式減少了BERT的參數(shù),實(shí)現(xiàn)了跨層參數(shù)共享。GANBERT(Generative Adversarial Nets BERT)[53]使用生成對抗的半監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)來增強(qiáng)BERT的訓(xùn)練;RoCBert(Robust Chinese Bert)[54]是一種經(jīng)過訓(xùn)練的中文BERT,為了解決中文字形易受對抗攻擊性的問題而提出的。Dai等人[55]分別使用標(biāo)準(zhǔn)字符級掩碼、全詞掩蔽以及兩者的組合來訓(xùn)練3個中文BERT模型。Dict-BERT[56]通過利用字典中稀有單詞的定義來增強(qiáng)語言模型的預(yù)訓(xùn)練。

    對于將BERT進(jìn)行精簡上,DistilBERT[57]在減少了40%的參數(shù)基礎(chǔ)上仍保留了97%的語言理解能力;TinyBERT[58]和LightMobileBERT[59]也通過不同的方法對BERT進(jìn)行了精簡;bert2BERT[60]通過遞進(jìn)式訓(xùn)練大模型的方法,提高了效率,也加快了收斂速度。

    受到圖像學(xué)習(xí)的啟發(fā),文本分類任務(wù)中也涌現(xiàn)出一大批語言模型,如:Glove[12]、ELMO(Embedding from Language MOdels)[61]、ULMFiT(Universal Language Model Fine-Tuning)[62]、XLNet(eXtreme multiLingunal pretraiNEd Transformer)[63]、TG-Transformer(Text Graph-Transformer)[64]、X-Transformer(eXtreme-Transformer)[65]、LightXML(Light eXtreme Multi-Label)[66]以及近期的研究熱點(diǎn)OpenAI GPT(Generative Pre-trained Transformer)模型。

    5 中文文本分類數(shù)據(jù)集

    數(shù)據(jù)集的選擇對文本分類實(shí)驗結(jié)果有著重要的影響,目前文本分類常用的開源數(shù)據(jù)集如下:

    Sogou數(shù)據(jù)集:Sogou 新聞數(shù)據(jù)集是Sogou CA和 Sogou CS新聞?wù)Z料的混合。新聞的分類標(biāo)簽由統(tǒng)一資源定位符URL(Uniform Resource Locator)中的域名決定,常用于新聞分類??蓮腟ogou官網(wǎng)https://www.sogou/labs/resource/ca.php獲取。

    THUCNews數(shù)據(jù)集:THUCNews是根據(jù)新浪新聞RSS訂閱頻道2005~2011年間的歷史數(shù)據(jù)篩選過濾生成,包含74萬篇新聞文檔(2.19 GB),均為UTF-8純文本格式。在原始新浪新聞分類體系的基礎(chǔ)上,重新整合劃分出14個候選分類類別:財經(jīng)、彩票、房產(chǎn)、股票、家居、教育、科技、社會、時尚、時政、體育、星座、游戲和娛樂??蓮腡HUCNews官網(wǎng)http://thuctc.thunlp/中獲取。

    Datahub數(shù)據(jù)中心:包含文本分類、情感分析以及知識圖譜的數(shù)據(jù)集,可從Datahub官網(wǎng)http://www.datahub.ileadall42中獲取。

    今日頭條新聞文本分類數(shù)據(jù)集:數(shù)據(jù)來源于今日頭條客戶端,共382 688條數(shù)據(jù),分布于15個分類中。 可從toutiao-text-classfication-dataset中獲取。

    復(fù)旦中文文本分類語料庫:共20類,18 655條數(shù)據(jù)集。

    6 結(jié)束語

    6.1 總結(jié)

    本文主要介紹了現(xiàn)有的文本分類任務(wù)方法,包括傳統(tǒng)的機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法。傳統(tǒng)方法主要通過改進(jìn)特征提取方案和分類器的設(shè)計來提高文本分類性能。相比之下,深度學(xué)習(xí)方法通過改進(jìn)演示學(xué)習(xí)方法、模型結(jié)構(gòu)以及其他數(shù)據(jù)和知識來提高性能。本文著重介紹了中文文本分類任務(wù)中的文本表示部分以及常用的中文文本分類數(shù)據(jù)。

    6.2 展望

    對于中文文本分類方法的集成,RNN需要逐步遞歸以獲得全局信息。CNN可以獲得局部信息,并且可以通過多層堆棧增加感測場,以捕獲更全面的上下文信息。注意力機(jī)制學(xué)習(xí)句子中單詞之間的全局依賴性。Transformer模型依賴于注意力機(jī)制,以建立輸入和輸出之間的全局依賴關(guān)系的深度。因此,設(shè)計一個集成方法可能是未來發(fā)展的方向。

    對于方法的效率,盡管基于深度學(xué)習(xí)的文本分類方法是非常有效的,例如CNN、RNN和LSTM,但是,這些方法仍存在許多技術(shù)限制,如網(wǎng)絡(luò)層的深度、正則化問題、網(wǎng)絡(luò)學(xué)習(xí)率等。因此,優(yōu)化文本分類方法和提高模型訓(xùn)練速度仍有更廣闊的發(fā)展空間。

    猜你喜歡
    單詞分類深度
    分類算一算
    深度理解一元一次方程
    單詞連一連
    分類討論求坐標(biāo)
    深度觀察
    深度觀察
    深度觀察
    數(shù)據(jù)分析中的分類討論
    看圖填單詞
    教你一招:數(shù)的分類
    99久久中文字幕三级久久日本| 亚洲性久久影院| 午夜激情欧美在线| 欧美成人a在线观看| 亚洲精品成人久久久久久| 成人亚洲欧美一区二区av| 美女被艹到高潮喷水动态| videos熟女内射| 亚洲av在线观看美女高潮| 久久精品国产亚洲网站| 国产乱来视频区| 国产中年淑女户外野战色| 亚洲国产精品成人久久小说| 久久久久精品性色| 国产人妻一区二区三区在| 日韩亚洲欧美综合| 三级国产精品片| 夜夜爽夜夜爽视频| 国内精品美女久久久久久| 精品国产三级普通话版| 国产av不卡久久| 成人高潮视频无遮挡免费网站| 国产综合懂色| 亚洲国产精品成人久久小说| 熟女人妻精品中文字幕| 欧美成人a在线观看| 禁无遮挡网站| 亚洲欧美清纯卡通| 一二三四中文在线观看免费高清| 久久97久久精品| 男女视频在线观看网站免费| 丰满乱子伦码专区| 日本av手机在线免费观看| 18禁在线无遮挡免费观看视频| 嫩草影院入口| 国产乱人偷精品视频| 女人久久www免费人成看片| 美女主播在线视频| 毛片一级片免费看久久久久| 天堂影院成人在线观看| 免费观看av网站的网址| 一边亲一边摸免费视频| 亚洲人与动物交配视频| 午夜免费男女啪啪视频观看| 欧美日韩在线观看h| 18禁在线播放成人免费| 麻豆乱淫一区二区| 欧美+日韩+精品| 久久99蜜桃精品久久| 乱人视频在线观看| 女人被狂操c到高潮| 久久亚洲国产成人精品v| 日韩一本色道免费dvd| 亚洲欧洲日产国产| 日韩一区二区三区影片| 欧美日本视频| 国产三级在线视频| 国精品久久久久久国模美| 女的被弄到高潮叫床怎么办| 人人妻人人澡人人爽人人夜夜 | 淫秽高清视频在线观看| 啦啦啦啦在线视频资源| 精品酒店卫生间| 在线观看一区二区三区| 色播亚洲综合网| 久久精品国产亚洲av天美| 亚洲av二区三区四区| 久久久久精品久久久久真实原创| 丝袜美腿在线中文| 国产大屁股一区二区在线视频| 欧美区成人在线视频| av免费在线看不卡| 亚洲成人久久爱视频| 少妇的逼水好多| 神马国产精品三级电影在线观看| 成人漫画全彩无遮挡| 欧美丝袜亚洲另类| 精品少妇黑人巨大在线播放| 亚洲熟女精品中文字幕| 一区二区三区免费毛片| 精品久久久噜噜| 纵有疾风起免费观看全集完整版 | 亚洲国产精品国产精品| av在线蜜桃| 男女边吃奶边做爰视频| 99热6这里只有精品| 在线播放无遮挡| 黄片无遮挡物在线观看| 视频中文字幕在线观看| 日本三级黄在线观看| 国产在视频线精品| 国产一区有黄有色的免费视频 | 天天躁日日操中文字幕| 国产色爽女视频免费观看| 身体一侧抽搐| 欧美性感艳星| 欧美 日韩 精品 国产| 国产成人精品福利久久| 美女黄网站色视频| 久久精品夜色国产| 不卡视频在线观看欧美| 一级毛片 在线播放| 亚洲最大成人手机在线| 免费人成在线观看视频色| 久久久久久九九精品二区国产| 亚洲精品国产成人久久av| 国产黄色视频一区二区在线观看| 熟妇人妻久久中文字幕3abv| 久久久久精品久久久久真实原创| 18禁在线无遮挡免费观看视频| 最近最新中文字幕大全电影3| 永久网站在线| 亚洲精品国产成人久久av| 欧美3d第一页| 国产精品.久久久| 99热网站在线观看| 国产麻豆成人av免费视频| 91精品一卡2卡3卡4卡| 亚洲熟女精品中文字幕| 美女cb高潮喷水在线观看| 精品国内亚洲2022精品成人| 91av网一区二区| 久久韩国三级中文字幕| 亚洲三级黄色毛片| 男人舔奶头视频| 视频中文字幕在线观看| 成人亚洲精品av一区二区| 国产成人精品一,二区| 高清在线视频一区二区三区| 十八禁网站网址无遮挡 | 一个人看视频在线观看www免费| 中文字幕免费在线视频6| 亚洲美女搞黄在线观看| 精品久久久噜噜| 国产激情偷乱视频一区二区| 日韩在线高清观看一区二区三区| 九草在线视频观看| 亚洲av日韩在线播放| 午夜福利在线在线| 亚洲美女视频黄频| 高清av免费在线| 亚洲欧美日韩卡通动漫| 精品久久久精品久久久| 国产单亲对白刺激| 国产黄片美女视频| 国国产精品蜜臀av免费| 亚洲国产成人一精品久久久| 男的添女的下面高潮视频| 免费大片18禁| 一级爰片在线观看| 亚洲精品日韩av片在线观看| 99久国产av精品国产电影| 午夜视频国产福利| 久久精品国产自在天天线| 久久久久九九精品影院| 中文资源天堂在线| 亚洲一级一片aⅴ在线观看| 国产成人aa在线观看| 精品少妇黑人巨大在线播放| 国产av不卡久久| 欧美丝袜亚洲另类| 久久久久久久久久人人人人人人| 久久人人爽人人爽人人片va| 中文字幕免费在线视频6| 永久网站在线| 一二三四中文在线观看免费高清| 欧美变态另类bdsm刘玥| 国产一区二区在线观看日韩| 狂野欧美白嫩少妇大欣赏| 免费大片黄手机在线观看| 国产伦精品一区二区三区视频9| 国产老妇伦熟女老妇高清| 久久久久免费精品人妻一区二区| 日韩三级伦理在线观看| 国产精品久久久久久久久免| 国产精品综合久久久久久久免费| 成人午夜高清在线视频| 亚洲av中文字字幕乱码综合| 国产成人免费观看mmmm| 麻豆av噜噜一区二区三区| 国产精品一区二区在线观看99 | 高清毛片免费看| 我的老师免费观看完整版| 日韩成人av中文字幕在线观看| 极品少妇高潮喷水抽搐| 亚洲国产精品sss在线观看| 日韩欧美精品免费久久| 亚洲精华国产精华液的使用体验| 久久99热这里只有精品18| 国产亚洲av嫩草精品影院| kizo精华| 国产成人精品婷婷| 免费看日本二区| 一级毛片黄色毛片免费观看视频| 亚洲精品久久午夜乱码| 国产伦精品一区二区三区四那| 日韩中字成人| 免费在线观看成人毛片| 人人妻人人澡人人爽人人夜夜 | 久久久久久久亚洲中文字幕| 国产一区二区在线观看日韩| 韩国av在线不卡| 三级男女做爰猛烈吃奶摸视频| 国产 一区精品| 免费观看无遮挡的男女| 最近最新中文字幕大全电影3| 国产白丝娇喘喷水9色精品| 高清日韩中文字幕在线| 亚洲精品中文字幕在线视频 | 久久韩国三级中文字幕| 国产伦理片在线播放av一区| 亚洲内射少妇av| 女的被弄到高潮叫床怎么办| 国产极品天堂在线| 大香蕉97超碰在线| 国内精品一区二区在线观看| 777米奇影视久久| 久久久色成人| 干丝袜人妻中文字幕| 欧美一级a爱片免费观看看| 黄色一级大片看看| 国产黄频视频在线观看| 99久久精品热视频| 午夜激情久久久久久久| 观看美女的网站| 又大又黄又爽视频免费| 亚洲成人精品中文字幕电影| 国产亚洲午夜精品一区二区久久 | 成人av在线播放网站| 国产大屁股一区二区在线视频| 网址你懂的国产日韩在线| 中文欧美无线码| 国产精品三级大全| 亚洲精品日本国产第一区| 亚洲国产精品国产精品| 十八禁网站网址无遮挡 | 国产视频首页在线观看| 蜜桃久久精品国产亚洲av| ponron亚洲| 天天躁日日操中文字幕| 亚洲欧美日韩东京热| 久久久国产一区二区| 久久久久久久国产电影| 日本与韩国留学比较| 亚洲va在线va天堂va国产| 亚洲无线观看免费| 国产精品日韩av在线免费观看| 高清在线视频一区二区三区| 久久久久精品久久久久真实原创| 成人二区视频| 国产亚洲5aaaaa淫片| 在现免费观看毛片| 成人亚洲欧美一区二区av| 一级毛片久久久久久久久女| 老女人水多毛片| 精华霜和精华液先用哪个| 国产精品久久久久久精品电影小说 | 人妻少妇偷人精品九色| 亚洲成人av在线免费| av在线天堂中文字幕| 成人美女网站在线观看视频| 国产成人91sexporn| 成人鲁丝片一二三区免费| 精品一区二区三区人妻视频| 最后的刺客免费高清国语| 特级一级黄色大片| 乱人视频在线观看| 看黄色毛片网站| 丰满人妻一区二区三区视频av| 晚上一个人看的免费电影| 日韩av在线免费看完整版不卡| 欧美日韩国产mv在线观看视频 | 国产精品人妻久久久久久| 黑人高潮一二区| 亚洲人成网站在线播| 汤姆久久久久久久影院中文字幕 | 老司机影院毛片| 免费看美女性在线毛片视频| 亚洲国产日韩欧美精品在线观看| 91久久精品国产一区二区三区| 国产成人a区在线观看| 欧美bdsm另类| 18禁动态无遮挡网站| 日产精品乱码卡一卡2卡三| 国产老妇伦熟女老妇高清| 色网站视频免费| 亚洲精品久久午夜乱码| 内射极品少妇av片p| 丰满乱子伦码专区| 亚洲av中文字字幕乱码综合| 色哟哟·www| 亚洲天堂国产精品一区在线| 色综合亚洲欧美另类图片| 国产单亲对白刺激| 日韩欧美精品v在线| 日韩 亚洲 欧美在线| 欧美xxⅹ黑人| 一本一本综合久久| 寂寞人妻少妇视频99o| 欧美xxxx黑人xx丫x性爽| 成人高潮视频无遮挡免费网站| 久久久精品欧美日韩精品| 日韩电影二区| 2018国产大陆天天弄谢| 午夜精品一区二区三区免费看| 日韩制服骚丝袜av| 别揉我奶头 嗯啊视频| 日本色播在线视频| 99久国产av精品| 人人妻人人澡欧美一区二区| 国产精品一二三区在线看| 国产高潮美女av| 99久久精品国产国产毛片| av福利片在线观看| 大片免费播放器 马上看| 精品少妇黑人巨大在线播放| 搡老妇女老女人老熟妇| 日本熟妇午夜| 91在线精品国自产拍蜜月| 91狼人影院| 日韩强制内射视频| 亚洲国产日韩欧美精品在线观看| 乱人视频在线观看| 午夜免费男女啪啪视频观看| 搡老乐熟女国产| 啦啦啦韩国在线观看视频| 日韩三级伦理在线观看| 精品久久久噜噜| 免费不卡的大黄色大毛片视频在线观看 | 男女啪啪激烈高潮av片| 能在线免费观看的黄片| 久久精品人妻少妇| 国产黄色视频一区二区在线观看| 91午夜精品亚洲一区二区三区| 在现免费观看毛片| 午夜福利网站1000一区二区三区| 国产精品久久久久久精品电影小说 | 真实男女啪啪啪动态图| 日韩三级伦理在线观看| 精品一区二区三卡| 午夜激情久久久久久久| 秋霞伦理黄片| 一级毛片电影观看| 91精品一卡2卡3卡4卡| 亚洲精品国产成人久久av| 日韩一区二区视频免费看| 久久久国产一区二区| 天堂网av新在线| 久久久久久久久久黄片| 日韩视频在线欧美| 国产亚洲91精品色在线| 日韩欧美一区视频在线观看 | 国产伦一二天堂av在线观看| 校园人妻丝袜中文字幕| 久久鲁丝午夜福利片| 国产黄片视频在线免费观看| 少妇高潮的动态图| 美女内射精品一级片tv| 亚洲成人av在线免费| 欧美成人一区二区免费高清观看| 美女脱内裤让男人舔精品视频| 欧美xxxx黑人xx丫x性爽| 欧美最新免费一区二区三区| 18禁裸乳无遮挡免费网站照片| 欧美日韩综合久久久久久| 欧美成人一区二区免费高清观看| 国产熟女欧美一区二区| 国产老妇伦熟女老妇高清| 麻豆久久精品国产亚洲av| 国产精品熟女久久久久浪| 天堂中文最新版在线下载 | 成年免费大片在线观看| 国产真实伦视频高清在线观看| 亚洲欧美一区二区三区国产| 国产熟女欧美一区二区| 一夜夜www| 最近最新中文字幕大全电影3| 国产精品综合久久久久久久免费| 欧美zozozo另类| 少妇的逼水好多| 日日撸夜夜添| 三级国产精品片| 欧美最新免费一区二区三区| 狂野欧美激情性xxxx在线观看| 别揉我奶头 嗯啊视频| 视频中文字幕在线观看| 亚洲久久久久久中文字幕| 日韩精品青青久久久久久| 丰满少妇做爰视频| 亚洲性久久影院| 亚洲av福利一区| 欧美成人午夜免费资源| 男女啪啪激烈高潮av片| 最后的刺客免费高清国语| 高清视频免费观看一区二区 | 啦啦啦韩国在线观看视频| 日本wwww免费看| 欧美 日韩 精品 国产| 人人妻人人澡欧美一区二区| 精品欧美国产一区二区三| 欧美激情久久久久久爽电影| 国产精品国产三级国产av玫瑰| 九九爱精品视频在线观看| 婷婷六月久久综合丁香| 最近最新中文字幕大全电影3| 国产一区亚洲一区在线观看| 成人综合一区亚洲| 激情 狠狠 欧美| 伦精品一区二区三区| 啦啦啦中文免费视频观看日本| 久久久久国产网址| 97热精品久久久久久| 日本免费在线观看一区| 麻豆成人午夜福利视频| 免费看a级黄色片| 亚洲精品456在线播放app| 婷婷色麻豆天堂久久| 亚洲国产色片| 波野结衣二区三区在线| 丰满人妻一区二区三区视频av| 午夜福利成人在线免费观看| av在线蜜桃| 一二三四中文在线观看免费高清| 欧美日本视频| 99热网站在线观看| 天堂俺去俺来也www色官网 | 国产极品天堂在线| 久久久色成人| 在线天堂最新版资源| 一二三四中文在线观看免费高清| 国产在线男女| 国产精品一区二区三区四区久久| 成年av动漫网址| 国产三级在线视频| 精品人妻熟女av久视频| 夜夜看夜夜爽夜夜摸| av卡一久久| 国产伦理片在线播放av一区| 色哟哟·www| 成人美女网站在线观看视频| 精品一区二区免费观看| 国产精品蜜桃在线观看| 婷婷色麻豆天堂久久| 国产片特级美女逼逼视频| 你懂的网址亚洲精品在线观看| 嫩草影院入口| 九草在线视频观看| 日本av手机在线免费观看| 亚洲无线观看免费| 一级二级三级毛片免费看| 日韩视频在线欧美| 亚洲精品国产成人久久av| 亚洲欧美精品自产自拍| 水蜜桃什么品种好| 亚洲欧美日韩无卡精品| 天堂俺去俺来也www色官网 | 十八禁国产超污无遮挡网站| 国产激情偷乱视频一区二区| 亚洲一级一片aⅴ在线观看| 蜜桃亚洲精品一区二区三区| 成人毛片60女人毛片免费| 国语对白做爰xxxⅹ性视频网站| 午夜免费男女啪啪视频观看| 一边亲一边摸免费视频| 欧美一级a爱片免费观看看| 菩萨蛮人人尽说江南好唐韦庄| 亚洲精品第二区| 国产乱人视频| 国产亚洲精品久久久com| 国产白丝娇喘喷水9色精品| 国产综合精华液| 午夜视频国产福利| 国产亚洲午夜精品一区二区久久 | 欧美高清成人免费视频www| 色哟哟·www| 欧美激情国产日韩精品一区| 一区二区三区乱码不卡18| 国内少妇人妻偷人精品xxx网站| 女人被狂操c到高潮| 欧美bdsm另类| 免费少妇av软件| 国产精品精品国产色婷婷| 伦理电影大哥的女人| 久久久色成人| 欧美日韩在线观看h| 极品少妇高潮喷水抽搐| 国产精品爽爽va在线观看网站| 欧美激情久久久久久爽电影| 日韩亚洲欧美综合| 少妇人妻一区二区三区视频| 中文字幕人妻熟人妻熟丝袜美| 麻豆国产97在线/欧美| 十八禁网站网址无遮挡 | 日韩精品青青久久久久久| 国产精品蜜桃在线观看| 中文精品一卡2卡3卡4更新| 日韩在线高清观看一区二区三区| 性插视频无遮挡在线免费观看| 大话2 男鬼变身卡| 国产精品伦人一区二区| 日韩三级伦理在线观看| 高清视频免费观看一区二区 | 午夜日本视频在线| 日本三级黄在线观看| 有码 亚洲区| 亚洲在久久综合| 春色校园在线视频观看| 国产亚洲5aaaaa淫片| 久久精品国产鲁丝片午夜精品| 国产一区二区亚洲精品在线观看| 岛国毛片在线播放| 国产精品久久久久久精品电影小说 | 中国美白少妇内射xxxbb| 午夜福利在线观看吧| 日韩av在线免费看完整版不卡| 99热这里只有精品一区| 九色成人免费人妻av| 不卡视频在线观看欧美| 五月天丁香电影| 97人妻精品一区二区三区麻豆| videos熟女内射| 最近视频中文字幕2019在线8| 久久久久久久久久久免费av| 亚洲欧美一区二区三区国产| 草草在线视频免费看| 亚洲丝袜综合中文字幕| 女人十人毛片免费观看3o分钟| 日本黄大片高清| 91精品国产九色| 五月玫瑰六月丁香| 亚洲最大成人中文| 亚洲国产色片| 少妇丰满av| 久久这里有精品视频免费| 成人午夜高清在线视频| 男的添女的下面高潮视频| 99热这里只有精品一区| 国国产精品蜜臀av免费| 波野结衣二区三区在线| 久久精品国产亚洲网站| 国产精品国产三级国产av玫瑰| 91狼人影院| 久久国内精品自在自线图片| av播播在线观看一区| 日本一本二区三区精品| 嫩草影院新地址| 亚洲av日韩在线播放| 特大巨黑吊av在线直播| 高清日韩中文字幕在线| 久久精品熟女亚洲av麻豆精品 | 老司机影院成人| 丰满少妇做爰视频| av天堂中文字幕网| 一区二区三区免费毛片| 99视频精品全部免费 在线| 午夜老司机福利剧场| 日本-黄色视频高清免费观看| 亚洲高清免费不卡视频| 精品国产一区二区三区久久久樱花 | 美女国产视频在线观看| 直男gayav资源| 国产综合懂色| 日韩中字成人| 亚洲av不卡在线观看| 九九久久精品国产亚洲av麻豆| 亚洲av在线观看美女高潮| 久久久久久久久久黄片| 国产在线男女| 免费看美女性在线毛片视频| 国产男女超爽视频在线观看| 成人无遮挡网站| 91午夜精品亚洲一区二区三区| 中文字幕亚洲精品专区| 国产精品国产三级国产av玫瑰| 国产成人午夜福利电影在线观看| 欧美zozozo另类| 寂寞人妻少妇视频99o| 久久99热6这里只有精品| 国产精品av视频在线免费观看| 日本一本二区三区精品| 国产视频首页在线观看| 亚洲色图av天堂| 国产精品久久久久久精品电影小说 | 亚洲欧美日韩卡通动漫| 亚洲成色77777| 精品一区二区三区视频在线| 国产精品综合久久久久久久免费| 91精品国产九色| 久久久久久久久久黄片| 午夜免费观看性视频| 久久99热这里只频精品6学生| 国产av码专区亚洲av| 婷婷色综合www| 2021天堂中文幕一二区在线观| 久久久久久久久久久丰满| 精品久久国产蜜桃| 人妻制服诱惑在线中文字幕| 亚洲最大成人手机在线| 街头女战士在线观看网站| 老女人水多毛片| 国国产精品蜜臀av免费| 午夜免费男女啪啪视频观看| av又黄又爽大尺度在线免费看| 国产伦理片在线播放av一区| 精品久久久久久久末码| 亚洲精品乱码久久久久久按摩| 内地一区二区视频在线| 国产精品三级大全| 日韩国内少妇激情av| 六月丁香七月| 三级国产精品欧美在线观看| 国产中年淑女户外野战色| 亚洲美女视频黄频| 国产一区有黄有色的免费视频 | 一级毛片我不卡|