摘要:【目的】文章比較多個(gè)基于深度神經(jīng)網(wǎng)絡(luò)的中文新聞文本分類(lèi)模型,旨在找到準(zhǔn)確度較高的方法用以實(shí)際工作,為中文新聞文本分類(lèi)提供更加高效的方法?!痉椒ā繉?duì)文本分類(lèi)技術(shù)和中文新聞分類(lèi)進(jìn)行了梳理和歸納,對(duì)中文新聞文本的特征和預(yù)處理進(jìn)行了闡述,詳細(xì)介紹FastText算法、Bert分類(lèi)算法、TextCNN算法和TextRNN算法。【結(jié)果】四種深度神經(jīng)網(wǎng)絡(luò)算法均可以應(yīng)用于中文新聞文本分類(lèi),可以有效處理信息紊亂問(wèn)題以及快速準(zhǔn)確進(jìn)行分類(lèi)?!窘Y(jié)論】通過(guò)對(duì)四種深度神經(jīng)網(wǎng)絡(luò)算法進(jìn)行試驗(yàn)和效果對(duì)比,發(fā)現(xiàn)FastText模型在實(shí)際工作中的文本分類(lèi)效果最為優(yōu)異。
關(guān)鍵詞:深度神經(jīng)網(wǎng)絡(luò);文本分類(lèi);中文新聞;自然語(yǔ)言處理" " " " " " 中圖分類(lèi)號(hào):TP183" " " " " "文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1671-0134(2023)03-147-05" " " " DOI:10.19483/j.cnki.11-4653/n.2023.03.033
本文著錄格式 :鄭創(chuàng)偉,王泳,邢谷濤,謝志成,陳義飛.基于深度神經(jīng)網(wǎng)絡(luò)的中文新聞文本分類(lèi)方法[J].中國(guó)傳媒科技,2023(03):147-151.
導(dǎo)語(yǔ)
隨著信息時(shí)代的高速發(fā)展,網(wǎng)絡(luò)信息呈現(xiàn)爆炸式增長(zhǎng)。新浪、今日頭條等一些主流新聞網(wǎng)站,每天提供數(shù)以百萬(wàn)計(jì)的新聞數(shù)據(jù),然而這些爆炸式增長(zhǎng)的數(shù)據(jù)給網(wǎng)站帶來(lái)了巨大的挑戰(zhàn)。新聞文本分類(lèi)可以有效地對(duì)文本進(jìn)行快速準(zhǔn)確分類(lèi),提高網(wǎng)站的工作效率,成為近些年來(lái)的研究熱點(diǎn)。新聞文本分類(lèi)屬于文本分類(lèi)的一個(gè)子任務(wù)。文本分類(lèi)廣泛應(yīng)用于各個(gè)領(lǐng)域,如網(wǎng)頁(yè)分類(lèi)、微博情感分析、用戶(hù)評(píng)論挖掘等,是自然語(yǔ)言處理中使用率最廣泛的技術(shù)之一。文本分類(lèi)最重要的作用是可以有效處理信息紊亂問(wèn)題,尤其是對(duì)海量信息而言,更能夠幫助用戶(hù)快速、高效準(zhǔn)確地定位所需信息,從而更加高效地分析數(shù)據(jù)。[1]
本文對(duì)新聞文本分類(lèi)技術(shù)進(jìn)行探究和闡述,主要包括分類(lèi)特點(diǎn)等,并通過(guò)實(shí)驗(yàn)指出各個(gè)算法的優(yōu)劣所在,預(yù)測(cè)未來(lái)新聞分類(lèi)的發(fā)展趨勢(shì)。
1.相關(guān)研究
1.1" "中文新聞分類(lèi)概述
中文文本是一種無(wú)法被計(jì)算機(jī)處理的非結(jié)構(gòu)化數(shù)據(jù),要轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)的過(guò)程首先要進(jìn)行數(shù)據(jù)預(yù)處理,然后用一些特征提取的方法就可以使用。[2]特征提取可以概括為以下三類(lèi):(1)詞袋模型。(2)特性權(quán)重計(jì)算。(3)向量空間模型。詞袋模型指忽略詞序和語(yǔ)法,將文本僅僅看作是一個(gè)詞集合。若詞集合共有N個(gè)詞,每個(gè)文本表示為一個(gè)N維向量,元素為0/1,表示該文本是否包含對(duì)應(yīng)的詞。特性權(quán)重計(jì)算一般有布爾權(quán)重、TFIDF型權(quán)重,以及基于熵概念權(quán)重等幾種方式。向量空間模型指以詞袋模型為基礎(chǔ),通過(guò)特征選擇來(lái)降低模型維度,并且利用特征權(quán)重來(lái)進(jìn)行二次計(jì)算。[3]通過(guò)上述方法,可以將非結(jié)構(gòu)化的文本轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)組,從而進(jìn)行文本分類(lèi)。
基于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,主要可以概括為特征工程+淺層分類(lèi)模型。基于機(jī)器學(xué)習(xí)分類(lèi)方法中,會(huì)將數(shù)據(jù)集按照一定比例分為訓(xùn)練集和測(cè)試集,然后通過(guò)不斷訓(xùn)練調(diào)整分類(lèi)模型的參數(shù)來(lái)達(dá)到更高的準(zhǔn)確率,再利用測(cè)試集對(duì)該分類(lèi)模型的分類(lèi)效果進(jìn)行評(píng)估。[4]在分類(lèi)過(guò)程中,可以利用相似語(yǔ)料對(duì)提取出的文本信息進(jìn)行擴(kuò)展,進(jìn)而得到特征向量,或者利用支持向量機(jī),以及信息增益的計(jì)算方式來(lái)選擇特征,提高分類(lèi)準(zhǔn)確率。此外,還能夠?qū)υ~向量進(jìn)行加權(quán)處理,這樣能更加精準(zhǔn)區(qū)分不同詞條的重要程度,提高分類(lèi)文本的準(zhǔn)確率和效率。由于不同的任務(wù)對(duì)特征的要求不一樣,所以具體問(wèn)題需要具體分析。其中最主要涉及的技術(shù)為構(gòu)建分類(lèi)器,這是一種基于統(tǒng)計(jì)分類(lèi)的方法,包括SVM和樸素貝葉斯分類(lèi)算法等。[5]
基于深度學(xué)習(xí)的文本分類(lèi)方法,利用CNN/RNN等網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)獲取特征表達(dá),然后進(jìn)行分類(lèi),從而端到端的解決問(wèn)題?;谏疃葘W(xué)習(xí)分類(lèi)方法中,由于計(jì)算機(jī)性能不斷提升,使得圖像識(shí)別、自然語(yǔ)言處理等領(lǐng)域得到了快速發(fā)展。這種算法模擬了人的大腦中神經(jīng)元的連接與計(jì)算,在其神經(jīng)網(wǎng)絡(luò)中,一般包含輸入層、隱藏層和輸出層。層與層之間通過(guò)反向傳播算法等對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練和計(jì)算,得到相應(yīng)的訓(xùn)練模型。深度學(xué)習(xí)的方式,往往也意味著其隱藏層較多,每層負(fù)責(zé)學(xué)習(xí)的特征有所區(qū)別,最終將這些特征匯總在一起,完成更加精準(zhǔn)的學(xué)習(xí)任務(wù)。[6]在對(duì)文本分類(lèi)過(guò)程中,可以從用戶(hù)特征信息、文本主題信息,以及評(píng)論關(guān)鍵詞等角度出發(fā),提取結(jié)構(gòu)化文本中的特征信息,這樣能夠取得更好的分類(lèi)效果。
2.中文新聞文本分類(lèi)研究
2.1" "中文新聞文本特征
從文本分類(lèi)的角度分析,中文新聞具有以下兩個(gè)特征:(1)新聞需要文本分類(lèi)。隨著信息時(shí)代數(shù)據(jù)量爆發(fā)式增長(zhǎng),新聞也呈現(xiàn)指數(shù)型增長(zhǎng),如何從這些海量的數(shù)據(jù)當(dāng)中獲取需要的新聞成為一個(gè)熱點(diǎn)問(wèn)題。(2)新聞分類(lèi)具有可行性。由于新聞數(shù)據(jù)的公開(kāi)性,網(wǎng)絡(luò)上充斥著大量的訓(xùn)練和測(cè)試數(shù)據(jù)。與此同時(shí),隨著分類(lèi)算法快速發(fā)展,分類(lèi)性能也越來(lái)越高。
2.2" "中文新聞文本預(yù)處理
中文新聞的文本預(yù)處理主要是針對(duì)一些無(wú)實(shí)際意義的詞進(jìn)行識(shí)別和剔除,例如大量的停用詞或噪聲等,從而能夠降低其對(duì)預(yù)處理的影響程度。[7]文本預(yù)處理的過(guò)程主要包括:分詞、降噪、詞性標(biāo)注、剔除停用詞等。
2.2.1" "分詞
在中文新聞分詞過(guò)程中,沒(méi)有類(lèi)似英文中間空格的斷開(kāi)分詞特征,因此就需要對(duì)其進(jìn)行更多處理,例如,使用向前向后最大匹配算法等,可以使用基于字典或者基于統(tǒng)計(jì)的方法進(jìn)行分詞。中文分詞主要是解決中文文本中缺少形式上的分隔符這一難題,中文分詞所使用的技術(shù)主要有以下幾種:第一,基于字符串匹配技術(shù),這種方法的關(guān)鍵是必須建立統(tǒng)一的詞典表,當(dāng)句子開(kāi)始進(jìn)行分詞時(shí),先將句子進(jìn)行拆分,拆分后再和之前建立的詞典表進(jìn)行匹配對(duì)比。第二,基于理解的分詞方法,這種方法是讓計(jì)算機(jī)通過(guò)神經(jīng)網(wǎng)絡(luò)算法去模擬人對(duì)句子進(jìn)行理解和表達(dá),進(jìn)而可以識(shí)別中文詞語(yǔ),但因中文詞語(yǔ)的語(yǔ)義較廣,因此難度較大。第三,基于統(tǒng)計(jì)的分詞技術(shù),這種方法的最基本思維就是利用了統(tǒng)計(jì)學(xué)和概率等,認(rèn)為分詞是一個(gè)概率最大化問(wèn)題,基于所構(gòu)建的語(yǔ)料庫(kù),統(tǒng)計(jì)相鄰的字組成的詞語(yǔ)出現(xiàn)的概率,按照概率值進(jìn)行分詞。
2.2.2" "降噪
對(duì)中文新聞信息的降噪,主要是去除網(wǎng)頁(yè)上雜亂的文字和圖片,只保留經(jīng)過(guò)工整排版的正文部分。如果遇到短文本,還需要剔除一些表情符號(hào)、轉(zhuǎn)發(fā)關(guān)系等,僅保留純文本用于后續(xù)分析和處理。在降噪過(guò)程中可能涉及特征抽取或特征降維這一操作,其可以有效降低算法計(jì)算的開(kāi)銷(xiāo)、去除噪聲,能夠提升模型的訓(xùn)練速度。
2.2.3" "詞性標(biāo)注
降噪完成后,需要對(duì)中文新聞中的詞語(yǔ)進(jìn)行詞性標(biāo)注,包括名詞、動(dòng)詞、形容詞、副詞等。詞性標(biāo)注的作用主要體現(xiàn)在后續(xù)對(duì)文本進(jìn)行識(shí)別和分類(lèi)的過(guò)程中,經(jīng)過(guò)詞性標(biāo)注后,處理效率能夠大大提升。
2.2.4" "停用詞或無(wú)意義詞過(guò)濾
第一種方法是根據(jù)已制定的停用詞表進(jìn)行處理,停用詞表中一般包含語(yǔ)氣詞、標(biāo)點(diǎn)符號(hào)等,在對(duì)新聞信息分詞去噪后,對(duì)其進(jìn)行遍歷,遇到與停用詞表中相同詞語(yǔ)時(shí),將其剔除。這種方法可控性較好,效率較高,能夠隨時(shí)對(duì)停用詞表進(jìn)行修改。第二種方法是計(jì)算語(yǔ)料庫(kù)中詞語(yǔ)出現(xiàn)的頻率,然后選擇出現(xiàn)頻率較低或次數(shù)較少的詞語(yǔ)進(jìn)行剔除。但這種方法計(jì)算量較大,會(huì)消耗較多資源,有時(shí)還可能將某個(gè)出現(xiàn)頻率較低但影響較大的詞語(yǔ)誤刪除。
2.3" "中文新聞文本分類(lèi)的主要模型方法
文本分類(lèi)是根據(jù)文本語(yǔ)義內(nèi)容來(lái)對(duì)其進(jìn)行歸類(lèi)的一個(gè)過(guò)程,文本數(shù)據(jù)集合與類(lèi)別集合之間可以用3-1函數(shù)表示:
基于上文提到的新聞特征,將文本分類(lèi)應(yīng)用到新聞?lì)I(lǐng)域有重要實(shí)際意義。新聞文本分類(lèi)具有以下三個(gè)特點(diǎn)[8]:(1)文本分析要考慮標(biāo)題的重要性:新聞標(biāo)題是對(duì)一篇文章的高度概括,它對(duì)新聞的分類(lèi)有很大的輔助作用;(2)文本表示要考慮新聞特征:充分分析新聞文本的特性,進(jìn)而優(yōu)化文本表示方法,有助于提高網(wǎng)絡(luò)新聞的分類(lèi)效果;(3)分類(lèi)標(biāo)準(zhǔn)偏向主題而非學(xué)科。因此,本研究針對(duì)實(shí)際工作中遇到的新聞數(shù)據(jù),基于深度學(xué)習(xí)的分類(lèi)算法,采用了FastText、TextCNN、BERT、TextRNN等模型進(jìn)行計(jì)算和訓(xùn)練。在訓(xùn)練過(guò)程中要注意對(duì)數(shù)據(jù)集進(jìn)行分類(lèi),預(yù)設(shè)的判斷條件要盡可能科學(xué),例如,考慮用梯度下降的反向傳播算法來(lái)更新權(quán)值,從而使得準(zhǔn)確率逐步提高,達(dá)到更好的訓(xùn)練效果。
2.3.1" "FastText模型
FastText模型主要包括輸入層、隱含層和輸出層(如圖1),與大型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相比其較為簡(jiǎn)單,運(yùn)行效率較高,它在保證分類(lèi)準(zhǔn)確率的同時(shí),還能夠進(jìn)一步提升訓(xùn)練速度。[9]在輸入層中,將文本當(dāng)作一個(gè)由詞構(gòu)成的集合,生成表征文本的向量,在此過(guò)程中的關(guān)鍵操作為對(duì)文本中出現(xiàn)的詞實(shí)施疊加平均操作,最后利用該向量完成多分類(lèi)任務(wù)。此算法的優(yōu)點(diǎn)還體現(xiàn)在可以無(wú)須進(jìn)行預(yù)訓(xùn)練步驟,其可以自發(fā)訓(xùn)練詞向量,將單詞序列作為輸入,并且使用層次softmax函數(shù)對(duì)分類(lèi)進(jìn)行加速,以及預(yù)測(cè)這些類(lèi)別的概率分布。這種以霍夫曼編碼樹(shù)形式來(lái)建立層次的方法,大大降低了計(jì)算復(fù)雜度。
2.3.2" "TextCNN模型
選擇合適的中文文本分類(lèi)算法是中文文本分類(lèi)的核心,這需要對(duì)每種算法有一定程度的了解,同時(shí)要對(duì)新聞文本分類(lèi)任務(wù)有清晰的認(rèn)知。使用TextCNN處理文本并進(jìn)行分類(lèi),就必須對(duì)信息進(jìn)行數(shù)據(jù)預(yù)處理操作,以便后期達(dá)到更好的分析效果,具體包括向量化、詞向量初始化等。在文本分類(lèi)中,TextCNN模型應(yīng)用最為廣泛,尤其在工業(yè)領(lǐng)域應(yīng)用更為成熟,已經(jīng)取得了較為優(yōu)異的輸出效果,其網(wǎng)絡(luò)結(jié)構(gòu)較為簡(jiǎn)單,因此模型可以使用較少的參數(shù)進(jìn)行訓(xùn)練,有效節(jié)約計(jì)算開(kāi)支,提高了訓(xùn)練速度。CNN主要運(yùn)用在圖片分類(lèi)領(lǐng)域,而TextCNN則是其一種變形,能夠用于文本分類(lèi),結(jié)構(gòu)示意圖如圖2所示,詞向量經(jīng)過(guò)不同卷積核運(yùn)算后得到對(duì)應(yīng)的特征向量,再經(jīng)過(guò)池化層后得到全連接層,此時(shí)映射運(yùn)算就能夠?qū)⒏呔S數(shù)據(jù)轉(zhuǎn)換為低維數(shù)據(jù)。[10]TextCNN的可解釋性較弱,需要人工對(duì)其進(jìn)行指導(dǎo)干預(yù),對(duì)卷積核的尺寸進(jìn)行設(shè)定,并且需要對(duì)模型進(jìn)行手工調(diào)優(yōu)。TextCNN模型通過(guò)利用一個(gè)k維向量來(lái)代表某句子中的一個(gè)單詞,這些單詞會(huì)做成一個(gè)詞典以供文本輸入后使用。文本輸入后會(huì)將每個(gè)單詞對(duì)應(yīng)一個(gè)一維向量,最終將一整個(gè)句子轉(zhuǎn)換成一個(gè)二維矩陣后卷積,而此時(shí)卷積核的列維度就與輸入的維度相同,并且卷積核的大小可以根據(jù)實(shí)際情況進(jìn)行調(diào)整,滑動(dòng)步長(zhǎng)的范圍往往控制在2 ~ 5個(gè)單詞之間。
從圖3 TextCNN 算法流程圖中能夠看出,在輸入文本信息后,開(kāi)始對(duì)文本進(jìn)行數(shù)據(jù)預(yù)處理,此時(shí)使用到詞嵌入、詞向量初始化、向量維度變換等方法。數(shù)據(jù)預(yù)處理完畢后,使用Text CNN進(jìn)行訓(xùn)練,通過(guò)卷積、最大池化、Softmax方式輸出分類(lèi)結(jié)果。最后對(duì)輸出的損失值進(jìn)行判斷,如果超過(guò)了設(shè)定的閾值,則以梯度下降的反向傳播算法進(jìn)行循環(huán)更新,直到小于或等于設(shè)定的閾值則訓(xùn)練結(jié)束。常用的梯度下降方法為批量梯度下降法,即在每一次迭代過(guò)程中都需要更新梯度。梯度下降的優(yōu)點(diǎn)在于其利用矩陣計(jì)算所有樣本數(shù)據(jù),可對(duì)數(shù)據(jù)進(jìn)行并行處理;缺點(diǎn)在于當(dāng)數(shù)據(jù)量較大時(shí),每次計(jì)算所有數(shù)據(jù)會(huì)使得訓(xùn)練效率有所降低。
2.3.3" "Bert模型
Bert最早是谷歌團(tuán)隊(duì)發(fā)明的一種語(yǔ)言模型,它由多個(gè)Transformer的Encoder疊加而成,模型結(jié)構(gòu)如圖4所示。Transformer結(jié)構(gòu)是采用一種注意力機(jī)制,在讀取數(shù)據(jù)信息時(shí)會(huì)一次性讀取文本序列,不僅能夠提高讀取效率,還能夠更方便的基于單詞的上下文進(jìn)行語(yǔ)義學(xué)習(xí),增強(qiáng)了對(duì)上下文語(yǔ)義的理解,也與中文語(yǔ)言表述更接近。這種方法對(duì)新聞文本分類(lèi)而言,可以解決數(shù)據(jù)稀疏、上下文依賴(lài)性過(guò)高等難點(diǎn),使得文本分類(lèi)性能更加高效,滿(mǎn)足更加精準(zhǔn)性的需求。
該模型的輸入層主要是利用Bert模型算法進(jìn)行預(yù)訓(xùn)練,進(jìn)而能夠以文本語(yǔ)義向量表示。在句子開(kāi)頭和結(jié)尾處需要進(jìn)行標(biāo)記,然后對(duì)讀取到的數(shù)據(jù)進(jìn)行處理,采用映射索引的方法對(duì)文字和標(biāo)簽進(jìn)行切分,然后將每一個(gè)詞嵌入轉(zhuǎn)換為一維語(yǔ)義向量。再通過(guò)Transformer Encoder堆疊,完成雙向語(yǔ)義特征學(xué)習(xí)及向量表示。在特征抽取層,要通過(guò)Bert模型進(jìn)行進(jìn)一步微調(diào),結(jié)合注意力機(jī)制對(duì)文本特征進(jìn)行提取,通過(guò)這種機(jī)制能夠更加聚焦于數(shù)據(jù)內(nèi)部的相關(guān)性,利用詞向量加權(quán)的方式提高模型運(yùn)算效率。[11]Bert算法模型就是由多個(gè)Transformer的Encoder部分疊加的深層次網(wǎng)絡(luò),該方式一次性讀取整個(gè)文本序列,因此可以用于對(duì)某個(gè)單詞上下文語(yǔ)義進(jìn)行學(xué)習(xí),增強(qiáng)了對(duì)上下文語(yǔ)義學(xué)習(xí)的理解能力,在一定程度上更加接近人類(lèi)語(yǔ)言。同時(shí)還會(huì)對(duì)文本進(jìn)行特征抽取,示意圖如圖5,具有全局時(shí)序最優(yōu)等特征,可以提取文本信息中上下文語(yǔ)義信息,具體實(shí)現(xiàn)過(guò)程中需要利用Tensorflow庫(kù)函數(shù)來(lái)搭建雙向網(wǎng)絡(luò)操作函數(shù)。在輸出層,主要是對(duì)每個(gè)樣本所屬的標(biāo)簽做概率預(yù)測(cè),對(duì)文本信息能夠進(jìn)行高效提取,然后通過(guò)全連接的方式提高分詞準(zhǔn)確率。這種全連接方式利用了激活函數(shù)和數(shù)據(jù)線性變換的方式來(lái)提高計(jì)算效率,并且采用梯度下降算法來(lái)進(jìn)行參數(shù)學(xué)習(xí)和Dropout策略防止模型過(guò)擬合問(wèn)題。
2.3.4" "TextRNN模型
該遞歸神經(jīng)網(wǎng)絡(luò)模型又名文本循環(huán)神經(jīng)網(wǎng)絡(luò),利用該模型在中文新聞文本分類(lèi)時(shí),能夠捕獲更長(zhǎng)的序列信息,它避免了CNN算法中不能延展序列長(zhǎng)度的缺陷,并且在進(jìn)行參數(shù)調(diào)節(jié)時(shí)較為簡(jiǎn)單,可以更加準(zhǔn)確地表達(dá)上下文信息。在RNN算法中,輸出的結(jié)果并不僅僅是由矩陣和卷積計(jì)算得到的,其會(huì)根據(jù)計(jì)算得出一個(gè)State,并且會(huì)持續(xù)影響后續(xù)的計(jì)算,這樣經(jīng)過(guò)N個(gè)樣本的輸出,就能夠使得結(jié)果具備一定的序特征。這就使得輸入數(shù)據(jù)的狀態(tài)可以在自身神經(jīng)網(wǎng)絡(luò)中進(jìn)行循環(huán)處理,并且產(chǎn)生時(shí)間關(guān)聯(lián)。TextRNN模型的特別之處在于其同一隱藏層的節(jié)點(diǎn)之間是存在連接的,并且將時(shí)間關(guān)系作為影響數(shù)據(jù)間關(guān)系的變量,它不僅考慮當(dāng)前的輸入,還賦予網(wǎng)絡(luò)對(duì)過(guò)去的記憶。在其隱藏層中,數(shù)據(jù)可能會(huì)從第一個(gè)隱藏層中輸出后,再加上一定的權(quán)重進(jìn)入第二個(gè)隱藏層,也就是說(shuō)在向下一層輸入時(shí),會(huì)將某一時(shí)刻的隱藏狀態(tài)神經(jīng)元和這一時(shí)刻的文本特征一起輸入。最后經(jīng)過(guò)的不斷循環(huán)和遞歸,再反向調(diào)整各層的連接權(quán)重,得到最優(yōu)化參數(shù)。但正是由于這種結(jié)構(gòu),使得TextRNN后一個(gè)時(shí)刻的輸出會(huì)依賴(lài)前一個(gè)時(shí)刻的輸出,因此無(wú)法并行處理,降低了訓(xùn)練效率。[12]
從圖6 TextRNN網(wǎng)絡(luò)結(jié)構(gòu)中可以看出,數(shù)據(jù)按時(shí)間序列展開(kāi)后,能夠得到一個(gè)T維向量,U為輸入層到隱藏層的權(quán)重,權(quán)重越大則代表輸入信息量越多。橫向W則代表前一個(gè)隱藏層到后一個(gè)隱藏層的權(quán)重,V則代表從隱藏層到輸出層的權(quán)重。要注意的是,RNN在處理序列信息時(shí),有時(shí)會(huì)偏向最后輸入的信息,這就可能導(dǎo)致早期信息丟失的問(wèn)題,因此在初始化權(quán)重時(shí),要盡可能避免極大或極小值,并且加入LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))和GRU(門(mén)控循環(huán)單元)。
2.4" "中文新聞文本分類(lèi)實(shí)驗(yàn)
2.4.1" "數(shù)據(jù)集介紹
筆者提供了一個(gè)新聞和公司相關(guān)的數(shù)據(jù)集,數(shù)據(jù)集是通過(guò)對(duì)某網(wǎng)的金融數(shù)據(jù)進(jìn)行篩選過(guò)濾生成,包含40萬(wàn)篇新聞,都是經(jīng)過(guò)預(yù)處理過(guò)后的文本,均為UTF-8純文本。在原始網(wǎng)站的基礎(chǔ)之上,將數(shù)據(jù)集劃分出1000個(gè)類(lèi),每一個(gè)類(lèi)代表一家公司。將用一些主流的分類(lèi)算法測(cè)試模型的性能。
2.4.2" "實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)需要對(duì)測(cè)試數(shù)據(jù)集分類(lèi)結(jié)果的準(zhǔn)確性進(jìn)行評(píng)價(jià),若結(jié)果不在合理范圍內(nèi),則需要返回特征選擇階段再次完成特征選取,重復(fù)這一步驟直到結(jié)果處于合理范圍內(nèi)。其分類(lèi)標(biāo)準(zhǔn)主要包括準(zhǔn)確率和召回率,準(zhǔn)確率可以表示文本分類(lèi)模型的準(zhǔn)確程度,但僅準(zhǔn)確率高而召回率很低,則代表沒(méi)有把本應(yīng)預(yù)測(cè)出來(lái)的標(biāo)簽類(lèi)別預(yù)測(cè)出來(lái),尤其是對(duì)于非均衡樣本,有時(shí)會(huì)把小類(lèi)樣本預(yù)測(cè)成為大類(lèi)樣本;或者某個(gè)多標(biāo)簽分類(lèi)模型,可能會(huì)出現(xiàn)特征和模型過(guò)擬合的現(xiàn)象,這也會(huì)導(dǎo)致召回率較低,因此在實(shí)驗(yàn)時(shí)要加以注意。
筆者分別使用FastText算法、Bert分類(lèi)算法、TextCNN算法、TextRNN算法來(lái)分別在數(shù)據(jù)集上進(jìn)行測(cè)試,評(píng)估標(biāo)準(zhǔn)準(zhǔn)確率和召回率,實(shí)驗(yàn)結(jié)果如下表所示:
同時(shí)本研究還在THUCNews上測(cè)試了幾種方法的準(zhǔn)確度和召回率,實(shí)驗(yàn)結(jié)果如下表所示:
3.總結(jié)
本文在對(duì)中文文本分類(lèi)進(jìn)行梳理和研究的基礎(chǔ)上,認(rèn)為以下幾個(gè)方向?qū)⒊蔀檠芯康臒狳c(diǎn):(1)基于無(wú)監(jiān)督學(xué)習(xí)模式的新聞文本分類(lèi):網(wǎng)絡(luò)上充斥著大量無(wú)監(jiān)督的數(shù)據(jù),如何利用好這些數(shù)據(jù),將成為一個(gè)熱門(mén)研究;(2)多層次新聞文本分類(lèi):充分利用分類(lèi)體系的層次信息,采用逐層分類(lèi)思想進(jìn)行多層次文本分類(lèi),能有效地降低分類(lèi)算法的復(fù)雜度,同時(shí)保證分類(lèi)精度,值得進(jìn)一步研究。(3)跨模態(tài)的新聞文本分類(lèi):新聞文本分類(lèi)主要考慮文本信息,新聞中一些其他模態(tài)的信息被忽略,如何利用這些信息輔助分類(lèi),充分融合好文本信息和圖片信息,也是一個(gè)研究熱點(diǎn)。同時(shí),本研究討論了新聞文本分類(lèi)等相關(guān)研究,分別介紹了FastText模型、TextCNN模型、BERT模型以及TextRNN模型。經(jīng)過(guò)實(shí)驗(yàn),F(xiàn)astText模型在實(shí)際工作中的文本分類(lèi)效果最為優(yōu)異,而TextCNN模型在THUCNews上的文本分類(lèi)最為優(yōu)異。
[1]李澤魁,孫霏,陳珺.新聞媒體領(lǐng)域中文語(yǔ)義分析技術(shù)智能化、知識(shí)化之路的研究與探索[J].中國(guó)傳媒科技,2018(8):35-37.
[2]Li Z ,Shang W ,Yan M . News text classification model based on topic model[C]// IEEE/ACIS International Conference on Computer amp; Information Science. IEEE,2016.
[3]李可悅,陳軼,牛少彰. 基于BERT的社交電商文本分類(lèi)算法[J]. 計(jì)算機(jī)科學(xué),2021(2):87-92.
[4]賈澎濤,孫煒. 基于深度學(xué)習(xí)的文本分類(lèi)綜述[J]. 計(jì)算機(jī)與現(xiàn)代化,2021(7):29-37.
[5]譚辛.政策解讀大數(shù)據(jù)分析應(yīng)用的實(shí)踐探究[J].中國(guó)傳媒科技,2019(3):22-23.
[6]劉萌. 人工智能技術(shù)在媒體融合中的運(yùn)用研究[J]. 中國(guó)傳媒科技,2021(11):154-156.
[7] 李澤魁,孫霏,陳珺. 新聞媒體領(lǐng)域中文語(yǔ)義分析技術(shù)智能化、知識(shí)化之路的研究與探索[J]. 中國(guó)傳媒科技,2018(8):35-37.
[8]賈紅雨,王宇涵,叢日晴,林巖. 結(jié)合自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)文本分類(lèi)算法研究[J]. 計(jì)算機(jī)應(yīng)用與軟件,2020(2):200-206.
[9]楊銳,陳偉,何濤,張敏,李蕊伶,岳芳. 融合主題信息的卷積神經(jīng)網(wǎng)絡(luò)文本分類(lèi)方法研究[J]. 現(xiàn)代情報(bào),2020(4):42-49.
[10]杜思佳,于海寧,張宏莉. 基于深度學(xué)習(xí)的文本分類(lèi)研究進(jìn)展[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào),2020(4):1-13.
[11]郝超,裘杭萍,孫毅,張超然. 多標(biāo)簽文本分類(lèi)研究進(jìn)展[J]. 計(jì)算機(jī)工程與應(yīng)用,2021(10):48-56.
[12]王迷莉. 基于機(jī)器學(xué)習(xí)的文本分類(lèi)研究[J]. 科技創(chuàng)新與應(yīng)用,2021(26):70-72.
作者簡(jiǎn)介:鄭創(chuàng)偉(1978-),男,廣東汕頭,高級(jí)工程師,研究方向?yàn)榇髷?shù)據(jù)、人工智能;王泳(1977-),女,湖南邵陽(yáng),中級(jí)工程師,研究方向?yàn)榇髷?shù)據(jù);邢谷濤(1984-),男,海南文昌,中級(jí)工程師,研究方向?yàn)樵朴?jì)算;謝志成(1980-),男,廣東汕頭,中級(jí)工程師,研究方向?yàn)榇髷?shù)據(jù)、云計(jì)算;陳義飛(1981-),廣東湛江,中級(jí)工程師,研究方向?yàn)榇髷?shù)據(jù)。
(責(zé)任編輯:張曉婧)