• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      全卷積神經(jīng)網(wǎng)絡(luò)的字符級(jí)文本分類方法

      2020-03-11 13:55:00夏戰(zhàn)國(guó)
      關(guān)鍵詞:字符規(guī)范化卷積

      張 曼,夏戰(zhàn)國(guó),劉 兵,2,周 勇

      1.中國(guó)礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州221116

      2.中國(guó)科學(xué)院 電子研究所,北京100190

      1 引言

      文本分類是自然語(yǔ)言處理(NLP)領(lǐng)域最經(jīng)典的問(wèn)題之一,實(shí)質(zhì)是根據(jù)文本特征將文本分成兩個(gè)或更多的類別。以是否使用深度學(xué)習(xí)技術(shù)作為分類標(biāo)準(zhǔn),文本分類方法可以分為兩類,即基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類方法和基于深度學(xué)習(xí)的文本分類方法。傳統(tǒng)的方法經(jīng)歷了專家規(guī)則和統(tǒng)計(jì)分類方法的發(fā)展過(guò)程,逐漸形成了一套大規(guī)模文本分類問(wèn)題的經(jīng)典方法。該方法可以分為兩大部分:特征工程和分類器。缺點(diǎn)是文本表示基于高維度和高稀疏度的向量空間,表達(dá)能力較弱。相比之下,20 世紀(jì)80 年代時(shí)形成的一些深度學(xué)習(xí)的概念迄今仍在文本分類中發(fā)揮著重要作用。其中,Hinton等人于1986年提出的分布式表征是表達(dá)式學(xué)習(xí)最重要的工具之一,這意味著許多因素的組合可以彼此分開(kāi)。Rumelhart、LeCun 等人提出的反向傳播算法則用于訓(xùn)練深度模型?,F(xiàn)有的文本研究包括句子級(jí)別、詞級(jí)別和字符級(jí)別??紤]到現(xiàn)今微博、動(dòng)態(tài)等短文本的流行,選擇使用字符級(jí)別的處理方式,從而充分獲取文本知識(shí),實(shí)現(xiàn)正確分類。

      早期詞向量概念提出后,Emami 等人在2005 年提出了神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(NNLM),采用文本分布式表示將每個(gè)詞表示為稠密的實(shí)數(shù)向量[1]。2013 年Google Mikolov 提出word2vec[2-3]并發(fā)表了相應(yīng)的工具包,極大地推進(jìn)了文本分析的研究進(jìn)程,使得詞向量大步走進(jìn)人們的視野。目前為止,已經(jīng)有許多深度模型實(shí)現(xiàn)了文本分類的最新性能。例如,用于處理序列數(shù)據(jù)的遞歸神經(jīng)網(wǎng)絡(luò)RNN。Arevian G 和Panchev C 使用2 層的RNN進(jìn)行文本分類[4]。Du Changshun 和Huang L 提出了一種獨(dú)立于人工設(shè)計(jì)特征的循環(huán)卷積神經(jīng)網(wǎng)絡(luò)用于文本分類任務(wù)[5]。1997 年Hochreiter 和Schmidhuber 提出的長(zhǎng)期短期記憶網(wǎng)絡(luò)LSTM 被廣泛用于許多序列建模任務(wù),包括許多自然語(yǔ)言處理任務(wù)。Zhou Chunting 等人使用組合的LSTM 模型進(jìn)行文本分類[6]。近年來(lái),使用CNN進(jìn)行文本分類的研究獲得了很高的關(guān)注度。Kim Y創(chuàng)造性地將CNN 用于句子分類任務(wù)[7]。但是,設(shè)計(jì)的CNN 模型中只有一層卷積層,而且處理的文本對(duì)象是一個(gè)信息量較少的短句子。因此需要優(yōu)化CNN模型使其能夠處理更長(zhǎng)的文本,從而更好地滿足實(shí)際需要。

      對(duì)CNN 模型的優(yōu)化方法層出不窮。例如,Ma Mingbo等人通過(guò)在分類器前增加一個(gè)額外的學(xué)習(xí)層來(lái)獲得組稀疏CNN[8]。Wei Xiaocong等人將CNN和LSTM結(jié)合對(duì)論壇的帖子進(jìn)行分類[9]。Zhang Xiang 等人從字符級(jí)別重新訓(xùn)練神經(jīng)網(wǎng)絡(luò),避免了高維度的詞語(yǔ)知識(shí)帶來(lái)的復(fù)雜性,能更充分地獲取文本知識(shí)[10-11]。但該模型的性能仍有提升空間,而且實(shí)驗(yàn)的評(píng)估不夠全面,不能充分說(shuō)明模型的性能良好。在復(fù)現(xiàn)實(shí)驗(yàn)的過(guò)程中該字符卷積網(wǎng)絡(luò)表現(xiàn)不夠穩(wěn)定,有時(shí)會(huì)出現(xiàn)過(guò)擬合現(xiàn)象。以上提到的這些方法大都局限于全連接層,因而無(wú)法避免全連接層參數(shù)冗余導(dǎo)致過(guò)擬合以及計(jì)算速度慢等問(wèn)題。

      受到圖像語(yǔ)義分割中全卷積思想的啟發(fā)[12],本文使用卷積層替代全連接層,使得模型能夠快速收斂。在實(shí)驗(yàn)環(huán)節(jié)增加評(píng)估指標(biāo)。規(guī)范化字符全卷積神經(jīng)網(wǎng)絡(luò)(LRN-CharFCN)中使用相同形狀的卷積層替代全連接層,大大減少了參數(shù)量、提高了計(jì)算速度也加快了收斂速度。規(guī)范化層的添加不僅避免了過(guò)擬合現(xiàn)象,而且提高了模型性能。通過(guò)P 、R、F1 評(píng)估指標(biāo)驗(yàn)證模型和算法有效性,結(jié)果表明在不同的數(shù)據(jù)集上,本文模型成功實(shí)現(xiàn)了避免過(guò)擬合的發(fā)生、加快收斂和提升指標(biāo)。對(duì)于中文數(shù)據(jù)集,首先將短文轉(zhuǎn)換成拼音[10-11],舉例來(lái)說(shuō),“蘋果”轉(zhuǎn)換成p-i-n-g-g-u-o,然后進(jìn)入LRN-CharFCN模型進(jìn)行文本分類。也可以改變自定義的字符字母表,實(shí)現(xiàn)多語(yǔ)言的推廣。最后,將訓(xùn)練、測(cè)試步驟交叉進(jìn)行,調(diào)整訓(xùn)練、測(cè)試步數(shù),批次數(shù)和輪數(shù)等參數(shù),使得模型表現(xiàn)良好。

      2 相關(guān)工作

      至今為止,主要有三種表現(xiàn)良好的深度學(xué)習(xí)文本分類方法:FastText,RNN 和CNN。FastText 是2016 年由Facebook AI Research 開(kāi)源的文本分類器。其輸入是一系列單詞、一個(gè)句子或一段文本。其輸出是輸入文本屬于不同類別的概率。FastText 的模型體系結(jié)構(gòu)與Word2Vec 中的CBOW 模型[2]類似,除了fastText 預(yù)測(cè)標(biāo)簽,而CBOW 模型預(yù)測(cè)中間詞。FastWord 有利于大規(guī)模數(shù)據(jù)的高速訓(xùn)練并支持多種語(yǔ)言表達(dá)。但它的局限性在于只能預(yù)測(cè)多個(gè)類別中的一個(gè)類別。代令令等人[13]將FastText 模型應(yīng)用到中文文本分類任務(wù)中,縮短了分類時(shí)間。王藝杰[14]把視頻監(jiān)控系統(tǒng)的目標(biāo)分類問(wèn)題轉(zhuǎn)化為短文本分類問(wèn)題,并應(yīng)用FastText模型實(shí)現(xiàn)北京市區(qū)范圍內(nèi)的視頻監(jiān)控系統(tǒng)防控目標(biāo)的詳細(xì)分類。

      Zhang Yong等人在2016年提出一種綜合注意力機(jī)制的RNN 進(jìn)行情感分類,提高了模型準(zhǔn)確性[15]。長(zhǎng)期短期記憶(LSTM)是一種門控RNN,在實(shí)際應(yīng)用中非常有效。Zhou Peng等人[16]在2016年提出使用BLSTM來(lái)獲取單詞上下文信息,與單詞共同形成一個(gè)輸出,然后通過(guò)二維卷積層和二維最大池層來(lái)組合實(shí)現(xiàn)文本分類。除此之外,LSTM可以更多地與其他模型結(jié)合實(shí)現(xiàn)文本分類任務(wù)。Rao A和Spasojevic N設(shè)計(jì)了一個(gè)由詞嵌入層、LSTM 層和全連接層組成的模型[17]。Karim F等人設(shè)計(jì)了一個(gè)名為L(zhǎng)STM-FCN的模型[18]。其中,完全卷積塊的時(shí)序卷積和全局平均池化用于特征提取。最后,經(jīng)過(guò)這兩個(gè)模塊處理后的輸出進(jìn)入softmax 層進(jìn)行分類。RNN 在文本分類任務(wù)中雖然表現(xiàn)好,但是從它的工作原理可以看出它的計(jì)算復(fù)雜度較高。

      CNN最重要的部分是卷積模塊。常用的標(biāo)準(zhǔn)CNN結(jié)構(gòu)包括文本表示層、卷積層、池化層和完全連接層。Kim Y 較早使用CNN 模型進(jìn)行分類,任務(wù)內(nèi)容包括問(wèn)題分類和情感分類[7]。在這個(gè)模型中,單詞向量由在1 000 億字的Google 新聞中訓(xùn)練,并且k 維向量中的每個(gè)維度對(duì)應(yīng)于句子中的一個(gè)單詞[3]。值得一提的是,作者使用了簡(jiǎn)單的CNN 模型進(jìn)行訓(xùn)練,只含一層卷積、一層池化和一層全連接,仍然取得了不錯(cuò)的表現(xiàn)。Moriya S 等人[19]采用殘差網(wǎng)絡(luò)結(jié)構(gòu)的字符級(jí)CNN,并通過(guò)執(zhí)行兩個(gè)特定的數(shù)據(jù)集之間的轉(zhuǎn)移學(xué)習(xí),提高分類精度。Hairula A 等人[20]利用由Skip-Gram 模型訓(xùn)練好的句型特征和語(yǔ)義特征,選擇每個(gè)單詞中帶有特征向量組合的文本作為卷積神經(jīng)網(wǎng)絡(luò)輸入,嵌入迭代訓(xùn)練獲得情緒參數(shù),進(jìn)行文本情感分類。但這些研究都以卷積池化全連接層的卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)為基礎(chǔ),進(jìn)行文本分類任務(wù)。

      本文設(shè)計(jì)了一種全卷積的字符級(jí)神經(jīng)網(wǎng)絡(luò),并在文本分類任務(wù)中取得良好表現(xiàn)。在本研究中,為了進(jìn)一步提高模型性能,在卷積池化層后額外添加LRN 規(guī)范化層。并第一次將全卷積的思想用在文本分類任務(wù)中,目的是利用全卷積參數(shù)數(shù)目少、收斂快、穩(wěn)定且計(jì)算速度快等優(yōu)點(diǎn)??紤]到文獻(xiàn)[10]僅使用準(zhǔn)確性作為評(píng)估指標(biāo),對(duì)比實(shí)驗(yàn)結(jié)果不充分。添加精確度、召回率和F1 值來(lái)對(duì)比證明模型性能的提升。

      圖1 LRN-CharFCN模型圖

      3 全卷積字符級(jí)文本分類方法

      在這一章將從總模型、字符表示方法和LRN 規(guī)范化三部分進(jìn)行解釋說(shuō)明。在總模型部分展示LRNCharFCN的工作流程,進(jìn)而在字符表示方法一節(jié)中解釋如何實(shí)現(xiàn)字符級(jí)神經(jīng)網(wǎng)絡(luò)。最后闡釋LRN規(guī)范化的工作原理。

      3.1 總模型

      設(shè)計(jì)的模型LRN-CharFCN 如圖1 所示。處理原始數(shù)據(jù)的字符表示方法將在下面介紹,圖中特征值長(zhǎng)度69,文本固定長(zhǎng)度為1 014,使用固定長(zhǎng)度是因?yàn)橐欢ㄩL(zhǎng)度的文本足夠用于特征提取與分類,文本過(guò)長(zhǎng)是一種負(fù)擔(dān)。處理后的張量作為輸入進(jìn)入卷積層、池化層和規(guī)范化層。經(jīng)特征提取并規(guī)范化約束處理后的張量作為輸入繼續(xù)進(jìn)行兩層卷積計(jì)算。最終由輸出層輸出分類結(jié)果。此外,輸出層中不使用softmax 方法,softmax 分類器將多分類的輸出值轉(zhuǎn)化為相對(duì)概率,工作方式是全連接的。而本模型的設(shè)計(jì)理念是無(wú)全連接,因此,得到所有類別的得分后使用argmax分類器,選出得分最高項(xiàng),也就是輸出類別號(hào)。最后一層輸出層的長(zhǎng)度是由具體類別數(shù)目決定的。

      3.2 全卷積

      全卷積網(wǎng)絡(luò)的實(shí)現(xiàn),是使用卷積層替代全連接層。卷積運(yùn)算公式如公式(1)所示,其中?是卷積運(yùn)算符。在卷積神經(jīng)網(wǎng)絡(luò)的第一個(gè)參數(shù)x 表示輸入,第二個(gè)參數(shù)w 表示函數(shù)。單個(gè)卷積層的時(shí)間復(fù)雜度如公式(2)所示,其中M 表示輸出特征圖的尺寸,K 表示卷積核尺寸,Cin 表示輸入通道數(shù),Cout 表示輸出通道數(shù)。模型的空間復(fù)雜度如公式(3)所示,從公式中可以看出,模型的空間復(fù)雜度只與卷積核尺寸K 和通道數(shù)Cin、Cout有關(guān),與輸入尺寸無(wú)關(guān)。卷積層與全連接層的不同之處在于卷積神經(jīng)元與輸入數(shù)據(jù)局部連接且共享參數(shù),而全連接層的每一個(gè)結(jié)點(diǎn)都與上一層的所有結(jié)點(diǎn)相連,因而參數(shù)量巨大。區(qū)別于全連接層,卷積層使用之前CNN已經(jīng)訓(xùn)練好的權(quán)值和偏置。

      針對(duì)本文模型,原7、8 層是長(zhǎng)度為1 024 的一維向量,LRN-CharFCN將這兩層表示為卷積層。此時(shí),網(wǎng)絡(luò)中的所有層都是卷積層,因而稱之為全卷積神經(jīng)網(wǎng)絡(luò)。

      3.3 字符表示

      在嵌入層中,使用一系列的編碼字符作為輸入。首先創(chuàng)建一個(gè)長(zhǎng)度為d 的字符字母表,然后使用one-hot編碼創(chuàng)建一個(gè)嵌入字典。然后根據(jù)字符字母表創(chuàng)建一個(gè)嵌入矩陣??兆址虿淮嬖谟谧帜副碇械淖址昧阆蛄刻娲?。在處理文本時(shí),如果文本存在于嵌入字典中,則每個(gè)字母的索引將被添加到文本的向量表示中,否則將由UNK 表示。最后,數(shù)據(jù)通過(guò)嵌入層成為門控卷積層的輸入。

      LRN-CharFCN 模型使用長(zhǎng)度為70 的字符字典,由單行字符、10位數(shù)字、26個(gè)英文字母和33個(gè)其他字符組成。字符字典表示如下:

      abcdefghijklmnopqrstuvwxyz0123456789-,;.!?:'"/\|_@#$%^&*~`+-=<>()[]{}

      3.4 LRN規(guī)范化

      LRN 的全稱是局部響應(yīng)歸一化,Hinton 在2012 年的Alexnet網(wǎng)絡(luò)中首次給出這個(gè)概念[21]。局部歸一化借鑒了神經(jīng)生物學(xué)中側(cè)抑制的概念——被激活的神經(jīng)元抑制相鄰神經(jīng)元。尤其在使用了ReLU的情況下,這種抑制很有效。LRN 層模仿這種機(jī)制對(duì)局部神經(jīng)元的活動(dòng)創(chuàng)建競(jìng)爭(zhēng)機(jī)制,提高模型泛化能力。響應(yīng)較大的值會(huì)相對(duì)更大,反之,響應(yīng)較小的神經(jīng)元受到抑制。核函數(shù)的公式如下:

      其中,i 代表要計(jì)算的元素的下標(biāo),從0 開(kāi)始,j 表示平方累加索引。a 是卷積、池化操作后的輸出結(jié)果,也是下一層的輸入。a 的結(jié)構(gòu)是一個(gè)四維數(shù)組[batchnum,height,width,channel],其中,batchnum 是批次數(shù),height是圖高度,width是圖寬度,channel是通道數(shù)。aix,y 則表示這個(gè)輸出結(jié)構(gòu)中的一個(gè)位置[a,b,c,d]。 N 是通道數(shù),而n/2,k,α,β 都是自定義的參數(shù)。需要特別注意的是,∑疊加的方向是沿通道方向。

      3.5 算法實(shí)現(xiàn)

      算法實(shí)現(xiàn)步驟如下所示:

      1.每行數(shù)據(jù)長(zhǎng)度固定為l1,batchsize的大小根據(jù)數(shù)據(jù)集調(diào)整。對(duì)讀入的數(shù)據(jù)進(jìn)行One-hot編碼形成張量并賦值。

      2.對(duì)one-hot編碼后的張量進(jìn)行卷積運(yùn)算,s=x(t)?w(t)。其中?為卷積運(yùn)算符。

      3.最大池化處理,y=f(p),其中f 為最大池化函數(shù)。

      4.池化后進(jìn)行LRN標(biāo)準(zhǔn)化處理:

      5.繼續(xù)進(jìn)行卷積、池化和標(biāo)準(zhǔn)化操作5次。

      6.將步驟5的輸出作為輸入,進(jìn)行卷積池化運(yùn)算。

      7.將步驟6的輸出作為輸入,進(jìn)行卷積池化運(yùn)算。

      8.最后一層為輸出層,長(zhǎng)度由分類數(shù)目決定。

      4 實(shí)驗(yàn)

      4.1 參數(shù)設(shè)置

      在LRN-CharFCN 網(wǎng)絡(luò)中,輸入是one-hot 編碼后的向量。取句子長(zhǎng)度為1 014個(gè)字符,即卷積長(zhǎng)度為1 014。

      字母表長(zhǎng)度為69,即卷積寬度為69。批處理量為128。設(shè)置了6層卷積、池化、標(biāo)準(zhǔn)化層,2層替代全連接層的卷積層,1 層輸出層。前6 層卷積結(jié)構(gòu)如表1(a)所示。第7、8 層卷積層卷積核形狀如表1(b)所示。標(biāo)準(zhǔn)化層中bias,alpha,beta 的取值分別為1.0,0.001/9.0,0.75。輸出層的大小取決于具體問(wèn)題的分類數(shù)目。

      4.2 性能指標(biāo)

      學(xué)習(xí)器的泛化性能評(píng)估不僅需要有效的實(shí)驗(yàn)評(píng)估方法,還需要測(cè)量模型泛化能力的評(píng)估標(biāo)準(zhǔn)。也就是性能指標(biāo)。模型的質(zhì)量更多地取決于任務(wù)需求而不是算法本身。分類任務(wù)中常用的一些性能指標(biāo)如表2所示。其中,TP,F(xiàn)N ,F(xiàn)P,TN 如表3所示。

      4.3 數(shù)據(jù)集介紹

      本實(shí)驗(yàn)收集了包括英文和中文的數(shù)據(jù)集共5種,且所有數(shù)據(jù)集都經(jīng)過(guò)打亂處理,隨機(jī)排序,以保證實(shí)驗(yàn)的真實(shí)性。除了訓(xùn)練和測(cè)試精確度,還設(shè)計(jì)得到P 、R、F1 值。使用下列數(shù)據(jù)集進(jìn)行豐富全面的對(duì)比實(shí)驗(yàn)。

      AG的新聞主題分類數(shù)據(jù)集:AG新聞數(shù)據(jù)集收集了超過(guò)100萬(wàn)篇新聞文章。該數(shù)據(jù)集由學(xué)術(shù)團(tuán)體提供,用于研究數(shù)據(jù)挖掘(聚類、分類等)、信息檢索(排名、搜索等)、xml、數(shù)據(jù)壓縮、數(shù)據(jù)流和任何其他非商業(yè)活動(dòng)。該數(shù)據(jù)集從原始語(yǔ)料庫(kù)中選擇4個(gè)最大的類別,每個(gè)類別包含30 000個(gè)訓(xùn)練樣本和1 900個(gè)測(cè)試樣本。訓(xùn)練樣本總數(shù)為120 000,而測(cè)試樣本總數(shù)為7 600。樣本包含3列,由逗號(hào)分隔,每列對(duì)應(yīng)著類別索引(1,2,3,4)、新聞標(biāo)題和文章內(nèi)容。

      DBPedia 本體分類數(shù)據(jù)集:DBpedia 是從維基百科提取的大規(guī)模多語(yǔ)言知識(shí)庫(kù)。DBpedia 本體分類數(shù)據(jù)集是通過(guò)從DBpedia 2014中選擇14個(gè)非重疊類來(lái)構(gòu)建的,從14 個(gè)本體類的每一個(gè)中隨機(jī)選擇40 000 個(gè)訓(xùn)練樣本和5 000 個(gè)測(cè)試樣本。因此,訓(xùn)練數(shù)據(jù)集的總大小為560 000,測(cè)試數(shù)據(jù)集總大小為70 000。樣本分為三列,分別對(duì)應(yīng)類索引(1到14)、標(biāo)題和內(nèi)容。

      表1(a) 前6層卷積結(jié)構(gòu)

      表1(b) 7、8層卷積核結(jié)構(gòu)

      表2 性能評(píng)價(jià)指標(biāo)

      表3 性能指標(biāo)

      Yelp評(píng)論極性數(shù)據(jù)集:本數(shù)據(jù)集是從Yelp數(shù)據(jù)集挑戰(zhàn)賽2015數(shù)據(jù)中提取的。1星和2星為負(fù)數(shù),3星和4星為正數(shù)。對(duì)于每種極性,隨機(jī)抽取280 000 個(gè)訓(xùn)練樣本和19 000 個(gè)測(cè)試樣本。 總共有560 000 個(gè)訓(xùn)練樣本和38 000個(gè)測(cè)試樣本。負(fù)極性是類1,正極性是類2。有2列,對(duì)應(yīng)于類別索引(1和2)和評(píng)論。

      搜狗新聞數(shù)據(jù)集:該數(shù)據(jù)集包括SogouCA 和SoGouCS 新聞?wù)Z料庫(kù),其中包含各種主題頻道的總計(jì)2 909 551篇新聞文章。在這些文章中約有2 644 110包含一個(gè)標(biāo)題和一些內(nèi)容。選擇“體育”“金融”“娛樂(lè)”“汽車”和“技術(shù)”五大類。每類有90 000 條訓(xùn)練數(shù)據(jù)和12 000 條測(cè)試數(shù)據(jù),也就是說(shuō)共有450 000 條訓(xùn)練數(shù)據(jù)和60 000條測(cè)試數(shù)據(jù)。

      雅虎答案主題分類數(shù)據(jù)集:該數(shù)據(jù)集是Yahoo!截至2007 年10 月25 日的答案語(yǔ)料庫(kù)。它包括所有的問(wèn)題和相應(yīng)的答案。語(yǔ)料庫(kù)包含4 483 032個(gè)問(wèn)題及其答案。雅虎答案主題分類數(shù)據(jù)集使用最大的10 個(gè)主要類別。每個(gè)類別包含140 000 篇個(gè)訓(xùn)練樣本和6 000 個(gè)測(cè)試樣本。因此,訓(xùn)練樣本總數(shù)為1 400 000,測(cè)試樣本總數(shù)為60 000。從所有答案和其他元信息中,只使用最佳答案內(nèi)容和主要類別信息。樣本有4 列,分別對(duì)應(yīng)類別索引(1 到10),問(wèn)題標(biāo)題,問(wèn)題內(nèi)容和最佳答案。從中隨機(jī)抽取120 000 條測(cè)試數(shù)據(jù)和7 600 條測(cè)試數(shù)據(jù)。

      表4 LRN層對(duì)模型性能的影響(a)模型的訓(xùn)練Acc結(jié)果對(duì)比%

      (b)模型的測(cè)試Acc結(jié)果對(duì)比%

      表5 Char-CNN模型與LRN-CharFCN模型的其他性能對(duì)比(a)AG的新聞主題分類數(shù)據(jù)集結(jié)果對(duì)比%

      (b)DBPedia本體分類數(shù)據(jù)集結(jié)果對(duì)比%

      (c)雅虎答案主題分類數(shù)據(jù)集結(jié)果對(duì)比%

      (d)Yelp評(píng)論極性數(shù)據(jù)集結(jié)果對(duì)比%

      (e)搜狗新聞分類數(shù)據(jù)集結(jié)果對(duì)比%

      4.4 實(shí)驗(yàn)結(jié)果與分析

      本次實(shí)驗(yàn)在五個(gè)數(shù)據(jù)集上將本文設(shè)計(jì)的LRNCharFCN 模型與文獻(xiàn)[10]中使用全連接層的字符卷積模型CharCNN進(jìn)行對(duì)比。為體現(xiàn)LRN層與全卷積層對(duì)模型性能的提升有不同的作用,在表4中列出原始模型CharCNN、添 加LRN 層 的LRN-CharCNN 模 型 以 及LRN-CharFCN 模型在Acc 指標(biāo)上的對(duì)比結(jié)果。從表中可以看出,原始模型添加了LRN 層后性能有了明顯的提升。使用了全卷積模型后模型性能保持穩(wěn)定。這也驗(yàn)證了前文所述,模型的準(zhǔn)確性等性能的提升主要是由LRN 層實(shí)現(xiàn),而使用全卷積的目的是加快模型收斂速度。考慮到文獻(xiàn)[10]中僅使用了精確性Acc 作為唯一評(píng)價(jià)指標(biāo),這里也增加展示了在本實(shí)驗(yàn)的標(biāo)準(zhǔn)下CharCNN 在P 、R、F1 值上的結(jié)果。兩個(gè)模型訓(xùn)練、測(cè)試結(jié)果如表5所示。

      總的來(lái)看,添加規(guī)范化層的模型在不同數(shù)據(jù)集上的大部分指標(biāo)中獲得了性能的提升。逐一分析各數(shù)據(jù)集,對(duì)于AGNews數(shù)據(jù)集,模型添加規(guī)范化層后訓(xùn)練準(zhǔn)確性提升了1.3%左右,訓(xùn)練精確率、召回率和F1 值都有所提升,其中召回率的提升較為明顯。值得一提的是,在文獻(xiàn)[10]中AGNews 數(shù)據(jù)集的測(cè)試準(zhǔn)確性只有87.5%,調(diào)整交叉測(cè)試、訓(xùn)練的次數(shù)后使得不添加規(guī)范化層的模型準(zhǔn)確性上升至92.921%。而添加了規(guī)范化層的模型在測(cè)試準(zhǔn)確性、精確度和召回率上有微弱的提升。由于DBPedia本身是一個(gè)非常標(biāo)準(zhǔn)的數(shù)據(jù)集,添加標(biāo)準(zhǔn)化層后各指標(biāo)值提升幅度稍小。在訓(xùn)練、測(cè)試階段,各指標(biāo)值均有提升。在雅虎答案主題分類數(shù)據(jù)集上可以看到雖然各項(xiàng)結(jié)果不是很優(yōu)秀,但也正是在這一數(shù)據(jù)集中,添加規(guī)范化層對(duì)模型性能的提升最為明顯。Yelp 評(píng)論極性數(shù)據(jù)集的測(cè)試和訓(xùn)練結(jié)果差距較大。添加規(guī)范化層后測(cè)試階段的精確率、召回率、F1 值和準(zhǔn)確性都有所提高,其中F1 值的提升最明顯。相比之下,測(cè)試結(jié)果的提升幅度較小,但仍可看出規(guī)范化層對(duì)模型性能提升起到了促進(jìn)作用。最后,進(jìn)行了語(yǔ)言上的推廣實(shí)驗(yàn),使用中文數(shù)據(jù)集(搜狗新聞數(shù)據(jù)集)進(jìn)行訓(xùn)練和測(cè)試。對(duì)比結(jié)果可以看出添加規(guī)范化層后雖然P 、R、F1 值上的提高不大,但無(wú)論是訓(xùn)練還是測(cè)試,準(zhǔn)確性的提升都相對(duì)明顯。

      在表6 中將提出的模型與近幾年的文本分類模進(jìn)行比較,表中給出了在相同數(shù)據(jù)集上的錯(cuò)誤率對(duì)比果。從表中可以看出LRN-CharFCN 模型表現(xiàn)良好,在AG與DBPedia數(shù)據(jù)集上錯(cuò)誤率明顯下降。

      表6 LRN-CharFCN模型與其他模型的錯(cuò)誤率對(duì)比

      最后展示分析LRN-CharFCN 在各數(shù)據(jù)集上的損失函數(shù)與使用全連接的CharCNN 的對(duì)比結(jié)果,如圖2所示。其中藍(lán)色的線是使用全連接的神經(jīng)網(wǎng)絡(luò)模型下的收斂情況,紅色的線是使用全卷積訓(xùn)練的收斂結(jié)果。在雅虎答案數(shù)據(jù)集上可以明顯地看出,使用全卷積比使用全連接層損失明顯減小,且收斂速度明顯加快。甚至在測(cè)試集上這種優(yōu)勢(shì)也有所表現(xiàn)。在DBPedia數(shù)據(jù)集和AG 新聞數(shù)據(jù)集上的對(duì)比表現(xiàn)雖然不像雅虎數(shù)據(jù)集這么明顯,但仍可以看出使用全卷積時(shí),前期收斂速度加快且能平滑穩(wěn)定地收斂。至此,可以得出以下兩點(diǎn)結(jié)論:第一,LRN-CharFCN 模型可以加快收斂,提高運(yùn)算速度。第二,雖然極個(gè)別指標(biāo)值沒(méi)有提高,但在各數(shù)據(jù)集的絕大部分訓(xùn)練、測(cè)試結(jié)果上可以看出添加規(guī)范化層能夠使結(jié)果得到優(yōu)化。由此可以得出結(jié)論,LRN-CharFCN模型在文本分類任務(wù)上表現(xiàn)良好,且相比以往模型性能有所提升。

      5 結(jié)束語(yǔ)

      本文首次將全卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在文本分類任務(wù)當(dāng)中,并結(jié)合LRN 規(guī)范化處理,成功提升了模型性能。并且通過(guò)大量的實(shí)驗(yàn)證明了這種性能上的提升。但從實(shí)驗(yàn)結(jié)果可以看出,本文模型在標(biāo)準(zhǔn)數(shù)據(jù)集上(如新聞?lì)悢?shù)據(jù)集)的表現(xiàn)更加完美,優(yōu)于模型在其他數(shù)據(jù)集(如評(píng)論類數(shù)據(jù)集)上的表現(xiàn)。因此,在之后的工作中希望進(jìn)一步優(yōu)化此模型,使其更加穩(wěn)定,適應(yīng)性更強(qiáng)。

      圖2 各數(shù)據(jù)集上損失情況隨訓(xùn)練步數(shù)的變化對(duì)比

      猜你喜歡
      字符規(guī)范化卷積
      尋找更強(qiáng)的字符映射管理器
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      消失的殖民村莊和神秘字符
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      價(jià)格認(rèn)定的規(guī)范化之路
      商周刊(2017年23期)2017-11-24 03:24:09
      狂犬?、蠹?jí)暴露規(guī)范化預(yù)防處置實(shí)踐
      高血壓病中醫(yī)規(guī)范化管理模式思考
      若尔盖县| 宁河县| 临澧县| 大姚县| 甘南县| 乌兰浩特市| 永清县| 湖南省| 台北县| 航空| 徐汇区| 星座| 海城市| 冷水江市| 印江| 抚州市| 铜川市| 时尚| 怀柔区| 泰顺县| 利川市| 太白县| 盐城市| 韶山市| 洛川县| 化隆| 奈曼旗| 望奎县| 乌拉特前旗| 铜鼓县| 章丘市| 荔浦县| 娄底市| 郑州市| 丽水市| 农安县| 耿马| 班玛县| 兴业县| 桐城市| 宽城|