賈翔順,陳 瑋,尹 鐘
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
互聯(lián)網(wǎng)中遍布圖像、語(yǔ)音、文本等信息,其中文本信息占比較大。因此,自然語(yǔ)言處理領(lǐng)域的文本分類成為廣泛研究的方向之一。在推薦算法、情感分析、輿情分析、新聞主題分類等領(lǐng)域中,文本分類算法都扮演著越來(lái)越重要的角色[1]。
傳統(tǒng)的文本分類方法主要使用詞頻逆文檔頻率(Tf-idf)作為文本表示,調(diào)用機(jī)器學(xué)習(xí)算法如支持向量機(jī)[2]、貝葉斯[3]、決策樹(shù)[4]等進(jìn)行分類。這些模型在提取文本特征等方面仍有很大不足,如容易忽略文本語(yǔ)義與結(jié)構(gòu)信息。近年來(lái),研究者們將更多的目光轉(zhuǎn)向深度學(xué)習(xí)。
深度學(xué)習(xí)方法突出結(jié)構(gòu)深度以及對(duì)特征的提取與學(xué)習(xí),被應(yīng)用于許多領(lǐng)域。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是深度學(xué)習(xí)領(lǐng)域的兩大主流模型,RNN網(wǎng)絡(luò)可以捕捉長(zhǎng)距離的依賴關(guān)系,但是,梯度消失和梯度爆炸等問(wèn)題會(huì)隨著時(shí)間序列的增長(zhǎng)而出現(xiàn)。針對(duì)這些問(wèn)題,學(xué)界提出了改進(jìn)模型,如長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)、門限循環(huán)單元 (Gated Recurrent Unit,GRU)。CNN網(wǎng)絡(luò)具有強(qiáng)大的特征提取能力,常與池化操作結(jié)合使用,在一些領(lǐng)域中取得了很大成功,但是,這種模型會(huì)丟失掉一些重要特征信息,例如,在人臉識(shí)別中把臉顛倒過(guò)來(lái),網(wǎng)絡(luò)將不再能夠識(shí)別眼睛、鼻子、嘴巴以及它們之間的空間關(guān)系。膠囊網(wǎng)絡(luò)由Sabour等人[5]在2017年首次提出并應(yīng)用于圖像領(lǐng)域。它是一種基于動(dòng)態(tài)路由的網(wǎng)絡(luò)架構(gòu),使用膠囊來(lái)代替卷積神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元,使用矢量特征代替標(biāo)量特征,使得網(wǎng)絡(luò)可以保留對(duì)象間詳細(xì)的姿態(tài)信息和空間關(guān)系,并采用動(dòng)態(tài)路由的方式取代池化操作來(lái)加強(qiáng)特征整合。對(duì)于自然語(yǔ)言處理領(lǐng)域來(lái)說(shuō),這是一個(gè)可供借鑒的研究方向,本文希望將這種網(wǎng)絡(luò)結(jié)構(gòu)帶到文本分類任務(wù)中。
在此基礎(chǔ)上,本文提出了融合膠囊網(wǎng)絡(luò)的雙通道神經(jīng)網(wǎng)絡(luò)文本分類模型(BC-CapsNet),在多個(gè)數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,該模型能夠有效地提高文本分類效果。
一個(gè)高效的詞嵌入工具對(duì)于自然語(yǔ)言處理領(lǐng)域的研究有著重要的影響。在過(guò)去的十年里,人們提出了許多經(jīng)典的詞嵌入方法,其中Word2Vec[6]是目前NLP詞嵌入領(lǐng)域中最常用的模型,Pennington等人[7]在2014年提出Glove模型,有效提高了模型的訓(xùn)練速度與穩(wěn)定性。近幾年語(yǔ)言表征模型(如ELMo、GPT和BERT)的出現(xiàn)大幅提升了自然語(yǔ)言處理任務(wù)的性能指標(biāo)。2017年,Google提出了Transformer模型[8],該模型通過(guò)注意力機(jī)制捕捉長(zhǎng)距離的依賴關(guān)系,時(shí)間復(fù)雜度相較于傳統(tǒng)網(wǎng)絡(luò)也大幅降低;之后Google在Transformer的基礎(chǔ)上提出了使用預(yù)訓(xùn)練模型的雙向編碼器表示模型[9](Bidrectional Encoder Representations from Trans-formers,BERT),通過(guò)在所有層中聯(lián)合調(diào)節(jié)上下文來(lái)預(yù)訓(xùn)練深層的雙向表示,可以根據(jù)任務(wù)需求對(duì)BERT預(yù)訓(xùn)練模型為適應(yīng)更多業(yè)務(wù)場(chǎng)景進(jìn)行微調(diào)。
在網(wǎng)絡(luò)架構(gòu)方面,Kim等人[10]使用CNN 將整段文本視為一個(gè)嵌入矩陣,通過(guò)多個(gè)不同尺寸卷積核滑動(dòng)獲得每個(gè)視野內(nèi)的特征,但該模型的缺點(diǎn)是易丟失上下文順序與位置信息。朱燁等人[11]將傳統(tǒng)的最近鄰算法與注意力機(jī)制相結(jié)合獲得空間屬性值并對(duì)距離加權(quán),然后與卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成新的文本分類模型,取得了不錯(cuò)的成績(jī)。王海濤等人[12]提出了一種基于LSTM和CNN的文本分類方法,并使用雙通道方法進(jìn)行特征篩選。王偉等人[13]提出了一種結(jié)合BiGRU和注意力機(jī)制的混合情感分類模型,有效提高情感分類的準(zhǔn)確率。針對(duì)文本分類任務(wù),大多數(shù)學(xué)者在CNN與RNN網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行改進(jìn)與創(chuàng)新,本文也將在此基礎(chǔ)上進(jìn)行改進(jìn)。Hinton等人[14]提出了一種基于EM算法改進(jìn)的新路由迭代模型,并運(yùn)用到膠囊網(wǎng)絡(luò)中。該方法在smallNORB數(shù)據(jù)集上獲得了更高的準(zhǔn)確性。Zhao等人[15]提出了三種動(dòng)態(tài)路由算法來(lái)減少包含冗余信息的噪聲膠囊的干擾,并將其應(yīng)用于文本分類。實(shí)驗(yàn)結(jié)果表明,膠囊網(wǎng)絡(luò)在文本分類方面也取得較好效果。Ren等人[16]提出了一種改進(jìn)K均值路由算法進(jìn)行文本分類,該方法不僅在準(zhǔn)確性上有所提高,而且參數(shù)更少。Su等人[17]將預(yù)訓(xùn)練的語(yǔ)言模型與膠囊網(wǎng)絡(luò)相結(jié)合,實(shí)驗(yàn)結(jié)果表明,該模型性能明顯優(yōu)于傳統(tǒng)詞嵌入模型。Wang等人[18]提出了一個(gè)方面層次情感膠囊模型(AS-capsule)進(jìn)行檢測(cè)和分類層面的情感分析。這些研究表明,膠囊網(wǎng)絡(luò)在文本領(lǐng)域可以獲得很好的效果,可以利用膠囊的特點(diǎn)充分挖掘文本中的單詞位置、語(yǔ)義以及依賴關(guān)系。
為了進(jìn)一步提高文本分類任務(wù)的準(zhǔn)確度,本文提出了BC-CapsNet模型,將文本數(shù)據(jù)輸入BERT預(yù)訓(xùn)練模型,生成詞向量作為雙通道神經(jīng)網(wǎng)絡(luò)的輸入。雙通道模塊采用CNN進(jìn)行局部特征采集和BiGRU進(jìn)行全局語(yǔ)義特征提取,并對(duì)采集到的特征進(jìn)行特征融合表達(dá),從而增強(qiáng)或減弱某些特征的表達(dá)效果,為后續(xù)模塊提供更全面的文本特征,解決了不能選擇性關(guān)注重要單詞的問(wèn)題。利用膠囊(向量神經(jīng)元)接替標(biāo)量神經(jīng)元繼續(xù)進(jìn)行文本建模,取得了比其他方法更好的分類性能,實(shí)驗(yàn)證明了膠囊模型的特征表達(dá)能力滿足任務(wù)需求,有效提高了文本分類效果。模型的結(jié)構(gòu)如圖1所示。
BERT提出的掩碼語(yǔ)言模型(Masked Language Model,MLM)允許表征融合左右兩側(cè)的語(yǔ)境,以此訓(xùn)練出一個(gè)深度雙向Transformer。如圖2所示,每一句話使用CLS作為開(kāi)頭標(biāo)記,用SEP作為結(jié)尾標(biāo)記。最終詞向量輸出結(jié)果由這3個(gè)Embedding層合并而來(lái)。
圖2 BERT輸入表示
在本文之后的實(shí)驗(yàn)中采用了官方預(yù)訓(xùn)練好的中/英BERT模型來(lái)對(duì)文本進(jìn)行處理。經(jīng)過(guò)BERT預(yù)處理得到文本輸入矩陣X∈Rn×m,其中n為文本長(zhǎng)度且統(tǒng)一切片為48,每一個(gè)文本生成的矩陣維度m為768。
模型在詞嵌入后的主要任務(wù)是提取足夠多的特征信息。而這里的信息可以分為上下文關(guān)聯(lián)語(yǔ)義信息與文本局部關(guān)鍵特征,這兩點(diǎn)分別對(duì)應(yīng)RNN與CNN兩種網(wǎng)絡(luò)功能。因此本文采用雙通道完成特征提取的任務(wù)。GRU在LSTM的基礎(chǔ)上進(jìn)行了簡(jiǎn)化,所需參數(shù)更少,訓(xùn)練速度更快,有效降低了過(guò)擬合的可能性。CNN作為圖像領(lǐng)域的常用技術(shù),在關(guān)鍵特征提取方面有著不錯(cuò)表現(xiàn)。將BiGRU與CNN進(jìn)行結(jié)合,可以豐富文本的特征多樣性,再輔以特征融合機(jī)制,可以對(duì)重要信息進(jìn)行聚焦操作,進(jìn)一步提升模型性能。
2.2.1 BiGRU通道
BiGRU模型通過(guò)兩個(gè)方向相反的GRU進(jìn)行文本學(xué)習(xí),隱藏狀態(tài)由t時(shí)刻前向隱藏層狀態(tài)的輸出和t-1時(shí)刻反向隱藏層狀態(tài)的輸出共同決定,其結(jié)構(gòu)如圖3所示。
圖3 BiGRU模型結(jié)構(gòu)
2.2.2 卷積網(wǎng)絡(luò)通道
為解決局部特征丟失的問(wèn)題,本文使用多通道CNN提取信息。將文本向量作為CNN模型的輸入,使用多窗口尺寸卷積核進(jìn)行卷積操作,從而提取不同類型的多維特征。多通道CNN的特征提取過(guò)程如圖4所示。
圖4 卷積網(wǎng)絡(luò)特征提取
使用大小為k×m(m是詞向量的維數(shù)) 的卷積核對(duì)文本輸入X進(jìn)行卷積運(yùn)算,運(yùn)算過(guò)程如式(8)所示。在實(shí)驗(yàn)中卷積運(yùn)算使用“padding=same”模式。然后將卷積運(yùn)算的提取結(jié)果構(gòu)造成一個(gè)大小為n×T的特征矩陣V。T為卷積核個(gè)數(shù),n為文本長(zhǎng)度。
圖5 特征融合過(guò)程
文本語(yǔ)義表示R的計(jì)算過(guò)程如式(5)、式(6)所示。
式(5)表示加權(quán)運(yùn)算,語(yǔ)義特征乘以相應(yīng)的注意力權(quán)重,通過(guò)累加運(yùn)算得到融合特征rt。通過(guò)式(6)得到融合語(yǔ)義特征R。
特征融合操作的意義在于,利用CNN提取局部特征能力并通過(guò)加權(quán)注意力的方式調(diào)整BiGRU的特征表達(dá),從而增強(qiáng)或減弱某些特征的表達(dá)效果,使模型能夠捕捉更多的文本特征。
膠囊網(wǎng)絡(luò)是Sabour等人[5]提出的一種用于圖像分類領(lǐng)域的方法,是一種可以用于學(xué)習(xí)空間關(guān)系的圖像分類器。其中膠囊輸出向量表示對(duì)應(yīng)類別的特征信息,向量長(zhǎng)度表示對(duì)應(yīng)文本類別的預(yù)測(cè)概率。這種動(dòng)態(tài)路由的算法相比于靜態(tài)路由可以有效地提高模型性能。由于膠囊網(wǎng)絡(luò)能夠充分抽取局部和全局的空間位置信息,所以在圖像處理得到廣泛應(yīng)用。在文本中,膠囊網(wǎng)絡(luò)可以通過(guò)多個(gè)維度提取包括語(yǔ)義、位置、類別等信息。
初級(jí)膠囊層這是膠囊網(wǎng)絡(luò)的第一層,上層神經(jīng)網(wǎng)絡(luò)單元傳遞到本層的標(biāo)量信息無(wú)法在膠囊網(wǎng)絡(luò)中使用,但這些數(shù)據(jù)卻記憶了上下文之間的語(yǔ)義以及特征信息。因此,初始膠囊層的作用是對(duì)模型之前提取到的特征信息進(jìn)行初始的特征矢量化,首先通過(guò)非線性激活函數(shù)將特征向量Ri轉(zhuǎn)化為特征膠囊ui。然后使用輸出膠囊ui來(lái)計(jì)算預(yù)測(cè)向量uj|i,計(jì)算方法是將其與權(quán)重矩陣wij相乘。具體計(jì)算如式(7) 所示。
(7)
主膠囊層膠囊網(wǎng)絡(luò)利用“協(xié)議路由”的原理生成下一層膠囊。此過(guò)程主要取代池化操作,因?yàn)槌鼗僮鲿?huì)丟失角度、位置、等方差等信息。路由過(guò)程如圖6所示。
圖6 動(dòng)態(tài)路由過(guò)程
如圖6所示,在兩個(gè)相鄰的L層和L+1層之間,使用預(yù)測(cè)向量與權(quán)重cij線性組合生成膠囊sj。具體計(jì)算如式(8)所示。
(8)
在膠囊網(wǎng)絡(luò)中,ui為輸入向量,vj為L(zhǎng)+1層中第j個(gè)膠囊的輸出向量。cij用來(lái)預(yù)測(cè)上層膠囊與下層膠囊間的相似性,稱為耦合系數(shù)。在路由過(guò)程中,可以選擇全連接的權(quán)重矩陣或者共享的權(quán)重矩陣。共享權(quán)重矩陣將與L層ui相連的wij變?yōu)閣j,這樣既減少了訓(xùn)練參數(shù),又避免了過(guò)度擬合。實(shí)驗(yàn)結(jié)果表明,共享權(quán)重矩陣不僅訓(xùn)練參數(shù)少,而且分類效果更加優(yōu)異。
壓縮函數(shù)為了保持非線性,膠囊網(wǎng)絡(luò)沒(méi)有使用Sigmoid、Tanh等非線性激活函數(shù),而是對(duì)sj使用壓縮函數(shù),如式(9)所示。將L+1膠囊層的輸出向量vj的模長(zhǎng)轉(zhuǎn)換為0到1之間。這種函數(shù)以非線性方式壓縮膠囊的長(zhǎng)度,通過(guò)這個(gè)過(guò)程,短向量的模長(zhǎng)被壓縮到0,長(zhǎng)向量的模長(zhǎng)被壓縮到1。壓縮后的向量模長(zhǎng)越大,其表征的特征就越強(qiáng)。
(9)
動(dòng)態(tài)路由對(duì)于上述學(xué)習(xí)參數(shù)wij,cij通過(guò)動(dòng)態(tài)路由算法進(jìn)行迭代。bij的初始值賦值為0,這樣vj的初始值為uj|i的均值,通過(guò)迭代更新bij,從而更新cij與vj的值。具體更新如式(10)、式(11)所示。
動(dòng)態(tài)路由算法的迭代流程如表1所示。
表1 動(dòng)態(tài)路由算法的迭代流程
膠囊網(wǎng)絡(luò)和一般神經(jīng)網(wǎng)絡(luò)的主要區(qū)別在于輸出不同,膠囊網(wǎng)絡(luò)的輸出是向量Vout=[v0,v0,…,vn-1]。每個(gè)向量的長(zhǎng)度表示該樣本為某一類別的概率,表示了文本所屬類別的不同情況。分類結(jié)果通過(guò)式(12)表示。
argmaxVout=argmax(v0,v1,…,vn-1)
(12)
對(duì)于分類任務(wù),可將多分類問(wèn)題分解為多個(gè)二分類問(wèn)題,使用argmax找到Vout中的最大值vj-1,該值表示輸入文本是第j類的最高概率。模型的損失函數(shù)Lj如式(13)所示。
(13)
其中,j表示分類類別,Tj指示當(dāng)前樣本與該類別之間的關(guān)系。Tj=1表示該樣本屬于j類,在這種情況下vj的長(zhǎng)度(概率)越大越好。如果Tj=0,vj的長(zhǎng)度(概率)越小越好。m+為上邊界常取0.9,m-為下邊界常取0.1,λ=0.5,最終目標(biāo)是使這些損失值之和最小化。
實(shí)驗(yàn)平臺(tái)環(huán)境如表2所示。
表2 實(shí)驗(yàn)環(huán)境及配置
本文采用THUCNews和Ag_News新聞文本分類數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。THUCNews合計(jì)20萬(wàn)條數(shù)據(jù),共分為財(cái)經(jīng)、房產(chǎn)、股票、教育、科技等10個(gè)分類類別,每個(gè)類別2 000條數(shù)據(jù)。Ag_News合計(jì)19 600條數(shù)據(jù),共分為國(guó)際、體育、商業(yè)、科技4個(gè)類別,每個(gè)類別4 900條數(shù)據(jù)。將兩個(gè)數(shù)據(jù)集按一定比例劃分成訓(xùn)練集、驗(yàn)證集和測(cè)試集。數(shù)據(jù)集中每個(gè)類別的數(shù)據(jù)量保持一致,以保證數(shù)據(jù)的分布平衡。
文本分類主流的性能評(píng)價(jià)指標(biāo)有Accuracy (準(zhǔn)確率)、Precision(精確率)、Recall(召回率)、F1-Score。本文使用這些指標(biāo)對(duì)BC-CapsNet模型進(jìn)行性能評(píng)價(jià)。首先構(gòu)建混淆矩陣,如表3所示。
表3 混淆矩陣
在二分類的情況下具體計(jì)算如式(14)~式(17)所示。
而對(duì)于多分類問(wèn)題采用pmacro、Rmacro、F1macro來(lái)表示所有類別的宏精度,宏召回和宏F1分?jǐn)?shù)。
本文在固定其他參數(shù)的前提下,依次改變可變參數(shù)的數(shù)值,從而得到實(shí)驗(yàn)的最佳參數(shù)。表4列出了模型主要參數(shù)及參數(shù)值。
表4 模型參數(shù)設(shè)置
3.5.1 模型結(jié)果對(duì)比
采用多種模型進(jìn)行比較,實(shí)驗(yàn)結(jié)果與模型性能對(duì)比如表5所示。
表5 多種模型的實(shí)驗(yàn)結(jié)果 (單位: %)
BERT[9]不附加任何模塊,僅用BERT預(yù)訓(xùn)練模型進(jìn)行文本分類。
BERT-BiGRU-Att[19]使用BiGRU模型提取文本信息,并對(duì)其最后輸出進(jìn)行注意力加權(quán)。
BERT-TextCNN[10]使用多個(gè)不同尺寸的卷積窗口來(lái)擴(kuò)大感受野,提取句子中的關(guān)鍵信息,并用于最終的分類。
BERT-Capsule-A/B[15]Capsule-A是用于文本分類的單個(gè)膠囊網(wǎng)絡(luò),而Capsule-B是三個(gè)膠囊網(wǎng)絡(luò)的級(jí)聯(lián),用于提高分類性能。
從表5可以看出,僅使用BERT的預(yù)訓(xùn)練模型便可以獲得很好的分類效果,在兩個(gè)數(shù)據(jù)集上F1macro分別為93.96%、89.90%。在BERT的基礎(chǔ)上增加TextCNN、BiGRU-Att模塊后分類效果都得到了提高。Zhao的Capsule-A網(wǎng)絡(luò)是將卷積與膠囊網(wǎng)絡(luò)相結(jié)合,在兩個(gè)數(shù)據(jù)集上都取得了不錯(cuò)的效果。而Capsule-B是在Capsule-A的基礎(chǔ)上又增加了兩條通道,從而獲得更多的特征信息,類似于TextCNN網(wǎng)絡(luò)的多卷積策略,最終,F1macro提高至95.21%、91.74%。本文提出的BC-CapsNet在兩個(gè)數(shù)據(jù)集上的F1macro分別為95.46%、92.20%,進(jìn)一步提高了分類效果。
圖7展示的是測(cè)試集混淆矩陣可視化圖,混淆矩陣以矩陣的形式展現(xiàn)樣本真分類和模型預(yù)測(cè)分類之間的關(guān)系,其可視化圖可以通過(guò)顏色清晰地觀察到分類情況。從圖中可以看出AG_News的商業(yè)類樣本錯(cuò)誤率較高,主要因?yàn)槟P蛯⒃S多該類樣本錯(cuò)分為科技類,這是導(dǎo)致該數(shù)據(jù)集的準(zhǔn)確率不如THUCNews的重要因素。在實(shí)驗(yàn)中BC-CapsNet在兩個(gè)epoch后準(zhǔn)確率便高于其他模型。BERT模型的收斂速度較快,但準(zhǔn)確率要低于其他方法。Capsule-B的準(zhǔn)確率一直高于Capsule-A,說(shuō)明多通道策略相較于單通道可以提取到更多的特征信息。本文方法BC-CapsNet在雙通道相結(jié)合的基礎(chǔ)上融合膠囊網(wǎng)絡(luò)模型,由于Capsule-B擁有BiGRU模塊,所以它能夠更好地保留文本語(yǔ)義信息,從而有效地提升準(zhǔn)確度。
圖7 混淆矩陣可視化
3.5.2 多卷積核策略對(duì)模型結(jié)果的影響
通過(guò)實(shí)驗(yàn)評(píng)估多卷積核策略的尺寸選擇,從而獲得更立體和更全面的特征篩選,Nguyen等人[20]提出多尺寸卷積核2-3-4-5的組合達(dá)到最佳效果,而Zhao等人[15]發(fā)現(xiàn)N-gram值為3-4-5在其模型中表現(xiàn)最佳。此外,為了尋找到最佳窗口尺寸,除了上述兩種組合外,本文還驗(yàn)證了以下兩種組合: 1-3-4-5和1-2-3-4-5。本文在THUCNews數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。
從圖8所示的實(shí)驗(yàn)結(jié)果可以看出,3-4-5的窗口尺寸獲得了最好的性能表現(xiàn)。在此基礎(chǔ)上,本文添加了一個(gè)額外的窗口大小為1的卷積核,以強(qiáng)調(diào)單詞的固有信息,但效果并不理想。將卷積窗口大小為2的卷積核添加到3-4-5組以及1-3-4-5組合中時(shí),前者效果大幅下降,后者略有下降。為獲得更好的效果,BC-CapsNet模型將采用3-4-5的組合。
圖8 多卷積核策略的影響
3.5.3 膠囊層之間權(quán)重共享
如果使用全連接權(quán)重矩陣, 則整個(gè)過(guò)程顯然等效于一般神經(jīng)網(wǎng)絡(luò)中的完全連接層,參數(shù)矩陣的數(shù)量等于輸入膠囊數(shù)量乘以輸出膠囊數(shù)量。如果采用權(quán)重共享方式,參數(shù)矩陣的數(shù)量則等于分類數(shù)。具有權(quán)重共享的網(wǎng)絡(luò)不僅計(jì)算量較小,而且具有更好的分類效果,表6中的實(shí)驗(yàn)結(jié)果能說(shuō)明這一點(diǎn)。
表6 共享權(quán)重和完全連接的比較 (單位: %)
3.5.4 動(dòng)態(tài)路由迭代次數(shù)
由于動(dòng)態(tài)路由需要多次迭代的過(guò)程,為研究迭代次數(shù)對(duì)模型的影響,實(shí)驗(yàn)在不改變其他參數(shù)的情況下,調(diào)整動(dòng)態(tài)路由迭代次數(shù)。實(shí)驗(yàn)結(jié)果如表7所示,表中T表示迭代次數(shù)。
表7 動(dòng)態(tài)路由迭代次數(shù)對(duì)模型的影響 (單位: %)
表7的統(tǒng)計(jì)結(jié)果表明,THUCNews在迭代5到6次時(shí)取得較好的性能,AG_News在迭代4到5次時(shí)取得較好的性能。最終在BC-CapsNet模型上綜合考慮使用5次路由迭代。而在此基礎(chǔ)上增加路由迭代次數(shù)并沒(méi)有提高模型的性能,而且如果迭代次數(shù)過(guò)多,不僅會(huì)帶來(lái)更大的計(jì)算代價(jià),而且會(huì)導(dǎo)致性能下降。
本文將雙通道的神經(jīng)網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)結(jié)合起來(lái)并提出了BC-CapsNet模型,通過(guò)實(shí)驗(yàn)將其應(yīng)用于文本分類任務(wù)中。將雙通道捕獲的信息特征進(jìn)行特征融合后輸入膠囊網(wǎng)絡(luò)進(jìn)行分類,其中動(dòng)態(tài)路由算法從低級(jí)到高級(jí)膠囊的傳輸過(guò)程,可以使模型更有效地利用實(shí)體和位置信息,從而提高分類效果。本文研究的是單標(biāo)簽多分類問(wèn)題,在今后的研究工作中,希望將本模型進(jìn)行改進(jìn)來(lái)適應(yīng)多標(biāo)簽、多分類的文本分類任務(wù)。其次,對(duì)于小樣本的任務(wù),該模型是否具有優(yōu)勢(shì)需要進(jìn)行進(jìn)一步實(shí)驗(yàn)。