李智強(qiáng),過 弋,2,3,王志宏
(1. 華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237;2. 大數(shù)據(jù)流通與交易技術(shù)國家工程實(shí)驗(yàn)室 商業(yè)智能與可視化技術(shù)研究中心,上海 200436; 3. 上海大數(shù)據(jù)與互聯(lián)網(wǎng)受眾工程技術(shù)研究中心,上海 200072)
在自然語言處理領(lǐng)域,文本分類是最基礎(chǔ)的任務(wù)。文本分類主要包括單標(biāo)簽分類和多標(biāo)簽分類。在單標(biāo)簽分類中,一個樣本對應(yīng)一個標(biāo)簽,而多標(biāo)簽分類則是一個樣本對應(yīng)一個或多個標(biāo)簽。其中,多標(biāo)簽分類又可以細(xì)分為層級性多標(biāo)簽分類和平行性多標(biāo)簽分類[1],前者是指某個標(biāo)簽類別有其父類或者有其子類;后者是指某段文本可能對應(yīng)多個類別,如一部電影可能是喜劇片又是愛情片。本文主要研究的是多標(biāo)簽分類下的平行性多標(biāo)簽文本分類任務(wù)(Parallel Multi-Label Text Classification,PMLTC)。在大數(shù)據(jù)時(shí)代,面對大量的文本數(shù)據(jù)和標(biāo)簽類別,PMLTC是一項(xiàng)極具挑戰(zhàn)性的任務(wù),同時(shí)也是自然語言處理的核心任務(wù)之一。
文本數(shù)據(jù)可能很長,并且包含大量復(fù)雜的語義信息和一些與分類任務(wù)無關(guān)的噪聲信息。那么如何從長文本中提取出對分類任務(wù)有用的信息是解決該類任務(wù)的一個關(guān)鍵,因此文本表示是分類任務(wù)中最重要的一個步驟。研究表明,全局信息有利于分類,而局部信息也不能忽略。如對一段“體育”類文本: “目前全球規(guī)模大、影響力大的體育賽事有世界杯、奧運(yùn)會等?!?,“世界杯、奧運(yùn)會”這些局部信息對分類起著重要作用。此外,對于簡單的分類任務(wù),現(xiàn)有研究中很少考慮標(biāo)簽信息,那么對于多標(biāo)簽分類任務(wù),若有100個標(biāo)簽、1 000個標(biāo)簽,甚至更多的標(biāo)簽信息,如何利用這些大量的標(biāo)簽信息來提升分類的準(zhǔn)確率是當(dāng)前研究的熱點(diǎn)和難點(diǎn)。為了解決上述問題,本文主要關(guān)注以下兩個方面: ①如何從原始文檔中提取出對分類任務(wù)有效的關(guān)鍵信息?②如何將標(biāo)簽信息融合到待分類文本表示中?
在PMLTC任務(wù)中,一段文本可能包含多個標(biāo)簽,每個標(biāo)簽都可以被視為待分類文本的一部分。為了充分利用標(biāo)簽信息,并從全局角度和局部角度對待分類文本進(jìn)行編碼,本文提出了一種新穎的MSAPA(Parameter Adaptive Model under Multi-strategy Attention Mechanism)模型來獲取待分類文本的表示。本文有以下三點(diǎn)貢獻(xiàn):
(1) 為了重點(diǎn)突出待分類文本中的關(guān)鍵信息和充分利用標(biāo)簽信息,提出了一種多類型注意力機(jī)制融合模型,其中包括自注意力機(jī)制(self-attention)和標(biāo)簽注意力機(jī)制(label-attention)。
(2) 為了解決多類型注意力機(jī)制的權(quán)重分配問題,引入了一種多參數(shù)自適應(yīng)的融合策略。
(3) 在兩個常用公開數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文提出的MSAPA模型效果優(yōu)于最新的基準(zhǔn)模型。
隨著大數(shù)據(jù)時(shí)代的到來和算力的提升,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型也流行起來,并在自然語言處理領(lǐng)域中展現(xiàn)了極大的優(yōu)勢。如在文本分類、機(jī)器翻譯、命名實(shí)體識別等眾多任務(wù)中,深度學(xué)習(xí)模型效果遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法?,F(xiàn)在在文本分類領(lǐng)域中,使用較多的深度學(xué)習(xí)模型有卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和CNN與RNN的融合模型。
CNN起初用在計(jì)算機(jī)視覺領(lǐng)域中,一些研究者將CNN用在自然語言處理領(lǐng)域中也能達(dá)到很好的效果。Kim等人[2]在2014年開創(chuàng)了將CNN應(yīng)用到文本分類領(lǐng)域的先河,采用多個不同大小的卷積和對文本進(jìn)行不同大小的局部位置信息抽取,并達(dá)到了很好的效果。最常用的池化操作有最大池化和平均池化。其中,最大池化只考慮了最優(yōu)信息,丟棄了次優(yōu)等一些其他重要信息;平均池化則弱化最優(yōu)信息,可能會將一些噪聲信息考慮進(jìn)去。這些缺點(diǎn)都會降低分類的準(zhǔn)確率。Chen等人[3]提出了K-max pooling操作,他們考慮特征的前K個最優(yōu)信息,但并沒有弱化這些最優(yōu)信息,同時(shí)將噪聲信息丟棄掉,該模型在句子建模中取得了不錯的效果。上述研究大多基于淺層CNN進(jìn)行文本分類的特征提取,Conneau等人[4]提出了VDCNN模型,該模型采用29個卷積層來提升模型的準(zhǔn)確率。此外,除使用單詞級別的CNN模型之外,Zhang等人[5]提出了一種完全基于字符級的文本分類模型。當(dāng)訓(xùn)練集規(guī)模足夠大時(shí),卷積網(wǎng)絡(luò)不需要單詞層面的意義,也不需要語法句法等信息,就可以實(shí)現(xiàn)很好的效果,而且無論是什么語言,文本都是由字符組成的,這對于構(gòu)建跨語言的系統(tǒng)至關(guān)重要。
文本是一種序列結(jié)構(gòu)化表示,不同時(shí)刻的輸入之間存在一定的關(guān)聯(lián)。Zaremba等人[6]提出了循環(huán)神經(jīng)網(wǎng)絡(luò)模型來“記憶”詞與詞之間的某種聯(lián)系,從全局角度進(jìn)行文本表示。使用RNN進(jìn)行文本分類最經(jīng)典的模型之一是Lai等人[7]提出的TextRNN模型,該模型可以很好表達(dá)長距離上下文信息,解決了TextCNN中使用固定大小的卷積核而不能對文本進(jìn)行長距離建模的問題。針對多標(biāo)簽文本分類任務(wù),Liu等人[8]提出RNN的三種不同的共享信息機(jī)制來對特定任務(wù)和文本進(jìn)行建模,并取得很好的效果。RNN系列的模型雖然考慮了文本的序列結(jié)構(gòu)化特征,卻不能很好地提取一些局部位置信息。Wang等人[9]采用固定的輸入步長k,比如第k時(shí)刻的輸出僅僅取決于前k-1時(shí)刻和當(dāng)前時(shí)刻的輸入,這樣會大大減小模型對文本建模的負(fù)擔(dān),并且達(dá)到很好的效果。
CNN擅長提取局部位置信息,屬于無偏模型,能夠通過最大池化獲取最重要的特征,但是CNN的滑動窗口大小不容易確定,滑動窗口過小容易造成重要信息丟失,滑動窗口過大則會增大模型計(jì)算代價(jià)。RNN擅長處理序列結(jié)構(gòu)文本,能夠考慮句子的上下文信息,屬于有偏模型,通常一個句子中越往后的詞重要性越高,這可能影響到最后的分類結(jié)構(gòu)。為了很好地利用CNN和RNN的優(yōu)點(diǎn)(CNN可以提取局部信息;RNN擅長提取全局信息),互相彌補(bǔ)雙方的不足(CNN卷積核大小不容易確定,使得pooling操作會造成一定的信息丟失或弱化最優(yōu)信息;RNN很難提取關(guān)鍵短語信息)。研究者們在CNN和RNN模型融合方面也進(jìn)行了許多創(chuàng)新,如Lai等人[7]提出的RCNN模型是將RNN和CNN進(jìn)行外部結(jié)合,在學(xué)習(xí)文本表示時(shí)可以大范圍地保留詞序,用最大池化層獲取文本的重要部分。Wang等人[9]提出的DRNN模型將RNN和CNN進(jìn)行內(nèi)部結(jié)合,其性能均優(yōu)于單個CNN和RNN模型。
本文提出的MSAPA模型如圖1所示。該模型主要由詞嵌入層、特征抽取層、注意力層、特征融合層和輸出層五部分組成。
圖1 MSAPA模型
模型輸入一串文本序列S={x1,x2,…,xn}。首先要經(jīng)過詞嵌入層(Embedding)將文本序列進(jìn)行編碼。常用的詞向量有Word2Vec[10]和Glove[11],為了加快網(wǎng)絡(luò)的收斂速度,本文使用Glove詞向量對文本進(jìn)行編碼。Glove詞表的第一列是單詞,其余列是該單詞所對應(yīng)的向量表示。通過查找Glove詞表可以將文本序列S中每個單詞表示xi編碼成相應(yīng)的詞向量表示ei,則文本序列S最終可以編碼成相應(yīng)的詞向量表示E,如式(1)所示。
其中,E∈n×d,n表示文本序列的長度,d表示詞向量的維度。
2.2.1 局部特征提取層
局部特征常用CNN進(jìn)行提取。對于一段待分類文本來說,關(guān)鍵信息常常以二字短語、三字詞語、四字成語的形式出現(xiàn),因此本文采用卷積核大小分別為2、3、4的卷積核來提取待分類文本中的不同局部特征。
經(jīng)過詞嵌入層將文本序列編碼成詞向量序列E,然后使用CNN進(jìn)行特征提取,定義卷積核大小w∈n×d,其中,h為卷積核寬度,表示提取長度為h的局部特征;d表示詞向量的維度。局部特征ci是通過窗口大小為h的卷積核滑動產(chǎn)生的新特征,如式(2)所示。
其中,w為模型的學(xué)習(xí)參數(shù),b為偏置項(xiàng),f()屬于非線性激活函數(shù),如ReLU[12]、Tanh、Mish[13]等。為了使更好的特征融入神經(jīng)網(wǎng)絡(luò),本文使用Mish激活函數(shù):f(x)=x*tanh(log(1+ex))。
2.2.2 全局特征提取層
為了建模全局特征引入循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),然而傳統(tǒng)的RNN存在梯度消失和長距離依賴問題。本文采用Bi-LSTM對文本序列進(jìn)行全局建模,LSTM在RNN的基礎(chǔ)上提出輸入門、遺忘門和更新門三個門限機(jī)制,從而更好地解決了RNN缺點(diǎn)。
LSTM原理以及三個門限機(jī)制可以通過式(3)來解釋。
(3)
其中,it,ft,gt,ot分別表示輸入門,遺忘門,細(xì)胞狀態(tài)和輸出門,ht表示第t時(shí)刻的隱藏狀態(tài),ct表示第t時(shí)刻的細(xì)胞狀態(tài),xt表示第t時(shí)刻的輸入,ht-1表示t-1時(shí)刻的隱藏狀態(tài)或者初始化的隱藏狀態(tài)。
本文采用Bi-LSTM對編碼后的詞向量序列進(jìn)行全局特征提取,第t個時(shí)間戳的全局特征可通過式(4)表示。
(4)
(5)
通過2.2節(jié)可以得到文本的局部特征表示:C=[c1,c2,…,ci]和全局特征表示:H=[h1,h2,…,hi]。為了獲得全局和局部的關(guān)鍵詞特征以及融合標(biāo)簽信息,本文引入自注意力機(jī)制(self-attention)和標(biāo)簽注意力機(jī)制(label-attention)。
2.3.1 自注意力機(jī)制
為了對分類任務(wù)的關(guān)鍵信息分配較高的權(quán)重,對 “噪聲”信息分配較低的權(quán)重,本文采用自注意力機(jī)制。融合self-attention[14]的全局信息和局部信息如式(6)所示。
(6)
其中,WL2、WL1表示模型對于全局信息訓(xùn)練的超參數(shù),WC1、WC2表示模型對于局部信息訓(xùn)練的超參數(shù)。H、C分別表示通過特征抽取層得到的全局信息和局部信息表示。AL(s)、AC(s)分別表示為融合自注意力機(jī)制的全局關(guān)鍵詞特征和融合自注意力機(jī)制的局部關(guān)鍵詞特征。
2.3.2 標(biāo)簽注意力機(jī)制
對于多標(biāo)簽文本分類任務(wù),為了充分關(guān)聯(lián)標(biāo)簽和文本全局信息以及局部信息,本文采用標(biāo)簽注意力機(jī)制。
首先將標(biāo)簽信息編碼成詞向量表示,即:L∈l×d,其中,l表示標(biāo)簽的個數(shù),d表示詞向量的維度(1)和Glove對文本編碼的詞向量的維度一樣。然后將標(biāo)簽矩陣和文本全局信息矩陣及局部信息矩陣分別進(jìn)行內(nèi)積運(yùn)算,給重要的信息分配較高的權(quán)重,給“噪聲”信息分配較低的權(quán)重,即給文本全局信息和局部信息分別添加標(biāo)簽注意力機(jī)制,如式(7)所示。
(7)
其中,L為標(biāo)簽信息的詞向量矩陣,H、C表示從文本中抽取的全局信息和局部信息。AL(l)、AC(l)分別表示為融合標(biāo)簽注意力機(jī)制的全局關(guān)鍵詞特征和融合標(biāo)簽注意力機(jī)制的局部關(guān)鍵詞特征。
經(jīng)過上述計(jì)算,該模型可以得到四個輸出:
(1) 融合自注意力機(jī)制的全局關(guān)鍵詞特征AL(s);(2) 融合自注意力機(jī)制的局部關(guān)鍵詞特征AC(s);(3) 融合標(biāo)簽注意力機(jī)制的全局關(guān)鍵詞特征AL(l);(4) 融合標(biāo)簽注意力機(jī)制的局部關(guān)鍵詞特征AC(l)。
本文采用自適應(yīng)融合機(jī)制來動態(tài)地為融合自注意力機(jī)制后的文本信息和融合標(biāo)簽注意力機(jī)制后的文本信息分配不同權(quán)重。
通過式(8)為AL(s)和AL(l)動態(tài)分配不同的權(quán)重。
(8)
其中,WL2、WL3分別表示模型要訓(xùn)練的超參數(shù)。αL、βL表示模型分別對AL(s)和AL(l)動態(tài)分配的權(quán)重。則AL(s)和AL(l)的最終表示如式(9)所示。
通過式(10)為AC(s)和AC(l)動態(tài)分配不同的權(quán)重,如式(10)所示。
(10)
其中,WC2、WC3分別表示模型要訓(xùn)練的超參數(shù)。αC、βC表示模型分別對AC(s)和AC(l)動態(tài)分配的權(quán)重。則AC(s)和AC(l)的最終表示如式(11)所示。
通過式(12)為DL和DC動態(tài)分配不同的權(quán)重,如式(12)所示。
(12)
其中,WO2、WO3分別表示模型要訓(xùn)練的超參數(shù)。αO、βO表示模型分別對DL和DC動態(tài)分配不同的權(quán)重。用于分類的最終文檔表示如式(13)所示。
通過式(14)預(yù)測文檔所屬每個標(biāo)簽的概率。
在分類任務(wù)中常用交叉熵作為損失函數(shù),如式(15)所示。
為了證明本文模型具有更好的有效性,本節(jié)通過在AAPD數(shù)據(jù)集(54個類別)和RCV1數(shù)據(jù)集(103個類別)上評估本文的模型。
(1)AAPD[15]數(shù)據(jù)集: AAPD從arXiv的計(jì)算機(jī)科學(xué)領(lǐng)域收集了55 840篇論文的摘要和相應(yīng)主題。
(2)RCV1[16]數(shù)據(jù)集: Reuters Corpus Volume 1(RCV1)包含超過80k的手動分類新聞,共有103個類別。
實(shí)驗(yàn)數(shù)據(jù)集詳細(xì)統(tǒng)計(jì)信息如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集詳細(xì)統(tǒng)計(jì)信息
本文實(shí)驗(yàn)采用Pytorch框架開發(fā),實(shí)驗(yàn)環(huán)境如表2所示。
表2 實(shí)驗(yàn)環(huán)境
MSAPA模型詳細(xì)參數(shù)設(shè)置如表3所示。
表3 實(shí)驗(yàn)參數(shù)設(shè)置
3.3.1 評價(jià)指標(biāo)
本文采用P@n和NDCG@n作為模型的評價(jià)指標(biāo)。
P@n: 其中P為模型的準(zhǔn)確率,n是取前n個結(jié)果的準(zhǔn)確率,則P@n表示為返回前n個結(jié)果的準(zhǔn)確率,其計(jì)算如式(16)所示。
NDCG@n: 其中NDCG(Normalized Discounted Cumulated Gains)為歸一化折損累計(jì)增益,其計(jì)算如式(17)所示。
(17)
其中,||y||o表示計(jì)算真實(shí)標(biāo)簽y中相關(guān)標(biāo)簽的數(shù)量。
3.3.2 對比實(shí)驗(yàn)
對于PMLTC任務(wù),在AAPD和RCV1數(shù)據(jù)集上,本文選用9個深度神經(jīng)網(wǎng)絡(luò)模型作為基線模型。
?SLEEC[17]: Bhatia等人在2015年提出一種基于嵌入的方法將高維標(biāo)簽向量投影到線性低維子空間中。
?PfastreXML[18]: 基于樹的方法被用作基線模型,因?yàn)樗鼈冊诿糠N類型中都獲得了最佳性能。
?XML-CNN[19]: Liu等人在2017年首次將深度學(xué)習(xí)應(yīng)用到極端多標(biāo)簽文本分類任務(wù)中。將CNN和動態(tài)池化層結(jié)合來解決該類任務(wù)。
?DXML[20]: Zhang等人在2018年通過考慮標(biāo)簽共現(xiàn)圖的標(biāo)簽結(jié)構(gòu)來探索標(biāo)簽相關(guān)性。
?SGM[15]: Yang等人在2018年提出一種將輸入文檔中的序列生成模型應(yīng)用于輸出標(biāo)簽,以構(gòu)造多標(biāo)簽的文本分類器。
?AttentionXML[21]: You等人在2018年針對XML-CNN不能捕捉單詞之間長距離依賴關(guān)系和在文本中每個單詞的重要性程度不同這兩個問題,使用Bi-LSTM和多標(biāo)簽注意力機(jī)制來解決上述兩個問題。
?EXAM[22]: Du等人在2019年利用標(biāo)簽文本來學(xué)習(xí)單詞和標(biāo)簽之間的交互。
?LAHA[23]: Huang等人在2019年使用混合注意力神經(jīng)網(wǎng)絡(luò)為每個文檔建立一個明確的標(biāo)簽感知表示,利用文檔內(nèi)容和標(biāo)簽相關(guān)性來更好地探索每個文檔與極端標(biāo)簽之間的語義關(guān)系。
?LSAN[24]: Xiao等人在2019年提出一種標(biāo)簽特定注意力網(wǎng)絡(luò),其利用標(biāo)簽語義信息來確定標(biāo)簽和文檔之間的語義聯(lián)系。
實(shí)驗(yàn)結(jié)果如表4所示,模型的評價(jià)指標(biāo)分別為: P@1、P@3、P@5、NDCG@3、NDCG@5。
實(shí)驗(yàn)分析: 觀察表4可以發(fā)現(xiàn)SLEEC和PfastreXML模型效果均差于最新的模型: LAHA、LSAH以及本文提出的MSAPA模型,其主要原因在于SLEEC和PfastreXML模型的重心并沒有放在文本的表示上,SLEEC只是將高維標(biāo)簽向量投影到線性低維子空間中,PfastreXML只是提出了一種損失函數(shù)??梢钥闯?,在文本分類任務(wù)中,文本的表示是至關(guān)重要的。
表4 實(shí)驗(yàn)對比結(jié)果 (單位: %)
XML-CNN在AAPD和RCV1數(shù)據(jù)集上均差于AttentionXML, 其主要原因是XML-CNN沒有考慮文本中每個詞對于分類的重要性,這一點(diǎn)驗(yàn)證了注意力機(jī)制在文本分類任務(wù)中的重要性。雖然DXML模型考慮了標(biāo)簽信息,但并沒有充分考慮文本的局部關(guān)鍵信息和全局關(guān)鍵信息,所以DXML模型效果也并不理想。
SGM模型將多標(biāo)簽分類看作序列生成問題,提出了一種新的解碼器結(jié)構(gòu)的序列生成模型來解決這一問題,但該模型的效果并不理想。AttentionXML在RCV1數(shù)據(jù)集上的表現(xiàn)要優(yōu)于EXAM模型,主要是因?yàn)樵摂?shù)據(jù)集屬于層次標(biāo)簽結(jié)構(gòu),即父標(biāo)簽和子標(biāo)簽可能包含相似的文本,而EXAM模型很難基于文本的嵌入進(jìn)行區(qū)分。AttentionXML模型在這兩個數(shù)據(jù)集上的表現(xiàn)均差于LSAN模型,在AAPD數(shù)據(jù)集上差于LAHA模型,因?yàn)锳ttentionXML模型僅僅關(guān)注文本的內(nèi)容信息而忽略了標(biāo)簽信息,這一點(diǎn)驗(yàn)證了標(biāo)簽注意力機(jī)制在多標(biāo)簽文本分類任務(wù)中的重要性。
本文的模型在這兩個數(shù)據(jù)集上的表現(xiàn)均優(yōu)于LSAN模型,在AAPD數(shù)據(jù)集上優(yōu)于LAHA模型,其主要原因是LSAN和LAHA僅僅關(guān)注文本的全局信息而忽略了局部關(guān)鍵信息。這一結(jié)果進(jìn)一步證明了本文所提出的基于全局和局部的多類型注意力機(jī)制參數(shù)自適應(yīng)模型對于多標(biāo)簽文本分類具有很好的效果。
3.3.3 消融實(shí)驗(yàn)
本文提出的是一種融合多類型注意力機(jī)制多參數(shù)自適應(yīng)學(xué)習(xí)的模型,主要包括以下四部分: 提取文檔的局部特征(記為C);提取文檔的全局特征(記為B);融合標(biāo)簽注意力機(jī)制的文檔表示(記為L);融合自注意機(jī)制的文檔表示(記為S)。本節(jié)通過消融實(shí)驗(yàn)來測試每一部分重要性。
圖2和圖3分別按照指標(biāo)P@1、P@3、P@5、NDCG@3和NDCG@5列出對AAPD和RCV1數(shù)據(jù)集的結(jié)果。可以看出本文的模型效果最好,即C+B+L+S。
圖2 AAPD結(jié)果對比
圖3 RCV1結(jié)果對比
對于上述兩個數(shù)據(jù)集效果分析可以得出以下3個結(jié)論:
(1) 模型C+B+S的各個指標(biāo)均優(yōu)于模型C+B+L,說明對于本文中的兩個數(shù)據(jù)集,自注意力機(jī)制的重要性要優(yōu)于標(biāo)簽注意力機(jī)制。
(2) 模型B+S+L的各個指標(biāo)均優(yōu)于模型C+S+L,說明對于本文中的兩個數(shù)據(jù)集,全局信息要比局部信息更重要。
圖4 固定權(quán)重和參數(shù)自適應(yīng)模型對比(AAPD)
(3) 模型C+B+L+S的各個指標(biāo)均優(yōu)于所有的模型,說明只有充分考慮文本的全局信息和局部信息,并充分利用自注意力機(jī)制和標(biāo)簽注意力機(jī)制,才能達(dá)到較好的分類效果。
為了進(jìn)一步說明參數(shù)自適應(yīng)的重要性,本文對比參數(shù)自適應(yīng)的模型和固定參數(shù)權(quán)重(=0.5)的模型。實(shí)驗(yàn)效果如圖5、圖6所示。
圖5 固定權(quán)重和參數(shù)自適應(yīng)模型對比(RCV1)
通過圖5和圖6發(fā)現(xiàn)在這兩個數(shù)據(jù)集上參數(shù)自適應(yīng)模型的效果均比固定參數(shù)權(quán)重模型更優(yōu),這進(jìn)一步說明參數(shù)自適應(yīng)模型通過讓網(wǎng)絡(luò)自身學(xué)習(xí)較好的參數(shù)從而解決了固定參數(shù)不能使模型達(dá)到較好分類效果的問題。
本文提出了一種多類型注意力機(jī)制下參數(shù)自適應(yīng)的多標(biāo)簽文本分類模型(MSAPA)。該模型充分考慮了待分類文本的全局信息和局部信息,以及標(biāo)簽信息。通過融合自注意力分別提取文本的全局關(guān)鍵信息和局部關(guān)鍵信息;通過融合標(biāo)簽注意力機(jī)制將標(biāo)簽信息和待分類文本信息相關(guān)聯(lián),從而學(xué)習(xí)更好的文本表示。對于本文提出的多類型注意力機(jī)制,采用參數(shù)自適應(yīng)策略為其動態(tài)分配權(quán)重,從而進(jìn)一步提高文本分類的準(zhǔn)確率。在AAPD和RCV1兩個公開數(shù)據(jù)集上的大量實(shí)驗(yàn)證明了MSAPA模型的優(yōu)越性。
未來的工作中,一方面我們將把本文提出的MSAPA模型應(yīng)用到更多的多標(biāo)簽分類數(shù)據(jù)集上,進(jìn)一步優(yōu)化和驗(yàn)證模型的魯棒性;另一方面我們將會考慮多標(biāo)簽文本分類數(shù)據(jù)集本身的特性(如數(shù)據(jù)集領(lǐng)域、規(guī)模等)優(yōu)化模型,從而提升多標(biāo)簽文本分類的準(zhǔn)確率。