鄧維斌,王智瑩,高榮壕,王國胤,胡 峰
(重慶郵電大學(xué) 計算智能重慶市重點實驗室,重慶 400065)
文本分類目前廣泛應(yīng)用于情感分析、語言推理、主題分類、垃圾郵件檢測、新聞過濾等領(lǐng)域,已經(jīng)成為自然語言處理中一項重要任務(wù)。在傳統(tǒng)單標(biāo)簽文本分類中,每個樣本只對應(yīng)一個標(biāo)簽,且各標(biāo)簽之間相互獨立。大數(shù)據(jù)時代文本信息日益豐富使得類別劃分越來越詳細(xì),一個樣本往往與多個標(biāo)簽相關(guān),同時,標(biāo)簽之間常存在聯(lián)系,對于這種分類任務(wù)稱為多標(biāo)簽文本分類[1]。
多標(biāo)簽文本分類已廣泛應(yīng)用于許多真實場景,如涉及多個學(xué)科的論文、討論多個主題的博客、包含多種情感的評論等。與二分類相比,多標(biāo)簽文本分類需要對文本有更加深入地理解,以提供更全面、準(zhǔn)確的標(biāo)簽預(yù)測[2]。對于多標(biāo)簽文本分類問題,人們首先考慮到的是將多標(biāo)簽文本分類任務(wù)轉(zhuǎn)化成技術(shù)已經(jīng)逐漸成熟的單標(biāo)簽分類任務(wù)。然而,這種方法認(rèn)為標(biāo)簽之間相互獨立,忽略了標(biāo)簽之間的關(guān)聯(lián)性。隨著深度學(xué)習(xí)的發(fā)展,學(xué)者們提出了許多基于深度學(xué)習(xí)的多標(biāo)簽分類模型,并取得了較好的成效。其中,基于序列到序列(Seq2seq)的模型在多標(biāo)簽分類領(lǐng)域得到廣泛應(yīng)用,該模型使用編碼器提取文本信息,通過解碼器按順序預(yù)測標(biāo)簽,顯著提高了多標(biāo)簽分類的性能[3]。隨著注意力機(jī)制出現(xiàn),研究者將注意力機(jī)制引入Seq2seq模型可以有效地捕獲文本的重要信息,但是,傳統(tǒng)注意力機(jī)制往往只重視文本語義信息提取而忽略標(biāo)簽語義,導(dǎo)致模型不能充分捕獲標(biāo)簽語義和標(biāo)簽間的關(guān)聯(lián)信息。
目前,存在許多模型用來處理多標(biāo)簽分類問題,但仍然有不足之處。其中,如何有效學(xué)習(xí)標(biāo)簽之間的依賴關(guān)系,并將標(biāo)簽間關(guān)聯(lián)信息與文本信息進(jìn)行更加自適應(yīng)地交互成為一個關(guān)鍵問題。針對上述問題,本文提出了一種融合注意力與CorNet的多標(biāo)簽文本分類算法。為了捕獲標(biāo)簽間的依賴關(guān)系,利用基于標(biāo)簽特征矩陣的圖注意力網(wǎng)絡(luò)學(xué)習(xí)標(biāo)簽之間的相關(guān)性,并且在標(biāo)簽預(yù)測層之后添加CorNet模塊捕捉標(biāo)簽間關(guān)聯(lián)關(guān)系以增強(qiáng)標(biāo)簽預(yù)測。設(shè)計“文本-標(biāo)簽”注意力機(jī)制,將文本特征和標(biāo)簽間關(guān)系特征進(jìn)行點乘運算獲得每個單詞對當(dāng)前標(biāo)簽的權(quán)重,并將權(quán)重和文本表示結(jié)合得到最終的文檔表示,實現(xiàn)標(biāo)簽間關(guān)聯(lián)信息與文本特征信息自適應(yīng)交互。
多標(biāo)簽文本分類算法大致分為兩類:基于傳統(tǒng)機(jī)器學(xué)習(xí)的算法和基于深度學(xué)習(xí)的算法。
傳統(tǒng)機(jī)器學(xué)習(xí)算法主要包括問題轉(zhuǎn)換方法和算法自適應(yīng)方法兩大類[4]。問題轉(zhuǎn)換方法是將多標(biāo)簽文本分類任務(wù)轉(zhuǎn)換為多個獨立的二進(jìn)制分類問題。Zhang等提出二元相關(guān)(binary relevance,BR)方法就是問題轉(zhuǎn)換方法[5],該方法通過給每個標(biāo)簽建立一個單獨的分類器實現(xiàn)多標(biāo)簽文本分類,但BR方法忽略了標(biāo)簽之間的相關(guān)性使得模型性能較低。為了捕捉標(biāo)簽相關(guān)性,Read等提出了分類器鏈(classifier chain,CC)方法[6],將多個二進(jìn)制分類器連接在一起,每個分類器使用來自前一個分類器的預(yù)測作為輸入。這種方法的缺點是不同的標(biāo)簽順序可能會產(chǎn)生不同結(jié)果,連接過程也意味著CC方法無法并行化,因此,在處理大型數(shù)據(jù)集時會產(chǎn)生較高的計算成本。算法自適應(yīng)方法是對傳統(tǒng)的單標(biāo)簽分類算法進(jìn)行改進(jìn)來解決多標(biāo)簽分類問題。代表性算法有Clare等提出的ML-DT(multi-Label decision tree)方法[7],其基本思想是通過使用熵的信息增益遞歸地構(gòu)建決策樹來處理多標(biāo)簽問題。Elisseeff等提出排名支持向量機(jī)(ranking support vector machine,rank-SVM)方法[8],基于與SVM的特性構(gòu)造類似于學(xué)習(xí)系統(tǒng)的支持向量機(jī)來處理多標(biāo)簽問題,但這種系統(tǒng)的表達(dá)能力很弱。Younes等將K最近鄰(KNN)算法應(yīng)用到多標(biāo)簽分類問題[9],并且考慮了標(biāo)簽之間的依賴關(guān)系。然而這些傳統(tǒng)的機(jī)器學(xué)習(xí)方法在處理多標(biāo)簽問題時不能充分挖掘文本語義信息,大大降低了多標(biāo)簽分類的精度。
深度學(xué)習(xí)的快速發(fā)展使基于深度學(xué)習(xí)的模型效果有了很大的提升。深度學(xué)習(xí)方法廣泛應(yīng)用于自然語言處理領(lǐng)域。Jacovi等提出CNN模型處理文本分類對文本進(jìn)行最大程度的特征提取[10],從而提高了文本分類的效果。Liu等提出XML-CNN模型使用CNN設(shè)計了一個動態(tài)池處理文本分類,在池化層和輸出層之間加了一個隱藏層來降低標(biāo)簽維度以減少計算量,并且改進(jìn)了損失函數(shù),采用二元交叉熵?fù)p失函數(shù),使得文本分類效果得到明顯的提升[11]。雖然基于CNN 的算法在多標(biāo)簽分類任務(wù)中取得了不錯的研究成果,但這類算法僅僅從局部提取文本語義信息,缺乏對全局信息的考量,沒有考慮標(biāo)簽之間的關(guān)聯(lián)性。宋攀等提出利用神經(jīng)網(wǎng)絡(luò)構(gòu)造矩陣刻畫標(biāo)簽之間的依賴關(guān)系,同時可以解決標(biāo)簽缺失問題[12]。Chen等提出的CNN-RNN[13]和Yang等提出的序列生成模型(SGM)[14]通過使用編碼器和解碼器分別對文本進(jìn)行編碼及生成可能的編碼序列,但這類方法過于依賴標(biāo)簽的順序,標(biāo)簽順序不同時可能會產(chǎn)生不同的結(jié)果。You等提出AttentionXML使用自注意力機(jī)制來捕獲與每個標(biāo)簽最相關(guān)的文本但忽略了標(biāo)簽信息[15]。Xiao等提出的LSAN模型提出標(biāo)簽注意力機(jī)制學(xué)習(xí)特定于標(biāo)簽的文本表示,將標(biāo)簽語義信息引入到模型中[16]。Yao等提出用圖卷積網(wǎng)絡(luò)(GCN)對文本進(jìn)行分類,基于單詞共現(xiàn)和文檔-單詞關(guān)系為語料庫構(gòu)建一個異構(gòu)圖,并使用圖卷積神經(jīng)網(wǎng)絡(luò)聯(lián)合學(xué)習(xí)單詞和文檔嵌入[17]。盡管圖卷積神經(jīng)網(wǎng)絡(luò)已取得了較好的效果,但GCN仍然缺少重要的結(jié)構(gòu)特征,無法更好地捕捉節(jié)點之間的相關(guān)性或依賴性。
為了進(jìn)一步提升多標(biāo)簽文本分類模型的性能,提出了一種融合注意力與CorNet的多標(biāo)簽文本分類模型MLACN,通過圖注意力網(wǎng)絡(luò)和CorNet模塊充分捕獲標(biāo)簽間的語義依賴,同時利用“文本-標(biāo)簽”注意力機(jī)制,將標(biāo)簽之間的語義關(guān)系與文本上下文語義信息進(jìn)行交互,獲取基于標(biāo)簽語義信息的文本特征表示。模型如圖1所示。
圖1 模型框架
為了更好地捕捉文本雙向語義關(guān)系,采用Bi-LSTM[18]從前后兩個方向分別提取文本上下文語義信息,并計算每個單詞的隱表示
(1)
將文本中每個單詞的隱表示串聯(lián)得到整體文本表示
(2)
(3)
其中:αij是hi的歸一化系數(shù);wj是注意參數(shù),每個標(biāo)簽的wj不同;M(s)是多標(biāo)簽注意力機(jī)制下特定于標(biāo)簽的文本表示。
圖注意力網(wǎng)絡(luò)[20]將標(biāo)簽數(shù)據(jù)的節(jié)點特征和鄰接矩陣作為輸入。基于標(biāo)簽構(gòu)造鄰接矩陣,模型通過學(xué)習(xí)鄰接矩陣確定圖,從而學(xué)習(xí)標(biāo)簽的相關(guān)性。圖注意力網(wǎng)絡(luò)通過將標(biāo)簽間的關(guān)聯(lián)關(guān)系構(gòu)建成加權(quán)圖,以便鄰接矩陣和注意權(quán)重一起表示標(biāo)簽的相關(guān)性。
2.4.1 構(gòu)建鄰接矩陣 通過計算標(biāo)簽的成對共現(xiàn)來構(gòu)造鄰接矩陣。頻率向量是向量F∈Rl,Fi是整個訓(xùn)練集中標(biāo)簽i的頻率,通過頻率向量對共現(xiàn)矩陣L進(jìn)行歸一化。
Ladj=L/F
(4)
其中:Ladj∈Rl×l是鄰接矩陣;F∈Rl是單個標(biāo)簽的頻率向量。
圖2 GAT模型
eij=a(WHi,WHj)
(5)
其中:W是可訓(xùn)練參數(shù);a是前饋神經(jīng)網(wǎng)絡(luò)的可訓(xùn)練參數(shù);eij表示節(jié)點j對于節(jié)點i的重要性,并且節(jié)點i必須是節(jié)點j的一階鄰居。注意力系數(shù)計算公式為
(6)
其中:LeakyReLU為非線性激活函數(shù);αij為標(biāo)簽j相對于標(biāo)簽i的歸一化注意系數(shù);k∈Ni表示節(jié)點i的所有一階鄰域節(jié)點。
根據(jù)式(6)的注意力系數(shù),對特征進(jìn)行加權(quán)求和
(7)
GAT中還加入了多頭注意力機(jī)制,將經(jīng)過K頭注意力機(jī)制計算后的特征向量進(jìn)行拼接,對應(yīng)的輸出特征向量表達(dá)為
(8)
(9)
經(jīng)過GAT計算后的向量記作Hgat∈Rc×d,其中:c表示標(biāo)簽數(shù)量;d表示標(biāo)簽的特征尺寸。
文本中每個單詞對于不同的標(biāo)簽起到的作用是不同的。為了強(qiáng)化標(biāo)簽之間的語義聯(lián)系,將標(biāo)簽語義信息與文本上下文語義信息進(jìn)行交互,獲得基于標(biāo)簽語義的文本特征表示,設(shè)計“文本-標(biāo)簽”注意力計算每個單詞的重要度,通過將文本特征H與標(biāo)簽特征向量Hgat進(jìn)行點乘計算獲得文本和標(biāo)簽之間的匹配得分A
(10)
文本內(nèi)容對不同標(biāo)簽的重要程度是不同的,為了建立文本和標(biāo)簽之間的關(guān)系,將上一層得到的A轉(zhuǎn)置乘以文本的隱表示,得到標(biāo)簽對應(yīng)的文本表示
(11)
M(s)和M(l)都是標(biāo)簽對應(yīng)的文檔表示,但是兩者的側(cè)重點不同。前者側(cè)重于文檔內(nèi)容,后者側(cè)重于標(biāo)簽內(nèi)容。為了充分利用這兩個部分的優(yōu)勢,使用自適應(yīng)融合機(jī)制,以自適應(yīng)地從中提取信息,并得到最終的文檔表示。
將M(s)和M(l)作為全連接層的輸入,通過全連接層獲得兩個權(quán)重向量β,γ來確定上述兩個注意力機(jī)制的重要性。
β=Sigmoid(M(s)W1)
γ=Sigmoid(M(l)W2)
(12)
其中:W1,W2∈R2k是可訓(xùn)練參數(shù);βj和γj分別表示多標(biāo)簽注意力機(jī)制和“文本-標(biāo)簽”注意力機(jī)制在對第j個標(biāo)簽構(gòu)建最終的文本表示時的重要程度
βj+γj=1
(13)
然后,根據(jù)融合權(quán)重獲得第j個標(biāo)簽的最終文本表示為
(14)
所有標(biāo)簽的最終文檔表示為M。
本文使用多層感知機(jī)實現(xiàn)標(biāo)簽預(yù)測,預(yù)測第i個標(biāo)簽出現(xiàn)的概率通過式(15)獲得
yx=W4f(W3MT)
(15)
其中:W3、W4是參數(shù)矩陣;函數(shù)f為RELU激活函數(shù)。
圖3 CorNet模型
(16)
F(x)=W6δ(W5σ(x)+b1)+b2
(17)
其中:W5、W6是權(quán)重矩陣;b1、b2是偏置;σ、δ分別是Sigmoid和ELU激活函數(shù)。
MLACN 使用二元交叉熵?fù)p失(binary cross entropy loss)[23]作為損失函數(shù)計算損失值如下
(18)
實驗采用AAPD、RCV1-V2和Reuters-21578多標(biāo)簽分類數(shù)據(jù)集。
AAPD[14]:該數(shù)據(jù)集為北京大學(xué)大數(shù)據(jù)研究院提供的公開英文數(shù)據(jù)集。數(shù)據(jù)集主要包括從網(wǎng)站上收集的55 840篇計算機(jī)科學(xué)領(lǐng)域論文摘要與相對應(yīng)的主題。一篇論文摘要可能包含多個主題,總計54個主題詞。
RCV1-V2[24]:該數(shù)據(jù)集是由 Lewis 等提供的公開英文數(shù)據(jù)集,由路透社有限公司為研究人員提供的800 000多條人工分類的新聞通訊報道組成。每篇新聞報道包含多個主題,總計103個主題。
Reuters-21578[25]:該數(shù)據(jù)集中的文件是1987年從路透社收集的。這曾經(jīng)是自1996年以來從事文本分類研究人員的熱門數(shù)據(jù)集。根據(jù)路透社22173預(yù)覽版改編,現(xiàn)在包含21 578份文檔。
模型評價指標(biāo)采用漢明損失(Hamming loss,記為HL)[26],精確率(precision,記為P),召回率(recall,記為R)和Micro-F1(記為F1)[27]。在這些指標(biāo)中,Hamming Loss反映了分類錯誤的標(biāo)簽數(shù)目,該指標(biāo)值越小,則分類性能越好;精確率用來統(tǒng)計預(yù)測標(biāo)簽集中預(yù)測正確的標(biāo)簽所占比例,值越大說明分類性能越好;召回率表示樣本真實標(biāo)簽集中被預(yù)測到的標(biāo)簽的比例;Micro-F1值表示精確率和召回率的加權(quán)平均,該指標(biāo)值越大,則分類性能越好。
為了充分驗證提出算法的有效性,選擇以下8種算法作為對比算法。
BR[5]:該算法提出將多標(biāo)簽分類任務(wù)轉(zhuǎn)換為多個二進(jìn)制分類任務(wù)。
CC[6]:基于一系列二進(jìn)制分類任務(wù)來解決多標(biāo)簽分類任務(wù)。
CNN[10]:主要利用卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)密集的特征矩陣以捕獲文本局部語義信息。
CNN-RNN[11]:使用CNN和RNN獲得局部和全局語義,并對標(biāo)簽之間的關(guān)系進(jìn)行建模。
SGM[14]:一種將多標(biāo)簽分類任務(wù)視為序列生成任務(wù)的模型,并將Seq2seq用作多類分類器。
LSAN[16]:利用標(biāo)簽注意力機(jī)制建立特定于標(biāo)簽的文本信息,同時使用自適應(yīng)融合機(jī)制將標(biāo)簽信息與文本信息融合。
AttentionXML[15]:利用多標(biāo)簽注意力機(jī)制捕獲每個標(biāo)簽最相關(guān)的文本。
ML-Reasoner[28]:該模型使用二元分類器預(yù)測標(biāo)簽,同時提出一種迭代推理機(jī)制學(xué)習(xí)標(biāo)簽之間的信息來避免過度依賴標(biāo)簽順序。
使用Glove[29]預(yù)訓(xùn)練詞向量對每個數(shù)據(jù)集的文本和標(biāo)簽進(jìn)行初始化,詞嵌入維度k=300。批處理大小為64,整個模型使用Adam[30]進(jìn)行訓(xùn)練,初始學(xué)習(xí)率為0.001,設(shè)置Dropout為0.5來防止過擬合。為了避免梯度爆炸,將模型最大梯度設(shè)置為5.0。在AAPD和Reuters-21578兩個數(shù)據(jù)集上設(shè)置GAT層數(shù)為2,圖注意力頭數(shù)為4;在RCV1-V2數(shù)據(jù)集上設(shè)置GAT層數(shù)為3,圖注意力頭數(shù)為4。CorNet層數(shù)設(shè)置為2。
MLACN模型在3個數(shù)據(jù)集上和其他基準(zhǔn)算法評價指標(biāo)得分情況見表1~表3,最優(yōu)結(jié)果用粗體表示。其中HL表示漢明損失,P和R分別表示 precision和recall,(-)表示值越低模型效果越好,(+)表示值越高模型效果越好。標(biāo)有*的模型表示其結(jié)果為復(fù)現(xiàn)后的結(jié)果,未標(biāo)記的模型直接引用論文的結(jié)果。
表1 在數(shù)據(jù)集AAPD上的對比結(jié)果
表2 在數(shù)據(jù)集RCV1-V2上的對比結(jié)果
表3 在數(shù)據(jù)集Reuters-21578上的對比結(jié)果
從實驗結(jié)果可以看出,本文提出的模型在更具挑戰(zhàn)性的AAPD數(shù)據(jù)集上的性能顯著優(yōu)于所有基線模型。特別是在Hamming Loss以及Micro-F1兩個指標(biāo)上取得了最好的性能。MLACN模型與最常見的基準(zhǔn)模型BR比較可以減少30.7%的Hamming Loss,提升13.9%的Micro-F1值。提出的模型性能遠(yuǎn)超過CNN、CNN-RNN這些傳統(tǒng)的深度學(xué)習(xí)模型。同時,MLACN模型在4個性能指標(biāo)上都超過了LSAN模型。與最近的ML-Reasoner模型相比減少11.7%的損失,同時取得了最好的F1值。隨著數(shù)據(jù)集大小的增加,在RCV1-V2數(shù)據(jù)集上不同模型之間的性能差異會減小,然而與其他基本模型相比,MLACN模型的性能仍然有明顯改善。 在Reuters-21578數(shù)據(jù)集上的表現(xiàn)與RCV1-V2數(shù)據(jù)集類似,提出的模型在Hamming Loss和F1評價指標(biāo)上優(yōu)于其他基準(zhǔn)模型。MLACN模型在Micro-F1指標(biāo)上獲得了最好的性能,同時在其他指標(biāo)的性能上均與最先進(jìn)的模型性能相近。 這些實驗結(jié)果進(jìn)一步驗證了MLACN模型在數(shù)據(jù)集上表現(xiàn)的優(yōu)越性。
基于深度學(xué)習(xí)的模型在大多數(shù)指標(biāo)上都優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法,這是因為基于深度學(xué)習(xí)的模型能充分利用訓(xùn)練集捕獲更深層次的語義信息,從而更好地處理復(fù)雜數(shù)據(jù)。傳統(tǒng)CNN方法在精確率上具有一定的競爭力,在AAPD和RCV1-V2數(shù)據(jù)集上領(lǐng)先于目前所有的基線模型,是由于傳統(tǒng)的CNN模型非常適合提取局部特征。 CNN模型中的最大池化層會放大局部特征,使得基于CNN的分類通常依賴于明顯的特征。當(dāng)正樣本多于負(fù)樣本時,CNN更傾向于生成有利于正樣本的特征,導(dǎo)致CNN分類中預(yù)測結(jié)果偏向正樣本,由召回率較低可以看出這個特點。CNN-RNN模型使用CNN和RNN獲得局部和全局語義,并對標(biāo)簽之間的關(guān)系進(jìn)行建模,在數(shù)據(jù)集上的效果與CNN模型相比有所提升。 LSAN和MLACN模型相比于其他模型較好,原因在于其他模型均沒有單獨的將文本標(biāo)注的標(biāo)簽信息考慮進(jìn)去,盡管SGM與AttentionXML試圖建立文本與標(biāo)簽之間的聯(lián)系,但僅僅局限于對文本內(nèi)容的訓(xùn)練與學(xué)習(xí),會降低尾部標(biāo)簽的預(yù)測能力。MLACN模型相比于LSAN有著進(jìn)一步的提升,是因為一方面,通過Bi-LSTM和多標(biāo)簽注意力機(jī)制對文本特征信息進(jìn)行提取;另一方面,標(biāo)簽之間的聯(lián)系不再局限于特定文本的語義聯(lián)系,而是通過多層 GAT 和CorNet充分挖掘全局標(biāo)簽之間的聯(lián)系以及關(guān)聯(lián)程度。從整體上看,信息的融合與標(biāo)簽的關(guān)聯(lián)有著更為緊密的聯(lián)系,MLACN模型有效提取文本特征信息的同時,也能學(xué)習(xí)標(biāo)簽之間的聯(lián)系,進(jìn)一步體現(xiàn)了模型的優(yōu)越性。
為了驗證帶有不同層數(shù)的GAT對模型性能的影響,在AAPD、RCV1-V2和Reuters-21578數(shù)據(jù)集上進(jìn)行實驗,結(jié)果分別如圖4~圖6所示。實驗結(jié)果表明,在AAPD和Reuters-21578兩個數(shù)據(jù)集上,兩層GAT的效果最好,并且多標(biāo)簽分類模型的性能隨著GAT層數(shù)的增長而降低。在RCV1-V2數(shù)據(jù)集上,當(dāng)GAT層數(shù)為3時模型分類效果最好,且有隨著層數(shù)加深逐漸降低的趨勢??赡艿脑蚴?,標(biāo)簽關(guān)系圖節(jié)點的周圍前3層節(jié)點的信息可能對最終的分類做更多的貢獻(xiàn),而隨著層數(shù)的增加,其外圍的節(jié)點信息可能會產(chǎn)生噪聲,干擾模型的分類效果。RCV1-V2比其他兩個數(shù)據(jù)集更大,因此需要更深層次的GAT提取標(biāo)簽之間的依賴關(guān)系。
圖4 不同GAT層數(shù)的MLACN模型在AAPD數(shù)據(jù)集上的對比結(jié)果
圖5 不同GAT層數(shù)的MLACN模型在RCV1-V2數(shù)據(jù)集上的對比結(jié)果
圖6 不同GAT層數(shù)的MLACN模型在Reuters-21578數(shù)據(jù)集上的對比結(jié)果
為了進(jìn)一步驗證模型各組件的有效性,本文在3個數(shù)據(jù)集上進(jìn)行了3組消融實驗,實驗結(jié)果如表4~表6所示。
表4 AAPD消融實驗結(jié)果
表5 RCV1-V2消融實驗結(jié)果
表6 Reuters-21578消融實驗結(jié)果
1)Without CorNet表示沒有使用CorNet模塊,僅通過GAT獲取標(biāo)簽之間的依賴關(guān)系;
2)Without GAT表示沒有使用GAT模型,僅通過CorNet模塊增強(qiáng)標(biāo)簽預(yù)測捕獲標(biāo)簽之間的依賴關(guān)系;
3)Without SL-ATT表示沒有使用“文本-標(biāo)簽”注意力機(jī)制,沒有將文本和標(biāo)簽語義進(jìn)行交互。
在3個數(shù)據(jù)集上的消融實驗結(jié)果顯示,Without CorNet模型和Without GAT模型與MLACN模型相比F1值均有所降低,表明CorNet模塊和GAT可以捕獲標(biāo)簽的依賴關(guān)系, 提升模型分類效果。在AAPD和Reuters-21578數(shù)據(jù)集上,Without SL-ATT模型與MLACN模型相比F1值分別降低了1.4%和0.3%,表明“文本-標(biāo)簽”注意力機(jī)制對提升模型性能是有利的,可以對文本和標(biāo)簽語義進(jìn)行交互,更好地提取文本和標(biāo)簽語義。而在RCV1-V2數(shù)據(jù)集上,Without SL-ATT模型與MLACN模型相比結(jié)果相差不大,原因可能是RCV1-V2數(shù)據(jù)集較大,文本和標(biāo)簽信息比較豐富,僅僅通過點乘運算的方法使得文本和標(biāo)簽進(jìn)行交互效果甚微,需要設(shè)計更深層次的交互機(jī)制進(jìn)一步提取文本和標(biāo)簽信息。
從整體消融實驗結(jié)果來看,MLACN模型能夠有效地融合各個組件的優(yōu)勢,提升模型整體效果。
本文提出了一種融合注意力與CorNet的多標(biāo)簽文本分類模型MLACN。模型利用多層圖注意力網(wǎng)絡(luò)(GAT)通過標(biāo)簽特征和標(biāo)簽的鄰接矩陣構(gòu)建標(biāo)簽關(guān)聯(lián)圖,學(xué)習(xí)標(biāo)簽之間的依賴關(guān)系,并設(shè)計“文本-標(biāo)簽”注意力機(jī)制將標(biāo)簽信息與文本上下文語義信息進(jìn)行交互,獲得基于標(biāo)簽語義信息的文本特征表示,并在標(biāo)簽的預(yù)測層之后添加CorNet模塊學(xué)習(xí)標(biāo)簽的相關(guān)性增強(qiáng)標(biāo)簽預(yù)測。在3個標(biāo)準(zhǔn)多標(biāo)簽文本分類的數(shù)據(jù)集上得到的實驗結(jié)果表明,所提出的方法其性能優(yōu)于當(dāng)前先進(jìn)的多標(biāo)簽文本分類算法,驗證了MLACN模型的優(yōu)越性,同時,也驗證了引入圖注意力網(wǎng)絡(luò)和CorNet,建立具有文本語義聯(lián)系的標(biāo)簽特征表示的有效性與合理性。
在接下來的工作中,將考慮如何處理大規(guī)模標(biāo)簽數(shù)據(jù)集的多標(biāo)簽分類問題,從更深層次挖掘語義聯(lián)系。同時,調(diào)整模型參數(shù)進(jìn)一步優(yōu)化模型,降低訓(xùn)練的時間復(fù)雜度,從而高效、準(zhǔn)確地預(yù)測標(biāo)簽。