田小瑜,秦永彬*,黃瑞章,陳艷平
(1.貴州大學(xué) 公共大數(shù)據(jù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽(yáng) 550025;2.貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽(yáng) 550025)
在傳統(tǒng)的文本分類(lèi)中,每個(gè)文本實(shí)例只與一個(gè)類(lèi)別相關(guān)聯(lián),而隨著大數(shù)據(jù)時(shí)代的到來(lái),現(xiàn)實(shí)世界中的文本實(shí)例可能包含復(fù)雜且多樣的語(yǔ)義信息,然而傳統(tǒng)的分類(lèi)方法已不能解決現(xiàn)有的問(wèn)題。與傳統(tǒng)的文本分類(lèi)任務(wù)相比,多標(biāo)簽文本分類(lèi)需要對(duì)文本有更深入的理解,進(jìn)而全面地從文本中提取出與標(biāo)簽相關(guān)的信息來(lái)實(shí)現(xiàn)精準(zhǔn)分類(lèi)。此外,有效的多標(biāo)簽文本分類(lèi)算法可以支持其廣泛的下游任務(wù),如信息檢索、推薦系統(tǒng)、情感分析等。因此,多標(biāo)簽文本分類(lèi)引起了業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。
到目前為止,研究者們提出了大量的多標(biāo)簽文本分類(lèi)算法并都取得了不同程度的成功,它們大致可以分為三類(lèi):?jiǎn)栴}轉(zhuǎn)化方法[1-3]、算法適應(yīng)方法[4-5]和深度學(xué)習(xí)方法。由于深度學(xué)習(xí)具有較強(qiáng)的特征提取能力,研究人員基于深度學(xué)習(xí)對(duì)多標(biāo)簽文本分類(lèi)方法進(jìn)行了大量的研究。具有代表性的深度學(xué)習(xí)的方法有CNN[6-8]、RNN[9-11]和注意力機(jī)制[12]等,它們都在文本特征表示方面取得了巨大的成功。然而,它們中的大多數(shù)都只關(guān)注文本的特征表示,而沒(méi)有顯式地在文本和標(biāo)簽之間建立連接。這相當(dāng)于讓所有標(biāo)簽共享相同的特征空間,并沒(méi)有針對(duì)性地為每個(gè)標(biāo)簽提取出與其關(guān)聯(lián)的辨別信息,進(jìn)而使得模型的性能受到限制。為了克服這一缺陷,有些模型[13-14]基于序列到序列的方法來(lái)提高模型性能,在一定程度上考慮了文本與標(biāo)簽的特征關(guān)聯(lián)和標(biāo)簽之間的相關(guān)性,但依然沒(méi)有從根本上解決問(wèn)題。近幾年來(lái),為了從文本特征中提取與標(biāo)簽相關(guān)的鑒別信息,研究者們主要利用標(biāo)簽文本或標(biāo)簽描述中的標(biāo)簽語(yǔ)義信息從文檔中獲取標(biāo)簽特定的文本表示進(jìn)而提升模型的分類(lèi)性能[15-18]。雖然它們?cè)谀承┣闆r下獲得了很好的結(jié)果,但它們只是專(zhuān)注于從實(shí)例特征空間向標(biāo)簽空間的單向映射來(lái)學(xué)習(xí)標(biāo)簽特定的文本表示,因此只考慮標(biāo)簽和文本實(shí)例之間的簡(jiǎn)單關(guān)聯(lián)且仍具有提升空間。
如上所述,現(xiàn)有的方法仍然無(wú)法充分且有效地利用標(biāo)簽和文檔之間潛在的相關(guān)關(guān)系,繼而在提取文本中與標(biāo)簽關(guān)聯(lián)的鑒別信息上仍有不足之處。隨著運(yùn)用在問(wèn)答任務(wù)上的動(dòng)態(tài)共同注意網(wǎng)絡(luò)的成功,它首次融合了問(wèn)題和文本內(nèi)容的相互依賴(lài)表示,以關(guān)注兩者的相關(guān)部分[19-20]?;诖耍疚脑贛CAN 框架[21]基礎(chǔ)上提出深度模塊化的標(biāo)簽注意網(wǎng)絡(luò),以克服現(xiàn)有標(biāo)簽特定文本特征學(xué)習(xí)方法的弱點(diǎn)。在網(wǎng)絡(luò)構(gòu)建過(guò)程中,本文設(shè)計(jì)了兩個(gè)注意力單元:雙向標(biāo)簽注意單元和自我注意單元。對(duì)于雙向標(biāo)簽注意單元,一個(gè)方向是從文本到標(biāo)簽,可以獲得每個(gè)文本的標(biāo)簽特定表示;另一個(gè)方向是從標(biāo)簽到文本,可以過(guò)濾與標(biāo)簽無(wú)關(guān)的噪聲信息,生成干凈的文本特征表示。對(duì)于自我注意單元,它可以用來(lái)增強(qiáng)文本特征。然后,通過(guò)雙向標(biāo)簽注意單元和自我注意單元的模塊化組合,得到了可以進(jìn)行深度級(jí)聯(lián)的模塊化標(biāo)簽注意網(wǎng)絡(luò)層(MLA)。此外,現(xiàn)有的模型往往只從標(biāo)簽文本或標(biāo)簽描述中獲取標(biāo)簽的語(yǔ)義表達(dá),就像單詞嵌入一樣。但在大多數(shù)數(shù)據(jù)集中,標(biāo)簽的描述信息極少甚至只是一個(gè)單詞,這顯然是不夠的。因此,本文采用學(xué)習(xí)向量化從文本實(shí)例中學(xué)習(xí)豐富的標(biāo)簽表示。文章的主要貢獻(xiàn)如下:
(1)通過(guò)考慮文本和標(biāo)簽之間的雙向映射,提出了一種深度模塊化的標(biāo)簽注意網(wǎng)絡(luò)來(lái)處理多標(biāo)簽文本分類(lèi)。
(2)采用學(xué)習(xí)向量化來(lái)構(gòu)建更加豐富的標(biāo)簽語(yǔ)義表示。
(3)在三個(gè)常用的基準(zhǔn)數(shù)據(jù)集上,運(yùn)用多個(gè)評(píng)價(jià)指標(biāo)對(duì)深度模塊化雙向標(biāo)簽注意力的性能進(jìn)行了深入的比較和分析。
文本語(yǔ)義表示是多標(biāo)簽文本分類(lèi)的第一步,對(duì)多標(biāo)簽分類(lèi)器的性能有重要影響。隨著深度學(xué)習(xí)的成功,一些研究者傾向于從原始文本中提取特征來(lái)區(qū)分所有的標(biāo)簽。而一些研究者假設(shè)每個(gè)標(biāo)簽都有自己的鑒別特征,這些特征會(huì)表現(xiàn)在帶有該標(biāo)簽的文本中,他們?cè)O(shè)計(jì)了一些策略來(lái)獲取文本中關(guān)于標(biāo)簽的辨別信息且獲得了較理想的表現(xiàn)。下面詳細(xì)總結(jié)了獲取文本特征表示和標(biāo)簽特定文本特征表示的方法。此外,還有一些關(guān)于標(biāo)簽語(yǔ)義表示的方法。
對(duì)于文本語(yǔ)義表示,研究者提出了一些基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型[6-8],這些方法可以通過(guò)共享卷積核自動(dòng)提取需要的特征。盡管在一定程度上取得了成功,但由于受到卷積核大小的限制,使得局部和整體之間的語(yǔ)義關(guān)聯(lián)被忽略,大量有價(jià)值的信息在池化層中丟失。為了克服這些缺點(diǎn),研究者們利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)并得到了出色的結(jié)果,此類(lèi)方法可以確定文本的長(zhǎng)距離依賴(lài)關(guān)系[9-10]。此外,Lin 等[11]假設(shè)對(duì)于文本分類(lèi),人類(lèi)不會(huì)只是簡(jiǎn)單地基于單詞級(jí)別的信息而分配文本標(biāo)簽,而是通?;谒麄儗?duì)源文本中顯著意義的理解,例如一些詞組。因此,他們?cè)O(shè)計(jì)了擴(kuò)張卷積(MDC),在支持接受域的指數(shù)擴(kuò)展的同時(shí)不損失局部信息,以產(chǎn)生更高層次的文本語(yǔ)義單元表示。Peng 等結(jié)合RNN 和CNN,分別使用雙向RNN 捕捉上下文信息和CNN 捕捉關(guān)鍵字[22-23]。
為了獲得特定于標(biāo)簽的文檔表示,需要建立文本和標(biāo)簽之間的語(yǔ)義連接。對(duì)于這類(lèi)方法,研究者們假設(shè)每個(gè)標(biāo)簽都有其對(duì)應(yīng)的語(yǔ)義表示,進(jìn)而可以明確地告訴模型要分類(lèi)什么,并從文本中挖掘出與標(biāo)簽相關(guān)的部分來(lái)進(jìn)行精準(zhǔn)分類(lèi)。Xiao 等提出了標(biāo)簽特定注意網(wǎng)絡(luò)(LSAN)來(lái)學(xué)習(xí)新的文本表示,并將其與自我注意相結(jié)合構(gòu)建標(biāo)簽特定的文本表示[16]。Liu等假設(shè)細(xì)粒度的標(biāo)記級(jí)文本表示和標(biāo)簽嵌入有助于分類(lèi),提出了一個(gè)標(biāo)簽嵌入的雙向注意模型,以提高BERT 文本分類(lèi)框架的性能[18]。Guo 等認(rèn)為文本的每個(gè)部分對(duì)標(biāo)簽推理的貢獻(xiàn)不同,因此雙向注意流被用于兩個(gè)方向上的標(biāo)簽感知文本表示:從文本到標(biāo)簽和從標(biāo)簽到文本[24]。盡管這些工作在多標(biāo)簽分類(lèi)領(lǐng)域取得了進(jìn)展,但仍有改進(jìn)的空間。
為了獲取到標(biāo)簽的語(yǔ)義表示,可以通過(guò)利用標(biāo)簽結(jié)構(gòu)或者標(biāo)簽文本或描述嵌入編碼為向量來(lái)作為標(biāo)簽語(yǔ)義表示[15-18]。Chai 等利用強(qiáng)化學(xué)習(xí)中的抽象/抽取模型獲得標(biāo)簽描述進(jìn)而得到標(biāo)簽的語(yǔ)義表示[25]。Guo 等利用單詞和標(biāo)簽共現(xiàn)關(guān)系構(gòu)建一個(gè)異構(gòu)圖,然后通過(guò)metapath2vec 學(xué)習(xí)標(biāo)簽表示[24]。這些方法包括一些文本語(yǔ)義信息挖掘方法[26-27],雖然表現(xiàn)良好,但仍然無(wú)法獲取到充分的標(biāo)簽語(yǔ)義信息。
在大多數(shù)多標(biāo)簽文本分類(lèi)數(shù)據(jù)集中,并沒(méi)有針對(duì)標(biāo)簽進(jìn)行具體的描述,大多只是一個(gè)標(biāo)簽詞,并不能提供足夠的標(biāo)簽語(yǔ)義信息,這會(huì)影響模型后續(xù)訓(xùn)練的效果。為了獲取到豐富的標(biāo)簽語(yǔ)義表示,我們以學(xué)習(xí)向量化的方式從標(biāo)記的樣例文本中學(xué)習(xí)標(biāo)簽的語(yǔ)義表示C∈Rl×k。首先,我們從帶有標(biāo)簽i的樣本中隨機(jī)選擇一個(gè)樣本的語(yǔ)義表示作為標(biāo)簽i的初始語(yǔ)義表示Ci,然后通過(guò)使用與標(biāo)簽距離最近的樣本表示Pj更新Ci,如果樣列j帶有標(biāo)簽i,那么更新標(biāo)簽表示的方式如下所示:
如果樣例j不帶有標(biāo)簽i,那么更新方式如下:
其中樣例與標(biāo)簽之間的距離計(jì)算公式如下:
根據(jù)以上的跟新方法,重復(fù)迭代多次,直到達(dá)到最大迭代次數(shù),學(xué)習(xí)得到標(biāo)簽的語(yǔ)義表示C={C1,C2,…,Cl}∈Rl×k。
如圖1 所示,為了處理文本和標(biāo)簽的輸入特征,在標(biāo)簽注意網(wǎng)絡(luò)層構(gòu)建了兩個(gè)注意單元,最終輸出為特定于標(biāo)簽的文本特征,并將其用于分類(lèi)。這兩個(gè)注意單元分別為雙向標(biāo)簽注意單元和自我注意單元。
圖1 標(biāo)簽注意網(wǎng)絡(luò)(SA是自我注意機(jī)制的英文縮寫(xiě))Fig.1 Label attention network(SA denotes Self-Attention Mechanism)
對(duì)于雙向標(biāo)簽注意單元,我們利用文本特征和標(biāo)簽語(yǔ)義表示的相互作用,基于注意力機(jī)制從標(biāo)簽到文本和文本到標(biāo)簽的方向來(lái)結(jié)合這兩種表示。雙向標(biāo)簽注意單元的輸入是文本特征表示xi={w1,w2,…,wn}∈Rn×k和標(biāo)簽語(yǔ)義表示C={C1,C2,…,Cl}∈Rl×k。為了建立文本和標(biāo)簽之間的聯(lián)系,首先需要計(jì)算兩者的相似度矩陣,計(jì)算公式如下所示:
其中Sij是指文本中第i個(gè)單詞和第j個(gè)標(biāo)簽的相似度。雙向標(biāo)簽注意單元依賴(lài)相似度矩陣S,將其按行歸一化為文本中的每個(gè)單詞在標(biāo)簽中產(chǎn)生的關(guān)注權(quán)重AT2C=soft max(S);將其按列歸一化為每個(gè)標(biāo)簽在整個(gè)文本中產(chǎn)生的關(guān)注權(quán)重AC2T=soft max(ST)。標(biāo)簽到文本方向的注意機(jī)制是只關(guān)注文本中與標(biāo)簽相關(guān)的信息。因此,我們首先在標(biāo)簽到文本的方向通過(guò)公式(5)計(jì)算得到一個(gè)新的文本表示。通過(guò)這種方式,我們可以過(guò)濾掉原始文本表示中與標(biāo)簽無(wú)關(guān)的噪音信息,使文本中的標(biāo)簽特征更加明顯。
文本到標(biāo)簽方向的注意力可以挖掘出文本中特定于每個(gè)標(biāo)簽的語(yǔ)義信息。因此,我們利用(5)中得出的新文本表示基于文本到標(biāo)簽方向的注意力機(jī)制計(jì)算得出特定于標(biāo)簽的文本表示,公式如下所示:
在雙標(biāo)簽注意單元的基礎(chǔ)上,為了更加充分捕獲文本的多標(biāo)簽語(yǔ)義,本文還使用了只關(guān)注文本特征表示的自注意機(jī)制(SA),計(jì)算得出來(lái)補(bǔ)充可能在雙向標(biāo)簽注意單元中被忽略的掉的一些特征,公式如下所示:
其中W1∈Rda×k且W2∈Rda×l。最后我們通過(guò)水平連接向量和得到第i篇文本綜合的特定于標(biāo)簽的文本表示Ti∈Rl×k,這是標(biāo)簽和文檔的雙向依賴(lài)表示。
本文將圖1 所示的標(biāo)簽注意網(wǎng)絡(luò)組合得到模塊化的標(biāo)簽注意網(wǎng)絡(luò)(如圖2(左)所示)用于處理多標(biāo)簽分類(lèi)的標(biāo)簽和文本特征,然后將其進(jìn)行深度級(jí)聯(lián),使上一個(gè)標(biāo)簽注意層的輸出直接饋入下一個(gè)標(biāo)簽注意層(如圖2(右)所示)。以前面提到的文本表示xi和標(biāo)簽語(yǔ)義表示C作為輸入,即xi_0=xi,C_0=C,本文利用m層標(biāo)簽注意網(wǎng)絡(luò)級(jí)聯(lián)得到深度模塊化標(biāo)簽注意網(wǎng)絡(luò)。MLAi表示第i層標(biāo)簽注意網(wǎng)絡(luò),其輸入為第i-1 層的輸出,表示形式分別為xi_(i-1)和C_(i-1)。輸出用xi_i和C_i表示,與xi_i隨m變化不同,C_i是不變的,即C_m=C_(m-1)=…C_0,具體的計(jì)算過(guò)程如下所示:
圖2 深度模塊化標(biāo)簽注意網(wǎng)絡(luò)Fig.2 Deep modular label attention network
(xi_m,C_m)=MLAm(xi_m-1,C_m-1),(8)其中xi_m∈Rl×k是最終的特定于標(biāo)簽的文本表示。
最后,本文利用特定于標(biāo)簽的文本表示來(lái)預(yù)測(cè)每個(gè)標(biāo)簽的概率。模型采用帶有非共享參數(shù)的l個(gè)分類(lèi)函數(shù){f0,f1,…,f(l-1)},其中fj以xi_m的第j行作為輸入,即第i個(gè)文本特定于標(biāo)簽j的語(yǔ)義特征表示,輸出為第i個(gè)文本關(guān)于標(biāo)簽j的預(yù)測(cè)概率。對(duì)所有標(biāo)簽執(zhí)行這個(gè)過(guò)程,得到第i個(gè)文本關(guān)于所有標(biāo)簽的預(yù)測(cè)分?jǐn)?shù)Si={Si0,Si1,…,Sil}。
然后再通過(guò)sigmoid 激活函數(shù)得到第i個(gè)文本 關(guān) 于 所 有 標(biāo) 簽 的 預(yù) 測(cè) 概 率Pi={Pi0,Pi1,…,Pil}。為了優(yōu)化分類(lèi)器,本文采用交叉熵?fù)p失函數(shù)作為目標(biāo)損失函數(shù),其詳細(xì)的計(jì)算公式如下:
(1) Reuters Corpus Volume I(RCV1)
這個(gè)數(shù)據(jù)集來(lái)自路透社的80 多萬(wàn)篇人工標(biāo)記的新聞文本組成,其中每篇新聞都包含多個(gè)主題標(biāo)簽,標(biāo)簽總數(shù)為103 個(gè)。對(duì)于每篇文本,它都與多個(gè)主題標(biāo)簽相關(guān)聯(lián)。
(2) Arvix Academic Paper Dataset(AAPD)
這個(gè)數(shù)據(jù)集是從Arvix 的網(wǎng)站上收集和整理的關(guān)于計(jì)算機(jī)科學(xué)領(lǐng)域的論文摘要,總共包括55 840 篇,每一篇摘要被分配多個(gè)學(xué)科標(biāo)簽,標(biāo)簽總數(shù)為54。
(3) European Union Law Document(EURLex)
該數(shù)據(jù)集是與3956 個(gè)主題相關(guān)的歐盟法律文件。在公共版本3 中有11 585 個(gè)訓(xùn)練實(shí)例和3865 個(gè)測(cè)試實(shí)例。
本文在三個(gè)公共數(shù)據(jù)集上驗(yàn)證了我們提出的模型的性能,這些數(shù)據(jù)集的劃分細(xì)節(jié)如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)Table 1 Summary of experimental datasets
為了驗(yàn)證我們模型的有效性,本文從現(xiàn)有的方法中選擇了六個(gè)代表性的模型作為基線(xiàn)。他們分別是XML-CNN[7]、DXML[28]、SGM[13]、Attention-XML[29]、EXAM[15]、LSAN[16]。
XML-CNN:該模型的主要思想是利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)的動(dòng)態(tài)池化技術(shù),結(jié)合CNN的優(yōu)點(diǎn)從原始文本中提取更高級(jí)的語(yǔ)義信息,用于多標(biāo)簽文本分類(lèi)。
DXML:它在特征空間和標(biāo)簽空間建立非線(xiàn)性嵌入,改進(jìn)了傳統(tǒng)的基于深度學(xué)習(xí)的框架,首次利用標(biāo)簽圖結(jié)構(gòu)通過(guò)深度游走的方式嵌入標(biāo)簽。
SGM:該方法將多標(biāo)簽文本分類(lèi)視為序列生成問(wèn)題,考慮到標(biāo)簽之間的相關(guān)性,利用序列生成模型將輸入文檔轉(zhuǎn)換為輸出標(biāo)簽作為多標(biāo)簽文本分類(lèi)器。
Attention-XML:設(shè)計(jì)了一個(gè)以文本語(yǔ)義表示作為輸入的多標(biāo)簽注意網(wǎng)絡(luò),確定每個(gè)標(biāo)簽的相關(guān)組件,然后用一個(gè)淺寬的概率標(biāo)簽樹(shù)來(lái)處理標(biāo)簽,尤其是“尾標(biāo)簽”。
EXAM:將標(biāo)簽編碼為一個(gè)可訓(xùn)練矩陣,其中每行是每個(gè)標(biāo)簽的表示,然后利用交互層構(gòu)建文檔和標(biāo)簽之間的連接來(lái)獲得交互特征。最后,基于交互特性設(shè)計(jì)一個(gè)聚合層來(lái)計(jì)算對(duì)數(shù)。
LSAN:利用標(biāo)簽語(yǔ)義信息確定標(biāo)簽與文檔之間的語(yǔ)義聯(lián)系,構(gòu)建標(biāo)簽特定的文檔表示。同時(shí),采用自注意機(jī)制從文檔內(nèi)容信息中識(shí)別特定于標(biāo)簽的文檔表示。最后將兩者融合在一起進(jìn)行分類(lèi)。
本文使用兩種度量方式來(lái)驗(yàn)證模型的效果,這兩種度量分別是排名第k處的精度(P@k)和排名第k處精度的歸一化折現(xiàn)累積收益(nDCG@k)。P@k定義為只考慮每個(gè)預(yù)測(cè)類(lèi)別的前k個(gè)元素的正確預(yù)測(cè)次數(shù)除以每個(gè)預(yù)測(cè)類(lèi)別的前k個(gè)元素。nDCG@k將每個(gè)測(cè)試實(shí)例的預(yù)測(cè)分?jǐn)?shù)標(biāo)準(zhǔn)化。根據(jù)分類(lèi)器預(yù)測(cè)的標(biāo)簽概率P∈Rl和真實(shí)地面標(biāo)簽y∈{0,1}l,我們將計(jì)算P@k和nDCG@k,具體計(jì)算過(guò)程如下所示:
其中rankk(P)為當(dāng)前預(yù)測(cè)結(jié)果得分最高的前個(gè)標(biāo)簽索引。計(jì)算真實(shí)標(biāo)簽向量y中相關(guān)標(biāo)簽的數(shù)量。IDCG@k是DCG@k在理想情況下的最大值。
對(duì)于這三個(gè)數(shù)據(jù)集,本文設(shè)置文檔的最大長(zhǎng)度為500,對(duì)于標(biāo)簽表示和文檔表示,特征維度k為300。此外,我們根據(jù)數(shù)據(jù)集的特點(diǎn)來(lái)設(shè)置標(biāo)簽注意網(wǎng)絡(luò)層的層數(shù),具體見(jiàn)實(shí)驗(yàn)分析部分。整個(gè)網(wǎng)絡(luò)通過(guò)Adam 進(jìn)行訓(xùn)練,學(xué)習(xí)率為0.001。由于EUR-Lex 數(shù)據(jù)集標(biāo)簽總數(shù)巨大,故用200 次迭代次數(shù)訓(xùn)練模型,其他數(shù)據(jù)集均用20 次迭代次數(shù)訓(xùn)練。
如表2—表3 所示,我們分別基于P@k和nDCG@k評(píng)價(jià)指標(biāo)驗(yàn)證本文模型較現(xiàn)有模型的性能優(yōu)勢(shì),其中每行用粗體標(biāo)記出最佳結(jié)果。不難發(fā)現(xiàn),本文提出的方法在RCV1 和EURLex 數(shù)據(jù)集上大多數(shù)指標(biāo)都取得了較好的效果。主要有兩個(gè)原因,一是我們不僅考慮從文本到標(biāo)簽的表示,而且還考慮了從標(biāo)簽到文本的表示。二是利用學(xué)習(xí)向量量化的方法從實(shí)例中學(xué)習(xí)每個(gè)標(biāo)簽的表示語(yǔ)義表示,可以針對(duì)數(shù)據(jù)集文本的特點(diǎn)捕獲更豐富標(biāo)簽語(yǔ)義信息,而標(biāo)簽語(yǔ)義信息可以明確地指導(dǎo)模型分類(lèi),提高分類(lèi)效率。對(duì)于AAPD 數(shù)據(jù)集大部分指標(biāo)低于LSAN 的原因在于該數(shù)據(jù)集的標(biāo)簽總量以及文本平均標(biāo)簽量較其他兩個(gè)數(shù)據(jù)集少,在標(biāo)簽語(yǔ)義向文本語(yǔ)義映射時(shí)不能完全表達(dá)出文本語(yǔ)義,進(jìn)而影響后續(xù)表達(dá)效果。因此結(jié)合表1-3一起分析可以看出,標(biāo)簽總量和文本平均標(biāo)簽量越多,模型對(duì)分類(lèi)性能提升越大。Attention-XML 在RCV1 和AAPD 數(shù)據(jù)集上的表現(xiàn)優(yōu)于XML-CNN 和DXML 的情況說(shuō)明注意機(jī)制的重要作用。但該方法的主要缺點(diǎn)是只關(guān)注文本的語(yǔ)義表示,沒(méi)有直觀(guān)地建立標(biāo)簽和文本的語(yǔ)義連接,這就是我們的模型和LSAN 優(yōu)于Attention-XML 的原因。本文模型與LSAN 的主要區(qū)別在于標(biāo)簽呈現(xiàn)方式和標(biāo)簽與文本的語(yǔ)義關(guān)聯(lián)方式,因此本文模型能夠取得比其他深度學(xué)習(xí)模型更好的性能。值得一提的是,本文模型都是基于注意力機(jī)制改進(jìn),因此模型時(shí)間復(fù)雜度較低且效率較高,在設(shè)置的迭代次數(shù)內(nèi)是收斂的。
表2 在實(shí)驗(yàn)數(shù)據(jù)集(AAPD、RCV1、EUR-Lex)上關(guān)于指標(biāo)P@k (k=1,3,5)的對(duì)比結(jié)果Table 2 Comparison results on experimental datasets(AAPD, RCV1, EUR-Lex) in the term of P@k (k=1,3,5)
表3 在實(shí)驗(yàn)數(shù)據(jù)集(AAPD、RCV1、EUR-Lex)上關(guān)于指標(biāo)nDCG@k (k=3,5)的對(duì)比結(jié)果Table 3 Comparison results on experimental datasets(AAPD, RCV1, EUR-Lex) in the term of nDCG@k (k=3,5)
此外,為了進(jìn)一步觀(guān)察通過(guò)學(xué)習(xí)向量化得到的標(biāo)簽語(yǔ)義表示效果,本文為RCVI 數(shù)據(jù)集設(shè)置了兩種獲取標(biāo)簽語(yǔ)義表示的方式:標(biāo)簽詞嵌入和學(xué)習(xí)向量化,并將其對(duì)比結(jié)果列在表4中。結(jié)果表明,基于學(xué)習(xí)向量化方法得到的實(shí)驗(yàn)結(jié)果更好,說(shuō)明該方法可以從標(biāo)記樣本中學(xué)習(xí)到更豐富、更準(zhǔn)確的標(biāo)簽語(yǔ)義。
表4 在數(shù)據(jù)集RCV1上標(biāo)簽語(yǔ)義表示方法對(duì)比結(jié)果Table 4 Comparison results on RCV1 for the methods of label semantic presentation
為了進(jìn)一步驗(yàn)證雙向標(biāo)簽注意網(wǎng)絡(luò)的效果,本文在三個(gè)數(shù)據(jù)集上進(jìn)行了雙向標(biāo)簽注意網(wǎng)絡(luò)的消融實(shí)驗(yàn)。本文主要通過(guò)與單向標(biāo)簽注意對(duì)比分析來(lái)驗(yàn)證雙向標(biāo)簽注意網(wǎng)絡(luò)的有效性,所謂單向標(biāo)簽注意即只考慮將從文本到標(biāo)簽方向的映射繼而獲取特定于標(biāo)簽的文本表示,對(duì)比結(jié)果列于表5 和表6。從表5 和表6 中可以很容易地觀(guān)察到,本文提出的雙向注意方法在除了AAPD 的其他兩個(gè)數(shù)據(jù)集上的大多數(shù)指標(biāo)上都取得了較好的效果,這充分證明了本文方法可以更充分地捕獲文本中標(biāo)簽的相關(guān)信息,提高分類(lèi)器的性能。而針對(duì)AAPD 數(shù)據(jù)集,單向注意力的性能優(yōu)于雙向注意的原因是標(biāo)簽數(shù)量以及文本平均標(biāo)簽量較少,在標(biāo)簽的語(yǔ)義映射為文本語(yǔ)義時(shí)會(huì)有一定的語(yǔ)義缺失,進(jìn)而影響了模型效果。
表5 在實(shí)驗(yàn)數(shù)據(jù)集AAPD、RCV1、EUR-Lex上關(guān)于指標(biāo)P@k (k=1,3,5)的消融實(shí)驗(yàn)結(jié)果Table 5 Ablation test results on AAPD, RCV1 and EUR-Lex in the term of P@k (k=1,3,5)
表6 在實(shí)驗(yàn)數(shù)據(jù)集AAPD、RCV1、EUR-Lex上關(guān)于指標(biāo)nDCG@k(k=3,5)的消融實(shí)驗(yàn)結(jié)果Table 6 Ablation test results on AAPD, RCV1 and EUR-lex in the term of nDCG@k(k=3,5)
最后,為了進(jìn)一步觀(guān)察不同的雙向標(biāo)簽注意層對(duì)深度模塊化標(biāo)簽注意網(wǎng)絡(luò)的影響,設(shè)置深度不同的雙向標(biāo)簽注意網(wǎng)絡(luò)層,表7 表明在RCV1 和ERU-Lex 數(shù)據(jù)集上,雙向標(biāo)簽注意網(wǎng)絡(luò)的性能與其級(jí)聯(lián)的層數(shù)呈反比,而在AAPD數(shù)據(jù)集上,雙向標(biāo)簽注意層為2 的性能最好。由于數(shù)據(jù)集的不同,雙向標(biāo)簽注意層的數(shù)量是不同的,因此可以根據(jù)不同的數(shù)據(jù)集級(jí)聯(lián)不同的雙向標(biāo)簽注意層以獲得最優(yōu)的性能。
表7 在實(shí)驗(yàn)數(shù)據(jù)集AAPD、RCV1、EUR-Lex上標(biāo)簽網(wǎng)絡(luò)層數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響Table 7 Influence of the layer number of the label attention network on AAPD, RCV1, EUR-Lex datasets
本文提出了一種新穎的深度模塊化雙標(biāo)簽注意網(wǎng)絡(luò),該網(wǎng)絡(luò)由雙向標(biāo)簽注意層獲得特定于標(biāo)簽的文本表示,利用學(xué)習(xí)向量化從樣本實(shí)例中學(xué)習(xí)標(biāo)簽語(yǔ)義表示。大量實(shí)驗(yàn)表明模型在大多數(shù)指標(biāo)上都顯著且持續(xù)地優(yōu)于其他基線(xiàn)模型。未來(lái),在理論方面,我們將繼續(xù)優(yōu)化現(xiàn)有的方法,進(jìn)一步提高各個(gè)指標(biāo)的性能,例如,設(shè)計(jì)一種高效的集成方法,充分利用現(xiàn)有模型的優(yōu)勢(shì)。在實(shí)際應(yīng)用中,落實(shí)已有方法,創(chuàng)造實(shí)用價(jià)值。