摘 要:針對(duì)多標(biāo)簽文本分類算法忽視噪聲標(biāo)簽和缺乏真?zhèn)谓M合激勵(lì)導(dǎo)致模型魯棒性不強(qiáng)、分類效果不佳的問(wèn)題,提出了適用于短文本數(shù)據(jù)集的融合級(jí)聯(lián)BiLSTM和膠囊網(wǎng)絡(luò)的噪聲多標(biāo)簽文本分類算法(cascaded BiLSTM-capsule network for noisy multi-label text classification,CBCN)。該算法利用膠囊神經(jīng)網(wǎng)絡(luò)提取token間的空間語(yǔ)義特征,并采用多層級(jí)聯(lián)BiLSTM對(duì)輸入文本進(jìn)行多層次特征提取,使用噪聲樣本訓(xùn)練和增強(qiáng)訓(xùn)練來(lái)區(qū)分真實(shí)標(biāo)簽和噪聲標(biāo)簽,從而實(shí)現(xiàn)正確的多標(biāo)簽組合識(shí)別。實(shí)驗(yàn)結(jié)果表明:該算法在AAPD和RCV1-V2兩個(gè)公開(kāi)英文數(shù)據(jù)集上的準(zhǔn)確率達(dá)到了89.1%和91.1%,對(duì)解決噪聲多標(biāo)簽文本分類問(wèn)題,具有較強(qiáng)的魯棒性和泛化性能。
關(guān)鍵詞:文本分類;膠囊網(wǎng)絡(luò);噪聲多標(biāo)簽算法;級(jí)聯(lián)BiLSTM;魯棒性
DOI:10.15938/j.jhust.2024.06.003
中圖分類號(hào): TP391.1
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1007-2683(2024)06-0022-10
Multi-label Text Classification by Fusing Pseudo-label
Generation and Data Augmentation
WANG Shuitao1, ZHANG Sijia1,2,3, SUN Xufei1, YANG Jingjie1, BI Tiantian1, ZHANG Zhenglong1
(1.College of Information Engineering, Dalian Ocean University, Dalian 116023, China;
2.Key Laboratory of Environment Controlled Aquaculture (Dalian Ocean University), Ministry of Education, Dalian 116023, China;
3.Dalian Key Laboratory of Smart Fisheries, Dalian 116023, China)
Abstract:Aiming at the problem that the multi-label text classification algorithm ignores the noise label and lacks the combination incentive of true and 1, which leads to the weak robustness of the model and the poor classification effect, a cascaded BiLSTM-Capsule Network for Noisy Multi-Label Text Classification, CBCN, is proposed for short text datasets. The algorithm uses capsule neural network to extract spatial semantic features between tokens, and uses multi-layer cascaded BiLSTM to perform multi-level feature extraction from input text. It utilizes noise sample training and augmentation training to distinguish real labels from noise labels, thereby achieving correct multi-label combination recognition. The accuracy of the CBCN algorithm on the two public English data sets of AAPD and RCV1-V2 reaches 89.1% and 91.1%. This algorithm has strong robustness and generalization performance for solving noisy multi-label text classification problems.
Keywords:text classification; capsule network; noisy multi-label algorithm; cascaded BiLSTM; robustness
收稿日期: 2023-06-30
基金項(xiàng)目: 遼寧省教育廳高等學(xué)?;究蒲许?xiàng)目面上項(xiàng)目(LJKMZ20221095); 遼寧省教育科學(xué)“十四五”規(guī)劃課題(JG21DB076).
作者簡(jiǎn)介:
王水濤(1999—),男,碩士研究生;
孫旭菲(1999—),男,碩士研究生.
通信作者:
張思佳(1982—),女,博士,副教授,碩士研究生導(dǎo)師,E-mail:zhangsijia@dlou.edu.cn.
0 引 言
隨著互聯(lián)網(wǎng)的發(fā)展,文本數(shù)據(jù)急劇增加,這些數(shù)據(jù)提供了更多可用信息,但文本的非結(jié)構(gòu)化性質(zhì)也使得人們更難從中發(fā)現(xiàn)自己感興趣的信息。在自然語(yǔ)言處理(natural language processing, NLP)領(lǐng)域中,多標(biāo)簽文本分類(multi label text classification,MLTC)是一項(xiàng)至關(guān)重要的任務(wù)。在MLTC任務(wù)中,每個(gè)文本可能會(huì)被分配一個(gè)或多個(gè)標(biāo)簽,這些標(biāo)簽可以描述文本的不同方面[1]。這種技術(shù)可應(yīng)用于文本推薦、社交媒體分析、搜索引擎優(yōu)化等領(lǐng)域。然而,實(shí)際應(yīng)用中,MLTC任務(wù)仍面臨著很大的挑戰(zhàn),由于現(xiàn)有標(biāo)注數(shù)據(jù)不足且存在不準(zhǔn)確性和噪聲,使用含有這些標(biāo)簽的語(yǔ)料實(shí)現(xiàn)自動(dòng)文本分類仍然具有挑戰(zhàn)性[2-3]。因此,如何提高M(jìn)LTC的準(zhǔn)確性和魯棒性是該領(lǐng)域的重要研究方向。
本文針對(duì)噪聲問(wèn)題,提出融合級(jí)聯(lián)BiLSTM和膠囊網(wǎng)絡(luò)的噪聲多標(biāo)簽文本分類算法CBCN。CBCN算法首先使用經(jīng)改造的隨機(jī)噪聲樣本訓(xùn)練一個(gè)多標(biāo)簽回歸模型,通過(guò)該模型分辨每個(gè)樣本的隨機(jī)噪聲標(biāo)簽組合的真?zhèn)?,增?qiáng)算法對(duì)偽標(biāo)簽的鑒別能力,然后基于該模型訓(xùn)練原始多標(biāo)簽分類數(shù)據(jù)集,達(dá)到對(duì)樣本的多標(biāo)簽分類。
1 多標(biāo)簽文本分類相關(guān)算法研究
近年來(lái),多標(biāo)簽文本分類相關(guān)算法研究不斷涌現(xiàn)。在大數(shù)據(jù)環(huán)境下,機(jī)器學(xué)習(xí)技術(shù)取得了顯著的進(jìn)展。其中,BR(binary relevance)算法[4]簡(jiǎn)單直觀地將多標(biāo)簽分類問(wèn)題轉(zhuǎn)化為多個(gè)獨(dú)立的二分類問(wèn)題,但忽視了標(biāo)簽之間的相關(guān)性,獨(dú)立處理每個(gè)標(biāo)簽,無(wú)法充分利用標(biāo)簽關(guān)聯(lián)信息;CC(classifier chains)算法[5]考慮到了標(biāo)簽之間的相關(guān)性,通過(guò)鏈?zhǔn)浇Y(jié)構(gòu)將標(biāo)簽串聯(lián)起來(lái),每個(gè)標(biāo)簽的預(yù)測(cè)都考慮了前面已經(jīng)預(yù)測(cè)的標(biāo)簽結(jié)果,但是鏈?zhǔn)浇Y(jié)構(gòu)可能導(dǎo)致錯(cuò)誤的傳播,如果前面的標(biāo)簽預(yù)測(cè)錯(cuò)誤,可能會(huì)影響后續(xù)標(biāo)簽的預(yù)測(cè);ML-DT(multi-label decision tree)算法[6]考慮了標(biāo)簽之間的相關(guān)性,通過(guò)構(gòu)建決策樹(shù)來(lái)捕捉標(biāo)簽關(guān)聯(lián),并在每個(gè)節(jié)點(diǎn)上選擇最佳的劃分標(biāo)簽,以提高分類準(zhǔn)確性,但是在構(gòu)建決策樹(shù)時(shí),僅考慮了單個(gè)節(jié)點(diǎn)上的標(biāo)簽相關(guān)性,沒(méi)有全局優(yōu)化標(biāo)簽組合的相關(guān)性;ML-KNN(multi-label k-nearset neighbor)算法[7]利用樣本之間的相似性來(lái)進(jìn)行分類,通過(guò)最近鄰樣本的標(biāo)簽分布來(lái)預(yù)測(cè)當(dāng)前樣本的標(biāo)簽,能夠考慮標(biāo)簽之間的關(guān)聯(lián)性,對(duì)于標(biāo)簽分布不均衡或不具有代表性的情況下也能產(chǎn)生準(zhǔn)確的預(yù)測(cè)結(jié)果。但它對(duì)于每個(gè)樣本都需要計(jì)算最近鄰樣本的標(biāo)簽分布,計(jì)算復(fù)雜度較高,此外,ML-KNN算法對(duì)于存在噪聲或沖突標(biāo)簽的情況,容易受到干擾,影響預(yù)測(cè)準(zhǔn)確性。
雖然傳統(tǒng)機(jī)器學(xué)習(xí)算法在一些任務(wù)上取得了不錯(cuò)的效果,但在應(yīng)對(duì)一些難以處理的高復(fù)雜度任務(wù)時(shí),傳統(tǒng)機(jī)器學(xué)習(xí)算法很難取得優(yōu)異的性能?;诖搜芯空咛岢隽烁鞣N基于深度神經(jīng)網(wǎng)絡(luò)的MLTC模型,如卷積神經(jīng)網(wǎng)絡(luò)CNN(convolutional neural networks)[8]在處理文本任務(wù)方面取得了不錯(cuò)的結(jié)果,但忽視了文本的長(zhǎng)期依賴性和全局語(yǔ)義信息,沒(méi)有考慮了標(biāo)簽之間的相關(guān)性;HLSE(hierarchical label set expansion)算法[9]能夠利用標(biāo)簽的層級(jí)結(jié)構(gòu)進(jìn)行建模,考慮了標(biāo)簽之間的關(guān)聯(lián)性,可以更好地處理標(biāo)簽之間的層級(jí)關(guān)系,提升多標(biāo)簽分類的準(zhǔn)確性。但需要事先確定標(biāo)簽的層級(jí)結(jié)構(gòu),但對(duì)于沒(méi)有明確層級(jí)關(guān)系的標(biāo)簽集合可能無(wú)法有效應(yīng)用。WU等[10]提出了基于標(biāo)簽組合與融合注意力的多標(biāo)簽文本分類算法,結(jié)合了標(biāo)簽組合和注意力機(jī)制,能夠更好地捕捉標(biāo)簽之間的相關(guān)性和重要性,但該算法的計(jì)算復(fù)雜度較高,特別是對(duì)于大規(guī)模標(biāo)簽集合和長(zhǎng)文本序列,可能需要更多的計(jì)算資源和時(shí)間;YANG等[11]提出將CNN-SAM和GAT相融合的多標(biāo)簽文本分類算法,使用可以同時(shí)捕捉文本的局部特征和全局語(yǔ)義信息,提高了多標(biāo)簽分類的性能。但對(duì)于具有大量標(biāo)簽和復(fù)雜關(guān)聯(lián)性的問(wèn)題適用性較差;CHEN等[12]提出基于混合注意力Seq2seq選項(xiàng)多標(biāo)簽分類算法,結(jié)合了序列到序列模型和混合注意力機(jī)制,利用多頭自注意力[13]以及標(biāo)簽嵌入學(xué)習(xí)候選標(biāo)簽之間的隱式關(guān)聯(lián)語(yǔ)義特征,能夠同時(shí)建模序列關(guān)系和標(biāo)簽組合關(guān)系,但存在較高的計(jì)算復(fù)雜度,并且對(duì)于標(biāo)簽集合較大的情況可能面臨模型過(guò)擬合的風(fēng)險(xiǎn);HUANG等[14]提出一種基于MSML-BERT模型的層級(jí)多標(biāo)簽文本分類算法,設(shè)計(jì)了多尺度特征抽取模塊,用于捕捉不同尺度和粒度的特征以形成不同層級(jí)需要的各種知識(shí),但算法對(duì)計(jì)算資源要求較高,需要大量的訓(xùn)練數(shù)據(jù);LIU等[15]提出基于多模型融合的多標(biāo)簽分類算法ATT-Capsule-BiLSTM,使用Multi-Head Attention、膠囊網(wǎng)絡(luò)[16]以及BiLSTM等3個(gè)模型聯(lián)合實(shí)現(xiàn)對(duì)文本的特征抽取,能夠更好地捕捉文本的語(yǔ)義信息和上下文依賴性,但該算法的模型復(fù)雜度較高,對(duì)于大規(guī)模數(shù)據(jù)集和復(fù)雜的標(biāo)簽組合關(guān)系,可能需要更多的計(jì)算資源和更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。
綜上所述,對(duì)于多標(biāo)簽文本分類任務(wù),研究方向主要集中在兩個(gè)方面:①考慮多標(biāo)簽之間的層次語(yǔ)義關(guān)聯(lián),多標(biāo)簽建模和文本建模相結(jié)合,從兩個(gè)維度來(lái)實(shí)現(xiàn)對(duì)文本的建模,達(dá)到對(duì)多標(biāo)簽的精準(zhǔn)分類效果;②多模型融合方法實(shí)現(xiàn)對(duì)文本多角度建模,達(dá)到對(duì)多標(biāo)簽的分類,提取文本特征達(dá)到較高地多標(biāo)簽分類準(zhǔn)確率。但是以上研究都沒(méi)有考慮到樣本可能出現(xiàn)噪聲問(wèn)題對(duì)結(jié)果的影響。
基于以上算法啟發(fā)設(shè)計(jì)了CBCN算法,使用膠囊神經(jīng)網(wǎng)絡(luò)提取樣本token之間的空間語(yǔ)義特征,在不同的特征層次上對(duì)特征進(jìn)行聚合,從而提高分類性能;然后使用基于多層級(jí)聯(lián)BiLSTM逐層提取樣本特征,同時(shí)設(shè)置矩陣κ作為級(jí)聯(lián)BiLSTM的輸入特征自適應(yīng)參數(shù),作為門控參數(shù)控制各層BiLSTM的特征輸入,對(duì)輸入的文本進(jìn)行多層次的特征提取,從而更好地捕捉文本中的語(yǔ)義信息。該模型訓(xùn)練分為噪聲樣本訓(xùn)練和增強(qiáng)訓(xùn)練兩個(gè)部分:噪聲樣本訓(xùn)練通過(guò)參數(shù)控制噪聲標(biāo)簽規(guī)模,使用sigmoid激活函數(shù)預(yù)測(cè)樣本的真實(shí)標(biāo)簽,采用歐式距離求解真實(shí)標(biāo)簽與噪聲標(biāo)簽之間的距離作為損失,最大化該損失實(shí)現(xiàn)辨別噪聲標(biāo)簽;增強(qiáng)訓(xùn)練,加載預(yù)訓(xùn)練模型對(duì)原始數(shù)據(jù)集進(jìn)行多標(biāo)簽分類訓(xùn)練,識(shí)別正確的多標(biāo)簽組合。
2 CBCN算法噪聲數(shù)據(jù)集構(gòu)建
CBCN算法訓(xùn)練過(guò)程主要分為偽標(biāo)簽回歸訓(xùn)練和多標(biāo)簽強(qiáng)化訓(xùn)練。對(duì)偽標(biāo)簽回歸訓(xùn)練而言,數(shù)據(jù)集來(lái)源于原始數(shù)據(jù)集,對(duì)原始數(shù)據(jù)集每個(gè)樣本的標(biāo)簽隨機(jī)替換得到新的樣本,從而構(gòu)建新的噪聲數(shù)據(jù)集。對(duì)數(shù)據(jù)集樣本的多標(biāo)簽表示定義為
SMLk,label=[fig(l(k,i)),…,fig(l(k,la))]T
fig(k)=1,l(k,i) existed
0,otherwise(1)
其中:la為多標(biāo)簽數(shù)據(jù)集標(biāo)簽規(guī)模;l(k,i)為第k個(gè)樣本的第i個(gè)位置是否存在標(biāo)簽,如果存在,則此位置的值為1,否則為0。例如:一個(gè)樣本的標(biāo)簽為[1,5,8],L取值為9,那么依據(jù)式(1),該樣本的標(biāo)簽轉(zhuǎn)化為:[0, 1, 0, 0, 0, 1, 0, 0, 1]。
基于原始數(shù)據(jù)集,噪聲數(shù)據(jù)集構(gòu)建如算法1所示。
算法1 噪聲數(shù)據(jù)集構(gòu)建
//原始數(shù)據(jù)集SML,噪聲數(shù)據(jù)集SLML,標(biāo)簽數(shù)目
//原數(shù)據(jù)集規(guī)模S,噪聲數(shù)據(jù)集規(guī)模L,比例γ
1.輸入:SML、S、L、γ
2.輸出:SLML
3.For k in {0,1,…,S} /**Loop in SML**/
4. len←‖SMLk,label‖
5. index←sample({0,…len},len×γ)
6. lab←SMLk,label
7. For cur in index
8." lab[cur]←rand(),lab[cur]≠rand()
9. add [SMLk,txt,lab[cur]] to SLML
10. If size SLML≤SL
11. Delete all unreplaced labels
12. Break
13.END
算法1中,MLk,label表示第k個(gè)樣本的真實(shí)標(biāo)簽,MLk,txt表示第k個(gè)樣本的文本。從算法1可知,構(gòu)建噪聲數(shù)據(jù)集的規(guī)模由參數(shù)L決定,樣本噪聲比例由參數(shù)γ決定?;谝陨蟽蓚€(gè)參數(shù)可確定噪聲樣本集最大噪聲規(guī)模為
L≤∑Sk=0∏lenkj=0(k,j-1)γλk(2)
其中:lenk為第k個(gè)樣本的實(shí)際標(biāo)簽數(shù)目;λk表示當(dāng)前樣本k的標(biāo)簽數(shù)目;為標(biāo)簽集規(guī)模;k,j為樣本k的第j個(gè)位置,k,j-1表示除當(dāng)前樣本k的第j個(gè)位置最多能被偽標(biāo)簽替代的個(gè)數(shù),基于式(2)可知,構(gòu)造的噪聲數(shù)據(jù)集規(guī)模與原數(shù)據(jù)集規(guī)模滿足式(3)所示的關(guān)系。然后刪掉所有未被替換的真實(shí)標(biāo)簽,得到純?cè)肼晹?shù)據(jù)集,故實(shí)際得到的噪聲樣本,其噪聲樣本標(biāo)簽數(shù)目不大于原樣本的真實(shí)標(biāo)簽數(shù)目。
scale≤1S∑Sk=0∏lenkj=0(k,j-1)γ
(k,j-1)gt;0,Sgt;0(3)
從式(3)可看出,算法構(gòu)建出的噪聲樣本能夠極大的豐富原始數(shù)據(jù)集,且由于噪聲比例γ的不同的設(shè)置,以及偽標(biāo)簽隨機(jī)替換的多樣性,有助于本文算法在偽標(biāo)簽識(shí)別訓(xùn)練階段學(xué)習(xí)所有可能的噪聲標(biāo)簽組合,倘若算法能夠正常收斂,那么預(yù)訓(xùn)練階段算法就能夠甄別所有異常的噪聲標(biāo)簽組合,在原始數(shù)據(jù)集強(qiáng)化訓(xùn)練階段只需要甄別所有正常標(biāo)簽組合,極大地緩解了由于算法難以甄別異常組合標(biāo)簽而導(dǎo)致識(shí)別準(zhǔn)確率不足的問(wèn)題。
文章對(duì)AAPD和RCV1-V2兩個(gè)公開(kāi)英文數(shù)據(jù)集上構(gòu)建噪聲數(shù)據(jù)集開(kāi)展本文算法的對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn),與其他算法之間的對(duì)比實(shí)驗(yàn)均基于表1。
3 融合級(jí)聯(lián)BiLSTM和膠囊網(wǎng)絡(luò)的噪聲多標(biāo)簽分類算法設(shè)計(jì)
首先使用預(yù)訓(xùn)練模型BERT實(shí)現(xiàn)對(duì)文本token的詞嵌入,詞嵌入如式(4)所示:
embedm=BERT({w0,…,wN}|η)
‖embedm‖=N×768(4)
式中:m為當(dāng)前樣本正文,其token序列是{w0,…,wN};參數(shù)η為BERT網(wǎng)絡(luò)參數(shù)。經(jīng)BERT預(yù)訓(xùn)練模型處理后的詞嵌入模型文本變成N×768矩陣,每個(gè)token均映射成1×768向量。
在算法設(shè)計(jì)上,本文提出融合級(jí)聯(lián)BiLSTM和膠囊網(wǎng)絡(luò)的噪聲多標(biāo)簽分類算法——CBCN,該算法分為基于融合級(jí)聯(lián)BiLSTM和膠囊網(wǎng)絡(luò)的噪聲樣本多標(biāo)簽回歸模型BinaryM和基于融合級(jí)聯(lián)BiLSTM和膠囊網(wǎng)絡(luò)的多標(biāo)簽分類模型MultiM。
3.1 基于融合級(jí)聯(lián)BiLSTM和膠囊網(wǎng)絡(luò)的噪聲樣本多標(biāo)簽回歸模型
BinaryM模型的目的是最大程度辨別噪聲標(biāo)簽和真實(shí)標(biāo)簽。模型的全連接層使用sigmoid函數(shù)激活,預(yù)測(cè)每個(gè)樣本所有可能標(biāo)簽的可信度,將對(duì)多標(biāo)簽的分類預(yù)測(cè)問(wèn)題轉(zhuǎn)變?yōu)槎鄻?biāo)簽可信度回歸預(yù)測(cè),取值區(qū)間為(0~1),故該模型的最終輸出矩陣規(guī)模為B×L,B是訓(xùn)練階段小批量樣本規(guī)模,L是源數(shù)據(jù)集真實(shí)標(biāo)簽規(guī)模?;诮?jīng)典標(biāo)簽分類的方法而言,神經(jīng)網(wǎng)絡(luò)的一種最終輸出規(guī)模為:B×L×L,基于回歸的方法能夠極大地縮小標(biāo)簽預(yù)測(cè)空間。
使用噪聲數(shù)據(jù)集訓(xùn)練BinaryM模型,BinaryM模型的作用是識(shí)別噪聲樣本中所有的偽標(biāo)簽,從而學(xué)習(xí)標(biāo)簽之間的內(nèi)在互斥和關(guān)聯(lián)關(guān)系;BinaryM使用歐氏距離作為損失,學(xué)習(xí)噪聲多標(biāo)簽樣本偽標(biāo)簽與預(yù)測(cè)標(biāo)簽之間的顯著差異,以最大化該差異作為優(yōu)化目標(biāo)即最大化lossb,損失函數(shù)為
lossb=1B∑Bk=0∑lenkj=0y--y*)2
μ∈y*,μ∈{0,1}(5)
其中:B為訓(xùn)練批次大小,取值為32或64;lenk為當(dāng)前樣本實(shí)際標(biāo)簽個(gè)數(shù),取值大于等于1;y-為BinaryM模型對(duì)真實(shí)標(biāo)簽的預(yù)測(cè)結(jié)果;y*為樣本的多標(biāo)簽噪聲樣本,其中y-滿足公式(6):
y-=sigmoid(f(xj|θrnn,θcaps,θmlp))
ρ∈y-,0lt;ρlt;1(6)
從公式(6)可知,算法使用sigmoid激活函數(shù)將全連接層的輸出映射成(0~1),轉(zhuǎn)換成概率。當(dāng)‖y--y*‖趨近于0時(shí),lossb趨近取得最大值,此時(shí)BinaryM模型預(yù)測(cè)的標(biāo)簽無(wú)限接近真實(shí)標(biāo)簽,從而與噪聲標(biāo)簽顯著區(qū)分。由于使用梯度下降策略優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù),將公式(5)改造成公式(7)。
lossb=B∑Bk=0∑lenkj=0(y--y*)2+ε
μ∈y*,μ∈{0,1}
ρ∈y-,0lt;ρlt;1
εlt;109(7)
最小化式(7)中的損失、優(yōu)化模型參數(shù)。其中,參數(shù)ε是正則項(xiàng),為一個(gè)極小的浮點(diǎn)數(shù)。優(yōu)化目標(biāo)是最小化lossb。
3.2 基于融合級(jí)聯(lián)BiLSTM和膠囊網(wǎng)絡(luò)的多標(biāo)簽分類模型
基于原始數(shù)據(jù)集訓(xùn)練MultiM模型,MultiM模型的目的是預(yù)測(cè)樣本的所有可能標(biāo)簽組合。由于BinaryM模型已經(jīng)能夠顯著甄別噪聲標(biāo)簽與真實(shí)標(biāo)簽,而MultiM模型在BinaryM模型的基礎(chǔ)上能夠更加高效地識(shí)別正確的標(biāo)簽組合而不用關(guān)心虛假標(biāo)簽組合,從而提高對(duì)樣本標(biāo)簽預(yù)測(cè)的效率。MultiM本質(zhì)是多標(biāo)簽分類,使用交叉熵作為多標(biāo)簽分類損失,損失函數(shù)如式(8)所示,兩個(gè)階段訓(xùn)練的總損失函數(shù)如式(9)所示:
lossm=1B∑Bk=0∑lenkj=0∑z=0-pk,j,zlog(pk,j,z)(8)
loss=1B∑Bk=0∑lenkj=0∑z=0-pk,j,zlog(pk,j,z)+
B1∑Bk=0∑lenkj=0(y-j-y*j)2+ε(9)
CBCN算法的基本框架如圖1所示。其中,BinaryM與MultiM均使用BERT詞向量初始化模型。在預(yù)訓(xùn)練模型之后,是一個(gè)由三層卷積組成,用于多標(biāo)簽文本分類的基礎(chǔ)網(wǎng)絡(luò)模塊Basic Block,用于捕捉文本中的局部結(jié)構(gòu)信息,并自動(dòng)學(xué)習(xí)文本表示以從原始文本中提取有用的特征,確保輸出的特征矩陣在經(jīng)過(guò)卷積層后具有適當(dāng)?shù)某叽?,從原始文本中提取有用的特征,以便后續(xù)的分類任務(wù)使用。
使用多層門控BiLSTM提取文本時(shí)序特征,采用膠囊神經(jīng)網(wǎng)絡(luò)提取樣本token之間的空間特征,為減少模型規(guī)模,膠囊神經(jīng)網(wǎng)絡(luò)的路由深度設(shè)置為2。
3.3 CBCN特征提取模塊
基于膠囊網(wǎng)絡(luò)和級(jí)聯(lián)BiLSTM分別提取文本嵌入矩陣的特征,最后在特征層進(jìn)行融合得到分類特征。膠囊網(wǎng)絡(luò)以及門控多層BiLSTM特征提取文本嵌入矩陣如算法2所示。
算法2 噪聲數(shù)據(jù)集構(gòu)建多標(biāo)簽文本特征提取
//原始數(shù)據(jù)集SML,噪聲數(shù)據(jù)集SLML,標(biāo)簽數(shù)目
//原數(shù)據(jù)集規(guī)模S,噪聲數(shù)據(jù)集規(guī)模L
//門控因子θ,塊迭代器It,塊大小B,融合特征f
1)輸入:SML、SLML、S、L、θ
2)輸出:f
3)Repeat
4) BTrue←It(SML|{embed1,…,B})
5) BNoise←It(SLML|{embed1,…,B})
6) BasicCapsT←Caps(BTrue|capsule,ρ)
7) BasicCapsF←Caps(BNoise|capsule,ρ)
8) Fea←concat(BasicCapsT,BasicCapsF)
9) Fcaps←DigitCaps(Fea|κ,iter=2)
10) For k in {1,2,…,N}
11)" Bbilstm,k=θk×BI(Bbilstm,k-1|k)
12) f←concat(Bfea,N,F(xiàn)ea)
13)END
算法2中,BTrue為從源數(shù)據(jù)集ML中小批量隨機(jī)采樣得到的樣本,BNoise為從純?cè)肼晿颖緮?shù)據(jù)集LML中小批量隨機(jī)采樣得到的樣本,單次采樣規(guī)模為B。CBCN參數(shù)訓(xùn)練時(shí)BTrue和BNoise同時(shí)作為其的輸入,通過(guò)式(9)計(jì)算聯(lián)合損失,采用梯度下降方式更新參數(shù)。參數(shù)N是級(jí)聯(lián)BiLSTM的層數(shù),BI是BiLSTM模型表示。
基于門控多層BiLSTM和膠囊網(wǎng)絡(luò)的文本特征提取,然后將二者得到的特征矩陣進(jìn)行拼接,得到最終的特征f,特征矩陣f如式(10)所示。其中,符號(hào)‖*‖表示對(duì)矩陣取模,符號(hào)表示兩個(gè)特征矩陣進(jìn)行特征維度鏈接。
f=fbilstm,Nfcaps
‖fbilstm,N‖=B×L×64
‖fcaps‖=B×L×128
‖f‖=B×L×192(10)
由式(10)可見(jiàn),將最后一層BiLSTM每層細(xì)胞的輸出作為文本特征,然后與膠囊網(wǎng)絡(luò)得到的特征進(jìn)行融合。細(xì)胞個(gè)數(shù)與總標(biāo)簽數(shù)目相同,每個(gè)細(xì)胞的輸出即為對(duì)應(yīng)位置的標(biāo)簽預(yù)測(cè)結(jié)果。
4 實(shí) 驗(yàn)
4.1 實(shí)驗(yàn)環(huán)境
本文所使用的數(shù)據(jù)集為AAPD和RCV1-V2多標(biāo)簽文本數(shù)據(jù)集,計(jì)算機(jī)算力RTX 2080Ti,操作系統(tǒng)Ubuntu18.04,內(nèi)存16GB,硬盤大小1000GB,CPU核數(shù)4核,個(gè)數(shù)1~3個(gè);批次大小64,學(xué)習(xí)率0.001,截?cái)鄵p失100。由于CBCN算法的損失函數(shù)為偽標(biāo)簽識(shí)別和真實(shí)標(biāo)簽組合的識(shí)別,故損失函數(shù)由兩部分組成:歐氏距離和交叉熵。
4.2 數(shù)據(jù)集
CBCN算法與對(duì)比算法在AAPD數(shù)據(jù)集和RCV1-V2數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。
1)AAPD
該數(shù)據(jù)集是由Yang等[17]收集的,其中包含計(jì)算機(jī)科學(xué)領(lǐng)域及相關(guān)學(xué)科的55840篇論文摘要。每篇學(xué)術(shù)論文可有涵蓋多個(gè)學(xué)科,共有54個(gè)學(xué)科。
2)RCV1-V2
該數(shù)據(jù)集是由Lewis等[18]提供的,其中包含路透社收集的新聞專題故事80余萬(wàn)篇,每個(gè)專題故事涉及到多個(gè)主題,共有103個(gè)主題。
其中,A和R分別表示AAPD數(shù)據(jù)集和RCV1-V2數(shù)據(jù)集樣本標(biāo)簽數(shù)目,強(qiáng)化訓(xùn)練階段所使用的數(shù)據(jù)集的基本信息如表2所示。
由于所使用的數(shù)據(jù)集的每個(gè)樣本均包含多個(gè)標(biāo)簽,且標(biāo)簽總數(shù)目較多,使得算法能夠有效地識(shí)別出錯(cuò)誤標(biāo)簽的組合以及正確識(shí)別出正確標(biāo)簽組合。鑒于CBCN算法特點(diǎn),基于AAPD數(shù)據(jù)集以及RCV1-V2數(shù)據(jù)集構(gòu)建噪聲數(shù)據(jù)集,分別設(shè)置不同的噪聲序列長(zhǎng)度比例γ值,構(gòu)造偽標(biāo)簽數(shù)據(jù)集,具體構(gòu)建算法見(jiàn)算法1,構(gòu)建得到的新數(shù)據(jù)集分別命名為AAPD-以及RCV1-V2-,基于噪聲數(shù)據(jù)集訓(xùn)練噪聲樣本的數(shù)據(jù)集的基本信息如表3所示。
根據(jù)表3的內(nèi)容,可以看出本文在構(gòu)建噪聲數(shù)據(jù)集時(shí)使用了所有的訓(xùn)練集和測(cè)試集,即對(duì)于每個(gè)樣本都構(gòu)造了純?cè)肼晿?biāo)簽。在訓(xùn)練CBCN模型時(shí),從噪聲數(shù)據(jù)集和源數(shù)據(jù)集中隨機(jī)抽取了若干樣本進(jìn)行訓(xùn)練。這種做法可以增加模型的魯棒性,提高模型對(duì)于噪聲數(shù)據(jù)的適應(yīng)能力。同時(shí),使用所有的訓(xùn)練集和測(cè)試集構(gòu)建噪聲數(shù)據(jù)集也可以更好地模擬實(shí)際場(chǎng)景中的噪聲情況,提高模型的泛化能力。
4.3 CBCN算法對(duì)比實(shí)驗(yàn)
評(píng)價(jià)指標(biāo)均基于Macro,分別是:Macro-Precision、Macro-Recall、Macro-F1。這3個(gè)評(píng)估指標(biāo)是將所有類別的Precision和Recall求平均,然后計(jì)算F1值作為Macro-F1。使用的3種評(píng)價(jià)指標(biāo)的計(jì)算過(guò)程如式(11)和式(12)所示:
fprecision=TPTP+FP
frecall=TPTP+FN
F1=2fprecisionfrecallfprecision+frecall(11)
fprecisionmacro=∑ni=1fprecisionin
frecallmacro=∑ni=1frecallin
F1macro=2fprecisionmacrofrecallmacrofprecisionmacro+frecallmacro(12)
其中:TP為真陽(yáng)例,F(xiàn)P為假陽(yáng)例,F(xiàn)N為假陰例,TN為真陰例。
4.3.1 不同噪聲規(guī)模下的自身對(duì)比實(shí)驗(yàn)
本節(jié)基于表3中γ的不同取值開(kāi)展CBCN算法的對(duì)比實(shí)驗(yàn),驗(yàn)證不同的γ取值下噪聲樣本對(duì)算法的影響,實(shí)驗(yàn)結(jié)果匯總?cè)绫?所示。
從表4可看出,算法在AAPD以及RCV1-V2兩個(gè)數(shù)據(jù)集上均達(dá)到了較高的評(píng)價(jià)指標(biāo)。AAPD數(shù)據(jù)集和RCV1-V2數(shù)據(jù)集在當(dāng)γ=0.4時(shí)達(dá)到了相對(duì)最高的評(píng)價(jià)指標(biāo),在AAPD數(shù)據(jù)集上的準(zhǔn)確率最高達(dá)到了0.891,RCV1-V2數(shù)據(jù)集上的準(zhǔn)確率最高達(dá)到了0.911。由于AAPD以及RCV1-V2兩個(gè)數(shù)據(jù)集總標(biāo)簽規(guī)模相差巨大,算法仍然能夠適應(yīng)這種差異,實(shí)現(xiàn)同等精度實(shí)驗(yàn)結(jié)果,說(shuō)明模型的魯棒性較強(qiáng)。
4.3.2 與其他主流模型的對(duì)比實(shí)驗(yàn)
SGM將多標(biāo)簽分類問(wèn)題轉(zhuǎn)換為序列生成問(wèn)題,采用新穎的解碼器和注意力結(jié)構(gòu)。
LEAM[19]將文本和標(biāo)簽進(jìn)行聯(lián)合嵌入從而獲得更具識(shí)別性的文本表征。
LSAN[20]基于標(biāo)簽語(yǔ)義注意力學(xué)習(xí)特定于標(biāo)簽的文本表征。
HTTN[21]將頭部標(biāo)簽的元知識(shí)轉(zhuǎn)移到尾部標(biāo)簽,從而解決長(zhǎng)尾標(biāo)簽問(wèn)題。
AAPD數(shù)據(jù)集的對(duì)比實(shí)驗(yàn)結(jié)果匯總?cè)绫?所示。
由表5可見(jiàn),本文算法在γ=0.2、γ=0.3以及γ=0.4等3種比例噪聲樣本下,在AAPD數(shù)據(jù)集上的實(shí)驗(yàn)效果明顯優(yōu)于各種對(duì)比算法,與SGM、LEAM、LSAN、HTTN、Wu這5種算法相比,本文算法在準(zhǔn)確率上的最小提升率為31.21%,最大提升率為85.24%;在召回率上的最小提升率為26.60%,最大提升率為93.40%;在F1值上的最小提升率為33.28%,最大提升率為89.90%。
BR將多標(biāo)簽分類問(wèn)題轉(zhuǎn)換為多個(gè)單標(biāo)簽分類問(wèn)題。
CC將多標(biāo)簽分類問(wèn)題轉(zhuǎn)換為二元分類問(wèn)題鏈從而建模標(biāo)簽之間的關(guān)系。
ML-DT使用決策樹(shù)的思想來(lái)處理多標(biāo)簽數(shù)據(jù),遞歸地構(gòu)建一棵決策樹(shù),每次選取特征和劃分值,使得信息增益最大。
ML-KNN根據(jù)預(yù)測(cè)數(shù)據(jù)在訓(xùn)練數(shù)據(jù)的最近鄰中個(gè)標(biāo)記的分布情況,采用最大化后驗(yàn)概率的原則決定測(cè)試樣例是否與某一標(biāo)記相關(guān)。
BP-MLL[22]是第一個(gè)將傳統(tǒng)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換為多標(biāo)簽分類的算法??紤]了不同標(biāo)簽之間的關(guān)系,取得了更好的效果。
CNN利用卷積神經(jīng)網(wǎng)絡(luò)捕獲文本局部語(yǔ)義信息,并對(duì)多標(biāo)簽分類損失函數(shù)進(jìn)行優(yōu)化。
HLSE是基于樹(shù)的方式,對(duì)于已經(jīng)分類的標(biāo)簽,運(yùn)用HLSE算法可以搜尋到該標(biāo)簽的上級(jí)。
SERL[23]形式化了在隨機(jī)游走過(guò)程中探索相應(yīng)節(jié)點(diǎn)鄰域時(shí)融合不同語(yǔ)義路徑的方式,然后利用異構(gòu) skip-gram 模型執(zhí)行節(jié)點(diǎn)嵌入。
DSRM-1[24]是一種結(jié)合動(dòng)態(tài)語(yǔ)義表示模型和深度神經(jīng)網(wǎng)絡(luò)分類器的新型文本分類方法,所提出的方法通過(guò)更新文本挖掘技術(shù)和優(yōu)化文本分類器來(lái)提高分類性能。
CBCN-1、CBCN-2、CBCN-3分別時(shí)算法CBCN在γ=0.2、γ=0.3以及γ=0.4時(shí)對(duì)應(yīng)的3個(gè)指標(biāo)值具體詳見(jiàn)表6。
從表6可看出本文算法在CBCN-1、CBCN-2、CBCN-3等3個(gè)不同噪聲標(biāo)簽設(shè)置下在數(shù)據(jù)集RCV1-V2數(shù)據(jù)集上的3種指標(biāo)值均高于所有的對(duì)比算法。
CBCN算法相對(duì)于其他主要算法的評(píng)價(jià)指標(biāo)提升率匯總?cè)绫?所示,提升率公式如式(13)所示,Ur代表提升率,ACBCN代表使用所提出算法的評(píng)價(jià)指標(biāo),BX代表其他算法對(duì)應(yīng)的評(píng)價(jià)指標(biāo)。
Ur=(ACBCN-BXBX)×100%(13)
基于以上對(duì)比結(jié)果,本文算法在對(duì)比指標(biāo)上的單個(gè)對(duì)比算法上的提升率均為正,且在不同的噪聲標(biāo)簽個(gè)數(shù)設(shè)置下,本文算法評(píng)價(jià)指標(biāo)均高于對(duì)比算法,實(shí)驗(yàn)表明本文算法具有一定的優(yōu)勢(shì)。
4.4 消融實(shí)驗(yàn)
為進(jìn)一步驗(yàn)證算法的合理性,設(shè)置如下消融實(shí)驗(yàn), 消融實(shí)驗(yàn)結(jié)果如表8所示。
1)去掉純?cè)肼晹?shù)據(jù)集SLML,僅使用源數(shù)據(jù)集訓(xùn)練算法CBCN;
2)去掉門控參數(shù)θ,每個(gè)級(jí)聯(lián)Bi-LSTM簡(jiǎn)單級(jí)聯(lián),既沒(méi)有矩陣κ來(lái)根據(jù)樣本特征自適應(yīng)參數(shù),減少模型的冗余度的情況;
3)去掉CapsNet模塊,僅用級(jí)聯(lián)BiLSTM開(kāi)展實(shí)驗(yàn)。
從表8的消融實(shí)驗(yàn)可看出,門控參數(shù)θ在一定程度上能夠有效地約束各層BiLSTM之間的特征學(xué)習(xí),純?cè)肼晹?shù)據(jù)集SLML對(duì)提升CBCN算法具有非常明顯的效果,膠囊網(wǎng)絡(luò)Caps會(huì)對(duì)CBCN算法的評(píng)價(jià)指標(biāo)造成大的影響,綜上所述,本文算法在各特征提取模塊的加持下,能夠達(dá)到相對(duì)最好的評(píng)價(jià)指標(biāo)。
5 結(jié) 論
本文提出的CBCN算法在噪聲多標(biāo)簽文本分類任務(wù)中取得了良好的效果,證明了該算法在學(xué)習(xí)標(biāo)簽分布和噪聲識(shí)別方面的有效性。該算法旨在解決多標(biāo)簽文本分類任務(wù)中數(shù)據(jù)稀缺和標(biāo)簽不平衡的問(wèn)題。通過(guò)使用數(shù)據(jù)增強(qiáng)算法和偽標(biāo)簽數(shù)據(jù)集,可以擴(kuò)充原始數(shù)據(jù)集,增加訓(xùn)練樣本的多樣性和數(shù)量,從而提高模型的泛化能力和性能。同時(shí),本文還探索了使用干凈數(shù)據(jù)集生成噪聲數(shù)據(jù)集的數(shù)據(jù)增強(qiáng)方法,為噪聲數(shù)據(jù)集的構(gòu)建提供了新思路。然而,本文算法仍存在一些局限性,例如當(dāng)算法的訓(xùn)練時(shí)間較長(zhǎng)時(shí),仍需要更多的計(jì)算資源和時(shí)間;該算法的應(yīng)用場(chǎng)景還需進(jìn)一步擴(kuò)展和驗(yàn)證,以適應(yīng)更多的實(shí)際需求。
未來(lái)的研究將考慮如何進(jìn)一步提高算法的效率和魯棒性,以適應(yīng)更加復(fù)雜的噪聲數(shù)據(jù)集;后續(xù)將算法應(yīng)用到更多的實(shí)際場(chǎng)景中,以驗(yàn)證其適用性。
參 考 文 獻(xiàn):
[1] MINAEE S,KALCHBRENNER N,CAMBRIA E,et al. Deep Learning Based Text Classification: A Comprehensive Review[J].ACM Computing Surveys,2021,54(3): 1.
[2] 秦健,侯建新,謝怡寧,等.醫(yī)療文本的小樣本命名實(shí)體識(shí)別[J].哈爾濱理工大學(xué)學(xué)報(bào),2021,26(4):94.
QIN Jian, HOU Jianxin, XIE Yining, et al. Few-shot Named Entity Recognition for Medical Text[J]. Journal of Harbin University of Science and Technology, 2021,26(4):94.
[3] 雷智文,黃玲.面向數(shù)字資源的自動(dòng)標(biāo)簽?zāi)P停跩].哈爾濱理工大學(xué)學(xué)報(bào),2020,25(3):144.
LEI Zhiwen, HUANG Ling. An Automatic Tagging System Focused on Digital Resources[J]. Journal of Harbin University of Science and Technology, 2020,25(3):144.
[4] BOUTELL M R, LUO Jiebo, SHEN Xipeng, et al. Learningmulti-label Scene Classification[J]. Pattern Recognition,2004, 37(9): 1757.
[5] READ J,PFAHRINGER B,HOLMES G,et al.Classifier Chains for Multi-label Classification[J].Machine Learning,2011,85(3):333.
[6] CLARE A,KING R D.Knowledge Discovery in Multi-label Phenotype Data[C] // Proceedings of European Conference on Principles of Data Mining and Knowledge Discovery,2001:42.
[7] ZHANG Minling, ZHOU Zhihua. ML-KNN: A Lazy Learning Approach to Multi-label Learning[J]. Pattern Recognition, 2007, 40(7): 2038.
[8] KIM Y. Convolutional Neural Networks for Sentence Classification[C]//Proceedings of the 2014 Conference Empirical Methods in Natural Language Proceeding, 2014:1746.
[9] GARGIULO F, SILVESTRI S, CIAMPI M, et al. Deep Neural Network for Hierarchical Extreme Multi-label Text Classification[J]. Applied Soft Computing, 2019, 79(S): 125.
[10]鄔鑫珂,孫俊,李志華. 采用標(biāo)簽組合與融合注意力的多標(biāo)簽文本分類[J]. 計(jì)算機(jī)工程與應(yīng)用, 2023, 59(6): 125.
WU Xinke, SUN Jun, LI Zhihua. Multi-Label Text-Classification Based on Label Combination and Fusion of Attentions[J]. Computer Engineering and Applica-tions, 2023, 59(6): 125.
[11]楊春霞,馬文文,陳啟崗,等. 融合CNN-SAM與GAT的多標(biāo)簽文本分類模型[J]. 計(jì)算機(jī)工程與應(yīng)用, 2023, 59(5): 106.
YANG Chunxia, MA Wenwen, CHEN Qigang, et al. Multi-Label Text Classification Model Combining CNN-SAM and GAT[J]. Computer Engineering and Applic-ations, 2023, 59(5): 106.
[12]陳千,韓林,王素格,等. 基于混合注意力Seq2seq模型的選項(xiàng)多標(biāo)簽分類[J]. 計(jì)算機(jī)工程與應(yīng)用, 2023, 59(4): 104.
CHEN Qian, HAN Lin, WANG Suge, et al. Multi-Label Classification of Options Based on Seq2seq Model of Hybrid Attention[J]. Computer Engineering and Applications, 2023, 59(4): 104.
[13]VASWANI A,SHAZEER N,PARMAR N.Attention is All You Need[C]//Proceeding of the 2017 Conference on Neural Information Processing System,2017:5998.
[14]黃偉,劉貴全. MSML-BERT模型的層級(jí)多標(biāo)簽文本分類方法研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2022, 58(15):191.
HUANG Wei, LIU Guiquan. Study on Hierarchical Multi-Label Text Classification Method of MSML-BERT Model[J]. Computer Engineering and Applications, 2022, 58(15): 191.
[15]劉心惠,陳文實(shí),周愛(ài),等. 基于聯(lián)合模型的多標(biāo)簽文本分類研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2020, 56(14):111.
LIU Xinhui, CHEN Wenshi, ZHOU Ai, et al. Multi-label Text Classification Based on Joint Model[J]. Computer Engineering and Applications, 2020, 56(14):111.
[16]BRIGHT J, RAJKUMAR S, DOSS A S A. ME-CapsNet: A Multi-enhanced Capsule Networks Withrouting Mechanism[C]//2022 IEEE International Conference on Electronics, Computing and Communication Technolo-gies (CONECCT). IEEE, Bangalore, India, 2022: 1.
[17]YANG Pengcheng,SUN Xu,LI Wei,et al.SGM:Sequence Generation Model for Multi-label Classification[J]. arXiv:1806.04822v3,2018.
[18]LEWIS D D, YANG Yiming, RUSSELL-ROSE T, et al. Rcv1: A New Benchmark Collection for Text Cate-gorization Research[J]. Journal of Machine Learning Research, 2004, 5: 361.
[19]WANG Guoyin,LI Chunyuan,WANG Wenlin,et al.Joint Embedding of Words and Labels for Text Classifi-cation[C]//Proc-eedings of the 56th Annual Meeting of the Association for Computational Lingui-stics,2018, 1:2321.
[20]XIAO Lin,HUANG Xin,CHEN Boli,et al.Label Specific Document Representation for Multi-label Textcl-assification[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processingand the 9th International Joint Conference on Natural Language Processing,2019:466.
[21]XIAO Lin, ZHANG Xiangliang, JING Liping, et al. Does Head Label Help for Long-tailed Multi-label Text Classification[C]//Proceedings of the AAAI Conferenceon Artificial Intelligence. 2021, 35(16): 14103.
[22]ZHANG Minling, ZHOU Zhihua. Multilabel Neural Networks with Applications to Functional Genomics and Text Categorization[J]. IEEE Transactions on Knowledge and Data Engineering,2006,18(10): 1338.
[23]HUANG Ming, ZHUANG Fuzhen, ZHANG Xiao, et al. Supervised Representation Learning for Multi-label Classification[J]. Mach. Learn., 2019(108): 747.
[24]WANG Tianshi, LIU Li, LIU Naiwen, et al. A Multi-label Text Classification Method Via Dynamic Semantic Representation Model and Deep Neuralnetwork[J]. Applied Intelligence, 2020, 50(8): 2339.
(編輯:溫澤宇)