• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合偽標(biāo)簽生成與數(shù)據(jù)增強(qiáng)的多標(biāo)簽文本分類

    2024-03-28 00:00:00王水濤張思佳孫旭菲楊景杰畢甜甜張正龍

    摘 要:針對(duì)多標(biāo)簽文本分類算法忽視噪聲標(biāo)簽和缺乏真?zhèn)谓M合激勵(lì)導(dǎo)致模型魯棒性不強(qiáng)、分類效果不佳的問(wèn)題,提出了適用于短文本數(shù)據(jù)集的融合級(jí)聯(lián)BiLSTM和膠囊網(wǎng)絡(luò)的噪聲多標(biāo)簽文本分類算法(cascaded BiLSTM-capsule network for noisy multi-label text classification,CBCN)。該算法利用膠囊神經(jīng)網(wǎng)絡(luò)提取token間的空間語(yǔ)義特征,并采用多層級(jí)聯(lián)BiLSTM對(duì)輸入文本進(jìn)行多層次特征提取,使用噪聲樣本訓(xùn)練和增強(qiáng)訓(xùn)練來(lái)區(qū)分真實(shí)標(biāo)簽和噪聲標(biāo)簽,從而實(shí)現(xiàn)正確的多標(biāo)簽組合識(shí)別。實(shí)驗(yàn)結(jié)果表明:該算法在AAPD和RCV1-V2兩個(gè)公開(kāi)英文數(shù)據(jù)集上的準(zhǔn)確率達(dá)到了89.1%和91.1%,對(duì)解決噪聲多標(biāo)簽文本分類問(wèn)題,具有較強(qiáng)的魯棒性和泛化性能。

    關(guān)鍵詞:文本分類;膠囊網(wǎng)絡(luò);噪聲多標(biāo)簽算法;級(jí)聯(lián)BiLSTM;魯棒性

    DOI:10.15938/j.jhust.2024.06.003

    中圖分類號(hào): TP391.1

    文獻(xiàn)標(biāo)志碼: A

    文章編號(hào): 1007-2683(2024)06-0022-10

    Multi-label Text Classification by Fusing Pseudo-label

    Generation and Data Augmentation

    WANG Shuitao1, ZHANG Sijia1,2,3, SUN Xufei1, YANG Jingjie1, BI Tiantian1, ZHANG Zhenglong1

    (1.College of Information Engineering, Dalian Ocean University, Dalian 116023, China;

    2.Key Laboratory of Environment Controlled Aquaculture (Dalian Ocean University), Ministry of Education, Dalian 116023, China;

    3.Dalian Key Laboratory of Smart Fisheries, Dalian 116023, China)

    Abstract:Aiming at the problem that the multi-label text classification algorithm ignores the noise label and lacks the combination incentive of true and 1, which leads to the weak robustness of the model and the poor classification effect, a cascaded BiLSTM-Capsule Network for Noisy Multi-Label Text Classification, CBCN, is proposed for short text datasets. The algorithm uses capsule neural network to extract spatial semantic features between tokens, and uses multi-layer cascaded BiLSTM to perform multi-level feature extraction from input text. It utilizes noise sample training and augmentation training to distinguish real labels from noise labels, thereby achieving correct multi-label combination recognition. The accuracy of the CBCN algorithm on the two public English data sets of AAPD and RCV1-V2 reaches 89.1% and 91.1%. This algorithm has strong robustness and generalization performance for solving noisy multi-label text classification problems.

    Keywords:text classification; capsule network; noisy multi-label algorithm; cascaded BiLSTM; robustness

    收稿日期: 2023-06-30

    基金項(xiàng)目: 遼寧省教育廳高等學(xué)?;究蒲许?xiàng)目面上項(xiàng)目(LJKMZ20221095); 遼寧省教育科學(xué)“十四五”規(guī)劃課題(JG21DB076).

    作者簡(jiǎn)介:

    王水濤(1999—),男,碩士研究生;

    孫旭菲(1999—),男,碩士研究生.

    通信作者:

    張思佳(1982—),女,博士,副教授,碩士研究生導(dǎo)師,E-mail:zhangsijia@dlou.edu.cn.

    0 引 言

    隨著互聯(lián)網(wǎng)的發(fā)展,文本數(shù)據(jù)急劇增加,這些數(shù)據(jù)提供了更多可用信息,但文本的非結(jié)構(gòu)化性質(zhì)也使得人們更難從中發(fā)現(xiàn)自己感興趣的信息。在自然語(yǔ)言處理(natural language processing, NLP)領(lǐng)域中,多標(biāo)簽文本分類(multi label text classification,MLTC)是一項(xiàng)至關(guān)重要的任務(wù)。在MLTC任務(wù)中,每個(gè)文本可能會(huì)被分配一個(gè)或多個(gè)標(biāo)簽,這些標(biāo)簽可以描述文本的不同方面[1]。這種技術(shù)可應(yīng)用于文本推薦、社交媒體分析、搜索引擎優(yōu)化等領(lǐng)域。然而,實(shí)際應(yīng)用中,MLTC任務(wù)仍面臨著很大的挑戰(zhàn),由于現(xiàn)有標(biāo)注數(shù)據(jù)不足且存在不準(zhǔn)確性和噪聲,使用含有這些標(biāo)簽的語(yǔ)料實(shí)現(xiàn)自動(dòng)文本分類仍然具有挑戰(zhàn)性[2-3]。因此,如何提高M(jìn)LTC的準(zhǔn)確性和魯棒性是該領(lǐng)域的重要研究方向。

    本文針對(duì)噪聲問(wèn)題,提出融合級(jí)聯(lián)BiLSTM和膠囊網(wǎng)絡(luò)的噪聲多標(biāo)簽文本分類算法CBCN。CBCN算法首先使用經(jīng)改造的隨機(jī)噪聲樣本訓(xùn)練一個(gè)多標(biāo)簽回歸模型,通過(guò)該模型分辨每個(gè)樣本的隨機(jī)噪聲標(biāo)簽組合的真?zhèn)?,增?qiáng)算法對(duì)偽標(biāo)簽的鑒別能力,然后基于該模型訓(xùn)練原始多標(biāo)簽分類數(shù)據(jù)集,達(dá)到對(duì)樣本的多標(biāo)簽分類。

    1 多標(biāo)簽文本分類相關(guān)算法研究

    近年來(lái),多標(biāo)簽文本分類相關(guān)算法研究不斷涌現(xiàn)。在大數(shù)據(jù)環(huán)境下,機(jī)器學(xué)習(xí)技術(shù)取得了顯著的進(jìn)展。其中,BR(binary relevance)算法[4]簡(jiǎn)單直觀地將多標(biāo)簽分類問(wèn)題轉(zhuǎn)化為多個(gè)獨(dú)立的二分類問(wèn)題,但忽視了標(biāo)簽之間的相關(guān)性,獨(dú)立處理每個(gè)標(biāo)簽,無(wú)法充分利用標(biāo)簽關(guān)聯(lián)信息;CC(classifier chains)算法[5]考慮到了標(biāo)簽之間的相關(guān)性,通過(guò)鏈?zhǔn)浇Y(jié)構(gòu)將標(biāo)簽串聯(lián)起來(lái),每個(gè)標(biāo)簽的預(yù)測(cè)都考慮了前面已經(jīng)預(yù)測(cè)的標(biāo)簽結(jié)果,但是鏈?zhǔn)浇Y(jié)構(gòu)可能導(dǎo)致錯(cuò)誤的傳播,如果前面的標(biāo)簽預(yù)測(cè)錯(cuò)誤,可能會(huì)影響后續(xù)標(biāo)簽的預(yù)測(cè);ML-DT(multi-label decision tree)算法[6]考慮了標(biāo)簽之間的相關(guān)性,通過(guò)構(gòu)建決策樹(shù)來(lái)捕捉標(biāo)簽關(guān)聯(lián),并在每個(gè)節(jié)點(diǎn)上選擇最佳的劃分標(biāo)簽,以提高分類準(zhǔn)確性,但是在構(gòu)建決策樹(shù)時(shí),僅考慮了單個(gè)節(jié)點(diǎn)上的標(biāo)簽相關(guān)性,沒(méi)有全局優(yōu)化標(biāo)簽組合的相關(guān)性;ML-KNN(multi-label k-nearset neighbor)算法[7]利用樣本之間的相似性來(lái)進(jìn)行分類,通過(guò)最近鄰樣本的標(biāo)簽分布來(lái)預(yù)測(cè)當(dāng)前樣本的標(biāo)簽,能夠考慮標(biāo)簽之間的關(guān)聯(lián)性,對(duì)于標(biāo)簽分布不均衡或不具有代表性的情況下也能產(chǎn)生準(zhǔn)確的預(yù)測(cè)結(jié)果。但它對(duì)于每個(gè)樣本都需要計(jì)算最近鄰樣本的標(biāo)簽分布,計(jì)算復(fù)雜度較高,此外,ML-KNN算法對(duì)于存在噪聲或沖突標(biāo)簽的情況,容易受到干擾,影響預(yù)測(cè)準(zhǔn)確性。

    雖然傳統(tǒng)機(jī)器學(xué)習(xí)算法在一些任務(wù)上取得了不錯(cuò)的效果,但在應(yīng)對(duì)一些難以處理的高復(fù)雜度任務(wù)時(shí),傳統(tǒng)機(jī)器學(xué)習(xí)算法很難取得優(yōu)異的性能?;诖搜芯空咛岢隽烁鞣N基于深度神經(jīng)網(wǎng)絡(luò)的MLTC模型,如卷積神經(jīng)網(wǎng)絡(luò)CNN(convolutional neural networks)[8]在處理文本任務(wù)方面取得了不錯(cuò)的結(jié)果,但忽視了文本的長(zhǎng)期依賴性和全局語(yǔ)義信息,沒(méi)有考慮了標(biāo)簽之間的相關(guān)性;HLSE(hierarchical label set expansion)算法[9]能夠利用標(biāo)簽的層級(jí)結(jié)構(gòu)進(jìn)行建模,考慮了標(biāo)簽之間的關(guān)聯(lián)性,可以更好地處理標(biāo)簽之間的層級(jí)關(guān)系,提升多標(biāo)簽分類的準(zhǔn)確性。但需要事先確定標(biāo)簽的層級(jí)結(jié)構(gòu),但對(duì)于沒(méi)有明確層級(jí)關(guān)系的標(biāo)簽集合可能無(wú)法有效應(yīng)用。WU等[10]提出了基于標(biāo)簽組合與融合注意力的多標(biāo)簽文本分類算法,結(jié)合了標(biāo)簽組合和注意力機(jī)制,能夠更好地捕捉標(biāo)簽之間的相關(guān)性和重要性,但該算法的計(jì)算復(fù)雜度較高,特別是對(duì)于大規(guī)模標(biāo)簽集合和長(zhǎng)文本序列,可能需要更多的計(jì)算資源和時(shí)間;YANG等[11]提出將CNN-SAM和GAT相融合的多標(biāo)簽文本分類算法,使用可以同時(shí)捕捉文本的局部特征和全局語(yǔ)義信息,提高了多標(biāo)簽分類的性能。但對(duì)于具有大量標(biāo)簽和復(fù)雜關(guān)聯(lián)性的問(wèn)題適用性較差;CHEN等[12]提出基于混合注意力Seq2seq選項(xiàng)多標(biāo)簽分類算法,結(jié)合了序列到序列模型和混合注意力機(jī)制,利用多頭自注意力[13]以及標(biāo)簽嵌入學(xué)習(xí)候選標(biāo)簽之間的隱式關(guān)聯(lián)語(yǔ)義特征,能夠同時(shí)建模序列關(guān)系和標(biāo)簽組合關(guān)系,但存在較高的計(jì)算復(fù)雜度,并且對(duì)于標(biāo)簽集合較大的情況可能面臨模型過(guò)擬合的風(fēng)險(xiǎn);HUANG等[14]提出一種基于MSML-BERT模型的層級(jí)多標(biāo)簽文本分類算法,設(shè)計(jì)了多尺度特征抽取模塊,用于捕捉不同尺度和粒度的特征以形成不同層級(jí)需要的各種知識(shí),但算法對(duì)計(jì)算資源要求較高,需要大量的訓(xùn)練數(shù)據(jù);LIU等[15]提出基于多模型融合的多標(biāo)簽分類算法ATT-Capsule-BiLSTM,使用Multi-Head Attention、膠囊網(wǎng)絡(luò)[16]以及BiLSTM等3個(gè)模型聯(lián)合實(shí)現(xiàn)對(duì)文本的特征抽取,能夠更好地捕捉文本的語(yǔ)義信息和上下文依賴性,但該算法的模型復(fù)雜度較高,對(duì)于大規(guī)模數(shù)據(jù)集和復(fù)雜的標(biāo)簽組合關(guān)系,可能需要更多的計(jì)算資源和更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。

    綜上所述,對(duì)于多標(biāo)簽文本分類任務(wù),研究方向主要集中在兩個(gè)方面:①考慮多標(biāo)簽之間的層次語(yǔ)義關(guān)聯(lián),多標(biāo)簽建模和文本建模相結(jié)合,從兩個(gè)維度來(lái)實(shí)現(xiàn)對(duì)文本的建模,達(dá)到對(duì)多標(biāo)簽的精準(zhǔn)分類效果;②多模型融合方法實(shí)現(xiàn)對(duì)文本多角度建模,達(dá)到對(duì)多標(biāo)簽的分類,提取文本特征達(dá)到較高地多標(biāo)簽分類準(zhǔn)確率。但是以上研究都沒(méi)有考慮到樣本可能出現(xiàn)噪聲問(wèn)題對(duì)結(jié)果的影響。

    基于以上算法啟發(fā)設(shè)計(jì)了CBCN算法,使用膠囊神經(jīng)網(wǎng)絡(luò)提取樣本token之間的空間語(yǔ)義特征,在不同的特征層次上對(duì)特征進(jìn)行聚合,從而提高分類性能;然后使用基于多層級(jí)聯(lián)BiLSTM逐層提取樣本特征,同時(shí)設(shè)置矩陣κ作為級(jí)聯(lián)BiLSTM的輸入特征自適應(yīng)參數(shù),作為門控參數(shù)控制各層BiLSTM的特征輸入,對(duì)輸入的文本進(jìn)行多層次的特征提取,從而更好地捕捉文本中的語(yǔ)義信息。該模型訓(xùn)練分為噪聲樣本訓(xùn)練和增強(qiáng)訓(xùn)練兩個(gè)部分:噪聲樣本訓(xùn)練通過(guò)參數(shù)控制噪聲標(biāo)簽規(guī)模,使用sigmoid激活函數(shù)預(yù)測(cè)樣本的真實(shí)標(biāo)簽,采用歐式距離求解真實(shí)標(biāo)簽與噪聲標(biāo)簽之間的距離作為損失,最大化該損失實(shí)現(xiàn)辨別噪聲標(biāo)簽;增強(qiáng)訓(xùn)練,加載預(yù)訓(xùn)練模型對(duì)原始數(shù)據(jù)集進(jìn)行多標(biāo)簽分類訓(xùn)練,識(shí)別正確的多標(biāo)簽組合。

    2 CBCN算法噪聲數(shù)據(jù)集構(gòu)建

    CBCN算法訓(xùn)練過(guò)程主要分為偽標(biāo)簽回歸訓(xùn)練和多標(biāo)簽強(qiáng)化訓(xùn)練。對(duì)偽標(biāo)簽回歸訓(xùn)練而言,數(shù)據(jù)集來(lái)源于原始數(shù)據(jù)集,對(duì)原始數(shù)據(jù)集每個(gè)樣本的標(biāo)簽隨機(jī)替換得到新的樣本,從而構(gòu)建新的噪聲數(shù)據(jù)集。對(duì)數(shù)據(jù)集樣本的多標(biāo)簽表示定義為

    SMLk,label=[fig(l(k,i)),…,fig(l(k,la))]T

    fig(k)=1,l(k,i) existed

    0,otherwise(1)

    其中:la為多標(biāo)簽數(shù)據(jù)集標(biāo)簽規(guī)模;l(k,i)為第k個(gè)樣本的第i個(gè)位置是否存在標(biāo)簽,如果存在,則此位置的值為1,否則為0。例如:一個(gè)樣本的標(biāo)簽為[1,5,8],L取值為9,那么依據(jù)式(1),該樣本的標(biāo)簽轉(zhuǎn)化為:[0, 1, 0, 0, 0, 1, 0, 0, 1]。

    基于原始數(shù)據(jù)集,噪聲數(shù)據(jù)集構(gòu)建如算法1所示。

    算法1 噪聲數(shù)據(jù)集構(gòu)建

    //原始數(shù)據(jù)集SML,噪聲數(shù)據(jù)集SLML,標(biāo)簽數(shù)目

    //原數(shù)據(jù)集規(guī)模S,噪聲數(shù)據(jù)集規(guī)模L,比例γ

    1.輸入:SML、S、L、γ

    2.輸出:SLML

    3.For k in {0,1,…,S} /**Loop in SML**/

    4. len←‖SMLk,label‖

    5. index←sample({0,…len},len×γ)

    6. lab←SMLk,label

    7. For cur in index

    8." lab[cur]←rand(),lab[cur]≠rand()

    9. add [SMLk,txt,lab[cur]] to SLML

    10. If size SLML≤SL

    11. Delete all unreplaced labels

    12. Break

    13.END

    算法1中,MLk,label表示第k個(gè)樣本的真實(shí)標(biāo)簽,MLk,txt表示第k個(gè)樣本的文本。從算法1可知,構(gòu)建噪聲數(shù)據(jù)集的規(guī)模由參數(shù)L決定,樣本噪聲比例由參數(shù)γ決定?;谝陨蟽蓚€(gè)參數(shù)可確定噪聲樣本集最大噪聲規(guī)模為

    L≤∑Sk=0∏lenkj=0(k,j-1)γλk(2)

    其中:lenk為第k個(gè)樣本的實(shí)際標(biāo)簽數(shù)目;λk表示當(dāng)前樣本k的標(biāo)簽數(shù)目;為標(biāo)簽集規(guī)模;k,j為樣本k的第j個(gè)位置,k,j-1表示除當(dāng)前樣本k的第j個(gè)位置最多能被偽標(biāo)簽替代的個(gè)數(shù),基于式(2)可知,構(gòu)造的噪聲數(shù)據(jù)集規(guī)模與原數(shù)據(jù)集規(guī)模滿足式(3)所示的關(guān)系。然后刪掉所有未被替換的真實(shí)標(biāo)簽,得到純?cè)肼晹?shù)據(jù)集,故實(shí)際得到的噪聲樣本,其噪聲樣本標(biāo)簽數(shù)目不大于原樣本的真實(shí)標(biāo)簽數(shù)目。

    scale≤1S∑Sk=0∏lenkj=0(k,j-1)γ

    (k,j-1)gt;0,Sgt;0(3)

    從式(3)可看出,算法構(gòu)建出的噪聲樣本能夠極大的豐富原始數(shù)據(jù)集,且由于噪聲比例γ的不同的設(shè)置,以及偽標(biāo)簽隨機(jī)替換的多樣性,有助于本文算法在偽標(biāo)簽識(shí)別訓(xùn)練階段學(xué)習(xí)所有可能的噪聲標(biāo)簽組合,倘若算法能夠正常收斂,那么預(yù)訓(xùn)練階段算法就能夠甄別所有異常的噪聲標(biāo)簽組合,在原始數(shù)據(jù)集強(qiáng)化訓(xùn)練階段只需要甄別所有正常標(biāo)簽組合,極大地緩解了由于算法難以甄別異常組合標(biāo)簽而導(dǎo)致識(shí)別準(zhǔn)確率不足的問(wèn)題。

    文章對(duì)AAPD和RCV1-V2兩個(gè)公開(kāi)英文數(shù)據(jù)集上構(gòu)建噪聲數(shù)據(jù)集開(kāi)展本文算法的對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn),與其他算法之間的對(duì)比實(shí)驗(yàn)均基于表1。

    3 融合級(jí)聯(lián)BiLSTM和膠囊網(wǎng)絡(luò)的噪聲多標(biāo)簽分類算法設(shè)計(jì)

    首先使用預(yù)訓(xùn)練模型BERT實(shí)現(xiàn)對(duì)文本token的詞嵌入,詞嵌入如式(4)所示:

    embedm=BERT({w0,…,wN}|η)

    ‖embedm‖=N×768(4)

    式中:m為當(dāng)前樣本正文,其token序列是{w0,…,wN};參數(shù)η為BERT網(wǎng)絡(luò)參數(shù)。經(jīng)BERT預(yù)訓(xùn)練模型處理后的詞嵌入模型文本變成N×768矩陣,每個(gè)token均映射成1×768向量。

    在算法設(shè)計(jì)上,本文提出融合級(jí)聯(lián)BiLSTM和膠囊網(wǎng)絡(luò)的噪聲多標(biāo)簽分類算法——CBCN,該算法分為基于融合級(jí)聯(lián)BiLSTM和膠囊網(wǎng)絡(luò)的噪聲樣本多標(biāo)簽回歸模型BinaryM和基于融合級(jí)聯(lián)BiLSTM和膠囊網(wǎng)絡(luò)的多標(biāo)簽分類模型MultiM。

    3.1 基于融合級(jí)聯(lián)BiLSTM和膠囊網(wǎng)絡(luò)的噪聲樣本多標(biāo)簽回歸模型

    BinaryM模型的目的是最大程度辨別噪聲標(biāo)簽和真實(shí)標(biāo)簽。模型的全連接層使用sigmoid函數(shù)激活,預(yù)測(cè)每個(gè)樣本所有可能標(biāo)簽的可信度,將對(duì)多標(biāo)簽的分類預(yù)測(cè)問(wèn)題轉(zhuǎn)變?yōu)槎鄻?biāo)簽可信度回歸預(yù)測(cè),取值區(qū)間為(0~1),故該模型的最終輸出矩陣規(guī)模為B×L,B是訓(xùn)練階段小批量樣本規(guī)模,L是源數(shù)據(jù)集真實(shí)標(biāo)簽規(guī)模?;诮?jīng)典標(biāo)簽分類的方法而言,神經(jīng)網(wǎng)絡(luò)的一種最終輸出規(guī)模為:B×L×L,基于回歸的方法能夠極大地縮小標(biāo)簽預(yù)測(cè)空間。

    使用噪聲數(shù)據(jù)集訓(xùn)練BinaryM模型,BinaryM模型的作用是識(shí)別噪聲樣本中所有的偽標(biāo)簽,從而學(xué)習(xí)標(biāo)簽之間的內(nèi)在互斥和關(guān)聯(lián)關(guān)系;BinaryM使用歐氏距離作為損失,學(xué)習(xí)噪聲多標(biāo)簽樣本偽標(biāo)簽與預(yù)測(cè)標(biāo)簽之間的顯著差異,以最大化該差異作為優(yōu)化目標(biāo)即最大化lossb,損失函數(shù)為

    lossb=1B∑Bk=0∑lenkj=0y--y*)2

    μ∈y*,μ∈{0,1}(5)

    其中:B為訓(xùn)練批次大小,取值為32或64;lenk為當(dāng)前樣本實(shí)際標(biāo)簽個(gè)數(shù),取值大于等于1;y-為BinaryM模型對(duì)真實(shí)標(biāo)簽的預(yù)測(cè)結(jié)果;y*為樣本的多標(biāo)簽噪聲樣本,其中y-滿足公式(6):

    y-=sigmoid(f(xj|θrnn,θcaps,θmlp))

    ρ∈y-,0lt;ρlt;1(6)

    從公式(6)可知,算法使用sigmoid激活函數(shù)將全連接層的輸出映射成(0~1),轉(zhuǎn)換成概率。當(dāng)‖y--y*‖趨近于0時(shí),lossb趨近取得最大值,此時(shí)BinaryM模型預(yù)測(cè)的標(biāo)簽無(wú)限接近真實(shí)標(biāo)簽,從而與噪聲標(biāo)簽顯著區(qū)分。由于使用梯度下降策略優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù),將公式(5)改造成公式(7)。

    lossb=B∑Bk=0∑lenkj=0(y--y*)2+ε

    μ∈y*,μ∈{0,1}

    ρ∈y-,0lt;ρlt;1

    εlt;109(7)

    最小化式(7)中的損失、優(yōu)化模型參數(shù)。其中,參數(shù)ε是正則項(xiàng),為一個(gè)極小的浮點(diǎn)數(shù)。優(yōu)化目標(biāo)是最小化lossb。

    3.2 基于融合級(jí)聯(lián)BiLSTM和膠囊網(wǎng)絡(luò)的多標(biāo)簽分類模型

    基于原始數(shù)據(jù)集訓(xùn)練MultiM模型,MultiM模型的目的是預(yù)測(cè)樣本的所有可能標(biāo)簽組合。由于BinaryM模型已經(jīng)能夠顯著甄別噪聲標(biāo)簽與真實(shí)標(biāo)簽,而MultiM模型在BinaryM模型的基礎(chǔ)上能夠更加高效地識(shí)別正確的標(biāo)簽組合而不用關(guān)心虛假標(biāo)簽組合,從而提高對(duì)樣本標(biāo)簽預(yù)測(cè)的效率。MultiM本質(zhì)是多標(biāo)簽分類,使用交叉熵作為多標(biāo)簽分類損失,損失函數(shù)如式(8)所示,兩個(gè)階段訓(xùn)練的總損失函數(shù)如式(9)所示:

    lossm=1B∑Bk=0∑lenkj=0∑z=0-pk,j,zlog(pk,j,z)(8)

    loss=1B∑Bk=0∑lenkj=0∑z=0-pk,j,zlog(pk,j,z)+

    B1∑Bk=0∑lenkj=0(y-j-y*j)2+ε(9)

    CBCN算法的基本框架如圖1所示。其中,BinaryM與MultiM均使用BERT詞向量初始化模型。在預(yù)訓(xùn)練模型之后,是一個(gè)由三層卷積組成,用于多標(biāo)簽文本分類的基礎(chǔ)網(wǎng)絡(luò)模塊Basic Block,用于捕捉文本中的局部結(jié)構(gòu)信息,并自動(dòng)學(xué)習(xí)文本表示以從原始文本中提取有用的特征,確保輸出的特征矩陣在經(jīng)過(guò)卷積層后具有適當(dāng)?shù)某叽?,從原始文本中提取有用的特征,以便后續(xù)的分類任務(wù)使用。

    使用多層門控BiLSTM提取文本時(shí)序特征,采用膠囊神經(jīng)網(wǎng)絡(luò)提取樣本token之間的空間特征,為減少模型規(guī)模,膠囊神經(jīng)網(wǎng)絡(luò)的路由深度設(shè)置為2。

    3.3 CBCN特征提取模塊

    基于膠囊網(wǎng)絡(luò)和級(jí)聯(lián)BiLSTM分別提取文本嵌入矩陣的特征,最后在特征層進(jìn)行融合得到分類特征。膠囊網(wǎng)絡(luò)以及門控多層BiLSTM特征提取文本嵌入矩陣如算法2所示。

    算法2 噪聲數(shù)據(jù)集構(gòu)建多標(biāo)簽文本特征提取

    //原始數(shù)據(jù)集SML,噪聲數(shù)據(jù)集SLML,標(biāo)簽數(shù)目

    //原數(shù)據(jù)集規(guī)模S,噪聲數(shù)據(jù)集規(guī)模L

    //門控因子θ,塊迭代器It,塊大小B,融合特征f

    1)輸入:SML、SLML、S、L、θ

    2)輸出:f

    3)Repeat

    4) BTrue←It(SML|{embed1,…,B})

    5) BNoise←It(SLML|{embed1,…,B})

    6) BasicCapsT←Caps(BTrue|capsule,ρ)

    7) BasicCapsF←Caps(BNoise|capsule,ρ)

    8) Fea←concat(BasicCapsT,BasicCapsF)

    9) Fcaps←DigitCaps(Fea|κ,iter=2)

    10) For k in {1,2,…,N}

    11)" Bbilstm,k=θk×BI(Bbilstm,k-1|k)

    12) f←concat(Bfea,N,F(xiàn)ea)

    13)END

    算法2中,BTrue為從源數(shù)據(jù)集ML中小批量隨機(jī)采樣得到的樣本,BNoise為從純?cè)肼晿颖緮?shù)據(jù)集LML中小批量隨機(jī)采樣得到的樣本,單次采樣規(guī)模為B。CBCN參數(shù)訓(xùn)練時(shí)BTrue和BNoise同時(shí)作為其的輸入,通過(guò)式(9)計(jì)算聯(lián)合損失,采用梯度下降方式更新參數(shù)。參數(shù)N是級(jí)聯(lián)BiLSTM的層數(shù),BI是BiLSTM模型表示。

    基于門控多層BiLSTM和膠囊網(wǎng)絡(luò)的文本特征提取,然后將二者得到的特征矩陣進(jìn)行拼接,得到最終的特征f,特征矩陣f如式(10)所示。其中,符號(hào)‖*‖表示對(duì)矩陣取模,符號(hào)表示兩個(gè)特征矩陣進(jìn)行特征維度鏈接。

    f=fbilstm,Nfcaps

    ‖fbilstm,N‖=B×L×64

    ‖fcaps‖=B×L×128

    ‖f‖=B×L×192(10)

    由式(10)可見(jiàn),將最后一層BiLSTM每層細(xì)胞的輸出作為文本特征,然后與膠囊網(wǎng)絡(luò)得到的特征進(jìn)行融合。細(xì)胞個(gè)數(shù)與總標(biāo)簽數(shù)目相同,每個(gè)細(xì)胞的輸出即為對(duì)應(yīng)位置的標(biāo)簽預(yù)測(cè)結(jié)果。

    4 實(shí) 驗(yàn)

    4.1 實(shí)驗(yàn)環(huán)境

    本文所使用的數(shù)據(jù)集為AAPD和RCV1-V2多標(biāo)簽文本數(shù)據(jù)集,計(jì)算機(jī)算力RTX 2080Ti,操作系統(tǒng)Ubuntu18.04,內(nèi)存16GB,硬盤大小1000GB,CPU核數(shù)4核,個(gè)數(shù)1~3個(gè);批次大小64,學(xué)習(xí)率0.001,截?cái)鄵p失100。由于CBCN算法的損失函數(shù)為偽標(biāo)簽識(shí)別和真實(shí)標(biāo)簽組合的識(shí)別,故損失函數(shù)由兩部分組成:歐氏距離和交叉熵。

    4.2 數(shù)據(jù)集

    CBCN算法與對(duì)比算法在AAPD數(shù)據(jù)集和RCV1-V2數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。

    1)AAPD

    該數(shù)據(jù)集是由Yang等[17]收集的,其中包含計(jì)算機(jī)科學(xué)領(lǐng)域及相關(guān)學(xué)科的55840篇論文摘要。每篇學(xué)術(shù)論文可有涵蓋多個(gè)學(xué)科,共有54個(gè)學(xué)科。

    2)RCV1-V2

    該數(shù)據(jù)集是由Lewis等[18]提供的,其中包含路透社收集的新聞專題故事80余萬(wàn)篇,每個(gè)專題故事涉及到多個(gè)主題,共有103個(gè)主題。

    其中,A和R分別表示AAPD數(shù)據(jù)集和RCV1-V2數(shù)據(jù)集樣本標(biāo)簽數(shù)目,強(qiáng)化訓(xùn)練階段所使用的數(shù)據(jù)集的基本信息如表2所示。

    由于所使用的數(shù)據(jù)集的每個(gè)樣本均包含多個(gè)標(biāo)簽,且標(biāo)簽總數(shù)目較多,使得算法能夠有效地識(shí)別出錯(cuò)誤標(biāo)簽的組合以及正確識(shí)別出正確標(biāo)簽組合。鑒于CBCN算法特點(diǎn),基于AAPD數(shù)據(jù)集以及RCV1-V2數(shù)據(jù)集構(gòu)建噪聲數(shù)據(jù)集,分別設(shè)置不同的噪聲序列長(zhǎng)度比例γ值,構(gòu)造偽標(biāo)簽數(shù)據(jù)集,具體構(gòu)建算法見(jiàn)算法1,構(gòu)建得到的新數(shù)據(jù)集分別命名為AAPD-以及RCV1-V2-,基于噪聲數(shù)據(jù)集訓(xùn)練噪聲樣本的數(shù)據(jù)集的基本信息如表3所示。

    根據(jù)表3的內(nèi)容,可以看出本文在構(gòu)建噪聲數(shù)據(jù)集時(shí)使用了所有的訓(xùn)練集和測(cè)試集,即對(duì)于每個(gè)樣本都構(gòu)造了純?cè)肼晿?biāo)簽。在訓(xùn)練CBCN模型時(shí),從噪聲數(shù)據(jù)集和源數(shù)據(jù)集中隨機(jī)抽取了若干樣本進(jìn)行訓(xùn)練。這種做法可以增加模型的魯棒性,提高模型對(duì)于噪聲數(shù)據(jù)的適應(yīng)能力。同時(shí),使用所有的訓(xùn)練集和測(cè)試集構(gòu)建噪聲數(shù)據(jù)集也可以更好地模擬實(shí)際場(chǎng)景中的噪聲情況,提高模型的泛化能力。

    4.3 CBCN算法對(duì)比實(shí)驗(yàn)

    評(píng)價(jià)指標(biāo)均基于Macro,分別是:Macro-Precision、Macro-Recall、Macro-F1。這3個(gè)評(píng)估指標(biāo)是將所有類別的Precision和Recall求平均,然后計(jì)算F1值作為Macro-F1。使用的3種評(píng)價(jià)指標(biāo)的計(jì)算過(guò)程如式(11)和式(12)所示:

    fprecision=TPTP+FP

    frecall=TPTP+FN

    F1=2fprecisionfrecallfprecision+frecall(11)

    fprecisionmacro=∑ni=1fprecisionin

    frecallmacro=∑ni=1frecallin

    F1macro=2fprecisionmacrofrecallmacrofprecisionmacro+frecallmacro(12)

    其中:TP為真陽(yáng)例,F(xiàn)P為假陽(yáng)例,F(xiàn)N為假陰例,TN為真陰例。

    4.3.1 不同噪聲規(guī)模下的自身對(duì)比實(shí)驗(yàn)

    本節(jié)基于表3中γ的不同取值開(kāi)展CBCN算法的對(duì)比實(shí)驗(yàn),驗(yàn)證不同的γ取值下噪聲樣本對(duì)算法的影響,實(shí)驗(yàn)結(jié)果匯總?cè)绫?所示。

    從表4可看出,算法在AAPD以及RCV1-V2兩個(gè)數(shù)據(jù)集上均達(dá)到了較高的評(píng)價(jià)指標(biāo)。AAPD數(shù)據(jù)集和RCV1-V2數(shù)據(jù)集在當(dāng)γ=0.4時(shí)達(dá)到了相對(duì)最高的評(píng)價(jià)指標(biāo),在AAPD數(shù)據(jù)集上的準(zhǔn)確率最高達(dá)到了0.891,RCV1-V2數(shù)據(jù)集上的準(zhǔn)確率最高達(dá)到了0.911。由于AAPD以及RCV1-V2兩個(gè)數(shù)據(jù)集總標(biāo)簽規(guī)模相差巨大,算法仍然能夠適應(yīng)這種差異,實(shí)現(xiàn)同等精度實(shí)驗(yàn)結(jié)果,說(shuō)明模型的魯棒性較強(qiáng)。

    4.3.2 與其他主流模型的對(duì)比實(shí)驗(yàn)

    SGM將多標(biāo)簽分類問(wèn)題轉(zhuǎn)換為序列生成問(wèn)題,采用新穎的解碼器和注意力結(jié)構(gòu)。

    LEAM[19]將文本和標(biāo)簽進(jìn)行聯(lián)合嵌入從而獲得更具識(shí)別性的文本表征。

    LSAN[20]基于標(biāo)簽語(yǔ)義注意力學(xué)習(xí)特定于標(biāo)簽的文本表征。

    HTTN[21]將頭部標(biāo)簽的元知識(shí)轉(zhuǎn)移到尾部標(biāo)簽,從而解決長(zhǎng)尾標(biāo)簽問(wèn)題。

    AAPD數(shù)據(jù)集的對(duì)比實(shí)驗(yàn)結(jié)果匯總?cè)绫?所示。

    由表5可見(jiàn),本文算法在γ=0.2、γ=0.3以及γ=0.4等3種比例噪聲樣本下,在AAPD數(shù)據(jù)集上的實(shí)驗(yàn)效果明顯優(yōu)于各種對(duì)比算法,與SGM、LEAM、LSAN、HTTN、Wu這5種算法相比,本文算法在準(zhǔn)確率上的最小提升率為31.21%,最大提升率為85.24%;在召回率上的最小提升率為26.60%,最大提升率為93.40%;在F1值上的最小提升率為33.28%,最大提升率為89.90%。

    BR將多標(biāo)簽分類問(wèn)題轉(zhuǎn)換為多個(gè)單標(biāo)簽分類問(wèn)題。

    CC將多標(biāo)簽分類問(wèn)題轉(zhuǎn)換為二元分類問(wèn)題鏈從而建模標(biāo)簽之間的關(guān)系。

    ML-DT使用決策樹(shù)的思想來(lái)處理多標(biāo)簽數(shù)據(jù),遞歸地構(gòu)建一棵決策樹(shù),每次選取特征和劃分值,使得信息增益最大。

    ML-KNN根據(jù)預(yù)測(cè)數(shù)據(jù)在訓(xùn)練數(shù)據(jù)的最近鄰中個(gè)標(biāo)記的分布情況,采用最大化后驗(yàn)概率的原則決定測(cè)試樣例是否與某一標(biāo)記相關(guān)。

    BP-MLL[22]是第一個(gè)將傳統(tǒng)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換為多標(biāo)簽分類的算法??紤]了不同標(biāo)簽之間的關(guān)系,取得了更好的效果。

    CNN利用卷積神經(jīng)網(wǎng)絡(luò)捕獲文本局部語(yǔ)義信息,并對(duì)多標(biāo)簽分類損失函數(shù)進(jìn)行優(yōu)化。

    HLSE是基于樹(shù)的方式,對(duì)于已經(jīng)分類的標(biāo)簽,運(yùn)用HLSE算法可以搜尋到該標(biāo)簽的上級(jí)。

    SERL[23]形式化了在隨機(jī)游走過(guò)程中探索相應(yīng)節(jié)點(diǎn)鄰域時(shí)融合不同語(yǔ)義路徑的方式,然后利用異構(gòu) skip-gram 模型執(zhí)行節(jié)點(diǎn)嵌入。

    DSRM-1[24]是一種結(jié)合動(dòng)態(tài)語(yǔ)義表示模型和深度神經(jīng)網(wǎng)絡(luò)分類器的新型文本分類方法,所提出的方法通過(guò)更新文本挖掘技術(shù)和優(yōu)化文本分類器來(lái)提高分類性能。

    CBCN-1、CBCN-2、CBCN-3分別時(shí)算法CBCN在γ=0.2、γ=0.3以及γ=0.4時(shí)對(duì)應(yīng)的3個(gè)指標(biāo)值具體詳見(jiàn)表6。

    從表6可看出本文算法在CBCN-1、CBCN-2、CBCN-3等3個(gè)不同噪聲標(biāo)簽設(shè)置下在數(shù)據(jù)集RCV1-V2數(shù)據(jù)集上的3種指標(biāo)值均高于所有的對(duì)比算法。

    CBCN算法相對(duì)于其他主要算法的評(píng)價(jià)指標(biāo)提升率匯總?cè)绫?所示,提升率公式如式(13)所示,Ur代表提升率,ACBCN代表使用所提出算法的評(píng)價(jià)指標(biāo),BX代表其他算法對(duì)應(yīng)的評(píng)價(jià)指標(biāo)。

    Ur=(ACBCN-BXBX)×100%(13)

    基于以上對(duì)比結(jié)果,本文算法在對(duì)比指標(biāo)上的單個(gè)對(duì)比算法上的提升率均為正,且在不同的噪聲標(biāo)簽個(gè)數(shù)設(shè)置下,本文算法評(píng)價(jià)指標(biāo)均高于對(duì)比算法,實(shí)驗(yàn)表明本文算法具有一定的優(yōu)勢(shì)。

    4.4 消融實(shí)驗(yàn)

    為進(jìn)一步驗(yàn)證算法的合理性,設(shè)置如下消融實(shí)驗(yàn), 消融實(shí)驗(yàn)結(jié)果如表8所示。

    1)去掉純?cè)肼晹?shù)據(jù)集SLML,僅使用源數(shù)據(jù)集訓(xùn)練算法CBCN;

    2)去掉門控參數(shù)θ,每個(gè)級(jí)聯(lián)Bi-LSTM簡(jiǎn)單級(jí)聯(lián),既沒(méi)有矩陣κ來(lái)根據(jù)樣本特征自適應(yīng)參數(shù),減少模型的冗余度的情況;

    3)去掉CapsNet模塊,僅用級(jí)聯(lián)BiLSTM開(kāi)展實(shí)驗(yàn)。

    從表8的消融實(shí)驗(yàn)可看出,門控參數(shù)θ在一定程度上能夠有效地約束各層BiLSTM之間的特征學(xué)習(xí),純?cè)肼晹?shù)據(jù)集SLML對(duì)提升CBCN算法具有非常明顯的效果,膠囊網(wǎng)絡(luò)Caps會(huì)對(duì)CBCN算法的評(píng)價(jià)指標(biāo)造成大的影響,綜上所述,本文算法在各特征提取模塊的加持下,能夠達(dá)到相對(duì)最好的評(píng)價(jià)指標(biāo)。

    5 結(jié) 論

    本文提出的CBCN算法在噪聲多標(biāo)簽文本分類任務(wù)中取得了良好的效果,證明了該算法在學(xué)習(xí)標(biāo)簽分布和噪聲識(shí)別方面的有效性。該算法旨在解決多標(biāo)簽文本分類任務(wù)中數(shù)據(jù)稀缺和標(biāo)簽不平衡的問(wèn)題。通過(guò)使用數(shù)據(jù)增強(qiáng)算法和偽標(biāo)簽數(shù)據(jù)集,可以擴(kuò)充原始數(shù)據(jù)集,增加訓(xùn)練樣本的多樣性和數(shù)量,從而提高模型的泛化能力和性能。同時(shí),本文還探索了使用干凈數(shù)據(jù)集生成噪聲數(shù)據(jù)集的數(shù)據(jù)增強(qiáng)方法,為噪聲數(shù)據(jù)集的構(gòu)建提供了新思路。然而,本文算法仍存在一些局限性,例如當(dāng)算法的訓(xùn)練時(shí)間較長(zhǎng)時(shí),仍需要更多的計(jì)算資源和時(shí)間;該算法的應(yīng)用場(chǎng)景還需進(jìn)一步擴(kuò)展和驗(yàn)證,以適應(yīng)更多的實(shí)際需求。

    未來(lái)的研究將考慮如何進(jìn)一步提高算法的效率和魯棒性,以適應(yīng)更加復(fù)雜的噪聲數(shù)據(jù)集;后續(xù)將算法應(yīng)用到更多的實(shí)際場(chǎng)景中,以驗(yàn)證其適用性。

    參 考 文 獻(xiàn):

    [1] MINAEE S,KALCHBRENNER N,CAMBRIA E,et al. Deep Learning Based Text Classification: A Comprehensive Review[J].ACM Computing Surveys,2021,54(3): 1.

    [2] 秦健,侯建新,謝怡寧,等.醫(yī)療文本的小樣本命名實(shí)體識(shí)別[J].哈爾濱理工大學(xué)學(xué)報(bào),2021,26(4):94.

    QIN Jian, HOU Jianxin, XIE Yining, et al. Few-shot Named Entity Recognition for Medical Text[J]. Journal of Harbin University of Science and Technology, 2021,26(4):94.

    [3] 雷智文,黃玲.面向數(shù)字資源的自動(dòng)標(biāo)簽?zāi)P停跩].哈爾濱理工大學(xué)學(xué)報(bào),2020,25(3):144.

    LEI Zhiwen, HUANG Ling. An Automatic Tagging System Focused on Digital Resources[J]. Journal of Harbin University of Science and Technology, 2020,25(3):144.

    [4] BOUTELL M R, LUO Jiebo, SHEN Xipeng, et al. Learningmulti-label Scene Classification[J]. Pattern Recognition,2004, 37(9): 1757.

    [5] READ J,PFAHRINGER B,HOLMES G,et al.Classifier Chains for Multi-label Classification[J].Machine Learning,2011,85(3):333.

    [6] CLARE A,KING R D.Knowledge Discovery in Multi-label Phenotype Data[C] // Proceedings of European Conference on Principles of Data Mining and Knowledge Discovery,2001:42.

    [7] ZHANG Minling, ZHOU Zhihua. ML-KNN: A Lazy Learning Approach to Multi-label Learning[J]. Pattern Recognition, 2007, 40(7): 2038.

    [8] KIM Y. Convolutional Neural Networks for Sentence Classification[C]//Proceedings of the 2014 Conference Empirical Methods in Natural Language Proceeding, 2014:1746.

    [9] GARGIULO F, SILVESTRI S, CIAMPI M, et al. Deep Neural Network for Hierarchical Extreme Multi-label Text Classification[J]. Applied Soft Computing, 2019, 79(S): 125.

    [10]鄔鑫珂,孫俊,李志華. 采用標(biāo)簽組合與融合注意力的多標(biāo)簽文本分類[J]. 計(jì)算機(jī)工程與應(yīng)用, 2023, 59(6): 125.

    WU Xinke, SUN Jun, LI Zhihua. Multi-Label Text-Classification Based on Label Combination and Fusion of Attentions[J]. Computer Engineering and Applica-tions, 2023, 59(6): 125.

    [11]楊春霞,馬文文,陳啟崗,等. 融合CNN-SAM與GAT的多標(biāo)簽文本分類模型[J]. 計(jì)算機(jī)工程與應(yīng)用, 2023, 59(5): 106.

    YANG Chunxia, MA Wenwen, CHEN Qigang, et al. Multi-Label Text Classification Model Combining CNN-SAM and GAT[J]. Computer Engineering and Applic-ations, 2023, 59(5): 106.

    [12]陳千,韓林,王素格,等. 基于混合注意力Seq2seq模型的選項(xiàng)多標(biāo)簽分類[J]. 計(jì)算機(jī)工程與應(yīng)用, 2023, 59(4): 104.

    CHEN Qian, HAN Lin, WANG Suge, et al. Multi-Label Classification of Options Based on Seq2seq Model of Hybrid Attention[J]. Computer Engineering and Applications, 2023, 59(4): 104.

    [13]VASWANI A,SHAZEER N,PARMAR N.Attention is All You Need[C]//Proceeding of the 2017 Conference on Neural Information Processing System,2017:5998.

    [14]黃偉,劉貴全. MSML-BERT模型的層級(jí)多標(biāo)簽文本分類方法研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2022, 58(15):191.

    HUANG Wei, LIU Guiquan. Study on Hierarchical Multi-Label Text Classification Method of MSML-BERT Model[J]. Computer Engineering and Applications, 2022, 58(15): 191.

    [15]劉心惠,陳文實(shí),周愛(ài),等. 基于聯(lián)合模型的多標(biāo)簽文本分類研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2020, 56(14):111.

    LIU Xinhui, CHEN Wenshi, ZHOU Ai, et al. Multi-label Text Classification Based on Joint Model[J]. Computer Engineering and Applications, 2020, 56(14):111.

    [16]BRIGHT J, RAJKUMAR S, DOSS A S A. ME-CapsNet: A Multi-enhanced Capsule Networks Withrouting Mechanism[C]//2022 IEEE International Conference on Electronics, Computing and Communication Technolo-gies (CONECCT). IEEE, Bangalore, India, 2022: 1.

    [17]YANG Pengcheng,SUN Xu,LI Wei,et al.SGM:Sequence Generation Model for Multi-label Classification[J]. arXiv:1806.04822v3,2018.

    [18]LEWIS D D, YANG Yiming, RUSSELL-ROSE T, et al. Rcv1: A New Benchmark Collection for Text Cate-gorization Research[J]. Journal of Machine Learning Research, 2004, 5: 361.

    [19]WANG Guoyin,LI Chunyuan,WANG Wenlin,et al.Joint Embedding of Words and Labels for Text Classifi-cation[C]//Proc-eedings of the 56th Annual Meeting of the Association for Computational Lingui-stics,2018, 1:2321.

    [20]XIAO Lin,HUANG Xin,CHEN Boli,et al.Label Specific Document Representation for Multi-label Textcl-assification[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processingand the 9th International Joint Conference on Natural Language Processing,2019:466.

    [21]XIAO Lin, ZHANG Xiangliang, JING Liping, et al. Does Head Label Help for Long-tailed Multi-label Text Classification[C]//Proceedings of the AAAI Conferenceon Artificial Intelligence. 2021, 35(16): 14103.

    [22]ZHANG Minling, ZHOU Zhihua. Multilabel Neural Networks with Applications to Functional Genomics and Text Categorization[J]. IEEE Transactions on Knowledge and Data Engineering,2006,18(10): 1338.

    [23]HUANG Ming, ZHUANG Fuzhen, ZHANG Xiao, et al. Supervised Representation Learning for Multi-label Classification[J]. Mach. Learn., 2019(108): 747.

    [24]WANG Tianshi, LIU Li, LIU Naiwen, et al. A Multi-label Text Classification Method Via Dynamic Semantic Representation Model and Deep Neuralnetwork[J]. Applied Intelligence, 2020, 50(8): 2339.

    (編輯:溫澤宇)

    一级av片app| a级毛片a级免费在线| 全区人妻精品视频| 亚洲天堂国产精品一区在线| 俺也久久电影网| 亚洲18禁久久av| 男人舔奶头视频| 欧美绝顶高潮抽搐喷水| 成熟少妇高潮喷水视频| 1024手机看黄色片| 国产精品精品国产色婷婷| 免费高清视频大片| 日韩欧美三级三区| 99热网站在线观看| 一a级毛片在线观看| 波多野结衣高清无吗| 中文字幕人妻熟人妻熟丝袜美| 精品无人区乱码1区二区| 午夜激情欧美在线| 狂野欧美白嫩少妇大欣赏| 能在线免费观看的黄片| 精品人妻熟女av久视频| 美女xxoo啪啪120秒动态图| 亚洲自偷自拍三级| 免费av毛片视频| 一a级毛片在线观看| 亚洲中文字幕一区二区三区有码在线看| 桃色一区二区三区在线观看| 国产精品女同一区二区软件 | 午夜激情福利司机影院| videossex国产| 草草在线视频免费看| 永久网站在线| 日韩在线高清观看一区二区三区 | 中文字幕久久专区| 亚洲狠狠婷婷综合久久图片| 久久精品国产亚洲av涩爱 | 亚洲最大成人手机在线| 国产视频一区二区在线看| 午夜福利在线观看吧| 女同久久另类99精品国产91| 亚洲欧美清纯卡通| 亚洲专区中文字幕在线| 夜夜夜夜夜久久久久| 国产伦精品一区二区三区视频9| 中文字幕av在线有码专区| 精品久久久久久成人av| 在现免费观看毛片| 国产伦人伦偷精品视频| 在线免费观看的www视频| 午夜免费成人在线视频| 国产黄片美女视频| 国产探花在线观看一区二区| 久久久久性生活片| 99久久无色码亚洲精品果冻| 亚洲av成人av| 免费av毛片视频| 此物有八面人人有两片| 成人av一区二区三区在线看| 久久精品91蜜桃| av.在线天堂| 久久久久精品国产欧美久久久| 久久九九热精品免费| 亚洲国产精品成人综合色| 嫩草影院入口| 99久久无色码亚洲精品果冻| 亚洲四区av| 久久久久久久精品吃奶| 长腿黑丝高跟| 欧美日韩精品成人综合77777| 亚洲国产精品sss在线观看| 午夜免费成人在线视频| 久久国产乱子免费精品| 在线国产一区二区在线| 亚洲中文日韩欧美视频| 老熟妇乱子伦视频在线观看| 国产精品1区2区在线观看.| 久久久久久久久久成人| 直男gayav资源| 国产视频内射| 很黄的视频免费| 91精品国产九色| 尤物成人国产欧美一区二区三区| 亚洲在线自拍视频| 中文字幕av在线有码专区| 联通29元200g的流量卡| 可以在线观看毛片的网站| 在线播放无遮挡| 欧美激情久久久久久爽电影| 国产高清不卡午夜福利| 99久久九九国产精品国产免费| 免费观看精品视频网站| 亚洲avbb在线观看| 可以在线观看的亚洲视频| 中亚洲国语对白在线视频| 久久久久久久午夜电影| 丰满的人妻完整版| 国产午夜精品久久久久久一区二区三区 | 精品一区二区三区视频在线观看免费| 日日摸夜夜添夜夜添av毛片 | 在线免费观看的www视频| 女生性感内裤真人,穿戴方法视频| 亚洲性夜色夜夜综合| 久久久久久国产a免费观看| 搡老岳熟女国产| 九九在线视频观看精品| 久久欧美精品欧美久久欧美| 国产亚洲91精品色在线| 最近视频中文字幕2019在线8| 日日干狠狠操夜夜爽| 精品久久国产蜜桃| 国产真实乱freesex| 国产高清三级在线| 两性午夜刺激爽爽歪歪视频在线观看| av在线观看视频网站免费| 国产成人福利小说| 99久久精品国产国产毛片| 亚洲精品456在线播放app | 麻豆成人av在线观看| 日本撒尿小便嘘嘘汇集6| 亚洲avbb在线观看| 别揉我奶头 嗯啊视频| 老司机福利观看| 国内久久婷婷六月综合欲色啪| av在线老鸭窝| 精品久久久久久久人妻蜜臀av| 免费看光身美女| 免费观看在线日韩| 亚洲精品一区av在线观看| 久久亚洲精品不卡| 97人妻精品一区二区三区麻豆| 亚洲精品在线观看二区| 精品人妻1区二区| 无遮挡黄片免费观看| 日本五十路高清| 国产免费av片在线观看野外av| 国产精品爽爽va在线观看网站| 免费人成视频x8x8入口观看| 一本一本综合久久| 无人区码免费观看不卡| 毛片女人毛片| 男人的好看免费观看在线视频| 天天躁日日操中文字幕| 欧美zozozo另类| 久久6这里有精品| а√天堂www在线а√下载| 一级毛片久久久久久久久女| 欧美日韩中文字幕国产精品一区二区三区| 亚洲18禁久久av| 亚洲18禁久久av| 国产男人的电影天堂91| АⅤ资源中文在线天堂| 欧美一区二区国产精品久久精品| 久久久精品欧美日韩精品| 欧美成人性av电影在线观看| 麻豆成人午夜福利视频| 极品教师在线视频| 蜜桃久久精品国产亚洲av| 人妻久久中文字幕网| 亚洲成人久久爱视频| 欧美中文日本在线观看视频| 黄色欧美视频在线观看| 日韩国内少妇激情av| 国产精品一区二区性色av| 在线观看av片永久免费下载| 一区二区三区高清视频在线| 亚洲国产精品sss在线观看| 欧美黑人欧美精品刺激| av视频在线观看入口| 亚洲av免费高清在线观看| 1024手机看黄色片| 日本欧美国产在线视频| av黄色大香蕉| 亚洲美女搞黄在线观看 | 美女xxoo啪啪120秒动态图| 国产精品久久视频播放| 久久九九热精品免费| 18禁黄网站禁片午夜丰满| 韩国av在线不卡| 国产日本99.免费观看| 久久精品国产99精品国产亚洲性色| 又爽又黄无遮挡网站| 成熟少妇高潮喷水视频| 精品久久久久久久久久久久久| 十八禁国产超污无遮挡网站| 国内精品久久久久精免费| 国产探花极品一区二区| 99视频精品全部免费 在线| 人人妻,人人澡人人爽秒播| 自拍偷自拍亚洲精品老妇| 村上凉子中文字幕在线| 国产一区二区三区av在线 | 日本欧美国产在线视频| 真人一进一出gif抽搐免费| 国产人妻一区二区三区在| 国产麻豆成人av免费视频| 三级毛片av免费| aaaaa片日本免费| 国产精品久久久久久久久免| 精品人妻一区二区三区麻豆 | 18禁裸乳无遮挡免费网站照片| 久久精品国产99精品国产亚洲性色| 美女被艹到高潮喷水动态| 欧美激情国产日韩精品一区| 波多野结衣巨乳人妻| 欧美人与善性xxx| 日本黄大片高清| 国产精品av视频在线免费观看| 淫秽高清视频在线观看| www.www免费av| 无人区码免费观看不卡| 男人狂女人下面高潮的视频| 国产久久久一区二区三区| 啦啦啦观看免费观看视频高清| 搞女人的毛片| 国产乱人伦免费视频| 日本五十路高清| 国产成人福利小说| 俺也久久电影网| 又爽又黄无遮挡网站| 中文字幕人妻熟人妻熟丝袜美| 免费在线观看日本一区| 日韩欧美国产在线观看| 免费人成在线观看视频色| 亚洲国产精品合色在线| 亚洲精品在线观看二区| 国产黄a三级三级三级人| www.www免费av| 免费看日本二区| 亚洲天堂国产精品一区在线| 天天一区二区日本电影三级| 久久欧美精品欧美久久欧美| 他把我摸到了高潮在线观看| 狂野欧美激情性xxxx在线观看| 亚洲欧美日韩高清专用| 九色国产91popny在线| 搡老熟女国产l中国老女人| 日韩中文字幕欧美一区二区| 婷婷六月久久综合丁香| 狠狠狠狠99中文字幕| 三级毛片av免费| 如何舔出高潮| 波多野结衣巨乳人妻| 12—13女人毛片做爰片一| 久久久成人免费电影| 欧美一区二区国产精品久久精品| 99riav亚洲国产免费| 色av中文字幕| 国产成人一区二区在线| av在线观看视频网站免费| 欧美一区二区国产精品久久精品| 中国美女看黄片| 给我免费播放毛片高清在线观看| 人妻少妇偷人精品九色| 国产av一区在线观看免费| 亚洲色图av天堂| 精品国产三级普通话版| 狠狠狠狠99中文字幕| 蜜桃亚洲精品一区二区三区| 久久久久精品国产欧美久久久| 色5月婷婷丁香| 国产精品98久久久久久宅男小说| 亚洲成人久久性| 久久精品国产自在天天线| 色综合站精品国产| 欧美成人一区二区免费高清观看| 久久久久性生活片| 日本一本二区三区精品| 色综合色国产| 亚洲精品亚洲一区二区| 在线免费观看的www视频| 给我免费播放毛片高清在线观看| 中文字幕免费在线视频6| 麻豆一二三区av精品| 99久久九九国产精品国产免费| 嫩草影视91久久| 少妇的逼好多水| 久久久国产成人免费| 黄色欧美视频在线观看| 不卡一级毛片| 精品久久国产蜜桃| 日日摸夜夜添夜夜添小说| 成人美女网站在线观看视频| 国产精品亚洲一级av第二区| 少妇人妻一区二区三区视频| av在线天堂中文字幕| 狂野欧美白嫩少妇大欣赏| 国产aⅴ精品一区二区三区波| 国产黄片美女视频| 99久久精品热视频| 国模一区二区三区四区视频| 又黄又爽又刺激的免费视频.| 亚洲中文字幕日韩| 色综合亚洲欧美另类图片| 最近中文字幕高清免费大全6 | 美女 人体艺术 gogo| 看黄色毛片网站| 婷婷精品国产亚洲av在线| 国产精品爽爽va在线观看网站| 少妇人妻精品综合一区二区 | 日日摸夜夜添夜夜添小说| 麻豆成人av在线观看| 日本色播在线视频| 国产一区二区亚洲精品在线观看| 桃红色精品国产亚洲av| 亚洲久久久久久中文字幕| 久久久久久久久久成人| 欧美+亚洲+日韩+国产| 十八禁网站免费在线| 99久久精品国产国产毛片| 中文字幕人妻熟人妻熟丝袜美| 午夜福利在线观看免费完整高清在 | 国产主播在线观看一区二区| 日韩强制内射视频| 99在线视频只有这里精品首页| 国内精品久久久久精免费| 最好的美女福利视频网| 一级毛片久久久久久久久女| 成年女人毛片免费观看观看9| 一个人看视频在线观看www免费| 亚洲精品一区av在线观看| 国产精品日韩av在线免费观看| 国产视频内射| 国产毛片a区久久久久| 91av网一区二区| 日本a在线网址| 国产精品美女特级片免费视频播放器| 免费一级毛片在线播放高清视频| 国产三级在线视频| 丝袜美腿在线中文| 级片在线观看| 日本免费一区二区三区高清不卡| 我要看日韩黄色一级片| 久久精品国产亚洲网站| 精品国内亚洲2022精品成人| 久久精品91蜜桃| 国产精品人妻久久久影院| 欧美xxxx性猛交bbbb| 午夜免费男女啪啪视频观看 | 欧美人与善性xxx| 国产精品福利在线免费观看| 我要看日韩黄色一级片| 少妇人妻精品综合一区二区 | 中文字幕av成人在线电影| 波多野结衣高清作品| 美女cb高潮喷水在线观看| 观看免费一级毛片| 亚洲电影在线观看av| 国产成年人精品一区二区| 久久国内精品自在自线图片| 国产在线男女| 又粗又爽又猛毛片免费看| 国产成年人精品一区二区| 99久久无色码亚洲精品果冻| 蜜桃久久精品国产亚洲av| 变态另类成人亚洲欧美熟女| 十八禁网站免费在线| 在线免费观看不下载黄p国产 | 国产av不卡久久| 一进一出抽搐动态| 国产伦精品一区二区三区四那| 成人国产一区最新在线观看| 我要看日韩黄色一级片| 99热这里只有精品一区| 日韩精品中文字幕看吧| 国产蜜桃级精品一区二区三区| 日韩高清综合在线| 看黄色毛片网站| 国产不卡一卡二| 18禁裸乳无遮挡免费网站照片| 成人美女网站在线观看视频| 十八禁国产超污无遮挡网站| 日本黄色片子视频| 一夜夜www| 啦啦啦啦在线视频资源| 国产探花在线观看一区二区| 日韩中文字幕欧美一区二区| 色综合亚洲欧美另类图片| 久久午夜亚洲精品久久| 成人永久免费在线观看视频| 五月伊人婷婷丁香| 五月玫瑰六月丁香| 国产淫片久久久久久久久| 亚洲美女搞黄在线观看 | 国产久久久一区二区三区| 亚洲专区中文字幕在线| 夜夜爽天天搞| 亚洲在线自拍视频| 国产一区二区激情短视频| 亚洲国产色片| 亚洲不卡免费看| 日本黄大片高清| 97超视频在线观看视频| 久99久视频精品免费| 真人做人爱边吃奶动态| 一级a爱片免费观看的视频| 丰满的人妻完整版| 两个人视频免费观看高清| 成人二区视频| 看黄色毛片网站| 国产高清激情床上av| 可以在线观看的亚洲视频| 少妇高潮的动态图| 国产av不卡久久| 热99re8久久精品国产| netflix在线观看网站| eeuss影院久久| 免费看美女性在线毛片视频| 日韩 亚洲 欧美在线| 午夜视频国产福利| 国产午夜精品久久久久久一区二区三区 | 日本黄色片子视频| 国产在线精品亚洲第一网站| 日韩,欧美,国产一区二区三区 | 蜜桃亚洲精品一区二区三区| 少妇的逼水好多| 男女啪啪激烈高潮av片| 国产av不卡久久| 啦啦啦啦在线视频资源| 欧美日韩国产亚洲二区| 精华霜和精华液先用哪个| 免费高清视频大片| 春色校园在线视频观看| 日韩欧美国产在线观看| 国产黄片美女视频| 色吧在线观看| 久久午夜亚洲精品久久| 真人做人爱边吃奶动态| 亚洲乱码一区二区免费版| 欧美激情在线99| 国产v大片淫在线免费观看| 日本熟妇午夜| 国产高清视频在线播放一区| 深夜精品福利| 麻豆国产av国片精品| 日韩大尺度精品在线看网址| 日韩一本色道免费dvd| 欧美一区二区国产精品久久精品| 毛片女人毛片| 99热这里只有是精品50| 国产午夜精品论理片| 身体一侧抽搐| 久久精品国产清高在天天线| 嫁个100分男人电影在线观看| 99热这里只有是精品50| 免费观看在线日韩| 精品久久久久久久久亚洲 | 赤兔流量卡办理| 欧美激情国产日韩精品一区| 少妇人妻一区二区三区视频| 男女边吃奶边做爰视频| 久久久色成人| 精品午夜福利视频在线观看一区| 18+在线观看网站| 欧美+亚洲+日韩+国产| 亚洲av美国av| 18禁黄网站禁片午夜丰满| 天堂av国产一区二区熟女人妻| 国产午夜精品久久久久久一区二区三区 | 99国产精品一区二区蜜桃av| 久久久久精品国产欧美久久久| 国产亚洲精品av在线| 少妇被粗大猛烈的视频| 色精品久久人妻99蜜桃| 日日摸夜夜添夜夜添小说| 日本 av在线| 成人鲁丝片一二三区免费| 亚洲精品一卡2卡三卡4卡5卡| 观看美女的网站| 窝窝影院91人妻| 最新中文字幕久久久久| 色综合站精品国产| 99热6这里只有精品| 少妇熟女aⅴ在线视频| 少妇丰满av| 久久国内精品自在自线图片| 国产色婷婷99| 国产精品久久久久久精品电影| 综合色av麻豆| 久久精品国产鲁丝片午夜精品 | 国产高清激情床上av| 亚洲成人久久爱视频| 大又大粗又爽又黄少妇毛片口| 三级国产精品欧美在线观看| 中国国产av一级| 极品教师在线视频| 日韩欧美 国产精品| 久久久国产一区二区| 成年av动漫网址| av.在线天堂| 国产在视频线精品| 国产白丝娇喘喷水9色精品| 人人妻人人添人人爽欧美一区卜 | 久久毛片免费看一区二区三区| 亚洲欧美精品专区久久| 18禁裸乳无遮挡免费网站照片| 亚洲三级黄色毛片| 少妇被粗大猛烈的视频| av不卡在线播放| 日本黄大片高清| 国产免费一区二区三区四区乱码| 亚洲精品一二三| 国产高清国产精品国产三级 | 久久精品人妻少妇| 成人漫画全彩无遮挡| 日本欧美视频一区| 99久久中文字幕三级久久日本| 日本黄色片子视频| 成人高潮视频无遮挡免费网站| 97在线视频观看| 美女视频免费永久观看网站| 亚洲电影在线观看av| 大片免费播放器 马上看| 一个人免费看片子| 国产永久视频网站| 91精品国产国语对白视频| 欧美变态另类bdsm刘玥| av免费观看日本| 国产 精品1| 伦理电影大哥的女人| 2018国产大陆天天弄谢| 啦啦啦啦在线视频资源| 久久热精品热| 日本av手机在线免费观看| 亚洲av在线观看美女高潮| 日韩人妻高清精品专区| 丰满少妇做爰视频| 少妇的逼水好多| 十分钟在线观看高清视频www | 午夜福利网站1000一区二区三区| av一本久久久久| 国产免费又黄又爽又色| 中文欧美无线码| 水蜜桃什么品种好| 国产男女超爽视频在线观看| 久久99热这里只频精品6学生| 日韩视频在线欧美| 一级毛片 在线播放| 国产精品一二三区在线看| 国产精品久久久久久久电影| 久久 成人 亚洲| 成年女人在线观看亚洲视频| 精华霜和精华液先用哪个| 国产乱来视频区| 身体一侧抽搐| 久久久色成人| 网址你懂的国产日韩在线| 欧美另类一区| 男人添女人高潮全过程视频| 精品久久久久久久久亚洲| 免费黄色在线免费观看| 国产又色又爽无遮挡免| 色婷婷av一区二区三区视频| 国产乱来视频区| av在线蜜桃| 亚洲婷婷狠狠爱综合网| 91精品一卡2卡3卡4卡| 国产国拍精品亚洲av在线观看| 日本欧美视频一区| 搡女人真爽免费视频火全软件| 简卡轻食公司| 99re6热这里在线精品视频| 激情 狠狠 欧美| 成人综合一区亚洲| 少妇人妻 视频| 欧美3d第一页| 男人舔奶头视频| 国语对白做爰xxxⅹ性视频网站| 免费看光身美女| 欧美性感艳星| 久久精品国产亚洲av涩爱| 国产国拍精品亚洲av在线观看| 熟妇人妻不卡中文字幕| 91aial.com中文字幕在线观看| 超碰97精品在线观看| 欧美精品一区二区大全| 日韩欧美精品免费久久| 国产成人一区二区在线| 久久久久久久久大av| 新久久久久国产一级毛片| 国产 一区精品| 国产精品嫩草影院av在线观看| 国产白丝娇喘喷水9色精品| av一本久久久久| 18+在线观看网站| av又黄又爽大尺度在线免费看| 成年免费大片在线观看| 亚洲av欧美aⅴ国产| 国产黄片视频在线免费观看| 男人添女人高潮全过程视频| 观看av在线不卡| 午夜激情福利司机影院| 插逼视频在线观看| 久久久成人免费电影| 国产视频内射| 肉色欧美久久久久久久蜜桃| 大片电影免费在线观看免费| 成年免费大片在线观看| 精品人妻偷拍中文字幕| 国产av国产精品国产| 亚洲精华国产精华液的使用体验| 五月玫瑰六月丁香| 直男gayav资源| 日韩不卡一区二区三区视频在线| 狂野欧美白嫩少妇大欣赏| av.在线天堂| 在线观看免费高清a一片| 高清视频免费观看一区二区| 在线观看三级黄色| 老熟女久久久| 日韩伦理黄色片| 一级av片app| 亚洲av欧美aⅴ国产| 免费黄色在线免费观看| 交换朋友夫妻互换小说|