摘? 要:文章針對(duì)多標(biāo)簽文本分類這一熱點(diǎn)問題,采用“預(yù)先訓(xùn)練模型+微調(diào)策略”模式,即研究持續(xù)學(xué)習(xí)語(yǔ)義理解框架ERNIE 2.0和基于知識(shí)蒸餾的壓縮模型ERNIE Tiny預(yù)先訓(xùn)練模型,以及傾斜的三角學(xué)習(xí)率STLR微調(diào)策略在用戶評(píng)論多標(biāo)簽文本數(shù)據(jù)集中的實(shí)踐。相對(duì)經(jīng)典語(yǔ)義表征模型BERT,采用ERNIE 2.0模型的效果可提高1%以上,采用ERNIE Tiny模型的速率可提升3倍左右;相對(duì)默認(rèn)微調(diào)策略,采用傾斜的三角學(xué)習(xí)率STLR微調(diào)策略的效果同樣可再提高1%左右。
關(guān)鍵詞:多標(biāo)簽文本分類;預(yù)先訓(xùn)練模型;微調(diào)策略;知識(shí)蒸餾
中圖分類號(hào):TP391.4? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2021)17-0087-05
Abstract: Aiming at the hotspot issue of multi label text classification, this paper adopts the mode of “pre training model + fine tuning strategy”, that is, to study the continuous learning semantic understanding framework ERNIE 2.0, the compression model ERNIE Tiny pre training model based on knowledge distillation, and the practice of inclined triangular learning rate STLR fine tuning strategy in user comments multi label text data sets. Compared with the classical semantic representation model BERT, the effect of ERNIE 2.0 model can be improved by more than 1%, and the rate of ERNIE Tiny model can be increased by about 3 times; compared with the default fine tuning strategy, the effect of inclined triangular learning rate STLR fine tuning strategy can also be improved by about 1%.
Keywords: multi label text classification; pre training model; fine tuning strategy; knowledge distillation
0? 引? 言
多標(biāo)簽文本分類是自然語(yǔ)言處理中一個(gè)重要而富有挑戰(zhàn)性的任務(wù),與通常一個(gè)文本僅歸屬于一個(gè)標(biāo)簽的單標(biāo)簽文本分類不同[1-3],多標(biāo)簽文本分類任務(wù)則是將文本同時(shí)歸屬于一個(gè)或多個(gè)標(biāo)簽,并且多個(gè)標(biāo)簽之間可能存在更加復(fù)雜的關(guān)系。
隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,研究者提出各種基于深度神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽文本分類模型,特別是將多標(biāo)簽分類任務(wù)當(dāng)作序列生成問題,考慮標(biāo)簽間相關(guān)性的序列到序列Seq2Seq模型與考慮輸入文本關(guān)鍵信息的注意力Attention機(jī)制結(jié)合的各類算法大放異彩,進(jìn)一步提升多標(biāo)簽文本分類模型的性能。與此同時(shí),將上游預(yù)先訓(xùn)練語(yǔ)言模型應(yīng)用于自然語(yǔ)言處理下游特定任務(wù)這個(gè)劃時(shí)代的思想,讓預(yù)先訓(xùn)練模型PTMs(Pre-trained models)漸漸步入人們的視野。隨著ELMo、GPT、BERT等預(yù)先訓(xùn)練模型在自然語(yǔ)言處理任務(wù)方面取得SOTA結(jié)果,一系列以BERT為基礎(chǔ)的改進(jìn)模型相繼被提出,大大推動(dòng)自然語(yǔ)言處理領(lǐng)域的進(jìn)步。
本文基于某用戶評(píng)論多標(biāo)簽文本分類數(shù)據(jù)集,分別從如何構(gòu)建基于預(yù)先訓(xùn)練模型的多標(biāo)簽中文文本分類模型,如何在效果損失較少的情況下顯著地提升模型速率,如何有效地設(shè)計(jì)微調(diào)策略這三個(gè)方面進(jìn)行研究。主要的貢獻(xiàn)有:
(1)改造某細(xì)粒度用戶評(píng)論情感分析數(shù)據(jù)集成為用戶評(píng)論多標(biāo)簽文本分類數(shù)據(jù)集,并采用二元交叉熵?fù)p失作為多標(biāo)簽分類的損失函數(shù)。
(2)相對(duì)于典型的預(yù)先訓(xùn)練模型BERT,本文采用的持續(xù)學(xué)習(xí)語(yǔ)義理解框架ERNIE 2.0的效果可提高1%以上,而基于知識(shí)蒸餾的壓縮模型ERNIE Tiny的速率可提升3倍左右。
(3)相對(duì)于模型默認(rèn)微調(diào)策略,本文采用的傾斜的三角學(xué)習(xí)率STLR微調(diào)策略效果可再提高1%左右。
1? 相關(guān)工作
1.1? 多標(biāo)簽分類
多標(biāo)簽文本分類的關(guān)鍵是如何合適地表達(dá)標(biāo)簽間復(fù)雜的相關(guān)性。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,研究者提出各種基于深度神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽文本分類模型。
Zhang等人提出[4]多標(biāo)記學(xué)習(xí)的反向傳播算法BP-MLL(Back Propagation for Multi-Label Learning),通過(guò)定義成對(duì)排序損失函數(shù)來(lái)捕獲多標(biāo)簽學(xué)習(xí)的特征,首次在多標(biāo)簽文本分類問題上展現(xiàn)多層前饋神經(jīng)網(wǎng)絡(luò)明顯優(yōu)勢(shì)。Nam等人基于Zhang的工作,以交叉熵?fù)p失函數(shù)作為目標(biāo)函數(shù)[5],并采用整流線性單元ReLUs激活函數(shù)、Dropout正則化機(jī)制和AdaGrad優(yōu)化器學(xué)習(xí)率調(diào)整等技巧來(lái)提升訓(xùn)練效果。此后,Kurata等人提出[6]利用標(biāo)簽之間的共現(xiàn)關(guān)系來(lái)初始化輸出層權(quán)重,采用詞嵌入和卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)結(jié)構(gòu)來(lái)捕獲標(biāo)簽相關(guān)性,而Chen等人提出[7]采用卷積神經(jīng)網(wǎng)絡(luò)CNN和遞歸神經(jīng)網(wǎng)絡(luò)RNN(Recursive Neural Network)來(lái)從文本中提取全局和局部語(yǔ)義信息。
為了更好地解決多標(biāo)簽文本分類問題,Nam等人利用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)巧妙地使用序列到序列Seq2Seq模型[8],對(duì)給定的源文本進(jìn)行編碼,并對(duì)表示進(jìn)行解碼,將多標(biāo)簽文本分類問題近似于序列預(yù)測(cè)問題。Yang等人采用[9]短期記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)處理標(biāo)簽序列的依賴關(guān)系來(lái)考慮標(biāo)簽之間的相關(guān)性,并利用注意力Attention機(jī)制考慮文本不同部分的貢獻(xiàn),提出一種新的全局嵌入解碼器結(jié)構(gòu)。Lin等人通過(guò)[10]多層擴(kuò)展卷積產(chǎn)生更高層次的語(yǔ)義單位表示并結(jié)合注意力機(jī)制來(lái)進(jìn)行多標(biāo)簽分類,與傳統(tǒng)的Seq2Seq模型相比,該模型能夠更好地預(yù)測(cè)低頻標(biāo)簽,并且受標(biāo)簽序列先驗(yàn)分布的影響較小。Yang等人結(jié)合[11]卷積神經(jīng)網(wǎng)絡(luò)CNN和并行自注意力機(jī)制設(shè)計(jì)分層解碼器來(lái)生成標(biāo)簽序列,以從源文本中提取細(xì)粒度的局部鄰域信息和全局交互信息。
1.2? 預(yù)先訓(xùn)練模型
預(yù)先訓(xùn)練一直是學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)參數(shù)的有效策略,早在2006年,Hinton等人就指出通過(guò)“預(yù)先訓(xùn)練”可以得到比較接近最優(yōu)模型參數(shù)的初始化權(quán)值,并經(jīng)“全局微調(diào)”達(dá)到模型優(yōu)化重建的目的[12]。
Peters等人2018年采用深度雙向Bi-LSTM來(lái)實(shí)現(xiàn)上下文相關(guān),提出一種動(dòng)態(tài)的、語(yǔ)境化的語(yǔ)言模型ELMo(Embedding from Language Models),將目標(biāo)任務(wù)處理轉(zhuǎn)移到預(yù)先訓(xùn)練產(chǎn)生詞向量的過(guò)程中[13]。Radford等人2018年提出基于多層單向Transformer結(jié)構(gòu)的生成式預(yù)先訓(xùn)練方法GPT(Generative Pre-Training),先用無(wú)標(biāo)簽的文本去訓(xùn)練生成語(yǔ)言模型,再根據(jù)具體的目標(biāo)任務(wù)對(duì)模型進(jìn)行微調(diào)[14]。Devlin等人2018年提出基于多層雙向Transformer結(jié)構(gòu)的語(yǔ)義表征模型BERT(Bidirectional Encoder Representations from Transformers),同時(shí)利用下一句子預(yù)測(cè)任務(wù)和掩碼語(yǔ)言模型來(lái)獲得高級(jí)別的語(yǔ)義表征[15]。Zhang等人2019年提出增強(qiáng)的語(yǔ)言表征模型ERNIE(Enhanced Language Representation with Informative Entities),該模型[16]結(jié)合大規(guī)模語(yǔ)料庫(kù)和知識(shí)圖譜,可同時(shí)充分利用詞匯、句法和知識(shí)信息。Sun等人進(jìn)而提出持續(xù)學(xué)習(xí)語(yǔ)義理解框架ERNIE 2.0(AContinual Pre-Training Framework for Language Understanding),該框架[17]以遞增方式構(gòu)建預(yù)先訓(xùn)練任務(wù),并通過(guò)連續(xù)多任務(wù)學(xué)習(xí)來(lái)讓模型學(xué)習(xí)這些已構(gòu)建的任務(wù)。
1.3? 微調(diào)策略
隨著預(yù)先訓(xùn)練模型深度的增加,其所捕獲的語(yǔ)言表征使目標(biāo)任務(wù)更加容易,微調(diào)策略已逐漸成為預(yù)先訓(xùn)練模型適應(yīng)目標(biāo)任務(wù)的主要方法。然而,微調(diào)的過(guò)程往往是脆弱的,即使有相同的超參數(shù)值,不同的隨機(jī)種子就可導(dǎo)致實(shí)質(zhì)上不同的結(jié)果。Sun等人的研究表明[18],對(duì)相關(guān)領(lǐng)域語(yǔ)料進(jìn)行進(jìn)一步的預(yù)先訓(xùn)練,可以進(jìn)一步提高BERT的能力,并在文本分類數(shù)據(jù)集上取得SOTA的性能。Li等人提出的TransBERT(Transferable BERT)[19],不僅可以從大規(guī)模的未標(biāo)注數(shù)據(jù)中遷移學(xué)習(xí)通用的語(yǔ)言知識(shí),還可以從各種語(yǔ)義相關(guān)的監(jiān)督任務(wù)中遷移學(xué)習(xí)到特定類型的知識(shí)。Stickland等人在預(yù)先訓(xùn)練模型BERT添加額外的特定任務(wù)適應(yīng)模塊PALs(Projected Attention Layers)[20],實(shí)現(xiàn)比標(biāo)準(zhǔn)微調(diào)模型少7倍參數(shù),卻在通用語(yǔ)言理解評(píng)估基準(zhǔn)GLUE(General Language Understanding Evaluation)表現(xiàn)相當(dāng)?shù)男阅?。Goyal等人2017年提出預(yù)熱方法[21],即在訓(xùn)練初期使用較小的學(xué)習(xí)率開始,并在訓(xùn)練后期逐步增大到較大的學(xué)習(xí)率;Howard等人2018年提出傾斜的三角學(xué)習(xí)率STLR(Slanted Triangular Learning Rates)方法[22],先線性地增加學(xué)習(xí)率,然后根據(jù)訓(xùn)練周期線性地衰減學(xué)習(xí)率。
2? 關(guān)鍵技術(shù)
2.1? 持續(xù)學(xué)習(xí)語(yǔ)義理解框架
持續(xù)學(xué)習(xí)語(yǔ)義理解框架ERNIE 2.0通過(guò)不斷地引入各種各樣的預(yù)先訓(xùn)練任務(wù),以幫助模型有效地學(xué)習(xí)詞匯,句法和語(yǔ)義表示[17]。其訓(xùn)練過(guò)程包含:
(1)基于大數(shù)據(jù)和先驗(yàn)知識(shí)的無(wú)監(jiān)督預(yù)先訓(xùn)練任務(wù)構(gòu)建。
(2)持續(xù)的多任務(wù)學(xué)習(xí)更新。
2.1.1? 預(yù)先訓(xùn)練任務(wù)構(gòu)建
先前的預(yù)先訓(xùn)練模型通?;趩卧~和句子的共現(xiàn)來(lái)訓(xùn)練模型。實(shí)際上,除單詞和句子的共現(xiàn)外,還有其他詞匯,句法和語(yǔ)義信息值得在訓(xùn)練時(shí)進(jìn)行檢查。比如,個(gè)人名稱、位置名稱和組織名稱之類的命名實(shí)體可能包含概念性信息;句子順序和句子接近度之類的信息可能包含結(jié)構(gòu)感知表示;文檔級(jí)別的語(yǔ)義相似性或句子之間的語(yǔ)篇關(guān)系可能包含語(yǔ)義感知表示。因此,ERNIE 2.0構(gòu)造單詞感知任務(wù)、結(jié)構(gòu)感知任務(wù)和語(yǔ)義感知任務(wù)等不同種類任務(wù)。其中,單詞感知任務(wù)能夠使模型捕獲詞匯信息,結(jié)構(gòu)感知任務(wù)能夠使模型捕獲語(yǔ)料庫(kù)的句法信息,而語(yǔ)義感知任務(wù)能夠使模型學(xué)習(xí)語(yǔ)義信息。
2.1.2? 持續(xù)的多任務(wù)學(xué)習(xí)
受人類能夠不斷積累通過(guò)學(xué)習(xí)或經(jīng)驗(yàn)獲得的信息,從而有效地開發(fā)新技能這一學(xué)習(xí)特點(diǎn)的啟發(fā),ERNIE 2.0引入持續(xù)學(xué)習(xí)的理念,即通過(guò)增量的方式進(jìn)行多任務(wù)學(xué)習(xí),不是只使用新增的任務(wù)來(lái)訓(xùn)練,而是通過(guò)多任務(wù)學(xué)習(xí)同時(shí)學(xué)習(xí)之前的和新增的任務(wù)。
為有效地管理和訓(xùn)練這些任務(wù),ERNIE 2.0構(gòu)建Task Embedding模型提供任務(wù)嵌入以表示不同任務(wù)的特征。每個(gè)任務(wù)ID都分配給一個(gè)唯一的任務(wù)嵌入,并以相應(yīng)的令牌Token、位置Position、句子Sentence和任務(wù)Task嵌入作為模型的輸入。對(duì)于給定的序列,特殊分類嵌入[CLS]標(biāo)記序列的首位,分隔符[SEP]標(biāo)記多個(gè)輸入任務(wù)的間隔;同時(shí),ERNIE 2.0使用多層Transformer作為基本編碼器,通過(guò)Self-Attention機(jī)制來(lái)捕獲序列中每個(gè)令牌的上下文信息,并自動(dòng)將每個(gè)任務(wù)分配給不同的訓(xùn)練階段。這樣,模型就可以即保證方法的效率,又不會(huì)忘記先前訓(xùn)練有素的知識(shí)。
2.1.3? 壓縮模型
ERNIE Tiny通過(guò)如圖1所示的方法進(jìn)行模型結(jié)構(gòu)壓縮和模型蒸餾。ERNIE Tiny模型采用3層Transformer結(jié)構(gòu)實(shí)現(xiàn)線性提速,并采用加寬Hidden層來(lái)實(shí)現(xiàn)效果提升。ERNIE Tiny模型采用中文Subword粒度輸入來(lái)縮短輸入文本的序列長(zhǎng)度,進(jìn)一步降低計(jì)算復(fù)雜度。ERNIE Tiny利用模型蒸餾的方式,扮演學(xué)生角色在Transformer層和Prediction層學(xué)習(xí)教師模型ERNIE 2.0模型對(duì)應(yīng)層的分布和輸出。
2.2? 多標(biāo)簽分類損失函數(shù)
本文使用二元交叉熵?fù)p失(Binary Cross Entropy Loss)作為多標(biāo)簽分類的損失函數(shù)[5],其定義為:
其中,N為樣本的數(shù)量,K為標(biāo)簽的數(shù)量,yij∈{0,1}和∈[0,1]分別表示第i個(gè)樣本的第j個(gè)標(biāo)簽的真實(shí)標(biāo)簽值和概率預(yù)測(cè)值。
2.3? 傾斜的三角學(xué)習(xí)率
本文使用傾斜的三角學(xué)習(xí)率STLR(Slanted Triangular Learning Rates)方法[22],即先線性地增加學(xué)習(xí)率,再根據(jù)訓(xùn)練周期線性地衰減學(xué)習(xí)率。具體表達(dá)為:
其中,T是總的訓(xùn)練迭代次數(shù),cut_frac是學(xué)習(xí)率上升在整個(gè)訓(xùn)練迭代次數(shù)的比例,cut是學(xué)習(xí)率轉(zhuǎn)折時(shí)的迭代次數(shù),p是學(xué)習(xí)率遞增或?qū)⑦f減的放縮比例,ratio是最小學(xué)習(xí)率與最大學(xué)習(xí)率ηmax的比值,ηt是第t次迭代的學(xué)習(xí)速率。
經(jīng)驗(yàn)發(fā)現(xiàn),當(dāng)cut_frac等于0.1,且ratio等于32時(shí),具有短期增長(zhǎng)和長(zhǎng)衰減期特性,結(jié)果較好。
3? 實(shí)驗(yàn)與分析
3.1? 實(shí)驗(yàn)數(shù)據(jù)
本文改造AI Challenger 2018細(xì)粒度用戶評(píng)論情感分析數(shù)據(jù)集,將其正向、中性、負(fù)向、未提及四種情感傾向狀態(tài)合并成用戶評(píng)論的“提及(1)”和“未提及(0)”兩種類別,形成包含6大類共20個(gè)標(biāo)簽的用戶評(píng)論多標(biāo)簽中文數(shù)據(jù)集,訓(xùn)練集105 000個(gè)樣本,測(cè)試集15 000個(gè)樣本,以測(cè)試集為例介紹數(shù)據(jù)集的基本情況如表1所示。
該用戶評(píng)論多標(biāo)簽數(shù)據(jù)的訓(xùn)練集和測(cè)試集的文本平均字?jǐn)?shù)分別為348.74和347.12,文本平均標(biāo)簽數(shù)分別為5.42和5.39。
3.2? 評(píng)價(jià)指標(biāo)
本文實(shí)驗(yàn)使用AUC(Area Under ROCCurve),即ROC(Receiver Operating Characteristic)曲線下的面積作為評(píng)價(jià)指標(biāo)。根據(jù)分類模型產(chǎn)生的概率預(yù)測(cè)結(jié)果將樣本排序[23],并按某一截?cái)帱c(diǎn)(Cut Point)將該排序的樣本分為兩部分{x1,x2,…xm+1,xm+n},前一部分m樣本判作正例,后一部分n樣本判作反例。AUC的定義為:
其中,f為分類函數(shù);I為示性函數(shù),即當(dāng)括號(hào)內(nèi)的表達(dá)式成立時(shí)值為1,否則為0。AUC的取值范圍在[0.5,1]之間,其值越大表明分類模型的性能越好。
3.3? 實(shí)驗(yàn)結(jié)果及分析
本文實(shí)驗(yàn)使用3.1節(jié)介紹的用戶評(píng)論多標(biāo)簽分類數(shù)據(jù)集,并以3.2節(jié)介紹的AUC作為分類結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)。實(shí)驗(yàn)環(huán)境單卡32 GB的Tesla V100顯卡。
實(shí)驗(yàn)選擇2.1節(jié)介紹的ERNIE 2.0、ERNIE Tiny和BERT模型作為預(yù)先訓(xùn)練模型,采用2.3節(jié)介紹的STLR微調(diào)策略和參數(shù)及默認(rèn)策略(即采用自適應(yīng)矩估計(jì)Adam優(yōu)化器,批次大小等于16,全局學(xué)習(xí)率等于1e-4,微調(diào)迭代周期等于3作為微調(diào)策略,最大序列長(zhǎng)度均等于512。實(shí)驗(yàn)結(jié)果如表2所示。
實(shí)驗(yàn)結(jié)果表明,相對(duì)典型的預(yù)先訓(xùn)練模型BERT,本文采用的持續(xù)學(xué)習(xí)語(yǔ)義理解框架ERNIE 2.0的效果可提高1%以上,而基于知識(shí)蒸餾的壓縮模型ERNIE Tiny的效果與之相近,但速率可提升3倍左右,這是由于ERNIE 2.0不斷地引入各種各樣的預(yù)先訓(xùn)練任務(wù),可以有效地學(xué)習(xí)詞匯、句法和語(yǔ)義表示;采用傾斜的三角學(xué)習(xí)率STLR的“預(yù)熱”策略,同樣可再提高模型的效果1%左右,這是由于該策略有助于減緩模型在初始階段的提前過(guò)擬合現(xiàn)象和保持模型深層的穩(wěn)定性。
同時(shí),分析實(shí)驗(yàn)結(jié)果也發(fā)現(xiàn),上述三種預(yù)先訓(xùn)練模型在此用戶評(píng)論多標(biāo)簽中文數(shù)據(jù)集的絕大多數(shù)類別的AUC值可達(dá)90%以上的優(yōu)秀表現(xiàn),而在如“菜品—口感”和“其他—本次消費(fèi)感受”等嚴(yán)重不平衡類別的表現(xiàn)不佳。
4? 結(jié)? 論
在本文的研究中,作者證實(shí)“預(yù)先訓(xùn)練模型+微調(diào)策略”模式在多標(biāo)簽文本分類問題研究的優(yōu)異性能,展現(xiàn)ERNIE 2.0和ERNIE Tiny預(yù)先訓(xùn)練模型和STLR微調(diào)策略在用戶評(píng)論多標(biāo)簽文本數(shù)據(jù)集上的突出表現(xiàn)。同時(shí),作者也發(fā)現(xiàn)多標(biāo)簽分類損失函數(shù)的定義、預(yù)先訓(xùn)練模型的蒸餾壓縮、微調(diào)策略的設(shè)計(jì)和超參數(shù)的設(shè)定,以及類別不平衡導(dǎo)致效果不佳的問題,都將是作者后續(xù)此類研究的突破點(diǎn)。
參考文獻(xiàn):
[1] 肖琳,陳博理,黃鑫,等.基于標(biāo)簽語(yǔ)義注意力的多標(biāo)簽文本分類 [J].軟件學(xué)報(bào),2020,31(4):1079-1089.
[2] 謝志煒,馮鴻懷,許銳埼,等.電力基建施工問題文本分類研究 [J].現(xiàn)代信息科技,2019,3(17):17-19.
[3] 孫明敏.基于GRU-Attention的中文文本分類 [J].現(xiàn)代信息科技,2019,3(3):10-12.
[4] ZHANG M L, ZHOU Z H. Multi-label Neural Networks with Applications to Functional Genomics and Text Categorization [J].IEEE Transactions on Knowledge and Data Engineering,2006,18(10):1338-1351.
[5] NAM J,KIM J,MENC?A E L,et al. Large-Scale Multi-label Text Classification — Revisiting Neural Networks [C]//ECML PKDD 2014:Machine Learning and Knowledge Discovery in Databases:Nancy:Springer,2014(8725):437-452.
[6] KURATA G,XIANG B,ZHOU B. Improved Neural Network-based Multi-label Classification with Better Initialization Leveraging Label Co-occurrence [C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.San Diego:Association for Computational Linguistics,2016:521-526.
[7] CHEN G B,YE D H,XING Z C,et al.Ensemble application of convolutional and recurrent neural networks for multi-label text categorization [C]//2017 International Joint Conference on Neural Networks(IJCNN).Anchorage:IEEE,2017:2377-2383.
[8] NAM J,MENC?A E L,KIM H J,et al. Maximizing subset accuracy with recurrent neural networks in multi-label classification [C]//NIPS'17: Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach:Curran Associates Inc.2017:5419-5429.
[9] YANG P C,SUN X,LI W,et al.SGM:Sequence Generation Model for Multi-label Classification [J/OL]. arXiv:1806.04822 [cs.CL].(2018-06-13).https://arxiv.org/abs/1806.04822.
[10] LIN J Y,SU Q,YANG P C,et al.Semantic-Unit-Based Dilated Convolution for Multi-Label Text Classification [J/OL]. arXiv:1808.08561 [cs.CL].(2018-8-26).https://arxiv.org/abs/1808.08561.
[11] YANG Z,LIU G J. Hierarchical Sequence-to-Sequence Model for Multi-Label Text Classification [J].IEEE Access,2019(7):153012-153020.
[12] HINTON G E,SALAKHUTDINOV RR. Reducing the Dimensionality of Data With Neural Networks [J].Science,2006,313(5786):504-507.
[13] PETERS M E,NEUMANN M,IYYER M,et al. Deep contextualized word representations [J/OL].arXiv:1802.05365 [cs.CL].(2018-02-15).https://arxiv.org/abs/1802.05365.
[14] RADFORD A,NARASIMHAN K,SALIMANS T,et al.Improving Language Understanding by Generative Pre-Training [EB/OL].[2021-05-20].https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf.
[15] DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding [J/OL].arXiv:1810.04805 [cs.CL].(2018-10-11).https://arxiv.org/abs/1810.04805.
[16] ZHANG Z Y,HAN X,LIU Z Y,et al. ERNIE: Enhanced language representation with informative entities [J/OL].arXiv:1905.07129 [cs.CL].(2019-05-17).https://arxiv.org/abs/1905.07129v1.
[17] SUN Y,WANG S H,LI Y K,et al.ERNIE 2.0:A Continual Pre-training Framework for Language Understanding [J/OL].rXiv:1907.12412 [cs.CL].(2019-07-29).https://arxiv.org/abs/1907.12412v2.
[18] SUN S Q,CHENG Y,GAN Z,et al.Patient Knowledge Distillation for BERT Model Compression [J/OL].arXiv:1908.09355 [cs.CL].(2019-08-25).https://arxiv.org/abs/1908.09355v1.
[19] LI Z Y,DING X,LIU T. Story ending prediction by transferable bert [J/OL].arXiv:1905.07504 [cs.CL].(2019-05-17).https://arxiv.org/abs/1905.07504v2.
[20] LIU X D,HE P C,CHEN W Z,et al.Multi-Task Deep Neural Networks for Natural Language Understanding [J/OL].arXiv:1901.11504 [cs.CL].(2019-01-31).https://arxiv.org/abs/1901.11504v1.
[21] GOYAL P,DOLL?R P,GIRSHICK R,et al.Accurate, Large Minibatch SGD:Training ImageNet in 1 Hour [J/OL].arXiv:1706.02677 [cs.CV].(2017-06-08).https://arxiv.org/abs/1706.02677.
[22] HOWARD J,RUDER S.Universal Language Model Fine-tuning for Text Classification [J/OL].arXiv:1801.06146 [cs.CL].(2018-01-18).https://arxiv.org/abs/1801.06146v5.
[23] 周志華.機(jī)器學(xué)習(xí) [M].北京:清華大學(xué)出版社,2016:33-35.
作者簡(jiǎn)介:孟曉龍(1988—),男,漢族,上海人,講師,碩士學(xué)歷,主要研究方向:數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)。