江靜,陳渝,孫界平,琚生根*
融合后驗(yàn)概率校準(zhǔn)訓(xùn)練的文本分類算法
江靜1,陳渝2,孫界平1,琚生根1*
(1.四川大學(xué) 計(jì)算機(jī)學(xué)院,成都 610065; 2.四川民族學(xué)院 理工學(xué)院,四川 康定 626001)(*通信作者郵箱jsg@scu.edu.cn)
用于文本表示的預(yù)訓(xùn)練語(yǔ)言模型在各種文本分類任務(wù)上實(shí)現(xiàn)了較高的準(zhǔn)確率,但仍然存在以下問(wèn)題:一方面,預(yù)訓(xùn)練語(yǔ)言模型在計(jì)算出所有類別的后驗(yàn)概率后選擇后驗(yàn)概率最大的類別作為其最終分類結(jié)果,然而在很多場(chǎng)景下,后驗(yàn)概率的質(zhì)量能比分類結(jié)果提供更多的可靠信息;另一方面,預(yù)訓(xùn)練語(yǔ)言模型的分類器在為語(yǔ)義相似的文本分配不同標(biāo)簽時(shí)會(huì)出現(xiàn)性能下降的情況。針對(duì)上述兩個(gè)問(wèn)題,提出一種后驗(yàn)概率校準(zhǔn)結(jié)合負(fù)例監(jiān)督的模型PosCal-negative。該模型端到端地在訓(xùn)練過(guò)程中動(dòng)態(tài)地對(duì)預(yù)測(cè)概率和經(jīng)驗(yàn)后驗(yàn)概率之間的差異進(jìn)行懲罰,并在訓(xùn)練過(guò)程中利用帶有不同標(biāo)簽的文本來(lái)實(shí)現(xiàn)對(duì)編碼器的負(fù)例監(jiān)督,從而為每個(gè)類別生成不同的特征向量表示。實(shí)驗(yàn)結(jié)果表明:PosCal-negative模型在兩個(gè)中文母嬰護(hù)理文本分類數(shù)據(jù)集MATINF-C-AGE和MATINF-C-TOPIC的分類準(zhǔn)確率分別達(dá)到了91.55%和69.19%,相比ERNIE模型分別提高了1.13個(gè)百分點(diǎn)和2.53個(gè)百分點(diǎn)。
文本分類;后驗(yàn)概率校準(zhǔn);預(yù)訓(xùn)練語(yǔ)言模型;負(fù)例監(jiān)督;深度學(xué)習(xí)
文本分類是自然語(yǔ)言處理(Natural Language Processing,NLP)和文本挖掘中的重要任務(wù)。不論是簡(jiǎn)單邏輯回歸分類還是復(fù)雜的神經(jīng)網(wǎng)絡(luò)分類,通常都是首先計(jì)算所有類別的后驗(yàn)概率,然后選擇后驗(yàn)概率最大的確定其為最終分類,最后根據(jù)預(yù)測(cè)分類結(jié)果相對(duì)于真實(shí)類別的準(zhǔn)確率來(lái)進(jìn)行模型的性能評(píng)估。文本分類通常由編碼器和分類器兩個(gè)部分組成,編碼器將文本轉(zhuǎn)換為數(shù)字表示形式的特征向量,分類器則用于訓(xùn)練文本特征向量和分類標(biāo)簽之間的隱藏關(guān)系。常用的傳統(tǒng)文本表示方法有N元語(yǔ)法統(tǒng)計(jì)[1]、詞嵌入[2]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[3-4]和遞歸神經(jīng)網(wǎng)絡(luò)[5]。最近,強(qiáng)大的預(yù)訓(xùn)練語(yǔ)言模型的提出在包括文本分類在內(nèi)的許多NLP任務(wù)上都表現(xiàn)出了良好的性能。預(yù)訓(xùn)練語(yǔ)言模型事先在大規(guī)模的語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,因此預(yù)訓(xùn)練語(yǔ)言模型具有很強(qiáng)的泛化性。
在現(xiàn)實(shí)世界的決策系統(tǒng)中,分類網(wǎng)絡(luò)不僅要保證分類準(zhǔn)確率,而且還應(yīng)提供分類結(jié)果的置信度。在個(gè)性化醫(yī)學(xué)[6]、氣象預(yù)測(cè)[7-11]和自然語(yǔ)言應(yīng)用處理程序[12-13]領(lǐng)域中,都已經(jīng)強(qiáng)調(diào)了后驗(yàn)概率校準(zhǔn)概念的重要性。例如在自動(dòng)駕駛領(lǐng)域中,如果檢測(cè)網(wǎng)絡(luò)無(wú)法自信地預(yù)測(cè)即時(shí)障礙物的存在,則汽車(chē)會(huì)更多地參考其他傳感器的輸出進(jìn)行制動(dòng)。同樣,在自動(dòng)醫(yī)療領(lǐng)域中,當(dāng)疾病診斷網(wǎng)絡(luò)的置信度較低時(shí),醫(yī)生應(yīng)進(jìn)行人工核實(shí)。模型預(yù)測(cè)的分類結(jié)果的后驗(yàn)概率反映了這個(gè)分類的置信度,對(duì)于分類決策難以解釋的神經(jīng)網(wǎng)絡(luò)而言,提供分類結(jié)果的置信度可以建立模型與用戶之間的信任度。隨著深度學(xué)習(xí)的發(fā)展,文本分類的準(zhǔn)確率越來(lái)越高,但是最近Guo等[14]發(fā)現(xiàn)這些分類模型存在盲目自信現(xiàn)象,模型的分類準(zhǔn)確率和其置信度不匹配,模型在測(cè)試集上的分類結(jié)果置信度很高,但是其最終分類準(zhǔn)確率卻很低。
針對(duì)模型分類準(zhǔn)確率和置信度不匹配這個(gè)問(wèn)題,Guo等[14]和Kumar等[15]等提出了一些后處理的后驗(yàn)概率校準(zhǔn)方法,模型經(jīng)過(guò)訓(xùn)練,得到分類結(jié)果的初始后驗(yàn)概率,然后從驗(yàn)證集中學(xué)習(xí)后處理參數(shù),最后在測(cè)試集上對(duì)初始后驗(yàn)概率進(jìn)行處理。這種方法的優(yōu)點(diǎn)是只需要少量的樣本,因而被廣泛使用,但是也存在一些問(wèn)題:一方面,數(shù)據(jù)集拆分導(dǎo)致數(shù)據(jù)集之間數(shù)據(jù)分布差異明顯,所以后處理校準(zhǔn)方法效果有限;另一方面,后處理校準(zhǔn)方法的分類模型是靜態(tài)的。針對(duì)以上問(wèn)題,本文提出了一個(gè)端到端的后驗(yàn)概率校準(zhǔn)模塊PosCal,在訓(xùn)練過(guò)程中動(dòng)態(tài)地對(duì)分類結(jié)果的預(yù)測(cè)后驗(yàn)概率和經(jīng)驗(yàn)后驗(yàn)概率之間的差異進(jìn)行懲罰。
除此之外,在文本分類任務(wù)中,編碼器將文本轉(zhuǎn)換為可以表示文本語(yǔ)義的特征向量,因此,語(yǔ)義相似的文本具有相近的特征向量表示。然而根據(jù)具體分類任務(wù)不同可能會(huì)為語(yǔ)義相似的文本分配不同的標(biāo)簽,這時(shí)分類器應(yīng)該區(qū)分出導(dǎo)致標(biāo)簽分配不同的細(xì)微差別。表1展示了在MedWeb[16]數(shù)據(jù)集上使用雙向編碼模型BERT(Bidirectional Encoder Representation from Transformers)的分類結(jié)果,此任務(wù)需要標(biāo)記出該文本作者所感染的疾病。盡管表1中的兩個(gè)文本都提及到感冒這個(gè)疾病,但是只有第二個(gè)文本表示該文本作者患有感冒。因?yàn)檫@兩個(gè)文本的語(yǔ)義相似性,BERT錯(cuò)誤地將兩個(gè)文本同時(shí)標(biāo)記為感冒疾病。由此可知,分類器會(huì)因?yàn)檎Z(yǔ)義相似性的過(guò)多影響而性能下降?;诖?,本文提出了一個(gè)負(fù)例監(jiān)督訓(xùn)練方法,就是利用與樣本語(yǔ)義相似但不同類別的負(fù)例文本來(lái)實(shí)現(xiàn)對(duì)編碼器的負(fù)例監(jiān)督,以便編碼器學(xué)習(xí)到語(yǔ)義相似文本之間因?yàn)闃?biāo)簽類別不同導(dǎo)致的細(xì)微差別。
本文主要工作包括:
1)提出了一個(gè)后驗(yàn)概率校準(zhǔn)訓(xùn)練模型,實(shí)驗(yàn)表明,在MATINF-C-AGE和MATINF-C-TOPIC這兩個(gè)中文文本分類數(shù)據(jù)集上,PosCal不僅可以減少后驗(yàn)概率校準(zhǔn)誤差,而且可以提高文本分類任務(wù)的準(zhǔn)確率;
2)提出了一個(gè)簡(jiǎn)單有效的負(fù)例監(jiān)督訓(xùn)練方法,利用語(yǔ)義相似且不同標(biāo)簽的文本實(shí)現(xiàn)對(duì)編碼器的負(fù)例監(jiān)督,以便為每個(gè)類別生成不同的特征向量表示。
表1 MedWeb數(shù)據(jù)集上用BERT進(jìn)行文本分類的例子
文本分類任務(wù)主要的方法有三種:基于規(guī)則的、基于傳統(tǒng)機(jī)器學(xué)習(xí)的和基于深度學(xué)習(xí)的方法?;谝?guī)則的文本分類方法需要領(lǐng)域?qū)<叶x一系列分類規(guī)則,基于規(guī)則的分類方法容易理解,但該方法依賴專家知識(shí),系統(tǒng)構(gòu)建成本高且可移植性差。隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,出現(xiàn)了許多經(jīng)典的文本分類模型,如決策樹(shù)、樸素貝葉斯、支持向量機(jī)、最大熵、最近鄰等,這些方法克服了上述基于規(guī)則的文本分類方法的部分缺點(diǎn),一定程度上實(shí)現(xiàn)了分類器的自動(dòng)生成,被廣泛應(yīng)用于各個(gè)領(lǐng)域[18]。然而,機(jī)器學(xué)習(xí)方法在構(gòu)建分類器之前通常需要繁雜的人工特征工程。隨著深度學(xué)習(xí)的廣泛研究和應(yīng)用,神經(jīng)網(wǎng)絡(luò)利用復(fù)雜的多隱層感知器對(duì)數(shù)據(jù)進(jìn)行高層抽象,利用分布式詞向量對(duì)文本進(jìn)行語(yǔ)義表示,從而取代了傳統(tǒng)機(jī)器學(xué)習(xí)的手工特征工程,可以實(shí)現(xiàn)端到端的文本分類模型。CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)等深度學(xué)習(xí)模型在文本分類任務(wù)上取得了較高的準(zhǔn)確率。本文只涉及基于深度學(xué)習(xí)的文本分類方法。
一個(gè)神經(jīng)網(wǎng)絡(luò)除了需要提供最終預(yù)測(cè)類別,還應(yīng)提供該預(yù)測(cè)結(jié)果的置信度度量,以此判斷該分類結(jié)果是否真實(shí)可靠,神經(jīng)網(wǎng)絡(luò)中預(yù)測(cè)結(jié)果的置信度就是分類類別的后驗(yàn)概率。隨著深度學(xué)習(xí)的研究和發(fā)展,神經(jīng)網(wǎng)絡(luò)模型越來(lái)越復(fù)雜,神經(jīng)網(wǎng)絡(luò)的層數(shù)和每層的卷積核數(shù)量越來(lái)越多。最近很多工作也證明了,較深和較寬的神經(jīng)網(wǎng)絡(luò)具有更好的泛化能力,能更輕松地?cái)M合訓(xùn)練集,所以其分類準(zhǔn)確率也越來(lái)越高。Guo等[14]指出,在某些情況下,隨著神經(jīng)網(wǎng)絡(luò)分類性能的提高,模型盲目自信的問(wèn)題也越來(lái)越嚴(yán)重。他們的實(shí)驗(yàn)表明,控制變量單方面增加網(wǎng)絡(luò)的深度和寬度均會(huì)使得模型的分類錯(cuò)誤降低,但是同時(shí)模型準(zhǔn)確率和置信度越加不匹配。他們?cè)诖笠?guī)模的二分類神經(jīng)網(wǎng)絡(luò)模型上進(jìn)一步進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)因?yàn)槟P妥銐驈?fù)雜,大多數(shù)樣本都以極接近于1或極接近于0的后驗(yàn)概率被判定為正類,很少有樣本的預(yù)測(cè)后驗(yàn)概率落入0.1到0.9區(qū)間內(nèi)。
對(duì)于多分類文本分類任務(wù)而言,后驗(yàn)概率校準(zhǔn)方法就是將前文的方法進(jìn)行簡(jiǎn)單的擴(kuò)展,對(duì)每一個(gè)類別的樣本進(jìn)行分區(qū),并計(jì)算得到每一個(gè)類別的校準(zhǔn)后驗(yàn)概率,最后對(duì)得到的個(gè)類別的校準(zhǔn)后驗(yàn)概率進(jìn)行歸一化,取最大值作為最終文本分類任務(wù)的校準(zhǔn)后驗(yàn)概率。
上文提到的所有的后驗(yàn)校準(zhǔn)方法都是后處理方法。此類后處理校準(zhǔn)方法會(huì)從驗(yàn)證集中學(xué)習(xí)校準(zhǔn)參數(shù),優(yōu)點(diǎn)是只需要很少的樣本;但是因?yàn)閿?shù)據(jù)集分割造成數(shù)據(jù)集之間數(shù)據(jù)分布差異明顯,后處理校準(zhǔn)方法不能獲取準(zhǔn)確的數(shù)據(jù)分布,所以校準(zhǔn)效果有限,并且該類方法的分類器是靜態(tài)的。針對(duì)后處理校準(zhǔn)方法所存在的上述兩個(gè)問(wèn)題,本文提出了一個(gè)簡(jiǎn)單但有效的端到端后驗(yàn)概率校準(zhǔn)模塊PosCal。不同于后處理的校準(zhǔn)方法,PosCal在訓(xùn)練過(guò)程中動(dòng)態(tài)地對(duì)預(yù)測(cè)后驗(yàn)概率和經(jīng)驗(yàn)后驗(yàn)概率之間的差異進(jìn)行懲罰。
除此之外,在文本分類任務(wù)中,當(dāng)分類標(biāo)簽分配的標(biāo)準(zhǔn)與語(yǔ)義相似性不一致時(shí),由于語(yǔ)義相似性的過(guò)多影響,分類器往往容易出錯(cuò)。這是因?yàn)榫幋a器將文本轉(zhuǎn)換為表示文本語(yǔ)義的特征向量,語(yǔ)義相似的文本具有相近的特征向量表示,這時(shí)分類器可能區(qū)分不出相似文本間導(dǎo)致標(biāo)簽分配不同的細(xì)微差別[22]。受這個(gè)想法的啟發(fā),本文提出了一個(gè)負(fù)例監(jiān)督訓(xùn)練方法,就是利用負(fù)例,即帶有不同標(biāo)簽的文本來(lái)實(shí)現(xiàn)對(duì)編碼器的負(fù)例監(jiān)督,以便為語(yǔ)義相似文本根據(jù)類別不同生成不同的特征向量表示。
針對(duì)現(xiàn)有的文本分類任務(wù)領(lǐng)域中存在的模型分類準(zhǔn)確率和置信度不匹配,且現(xiàn)有后處理校準(zhǔn)方法都依賴于驗(yàn)證集,以及分類器很難區(qū)分出語(yǔ)義相似但匹配標(biāo)簽不同的文本之間的細(xì)微差別這兩個(gè)問(wèn)題,本文提出了后驗(yàn)概率校準(zhǔn)結(jié)合負(fù)例監(jiān)督的模型PosCal-negative。如圖1所示,該模型是一個(gè)具有文本分類主任務(wù)、后驗(yàn)概率校準(zhǔn)和負(fù)例監(jiān)督學(xué)習(xí)兩個(gè)輔助任務(wù)的多任務(wù)學(xué)習(xí)框架。圖1中的Trm表示使用自注意機(jī)制的編碼器-解碼器結(jié)構(gòu)。
圖1 本文模型整體框架
模型的輸入是一個(gè)由一系列字符組成的文本,嵌入層是為了將文本的字符映射到同一個(gè)語(yǔ)義空間中,根據(jù)上下文的語(yǔ)義將文本的字符編碼成高維向量。本文選擇BERT語(yǔ)言模型對(duì)文本的字符進(jìn)行編碼,因?yàn)樵撃P褪巧疃鹊纳窠?jīng)網(wǎng)絡(luò)模型,并且在大規(guī)模的語(yǔ)料上進(jìn)行了訓(xùn)練,所以可以更好地歸納自然語(yǔ)言文本中的語(yǔ)義和語(yǔ)法上的特性。
PosCal是一個(gè)后驗(yàn)概率校準(zhǔn)模塊,在訓(xùn)練過(guò)程中將分類器初始輸出的預(yù)測(cè)后驗(yàn)概率和經(jīng)驗(yàn)后驗(yàn)概率之間的差異最小化,達(dá)到校準(zhǔn)誤差最小化的目標(biāo)。這種面向數(shù)據(jù)的校準(zhǔn)因?yàn)榭紤]到了數(shù)據(jù)集的分布特點(diǎn),比單純面向任務(wù)的模型更加可靠。與之前在固定且通常很小的驗(yàn)證集上的后處理校準(zhǔn)方法相比,PosCal模塊在訓(xùn)練迭代過(guò)程中根據(jù)訓(xùn)練集動(dòng)態(tài)估計(jì)校準(zhǔn)所需的數(shù)據(jù)統(tǒng)計(jì)信息。
本文提出后驗(yàn)概率校準(zhǔn)算法具體步驟如下:
輸出 模型參數(shù)。
步驟4 根據(jù)每一個(gè)epoch更新的次數(shù),僅在那些批次中更新的值。
3.1.1 數(shù)據(jù)集
本文采用MATINF-C[23]數(shù)據(jù)集,它是一個(gè)在母嬰護(hù)理領(lǐng)域中的大規(guī)模中文文本分類數(shù)據(jù)集。MATINF-C數(shù)據(jù)集的文本為日??谡Z(yǔ)表述,并且屬于單個(gè)領(lǐng)域下的細(xì)粒度分類,不同類別之間的文本語(yǔ)義區(qū)別都是極其細(xì)微的,需要模型更細(xì)致地利用語(yǔ)義信息,而不是簡(jiǎn)單地為每個(gè)類別識(shí)別其獨(dú)特的-gram特征,因此更具挑戰(zhàn)性和實(shí)用性。
該數(shù)據(jù)集中的樣本包括三個(gè)字段:?jiǎn)栴}、描述和類別,表2給出了其中一個(gè)示例。該數(shù)據(jù)集分為了兩個(gè)子數(shù)據(jù)集MATINF-C-AGE和MATINF-C-TOPIC:1)MATINF-C-AGE數(shù)據(jù)集將問(wèn)題和描述分類到3個(gè)不同的年齡段(0~1歲、1~2歲、2~3歲);2)MATINF-C-TOPIC數(shù)據(jù)集將問(wèn)題和描述分類為18個(gè)更細(xì)粒度的主題(產(chǎn)褥期保健、兒童過(guò)敏、動(dòng)作發(fā)育、嬰幼保健、嬰幼心理、嬰幼早教、嬰幼期喂養(yǎng)、嬰幼營(yíng)養(yǎng)、孕期保健、家庭教育、幼兒園、為準(zhǔn)父母、流產(chǎn)和不孕、疫苗接種、皮膚護(hù)理、寶寶上火、腹瀉、嬰幼常見(jiàn)?。?,MATINF-C-AGE具有876 000條樣本,MATINF-C-TOPIC具有192 000條樣本,這兩個(gè)子數(shù)據(jù)集之間不存在數(shù)據(jù)重疊問(wèn)題。
形式上,我們將任務(wù)定義為通過(guò)其問(wèn)題和描述字段來(lái)預(yù)測(cè)文本信息的類別。
表2 MATINF-C數(shù)據(jù)集的實(shí)例
3.1.2 實(shí)驗(yàn)參數(shù)
表3 超參數(shù)設(shè)置
3.1.3 評(píng)估指標(biāo)
1)本文采用分類的準(zhǔn)確率作為評(píng)估指標(biāo),準(zhǔn)確率=正確的分類數(shù)量/總體數(shù)量。
ECE就是首先將0到1取值范圍內(nèi)的后驗(yàn)概率分為個(gè)區(qū)間,然后計(jì)算每個(gè)區(qū)間內(nèi)樣本準(zhǔn)確率和置信度之差的加權(quán)平均值,公式如下:
本文選擇9個(gè)常見(jiàn)的文本分類模型作為基線模型,如表4,其中包括CNN及其變種模型、預(yù)訓(xùn)練語(yǔ)言網(wǎng)絡(luò)模型以及后驗(yàn)概率校準(zhǔn)模型,具體情況如下:
1)文獻(xiàn)[24]中提出的TextCNN模型在文本分類任務(wù)中利用CNN來(lái)提取句子中類似-gram的關(guān)鍵信息,以預(yù)訓(xùn)練好的詞向量矩陣表示一個(gè)句子,并且將其作為CNN的輸入層,再通過(guò)標(biāo)記好的數(shù)據(jù)訓(xùn)練出神經(jīng)網(wǎng)絡(luò)模型從而達(dá)到預(yù)測(cè)數(shù)據(jù)類別的效果。
2)文獻(xiàn)[25]中提出的動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)(Dynamic Convolutional Neural Network, DCNN)模型采用了動(dòng)態(tài)top-最大池化層[26]。網(wǎng)絡(luò)中的兩個(gè)卷積層不同的詞向量進(jìn)行卷積,卷積后的矩陣中每一個(gè)單元格都表示了相鄰詞匯組合起來(lái)的語(yǔ)義。這些語(yǔ)義或者結(jié)構(gòu)信息不是同等重要的,于是最大池化層就提取出這些信息中重要的個(gè)。
3)文獻(xiàn)[27]中提出的結(jié)合RNN和CNN模型的循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Convolutional Neural Network, RCNN)采用雙向循環(huán)結(jié)構(gòu)獲取文本信息,比傳統(tǒng)的基于窗口的神經(jīng)網(wǎng)絡(luò)更能減少噪聲,而且在學(xué)習(xí)文本表達(dá)時(shí)可以大范圍地保留詞序。其次使用最大池化層獲取文本主要成分,自動(dòng)判斷哪個(gè)特征在文本分類過(guò)程中起更重要的作用。
4)文獻(xiàn)[28]中提出了一種線性快速文本分類模型(fast Text classifier, fastText),通過(guò)引入其他統(tǒng)計(jì)數(shù)據(jù)(如-gram語(yǔ)法統(tǒng)計(jì)),減小了線性模型和深度模型之間精度的差距,同時(shí)速度也比DCNN等主流深度神經(jīng)網(wǎng)絡(luò)的分類速度提升了許多個(gè)數(shù)量級(jí)。
5)文獻(xiàn)[29]中提出了新型CNN結(jié)構(gòu)深度金字塔神經(jīng)卷積網(wǎng)絡(luò)(Deep Pyramid Convolutional Neural Network, DPCNN),在卷積層后固定卷積核的數(shù)量進(jìn)行池化,可以有效提取文本中的遠(yuǎn)程關(guān)系特征,并且降低復(fù)雜度。
6)文獻(xiàn)[30]提出的BERT模型基于多層Transformer Encoder模塊,并通過(guò)掩碼語(yǔ)言模型(Masked Language Model,MLM)以及下一個(gè)句子預(yù)測(cè)(Next Sentence Prediction,NSP)兩個(gè)任務(wù)進(jìn)行預(yù)訓(xùn)練。
7)文獻(xiàn)[31]中提出了BERT模型的壓縮方法BERT-of-Theseus,直接用小模型的模塊去替換大模型的模塊,然后進(jìn)行訓(xùn)練。不同于很多蒸餾方法都得同時(shí)作用于預(yù)訓(xùn)練和微調(diào)階段,BERT-of-Theseus可以直接作用于下游任務(wù)的微調(diào)。
8)文獻(xiàn)[32]中提出的使用信息實(shí)體增強(qiáng)語(yǔ)言表示(Enhanced Language Representation with Informative Entities,ERNIE)的Knowledge Integration方法將BERT中的隨機(jī)masking改為實(shí)體或短語(yǔ)級(jí)別的masking,使模型能夠從中學(xué)習(xí)到更多句法語(yǔ)義知識(shí)。
9)文獻(xiàn)[14]中提出的后驗(yàn)概率校準(zhǔn)方法Temperature scaling(簡(jiǎn)記為T(mén)emp)引入了一個(gè)變量對(duì)后驗(yàn)概率進(jìn)行縮放校準(zhǔn)。
3.3.1 實(shí)驗(yàn)結(jié)果對(duì)比
與基線模型的準(zhǔn)確率對(duì)比結(jié)果如表4所示。從表4可以看出,在MATINF-C-AGE和MATINF-C-TOPIC兩個(gè)數(shù)據(jù)集上,本文模型的準(zhǔn)確率明顯高于其他五個(gè)神經(jīng)網(wǎng)絡(luò)模型;與三個(gè)預(yù)訓(xùn)練語(yǔ)言模型相比,PosCal-negative的文本分類準(zhǔn)確率也是最優(yōu)的。其中Temp方法因?yàn)閰?shù)不會(huì)改變softmax函數(shù)的最大值,所以模型最終分類準(zhǔn)確率保持不變,只會(huì)對(duì)后驗(yàn)概率校準(zhǔn)程度產(chǎn)生影響,所以在表4中Temp的準(zhǔn)確率和本文的BERT+negative基本一致。綜上說(shuō)明,本文提出的PosCal-negative模型在兩個(gè)分類數(shù)據(jù)集上均發(fā)揮了作用。
表4 各模型的準(zhǔn)確率對(duì)比 單位: %
觀察發(fā)現(xiàn)具有最深層網(wǎng)絡(luò)結(jié)構(gòu)和最大參數(shù)量的DPCNN模型取得了91.02%的準(zhǔn)確率,超越了包括預(yù)訓(xùn)練語(yǔ)言模型在內(nèi)的所有基線模型。分析可能是因?yàn)镸ATINF-C-AGE是一個(gè)樣本數(shù)量較少并且類別數(shù)量較少的數(shù)據(jù)集,這有利于具有中等數(shù)量的模型,而不是像預(yù)訓(xùn)練語(yǔ)言模型那樣具有巨大參數(shù)量的模型。同樣,該數(shù)據(jù)集類別只有3個(gè),所以針對(duì)該數(shù)據(jù)集的文本分類任務(wù)相對(duì)簡(jiǎn)單很多,這使得語(yǔ)言模型的優(yōu)勢(shì)變得微不足道。
3.3.2 消融分析
在消融實(shí)驗(yàn)中,選擇BERT-base這個(gè)預(yù)訓(xùn)練語(yǔ)言模型作為基線對(duì)比。
由表5可知,使用了PosCal模塊比BERT基線在MATINF-C-AGE和MATINF-C-TOPIC數(shù)據(jù)集上的準(zhǔn)確率分別提高了0.92個(gè)百分點(diǎn)和1.82個(gè)百分點(diǎn),說(shuō)明PosCal模塊能提高在MATINF-C-AGE和MATINF-C-TOPIC數(shù)據(jù)集上的文本分類準(zhǔn)確率;使用了負(fù)例監(jiān)督訓(xùn)練模塊的比BERT基線在兩個(gè)數(shù)據(jù)集上分別提高了0.54個(gè)百分點(diǎn)和1.09個(gè)百分點(diǎn),說(shuō)明了負(fù)例監(jiān)督訓(xùn)練模塊也是有效的。
表5 消融實(shí)驗(yàn)的準(zhǔn)確率結(jié)果 單位: %
3.3.3 期望校準(zhǔn)誤差分析
表6是針對(duì)PosCal模塊在校準(zhǔn)誤差這個(gè)指標(biāo)上的效果,從表中數(shù)據(jù)可以看出,Temp在兩個(gè)數(shù)據(jù)集上的ECE值都是上升的,它在本文兩個(gè)數(shù)據(jù)集上后驗(yàn)概率校準(zhǔn)效果表現(xiàn)不佳;與BERT-base相比,本文模型PosCal-negative的ECE值在MATINF-C-AGE和MATINF-C-TOPIC兩個(gè)數(shù)據(jù)集上都有所下降,說(shuō)明本文提出的PosCal這種端到端的校準(zhǔn)后驗(yàn)概率方法是有效的。
表6 ECE對(duì)比
3.3.4 負(fù)例監(jiān)督模塊分析
從表7的實(shí)驗(yàn)結(jié)果可以看出,PosCal-AM和PosCal-negative在MATINF-C-AGE和MATINF-C-TOPIC這兩個(gè)數(shù)據(jù)集上分類性能都超過(guò)了基線模型,整體看來(lái),本文模型PosCal-negative性能更優(yōu);然而PosCal-ACE模型的分類準(zhǔn)確率比基線模型的低。這說(shuō)明簡(jiǎn)單地選取輔助樣例進(jìn)行監(jiān)督學(xué)習(xí)并不能提升文本分類的效果,但本文提出的負(fù)例監(jiān)督學(xué)習(xí)方法起到了重要作用。
表7 負(fù)例監(jiān)督模塊準(zhǔn)確率對(duì)比 單位: %
針對(duì)現(xiàn)有的文本分類任務(wù)領(lǐng)域中存在的模型分類準(zhǔn)確率和置信度不匹配,且現(xiàn)有后處理校準(zhǔn)方法都依賴于驗(yàn)證集,以及分類器很難區(qū)分出語(yǔ)義相似但匹配標(biāo)簽不同的文本之間的細(xì)微差別這兩個(gè)問(wèn)題,本文提出了PosCal-negative。實(shí)驗(yàn)結(jié)果表明,本文提出的PosCal-negative模型在MATINF-C這個(gè)中文母嬰護(hù)理文本分類數(shù)據(jù)集上的準(zhǔn)確率取得了較大的提升。在未來(lái)的工作中,希望考慮分類標(biāo)簽之間的語(yǔ)義相似性,結(jié)合本文提出的負(fù)例監(jiān)督學(xué)習(xí)方法來(lái)提高文本分類的準(zhǔn)確率。
)
[1] WANG S, MANNING C D. Baselines and bigrams: simple, good sentiment and topic classification[C]// Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2012: 90-94.
[2] WANG G Y, LI C Y, WANG W L, et al. Joint embedding of words and labels for text classification[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2018:2321-2331.
[3] ZHANG X, ZHAO J B, LeCUN Y. Character-level convolutional networks for text classification[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2015: 649-657.
[4] SHEN D H, ZHANG Y Z, HENAO R, et al. Deconvolutional latent-variable model for text sequence matching[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 5438-5445.
[5] YANG P C, SUN X, LI W, et al. SGM: sequence generation model for multi-label classification[C]// Proceedings of the 27th International Conference on Computational Linguistics. Stroudsburg, PA: ACL, 2018:3915-3926.
[6] JIANG X Q, OSL M, KIM J, et al. Calibrating predictive model estimates to support personalized medicine[J]. Journal of the American Medical Informatics Association, 2012, 19(2): 263-274.
[7] MURPHY A H. A new vector partition of the probability score[J]. Journal of Applied Meteorology and Climatology, 1973, 12(4): 595-600.
[8] MURPHY A H, WINKLER R L. Reliability of subjective probability forecasts of precipitation and temperature[J]. Journal of the Royal Statistical Society: Series C (Applied Statistics), 1977, 26(1): 41-47.
[9] DEGROOT M H, FIENBERG S E. The comparison and evaluation of forecasters[J]. Journal of the Royal Statistical Society: Series D (The Statistician), 1983, 32(1/2): 12-22.
[10] GNEITING T, RAFTERY A E. Weather forecasting with ensemble methods[J]. Science, 2005, 310(5746): 248-249.
[11] BR?CKER J. Reliability, sufficiency, and the decomposition of proper scores[J]. Quarterly Journal of the Royal Meteorological Society, 2009, 135(643): 1512-1519.
[12] NGUYEN K, O’CONNOR B. Posterior calibration and exploratory analysis for natural language processing models[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2015: 1587-1598.
[13] CARD D, SMITH N A. The importance of calibration for estimating proportions from annotations[C]// Proceedings of the 2018 Conference of the North American Chapter of the Association of the Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). Stroudsburg, PA: ACL, 2018: 1636-1646.
[14] GUO C, PLEISS G, SUN Y, et al. On calibration of modern neural networks[C]// Proceedings of the 34th International Conference on Machine Learning. New York: JMLR.org, 2017: 1321-1330.
[15] KUMAR A, LIANG P, MA T Y. Verified uncertainty calibration[C/OL]// Proceedings of the 33rd International Conference on Neural Information Processing Systems. [2021-03-30].https://proceedings.neurips.cc/paper/2019/file/f8c0c968632845cd133308b1a494967f-Paper.pdf.
[16] WAKAMIYA S, MORITA M, KANO Y, et al. Overview of the NTCIR-13: MedWeb task[C]// Proceedings of the 13th NTCIR Conference on Evaluation of Information Access Technologies. Tokyo: National Institute of Informatics, 2017: 40-49.
[17] 劉婷婷,朱文東,劉廣一. 基于深度學(xué)習(xí)的文本分類研究進(jìn)展[J]. 電力信息與通信技術(shù), 2018, 16(3):1-7.(LIU T T, ZHU W D, LIU G Y. Advances in deep learning based text classification[J]. Electric Power Information and Communication Technology, 2018, 16(3):1-7.)
[18] 何力,鄭灶賢,項(xiàng)鳳濤,等. 基于深度學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J]. 計(jì)算機(jī)工程, 2021, 47(2):1-11.(HE L, ZHENG Z X, XIANG F T, et al. Research progress of text classification technology based on deep learning[J]. Computer Engineering, 2021, 47(2):1-11.)
[19] ZADROZNY B, ELKAN C. Obtaining calibrated probability estimates from decision trees and naive Bayesian classifiers[C]// Proceedings of the 18th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc., 2001: 609-616.
[20] NAEINI M P, COOPER G F, HAUSKRECHT M. Obtaining well calibrated probabilities using Bayesian binning[C]// Proceedings of the 29th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2015: 2901-2907.
[21] PLATT J. Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods[M]// SMOLA A J, BARTLETT P ,SCH?LKOPF B, et al. Advances in Large Margin Classifiers. Cambridge: MIT Press, 2000: 61-74.
[22] OHASHI S, TAKAYAMA J, KAJIWARA T, et al. Text classification with negative supervision[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2020: 351-357.
[23] XU C W, PEI J X, WU H T, et al. MATINF: a jointly labeled large-scale dataset for classification, question answering and summarization[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: CL, 2020: 3586-3596.
[24] KIM Y. Convolutional neural networks for sentence classification[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2014: 1746-1751.
[25] KALCHBRENNER N, GREFENSTETTE E, BLUNSOM P. A convolutional neural network for modelling sentences[C]// Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2014: 655-665.
[26] 杜思佳,于海寧,張宏莉. 基于深度學(xué)習(xí)的文本分類研究進(jìn)展[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2020, 6(4):1-13.(DU S J, YU H N, ZHANG H L. Survey of text classification methods based on deep learning[J]. Chinese Journal of Network and Information Security, 2020, 6(4):1-13.)
[27] LAI S W, XU L H, LIU K, et al. Recurrent convolutional neural networks for text classification[C]// Proceedings of the 29th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2015: 2267-2273.
[28] JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification[C]// Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics, Volume 2 (Short Papers). Stroudsburg, PA: ACL, 2017:427-431.
[29] JOHNSON R, ZHANG T. Deep pyramid convolutional neural networks for text categorization[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Volume 1 (Long Papers). Stroudsburg, PA: ACL, 2017: 562-570.
[30] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Stroudsburg, PA: ACL, 2019: 4171-4186.
[31] XU C W, ZHOU W C S, GE T, et al. BERT-of-Theseus: compressing BERT by progressive module replacing[C]// Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2020: 7859-7869.
[32] ZHANG Z Y, HAN X, LIU Z Y, et al. ERNIE: enhanced language representation with informative entities[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2019: 1441-1451.
Integrating posterior probability calibration training into text classification algorithm
JIANG Jing1, CHEN Yu2, SUN Jieping1, JU Shenggen1*
(1,,610065,;2,,626001,)
The pre-training language models used for text representation have achieved high accuracy on various text classification tasks, but the following problems still remain: on the one hand, the category with the largest posterior probability is selected as the final classification result of the model after calculating the posterior probabilities on all categories in the pre-training language model. However, in many scenarios, the quality of the posterior probability itself can provide more reliable information than the final classification result. On the other hand, the classifier of the pre-training language model has performance degradation when assigning different labels to texts with similar semantics. In response to the above two problems, a model combining posterior probability calibration and negative example supervision named PosCal-negative was proposed. In PosCal-negative model, the difference between the predicted probability and the empirical posterior probability was dynamically penalized in an end-to-and way during the training process, and the texts with different labels were used to realize the negative supervision of the encoder, so that different feature vector representations were generated for different categories. Experimental results show that the classification accuracies of the proposed model on two Chinese maternal and child care text classification datasets MATINF-C-AGE and MATINF-C-TOPIC reach 91.55% and 69.19% respectively, which are 1.13 percentage points and 2.53 percentage points higher than those of Enhanced Representation through kNowledge IntEgration (ERNIE) model respectively.
text classification; posterior probability calibration; pre-training language model; negative supervision; deep learning
This work is partially supported by National Natural Science Foundation of China (61972270), Key Research and Development Project in Sichuan Province (2019YFG0521).
JIANG Jing, born in 1996, M. S. candidate. Her research interests include natural language processing, knowledge graph.
CHEN Yu, born in 1974, M. S., professor. His research interests include natural language processing, human-computer interaction.
SUN Jieping, born in 1962, M. S., associate professor. His research interests include intelligent information processing, intelligent education.
JU Shenggen, born in 1970, Ph. D., professor. His research interests include natural language processing, knowledge graph, data mining.
TP391
A
1001-9081(2022)06-1789-07
10.11772/j.issn.1001-9081.2021091638
2021?09?27;
2021?11?15;
2021?11?17。
國(guó)家自然科學(xué)基金資助項(xiàng)目(61972270);四川省重點(diǎn)研發(fā)項(xiàng)目(2019YFG0521)。
江靜(1996—),女,重慶人,碩士研究生,主要研究方向:自然語(yǔ)言處理、知識(shí)圖譜;陳渝(1974—),男,四川儀隴人,教授,碩士,主要研究方向:自然語(yǔ)言處理、人機(jī)交互;孫界平(1962—),男,四川成都人,副教授,碩士,主要研究方向:智能信息處理、智慧教育;琚生根(1970—),男,安徽桐城人,教授,博士,主要研究方向:自然語(yǔ)言處理、知識(shí)圖譜、數(shù)據(jù)挖掘。