祁瑞華 邵 震 關(guān)菁華 郭 旭
引用在科學(xué)成果論述中發(fā)揮著重要作用,引用分析有助于學(xué)術(shù)文獻(xiàn)的理解和研究人員的評(píng)價(jià).學(xué)術(shù)文獻(xiàn)中出現(xiàn)引用文獻(xiàn)時(shí),引文意圖不盡相同.引文意圖分類的目標(biāo)是分析學(xué)術(shù)文獻(xiàn)中引證參考文獻(xiàn)的引文意圖.引文意圖分類研究有助于更精準(zhǔn)地完成引文重要性分析等后續(xù)文獻(xiàn)計(jì)量研究任務(wù),因此成為文獻(xiàn)計(jì)量研究領(lǐng)域的熱點(diǎn)問題.
早期的引文意圖研究主要采用人工定性分析方法[1].人工定性分析方法的主要問題是引文描述過于冗長(zhǎng),無法自動(dòng)處理大規(guī)模數(shù)據(jù),此外分析者的主觀態(tài)度偏差容易導(dǎo)致錯(cuò)誤的分類結(jié)果[2].為此,亟需開展引文意圖自動(dòng)分類的研究.
引文意圖的分類體系是引文意圖分析研究的理論基礎(chǔ),科學(xué)合理的引文意圖分類體系有助于規(guī)范化分類標(biāo)準(zhǔn)并為數(shù)據(jù)集標(biāo)注等工作提供良好的研究基礎(chǔ).Garfield[3]提出引文意圖可分為“向研究先驅(qū)致敬”、“提出相關(guān)研究者功績(jī)”、“指出方法論工具”等15類.Moravcsik等[4]將引文的意圖分類簡(jiǎn)化為5類,包括“概念性與實(shí)操性”、“結(jié)構(gòu)化與非結(jié)構(gòu)化”、“發(fā)展與并行”、“認(rèn)同與否定”和“無關(guān)的冗余引用”.Chang[5]研究自然科學(xué)與社會(huì)科學(xué)領(lǐng)域的期刊引用影響力,并歸納“提供背景信息”、“比較”、“引用定義”等11種引文意圖.Pride等[6]提出ACT(Aca-demic Citation Typing),將引文意圖分為“研究背景”、“使用方法論或工具”、“對(duì)照對(duì)比”、“研究動(dòng)機(jī)來源”、“拓展方法”和“未來展望”6類.
傳統(tǒng)的引文意圖自動(dòng)分類主要分為基于特征工程的引文意圖分類方法和基于語言模型的引文意圖分類方法.基于特征工程的引文意圖分類方法的主要思路是通過分析引文外部特征構(gòu)建引文文本的特征表示,再采用分類算法對(duì)這些外部特征表示進(jìn)行引文意圖分類[7].Teufel等[8-10]結(jié)合詞性序列、位置和時(shí)態(tài)特征構(gòu)建特征模型,提出專用于引文分類的特征體系,效果較優(yōu).Xu等[11]提出基于引文句子結(jié)構(gòu)特征的特征表示方法.Nakagawa等[12]構(gòu)建基于條件隨機(jī)場(chǎng)的監(jiān)督學(xué)習(xí)模型,用于識(shí)別日文文獻(xiàn)中的引文意圖.Meyers等[13]將篇章轉(zhuǎn)換成樹形模型,通過詞性分析判斷引文對(duì)比意圖與證明意圖之間的關(guān)聯(lián).Abdullatif等[14]利用語義標(biāo)簽表示引文文本,提出基于規(guī)則的引文意圖分類方法.Valenzuela等[15]擴(kuò)展作者、摘要等引文意圖相關(guān)特征,采用支持向量機(jī)(Support Vector Machine, SVM)和隨機(jī)森林(Ran-dom Forest)算法,實(shí)現(xiàn)引文意圖自動(dòng)分類.Hassan等[16]進(jìn)一步將文獻(xiàn)[15]中提出的引文特征擴(kuò)展到14種,采用LSTM(Long Short-Term Memory)進(jìn)行引文意圖分類.Jurgens等[7]融合引文的模式特征、主題特征和語法特征等文本特征,將文獻(xiàn)意圖分為背景、動(dòng)機(jī)、使用、擴(kuò)展、對(duì)比、展望6類,利用隨機(jī)森林算法進(jìn)行分類.
基于語言模型的引文意圖分類可分為基于詞向量語言模型的方法[17]和基于預(yù)訓(xùn)練語言模型的方法[18].Yousif等[19]提出MTL(Multitask Learning Mo-del ),采用詞向量表示引文上下文,通過多任務(wù)學(xué)習(xí)引文情感分類與引文意圖分類兩個(gè)子任務(wù)改善引文意圖分類效果.Roman等[17]通過詞向量表示引文文本,聚類后再對(duì)各類簇進(jìn)行引文意圖標(biāo)注.Cohan等[18]提出結(jié)合GloVe(Global Vector)與ELMo(Em-beddings from Language Models)的引文文本表示方法,將引文意圖分類作為主任務(wù),引文重要性標(biāo)注任務(wù)和篇章子標(biāo)題標(biāo)注任務(wù)作為輔助任務(wù),通過損失函數(shù)共享的遷移學(xué)習(xí)方法完成引文意圖分類任務(wù).
近年來,隨著BERT(Bidirectional Encoder Representations from Transformer)[20]等預(yù)訓(xùn)練語言模型的出現(xiàn),引文意圖分類研究取得一系列新的進(jìn)展.Beltagy等[21]使用科技文獻(xiàn)大數(shù)據(jù)訓(xùn)練得到用于科技文獻(xiàn)文本表示的SciBERT(BERT of Scientific Text)語言模型.Zheng等[22]提出基于文獻(xiàn)全文的掩碼語言模型(Masked Language Model, MLM)預(yù)訓(xùn)練方法,進(jìn)行引文意圖的分析.由于MLM掩碼語言模型獨(dú)立預(yù)測(cè)每個(gè)掩碼,存在預(yù)訓(xùn)練與微調(diào)不一致的特性,可表示復(fù)雜的引文文本損失詞之間的概率關(guān)聯(lián)信息.Mercier等[23]提出基于XLNet(Extra Long Transformer Network)預(yù)訓(xùn)練模型的引文意圖分類方法,通過XLNet的優(yōu)化排列語言模型(Permuted Language Model, PLM)[24]提升引文意圖分類效果,但由于PLM排列語言模型中每個(gè)符號(hào)(Token)的預(yù)測(cè)只能在排列后的序列中進(jìn)行,無法在自回歸中獲取完整句子的位置信息,在處理引文文本時(shí)存在預(yù)訓(xùn)練與微調(diào)不一致的問題,無法保留全部引文特征信息.
因此,本文提出基于MPNet預(yù)訓(xùn)練和多頭注意力特征融合的引文意圖分類方法(Citation Intent Classification Method Based on MPNet Pretraining and Multi-head Attention Feature Fusion, MPMAF).通過語法知識(shí)特征表示和預(yù)訓(xùn)練語言模型改善對(duì)引文上下文語義信息的學(xué)習(xí),通過MPNet(Masked and Permuted Pre-training for Language Understanding)[25]的預(yù)測(cè)機(jī)制,彌補(bǔ)現(xiàn)有預(yù)訓(xùn)練語言模型表示引文文本時(shí)的序列位置和詞間關(guān)聯(lián)損失,通過多頭注意力機(jī)制改善引文外部屬性特征表示.
本文提出基于MPNet預(yù)訓(xùn)練和多頭注意力特征融合的引文意圖分類方法(MPMAF).先通過MP-Net預(yù)訓(xùn)練語言模型的預(yù)測(cè)機(jī)制彌補(bǔ)現(xiàn)有模型表示序列位置信息和詞間概率關(guān)聯(lián)上的不足.在此基礎(chǔ)上,通過多頭注意力機(jī)制融合引文外部屬性特征,構(gòu)建引文意圖分類模型,在學(xué)習(xí)過程中融合引文的文本表示與外部特征,將引文的語法知識(shí)進(jìn)行特征表示后作為外部特征,分別對(duì)文本表示及外部特征兩個(gè)向量空間進(jìn)行模型訓(xùn)練后再融合,改善引文外部屬性特征表示.
本文的基于MPNet預(yù)訓(xùn)練和多頭注意力特征融合的引文意圖分類方法(MPMAF)結(jié)構(gòu)如圖1所示.
MPMAF的引文特征表示分為引文上下文特征與引文外部特征兩個(gè)模塊,通過多頭注意力機(jī)制融合這兩部分的特征.其中,通過MPNet預(yù)訓(xùn)練語言模型訓(xùn)練得到引文上下文特征,由引文文本的語法結(jié)構(gòu)獲取引文外部特征.
在輸入層完成引文文本的預(yù)處理和標(biāo)注,輸入層處理的結(jié)果作為詞嵌入層的輸入.在特征表示層,首先生成兩部分特征:引文上下文特征和引文外部特征.引文上下文特征采用MPNet預(yù)訓(xùn)練模型生成的引文文本詞嵌入向量表示,并通過BiLSTM(Bi-di-
rectional LSTM)提取引文上下文特征T′.
從輸入層的引文文本抽取外部語法詞頻特征和引文結(jié)構(gòu)特征構(gòu)成本文的引文外部特征F.引文外部特征五元組表示如下:
featureij={Onehotj(posj,pos_list),patternj,tfidfij,section_namej,offsetsj},
(1)
其中,i表示句子標(biāo)號(hào),j表示句子中的單詞編號(hào).式(1)前三項(xiàng)為語法詞頻特征,后兩項(xiàng)為引文結(jié)構(gòu)特征.
第1項(xiàng)Onehotj(posj,pos_list)是以O(shè)ne-hot形式表示的詞性特征,pos_list為全部詞性列表.
第2項(xiàng)patternj表示句子中是否包含如下6種句法結(jié)構(gòu)的one-hot編碼:
1)引文+動(dòng)詞[過去式/現(xiàn)在式/第三人稱/過去分詞].
2)動(dòng)詞[過去式/動(dòng)名詞/第三人稱]+動(dòng)詞[動(dòng)名詞/過去分詞].
3)動(dòng)詞[所有形式]+(副詞[比較級(jí)/最高級(jí)])+動(dòng)詞[過去分詞].
4)情態(tài)詞+(副詞[比較級(jí)/最高級(jí)])+動(dòng)詞+(副詞[比較級(jí)/最高級(jí)])+過去分詞.
5)(副詞[比較級(jí)/最高級(jí)])+人稱代詞+(副詞[比較級(jí)/最高級(jí)])+動(dòng)詞[所有形式].
6)動(dòng)名詞+(專有名詞+并列連詞+專有名詞).
第3項(xiàng)tfidfij表示單詞j在句子i中的Tf-idf值:
其中,d表示每條樣本,ft,d表示單詞t在樣本d中出現(xiàn)的頻率,N表示所有樣本數(shù),nt表示出現(xiàn)單詞t的樣本數(shù).
第4項(xiàng)section_namej表示引文在全文中的位置,共有6種位置,分別是experiments,method,related work,introduction,conclusion,others.
第5項(xiàng)引用偏移量offsetsj,表示引用標(biāo)識(shí)在整個(gè)引文上下文中起始的相對(duì)位置.
然后,在特征表示層中拼接引文上下文特征和引文外部特征,得到融合特征表示向量
C=Concat(F,T′),
并將C送入卷積層,進(jìn)一步從融合特征中提取引文意圖分類的關(guān)鍵信息.
在多頭注意力層,為了計(jì)算引文文本特征之間的關(guān)聯(lián)和權(quán)重信息,采用多頭注意力機(jī)制,分別對(duì)引文融合特征C和引文外部特征F進(jìn)行多頭自注意力計(jì)算:
mht=MultiHeadAttention(num_heads=4,key_dim=2)(F,T′).
在引文意圖分類預(yù)測(cè)層,將多頭注意力層的輸出結(jié)果mht輸入最大池化層進(jìn)行池化操作,銳化特征并壓縮輸出維度.最后將池化層的輸出結(jié)果輸入全連接層,通過激活函數(shù)計(jì)算得到引文意圖六分類預(yù)測(cè)結(jié)果,即預(yù)測(cè)為背景、對(duì)比、擴(kuò)展、展望、動(dòng)機(jī)或使用中的一類,損失函數(shù)采用交叉熵?fù)p失函數(shù).
圖1 MPMAF結(jié)構(gòu)圖Fig.1 Structure of MPMAF
本文采用的MPNet預(yù)訓(xùn)練語言模型[25]是由Microsoft公司基于XLNet自回歸模型結(jié)構(gòu)增加位置補(bǔ)償(Position Compensation)機(jī)制構(gòu)建而成,分別處理預(yù)測(cè)序列和非預(yù)測(cè)序列,并為預(yù)測(cè)序列添加位置信息.MPNet預(yù)訓(xùn)練語言模型的結(jié)構(gòu)如圖2所示.
圖2 MPNet預(yù)訓(xùn)練語言模型結(jié)構(gòu)[25]Fig.2 Structure of MPNet pretrained language model [25]
設(shè)當(dāng)前輸入序列為
X=(X1,X2,X3,X4,X5,X6),
MPNet預(yù)訓(xùn)練語言模型首先對(duì)序列進(jìn)行隨機(jī)排序,得到隨機(jī)排序的序列,如
X=(X1,X3,X5,X4,X6,X2).
設(shè)非預(yù)測(cè)序列的長(zhǎng)度為3,則非預(yù)測(cè)序列和預(yù)測(cè)序列之間的分隔如圖2所示.然后,基于MLM的思路將預(yù)測(cè)序列進(jìn)行掩碼處理,預(yù)測(cè)序列與非預(yù)測(cè)序列分別表示為
Xpredict=(X4,X6,X2),Xnon-predict=(X1,X3,X5,[M],[M],[M]),
其中[M]為掩碼.MPNet預(yù)訓(xùn)練語言模型對(duì)所有的token加入位置信息,構(gòu)建位置序列
P=(P1,P3,P5,P4,P6,P2),
然后將合并后的位置序列和輸入序列送入Transfor-
mer結(jié)構(gòu)中.
在圖2的Transformer結(jié)構(gòu)中,左邊的灰線表示非預(yù)測(cè)序列之間的雙向自注意力掩碼,右邊的藍(lán)線表示雙向注意力機(jī)制中的內(nèi)容流注意力掩碼,綠線表示雙向注意力機(jī)制中的查詢流注意力掩碼,黑線表示這部分既要作為內(nèi)容流注意力掩碼,又要作為查詢流注意力掩碼.MPNet預(yù)訓(xùn)練語言模型的位置補(bǔ)償機(jī)制可保證每個(gè)token在預(yù)測(cè)時(shí)都可獲取完整序列的信息,最終的預(yù)測(cè)結(jié)果由查詢流進(jìn)行預(yù)測(cè).
注意力機(jī)制能增強(qiáng)特征學(xué)習(xí)過程中底層單元的權(quán)重表示,清晰闡明引文意圖分類任務(wù)中每句話或每個(gè)單詞在分類預(yù)測(cè)中的權(quán)重.在注意力機(jī)制中,首先輸入映射為Q、K、V的3個(gè)特征,Q表示單詞查詢向量,K表示接查詢的關(guān)鍵信息,V表示每個(gè)單詞的詞嵌入表示內(nèi)容向量.然后點(diǎn)乘Q和K生成attention map,再將attention map與V點(diǎn)乘得到注意力加權(quán)特征:
其中dk表示K的維度.
多頭注意力機(jī)制是對(duì)多個(gè)單頭注意力機(jī)制的集成計(jì)算,在提高準(zhǔn)確率的同時(shí)通過并行計(jì)算降低多特征學(xué)習(xí)任務(wù)的時(shí)間復(fù)雜度.多頭注意力計(jì)算公式如下:
MultiHead(Q,K,V)=Concat(head1,head2)WO
,
其中WO表示多個(gè)向量空間中單詞的向量表示.本文根據(jù)引文上下文和引文外部特征融合任務(wù)的特點(diǎn)設(shè)定多頭注意力的頭數(shù)head=2,WO的維度為2dv×dmodel.
本文實(shí)驗(yàn)選用ACL-ARC數(shù)據(jù)集[6]作為實(shí)驗(yàn)數(shù)據(jù)集,數(shù)據(jù)來源為ACL會(huì)議論文集ARC(ACL Antho-
logy Reference Corpus),共包含186篇文獻(xiàn),文獻(xiàn)的研究領(lǐng)域?yàn)橛?jì)算語言學(xué),總計(jì)1 941條引文實(shí)例.ACT數(shù)據(jù)集由論文寫作者對(duì)其投稿中的引文意圖進(jìn)行標(biāo)注,標(biāo)注結(jié)果具有權(quán)威性.ACL-ARC數(shù)據(jù)集標(biāo)注6種引文意圖,數(shù)據(jù)集信息如表1所示.
表1 ACL-ARC數(shù)據(jù)集引文實(shí)例分布Table 1 Citation instance distribution of ACL-ARC dataset
實(shí)驗(yàn)中數(shù)據(jù)集的劃分方案為Cohan等[18]在NAACL2019中提出的方法,選取85%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),剩余數(shù)據(jù)均分為驗(yàn)證集與測(cè)試集.由于Beltagy等[21]在SciBERT的研究中未提及ACL-ARC數(shù)據(jù)集的數(shù)據(jù)劃分,且上述文獻(xiàn)都將ACL-ARC數(shù)據(jù)集來源及之前的SOTA結(jié)果指向Jurgens等[7]于ACL2018提出的工作,所以本文將Cohan等公開的預(yù)處理數(shù)據(jù)集用于SciBERT的對(duì)照實(shí)驗(yàn).由于數(shù)據(jù)規(guī)模有限,參照文獻(xiàn)[18]實(shí)驗(yàn)中劃分85%訓(xùn)練集的劃分方法.為了避免結(jié)果的偶然性,進(jìn)行20次重復(fù)實(shí)驗(yàn),取平均值作為最終結(jié)果[20].評(píng)價(jià)指標(biāo)采用精度(Precision, P)、召回率(Recall, R)、F1值和F1值的標(biāo)準(zhǔn)差.
本文采用MPNet作為預(yù)訓(xùn)練語言模型表示引文文本上下文,文本表示層的輸出維度為768維.模型超參數(shù)搜索采用人工搜索的方式,通過實(shí)驗(yàn)觀察和調(diào)整具有較大影響力的超參數(shù).在本文實(shí)驗(yàn)中,BiLSTM層輸出神經(jīng)元個(gè)數(shù)設(shè)置為128,卷積層的輸出神經(jīng)元個(gè)數(shù)設(shè)置為128,卷積核大小為1×3,為了盡可能地降低非必要特征帶來的干擾,卷積層填充模式采用保持卷積核和原矩陣最大重疊的方法.失活層比率選擇0.2,激活函數(shù)采用softmax函數(shù),損失函數(shù)采用稀疏類別交叉熵(Sparse Categorical Cross Entropy),優(yōu)化器采用Adam(Adaptive Moment Esti-mation),學(xué)習(xí)率設(shè)置0.001,實(shí)驗(yàn)的訓(xùn)練批次大小設(shè)置為32,時(shí)期設(shè)為15.
對(duì)照實(shí)驗(yàn)方法選取近年相關(guān)文獻(xiàn)在ACL-ARC數(shù)據(jù)集上的引文意圖分類研究結(jié)果,包括:Jurgens等[7]在ACL2018中提出的基于隨機(jī)森林的分類方法(簡(jiǎn)記為Random Forest)、Cohan等[18]在NAACL2019提出的基于ELMo多任務(wù)輔助的分類方法(簡(jiǎn)記為Structural-Scaffolds)、Beltagy等[21]于EMNLP2019提出的SciBERT及其微調(diào)方法SciBERT Finetune、BERT、MPNet預(yù)訓(xùn)練模型的多個(gè)微調(diào)方法.
各方法的指標(biāo)值對(duì)比如表2所示,表中黑體數(shù)字表示最優(yōu)值.由表可知,相比利用Random Forest的機(jī)器學(xué)習(xí)方法,使用預(yù)訓(xùn)練語言模型能大幅提升所有維度上的指標(biāo)值,Random Forest作為更早的機(jī)器學(xué)習(xí)方法中的最佳結(jié)果,說明深度學(xué)習(xí)在引文意圖分類任務(wù)中效果優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法.同時(shí),對(duì)于MPNet的BiLSTM與MPMAF兩種微調(diào)方法(MPNet-BiLSTM,MPNet-MPMAF),相比單層BiL-STM,MPMAF能大幅提升F1值,這也說明將引文屬性特征融入分類模型之中是有效的,如果僅依賴預(yù)訓(xùn)練語言模型進(jìn)行特征表示,會(huì)忽略這些引文屬性特征.這也證實(shí)MPMAF能提升引文意圖分類效果.訓(xùn)練結(jié)果的F1標(biāo)準(zhǔn)差也下降2.05%,再次證實(shí)MPMAF穩(wěn)定性強(qiáng)于BiLSTM.
表2 各方法的指標(biāo)值對(duì)比
分別對(duì) BERT、SciBERT、MPNet三種語言訓(xùn)練模型進(jìn)行微調(diào),在BERT與SciBERT的微調(diào)中,通過觀察F1標(biāo)準(zhǔn)差可看出,MPNet的訓(xùn)練導(dǎo)致的方差較大.基于MPNet的方法比現(xiàn)有SOTA結(jié)果的F1值提高1.82%,這也驗(yàn)證MPNet能更準(zhǔn)確地對(duì)引文文本進(jìn)行特征表示,提升引文意圖分類的效果.由于SciBERT的官方微調(diào)方法未提供精度與召回率,所以與Structural-Scaffolds進(jìn)行精度與召回率的對(duì)比發(fā)現(xiàn),MPMAF的精度下降1.48%,召回率提升7.57%,體現(xiàn)Structural-Scaffolds使用的遷移學(xué)習(xí)方法在判斷精度上有一定優(yōu)勢(shì),但使用的ELMo預(yù)訓(xùn)練模型對(duì)特征的表示不足,容易出現(xiàn)分類結(jié)果向數(shù)據(jù)量較大的分類偏移,而引文意圖分類數(shù)據(jù)具有不平衡的特點(diǎn),所以MPMAF更適用于引文意圖分類任務(wù).
各方法在ACL-ARC數(shù)據(jù)集各類別上的引文意圖分類指標(biāo)值對(duì)比如表3所示,表中黑體數(shù)字表示最優(yōu)值.由表可看出,除了擴(kuò)展、使用類別外,本文方法在F1值上都達(dá)到最高值,這可進(jìn)一步證實(shí)本文方法對(duì)克服數(shù)據(jù)不平衡問題具有較好效果.并且從普遍性上看,使用MPNet作為預(yù)訓(xùn)練模型時(shí)的召回率更高,可避免將數(shù)量少的類別誤判成數(shù)量多的類別,這也能證實(shí)MPNet對(duì)特征的描述更豐富,具有在不平衡數(shù)據(jù)上的魯棒性.
表3 各方法在各類別上的指標(biāo)值對(duì)比Table 3 Index comparison of methods on different classes %
MPMAF在MPNet和SciBERT預(yù)訓(xùn)練語言模型上微調(diào)之后,產(chǎn)生的引文意圖分類結(jié)果的混淆矩陣如圖3所示.由圖可知,SciBERT對(duì)背景類別的預(yù)測(cè)結(jié)果最多,背景比例占到測(cè)試集的51%,這也說明相比MPNet,基于MLM的SciBERT更容易受到數(shù)據(jù)量大類別的影響.
(a)MPNet (b)SciBERT
本文認(rèn)為這是由于MLM對(duì)特征的表示不夠全面導(dǎo)致的,有部分特征由于掩碼的存在并未被發(fā)現(xiàn),從而導(dǎo)致將大量數(shù)據(jù)分為同一類別,而MPNet預(yù)訓(xùn)練語言模型較好地解決這一問題.
在MPMAF中分別去除BiLSTM層、卷積層、多頭注意力層后的指標(biāo)值對(duì)比如表4所示,表中黑體數(shù)字表示最優(yōu)值.
表4 模型結(jié)構(gòu)消融實(shí)驗(yàn)結(jié)果
由表4可看出,在缺少BiLSTM層或卷積層時(shí)精度出現(xiàn)上升,召回率出現(xiàn)大幅下降.本文認(rèn)為這是由于外部特征的融合帶來一定的噪音,在加入多頭注意力機(jī)制后在精度、召回率上都有一定提升,這也驗(yàn)證多頭注意力在模型訓(xùn)練中的作用.
去除不同結(jié)構(gòu)后本文方法在不同類別上的指標(biāo)值對(duì)比如表5所示,表中黑體數(shù)字表示最優(yōu)值.去除BiLSTM層或卷積層后,效果更優(yōu),這進(jìn)一步驗(yàn)證特征抽取預(yù)訓(xùn)練模型的輸出的必要性.
表5 模型結(jié)構(gòu)消融實(shí)驗(yàn)中各類別的指標(biāo)值對(duì)比Table 5 Index comparison of different classes in ablation experiment of model structure %
本文認(rèn)為當(dāng)對(duì)于預(yù)訓(xùn)練模型的文本表示不進(jìn)行進(jìn)一步特征編碼的情況下,模型更容易受到樣本較多的類的影響.
下面對(duì)比MPMAF使用引文結(jié)構(gòu)特征和語法詞頻特征時(shí)的性能,具體指標(biāo)值如表6所示,表中黑體數(shù)字表示最優(yōu)值.
表6 MPMAF結(jié)合外部特征后的消融實(shí)驗(yàn)結(jié)果
由表6可看出, 當(dāng)MPMAF結(jié)合語法詞頻特征和引文結(jié)構(gòu)特征時(shí),F(xiàn)1值和召回率最高,精度也處于較高水平.當(dāng)減少引文結(jié)構(gòu)特征或語法詞頻特征時(shí),引文意圖分類結(jié)果的所有指標(biāo)值都有不同程度的下降,表明這兩類特征對(duì)引文意圖分類任務(wù)的有效性.當(dāng)兩類特征完全被消融時(shí),引文意圖分類結(jié)果的F1值和召回率降至最低,呈現(xiàn)出高精度低召回率的特點(diǎn),說明此時(shí)的實(shí)驗(yàn)結(jié)果受到不平衡數(shù)據(jù)集中大樣本類別的影響,對(duì)于樣本的特征捕捉能力較差.
MPMAF增減外部特征后的各類別消融實(shí)驗(yàn)結(jié)果如表7所示,表中黑體數(shù)字表示最優(yōu)值.由表可看出,在背景、對(duì)比、展望、動(dòng)機(jī)類別上,MPMAF結(jié)合2種外部特征后均取得最高的F1值,綜合性能最優(yōu).而在擴(kuò)展、使用類別上去掉引文結(jié)構(gòu)特征僅保留語法詞頻特征時(shí),綜合性能最優(yōu),原因是在引用文獻(xiàn)的動(dòng)機(jī)為使用方法論、工具或拓展方法時(shí),引文位置和偏移量并不具備顯著的分布特征,因此當(dāng)實(shí)驗(yàn)中加入引文結(jié)構(gòu)特征時(shí)引入噪音.
表7 MPMAF結(jié)合外部特征后各類別的指標(biāo)值對(duì)比Table 7 Index comparison of MPMAF combined with external features on different classes %
本文提出基于MPNet預(yù)訓(xùn)練和多頭注意力特征融合的引文意圖分類方法,將預(yù)訓(xùn)練模型合理地利用在引文意圖分類任務(wù)中.相比其它預(yù)訓(xùn)練語言模型及其微調(diào)方法,都獲得效果上的提升.在ACL-ARC數(shù)據(jù)集上F1值比SOTA結(jié)果提升1.82%.在ACL-ARC數(shù)據(jù)集上的實(shí)驗(yàn)同時(shí)還證實(shí)本文方法在解決引文意圖標(biāo)注數(shù)據(jù)的不平衡問題上具有較好效果.今后將進(jìn)一步詳細(xì)探討對(duì)不同引文動(dòng)機(jī)類別的引文特征構(gòu)成,并在多領(lǐng)域引文數(shù)據(jù)集上進(jìn)一步驗(yàn)證本文方法.此外,還將引入更豐富的引文屬性特征,進(jìn)一步改善引文特征表示效果.