陳 千,韓 林,王素格,郭 鑫
1.山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,太原 030006
2.山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,太原 030006
高考文學(xué)類閱讀理解的研究多是針對(duì)簡(jiǎn)單事實(shí)類問(wèn)題,本文聚焦高考語(yǔ)文中的文學(xué)類閱讀理解選擇題,其題干絕大多數(shù)為“根據(jù)文章內(nèi)容,下列選項(xiàng)正確(或錯(cuò)誤)的是:”,題干只能得到正誤判定。選擇題的選項(xiàng)不是簡(jiǎn)單事實(shí)性表述,更多的是從文章的組織結(jié)構(gòu)、全文主旨等不同角度進(jìn)行的語(yǔ)義方面的理解和概括。同時(shí),不同類別的選項(xiàng),其特征與潛在錯(cuò)誤也不同,需要對(duì)選項(xiàng)采用不同的策略進(jìn)行分析。每個(gè)選項(xiàng)不只屬于一個(gè)類型,從而將其視作多標(biāo)簽分類而非多分類。因此,選項(xiàng)多標(biāo)簽分類是高考文學(xué)類閱讀理解選擇題解答任務(wù)中的重要一環(huán),其類型決定了后續(xù)解題策略的不同。針對(duì)不同類型的選項(xiàng),使用相應(yīng)的答案生成方法。
文本多標(biāo)簽學(xué)習(xí)[1-2]是自然語(yǔ)言處理領(lǐng)域一項(xiàng)十分重要且具有挑戰(zhàn)的任務(wù),旨在為數(shù)據(jù)集中每一樣本分配相應(yīng)的多個(gè)標(biāo)簽,廣泛應(yīng)用于文本分類[3]、信息檢索[4]等多個(gè)研究領(lǐng)域。選項(xiàng)的標(biāo)簽有助于提高高考文學(xué)類閱讀理解選擇題的答題準(zhǔn)確率,如對(duì)詞句理解類選項(xiàng),思路是根據(jù)選項(xiàng)出現(xiàn)的原文表述,回到文章進(jìn)行定位,將定位處語(yǔ)義與選項(xiàng)匹配,判斷正誤;分析綜合類選項(xiàng)無(wú)法在文章中準(zhǔn)確定位,因而須調(diào)用全局分析模塊進(jìn)行解答。
通過(guò)對(duì)大量文本數(shù)據(jù)和現(xiàn)有方法的觀察與研究發(fā)現(xiàn),在多標(biāo)簽文本分類中,有三種相關(guān)性對(duì)分類結(jié)果具有重要影響,分別是標(biāo)簽內(nèi)部相關(guān)性、文本與標(biāo)簽間相關(guān)性及文本內(nèi)部相關(guān)性?,F(xiàn)有方法并未全面考慮上述三種相關(guān)性。BR(binary relevance)[5]是最早提出的方法之一,該方法將多標(biāo)簽分類任務(wù)建模為多個(gè)單標(biāo)簽問(wèn)題的組合,通過(guò)忽略標(biāo)簽內(nèi)部相關(guān)性來(lái)達(dá)到理想的性能。為了獲得標(biāo)簽內(nèi)部相關(guān)性,CC(classifier chain)[6]將任務(wù)轉(zhuǎn)換為一系列的二分類問(wèn)題并對(duì)標(biāo)簽內(nèi)部相關(guān)性建模。對(duì)標(biāo)簽內(nèi)部相關(guān)性進(jìn)行建模的方法還有CRF(conditional random fields)和CBM(conditional Bernoulli mixtures)。然而上述方法僅適用于中小型數(shù)據(jù)集,在大型數(shù)據(jù)集上的表現(xiàn)欠佳。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)模型也被應(yīng)用于多標(biāo)簽文本分類任務(wù)。文獻(xiàn)[7]提出的模型利用詞嵌入和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)來(lái)捕捉標(biāo)簽內(nèi)部相關(guān)性。文獻(xiàn)[8]提出一種基于深度神經(jīng)網(wǎng)絡(luò)的模型CCAE(canonical correlated autoencoder)。然而這些方法并沒(méi)有從文本中提取有效信息。
文獻(xiàn)[9]使用序列到序列(Seq2seq)模型,將標(biāo)簽預(yù)測(cè)視為序列生成任務(wù)。Seq2seq模型可以對(duì)給定的源文本進(jìn)行編碼,并將編碼生成的對(duì)應(yīng)表示進(jìn)行解碼,形成近似標(biāo)簽序列的新序列。隨著長(zhǎng)短期記憶模型(long short-term memory,LSTM)被廣泛應(yīng)用,文獻(xiàn)[10]提出了一種帶有注意力機(jī)制LSTM的Seq2seq模型。利用注意力機(jī)制,解碼器能夠有效地從文本中提取對(duì)標(biāo)簽預(yù)測(cè)有重要作用的信息,利用文本與標(biāo)簽間相關(guān)性,從而提高標(biāo)簽預(yù)測(cè)的精確度。文獻(xiàn)[11]提出一種處理多標(biāo)簽文本分類的模型。然而這些方法與模型都忽略了文本內(nèi)部相關(guān)性。
對(duì)于高考文學(xué)類閱讀理解選擇題選項(xiàng)的多標(biāo)簽分類任務(wù),文本內(nèi)部相關(guān)性即選項(xiàng)內(nèi)部相關(guān)性。例如,歷年高考文學(xué)類閱讀理解選擇題的選項(xiàng)可劃分為五類,分別為寫作技巧類、思想情感類、詞句理解類、分析綜合類和因果推理類。具體樣例見(jiàn)表1,如2015-北京-20-D 即2015年北京高考真題20題D選項(xiàng),該選項(xiàng)中,“滲入”和“生活”以及“象征”和“民族精神”這兩組詞內(nèi)部存在明顯的語(yǔ)義關(guān)聯(lián),而這兩組詞可對(duì)應(yīng)于標(biāo)簽“思想情感類”;2014-北京-18-C選項(xiàng)中,“往往”和“從而”兩個(gè)詞間存在的語(yǔ)義關(guān)聯(lián)對(duì)應(yīng)標(biāo)簽“因果推理類”,“心靈”“震撼”和“共鳴”三者存在的相關(guān)性對(duì)應(yīng)標(biāo)簽“思想情感類”,因此該選項(xiàng)同時(shí)屬于“因果推理類”及“思想情感類”;2017-河北省唐山市模擬題-1-B 選項(xiàng),“形成”和“對(duì)比”兩詞間相關(guān)性對(duì)應(yīng)“寫作技巧類”,“表達(dá)”和“思考”對(duì)應(yīng)標(biāo)簽“思想情感類”。據(jù)此,可以根據(jù)選項(xiàng)所屬類別調(diào)用不同的答題引擎,從而提高答題準(zhǔn)確率。
表1 高考文學(xué)類閱讀理解選擇題選項(xiàng)樣例Table 1 Examples of multiple-choice questions for RCL-CEE
根據(jù)以上分析可知,選項(xiàng)內(nèi)部相關(guān)性是對(duì)選項(xiàng)文本進(jìn)行分類和分配合適標(biāo)簽的關(guān)鍵。本文提出了基于混合注意力的Seq2seq 模型(hybrid attention of Seq2seq model,HASM),該模型利用雙向長(zhǎng)短時(shí)記憶(bi-directional long short-term memory,Bi-LSTM),獲得選項(xiàng)與標(biāo)簽間相關(guān)性作為全局信息,通過(guò)多頭自注意力(multi-head self-attention,MHA),獲得選項(xiàng)內(nèi)部相關(guān)性作為局部信息。使用標(biāo)簽嵌入隱式融合標(biāo)簽內(nèi)部相關(guān)性。
本文的主要貢獻(xiàn)如下:
(1)提出了混合注意力機(jī)制,利用多頭自注意力獲得選項(xiàng)內(nèi)部關(guān)聯(lián)語(yǔ)義;通過(guò)Bi-LSTM 獲得選項(xiàng)與標(biāo)簽間相關(guān)性;使用標(biāo)簽嵌入方法,隱式融合標(biāo)簽內(nèi)部相關(guān)性。充分對(duì)分類過(guò)程中的標(biāo)簽內(nèi)部相關(guān)性、文本與標(biāo)簽間相關(guān)性及文本內(nèi)部相關(guān)性建模,大大提升了模型的預(yù)測(cè)效果。
(2)提出的HASM模型在高考文學(xué)類閱讀理解選擇題數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,算法性能優(yōu)于前沿多標(biāo)簽文本分類方法。
目前,多標(biāo)簽文本分類模型主要分為三類:?jiǎn)栴}轉(zhuǎn)換法、算法適應(yīng)法和神經(jīng)網(wǎng)絡(luò)模型。
問(wèn)題轉(zhuǎn)換法的主要思想是將多標(biāo)簽文本分類任務(wù)轉(zhuǎn)換為多個(gè)單標(biāo)簽學(xué)習(xí)任務(wù)來(lái)處理。BR[5]是一個(gè)典型的問(wèn)題轉(zhuǎn)換方法,它直接忽略標(biāo)簽內(nèi)部相關(guān)性,并為每個(gè)標(biāo)簽構(gòu)建一個(gè)單獨(dú)的分類器。但實(shí)驗(yàn)表明,忽略標(biāo)簽之間的相關(guān)性會(huì)導(dǎo)致預(yù)測(cè)性能的降低。為了獲得標(biāo)簽內(nèi)部相關(guān)性,LP[2]通過(guò)對(duì)每個(gè)標(biāo)簽組合使用唯一的二元分類器,將該任務(wù)轉(zhuǎn)化為標(biāo)簽組合的多分類問(wèn)題。CC[6]主要是針對(duì)BR方法中未考慮標(biāo)簽內(nèi)部相關(guān)性而導(dǎo)致信息損失的缺點(diǎn)的一種改進(jìn)方法,該算法的基本思想是將任務(wù)轉(zhuǎn)化為一系列二元分類問(wèn)題即二元分類問(wèn)題鏈,鏈中后續(xù)分類器的建立基于先前的標(biāo)簽預(yù)測(cè)。上述方法的計(jì)算效率和性能都面臨著標(biāo)簽空間和樣本空間過(guò)大的挑戰(zhàn)。
算法適應(yīng)法通過(guò)修改和擴(kuò)展傳統(tǒng)的單標(biāo)簽算法,或?qū)螛?biāo)簽算法進(jìn)行相應(yīng)的改進(jìn)來(lái)處理多標(biāo)簽數(shù)據(jù)。ML-DT(multi-label decision tree)[12]通過(guò)構(gòu)建基于熵的信息增益的決策樹進(jìn)行多標(biāo)簽分類;文獻(xiàn)[13]提出的ML-KNN(multi-labelk-nearest neighbor)方法使用k近鄰算法和最大后驗(yàn)概率來(lái)確定每個(gè)樣本的標(biāo)簽集;文獻(xiàn)[14]使用CBM 簡(jiǎn)化任務(wù),將其轉(zhuǎn)換為多個(gè)標(biāo)準(zhǔn)的二元多類問(wèn)題,用于分類預(yù)測(cè)。
近年來(lái),隨著神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用與深入研究,其在許多重要的自然語(yǔ)言處理任務(wù)上都表現(xiàn)出了優(yōu)越的性能,研究者也提出了各種基于神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽文本分類模型。文獻(xiàn)[15]提出了一種基于標(biāo)簽的預(yù)訓(xùn)練方法來(lái)獲得具有標(biāo)簽感知信息的文檔表示。文獻(xiàn)[16]研究了不同信息來(lái)源的有效性,例如標(biāo)記的訓(xùn)練數(shù)據(jù)、類的文本標(biāo)記和類的分類關(guān)系。更具體地說(shuō),首先,對(duì)于每個(gè)文檔-類對(duì),使用不同的信息源提取不同的特征,然后,將多標(biāo)簽文本分類看作一個(gè)排序問(wèn)題,采用學(xué)習(xí)排序(learning to rank,LTR)方法對(duì)文檔類進(jìn)行排序,并選擇文檔標(biāo)簽。文獻(xiàn)[17]提出了一種結(jié)合動(dòng)態(tài)語(yǔ)義表示模型和深度神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽文本分類方法。然而,先前的模型都存在兩個(gè)問(wèn)題:第一,由于窗口大小的限制,模型無(wú)法獲得文本間長(zhǎng)距離的依賴關(guān)系;第二,當(dāng)模型預(yù)測(cè)時(shí),文章文本中不同的詞對(duì)標(biāo)簽預(yù)測(cè)的貢獻(xiàn)程度不同,但模型并沒(méi)有重點(diǎn)關(guān)注那些對(duì)標(biāo)簽預(yù)測(cè)貢獻(xiàn)大的詞語(yǔ)?;谏鲜龅南敕?,文獻(xiàn)[11]提出將Seq2seq模型應(yīng)用于多標(biāo)簽分類任務(wù)中,利用注意力機(jī)制得到每個(gè)詞語(yǔ)的重要性權(quán)重用于標(biāo)簽的預(yù)測(cè)。MDC(multi-level dilated convolution)[18]以Seq2seq 模型為基礎(chǔ),使用具有混合注意力的附加語(yǔ)義單元,用于創(chuàng)建信息增強(qiáng)的表示。在現(xiàn)實(shí)應(yīng)用中,多標(biāo)簽文本分類任務(wù)的標(biāo)簽具有語(yǔ)義信息,但在部分方法中將標(biāo)簽僅看成是原子符號(hào),忽略了標(biāo)簽文本內(nèi)容的潛在知識(shí)。在多標(biāo)簽文本分類中,標(biāo)簽是文本形式,由詞語(yǔ)組成,詞嵌入作為自然語(yǔ)言處理的基礎(chǔ)模塊,能夠獲得詞語(yǔ)之間的相似性和規(guī)律性,因此可以用詞嵌入來(lái)隱式地融合標(biāo)簽信息。
為了進(jìn)一步提升多標(biāo)簽文本分類的性能,本文提出混合注意力機(jī)制,同時(shí)建模三種相關(guān)性,從而得到更全面的全局和局部信息。
模型的任務(wù)是將一組標(biāo)簽Y分配給選項(xiàng)文本序列Wi,標(biāo)簽序列生成任務(wù)可以專門建模,以找到最大化條件概率p(Y|X)的最優(yōu)標(biāo)簽序列,計(jì)算見(jiàn)式(1)、(2)。
模型總體架構(gòu)如圖1所示。受自注意力機(jī)制啟發(fā),同時(shí)考慮選項(xiàng)內(nèi)部相關(guān)性對(duì)于標(biāo)簽預(yù)測(cè)的影響,提出了混合注意力機(jī)制,通過(guò)Bi-LSTM 獲得選項(xiàng)與標(biāo)簽間相互信息hG,利用MHA獲得選項(xiàng)內(nèi)部關(guān)聯(lián)語(yǔ)義信息hL,同時(shí)標(biāo)簽嵌入層模塊(label-embedding,L-E)對(duì)標(biāo)簽進(jìn)行隱式融合,作為解碼器的輸入。解碼器由LSTM單元組成,最終得到預(yù)測(cè)標(biāo)簽。掩碼模塊(masked softmax,MS)使用掩碼向量避免預(yù)測(cè)重復(fù)標(biāo)簽。
圖1 模型框架Fig.1 Framework of model
2.3.1 Bi-LSTM層
LSTM在序列建模問(wèn)題上具有長(zhǎng)時(shí)記憶優(yōu)勢(shì),實(shí)現(xiàn)簡(jiǎn)單,同時(shí)解決了長(zhǎng)序列訓(xùn)練過(guò)程中存在的梯度消失和梯度爆炸問(wèn)題。而單向LSTM 只關(guān)注前向信息是不夠的,因此應(yīng)用Bi-LSTM 獲得選項(xiàng)到標(biāo)簽的相關(guān)性作為全局信息。給定輸入X={X1,X2,…,Xi,…,XL},每個(gè)單詞的隱層狀態(tài)由式(3)、(4)得到:
第i個(gè)詞的上下文嵌入表示為,式(5)hG表示選項(xiàng)和標(biāo)簽之間的互注意力信息,即全局信息。
2.3.2 多頭自注意力層
注意力機(jī)制可以宏觀上理解為一個(gè)查詢(Query)到一系列鍵-值(Key-Value)對(duì)的映射。將源(Source)中的構(gòu)成元素想象成是由一系列的
文中dv、dk、dq分別對(duì)應(yīng)于values、keys和queries的深度。進(jìn)一步,以表示第m個(gè)head上的values、keys和queries的深度。對(duì)于給定的輸入序列X∈RL×d,MHA輸出計(jì)算如式(6)、(7)、(8)所示。hL代表從選項(xiàng)內(nèi)部得到的自注意力信息,即局部信息。
2.3.3 混合注意力
對(duì)局部信息hL分配權(quán)重參數(shù)。第i個(gè)單詞在t時(shí)刻的權(quán)重αti由式(9)、(10)計(jì)算。
其中,VT、W、Z、U均為權(quán)重參數(shù)。St-1表示上一時(shí)刻的隱狀態(tài),是第i個(gè)單詞的自注意力信息,g(yt-1)是經(jīng)過(guò)L-E層的上一時(shí)刻的預(yù)測(cè)標(biāo)簽。
最終在t時(shí)刻的局部自注意力信息ct由式(11)計(jì)算。
對(duì)于標(biāo)簽集Y,任一標(biāo)簽的文本內(nèi)容表示為y={N1,N2,…,Np},即每個(gè)標(biāo)簽由p個(gè)詞組成。為了得到每一標(biāo)簽的隱表示e,將標(biāo)簽文本作為輸入,使用詞向量平均函數(shù)進(jìn)行計(jì)算,如式(12):
其中,e∈Rk,k為文檔中單詞的嵌入維度。
解碼器在t時(shí)刻的隱狀態(tài)St由式(13)計(jì)算得到:
其中,[g(yt-1);hG;ct]由向量g(yt-1)、hG和ct拼接得到。hG是全局的互注意力信息,ct為局部的自注意力。g(yt-1) 是在分布下具有最高概率的標(biāo)簽的嵌入,而yt-1是在t-1 時(shí)刻標(biāo)簽空間Y的概率分布,其計(jì)算如式(14)、(15)。
其中Wo、Vo和Zo是權(quán)重參數(shù)。f是非線性激活函數(shù)。
模型的MS 模塊即掩碼模塊,其中It∈R5,是防止解碼器預(yù)測(cè)重復(fù)標(biāo)簽的掩碼向量,如式(16):
針對(duì)標(biāo)簽序列,在序列的頭部和尾部添加bos和eos符號(hào)。利用束搜索算法[20]找到最優(yōu)預(yù)測(cè)序列。在訓(xùn)練過(guò)程中,使用二元交叉熵?fù)p失(binary cross entropy loss)[21]作為損失函數(shù),其計(jì)算如式(17):
其中,T為選項(xiàng)樣本的數(shù)量,,分別為第i個(gè)實(shí)例的第j個(gè)標(biāo)簽的真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽。
本文在高考文學(xué)類閱讀理解選擇題數(shù)據(jù)集上進(jìn)行測(cè)試。該數(shù)據(jù)集包含各省和全國(guó)的高考文學(xué)類閱讀理解真題與模擬題共計(jì)3 209 篇文章,13 827 條選項(xiàng)。訓(xùn)練集共計(jì)10 056條選項(xiàng)數(shù)據(jù),驗(yàn)證集和測(cè)試集分別包括1 850 條數(shù)據(jù)和1 921 條數(shù)據(jù)。對(duì)每條選項(xiàng)數(shù)據(jù)進(jìn)行人工標(biāo)注,由于每個(gè)人對(duì)選項(xiàng)類別的判斷標(biāo)準(zhǔn)不一致,很容易出現(xiàn)不同的標(biāo)注結(jié)果。因此,在標(biāo)注數(shù)據(jù)過(guò)程中,采用多人獨(dú)立標(biāo)注、協(xié)同交叉驗(yàn)證的方式,即每個(gè)人先獨(dú)立標(biāo)注一部分語(yǔ)料,之后隨機(jī)從標(biāo)注人員的標(biāo)注語(yǔ)料中抽取相同數(shù)目的選項(xiàng)文本,交叉進(jìn)行評(píng)估。若準(zhǔn)確率在80%以上,則此次抽取的選項(xiàng)標(biāo)注結(jié)果有效。將選項(xiàng)分為5類標(biāo)簽,分別為寫作技巧類、思想情感類、詞句理解類、分析綜合類和因果推理類,分別用0,1,2,3,4 數(shù)字表示。
為了評(píng)估模型的標(biāo)簽預(yù)測(cè)性能,采用漢明損失(Hamming loss,HL)、Micro-F1作為性能比較的主要評(píng)價(jià)指標(biāo),同時(shí)結(jié)合Micro-Precision 和Micro-Recall 指標(biāo)進(jìn)行評(píng)測(cè)。
HL[22]衡量標(biāo)簽被錯(cuò)分的次數(shù),即屬于某個(gè)樣本的標(biāo)簽沒(méi)有被預(yù)測(cè),不屬于該樣本的標(biāo)簽被預(yù)測(cè)屬于該樣本,如式(18)。
其中,N為樣本數(shù),L為標(biāo)簽數(shù)。Yij是第i個(gè)預(yù)測(cè)中第j個(gè)分量的真實(shí)值,Pij是第i個(gè)預(yù)測(cè)中第j個(gè)分量的預(yù)測(cè)值。XOR()表示異或關(guān)系。
Micro-F1[23]可解釋為精確度和召回率的加權(quán)平均值,不需區(qū)分類別,直接使用總體樣本的精確度和召回率計(jì)算,如式(19)。
其中,Precisionmicro和Recallmicro表示所有類別的平均精確度和召回率。
文本預(yù)處理主要包括文本標(biāo)準(zhǔn)化和分詞。標(biāo)準(zhǔn)化包括通過(guò)正則去噪,將繁體轉(zhuǎn)化成簡(jiǎn)體等操作。分詞則通過(guò)結(jié)巴分詞包對(duì)標(biāo)注后的高考文學(xué)類閱讀理解選擇題數(shù)據(jù)集進(jìn)行分詞處理。
對(duì)于數(shù)據(jù)集,本文設(shè)置嵌入維度d和隱層大小h均為512,epoch 為30,batch-size 為128,使用Adam 優(yōu)化算法[24],初始學(xué)習(xí)率是0.000 3,編碼器和解碼器的神經(jīng)網(wǎng)絡(luò)層數(shù)均為3,且編碼器使用Bi-LSTM。束搜索大小設(shè)置為9。多頭自注意力中M=3。另外,使用dropout正則化來(lái)避免過(guò)度擬合。對(duì)比算法中的參數(shù)按照對(duì)應(yīng)的原始論文[11,25-28]進(jìn)行設(shè)置。
本文使用以下基線模型來(lái)比較在高考文學(xué)類閱讀理解選擇題數(shù)據(jù)集上的性能表現(xiàn)。
CNN[25]使用深度卷積網(wǎng)絡(luò)提取文本特征,然后將它們輸入到線性變換層,然后使用sigmoid 函數(shù)輸出標(biāo)簽空間上的概率分布。
CNN-RNN[26]利用CNN 和RNN 捕捉全局和局部的文本語(yǔ)義信息,并對(duì)標(biāo)簽之間的依賴關(guān)系進(jìn)行建模。
SGM(sequence generation model)[11]將多標(biāo)簽分類任務(wù)看作一個(gè)序列生成問(wèn)題,輸入文檔內(nèi)容,生成預(yù)測(cè)的標(biāo)簽序列。
LSAN(label-specific attention network)[27]利用標(biāo)簽和文檔間的語(yǔ)義聯(lián)系,以及文檔中特定的表示,設(shè)計(jì)了一種自適應(yīng)融合策略,可以有效地輸出綜合文檔表示來(lái)構(gòu)建多標(biāo)簽文本分類器。
Seq2set[28]為了減少模型對(duì)標(biāo)簽順序的依賴,以及捕捉標(biāo)簽之間的相關(guān)性,提出通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,其中獎(jiǎng)勵(lì)反饋設(shè)計(jì)為獨(dú)立于標(biāo)簽順序的模式。
FSL-MLC(few-shot learning for multi-label classification)[29]提出了帶有核回歸和Logits Adapting的元刻度閾值(meta calibrated threshold,MCT)機(jī)制,利用先驗(yàn)的領(lǐng)域經(jīng)驗(yàn)和新的領(lǐng)域知識(shí)以估計(jì)閾值。同時(shí)引入了錨標(biāo)簽表示以得到分離得比較好的標(biāo)簽表示,以實(shí)現(xiàn)更好的label-instance相關(guān)性分值計(jì)算。
HASM 模型同以上對(duì)比模型在高考文學(xué)類閱讀理解選擇題數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)對(duì)比得分情況見(jiàn)表2,最佳結(jié)果用粗體表示。
表2 不同模型實(shí)驗(yàn)結(jié)果Table 2 Experimental results of different models
表2中,HL代表漢明損失,F(xiàn)1代表Micro-F1,(-)代表值越小分類效果越好,(+)代表值越大分類效果越好??梢钥闯?,在測(cè)試集上,使用Seq2seq架構(gòu)并結(jié)合注意力機(jī)制進(jìn)行多標(biāo)簽分類的方法效果總體要優(yōu)于CNN,HL 提高了近1 個(gè)百分點(diǎn)。但基于深度學(xué)習(xí)的經(jīng)典模型CNN,即使不使用Seq2seq 結(jié)構(gòu),在精確度上仍具有一定的優(yōu)勢(shì)。LSAN的準(zhǔn)確率要低于SGM和Seq2set,達(dá)到約67%。而本文方法HASM 充分利用了標(biāo)簽內(nèi)部相關(guān)性、文本與標(biāo)簽間相關(guān)性以及文本內(nèi)部相關(guān)性,能夠略微提升Micro-F1 指標(biāo),最終F1 指標(biāo)達(dá)到近70%。SGM和經(jīng)典模型Seq2set相比實(shí)現(xiàn)了一些改進(jìn),SGM和Seq2set 模型的F1 值相對(duì)于CNN 和CNN-RNN 的F1 值更高,說(shuō)明序列到序列模型對(duì)于多標(biāo)簽分類任務(wù)是有效的。傳統(tǒng)的CNN 在Micro-Precision 上的值領(lǐng)先于所有基線模型(包括HASM)。同時(shí),可以看到SGM的F1值比Seq2set的F1值略高,因數(shù)據(jù)集中標(biāo)簽空間并不是很大,標(biāo)簽順序的影響較小。FSL-MLC 在各指標(biāo)上的成績(jī)都與SGM相接近,但略遜一籌,總體表現(xiàn)不如SGM,可見(jiàn)Seq2seq架構(gòu)更適用于高考文學(xué)類閱讀理解選擇題數(shù)據(jù)集。與六種基線模型相比,HASM在總體指標(biāo)上明顯優(yōu)于前六種模型,處于領(lǐng)先地位,說(shuō)明HASM 模型對(duì)三種相關(guān)性的建模是有效的。與基線模型中表現(xiàn)最好的SGM 相比,HASM 將漢明損失在數(shù)值上降低了0.002 2,并將F1值提高了5.5個(gè)百分點(diǎn)。
為了更全面地分析HASM 模型的性能,計(jì)算得到HASM模型在每個(gè)選項(xiàng)類別上的指標(biāo),結(jié)果如表3所示。
表3 HASM模型在不同選項(xiàng)類別上的指標(biāo)Table 3 Indicators of HASM model in different option categories
根據(jù)表3,HASM 模型對(duì)詞句理解類選項(xiàng)的分類效果最佳,該類選項(xiàng)對(duì)文章有著明顯的引用,HASM 模型更易識(shí)別該類選項(xiàng)。相較于詞句理解類,模型對(duì)因果推理類、寫作技巧類的識(shí)別則更為模糊,在指標(biāo)上有所欠缺,但通過(guò)對(duì)這兩類選項(xiàng)的分析,發(fā)現(xiàn)這兩類選項(xiàng)都有明顯的關(guān)鍵詞可對(duì)其進(jìn)行區(qū)分,如選項(xiàng)包含“記敘”“比喻”“擬人”“寫作手法”等詞語(yǔ)時(shí),明顯可劃分為寫作技巧類,據(jù)此分別構(gòu)建了兩類選項(xiàng)的關(guān)鍵詞詞典,下一步擬將關(guān)鍵詞詞典作為模型先驗(yàn)知識(shí),以進(jìn)一步提高模型性能。同時(shí),通過(guò)對(duì)這兩類選項(xiàng)指標(biāo)的分析,發(fā)現(xiàn)精確率和召回率間存在較大差異,原因可能是這兩類選項(xiàng)數(shù)據(jù)的label數(shù)量不均衡,需要對(duì)數(shù)據(jù)進(jìn)一步處理。
為了進(jìn)一步證明HASM 模型中MHA 模塊和標(biāo)簽嵌入(L-E)模塊對(duì)提升模型性能的作用,也為了更充分評(píng)估HASM模型的效果,進(jìn)行了一系列消融實(shí)驗(yàn)。通過(guò)從HASM模型中移除一些模塊來(lái)控制變量,以便能夠比較它們的效果。實(shí)驗(yàn)結(jié)果如表4所示。
表4 消融實(shí)驗(yàn)結(jié)果Table 4 Results of ablation experiment
表4 展示了MHA 模塊和L-E 層對(duì)模型的貢獻(xiàn)。對(duì)比表2、表4發(fā)現(xiàn),不包含MHA模塊的模型在HL指標(biāo)和F1 指標(biāo)上分別下降了0.003 1 和3.51 個(gè)百分點(diǎn),不包含L-E 模塊的模型在HL 指標(biāo)和F1 指標(biāo)上分別下降了0.002 6 和3.07 個(gè)百分點(diǎn)。模型通過(guò)MHA 模塊獲得選項(xiàng)內(nèi)部相關(guān)性,利用L-E 層得到標(biāo)簽內(nèi)部相關(guān)性,對(duì)上述相關(guān)性的建模大大提升了HASM 模型的性能。從表4可以看出,選項(xiàng)內(nèi)部相關(guān)性和標(biāo)簽內(nèi)部相關(guān)性對(duì)于選項(xiàng)多標(biāo)簽分類任務(wù)準(zhǔn)確度的提升有著重要作用。HASM 模型能夠利用多頭自注意力獲取局部選項(xiàng)內(nèi)關(guān)聯(lián)信息,標(biāo)簽嵌入能夠建模標(biāo)簽內(nèi)部語(yǔ)義關(guān)聯(lián)。同時(shí)已有模型均沒(méi)有考慮到文本內(nèi)部相關(guān)性,而HASM模型能夠?qū)⑷N相關(guān)性的充分結(jié)合,具有較好的多標(biāo)簽分類效果,實(shí)驗(yàn)結(jié)果也進(jìn)一步證明HASM模型從選項(xiàng)中提取有關(guān)標(biāo)簽分類信息的能力。
在對(duì)同一選項(xiàng)預(yù)測(cè)不同的標(biāo)簽時(shí),選項(xiàng)中每個(gè)單詞的重要性權(quán)重是不同的,為了證明HASM模型在預(yù)測(cè)不同標(biāo)簽時(shí)能夠捕獲不同單詞的權(quán)重,本文從高考文學(xué)類閱讀理解選擇題數(shù)據(jù)集中取出幾個(gè)例子,對(duì)同一選項(xiàng)中不同標(biāo)簽對(duì)應(yīng)的單詞權(quán)重進(jìn)行展現(xiàn)。如圖2、圖3所示,模型在預(yù)測(cè)兩個(gè)不同的標(biāo)簽時(shí),對(duì)選項(xiàng)中單詞的關(guān)注度是不一樣的,單詞顏色越深,對(duì)當(dāng)前詞匯關(guān)注越大??梢钥闯?,標(biāo)簽“寫作技巧類”更關(guān)注選項(xiàng)中如“描寫”“寫作風(fēng)格”“修辭手法”等關(guān)鍵詞,而標(biāo)簽“思想情感類”則更關(guān)注“表現(xiàn)”“追懷”等關(guān)鍵詞,從而證明不同標(biāo)簽關(guān)注選項(xiàng)的不同部分。
圖2 “寫作技巧類”捕捉的重要詞匯Fig.2 Important words captured by“writing skills”
圖3 “思想情感類”捕捉的重要詞匯Fig.3 Important words captured by“thoughts and emotions”
圖4 展現(xiàn)了選項(xiàng)內(nèi)部存在的語(yǔ)義相關(guān)性。如圖所示,兩個(gè)詞之間的語(yǔ)義相關(guān)性越強(qiáng)則表格中所示顏色越深,表格中的顏色深淺代表兩個(gè)詞之間的語(yǔ)義關(guān)聯(lián)程度。如“類似”和“于”,“本文”和“的”,這兩組詞內(nèi)部即存在語(yǔ)義關(guān)聯(lián),在表格中表示為較深的灰色。而“行文”“呈現(xiàn)”和“寫作風(fēng)格”三者之間存在的語(yǔ)義關(guān)聯(lián),對(duì)選項(xiàng)標(biāo)簽“寫作技巧類”的預(yù)測(cè)起著重要作用。
圖4 選項(xiàng)內(nèi)部相關(guān)性Fig.4 Option internal correlation
不同標(biāo)簽關(guān)注選項(xiàng)的不同部分,同時(shí)選項(xiàng)內(nèi)部不同的語(yǔ)義關(guān)聯(lián)對(duì)不同標(biāo)簽的預(yù)測(cè)有著影響,這些都證明了本文提出的模型的亮點(diǎn),將選項(xiàng)內(nèi)部相關(guān)性(自注意力信息)、選項(xiàng)與標(biāo)簽間相關(guān)性(互注意力信息)及標(biāo)簽間相關(guān)性三者相結(jié)合是符合實(shí)際問(wèn)題的。
本文主要針對(duì)選項(xiàng)內(nèi)部相關(guān)性提出混合注意力機(jī)制,并基于該機(jī)制設(shè)計(jì)一種序列到序列模型HASM。該模型提取選項(xiàng)內(nèi)部相關(guān)性和選項(xiàng)到標(biāo)簽間相關(guān)性,并對(duì)其分配參數(shù)進(jìn)行使用,同時(shí)模型利用標(biāo)簽間相關(guān)性,對(duì)三種相關(guān)性進(jìn)行建模。實(shí)驗(yàn)結(jié)果表明,提出的HASM模型能夠有效地捕捉三種相關(guān)性。進(jìn)一步的分析表明,HASM 模型在高考文學(xué)類閱讀理解選擇題數(shù)據(jù)集上更具優(yōu)勢(shì)。雖然HASM模型有著最好的表現(xiàn),但所有模型在高考文學(xué)類閱讀理解選擇題數(shù)據(jù)集上的F1數(shù)值都不夠高。下一步,將加入先驗(yàn)知識(shí),考慮更多粒度的信息,期望通過(guò)不同粒度的信息學(xué)習(xí)更豐富的文本語(yǔ)義內(nèi)容,從而更高效、更準(zhǔn)確地預(yù)測(cè)標(biāo)簽。