周 祺,陶 皖,孔 超,崔佰婷
安徽工程大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 蕪湖241000
命名實(shí)體識(shí)別(named entity recognition,NER)是一項(xiàng)識(shí)別句子中具有特定意義實(shí)體的任務(wù)。NER借助人工標(biāo)注的語(yǔ)料庫(kù)為具有特定意義的實(shí)體分配類型標(biāo)簽,其有兩個(gè)關(guān)鍵的任務(wù):一是要識(shí)別出句子中是否有命名實(shí)體,二是要判斷出命名實(shí)體具體所指的目標(biāo)類型[1]。作為自然語(yǔ)言處理(natural language processing,NLP)領(lǐng)域中重要的基礎(chǔ)工作,其準(zhǔn)確率影響許多下游任務(wù),如信息提取、問答系統(tǒng)、句法分析、機(jī)器翻譯等的可信度及工作效率。然而,傳統(tǒng)的命名實(shí)體識(shí)別只是將實(shí)體類型分為幾種粗粒度的實(shí)體種類,例如:人名、地點(diǎn)、組織、其他。在現(xiàn)有的大型數(shù)據(jù)庫(kù)以及知識(shí)圖譜中,實(shí)體類型不再局限于某幾種,已達(dá)到數(shù)十種,甚至成百上千種,而且實(shí)體類別之間形成一定的層次關(guān)系。如果此時(shí)繼續(xù)沿用粗粒度的實(shí)體分類會(huì)加大人工標(biāo)注的難度,給后續(xù)的關(guān)系抽取、事件抽取等增加判斷難度,影響許多NLP下游任務(wù)的可信度和處理質(zhì)量。因此,學(xué)者們將粗粒度的命名實(shí)體識(shí)別推向細(xì)粒度實(shí)體分類(finegrained entity typing,F(xiàn)ET)領(lǐng)域。
細(xì)粒度實(shí)體分類通過(guò)給定實(shí)體指稱(entity mention,又稱實(shí)體提及,即實(shí)體在具體上下文中的一段指代)及其上下文,預(yù)測(cè)實(shí)體可能的類型標(biāo)簽,允許實(shí)體指稱有多種類型,而且類型之間通常具有一定的層次結(jié)構(gòu)。細(xì)粒度的實(shí)體類型表示為其他NLP任務(wù)提供了更多的語(yǔ)義信息,有助于為后續(xù)的關(guān)系抽取和事件抽取等任務(wù)增強(qiáng)指示性,提高問答系統(tǒng)、句法分析、實(shí)體推薦等下游任務(wù)的工作效率和精確率。目前,大多數(shù)的細(xì)粒度實(shí)體分類采用遠(yuǎn)程監(jiān)督的方式將實(shí)體在知識(shí)庫(kù)中的所有類型標(biāo)簽分配給實(shí)體指稱,這不可避免地會(huì)引入噪聲標(biāo)簽。以往處理噪聲標(biāo)簽時(shí)采用人工標(biāo)注、啟發(fā)式剪枝噪聲等方法,但人工標(biāo)注效率低,無(wú)法適用于大規(guī)模的數(shù)據(jù)集;剪枝噪聲使得訓(xùn)練集規(guī)模減小,影響分類模型的整體性能。因此,針對(duì)遠(yuǎn)程監(jiān)督引入的噪聲標(biāo)簽問題,本文將噪聲標(biāo)簽劃分為兩種:無(wú)關(guān)噪聲標(biāo)簽(out-ofcontext noise labels)和具體噪聲標(biāo)簽(overly-specific noise labels),如圖1所示。若為句子1分配除musician以外與上下文無(wú)關(guān)的類型標(biāo)簽,則為無(wú)關(guān)噪聲標(biāo)簽。若為句子2 分配任一細(xì)粒度標(biāo)簽都使得在句子中的實(shí)體含義不夠準(zhǔn)確,由此將其歸為具體噪聲標(biāo)簽,在此情況下應(yīng)選擇細(xì)粒度實(shí)體類型標(biāo)簽的父類型person最佳。
圖1 兩種噪聲標(biāo)簽形式Fig.1 Two forms of noise labels
為減輕以上兩種噪聲標(biāo)簽對(duì)細(xì)粒度實(shí)體分類的負(fù)面影響,本文提出利用記憶網(wǎng)絡(luò)模型增強(qiáng)實(shí)體指稱的上下文和類型標(biāo)簽之間的關(guān)聯(lián)性?;谡Z(yǔ)義的相關(guān)性,相似的上下文句子中實(shí)體指稱對(duì)應(yīng)的類型也具有相似性,因此增強(qiáng)對(duì)相似的指稱上下文所對(duì)應(yīng)類型標(biāo)簽的記憶表示以達(dá)到減輕無(wú)關(guān)噪聲標(biāo)簽影響的目的。而且通過(guò)使用變形的層次損失函數(shù),深入學(xué)習(xí)類型標(biāo)簽之間的層次關(guān)系,有助于緩解具體噪聲標(biāo)簽的消極影響。最后,通過(guò)引入L2 正則化函數(shù)防止模型對(duì)噪聲標(biāo)簽過(guò)擬合,從而提高細(xì)粒度實(shí)體分類模型的整體性能。
首次處理細(xì)粒度實(shí)體類型分類任務(wù)的是Lee 等人[2],利用條件隨機(jī)場(chǎng)模型(conditional random field,CRF)檢測(cè)命名實(shí)體的邊界,并使用最大熵(maximum entropy,ME)對(duì)實(shí)體進(jìn)行分類,同時(shí)定義147 種細(xì)粒度的實(shí)體類型。Sekine[3]定義200種實(shí)體類型作為細(xì)粒度實(shí)體類型集的基礎(chǔ)。Ling 等人[4]創(chuàng)建了細(xì)粒度實(shí)體類型數(shù)據(jù)集FIGER,將原本只具有5~6種類型的實(shí)體擴(kuò)展到具有112種類型標(biāo)簽的實(shí)體;并且受到文獻(xiàn)[5]啟發(fā),通過(guò)遠(yuǎn)程監(jiān)督利用Wikipedia詞條獲得實(shí)體類型,完成了多類型、多標(biāo)簽的細(xì)粒度實(shí)體分類任務(wù)。Yosef 等人[6]以層次分類法劃分了實(shí)體的505 種類型,在不同級(jí)別的數(shù)百種類型基礎(chǔ)上開發(fā)了一個(gè)多標(biāo)簽的分級(jí)分類系統(tǒng)HYENA(hierarchical type classification for entity names)。Yogatama等人[7]、Dong 等人[8]使用標(biāo)簽嵌入以實(shí)現(xiàn)相關(guān)標(biāo)簽之間的信息共享,并且證明了細(xì)粒度的類型標(biāo)簽?zāi)軌蚋倪M(jìn)粗粒度實(shí)體分類模型的性能。Corro 等人[9]構(gòu)建FINET模型,能從實(shí)體指稱和實(shí)體類型中生成感知上下文的候選類型并從中選出最合適的類型,此外還創(chuàng)建New York Times 和Twitter 兩個(gè)細(xì)粒度的實(shí)體類型數(shù)據(jù)集。Shimaoka 等人[10]提出一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型,通過(guò)使用長(zhǎng)短期記憶網(wǎng)絡(luò)(long shortterm memory,LSTM)編碼實(shí)體的上下文,并利用注意力機(jī)制將模型的關(guān)注點(diǎn)集中在實(shí)體指稱的上下文表示上。馬建紅等人[11]提出了一種基于多通道神經(jīng)網(wǎng)絡(luò)的實(shí)體識(shí)別模型,融合了字詞特征和片段特征,利用半馬爾科夫隨機(jī)場(chǎng)完成實(shí)體邊界識(shí)別和實(shí)體分類任務(wù)。盛劍等人[12]利用網(wǎng)絡(luò)詞典回標(biāo)實(shí)體,獲得命名實(shí)體的領(lǐng)域標(biāo)簽,之后再根據(jù)實(shí)體的上下文確定細(xì)粒度類型標(biāo)簽。王紅等人[13]利用注意力機(jī)制計(jì)算知識(shí)圖譜中實(shí)體與相鄰實(shí)體的相關(guān)性,并且通過(guò)圖卷積神經(jīng)網(wǎng)絡(luò)融合實(shí)體特征和關(guān)系特征,為實(shí)體分類提供了有效幫助。胡新棒等人[14]利用多頭注意力機(jī)制挖掘上下文信息,并將先驗(yàn)知識(shí)融入實(shí)體詞典中,以增強(qiáng)模型的學(xué)習(xí)能力。西爾艾力·色提等人[15]利用字符級(jí)和單詞級(jí)注意力機(jī)制,增強(qiáng)字符與單詞之間的關(guān)聯(lián)性和互補(bǔ)性,有利于更好地完成中文的細(xì)粒度命名實(shí)體識(shí)別任務(wù)。
現(xiàn)有大多數(shù)模型通過(guò)遠(yuǎn)程監(jiān)督為實(shí)體從知識(shí)庫(kù)中分配類型標(biāo)簽,由于返回的是實(shí)體在知識(shí)庫(kù)中的所有類型標(biāo)簽,這難免會(huì)引入噪聲標(biāo)簽。為緩解遠(yuǎn)程監(jiān)督帶來(lái)的噪聲問題,Lawrence等人[16]對(duì)于含噪聲標(biāo)簽的訓(xùn)練數(shù)據(jù),構(gòu)造了一種核Fisher 判別算法,將每個(gè)標(biāo)簽被翻轉(zhuǎn)的概率與實(shí)例相關(guān)聯(lián),再利用期望最大化算法更新概率并確定判別式的參數(shù)。Gillick等人[17]利用啟發(fā)式規(guī)則剪枝噪聲,刪除與單個(gè)實(shí)體關(guān)聯(lián)的同級(jí)類型、與粗粒度類型分類器輸出標(biāo)準(zhǔn)不一致的類型以及出現(xiàn)次數(shù)少于文檔中最小次數(shù)的類型,但此方法會(huì)顯著減少訓(xùn)練集的樣本量,后期將導(dǎo)致分類模型的整體性能變差。Ren 等人[18]針對(duì)噪聲標(biāo)簽,創(chuàng)新性地將訓(xùn)練集劃分為“干凈集”和“噪聲集”,并采用不同的方法對(duì)以上兩種訓(xùn)練集進(jìn)行訓(xùn)練。參考文獻(xiàn)[18],Abhishek 等人[19]也將訓(xùn)練數(shù)據(jù)分為“干凈集”和“噪聲集”,并提出聯(lián)合學(xué)習(xí)實(shí)體指稱及其上下文表示的模型。通過(guò)類型路徑劃分?jǐn)?shù)據(jù)集的方法取得了一定的成功,但忽略了相同路徑的類型標(biāo)簽可能也會(huì)出錯(cuò)。為進(jìn)一步減輕噪聲標(biāo)簽的影響,Xu 等人[20]提出了一種基于神經(jīng)網(wǎng)絡(luò)端到端的解決方案NFETC(neural fine-grained entity type classification),將噪聲標(biāo)簽分為與上下文無(wú)關(guān)的標(biāo)簽以及過(guò)于具體的標(biāo)簽,利用變形的交叉熵?fù)p失函數(shù)和層次損失函數(shù)來(lái)處理以上兩種噪聲標(biāo)簽。Chen等人[21]提出壓縮隱空間簇(compact latent space clustering,CLSC)算法,基于實(shí)體指稱的相似度圖,推導(dǎo)噪聲標(biāo)簽的分布,將具有相似語(yǔ)義的實(shí)體指稱形成緊密的簇,從而緩解噪聲標(biāo)簽對(duì)分類模型性能的負(fù)面影響??紤]到實(shí)體和類型標(biāo)簽的語(yǔ)義相關(guān)性,Xin 等人[22]提出以無(wú)監(jiān)督的方式,利用標(biāo)簽含義衡量指稱上下文與遠(yuǎn)程監(jiān)督得到類型標(biāo)簽之間的兼容性,減少由遠(yuǎn)程監(jiān)督產(chǎn)生的噪聲。為平等對(duì)待干凈數(shù)據(jù)和含噪聲的數(shù)據(jù),Zhang等人[23]提出一種基于概率自動(dòng)重標(biāo)記的方法,統(tǒng)一處理所有訓(xùn)練樣本,在無(wú)額外監(jiān)督的情況下解決噪聲標(biāo)簽問題。Xia等人[24]提出一種基于隨機(jī)森林的高效方法,通過(guò)模擬網(wǎng)格的生成和擴(kuò)展以檢測(cè)分類噪聲,并且引入投票機(jī)制有效處理含特征噪聲的數(shù)據(jù)集。Zhang 等人[25]利用自動(dòng)編碼器學(xué)習(xí)具體類型特征,找出每個(gè)類中將含噪聲的數(shù)據(jù),并將其視為類的離群值,在含噪聲標(biāo)簽的數(shù)據(jù)清理和分類任務(wù)中取得了較好的結(jié)果。Wei 等人[26]將實(shí)例特征作為輔助信息,將噪聲標(biāo)簽問題定義為矩陣重建問題,通過(guò)輔助信息的低維映射構(gòu)建正例標(biāo)簽矩陣,行稀疏矩陣建模負(fù)例標(biāo)簽矩陣,兩者相結(jié)合使得矩陣重建能力加強(qiáng),有助于提高處理標(biāo)簽噪聲時(shí)的性能。
細(xì)粒度實(shí)體分類是一項(xiàng)多類型、多標(biāo)簽的復(fù)雜任務(wù)。針對(duì)遠(yuǎn)程監(jiān)督引入的噪聲標(biāo)簽問題,提出融合記憶網(wǎng)絡(luò)的細(xì)粒度實(shí)體分類模型(neural fine-grained entity type classification-memory network,NFETC-MN),整體的模型架構(gòu)如圖2所示。具體來(lái)說(shuō),NFETC-MN模型主要分為四部分,分別是實(shí)體指稱處理器、類型標(biāo)簽處理器、指稱上下文處理器以及優(yōu)化處理器。在此,預(yù)定義T為包含所有實(shí)體類型標(biāo)簽的標(biāo)簽集,通過(guò)給定實(shí)體指稱m以及指稱上下文c,以預(yù)測(cè)實(shí)體指稱所對(duì)應(yīng)的細(xì)粒度實(shí)體類型t。
圖2 融合記憶網(wǎng)絡(luò)的細(xì)粒度實(shí)體分類模型Fig.2 Fine-grained entity classification model fused with memory network
根據(jù)每個(gè)句子給定的實(shí)體指稱,其可能具有不同的單詞數(shù),因此將實(shí)體指稱中的單詞進(jìn)行平均嵌入處理。給定實(shí)體指稱的表示形式為mi=(ω1,ω2,…,ωk)(k為實(shí)體指稱中的單詞個(gè)數(shù)),根據(jù)其表示計(jì)算實(shí)體指稱中每個(gè)單詞的平均詞嵌入em,如式(1)所示。
為獲得知識(shí)庫(kù)中豐富的實(shí)體類型信息,采用實(shí)體鏈接將Freebase 中的實(shí)體類型信息鏈接到具體的實(shí)體指稱上。若實(shí)體鏈接能夠返回實(shí)體類型標(biāo)簽,就將其收集存儲(chǔ)在Freebase的實(shí)體類型信息中;若不能鏈接到相應(yīng)實(shí)體,則將返回值設(shè)置為空。由于Freebase 知識(shí)庫(kù)中的類型信息與預(yù)定義的標(biāo)簽集T中的表示形式不同,運(yùn)用與Zhou 等人[27]相似的映射方法,將收集的Freebase實(shí)體類型信息轉(zhuǎn)換成標(biāo)簽集T中的類型表示形式,并運(yùn)用獨(dú)熱編碼將細(xì)粒度的實(shí)體類型標(biāo)簽表示成et的形式。此外,針對(duì)遠(yuǎn)程監(jiān)督產(chǎn)生的噪聲標(biāo)簽影響,除了使用簡(jiǎn)單的實(shí)體鏈接以外,受Dai 等人[28]的啟發(fā),采用共性分?jǐn)?shù)以衡量實(shí)體鏈接的可信度。共性分?jǐn)?shù)[29]是由Wikipedia的錨鏈接計(jì)算得來(lái),能通過(guò)給定實(shí)體指稱估計(jì)各實(shí)體類型標(biāo)簽的正確概率分?jǐn)?shù),并在類型標(biāo)簽處理器中以es表示共性分?jǐn)?shù)。
為從實(shí)體指稱的上下文中獲取更多的實(shí)體相關(guān)信息,首先將上下文向量表示為c1,c2,…,ck-1,ck,ck+1,…,cn(n為句子中的單詞數(shù),ck作為實(shí)體指稱的向量表示)。本文不僅對(duì)實(shí)體指稱左右兩邊的上下文做詞嵌入處理,還將實(shí)體指稱本身進(jìn)行詞嵌入得到最終的上下文向量。傳統(tǒng)的方法對(duì)上下文向量進(jìn)行處理大多采用雙層的LSTM 或單層雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)。Bi-LSTM 網(wǎng)絡(luò)包含兩個(gè)子網(wǎng)絡(luò):一個(gè)稱為前向LSTM,另一個(gè)稱為后向LSTM。為提取上下文之間更多的關(guān)系信息,本文利用兩層的BiLSTM 處理上下文向量。在此,將上下文向量在第一層BiLSTM、第二層BiLSTM 的輸出分別表示為hf和hs,對(duì)于兩層的BiLSTM 輸出hf和hs,采用全連接進(jìn)行計(jì)算,如式(2)所示。
另外,考慮到指稱上下文對(duì)選擇類型標(biāo)簽的重要性,避免將不必要的標(biāo)簽引入,減輕噪聲標(biāo)簽對(duì)細(xì)粒度實(shí)體分類模型整體性能的影響,使用端到端的記憶網(wǎng)絡(luò)再次對(duì)指稱的上下文和類型標(biāo)簽進(jìn)行記憶學(xué)習(xí),記憶網(wǎng)絡(luò)的具體框架結(jié)構(gòu)如圖3所示。雖然單獨(dú)學(xué)習(xí)實(shí)體指稱上下文的信息,對(duì)分配類型標(biāo)簽有一定的指示作用,但未充分利用實(shí)體所對(duì)應(yīng)的類型標(biāo)簽信息。因此,通過(guò)添加記憶網(wǎng)絡(luò)模塊,聯(lián)合學(xué)習(xí)指稱上下文和類型標(biāo)簽,有助于增強(qiáng)指稱上下文與類型標(biāo)簽之間的關(guān)聯(lián)性,為分配最優(yōu)類型標(biāo)簽提供強(qiáng)指示性。并且在相似的指稱上下文中,記憶網(wǎng)絡(luò)以往分配的最優(yōu)類型標(biāo)簽也成為細(xì)粒度分類模型的記憶基礎(chǔ),有利于為相似實(shí)體指稱分配最合適的類型標(biāo)簽。
圖3 記憶網(wǎng)絡(luò)的具體框架結(jié)構(gòu)Fig.3 Concrete frame structure of memory network
首先,將指稱上下文經(jīng)過(guò)兩層的BiLSTM輸出后的向量h以及獲得的類型標(biāo)簽et作為記憶網(wǎng)絡(luò)的輸入。在記憶網(wǎng)絡(luò)的輸入空間中,利用內(nèi)積和Softmax函數(shù)計(jì)算h以及et之間的匹配度,將其最終表示為概率向量Pi,如式(3)所示。
字符級(jí)注意力機(jī)制專注于提取單詞中每個(gè)英文字符的語(yǔ)義信息以及位置信息,過(guò)程復(fù)雜且意義不大。句子級(jí)注意力機(jī)制能在段落中提取具有更多信息的句子,并對(duì)其賦予較高權(quán)重,較適合用于段落或文檔中。相較于字符級(jí)注意力機(jī)制、句子級(jí)注意力機(jī)制,單詞級(jí)注意力機(jī)制能進(jìn)一步捕獲實(shí)體指稱的上下文語(yǔ)義,同時(shí)突出具有指示性單詞的重要性并分配其權(quán)重。因此為方便記憶網(wǎng)絡(luò)的計(jì)算,提高其記憶性能,對(duì)實(shí)體指稱上下文的兩層BiLSTM輸出h的最后一層隱藏層做單詞級(jí)注意力機(jī)制[30]處理。首先將h的BiLSTM 最后一層隱藏層狀態(tài)表示為利用兩層前向和后向相結(jié)合的神經(jīng)網(wǎng)絡(luò)計(jì)算注意力權(quán)重,讓記憶網(wǎng)絡(luò)選擇信息更豐富的單詞進(jìn)行訓(xùn)練,如式(4)~式(7)所示。
其 中,j=l或r,,Dh為BiLSTM隱藏層的維度,Da為注意力維度。通過(guò)對(duì)上文、下文、實(shí)體指稱的加權(quán)和得到另一種指稱上下文的嵌入向量Ci,如式(7)所示。利用指稱上下文的嵌入向量Ci以及上文計(jì)算得來(lái)的概率向量Pi相乘的和作為端到端記憶網(wǎng)絡(luò)的輸出部分ec,作為指稱處理器的最終表示,如式(8)所示。
根據(jù)以上實(shí)體指稱處理器、指稱上下文處理器、類型標(biāo)簽處理器計(jì)算得出的向量em、ec、et、es進(jìn)行全連接處理,得到的結(jié)果表示為e。為優(yōu)化向量表示、提高后期分類模型的預(yù)測(cè)性能,在多層感知器(multi-layer perceptron,MLP)中,對(duì)e進(jìn)行三層訓(xùn)練,其中第一層為輸入層,第二層為隱層,第三層為輸出層。經(jīng)過(guò)三層MLP 的處理,有助于訓(xùn)練模型提取出更具特征的向量,并將整個(gè)句子最終表示為ef的向量形式。這時(shí),將預(yù)定義標(biāo)簽集T中的標(biāo)簽嵌入到與ef相同的維度空間中得到標(biāo)簽向量ti,之后通過(guò)對(duì)ef和ti進(jìn)行點(diǎn)積處理,得到實(shí)體指稱m與實(shí)體類型ti之間的預(yù)測(cè)分?jǐn)?shù)score,如式(9)所示。
由于遠(yuǎn)程監(jiān)督為實(shí)體指稱分配的是實(shí)體在知識(shí)庫(kù)中所有的類型標(biāo)簽,其中有些類型標(biāo)簽可能與指稱上下文沒有太大關(guān)系。因此,為減少無(wú)關(guān)標(biāo)簽噪聲的影響,利用變形的鉸鏈損失函數(shù)及懲罰參數(shù)α,使得較符合語(yǔ)義的類型標(biāo)簽損失值減小,無(wú)關(guān)噪聲標(biāo)簽的損失值增大。通過(guò)選擇損失值較小的類型標(biāo)簽,以減輕無(wú)關(guān)噪聲標(biāo)簽的影響。針對(duì)具體噪聲標(biāo)簽的問題,一味地分配細(xì)粒度類型標(biāo)簽并不是最佳解決方案,于是引入變形的層次損失函數(shù),可以更好地理解類型標(biāo)簽之間的層次結(jié)構(gòu)(如:父類型-子類型)。在標(biāo)簽集T中,所有實(shí)體的類型標(biāo)簽都具有一定的層次結(jié)構(gòu),例如Jay Chou 對(duì)應(yīng)的類型標(biāo)簽為/person/artist、/person/actor、/person/director、/person/musician 等。在某些語(yǔ)境下,在標(biāo)簽集中無(wú)法找到實(shí)體指稱所對(duì)應(yīng)的細(xì)粒度類型標(biāo)簽時(shí),應(yīng)分配細(xì)粒度標(biāo)簽的父類型最為合適。此時(shí)如果堅(jiān)持為其分配實(shí)體所對(duì)應(yīng)的任一細(xì)粒度標(biāo)簽,由于不符合語(yǔ)義環(huán)境,在測(cè)試時(shí)都會(huì)判斷為負(fù)例標(biāo)簽。因此,在無(wú)法選擇對(duì)應(yīng)指稱語(yǔ)義的細(xì)粒度類型標(biāo)簽時(shí),利用層次損失函數(shù)理解分配類型標(biāo)簽時(shí)的路徑,確定person、location、organization 等父類型地位,為實(shí)體指稱分配父類型標(biāo)簽,以緩解具體噪聲標(biāo)簽的影響,有助于提高細(xì)粒度實(shí)體分類模型性能。支持向量機(jī)(support vector machine,SVM)的二分類問題通常采用標(biāo)準(zhǔn)的鉸鏈損失函數(shù)(hinge loss function),以實(shí)現(xiàn)“最大間隔(max-margin)”分類。對(duì)于訓(xùn)練集中數(shù)據(jù)xi,計(jì)算第j類得分向量f(xi,ω)j,yi表示正確標(biāo)簽,Δ為閾值,如式(10)所示。
可以看出,標(biāo)準(zhǔn)鉸鏈損失函數(shù)在處理實(shí)體類型標(biāo)簽時(shí)可能導(dǎo)致訓(xùn)練模型過(guò)擬合無(wú)關(guān)噪聲標(biāo)簽,造成分類模型性能降低。因此采用變形的鉸鏈損失函數(shù)進(jìn)行處理,通過(guò)以不同的參數(shù)α懲罰與上下文無(wú)關(guān)的錯(cuò)誤標(biāo)簽,以減少無(wú)關(guān)噪聲標(biāo)簽的影響,如式(11)所示。
其中,m為實(shí)體指稱,Ttrue是分配給m的正例類型標(biāo)簽集,Tnotrue是分配給m的負(fù)例類型標(biāo)簽集,α為參數(shù),可調(diào)整對(duì)無(wú)關(guān)噪聲標(biāo)簽的懲罰力度。
受文獻(xiàn)[20]啟發(fā),使用層次損失函數(shù)有助于理解類型標(biāo)簽之間層次結(jié)構(gòu),緩解因過(guò)于具體的類型標(biāo)簽而造成的消極影響。因此,為處理具體噪聲標(biāo)簽的影響,本文利用變形的層次損失函數(shù),即以鉸鏈損失函數(shù)形式預(yù)測(cè)細(xì)粒度實(shí)體類型標(biāo)簽父類型,如式(12)所示。其中,tj表示細(xì)粒度實(shí)體類型標(biāo)簽ti的父類型,β為調(diào)整懲罰力度的參數(shù)。當(dāng)預(yù)測(cè)實(shí)體指稱的類型時(shí)出現(xiàn)過(guò)于具體的類型標(biāo)簽,訓(xùn)練模型可增大β以達(dá)到有效減輕具體噪聲標(biāo)簽消極影響的目的。
在遠(yuǎn)程監(jiān)督過(guò)程中,從Freebase中獲得的正確實(shí)體類型信息鏈接到實(shí)體指稱上時(shí),可能會(huì)造成訓(xùn)練模型過(guò)擬合噪聲標(biāo)簽。于是在優(yōu)化損失函數(shù)時(shí),在損失函數(shù)中添加L2 正則項(xiàng),對(duì)訓(xùn)練模型中的參數(shù)wi進(jìn)行L2 正則化約束,可改善訓(xùn)練模型對(duì)噪聲標(biāo)簽的過(guò)擬合問題,如式(13)所示,其中λ是正則化參數(shù)。
為驗(yàn)證本文方法的優(yōu)越性,將該方法與其他幾種方法進(jìn)行了對(duì)比實(shí)驗(yàn)。本章首先介紹實(shí)驗(yàn)所用的數(shù)據(jù)集、評(píng)價(jià)指標(biāo)以及對(duì)比方法,然后采用以往先進(jìn)的實(shí)驗(yàn)方法作為基線,評(píng)估各方法在處理細(xì)粒度實(shí)體分類中噪聲標(biāo)簽時(shí)的性能,重點(diǎn)展示NFETC-MN模型在兩個(gè)數(shù)據(jù)集上的性能表現(xiàn)。
評(píng)估NFETC-MN使用到兩個(gè)在細(xì)粒度實(shí)體分類任務(wù)中公開的英文數(shù)據(jù)集,即以FIGER 和BBN 作為實(shí)驗(yàn)的基礎(chǔ)數(shù)據(jù)集,其中FIGER 和BBN 都是兩層細(xì)粒度實(shí)體分類數(shù)據(jù)集,具體細(xì)節(jié)如表1所示。
表1 數(shù)據(jù)集中的統(tǒng)計(jì)數(shù)據(jù)Table 1 Statistics in datasets
(1)FIGER:訓(xùn)練數(shù)據(jù)為Wikipedia 中的句子,通過(guò)遠(yuǎn)程監(jiān)督將Wikipedia的語(yǔ)料映射于Freebase中相同的類型標(biāo)簽后自動(dòng)生成訓(xùn)練數(shù)據(jù)。測(cè)試數(shù)據(jù)主要是來(lái)自新聞報(bào)道里的句子,并且經(jīng)過(guò)人工標(biāo)注實(shí)體指稱后進(jìn)行驗(yàn)證[4]。
(2)BBN:數(shù)據(jù)集包括華爾街日?qǐng)?bào)中2 311 篇文章的句子,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)均為人工標(biāo)注[31]。
對(duì)于細(xì)粒度實(shí)體分類任務(wù)的評(píng)價(jià)指標(biāo),采用Ling等人[4]提出的準(zhǔn)確率(strict accuracy,Strict Acc)、宏觀F1值(macro F1-measure,Macro F1)以及微觀F1值(micro F1-measure,Micro F1),其中公式如下所示:
宏觀F1值(Macro F1)是宏觀精確率(macro precision,Pma)和宏觀召回率(macro recall,Rma)的調(diào)和平均值。
微觀平均F1 值(Micro F1)是微觀精確率(micro precision,Pmi)和微觀召回率(micro recall,Rmi)的調(diào)和平均值。
其中,m為實(shí)體指稱,M為其集合,Y表示實(shí)體指稱的真實(shí)類型標(biāo)簽,表示實(shí)體指稱的預(yù)測(cè)類型標(biāo)簽。
實(shí)驗(yàn)采用PyTorch 框架,并使用NVIDIA 的3070顯卡進(jìn)行了加速,其他實(shí)驗(yàn)設(shè)置如下:
(1)預(yù)訓(xùn)練詞向量:GloVe 詞向量模型[32]是一種廣泛使用的詞向量模型,以無(wú)監(jiān)督的方式學(xué)習(xí)單詞的向量表示,能有效地捕捉詞的語(yǔ)義信息。采用300 維預(yù)訓(xùn)練的GloVe 詞向量表示句子中單詞的詞向量。
(2)參數(shù)設(shè)置:模型的參數(shù)包括批處理大小B、Adam 優(yōu)化器的學(xué)習(xí)率lr、BiLSTM 中隱藏層的維數(shù)Dh、MLP 中隱藏層的維數(shù)Dm、類型標(biāo)簽嵌入維數(shù)Dt、懲罰無(wú)關(guān)噪聲標(biāo)簽的參數(shù)α、懲罰具體噪聲標(biāo)簽的參數(shù)β以及L2正則化參數(shù)λ。對(duì)于兩個(gè)數(shù)據(jù)集的具體參數(shù)設(shè)置如表2所示。
表2 超參數(shù)設(shè)置Table 2 Hyperparameter setting
本節(jié)將本文提出的NFETC-MN模型與其他先進(jìn)的細(xì)粒度實(shí)體分類模型進(jìn)行了對(duì)比。
(1)Attentive[10]:Shimaoka 等人提出基于特征提取的注意力網(wǎng)絡(luò)模型,但未將訓(xùn)練集中的干凈數(shù)據(jù)與含噪聲數(shù)據(jù)進(jìn)行區(qū)分。
(2)AFET[18]:針對(duì)細(xì)粒度實(shí)體分類的噪聲標(biāo)簽,根據(jù)類型路徑將訓(xùn)練數(shù)據(jù)劃分為“干凈集”和“噪聲集”,再利用部分標(biāo)簽損失對(duì)標(biāo)簽嵌入進(jìn)行訓(xùn)練。
(3)AAA[19]:Abhishek等人也將訓(xùn)練數(shù)據(jù)分為“干凈集”和“噪聲集”,并提出聯(lián)合學(xué)習(xí)實(shí)體指稱及其上下文表示的神經(jīng)網(wǎng)絡(luò)模型。
(4)NFETChier[20]:使用變形的交叉熵?fù)p失函數(shù)和層次損失函數(shù)來(lái)處理無(wú)關(guān)噪聲標(biāo)簽以及具體噪聲標(biāo)簽。
(5)NFETC-CLSChier[21]:通過(guò)標(biāo)簽傳播和候選類型約束以推斷噪聲標(biāo)簽的類型分布,使用壓縮隱空間規(guī)范遠(yuǎn)程監(jiān)督分配的噪聲標(biāo)簽,并利用層次損失函數(shù)處理具體噪聲標(biāo)簽。
(6)NFETC-ARhier[23]:基于概率自動(dòng)重標(biāo)記數(shù)據(jù),能平等對(duì)待干凈和含噪聲樣本。在沒有額外監(jiān)督的情況下解決噪聲標(biāo)簽問題,并利用層次損失函數(shù)處理具體噪聲標(biāo)簽。
在FIGER 和BBN 兩個(gè)數(shù)據(jù)集上,細(xì)粒度實(shí)體分類任務(wù)中各方法的準(zhǔn)確率、Macro F1值以及Micro F1值如表3所示。通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),NFETC-MN在準(zhǔn)確率、Macro F1 值以及Micro F1 值上均優(yōu)于以往的細(xì)粒度實(shí)體分類方法。
表3 細(xì)粒度實(shí)體分類方法性能比較Table 3 Performance comparison of fine-grained entity classification methods 單位:%
NFETC-MN 模型首先利用記憶網(wǎng)絡(luò)模型,聯(lián)合學(xué)習(xí)指稱上下文及類型標(biāo)簽,構(gòu)成記憶表示,為分配符合語(yǔ)義的類型標(biāo)簽增加指示性信息。其中,通過(guò)對(duì)指稱上下文進(jìn)行兩種不同方式的處理以及計(jì)算指稱上下文向量與類型標(biāo)簽的匹配度,能夠進(jìn)一步為上下文中更具指示性的單詞分配更高權(quán)重,充分提取指稱上下文與類型標(biāo)簽的重要信息。其次,為了緩解無(wú)關(guān)噪聲標(biāo)簽以及具體噪聲標(biāo)簽的消極影響,分別設(shè)計(jì)變形的鉸鏈損失函數(shù)和變形的層次損失函數(shù)。通過(guò)調(diào)整懲罰參數(shù)α、β,增大無(wú)關(guān)噪聲標(biāo)簽以及具體噪聲標(biāo)簽的損失值,能夠有效減輕噪聲標(biāo)簽對(duì)細(xì)粒度分類模型整體性能的負(fù)面影響。
具體來(lái)說(shuō),融合記憶網(wǎng)絡(luò)的NFETC-MN在FIGER數(shù)據(jù)集上相較于NFETC-ARhier,準(zhǔn)確率提高2 個(gè)百分點(diǎn)左右,Macro F1 值無(wú)太大差異,Micro F1 值提高1個(gè)百分點(diǎn)左右。在BBN 數(shù)據(jù)集上,相較于NFETCARhier,NFETC-MN 的準(zhǔn)確率提高2 個(gè)百分點(diǎn)左右,Macro F1 值提高6 個(gè)百分點(diǎn)左右,Micro F1 值提高6個(gè)百分點(diǎn)左右。綜合看來(lái),融合記憶網(wǎng)絡(luò)的NFETCMN在BBN數(shù)據(jù)集上的表現(xiàn)優(yōu)于在FIGER數(shù)據(jù)集上的表現(xiàn),尤其是在BBN 上的Macro F1 值和Micro F1值,相較于NFETC-ARhier增長(zhǎng)約6個(gè)百分點(diǎn)。原因可能有以下兩點(diǎn):(1)BBN數(shù)據(jù)集中實(shí)體類型數(shù)量少于FIGER;(2)BBN 是單類型路徑的數(shù)據(jù)集,F(xiàn)IGER 數(shù)據(jù)集允許實(shí)體有多個(gè)類型路徑,因此細(xì)粒度實(shí)體分類任務(wù)與FIGER相比較為簡(jiǎn)單。
正如表3所示,通過(guò)增加記憶網(wǎng)絡(luò)使得細(xì)粒度實(shí)體分類模型能夠更好地學(xué)習(xí)實(shí)體指稱上下文以及類型標(biāo)簽表示,并且利用深度學(xué)習(xí)的MLP 模型提取到更有效的特征,從而提高NFETC-MN模型在準(zhǔn)確率、Macro F1 值以及Micro F1 值上的性能表現(xiàn)。與此同時(shí),采用變形的鉸鏈損失函數(shù)以及變形的層次損失函數(shù)分別處理無(wú)關(guān)噪聲標(biāo)簽、具體噪聲標(biāo)簽,可以改善NFETC-MN 模型的分類性能。另外,實(shí)驗(yàn)結(jié)果表明L2正則化函數(shù)的引入能有效避免訓(xùn)練模型對(duì)噪聲標(biāo)簽過(guò)擬合。
本文針對(duì)遠(yuǎn)程監(jiān)督引入的噪聲標(biāo)簽問題,提出了一種融合記憶網(wǎng)絡(luò)的實(shí)體分類方法(NFETCMN)。通過(guò)引入記憶網(wǎng)絡(luò)增強(qiáng)對(duì)實(shí)體指稱上下文和類型標(biāo)簽之間的聯(lián)合學(xué)習(xí),建立指稱上下文與類型標(biāo)簽之間的關(guān)聯(lián)性。同時(shí)使用變形的鉸鏈損失函數(shù)和變形的層次損失函數(shù)以緩解無(wú)關(guān)噪聲標(biāo)簽和具體噪聲標(biāo)簽的消極影響。此外,結(jié)合L2 正則化函數(shù)防止訓(xùn)練模型對(duì)噪聲標(biāo)簽過(guò)擬合。實(shí)驗(yàn)結(jié)果表明,引入記憶網(wǎng)絡(luò)模型、變形的層次損失函數(shù)以及L2 正則化函數(shù),有助于處理細(xì)粒度實(shí)體分類噪聲標(biāo)簽任務(wù)。并且該模型在準(zhǔn)確率、Macro F1值以及Micro F1值三個(gè)評(píng)價(jià)指標(biāo)上,均優(yōu)于以往處理噪聲標(biāo)簽方法。