孫琛琛 ,許雷 ,申德榮 ,聶鐵錚
(1.天津理工大學 計算機科學與工程學院,天津 300384;2.東北大學 計算機科學與工程學院,遼寧 沈陽 110169)
實體解析(Entity Resolution,ER)對重復數(shù)據(jù)刪除、記錄鏈接等應用和研究有著巨大的影響,它是數(shù)據(jù)清洗和數(shù)據(jù)集成中的一個基本問題[1].它在數(shù)據(jù)庫、自然語言理解等多個領域都有巨大的應用價值.目前實體解析受到了很大的關注,但是還沒有令人滿意的解決方案.
實體解析[1]是給定可能具有錯誤、遺漏的記錄對集合,它識別出引用現(xiàn)實世界同一實體的記錄對.在過去幾年里,深度學習技術(shù)獲得了極大的進步.深度學習技術(shù)在文本、圖像和語音等領域都獲得了巨大的成功,深度學習使用帶標簽的數(shù)據(jù),學習重要特征,減輕了昂貴的手工創(chuàng)建規(guī)則的負擔,大大提高了學習的效率.深度學習目前成為替代傳統(tǒng)機器學習的一種可行算法,例如支持向量機和決策樹等,使用深度學習方法解決實體解析問題已成為當前的研究熱點.
目前,只有當有大量標記的訓練數(shù)據(jù)可用時,深度學習在性能上才會有較大的優(yōu)勢.但遺憾的是,現(xiàn)實中有時沒有大量的帶標簽數(shù)據(jù)來進行學習.并且,許多深度學習方法只有在一個共同的假設下才能很好地工作——訓練數(shù)據(jù)和測試數(shù)據(jù)來自相同的特征空間和分布.當分布發(fā)生變化時,大多數(shù)方法需要使用新收集的訓練數(shù)據(jù)從頭開始學習.在許多現(xiàn)實應用中,收集所需的訓練數(shù)據(jù)并重建模型是費時費力的,甚至是不可能的.在這種情況下,使用遷移學習[2]將是必要的.
遷移學習是解決上述問題的一種很有效的方法,遷移學習關注的是知識或者特征的跨域遷移[2].一個人通過概括他的經(jīng)驗,就有可能實現(xiàn)從一種知識到另一種知識的轉(zhuǎn)移.在生活中,學習國際象棋時,學過中國象棋的人可以比其他人學得更快,因為中國象棋和國際象棋之間可能有一些共同之處.受人類跨域傳遞知識能力的啟發(fā),遷移學習的目的是利用來自相關領域(稱為源域)的知識來提高學習性能或最小化目標域中所需的標記樣例的數(shù)量[2].遷移學習是利用數(shù)據(jù)、參數(shù)或領域之間的相似性,將在舊領域?qū)W習過的模型,應用于新領域的一種學習過程.遷移學習的關鍵是找到源域和目標域之間的相似性,并加以利用.
以往的實體解析方法大多假設存在大量的帶標簽數(shù)據(jù)供我們使用,因此,模型可以訓練出較好的結(jié)果.但當不存在帶標簽數(shù)據(jù)供我們使用時,依靠大量標簽數(shù)據(jù)才能得到較好結(jié)果的方法則無法使用,所以在實體解析領域應用遷移學習是很有必要的.本文假設本領域沒有標簽數(shù)據(jù),而相似領域存在標簽數(shù)據(jù),在這種情況下提出方法,從而解決本領域因無法得到標簽數(shù)據(jù)導致無法訓練的問題.以往的方法,如Kasai 等人[3]提出的低資源實體解析方法的網(wǎng)絡結(jié)構(gòu)較為簡單,無法得到較好的遷移效果;Bogatu 等人[4]提出的變分主動實體解析模型(Variational Active Entity Resolution,VAER)方法需要先在其他領域進行預訓練并且在本領域進行微調(diào)才能使用.在實體解析領域進行遷移學習首先需要得到記錄中屬性的向量,才能匯總得到記錄的向量結(jié)果.在實體解析模型中,模型得到的是一對記錄之間的關系,而在實體解析領域遷移,要遷移的是每條記錄的知識或參數(shù),而不是遷移一對記錄之間的相似性,因此要精心設計遷移模型.
本文提出了使用域分類網(wǎng)絡的基于深度學習的遷移方法,用于學習域不變表示.設計了用于實體解析的實體解析模型,具體地說,首先使用編碼層中的編碼器對屬性信息進行編碼得到屬性的分布向量,然后將各自的屬性分布向量,送入比較層,計算對應屬性間的差異,得到記錄間的比較結(jié)果,最后將比較結(jié)果向量送入分類器,得到最終的分類結(jié)果.隨后將實體解析模型作為組件設計了基于域分離網(wǎng)絡的遷移模型,遷移模型所用的編碼器結(jié)構(gòu)與實體解析模型編碼層中編碼器結(jié)構(gòu)一致.利用域分離網(wǎng)絡的編碼器將域的私有特征和共享特征分離開來,再利用分離出的域共享特征進行分類,得到分類結(jié)果,從而達到從源域遷移到目標域的目的.其中分離出來的域共享特征為源域和目標域共享的特征.具體來說,本文的貢獻如下:
1)構(gòu)造了一個深度實體解析模型,對屬性進行編碼,隨后計算屬性的相似性,最后對記錄分類.實體解析模型訓練速度較快,因此作為隨后遷移模型的組件,遷移模型整體訓練時間較短.
2)將域分離網(wǎng)絡應用到實體解析領域,提出了一種基于深度實體解析的遷移方法,該方法學習域私有表示和域共享表示,利用域共享表示達到域遷移的效果.
3)在多個數(shù)據(jù)集上進行了實驗評估,測試本文提出方法的有效性,進行了消融實驗等,證明了提出的遷移方法的有效性.
本文第一節(jié)將介紹實體解析和遷移學習的相關工作.第二節(jié)介紹用于實體解析任務的匹配模型.第三節(jié)提出了基于域分離網(wǎng)絡的遷移學習方法.第四節(jié)介紹了所做的實驗以及實驗設置和數(shù)據(jù)集等細節(jié),并在第五節(jié)進行了總結(jié).
實體解析早期的研究工作致力于設計各種基于字符串的距離函數(shù)來度量成對記錄的相似性.顯然,這種無人監(jiān)督的方法缺乏有效性和普遍性,并不存在針對所有數(shù)據(jù)集的單一度量.為了克服上述限制,基于機器學習的技術(shù)變得流行起來.這些方法將實體解析問題視為一個二分類任務,并將傳統(tǒng)的分類器(如貝葉斯分類器)應用于手工制作的特征.它們可以在一定程度上提高實體解析的精度,但對人工特征工程的依賴仍然阻礙了通用性和魯棒性.
目前,使用深度學習解決實體解析問題越來越受到歡迎,通過設計有效的深度學習模型來進一步提高性能.在給定一對文本記錄的情況下,DeepER采用GloVe 進行單詞嵌入,然后應用長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)模型對實例的文本描述進行編碼,隨后進行分類訓練[5].Deep?Matcher 使用注意力機制擴展了循環(huán)神經(jīng)網(wǎng)絡(Re?current Neural Networks,RNNs),用于文本實例之間的實體匹配,將從每個屬性導出的相似性向量連接起來,以形成分類器的輸入[6].對于異構(gòu)的記錄或者記錄內(nèi)存在缺失、錯誤拼寫、遺漏等情形,提出Hier?Matcher 方法,從單詞(token)層面對記錄進行比較,有效避免臟數(shù)據(jù)集的影響[7].MCA(Multi-Context At?tention)提出使用多種注意力,計算記錄內(nèi)和記錄間的注意力,利用多種注意力關系進行匹配[8].
遷移學習首先由香港科技大學教授楊強提出.遷移學習允許訓練和測試中使用的任務或者分布有所不同.遷移學習近年來受到越來越多的關注,大量的遷移學習相關方法被提出.跨域誤差最小化(Cross-Domain Error Minimization,CDEM)方法旨在學習域不變特征,為此方法使用跨域誤差最小化、源域和目標域分類誤差最小化、分布對齊和鑒別性學習四個目標來保證學習域不變特征[9].統(tǒng)一聯(lián)合分布對齊域自適應(Domain Adaptation with Unified Joint Distribution Alignment,UJDA)方法進行域和類兩個級別的對齊,使用兩個聯(lián)合分類器并利用聯(lián)合對抗性損失進行域自適應[10].跨域梯度差異最小化(Cross-Domain Gradient Discrepancy Minimization,CGDM)明確地將源樣本和目標樣本產(chǎn)生的梯度差異最小化,以實現(xiàn)類級別更好的分布對齊[11].特定域?qū)咕W(wǎng)絡(Domain-Specific Adversarial Network,DSAN)提出了同時輸入域特征和域特殊信息到單一的編碼器(Encoder)來學習不變表示的方法[12].語義集中域適應(Semantic Concentration for Domain Adap?tation,SCDA)方法在分類器和特征提取器間對樣本的預測分布進行對抗學習,從而獲得對齊良好的特征[13].但是以上遷移學習方法并不適用于實體解析這樣需要學習記錄對間相互關系的領域.域?qū)股窠?jīng)網(wǎng)絡(Domain-Adversarial Neural Network,DANN)通過在域分類器和特征提取器間加入梯度反轉(zhuǎn)層訓練模型,達到混淆域分類器的目的[14].域分離網(wǎng)絡(Domain Separation Networks,DSN)方法利用編碼器和解碼器提取域的私有特征和共享特征,分類器對共享編碼器的輸出分類,得到分類結(jié)果[15].
本節(jié)介紹用于實體解析的模型,此模型將作為組件用于下一節(jié)將要介紹的實體解析遷移模型.模型學習各個屬性間的相似性,并進行實體匹配.具體地說,給定均由屬性A1,…,Am組成的一對記錄(l1,l2),屬性可以視為由單詞組成的序列.實體解析的目標是判斷l(xiāng)1和l2是否屬于真實世界的同一實體.表1列出了三條實體記錄示例,分別由三個屬性組成一條記錄.其中R1和R2是匹配的,R1和R3是不匹配的.
表1 實體解析示例Tab.1 Example of entity resolution
圖1 給出了實體解析的模型.給定一對記錄(l1,l2),首先使用詞嵌入fastText[16]為記錄中的每個屬性生成嵌入序列(w1,…,wm),其中w1為屬性A1對應的屬性嵌入向量序列.接下來每個屬性嵌入序列通過雙向門控循環(huán)單元(Gated Recurrent Unit,GRU)捕獲序列內(nèi)的上下文關系生成各自的屬性嵌入向量(e1,…,em).在記錄對的每個屬性經(jīng)過編碼器生成屬性嵌入后,記錄對的對應屬性間進行相似性比較,將相似性比較的結(jié)果作為分類器的輸入,分類器輸出最終的匹配概率.
圖1 深度實體解析框架Fig.1 Framework of deep entity resolution
輸入層主要用于得到記錄中屬性的上下文信息,分別得到各個屬性向量表示.因此,在給定文本的記錄對時,首先要將文本轉(zhuǎn)換為嵌入向量,相比于Word2Vec 和GloVe,fastText 在處理詞典外單詞方面具有一定的優(yōu)勢,因此本文使用fastText.文本轉(zhuǎn)換為嵌入后,要想得到各自的屬性向量,一種方法是屬性里的單詞嵌入序列相加求均值作為各自的屬性向量表示,但是這種方法不能很好地提取單詞之間的上下文關系;另一種方法是利用循環(huán)神經(jīng)網(wǎng)絡模型得到屬性向量,該方法能捕獲單詞間的上下文關系,因此選用此方法.
給定文本記錄對(l1,l2)作為輸入,首先將輸入的記錄矢量化,使用fastText 詞嵌入得到輸入記錄的矢量化表示(w1,…,wm),其中每個記錄的每個屬性均為詞嵌入序列.得到記錄的矢量化表示后,接下來生成各個屬性的嵌入表示.使用一個雙向的GRU 接收每個屬性序列,利用GRU 對屬性序列編碼得到屬性向量(e1,…,em),并將記錄對的屬性向量集合分別送入屬性編碼器.通過對比發(fā)現(xiàn),采用門控結(jié)構(gòu)的GRU模型比長短期神經(jīng)網(wǎng)絡模型和遞歸神經(jīng)網(wǎng)絡模型表現(xiàn)更好.如公式(1)所示.
屬性編碼層用于對得到的屬性向量進一步的編碼和壓縮并得到屬性隱含的分布式表示.本文利用變分自編碼器(Variational Auto-Encoders,VAE)[17]的結(jié)構(gòu),利用VAE 的編碼器對屬性嵌入序列編碼,VAE在提取深層的掩藏表示和重建方面具有一定的優(yōu)勢,利用VAE對屬性向量提取分布式表示.VAE的編碼器用于生成均值μ和方差σ.VAE 的編碼器生成的μ和方差σ一起描述了屬性的分布,即(μ,σ)代表了一個屬性,因此屬性編碼層生成的分布可以用于下一層屬性比較層的計算.
屬性編碼層由兩個參數(shù)共享的屬性編碼器組成,輸入層用循環(huán)神經(jīng)網(wǎng)絡模型得到了屬性的向量表示,兩個編碼器分別將屬性向量集合作為輸入,并通過帶有非線性激活函數(shù)的一到多個線性層.對于每個屬性向量表示,利用對角協(xié)方差(μ,σ)擬合潛在的高斯分布.每個編碼器分別生成實體表示{(μ1,σ1),…,(μm,σm)},每個屬性值對應一個(μ,σ).兩條記錄的比較通過對應屬性值生成的分布來計算.屬性編碼層利用對角協(xié)方差擬合屬性嵌入向量的分布,利用分布間的距離判斷對應屬性間是否相似,公式如下:
屬性比較層計算對應屬性間的相似性,由于屬性編碼器輸出為高斯分布,對于量化兩個高斯分布間的距離可以使用Wasserstein 距離[18].d-Wasserstein距離描述了當成本由Ld距離給定時,將一個概率測度的單位質(zhì)量傳輸?shù)搅硪粋€概率測度的單位質(zhì)量的最小成本[18].在本文中,使用d=2的平方后的Wasser?stein距離(W2)計算屬性相似性.例如,如果計算兩個k維對角高斯分布p和q之間的W2距離,公式如下:
屬性比較層用于比較屬性間的相似度,并將比較后的結(jié)果送入實體解析分類器.Wasserstein 距離用于計算兩個概率之間的距離,因此可以用于計算屬性編碼層輸出分布之間的距離.當兩個屬性編碼器輸出{(μ1,σ1),…,(μm,σm)}和,…,到屬性比較層,計算m個對應屬性間的Wasserstein 距離向量dw=(μ-μ′)2+(σ-σ′)2.最后,將m個計算出的向量拼接起來,送入實體解析分類器.
實體解析分類器區(qū)分一對記錄是否為同一實體.實體解析分類器接收上一層傳入的m個拼接起來的距離向量并送入到兩層具有非線性激活函數(shù)的多層感知器(Multilayer Perceptron,MLP)中,再將線性層的輸出經(jīng)過Softmax 函數(shù)得到歸一化輸出,將其分類為匹配或不匹配.公式如(4)所示,其中dw代表m個對應屬性分布計算后的距離向量拼接后的向量,ReLU為激活函數(shù).
實體解析任務優(yōu)化目標是最小化分類器的分類誤差.其中Lc代表損失函數(shù),y為真實的標簽,?表示經(jīng)過實體解析分類器后輸出的預測標簽.定義損失函數(shù)如下:
在遷移環(huán)境下,本文改進域分離網(wǎng)絡結(jié)構(gòu)適應實體解析任務進行遷移學習.在給定源域數(shù)據(jù)集帶標簽、目標域數(shù)據(jù)集不帶標簽的情況下,本文的訓練目標是利用源域和目標域的數(shù)據(jù)使模型能準確預測目標域數(shù)據(jù)的標簽.定義源域XS,其中有NS個帶標簽的數(shù)據(jù),目標域XT,其中有Nt個不帶標簽的數(shù)據(jù).本文假設源域和目標域的記錄共享相同的屬性模式.域分離網(wǎng)絡顯式建模了域的私有表示和域的共享表示.域分離網(wǎng)絡利用不同損失函數(shù)的組合實現(xiàn)了源域和目標域分別有一個域私有表示,同時源域和目標域有一個域共享表示.分類器通過對域共享表示部分的輸出進行分類得到分類結(jié)果.對連接域共享表示的分類器進行分類,能更好地跨域泛化,不受域私有表示的影響.本文利用變分主動實體解析模型(VAER)作為提取特征的基本組件,結(jié)合域分離網(wǎng)絡(DSN)的思想,提出了實體解析遷移模型VAERDSN.
將源域和目標域記錄對集合中所有記錄嵌入得到每條記錄的屬性嵌入序列,源域記錄對嵌入集合為XS,目標域記錄對嵌入集合為XT.如圖2所示,XS和XT為VAERDSN 的輸入;代表XS經(jīng)過GRU 得到隱藏表示再輸入到源域私有編碼器得到的源域私有表示向量代表XS經(jīng)過GRU 得到隱藏表示再輸入到共享編碼器Eu得到的源域共享表示向量,同理;表示將域私有表示和域共享表示經(jīng)過解碼器D的重建輸出為將源域共享表示輸入到分類器C得到的預測標簽;d′k為域共享特征輸入到域分類器得到的域預測標簽;Lc、Ldifference、Lsimilarity和Lrecon為不同的損失函數(shù).
圖2 遷移網(wǎng)絡架構(gòu)Fig.2 Framework of the transfer learning network
遷移模型的編碼器E(x)旨在提取屬性的隱藏表示,為后續(xù)網(wǎng)絡結(jié)構(gòu)提供更好的特征.編碼器E(x)分為私有編碼器Eo(x)和共享編碼器Eu(x),兩種編碼器結(jié)構(gòu)與實體解析任務中的屬性編碼器結(jié)構(gòu)相同.其中私有編碼器Eo(x)分為源域私有編碼器和目標域私有編碼器,負責提取域獨有的特征;共享編碼器Eu(x)負責提取源域和目標域公共的特征.編碼器E(x)將特征轉(zhuǎn)換為嵌入向量,為下一步的解碼器提供輸入.
因為源域和目標域的私有特征不同,因此需要兩個編碼器分別提取源域和目標域的私有特征.提取源域和目標域的公共特征時,可以只使用一個編碼器來達到提取公共特征的目的.例如當送入源域數(shù)據(jù)時,源域數(shù)據(jù)經(jīng)過源域私有特征編碼器得到源域私有特征向量,源域數(shù)據(jù)經(jīng)過域共享編碼器得到域共享特征向量.
數(shù)據(jù)進入編碼器中首先會生成屬性分布表示(μ,σ),屬性分布經(jīng)過Sampling 操作后,得到對應的屬性向量表示.在高斯分布(0,1)中采樣ε,用Sam?pling 公式h=μ+ε×σ表示從屬性分布到屬性向量的變換.公式(6)中的Encoder 即為實體解析模型中編碼層的Encoder.數(shù)據(jù)經(jīng)過編碼器過程如下:
解碼器D(h)將編碼器的輸出重建回屬性表示.遷移模型輸入源域數(shù)據(jù)時,解碼器接收源域私有編碼器輸出的源域私有特征和共享編碼器Eu(x)輸出的源域和目標域共享特征相加得到的向量作為輸入,經(jīng)過解碼器得到源域的重建屬性表示.目標域數(shù)據(jù)工作方式與源域數(shù)據(jù)一致.解碼器D(h)由兩層帶有非線性激活函數(shù)的多層感知器構(gòu)成,輸出用于重建損失.解碼器D(h)的存在保證了編碼器E(x)編碼有效的特征,避免了編碼器學習到與任務無關的參數(shù),公式如下:
解碼器用于保證解碼器學習到的知識與任務相關.如果編碼器的輸出不經(jīng)過解碼器進行重構(gòu),編碼器輸出在極端情況下會跟編碼器的輸入相似,而本文想要讓編碼器學習輸入的屬性向量的隱藏分布.因此為了避免編碼器不學習屬性向量的隱藏表示,在編碼器后面接入解碼器,計算解碼器的輸出與編碼器的輸入之間的重構(gòu)誤差,保證編碼器學習到的知識與任務有關.
分類器C(h)采用與實體解析任務中實體解析分類器相同的結(jié)構(gòu),由帶有非線性激活函數(shù)的多層感知器構(gòu)成,輸入和輸出與公式(4)相同.分類器對源域數(shù)據(jù)經(jīng)過共享編碼器Eu(x)的輸出進行分類任務,得到最終分類結(jié)果.只使用共享編碼器Eu(x)的輸出進行分類可以減少域私有特征的影響,只使用公共特征進行分類,從而得到更好的遷移到目標域的效果.分類器會輸出最終的分類結(jié)果,由于在訓練時,目標域數(shù)據(jù)沒有標簽,因此只有源域數(shù)據(jù)會經(jīng)過分類器輸出分類結(jié)果.
本小節(jié)介紹遷移模型的損失函數(shù).遷移模型訓練目標是將總損失L降到最低,公式如下:
其中α、β和γ均為控制損失項的超參數(shù);Lc為分類任務損失;Ldifference為差異性損失,保證域私有特征和域共享特征之間的差異性;Lsimilarity為相似性損失,保證源域和目標域各自提取的共享特征相似;最后,Lrecon表示重建損失,希望重建回的屬性表示與編碼器的輸入一致.
分類任務損失Lc表示模型預測標簽的能力,希望損失越小越好,它同實體解析模型損失函數(shù)定義一致.因為目標域沒有標簽,因此只有帶標簽的源域數(shù)據(jù)經(jīng)過分類器.
差異性損失在源域的私有特征和共享特征或目標域的私有特征和共享特征之間計算,差異性損失保證了私有編碼器Eo(x)和共享編碼器Eu(x)之間提取記錄的不同方面.差異性損失利用Wasserstein 距離對私有編碼器和共享編碼器各自輸出的屬性分布表示.因為目標域計算差異性損失和源域一致,因此只介紹源域計算差異性損失.具體地說,給定XS作為輸入后,源域私有編碼器和共享編碼器的輸出均為記錄對的分布表示,分別為,其中i和j分別對應第i和j個屬性,i,j∈[1,m].接下來計算兩個編碼器輸出的對應屬性分布間的距離,即用Wasserstein 距離計算當i和j相等時,之間的距離.差異性損失定義如下:
相似性損失鼓勵源域數(shù)據(jù)和目標域數(shù)據(jù)經(jīng)過共享編碼器后的表示盡可能相似,而與域無關.使用域?qū)瓜嗨菩該p失來訓練模型,迷惑域分類器使之不能正確地判斷數(shù)據(jù)來自源域或目標域.相似性損失通過梯度反轉(zhuǎn)訓練域共享編碼器學習域無關的特征,實現(xiàn)混淆域分類器的作用.其中,dk是樣本k的真實域標簽,d′k是域分類器輸出的樣本k的預測域標簽.相似性損失定義如下:
本文使用兩對共四個數(shù)據(jù)集進行了實驗.其中所有數(shù)據(jù)集均已經(jīng)過分塊操作,每個數(shù)據(jù)集隨機分為訓練、驗證、測試數(shù)據(jù),比例為3:1:1.表2 給出了數(shù)據(jù)集的統(tǒng)計數(shù)據(jù),包含數(shù)據(jù)集大小、匹配大小、屬性個數(shù)等.其中Zomato-Yelp(ZY)、Fodors-Zagats(FZ)[6]是餐館數(shù)據(jù)集,Books3、Books4是書籍數(shù)據(jù)集.其中Zomato-Yelp、Books3 和Books4 數(shù)據(jù)集均來自AnHai’s Group[6].超參數(shù)α設置為0.01,β設置為0.075,γ設置為0.25.系統(tǒng)全面地展示了本文提出方法的有效性.
表2 數(shù)據(jù)集Tab.2 Data Set
使用精確率(P)、召回率(R)和F1分數(shù)作為實驗的評價指標.精確率衡量預測集合中正確預測的比例,召回率衡量真實匹配集合中被正確預測的比例,F(xiàn)1為兩者的調(diào)和平均數(shù).
為了評估實體匹配模型的有效性,使用Deep?Matcher、MCA 模型與本文實體解析模型比較.由于遷移模型使用了較多的編碼器,因此時間性能較為重要,在分類效果類似的情況下,本文更關注時間性能.
對于每個目標數(shù)據(jù)集,源由另外一個數(shù)據(jù)集給出(例如,ZY 的源是FZ).圖3、圖4 展示了遷移模型的性能.在圖3 中,可以看到當FZ 為源數(shù)據(jù)集,ZY 為目標數(shù)據(jù)集時,在源數(shù)據(jù)集上訓練出來的模型直接在目標數(shù)據(jù)集上測試時的F1為66.92%,當使用了遷移模型后,F(xiàn)1提高到了83.8%,提高了大約17%.使用本文模型在沒有目標標簽的情況下達到了較高水平.在ZY為源數(shù)據(jù)集、FZ為目標數(shù)據(jù)集時,使用遷移模型后,相比硬遷移F1提高了大約5%.
在圖4 中,當Books3 為源數(shù)據(jù)集,Books4 為目標數(shù)據(jù)集時,在源數(shù)據(jù)集上訓練出來的模型直接在目標數(shù)據(jù)集上測試時的F1為37.35%,使用遷移模型后,F(xiàn)1提高了不到1%.在Books4 為源數(shù)據(jù)集、Books3為目標數(shù)據(jù)集時,使用了遷移模型后,相比于直接使用源數(shù)據(jù)集上訓練出來的模型,F(xiàn)1由71.2%提高到了86.92%.
在圖3和圖4中,可以觀察到由一個數(shù)據(jù)集遷移到另一個數(shù)據(jù)集時存在難易程度不同的現(xiàn)象,例如,由Books3遷移到Books4,模型提升效果很小,但當由Books4遷移到Books3時,模型提升效果較大,可以認為是數(shù)據(jù)集間蘊含的語義信息有較大差異.
圖3 餐廳數(shù)據(jù)集遷移結(jié)果Fig.3 Transfer learning results on restaurants
圖4 書籍數(shù)據(jù)集遷移結(jié)果Fig.4 Transfer learning results on books
本文與Kasai 等人提出的適用于低資源實體解析方法進行了對比.如圖5 所示,除了Books4 數(shù)據(jù)集,本文的方法VAERDSN 均比對比的方法性能要好.在餐廳的兩個數(shù)據(jù)集上,本文提出的方法相比Kasai 等人提出的方法有了較大的提升,如在ZY 數(shù)據(jù)集上,F(xiàn)1由43.76%提升到了83.8%,有較大的提高.在Books3數(shù)據(jù)集上,本文的方法相比低資源模型方法,F(xiàn)1由80.45%提高到86.92%.
圖5 遷移方法有效性Fig.5 Effectiveness of transfer learning
接下來對比了實體解析模型與以前提出的深度實體解析方法在性能和時間上的差異.如圖6 所示,本文的實體解析模型在Books4數(shù)據(jù)集上的F1超過了DeepMatcher但與MCA仍有差距.在另外三個數(shù)據(jù)集上,本文的實體解析模型與之前提出的兩個方法有一定的差距,如在Books3數(shù)據(jù)集上,本文的實體解析模型訓練得出的F1與另外兩種方法分別差了大約8%和4%.如圖7 所示,本文的實體解析模型的訓練效率高于DeepMatcher 和MCA 方法.在Books3 數(shù)據(jù)集上,本文提出的方法和DeepMatcher 訓練時間相差達到了5倍之多.
圖6 實體解析模型性能對比Fig.6 Performance comparison of entity resolution
圖7 實體解析訓練時間對比Fig.7 Comparison of entity resolution training time
因為遷移模型不使用解碼器也能訓練,因此本文進行了消融實驗,其中VAERDSN-Decoder 代表去掉解碼器的模型.如圖8 所示,在去掉解碼器之后,F(xiàn)Z 和ZY 數(shù)據(jù)集性能均有不同程度的下降.在FZ 數(shù)據(jù)集上,F(xiàn)1由53.46%降到了31.58%,在ZY 數(shù)據(jù)集上F1降低得最多,由83.8%降到了38.55%.由此可以看出遷移模型中,解碼器保證了編碼器提取的特征有利于遷移任務的進行,保證了編碼器向有利于任務的方向訓練.
圖8 解碼器消融研究結(jié)果Fig.8 Decoder ablation study results
本文還進行了參數(shù)實驗,比較不同隱藏層大小對性能的影響.如圖9 所示,選取了ZY 和Books3 兩個數(shù)據(jù)集進行展示.在ZY 數(shù)據(jù)集上,可以看出選取隱藏層大小為100 時,F(xiàn)1最小,為80.43%;在隱藏層大小為200 時,F(xiàn)1達到了83.8%;隱藏層大小為250時,F(xiàn)1為83.91%.隱藏層大小逐漸增大,F(xiàn)1也在逐漸增高,且在隱藏層大小為200和250之間的F1差距不大.在Books3 數(shù)據(jù)集上,顯示出了一樣的規(guī)律,隱藏層大小由100 增大到250,F(xiàn)1也逐漸增大,并且在隱藏層大小選取200和250時,F(xiàn)1差距不到0.5%.因此,本文設定隱藏層大小為200.
圖9 隱藏層不同大小時F1分數(shù)Fig.9 F1 score for different sizes of hidden layers
本文在多個數(shù)據(jù)集上進行了遷移實驗以驗證模型的有效性,遷移模型的實驗結(jié)果相比于直接在源域訓練均有不同程度提升.本文還將VAERDSN模型與其他遷移模型進行了對比,除了Books4數(shù)據(jù)集,其他數(shù)據(jù)集的實驗結(jié)果都比所對比的模型結(jié)果要好.本文還將實體解析模型訓練時間和其他實體解析模型訓練時間進行了對比,可以看出,本文方法的訓練時間要明顯低于其他模型的訓練時間.綜上所述,本文通過多方面實驗證明了VAERDSN的先進性.
本文提出了基于深度學習和遷移學習的實體解析框架,解決實體解析領域的遷移學習.利用變分自編碼器中的編碼器結(jié)構(gòu)作為組件,將編碼器結(jié)合到域分離網(wǎng)絡中,域分離網(wǎng)絡利用不同功能的編碼器提取出了域私有特征和域共享特征,并將域共享特征用作分類器的輸入,其中解碼器用于將提取出的特征重建回編碼器的輸入,編碼器、解碼器和分類器共同構(gòu)成了本文提出的模型.通過實驗證明了本文方法具有較好的遷移能力.通過展示遷移模型的性能,與以前提出的方法進行對比,以及利用參數(shù)研究,證明了本文提出方法的有效性.本文通過兩對數(shù)據(jù)集的互相遷移,通過實驗證明了本文提出的模型可以從源域和目標域中學習到公共知識并遷移到目標域中.