余傳明 黃婷婷 林虹君 安璐
收稿日期:2020-05-31
基金項目:國家自然科學(xué)基金面上項目“面向跨語言觀點(diǎn)摘要的領(lǐng)域知識表示與融合模型研究”(項目編號:71974202)。
作者簡介:余傳明(1978-),男,教授,研究方向:數(shù)據(jù)挖掘、商務(wù)智能與信息檢索。黃婷婷(1995-),女,碩士研究生,研究方向:數(shù)據(jù)挖掘與信息檢索。林虹君(1995-),女,碩士研究生,研究方向:數(shù)據(jù)挖掘與信息檢索。安璐(1979-),女,教授,研究方向:可視化知識發(fā)現(xiàn)。
摘? 要:[目的/意義]從跨語言視角探究如何更好地解決低資源語言的實體抽取問題。[方法/過程]以英語為源語言,西班牙語和荷蘭語為目標(biāo)語言,借助遷移學(xué)習(xí)和深度學(xué)習(xí)的思想,提出一種結(jié)合自學(xué)習(xí)和GRU-LSTM-CRF網(wǎng)絡(luò)的無監(jiān)督跨語言實體抽取方法。[結(jié)果/結(jié)論]與有監(jiān)督的跨語言實體抽取方法相比,本文提出的無監(jiān)督跨語言實體抽取方法可以取得更好的效果,在西班牙語上,F(xiàn)1值為0.6419,在荷蘭語上,F(xiàn)1值為0.6557。利用跨語言知識在源語言和目標(biāo)語言間建立橋梁,提升低資源語言實體抽取的效果。
關(guān)鍵詞:知識獲取;實體抽取;跨語言;深度學(xué)習(xí);標(biāo)簽映射
DOI:10.3969/j.issn.1008-0821.2020.12.001
〔中圖分類號〕TP391? 〔文獻(xiàn)標(biāo)識碼〕A? 〔文章編號〕1008-0821(2020)12-0003-14
Research on Cross-lingual Entity Extraction Based on
Tag Transfer and Deep Learning
Yu Chuanming1? Huang Tingting2? Lin Hongjun1? An Lu3
(1.School of Information and Safety Engineering,Zhongnan University of Economics and Law,
Wuhan 430073,China;
2.School of Statistics and Mathematics,Zhongnan University of Economics and Law,Wuhan 430073,China;
3.School of Information Management,Wuhan University,Wuhan 430072,China)
Abstract:[Purpose/Significance]This paper explores how to better solve the entity extraction problem of low resource languages from a cross-lingual perspective.[Method/Process]With English as the source language,Spanish and Dutch as the target language,an unsupervised cross-lingual entity extraction method combining self-learning method and GRU-LSTM-CRF network is proposed based on the idea of transfer learning and deep learning.[Result/Conclusion]Compared with the supervised cross-lingual entity extraction method,the unsupervised cross-lingual entity extraction method proposed in this paper can achieve better results.In Spanish,the value of F1 is 0.6419,and in Dutch,the value of F1 is 0.6557.Cross-lingual knowledge is used to build a bridge between source language and target language to improve the effect of entity extraction of low-resource languages.
Key words:knowledge acquisition;entity extraction;cross-lingual;deep learning;label mapping
實體抽?。‥ntity Extraction,EE),又稱為命名實體識別(Name Entity Recognition,NER),是指識別文本中具有特定意義的實體[1],包括人名[2]、地名[3]、機(jī)構(gòu)名[4]和專有名詞[5-7]等。實體抽取在信息抽取的總體任務(wù)中起著至關(guān)重要的作用,有效識別命名實體,不僅是關(guān)系抽取[8-9]和構(gòu)建知識圖譜[10]的基礎(chǔ),而且可以顯著提高問答系統(tǒng)[11]和文本挖掘[12]等應(yīng)用的性能。隨著大數(shù)據(jù)的迅速發(fā)展,各種語料在不同語言中的分散化和多樣化日益嚴(yán)峻,跨語言情境下的實體抽取任務(wù)受到越來越多的關(guān)注。實體抽取任務(wù)在中文和英文等語言情境中,存在較為豐富的標(biāo)注語料,與此相關(guān)的實體抽取模型相對簡單;而在阿拉伯語和維吾爾語等語言情境中,標(biāo)注語料相對稀缺,存在標(biāo)簽語料很少和手工標(biāo)注標(biāo)簽昂貴且費(fèi)時等問題,與此相關(guān)的實體抽取模型相對復(fù)雜,面臨更多挑戰(zhàn)。在標(biāo)注語料豐富的源語言和標(biāo)注語料稀缺的目標(biāo)語言之間建立橋梁,將源語言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語言,以豐富目標(biāo)語言的標(biāo)簽數(shù)據(jù),通過建立跨語言的命名實體識別模型,提升低資源語言實體識別模型的效果,成為一個亟待解決的研究問題。
機(jī)器翻譯研究的發(fā)展在一定程度上緩解了目標(biāo)語言語料稀缺的問題,但采用機(jī)器翻譯來解決跨語言實體抽取仍面臨一些挑戰(zhàn)。首先,在源語言翻譯成目標(biāo)語言的過程中,即便在機(jī)器翻譯達(dá)到很高準(zhǔn)確率(即源語言文本與目標(biāo)語言文本具有很好的語義一致性)的情況下,由于在目標(biāo)語言中詞匯語序被調(diào)整,且存在對源語言詞匯進(jìn)行拆分(源語言詞匯與目標(biāo)語言詞匯之間為一對多的關(guān)系)或合并(源語言詞匯與目標(biāo)語言詞匯之間為多對一的關(guān)系)的情況,很難準(zhǔn)確地建立詞匯標(biāo)簽(如B、I、O等)從源語言到目標(biāo)語言之間的一一對應(yīng)關(guān)系,如何在機(jī)器翻譯基礎(chǔ)上自動化地構(gòu)建目標(biāo)語言的語料標(biāo)簽仍然是一個嚴(yán)峻的問題。其次,目前應(yīng)用較為廣泛的免費(fèi)在線翻譯系統(tǒng)(如谷歌和百度翻譯等)并不支持所有語言,針對稀缺資源語種(如蒙古語和維吾爾語等),如何在沒有機(jī)器翻譯的情況下自動化地構(gòu)建目標(biāo)語言的文本(并在此基礎(chǔ)上自動化地構(gòu)建標(biāo)簽)也是一大挑戰(zhàn)。
為解決上述問題,本文將自動化的雙語詞典構(gòu)建應(yīng)用到跨語言實體抽取任務(wù)中,利用遷移學(xué)習(xí)和深度學(xué)習(xí)的思想,開展跨語言實體抽取的實證研究。
1? 相關(guān)研究現(xiàn)狀
1.1? 實體抽取的傳統(tǒng)模型
實體抽取的傳統(tǒng)模型包括早期基于規(guī)則的方法、統(tǒng)計機(jī)器學(xué)習(xí)的方法以及近年來基于深度學(xué)習(xí)的方法,其效果不斷得以提升。
1.1.1? 基于規(guī)則的實體抽取
基于規(guī)則的實體抽取方法是指人工構(gòu)造規(guī)則或者借助機(jī)器自動生成規(guī)則,然后從文本中找出匹配規(guī)則的字符串。為了解決烏爾都語實體標(biāo)注語料稀缺的問題,Riaz K[13]提出一種基于規(guī)則的命名實體識別方法,首先從Becker-Riaz語料庫中選取200篇文檔,人工為時間、地名、機(jī)構(gòu)名等6個實體標(biāo)簽制定規(guī)則;并選出2 262篇文檔進(jìn)行實驗,該方法的召回率為90.7%,準(zhǔn)確率為91.5%,F(xiàn)1值為91.1%。由于人工構(gòu)造規(guī)則需要消耗較多的人力和物力,所以研究者們嘗試借助機(jī)器自動生成規(guī)則的方法。Collins M等[14]先構(gòu)造種子規(guī)則,再根據(jù)語料對該種子規(guī)則進(jìn)行無監(jiān)督的訓(xùn)練迭代得到更多的規(guī)則,將這些規(guī)則用于實體抽取,該方法在人名、地名和機(jī)構(gòu)名3種實體抽取任務(wù)中取得很好的效果。周昆[15]提出一種基于規(guī)則匹配的命名實體識別方法,首先,將中文人名、知識按照不同類別和不同層次進(jìn)行組織,可提高知識庫的可維護(hù)性;然后分別制定20種人名識別規(guī)則和9種地名識別規(guī)則;最后構(gòu)建具有自主學(xué)習(xí)能力的實體識別系統(tǒng),能在識別實體的基礎(chǔ)上,產(chǎn)生新的規(guī)則反饋給規(guī)則庫,該方法有效提高了實體抽取的準(zhǔn)確率和召回率?;谝?guī)則的實體抽取方法在小規(guī)模語料庫上,訓(xùn)練速度快且模型效果好,但需要制定大量的規(guī)則,導(dǎo)致該類方法的可移植性較差。
1.1.2? 基于統(tǒng)計機(jī)器學(xué)習(xí)的實體抽取
在基于統(tǒng)計機(jī)器的方法中,實體抽取被視為序列標(biāo)注問題。序列標(biāo)注問題中當(dāng)前的預(yù)測標(biāo)簽不僅與當(dāng)前的輸入特征相關(guān),還與之前的預(yù)測標(biāo)簽相關(guān),預(yù)測標(biāo)簽序列之間具有強(qiáng)相互依賴關(guān)系。目前常用的統(tǒng)計機(jī)器學(xué)習(xí)方法有:隱馬爾克夫模型(HMM)、最大熵隱馬模型(MEMM)、條件隨機(jī)場模型(CRF)等。CRF是計算整個標(biāo)記序列的聯(lián)合分布概率,在全局范圍內(nèi)進(jìn)行歸一化處理,不僅克服HMM輸出的獨(dú)立性假設(shè)問題,而且有效避免了MEMM的標(biāo)記偏置問題。如馮艷紅等[16]提出一種基于詞向量和條件隨機(jī)場的領(lǐng)域術(shù)語識別方法,將領(lǐng)域詞語的語義特征和領(lǐng)域特征融入CRF模型中,在漁業(yè)領(lǐng)域語料、通用語料和混合語料上進(jìn)行實驗,該方法均取得較好效果。李想等[17]將農(nóng)作物、病蟲害和農(nóng)藥名稱的詞性、偏旁部首、左右指界詞、附近數(shù)量詞等特征融入CRF模型,建立特征與命名實體類別和詞位間的關(guān)聯(lián)關(guān)系,從而識別出命名實體,對農(nóng)作物、病蟲害、農(nóng)藥命名實體識別的準(zhǔn)確度分別達(dá)97.72%、87.63%、98.05%。基于統(tǒng)計機(jī)器學(xué)習(xí)的實體抽取獲得了較好的結(jié)果,但是該方法需要人工選擇的特征作為模型輸入,實體抽取的效果嚴(yán)重依賴特征選取,且模型的泛化能力不強(qiáng)。
1.1.3? 基于深度學(xué)習(xí)的實體抽取
深度學(xué)習(xí)技術(shù)成為研究命名實體識別問題的熱點(diǎn)方法,能夠有效地解決人工選擇特征的不足和高維向量空間帶來的數(shù)據(jù)稀疏問題。近年來,基于深度學(xué)習(xí)的實體抽取主要思路是,首先采用字粒度、詞粒度或者混合粒度將文本進(jìn)行向量表示,然后用長短期記憶網(wǎng)絡(luò)(LSTM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)等網(wǎng)絡(luò)進(jìn)行文本的語言特征提取,最后用條件隨機(jī)場(CRF)輸出最優(yōu)標(biāo)簽序列。如Huang Z等[18]首次提出融合LSTM和CRF的端到端的命名實體識別模型,與基線方法相比,該方法具有較強(qiáng)的魯棒性,對詞語特征工程的依賴性較小。在此基礎(chǔ)上,Lample G等[19]提出兩種命名實體識別模型:一種是基于雙向LSTM和CRF的命名實體識別模型,一種是基于轉(zhuǎn)移的命名實體識別模型,在沒有人工處理特征和地名錄的前提下,英語、荷蘭語、德語和西班牙語數(shù)據(jù)集上均取得較好的結(jié)果。Zhang Y等[20]提出基于Lattice LSTM的中文命名實體識別模型,該模型對輸入字符序列和所有匹配詞典的潛在詞匯進(jìn)行編碼。與基于字符的方法相比,該模型顯性地利用詞和詞序信息,與基于詞的方法相比,Lattice LSTM不會出現(xiàn)分詞錯誤。在多個數(shù)據(jù)集上證明Lattice LSTM方法優(yōu)于基于詞和基于字符的LSTM命名實體識別方法。目前,大部分神經(jīng)網(wǎng)絡(luò)都是使用Word2Vec和Glove工具訓(xùn)練詞向量,所得到的詞向量沒有考慮詞序?qū)υ~義的影響,Google在2018年10月發(fā)布BERT語言表示模型,在各項自然語言處理任務(wù)中都取得了最先進(jìn)的結(jié)果。王子牛等[21]提出基于BERT的中文命名實體方法,首先用BERT訓(xùn)練大量未標(biāo)注語料,得到抽象的語義特征,然后結(jié)合LSTM-CRF神經(jīng)網(wǎng)絡(luò),該方法在《人民日報》數(shù)據(jù)集上的F1值達(dá)到94.86%。此外,深度學(xué)習(xí)方法還被廣泛應(yīng)用于歷史事件名抽取[22]、電子病歷實體抽取[23]、商業(yè)領(lǐng)域?qū)嶓w抽取[24]、在線醫(yī)療實體抽取[25]等應(yīng)用場景。值得說明的是,基于深度學(xué)習(xí)的實體抽取方法,在英語和中文等高資源語言中取得很好的效果;對于維吾爾語、蒙古語等低資源語言,實體抽取的效果有待提高。
1.2? 跨語言情境下的實體抽取研究
跨語言的實體抽取主要目標(biāo)是提升低資源語言的命名實體識別效果。值得說明的是,跨語言實體抽取不能理解為“單語言實體抽取”與“機(jī)器翻譯”的簡單拼接。從研究現(xiàn)狀來看,目前主要包括以下兩點(diǎn):一是基于標(biāo)簽數(shù)據(jù)遷移的跨語言實體抽取;二是利用基于語言獨(dú)立特征遷移的跨語言實體抽取。
1.2.1? 基于標(biāo)簽遷移的跨語言實體抽取
基于標(biāo)簽遷移的跨語言實體抽取是指利用平行語料或者雙語詞典將源語言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語言,并在目標(biāo)語言上建立實體抽取模型以完成實體識別任務(wù)。在基于平行語料的跨語言實體抽取方面,Ni J等[26]提出一種基于弱監(jiān)督的跨語言命名實體識別方法,首先建立英語實體抽取模型,得到英語實體標(biāo)簽;然后通過包含對齊信息的平行語料庫,實現(xiàn)英語與目標(biāo)語言句子的對齊,并將英語的標(biāo)簽映射給目標(biāo)語言;最后建立目標(biāo)語言的實體抽取模型。其研究結(jié)果表明,目標(biāo)語言實體抽取的效果好壞取決于英語實體抽取模型和平行語料庫在詞匯句子層面的對齊程度。徐廣義等[27]為了解決柬埔寨語實體標(biāo)簽語料稀缺和命名實體缺乏明顯標(biāo)識特征的問題,根據(jù)英語和柬埔寨語的平行語料來構(gòu)造雙語圖,獲取柬埔寨語的實體類別分布特征,顯著提高了柬埔寨語的命名實體識別的性能。上述實驗結(jié)果表明,通過平行語料庫將源語言標(biāo)簽遷移給低資源語言,能夠有效提升低資源語言的命名實體識別效果。值得說明的是,由于構(gòu)建平行語料庫需要耗費(fèi)較多的人力,所以從一定程度上限制了該方法的推廣性。
在基于雙語詞典的跨語言實體抽取方面,Mayhew S等[28]利用“廉價”雙語詞典,將一種或幾種高資源語言中可用的標(biāo)簽數(shù)據(jù)“翻譯”為目標(biāo)語言,并在廉價詞典的基礎(chǔ)上加入維基百科特征,顯著提高目標(biāo)語言實體抽取的效果?;诹畠r詞典的方法,其效果在很大程度上取決于雙語詞典的規(guī)模和質(zhì)量,由于人工構(gòu)建雙語詞典具有一定的困難,在處理真正低資源語言的命名實體識別問題上具有局限性。Xie J等[29]為了減少對人工構(gòu)建雙語詞典的依賴,用種子詞典進(jìn)行詞典規(guī)約得到包含更多單詞對的雙語詞典,將源語言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語言;為了提高數(shù)據(jù)遷移過程中語序的魯棒性,在神經(jīng)網(wǎng)絡(luò)模型中加入自注意力機(jī)制,在西班牙語、荷蘭語和德語數(shù)據(jù)集上取得了較好的結(jié)果。與此類似,Ehrmann M等[30]嘗試在沒有任何平行語料庫的情況下構(gòu)建雙語詞典,通過無監(jiān)督的方式對齊單語單詞嵌入空間。值得說明的是,利用雙語詞典進(jìn)行標(biāo)簽映射存在標(biāo)簽映射錯誤問題。為解決該問題,吳煥欽[31]提出一種基于軟對齊的跨語言命名實體識別方法,通過建立跨語言神經(jīng)網(wǎng)絡(luò)模型,其中源語言句子、源語言標(biāo)簽和目標(biāo)語言句子均用于預(yù)測目標(biāo)語言的命名實體標(biāo)簽,從而實現(xiàn)源語言到目標(biāo)語言的標(biāo)簽遷移,充分利用了源語言和目標(biāo)語言的上下文信息??偟膩碚f,一方面,基于雙語詞典的跨語言實體抽取方法擺脫了對于雙語平行語料的限制,因而具有更廣泛的應(yīng)用;另一方面,如何減少對人工構(gòu)建雙語詞典的依賴(即在處理低資源語言時能夠準(zhǔn)確、自動、快速地構(gòu)建雙語詞典),又成為新的瓶頸問題。
1.2.2? 基于語言獨(dú)立特征遷移的跨語言實體抽取
基于語言獨(dú)立特征遷移的跨語言實體抽取是指在一種語言上通過語言獨(dú)立特征訓(xùn)練出模型,然后將模型直接遷移給其他語言。依照語言獨(dú)立特征的不同,可以分為詞簇特征、音韻特征、維基百科特征和共享詞向量特征等。在詞簇特性方面,“詞簇”(Word Cluster)是指文本中2個或2個以上的詞形以固定的組合關(guān)系(或位置)重復(fù)同現(xiàn)[32-33]。Tackstrom O等[34]將具有語言獨(dú)立性的詞簇特征加入直接遷移系統(tǒng)中,實現(xiàn)從英語到目標(biāo)語言的語言結(jié)構(gòu)遷移,在依賴句法分析和命名實體識別任務(wù)中,系統(tǒng)相對誤差分別減少13%和26%。在上述研究的基礎(chǔ)上,Tackstrom O[35]在命名實體識別任務(wù)中,通過加入多種源語言的詞簇特征,并結(jié)合自訓(xùn)練學(xué)習(xí)目標(biāo)語言的獨(dú)立特征,顯著提高目標(biāo)語言實體抽取的效果。在音韻特征方面,Bharadwaj A等[36]提出一種加入音韻特征的神經(jīng)網(wǎng)絡(luò)模型,并結(jié)合自注意機(jī)制學(xué)習(xí)關(guān)注更有效的字符,預(yù)訓(xùn)練的模型能夠很好地適應(yīng)標(biāo)注語料少甚至沒有標(biāo)注語料的目標(biāo)語言中。在維基百科特征方面,Tsai C T等[37]將單詞和短語鏈接到維基百科中的條目,并使用頁面類別作為語言獨(dú)立特征,實驗表明,維基百科特征可有效提高命名實體識別的性能。在共享詞向量特征方面,Ni J等[26]將源語言和目標(biāo)語言的詞向量投影到共享空間,將共享空間中的詞向量作為語言獨(dú)立特征,在源語言上訓(xùn)練模型并將其直接應(yīng)用到目標(biāo)語言中,實驗表明該方法優(yōu)于之前最先進(jìn)的方法,并且縮小了與監(jiān)督學(xué)習(xí)的差距??傮w而言,基于語言獨(dú)立特征遷移的方法,可以有效地將源領(lǐng)域的預(yù)訓(xùn)練模型遷移給目標(biāo)語言,提高了模型在不同語言間的自適應(yīng)性,但是該方法仍需要一定量的目標(biāo)語言標(biāo)注語料,對于真正低資源語言來說,具有一定的局限性。
值得說明的是,目前基于深度學(xué)習(xí)的實體抽取模型,較多地集中在單語言數(shù)據(jù)集上。在跨語言實體抽取任務(wù)上,一方面,由于機(jī)器翻譯并不能完全解決標(biāo)注語料缺乏的問題;另一方面,基于標(biāo)簽遷移的跨語言實體抽取較多地依賴于平行語料或雙語詞典的自動構(gòu)建,這使得命名實體識別的效果提升仍然面臨諸多挑戰(zhàn)。如何有效地將源語言豐富的標(biāo)注語料遷移給目標(biāo)語言,成為當(dāng)前亟待解決的研究問題。鑒于此,本文提出融合標(biāo)簽遷移學(xué)習(xí)和深度學(xué)習(xí)的跨語言命名實體識別框架。一方面,探究不同的標(biāo)簽映射方式和深度學(xué)習(xí)方法對跨語言命名實體抽取系統(tǒng)的影響;另一方面,探究遷移的數(shù)據(jù)量、雙語詞典規(guī)模和相似度計算方式對跨語言實體抽取系統(tǒng)的影響,以期為跨語言實體抽取相關(guān)研究提供借鑒。
2? 研究框架與方法
2.1? 研究問題
本文旨在探究跨語言情境下的實體抽取問題,參照Feng X等[38]關(guān)于低資源語言命名實體識別的研究,我們將英語假定為高資源的源語言,西班牙語和荷蘭語為低資源的目標(biāo)語言(即完全沒有實體標(biāo)注語料,只有少量或者完全沒有雙語詞典),利用跨語言知識在源語言和目標(biāo)語言之間建立橋梁,將源語言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語言,得到目標(biāo)語言的訓(xùn)練集,然后建立目標(biāo)語言的命名實體識別模型。具體而言,本文在特定的數(shù)據(jù)集上探究以下問題:①在跨語言實體抽取任務(wù)中,如何有效地將資源豐富語言中的標(biāo)簽遷移到低資源語言中?在有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)中,哪一種遷移方法更為有效?②在跨語言標(biāo)簽遷移的基礎(chǔ)上,如何將深度學(xué)習(xí)正確地應(yīng)用于命名實體識別模型?在卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)、長短時記憶網(wǎng)絡(luò)模型(LSTM)和門控循環(huán)單元(GRU)等神經(jīng)網(wǎng)絡(luò)模型中,哪一種更為有效?③在跨語言實體抽取任務(wù)中,如何合理地確定源語言訓(xùn)練數(shù)據(jù)的規(guī)模?源語言訓(xùn)練數(shù)據(jù)的規(guī)模是否越大越好?④如何合理地確定源語言和目標(biāo)語言雙語詞典的規(guī)模?雙語詞典的規(guī)模是否越大越好?⑤在跨語言實體抽取任務(wù)中,如何選擇合理的相似度方法來計算源語言和目標(biāo)語言的對應(yīng)翻譯?
2.2? 研究框架
本文提出跨語言實體抽?。–ross-Lingual Entity Extraction,CLEE)框架,如圖1所示,該框架由跨語言標(biāo)簽映射模塊和命名實體識別模塊構(gòu)成。標(biāo)簽映射模塊中,根據(jù)生成雙語詞典是否需要種子詞典,將標(biāo)簽映射模塊分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩類,實現(xiàn)從源語言到目標(biāo)語言的標(biāo)簽遷移,其中有監(jiān)督學(xué)習(xí)包括簡單詞典翻譯和擴(kuò)展詞典翻譯;無監(jiān)督學(xué)習(xí)包括自學(xué)習(xí)詞典翻譯。在命名實體識別模塊,對目標(biāo)語言建立基于深度學(xué)習(xí)的實體抽取模型。
2.3? 跨語言標(biāo)簽映射模塊
2.3.1? 簡單詞典翻譯
相對于平行語料庫而言,雙語詞典是一種豐富且廉價的資源,將直接通過雙語詞典得到目標(biāo)語言標(biāo)簽數(shù)據(jù)的方法稱為簡單詞典翻譯。該方法的主要思路是從Github網(wǎng)站下載Facebook官方提供的源語言和目標(biāo)語言高度對齊的雙語詞典[39],通過雙語詞典將源語言的單詞翻譯成目標(biāo)語言,并將源語言的標(biāo)簽數(shù)據(jù)直接映射給目標(biāo)語言,得到帶標(biāo)簽的目標(biāo)語言訓(xùn)練集;然后根據(jù)雙語詞典得到的目標(biāo)語言訓(xùn)練集,建立深度學(xué)習(xí)的命名實體識別模型。
2.3.2? 詞典擴(kuò)展翻譯
對于低資源的語言,當(dāng)雙語詞典資源也很稀缺的情況下,可以利用種子詞典進(jìn)行詞典擴(kuò)展翻譯。具體思路如下:首先通過種子詞典學(xué)習(xí)源語言和目標(biāo)語言詞向量之間的正交性矩陣W,通過正交性映射將源語言和目標(biāo)語言的詞向量映射到同一向量空間;其次是進(jìn)行詞典規(guī)約(Lexicon Induction)[40],將預(yù)訓(xùn)練的源語言和目標(biāo)語言詞向量通過相似性局部縮放(CSLS)[40],得到包含更多單詞對的雙語詞典;最后利用擴(kuò)展后的雙語詞典,將源語言的單詞翻譯成目標(biāo)語言,并將源語言的標(biāo)簽直接映射給目標(biāo)語言,得到目標(biāo)語言的訓(xùn)練數(shù)據(jù)集。
正交性映射的基本原理是假設(shè)有一個種子詞典D={xi,yi}(i=1,2,…,d),其中xi為源語言的詞向量,yi為對應(yīng)目標(biāo)語言的詞向量,共有d個單詞對。通過迭代訓(xùn)練式(1)得到正交性矩陣W,正交性矩陣W保證映射前和映射后的詞向量方差保持不變。
minw=Wxi-yi2s.t.WWT=I(1)
相似性局部縮放(CSLS)的基本原理是源語言和目標(biāo)語言的詞向量通過正交矩陣W映射到同一空間后,根據(jù)最近鄰找出同一向量空間下,目標(biāo)語言詞向量Y對應(yīng)源語言詞向量WX的翻譯。余弦相似度可以計算源語言詞向量WX和目標(biāo)語言詞向量Y之間的相似性,余弦值越大,說明源語言對應(yīng)的目標(biāo)語言翻譯越正確。但該方法存在Hubness問題,即最近鄰是非對稱的,目標(biāo)語言詞向量Y是源語言詞向量WX的最近鄰,但源語言詞向量WX不是目標(biāo)語言詞向量Y的最近鄰。鑒于此,本文采用相似性局部縮放(CSLS)方法,計算公式如式(2)和式(3)所示:
CSLS(WXs,Yt)=2cos(WXs,Yt)-rT(WXs)-rs(Yt)(2)
rT(WXs)=1K∑Yt∈ηT(s)cos(WXs,Yt), rs(Yt)=1K∑WXs∈ηS(t)cos(WXs,Yt)(3)
rT(WXs)和rs(Yt)用于度量每個源語言和目標(biāo)語言單詞的Hubness問題的嚴(yán)重程度,如果一個單詞和另外一種語言的單詞都很接近,則r值就很高,那么CSLS(WXs,Yt)的值會變小。
2.3.3? 自學(xué)習(xí)詞典翻譯
詞典擴(kuò)展翻譯依賴于小型種子詞典,采用有監(jiān)督的方法學(xué)習(xí)源語言和目標(biāo)語言之間的映射矩陣。但對于真正低資源的語言,當(dāng)源語言和目標(biāo)語言之間不存在雙語詞典的情況下,利用不同語言的等價詞具有相似性分布的原理,進(jìn)行無監(jiān)督的自學(xué)習(xí)詞典翻譯[41]。具體分3個步驟:
第一步:詞向量的標(biāo)準(zhǔn)化。首先根據(jù)維度歸一化源語言詞向量X和目標(biāo)語言詞向量Y;然后均值中心化每個維度;最后重復(fù)維度歸一化處理步驟。
第二步:完全無監(jiān)督的初始化。利用標(biāo)準(zhǔn)化后的源語言和目標(biāo)語言詞向量去構(gòu)建初始化詞典D,詞典D的行是來自于源語言X的單詞(X1,X2,…,Xi,…);列是來自于目標(biāo)語言Y的單詞(Y1,Y2,…,Yi,…),如果Y中的第j個詞是X中的第i個詞的翻譯,則Dij=1;否則Dij=0。由于X和Y是兩種不同語言訓(xùn)練得到的詞向量矩陣,無論是第i個單詞Xi*和Yi*,還是第j個維度X*j和Y*j,它們之間都不是對齊的,故用相似矩陣替代詞向量矩陣:MX=XXT和MY=YYT。對相似性矩陣的每一行都進(jìn)行排序,在嚴(yán)格的等距條件下,排序后不同語言中相等的詞會得到相同的向量。因此給出sorted(MX)中的任意一行,都可以在sorted(MY)中找到最相近的一行,從而找到對應(yīng)詞的翻譯。
D=D11D12……
D21D22……
……Dij…
…………(4)
第三步:自學(xué)習(xí)訓(xùn)練過程。通過最大化當(dāng)前字典D的相似性來計算最優(yōu)正交映射WX和WY,計算公式如式(5)所示;并在映射后的詞向量相似矩陣上計算最優(yōu)的詞典D,映射后的詞向量相似矩陣為XWXWTZZT,如果j=argmaxk(Xi*WX)·(Yj*WY),則Dij=1,否則Dij=0。不斷地重復(fù)上述訓(xùn)練步驟直到收斂。
argmaxWX,WY∑i∑jDij((Xi*WX)·(Yj*WY))(5)
2.4? 命名實體識別模塊
目標(biāo)語言的命名實體識別可看作是序列標(biāo)注問題,輸入序列為X={x1,x2,…,xn},xi為該序列中的第i個單詞;輸出是與X相對應(yīng)的標(biāo)簽序列Y={y1,y2,…,yn},yi為第i個單詞的標(biāo)簽。本文的詞表示編碼器使用雙向LSTM神經(jīng)網(wǎng)絡(luò),可充分利用單詞的上下文信息;解碼器使用CRF,常見的解碼器有CRF、HMM和MEMMs,而解碼器CRF能夠計算整個標(biāo)記序列的聯(lián)合概率分布,是在全局范圍統(tǒng)計歸一化,標(biāo)簽預(yù)測的效果較好。故該部分實驗主要為了比較不同的字符編碼器對目標(biāo)語言的命名實體識別模型的影響。命名實體識別模塊的框架如圖2所示。
圖2? 命名實體識別模塊架構(gòu)圖
通過標(biāo)簽映射模塊,得到目標(biāo)語言的訓(xùn)練集,對目標(biāo)語言建立基于深度學(xué)習(xí)的命名實體識別模型。該模型包括編碼和解碼兩個環(huán)節(jié),在編碼環(huán)節(jié),首先采用門控循環(huán)單元(GRU)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)或者雙向長短期記憶模型(LSTM)得到每個單詞的字符向量;然后通過加載預(yù)訓(xùn)練的詞向量或者用Word2Vec工具訓(xùn)練維基百科語料庫得到每個單詞的詞向量;接著將每個單詞的詞向量Wword和字符向量Cword串聯(lián)得到聯(lián)合向量表示Eword;最后采用長短期記憶模型(LSTM)獲取每個單詞的上下文特征。在解碼環(huán)節(jié),通過條件隨機(jī)場(CRF)分析句子中標(biāo)簽之間的制約關(guān)系,加入標(biāo)簽轉(zhuǎn)移概率矩陣,給出全局最優(yōu)標(biāo)簽序列。
2.4.1? 字符編碼器(CNN/GRU/LSTM神經(jīng)網(wǎng)絡(luò))
英語、西班牙語和荷蘭語的單詞都具有豐富的形態(tài)信息,如單詞的前綴和后綴等,這些信息能夠為命名實體識別任務(wù)提供有價值的信息,顯著提高標(biāo)簽預(yù)測的效果。此外,研究表明,單詞拼寫對詞性標(biāo)注和語言建模等任務(wù)中的未登錄詞有很大的幫助。為了使單詞表示對拼寫敏感,本文采用字符編碼器提取單詞中的字符信息,探究以下3種字符編碼器,即卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)和門控循環(huán)單元(GRU)在命名實體識別上的效果。
2.4.2? 詞表示編碼器(LSTM神經(jīng)網(wǎng)絡(luò))
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在訓(xùn)練過程中通常會出現(xiàn)梯度消失或梯度爆炸的情況,為了解決這個問題,長短期記憶網(wǎng)絡(luò)(LSTM)應(yīng)運(yùn)而生,LSTM能很好地提升模型的長距離依賴的性能。LSTM和一般RNN的區(qū)別在于,LSTM增加了一個存儲器塊單元A,這個存儲器塊A包括3部分:輸入門、遺忘門和輸出門。輸入門決定有多少新信息需要加入單元中,遺忘門主要用于控制單元內(nèi)信息的存儲,即決定丟棄什么信息,輸出門是確定該單元A要輸出什么信息。
2.4.3? 條件隨機(jī)場(CRF)解碼器
Bi-LSTM層輸出每個單詞對應(yīng)的各個標(biāo)簽的預(yù)測分值,可以挑選分值最高的作為單詞的標(biāo)簽,但經(jīng)常會出現(xiàn)一些不合法的標(biāo)簽序列。故在Bi-LSTM層的基礎(chǔ)上加CRF層,CRF層能從訓(xùn)練數(shù)據(jù)中得到約束性規(guī)則,例如句子第一個單詞以B/O開頭,而不能從I開頭;在B-label1和I-label2中,label1和label2要同類型;O和I-label不能組合在一起。標(biāo)簽序列中非法序列出現(xiàn)的概率大大降低,從而提高標(biāo)簽預(yù)測的準(zhǔn)確性。
對于輸入句子X={x1,x2,…,xn},對應(yīng)的輸出標(biāo)簽為Y={y1,y2,…,yn}。該標(biāo)簽序列的計算得分為:
s(X,Y)=∑ni=0Ayi,yi+1+∑ni=0Pi,yi(6)
其中,P是Bi-LSTM的輸出得分矩陣,P的大小是n*k,k是不同標(biāo)簽的數(shù)目,Pi,j是代表第i個單詞標(biāo)記為第j個標(biāo)簽的得分。A是轉(zhuǎn)移得分矩陣,Ai,j是同一句子中由標(biāo)簽i到標(biāo)簽j的轉(zhuǎn)移分?jǐn)?shù)。矩陣A是大小為k+2的正方形矩陣,k是標(biāo)簽的個數(shù)。對這個分?jǐn)?shù)進(jìn)行指數(shù)化和標(biāo)準(zhǔn)化,可以得到標(biāo)注序列y的概率值p(y|X)。
p(y|X)=es(X,Y)∑∈YXes(X,)(7)
在式(7)中,YX表示句子X的所有可能的標(biāo)簽輸出序列。
3? 實驗結(jié)果與討論
3.1? 數(shù)據(jù)集
本次實驗中,以英語作為源語言,數(shù)據(jù)來源于CoNLL2003公開數(shù)據(jù)集[42];以西班牙語和荷蘭語為目標(biāo)語言,數(shù)據(jù)來源于CoNLL2002公開數(shù)據(jù)集[43]。3種語言的訓(xùn)練集、驗證集和測試集已劃分好。例如,英語的訓(xùn)練集、驗證集和測試集中分別包含單詞數(shù)為204 567個、51 587個和46 666個。具體統(tǒng)計如表1所示。
3種語言均使用BIO標(biāo)注法,其中,B表示實體詞的開始,I表示實體詞的內(nèi)部,O表示實體詞的外部(不是實體詞),在B和I的后接實體類型以區(qū)分不同的實體。CoNLL2003和CoNLL2002數(shù)據(jù)集包含4種類型的實體,分別為人名(Person)、地名(Location)、機(jī)構(gòu)名(Organization)和其他實體(Miscellaneous)。例如:
3.2? 實驗及參數(shù)設(shè)置
為探究本文提出的研究問題,在跨語言命名實體識別的任務(wù)中,將比較標(biāo)簽映射方式、命名實體識別方法、遷移數(shù)據(jù)量的大小、雙語詞典的大小以及求最近鄰的方法5個因素對跨語言命名實體識別系統(tǒng)的影響,相關(guān)實驗設(shè)置如表3所示。
在命名實體識別算法中,從向量維度、訓(xùn)練設(shè)置和超參數(shù)3個方面設(shè)置相關(guān)參數(shù),遵循以下原則:一是可比性,即不同模型的參數(shù)設(shè)置最大可能具有一致性,如保持相同的詞向量維度和字符向量維度等;二是兼顧可用性和效率性,參照相關(guān)研究工作的參數(shù)設(shè)置[44],使得模型有較好的實體抽取效果,并盡可能地減少存儲空間的開銷和運(yùn)行時間的耗費(fèi)。具體參數(shù)設(shè)置如表4所示。
3.3? 基線方法
本文提出融合自學(xué)習(xí)詞典翻譯和GRU-LSTM-CRF網(wǎng)絡(luò)的實體抽取方法,為了檢驗該方法的有效性,假定英語為高資源語言,西班牙語和荷蘭語為低資源語言(完全沒有實體標(biāo)注語料)。跨語言標(biāo)簽映射模塊中,以簡單詞典翻譯、詞典擴(kuò)展翻譯為基線方法;命名實體識別模塊中,以CRF、CNN-LSTM-CRF、LSTM-LSTM-CRF為基線方法。具體來說,將所提出的方法與11種基線方法進(jìn)行比對,如表5所示。
3.4? 本文方法與基線方法的對比實驗
在本文方法與基線方法的對比中,以英語為源語言、西班牙語和荷蘭語為目標(biāo)語言,探究跨語言實體抽取(CLEE)框架的有效性。具體而言,在跨語言標(biāo)簽映射模塊,通過雙語詞典將英語的CoNLL2003訓(xùn)練集遷移給西班牙語和荷蘭語,得到目標(biāo)語言的訓(xùn)練集。在命名實體識別模塊,用遷移的目標(biāo)語言訓(xùn)練集訓(xùn)練命名實體識別模型,并用西班牙語和荷蘭語的CoNLL2002驗證集和測試集對模型進(jìn)行驗證和評估。統(tǒng)計出實驗結(jié)果的準(zhǔn)確率(P)、召回率(R)和F1值,具體實驗結(jié)果如表6和表7所示。
由表6可以看出,在“英語-西班牙語”數(shù)據(jù)集上,本文所提出的“自學(xué)習(xí)詞典翻譯+GRU-LSTM-CRF網(wǎng)絡(luò)”的實體抽取效果優(yōu)于其他基線方法,F(xiàn)1值達(dá)到0.6419。具體地,比較不同標(biāo)簽映射方式對實驗結(jié)果的影響,固定命名實體識別模型為GRU-LSTM-CRF,得出自學(xué)習(xí)詞典翻譯效果最好,F(xiàn)1值為0.6419;其次為簡單詞典翻譯,F(xiàn)1值為0.6369;詞典擴(kuò)展翻譯排在最后,F(xiàn)1值為0.6299。
比較不同命名實體識別模型對實驗結(jié)果的影響,在不同的標(biāo)簽映射方法中,CRF模型實體抽取的效果均遠(yuǎn)遠(yuǎn)低于基于深度學(xué)習(xí)的實體抽取方法;當(dāng)標(biāo)簽映射方式為簡單詞典翻譯時,GRU-LSTM-CRF取得了最優(yōu)結(jié)果,F(xiàn)1值為0.6369,比CNN-LSTM-CRF和LSTM-LSTM-CRF的F1值分別高0.028和0.027;當(dāng)標(biāo)簽映射方式為詞典擴(kuò)展翻譯時,GRU-LSTM-CRF取得了最優(yōu)結(jié)果(0.6299),CNN-LSTM-CRF次之(0.6226),LSTM-LSTM-CRF結(jié)果最差(0.5930);當(dāng)標(biāo)簽映射方式為自學(xué)習(xí)詞典翻譯時,同樣是GRU-LSTM-CRF的方法效果最好,比CNN-LSTM-CRF和LSTM-LSTM-CRF大約高了4個百分點(diǎn)。
由表7可以看出,在“英語-荷蘭語”數(shù)據(jù)集上,本文所提出的“自學(xué)習(xí)詞典翻譯+GRU-LSTM-CRF網(wǎng)絡(luò)”的實體抽取效果同樣優(yōu)于其他基線方法,F(xiàn)1值達(dá)到0.6557。具體地,比較不同標(biāo)簽映射方式對實驗結(jié)果的影響,固定命名實體識別模型為GRU-LSTM-CRF,得出自學(xué)習(xí)詞典翻譯取得最好的效果,F(xiàn)1值為0.6557,比簡單詞典翻譯和詞典擴(kuò)展翻譯分別高0.017和0.011。
比較不同命名實體識別模型對實驗結(jié)果的影響,在不同的標(biāo)簽映射方法中,CRF模型實體抽取的效果均遠(yuǎn)遠(yuǎn)低于基于深度學(xué)習(xí)的實體抽取方法;當(dāng)標(biāo)簽映射方式為簡單詞典翻譯時,CNN-LSTM-CRF取得了最優(yōu)結(jié)果,F(xiàn)1值為0.6484,LSTM-LSTM-CRF次之(0.6420),GRU-LSTM-CRF最差(0.6388);當(dāng)標(biāo)簽映射方式為詞典擴(kuò)展翻譯時,GRU-LSTM-CRF取得了最優(yōu)結(jié)果(0.6451),比CNN-LSTM-CRF和LSTM-LSTM-CRF大約高了3個百分點(diǎn)。當(dāng)標(biāo)簽映射方式為自學(xué)習(xí)詞典翻譯時,CNN-LSTM-CRF、LSTM-LSTM-CRF和GRU-LSTM-CRF 3種實體抽取方法的F1分別為0.6549、0.6481和0.6557,實驗效果上整體相差不大。
綜合表6和表7來看,自學(xué)習(xí)詞典翻譯在跨語言標(biāo)簽映射中具有一定優(yōu)勢。作為一種無監(jiān)督的標(biāo)簽映射方法,自學(xué)習(xí)詞典翻譯方法不需要雙語種子詞典,而是根據(jù)源語言和目標(biāo)語言的分布形態(tài)生成雙語詞典。當(dāng)目標(biāo)語言完全沒有標(biāo)注語料,且源語言和目標(biāo)語言之間沒有雙語詞典時,可通過該方法得到比簡單詞典翻譯和詞典擴(kuò)展翻譯更好的實驗結(jié)果。此外,CRF統(tǒng)計模型的實體抽取效果遠(yuǎn)遠(yuǎn)低于基于深度學(xué)習(xí)的實體抽取模型;GRU-LSTM-CRF模型與其余兩種深度學(xué)習(xí)模型相比較,在大多數(shù)情況下GRU字符編碼器表現(xiàn)更好,可能是因為GRU的結(jié)構(gòu)比LSTM更加簡單,GRU能更快地趨于收斂,并且所需的Epoch次數(shù)更少,這使得迭代次數(shù)一致的情況下,GRU取得了更好的結(jié)果。
從實驗結(jié)果和實際情況的比照來看,本文提出的“自學(xué)習(xí)詞典翻譯+GRU-LSTM-CRF”方法在不同的評價指標(biāo)下均取得較好的結(jié)果,在多數(shù)情況下能夠較好地識別出實體,但仍存在少數(shù)與實際情況不一致的結(jié)果。例如,在西班牙語句子“Sao Paulo(Brasil),23 May(EFECOM)”中,單詞“Sao Paulo”的中文含義為“圣保羅”,被人工標(biāo)注為地名,而實驗結(jié)果將其判定為人名。通過對原始語料進(jìn)行比對,發(fā)現(xiàn)在英語訓(xùn)練集中,單詞“Sao Paulo”的實體標(biāo)簽存在地名和人名兩種情況,由于待識別語句長度較短(上下文信息并不充分),可能導(dǎo)致分類錯誤。再如,在荷蘭語句子“In Viangros Kan Het Vlees,in Welke Fase Van Het Productieproces Het Zich Ook Bevindt,Perfect Getraceerd Worden Aan De Hand Van Een Etiket”(譯為“在Viangros,肉產(chǎn)品在生產(chǎn)過程任何階段都可以通過其標(biāo)簽被完美地追蹤”)中,單詞“Viangros”被人工標(biāo)注為組織機(jī)構(gòu)名,而實驗結(jié)果將其誤判為地名。通過對原始語料進(jìn)行比對,發(fā)現(xiàn)通過數(shù)據(jù)遷移得到的荷蘭語訓(xùn)練集中介詞“in”的上下文中存在較多地名,可能導(dǎo)致訓(xùn)練出的模型將單詞Viangros誤判為地名。
3.5? 擴(kuò)展實驗
擴(kuò)展實驗部分,本文探究從源語言遷移不同大小的訓(xùn)練集給目標(biāo)語言、雙語詞典大小以及計算最近鄰的方法對跨語言的命名實體識別模型的影響。
3.5.1? 源語言訓(xùn)練集大小對跨語言實體抽取效果的影響
標(biāo)簽映射方法為簡單詞典翻譯,命名實體識別模型為CNN-LSTM-CRF,雙語詞典的大小為8 000,比較遷移不同大小的訓(xùn)練集對命名實體識別的影響。實驗結(jié)果如表8和表9所示。
從表8和表9可以看出,總體而言,在目標(biāo)語言為西班牙語或荷蘭語時,隨著遷移訓(xùn)練集數(shù)量的不斷增加,F(xiàn)1值逐漸增加。具體而言。在源語言數(shù)據(jù)集規(guī)模由3 000增加到150 000時,F(xiàn)1值增加較為迅速;在達(dá)到150 000后,F(xiàn)1值增加開始放緩;
3.5.2? 雙語詞典大小對跨語言實體抽取效果的影響
從源語言遷移的訓(xùn)練集大小為180 000,標(biāo)簽映射方法為簡單詞典翻譯,命名實體識別模型為CNN-LSTM-CRF,比較不同雙語詞典大小對西班牙語命名實體識別的影響。其中雙語詞典大小為0時,實際是直接進(jìn)行模型的遷移,用英語訓(xùn)練集訓(xùn)練得到模型后,并在西班牙語和荷蘭語的驗證集和測試集上進(jìn)行驗證和評估。具體結(jié)果如表10和表11所示。
由表10和表11可知,在西班牙語數(shù)據(jù)集上,當(dāng)雙語詞典大小為8 000時,模型結(jié)果最優(yōu),F(xiàn)1值為0.6235;在荷蘭語數(shù)據(jù)集上,雙語詞典大小為10 000時結(jié)果最好,F(xiàn)1值為0.6484。總體上看,隨著雙語詞典大小的增加,F(xiàn)1值也不斷增加。
在一定范圍內(nèi),從源語言遷移到目標(biāo)語言的標(biāo)簽數(shù)據(jù)越大,雙語詞典越大,包含的跨語言的知識也越多,跨語言的命名實體識別系統(tǒng)的性能也就越好。
3.5.3? 相似度計算方法對跨語言實體抽取效果的影響
詞典擴(kuò)展翻譯和自學(xué)習(xí)詞典翻譯在生成雙語詞典時,都利用相似度來計算源語言和目標(biāo)語言的對應(yīng)翻譯。本文提出兩種相似度計算方法,分別為余弦相似度和相似性局部縮放(CSLS),比較這兩種標(biāo)簽映射方式中不同計算最近鄰的方法對西班牙語和荷蘭語命名實體識別的影響。實驗結(jié)果如表12和表13所示。
由表12和表13可知,在西班牙語和荷蘭語數(shù)據(jù)集上,當(dāng)遷移的訓(xùn)練集大小為180 000,命名實體識別的模型CNN-LSTM-CRF時,詞典擴(kuò)展翻譯和自學(xué)習(xí)詞典翻譯這兩種標(biāo)簽映射方式利用相似性局部縮放(CSLS)計算源語言和目標(biāo)語言的相似性,效果均優(yōu)于余弦相似度。CSLS可以計算不同語言間的單詞相似性,并且考慮了源語言和目標(biāo)語言的Hubness程度懲罰。比如當(dāng)某個單詞與另一種語言中的多個單詞相似時,該單詞的CSLS值會較小,可以有效抑制某些單詞是很多單詞的最近鄰的情況。
3.6? 討? 論
根據(jù)本文方法與基線方法的對比實驗和擴(kuò)展實驗的結(jié)果,我們對2.1中所提出的研究問題進(jìn)行探討。針對問題1“在跨語言實體抽取任務(wù)中,如何有效地將資源豐富語言中的標(biāo)簽遷移到低資源語言中?在有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)中,哪一種遷移方法更為有效?”,從不同標(biāo)簽映射方式對實驗結(jié)果的影響可以看出,在跨語言實體抽取任務(wù)中,使用不同的標(biāo)簽映射方式會在很大程度上影響模型效果。當(dāng)標(biāo)簽映射方式為簡單詞典翻譯,雙語詞典大小為10 000,通過雙語詞典將源語言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語言。當(dāng)標(biāo)簽映射方式為詞典擴(kuò)展翻譯時,首先雙語種子詞典的大小設(shè)為2 000,通過正交性映射和相似性局部縮放(CSLS),詞典擴(kuò)展到100 000個單詞對,將源語言的訓(xùn)練集遷移給為目標(biāo)語言。由于簡單詞典翻譯和詞典擴(kuò)展翻譯均為有監(jiān)督的標(biāo)簽映射方式,其標(biāo)簽映射的效果很大程度上依賴于雙語詞典的質(zhì)量和大小。而自學(xué)習(xí)詞典翻譯法是一種完全無監(jiān)督的標(biāo)簽映射方式,利用源語言和目標(biāo)語言的相似詞向量之間具有相似的分布特征,通過不斷地迭代訓(xùn)練生成包括100 000個單詞對的雙語詞典,將源語言的訓(xùn)練集遷移給為目標(biāo)語言。實驗表明,無監(jiān)督的自學(xué)習(xí)標(biāo)簽映射方法取得最好的效果。
針對問題2“在跨語言標(biāo)簽遷移的基礎(chǔ)上,如何將深度學(xué)習(xí)正確地應(yīng)用于命名實體識別模型?在卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)、長短時記憶網(wǎng)絡(luò)模型(LSTM)和門控循環(huán)單元(GRU)等神經(jīng)網(wǎng)絡(luò)模型中,哪一種更為有效?”,從不同命名實體識別模型對實驗結(jié)果的影響可以看出,采用不同的深度學(xué)習(xí)命名實體識別方法,對實驗結(jié)果產(chǎn)生不同的影響。分別采用CNN、LSTM和GRU 3種神經(jīng)網(wǎng)絡(luò)模型對字符向量進(jìn)行編碼,其中GRU神經(jīng)網(wǎng)絡(luò)的效果最好。雖然GRU神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)比較簡單,但仍然能夠取得相對較好的結(jié)果,表明在跨語言命名實體識別系統(tǒng)中,GRU-LSTM-CRF模型足以捕獲目標(biāo)語言的字符向量和詞向量信息。
針對問題3“在跨語言實體抽取任務(wù)中,如何合理地確定源語言訓(xùn)練數(shù)據(jù)的規(guī)模?源語言訓(xùn)練數(shù)據(jù)的規(guī)模是否越大越好?”,從不同大小的訓(xùn)練集對實驗結(jié)果的影響可以看出,在西班牙語和荷蘭語數(shù)據(jù)集上,當(dāng)固定雙語詞典大小不變,遷移的訓(xùn)練集大小在30 000~180 000之間,隨著遷移的訓(xùn)練集增大,跨語言命名實體識別的效果呈現(xiàn)上升趨勢。但是當(dāng)遷移的訓(xùn)練集大小為210 000時,F(xiàn)1值反而下降。由于遷移的訓(xùn)練集過大,但雙語詞典大小有限,得到的目標(biāo)語言訓(xùn)練集中的未登錄詞較多,從而影響跨語言命名實體識別系統(tǒng)的性能。因此,有必要合理地平衡雙語詞典大小和遷移標(biāo)簽數(shù)據(jù)二者的關(guān)系,使得跨語言命名實體識別系統(tǒng)達(dá)到最好的效果。
針對問題4“如何合理地確定源語言和目標(biāo)語言雙語詞典的規(guī)模?雙語詞典的規(guī)模是否越大越好?”,從不同雙語詞典大小對實驗結(jié)果的影響可以看出,隨著雙語詞典的詞數(shù)量增大,跨語言命名實體識別系統(tǒng)的性能越好。由于雙語詞典越大,包含源語言和目標(biāo)語言間信息越多,將源語言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語言的更加準(zhǔn)確。但是,隨著雙語詞典的不斷增加,跨語言命名實體識別的性能增長緩慢,故規(guī)模小但高度對齊的雙語詞典可有效提高跨語言命名實體識別的效果。此外,當(dāng)雙語詞典的大小為0時,是將源語言訓(xùn)練出的模型直接遷移到目標(biāo)語言,這種模型使用直接遷移的方法效果較差。
針對問題5“在跨語言實體抽取任務(wù)中,如何選擇合理的相似度方法來計算源語言和目標(biāo)語言的對應(yīng)翻譯?”,從不同計算最近鄰的方法對實驗結(jié)果的影響可以看出,在西班牙語和荷蘭語數(shù)據(jù)集上,詞典擴(kuò)展翻譯和自學(xué)習(xí)詞典翻譯兩種標(biāo)簽映射方式均利用相似性生成雙語詞典,因此在擴(kuò)展實驗部分,在詞典擴(kuò)展翻譯和自學(xué)習(xí)詞典翻譯中比較余弦相似度和CSLS兩種相似度計算方法對跨語言命名實體識別系統(tǒng)的影響。由于CSLS考慮了源語言和目標(biāo)語言單詞的Hubness程度懲罰,生成源語言和目標(biāo)語言間的雙語詞典對齊效果更好。
總體而言,與其他研究相比,本文所提出的框架具有以下優(yōu)勢:①相比于機(jī)器翻譯模型,本文較好地解決了由于詞匯語序被調(diào)整以及源語言詞匯被拆分或合并等所帶來的標(biāo)簽映射錯誤問題;②相比于基于平行語料的方法,本文方法節(jié)省了構(gòu)建平行語料所消耗的人力與時間;③相比于其他基于雙語詞典的方法,本文提出無監(jiān)督雙語詞典構(gòu)建模型,能夠更加便利地應(yīng)用于無標(biāo)注資源的小語種語言實體抽取。從理論上來看,當(dāng)目標(biāo)語言完全沒有標(biāo)注語料時,根據(jù)雙語詞典資源稀缺程度的不同,本文提出3種不同的標(biāo)簽映射方法。其中,針對一般低資源語言,可采用簡單詞典翻譯和詞典擴(kuò)展翻譯;對于完全無雙語詞典的語言,可采用自學(xué)習(xí)詞典翻譯。從實踐上來看,我們通過實證探究遷移的數(shù)據(jù)量、雙語詞典規(guī)模和相似度計算方式在跨語言實體抽取任務(wù)中的影響,對于跨語言實體抽取實踐具有借鑒作用。研究結(jié)果對于改進(jìn)跨語言情境下的知識獲取模型、促進(jìn)知識獲取研究等方面具有重要意義。
4? 結(jié)? 語
為了提升跨語言情境下低資源語言命名實體識別模型的性能,本文在跨語言實體抽?。–LEE)框架下,首先利用遷移學(xué)習(xí)的思想,將源語言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語言,然后利用深度學(xué)習(xí)的思想,建立目標(biāo)語言的命名實體識別模型。本文將標(biāo)簽映射模塊和命名實體識別模塊的不同方法進(jìn)行組合,并在西班牙語和荷蘭語數(shù)據(jù)集上進(jìn)行實證研究,論證了結(jié)合自學(xué)習(xí)詞典翻譯和GRU-LSTM-CRF網(wǎng)絡(luò)的無監(jiān)督跨語言實體抽取效果最好。實驗結(jié)果表明,通過利用跨語言知識在源語言和目標(biāo)語言之間建立橋梁,能顯著提升低資源語言實體抽取的效果。
受制于實驗條件,本文僅探究了與跨語言命名實體識別相關(guān)的5個問題。在后續(xù)研究中,將繼續(xù)探究以下問題:①如何進(jìn)一步優(yōu)化研究方法,持續(xù)改進(jìn)現(xiàn)有命名實體識別模型,使用BERT模型或者在模型中加入自注意力機(jī)制來提高跨語言命名實體識別的性能;②進(jìn)一步探究HowNet義原詞典、同義詞詞典以及反義詞詞典等語義工具對于跨語言命名實體識別效果的提升。
參考文獻(xiàn)
[1]孫鎮(zhèn),王惠臨.命名實體識別研究進(jìn)展綜述[J].現(xiàn)代圖書情報技術(shù),2010,(6):42-47.
[2]禤鎮(zhèn)宇,蔣盛益,張禮明,等.基于多特征Bi-LSTM-CRF的影評人名識別研究[J].中文信息學(xué)報,2019,33(3):94-101.
[3]魏勇,李鴻飛,胡丹露,等.一種基于復(fù)合特征的中文地名識別方法[J].武漢大學(xué)學(xué)報:信息科學(xué)版,2018,43(1):17-23.
[4]關(guān)曉炟,呂學(xué)強(qiáng),李卓,等.用戶查詢?nèi)罩局械闹形臋C(jī)構(gòu)名識別[J].現(xiàn)代圖書情報技術(shù),2014,(1):72-78.
[5]余麗,錢力,付常雷,等.基于深度學(xué)習(xí)的文本中細(xì)粒度知識元抽取方法研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(1):38-45.
[6]劉曉娟,劉群,余夢霞.基于關(guān)聯(lián)數(shù)據(jù)的命名實體識別[J].情報學(xué)報,2019,38(2):191-200.
[7]馬建霞,袁慧,蔣翔.基于Bi-LSTM+CRF的科學(xué)文獻(xiàn)中生態(tài)治理技術(shù)相關(guān)命名實體抽取研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,4(Z1):78-88.
[8]張琴,郭紅梅,張智雄.融合詞嵌入表示特征的實體關(guān)系抽取方法研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(9):8-15.
[9]鄂海紅,張文靜,肖思琪,等.深度學(xué)習(xí)實體關(guān)系抽取研究綜述[J].軟件學(xué)報,2019,30(6):1793-1818.
[10]丁晟春,侯琳琳,王穎.基于電商數(shù)據(jù)的產(chǎn)品知識圖譜構(gòu)建研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(3):45-56.
[11]安波,韓先培,孫樂.融合知識表示的知識庫問答系統(tǒng)[J].中國科學(xué):信息科學(xué),2018,48(11):1521-1532.
[12]范馨月,崔雷.基于文本挖掘的藥物副作用知識發(fā)現(xiàn)研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(3):79-86.
[13]Riaz K.Rule-based Named Entity Recognition in Urdu[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2010:126-135.
[14]Collins M,Singer Y.Unsupervised Models for Named Entity Classification[C]//Proceedings of Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora.Stroudsburg:ACL,1999:100-110.
[15]周昆.基于規(guī)則的命名實體識別研究[D].合肥:合肥工業(yè)大學(xué),2010.
[16]馮艷紅,于紅,孫庚,等.基于詞向量和條件隨機(jī)場的領(lǐng)域術(shù)語識別方法[J].計算機(jī)應(yīng)用,2016,36(11):3146-3151.
[17]李想,魏小紅,賈璐,等.基于條件隨機(jī)場的農(nóng)作物病蟲害及農(nóng)藥命名實體識別[J].農(nóng)業(yè)機(jī)械學(xué)報,2017,48(S1):178-185.
[18]Huang Z,Xu W,Yu K,et al.Bidirectional LSTM-CRF Models for Sequence Tagging[EB/OL].https://arxiv.org/abs/1508.01991,2020-03-16.
[19]Lample G,Ballesteros M,Subramanian S,et al.Neural Architectures for Named Entity Recognition[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2016:260-270.
[20]Zhang Y,Yang J.Chinese NER Using Lattice LSTM[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2018:1554-1564.
[21]王子牛,姜猛,高建瓴,等.基于BERT的中文命名實體識別方法[J].計算機(jī)科學(xué),2019,46(S2):138-142.
[22]唐慧慧,王昊,張紫玄,等.基于漢字標(biāo)注的中文歷史事件名抽取研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(7):89-100.
[23]李綱,潘榮清,毛進(jìn),等.整合BiLSTM-CRF網(wǎng)絡(luò)和詞典資源的中文電子病歷實體識別[J].現(xiàn)代情報,2020,40(4):3-12,58.
[24]丁晟春,方振,王楠.基于Bi-LSTM-CRF的商業(yè)領(lǐng)域命名實體識別[J].現(xiàn)代情報,2020,40(3):103-110.
[25]陳美杉,夏晨曦.肝癌患者在線提問的命名實體識別研究:一種基于遷移學(xué)習(xí)的方法[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(12):61-69.
[26]Ni J,Dinu G,F(xiàn)lorian R,et al.Weakly Supervised Cross-lingual Named Entity Recognition via Effective Annotation and Representation Projection[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2017:1470-1480.
[27]徐廣義,嚴(yán)馨,余正濤,等.融合跨語言特征的柬埔寨語命名實體識別方法[J].云南大學(xué)學(xué)報:自然科學(xué)版,2018,40(5):865-871.