• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于標(biāo)簽遷移和深度學(xué)習(xí)的跨語言實體抽取研究

    2020-12-17 03:31:33余傳明黃婷婷林虹君安璐
    現(xiàn)代情報 2020年12期
    關(guān)鍵詞:深度學(xué)習(xí)

    余傳明 黃婷婷 林虹君 安璐

    收稿日期:2020-05-31

    基金項目:國家自然科學(xué)基金面上項目“面向跨語言觀點(diǎn)摘要的領(lǐng)域知識表示與融合模型研究”(項目編號:71974202)。

    作者簡介:余傳明(1978-),男,教授,研究方向:數(shù)據(jù)挖掘、商務(wù)智能與信息檢索。黃婷婷(1995-),女,碩士研究生,研究方向:數(shù)據(jù)挖掘與信息檢索。林虹君(1995-),女,碩士研究生,研究方向:數(shù)據(jù)挖掘與信息檢索。安璐(1979-),女,教授,研究方向:可視化知識發(fā)現(xiàn)。

    摘? 要:[目的/意義]從跨語言視角探究如何更好地解決低資源語言的實體抽取問題。[方法/過程]以英語為源語言,西班牙語和荷蘭語為目標(biāo)語言,借助遷移學(xué)習(xí)和深度學(xué)習(xí)的思想,提出一種結(jié)合自學(xué)習(xí)和GRU-LSTM-CRF網(wǎng)絡(luò)的無監(jiān)督跨語言實體抽取方法。[結(jié)果/結(jié)論]與有監(jiān)督的跨語言實體抽取方法相比,本文提出的無監(jiān)督跨語言實體抽取方法可以取得更好的效果,在西班牙語上,F(xiàn)1值為0.6419,在荷蘭語上,F(xiàn)1值為0.6557。利用跨語言知識在源語言和目標(biāo)語言間建立橋梁,提升低資源語言實體抽取的效果。

    關(guān)鍵詞:知識獲取;實體抽取;跨語言;深度學(xué)習(xí);標(biāo)簽映射

    DOI:10.3969/j.issn.1008-0821.2020.12.001

    〔中圖分類號〕TP391? 〔文獻(xiàn)標(biāo)識碼〕A? 〔文章編號〕1008-0821(2020)12-0003-14

    Research on Cross-lingual Entity Extraction Based on

    Tag Transfer and Deep Learning

    Yu Chuanming1? Huang Tingting2? Lin Hongjun1? An Lu3

    (1.School of Information and Safety Engineering,Zhongnan University of Economics and Law,

    Wuhan 430073,China;

    2.School of Statistics and Mathematics,Zhongnan University of Economics and Law,Wuhan 430073,China;

    3.School of Information Management,Wuhan University,Wuhan 430072,China)

    Abstract:[Purpose/Significance]This paper explores how to better solve the entity extraction problem of low resource languages from a cross-lingual perspective.[Method/Process]With English as the source language,Spanish and Dutch as the target language,an unsupervised cross-lingual entity extraction method combining self-learning method and GRU-LSTM-CRF network is proposed based on the idea of transfer learning and deep learning.[Result/Conclusion]Compared with the supervised cross-lingual entity extraction method,the unsupervised cross-lingual entity extraction method proposed in this paper can achieve better results.In Spanish,the value of F1 is 0.6419,and in Dutch,the value of F1 is 0.6557.Cross-lingual knowledge is used to build a bridge between source language and target language to improve the effect of entity extraction of low-resource languages.

    Key words:knowledge acquisition;entity extraction;cross-lingual;deep learning;label mapping

    實體抽?。‥ntity Extraction,EE),又稱為命名實體識別(Name Entity Recognition,NER),是指識別文本中具有特定意義的實體[1],包括人名[2]、地名[3]、機(jī)構(gòu)名[4]和專有名詞[5-7]等。實體抽取在信息抽取的總體任務(wù)中起著至關(guān)重要的作用,有效識別命名實體,不僅是關(guān)系抽取[8-9]和構(gòu)建知識圖譜[10]的基礎(chǔ),而且可以顯著提高問答系統(tǒng)[11]和文本挖掘[12]等應(yīng)用的性能。隨著大數(shù)據(jù)的迅速發(fā)展,各種語料在不同語言中的分散化和多樣化日益嚴(yán)峻,跨語言情境下的實體抽取任務(wù)受到越來越多的關(guān)注。實體抽取任務(wù)在中文和英文等語言情境中,存在較為豐富的標(biāo)注語料,與此相關(guān)的實體抽取模型相對簡單;而在阿拉伯語和維吾爾語等語言情境中,標(biāo)注語料相對稀缺,存在標(biāo)簽語料很少和手工標(biāo)注標(biāo)簽昂貴且費(fèi)時等問題,與此相關(guān)的實體抽取模型相對復(fù)雜,面臨更多挑戰(zhàn)。在標(biāo)注語料豐富的源語言和標(biāo)注語料稀缺的目標(biāo)語言之間建立橋梁,將源語言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語言,以豐富目標(biāo)語言的標(biāo)簽數(shù)據(jù),通過建立跨語言的命名實體識別模型,提升低資源語言實體識別模型的效果,成為一個亟待解決的研究問題。

    機(jī)器翻譯研究的發(fā)展在一定程度上緩解了目標(biāo)語言語料稀缺的問題,但采用機(jī)器翻譯來解決跨語言實體抽取仍面臨一些挑戰(zhàn)。首先,在源語言翻譯成目標(biāo)語言的過程中,即便在機(jī)器翻譯達(dá)到很高準(zhǔn)確率(即源語言文本與目標(biāo)語言文本具有很好的語義一致性)的情況下,由于在目標(biāo)語言中詞匯語序被調(diào)整,且存在對源語言詞匯進(jìn)行拆分(源語言詞匯與目標(biāo)語言詞匯之間為一對多的關(guān)系)或合并(源語言詞匯與目標(biāo)語言詞匯之間為多對一的關(guān)系)的情況,很難準(zhǔn)確地建立詞匯標(biāo)簽(如B、I、O等)從源語言到目標(biāo)語言之間的一一對應(yīng)關(guān)系,如何在機(jī)器翻譯基礎(chǔ)上自動化地構(gòu)建目標(biāo)語言的語料標(biāo)簽仍然是一個嚴(yán)峻的問題。其次,目前應(yīng)用較為廣泛的免費(fèi)在線翻譯系統(tǒng)(如谷歌和百度翻譯等)并不支持所有語言,針對稀缺資源語種(如蒙古語和維吾爾語等),如何在沒有機(jī)器翻譯的情況下自動化地構(gòu)建目標(biāo)語言的文本(并在此基礎(chǔ)上自動化地構(gòu)建標(biāo)簽)也是一大挑戰(zhàn)。

    為解決上述問題,本文將自動化的雙語詞典構(gòu)建應(yīng)用到跨語言實體抽取任務(wù)中,利用遷移學(xué)習(xí)和深度學(xué)習(xí)的思想,開展跨語言實體抽取的實證研究。

    1? 相關(guān)研究現(xiàn)狀

    1.1? 實體抽取的傳統(tǒng)模型

    實體抽取的傳統(tǒng)模型包括早期基于規(guī)則的方法、統(tǒng)計機(jī)器學(xué)習(xí)的方法以及近年來基于深度學(xué)習(xí)的方法,其效果不斷得以提升。

    1.1.1? 基于規(guī)則的實體抽取

    基于規(guī)則的實體抽取方法是指人工構(gòu)造規(guī)則或者借助機(jī)器自動生成規(guī)則,然后從文本中找出匹配規(guī)則的字符串。為了解決烏爾都語實體標(biāo)注語料稀缺的問題,Riaz K[13]提出一種基于規(guī)則的命名實體識別方法,首先從Becker-Riaz語料庫中選取200篇文檔,人工為時間、地名、機(jī)構(gòu)名等6個實體標(biāo)簽制定規(guī)則;并選出2 262篇文檔進(jìn)行實驗,該方法的召回率為90.7%,準(zhǔn)確率為91.5%,F(xiàn)1值為91.1%。由于人工構(gòu)造規(guī)則需要消耗較多的人力和物力,所以研究者們嘗試借助機(jī)器自動生成規(guī)則的方法。Collins M等[14]先構(gòu)造種子規(guī)則,再根據(jù)語料對該種子規(guī)則進(jìn)行無監(jiān)督的訓(xùn)練迭代得到更多的規(guī)則,將這些規(guī)則用于實體抽取,該方法在人名、地名和機(jī)構(gòu)名3種實體抽取任務(wù)中取得很好的效果。周昆[15]提出一種基于規(guī)則匹配的命名實體識別方法,首先,將中文人名、知識按照不同類別和不同層次進(jìn)行組織,可提高知識庫的可維護(hù)性;然后分別制定20種人名識別規(guī)則和9種地名識別規(guī)則;最后構(gòu)建具有自主學(xué)習(xí)能力的實體識別系統(tǒng),能在識別實體的基礎(chǔ)上,產(chǎn)生新的規(guī)則反饋給規(guī)則庫,該方法有效提高了實體抽取的準(zhǔn)確率和召回率?;谝?guī)則的實體抽取方法在小規(guī)模語料庫上,訓(xùn)練速度快且模型效果好,但需要制定大量的規(guī)則,導(dǎo)致該類方法的可移植性較差。

    1.1.2? 基于統(tǒng)計機(jī)器學(xué)習(xí)的實體抽取

    在基于統(tǒng)計機(jī)器的方法中,實體抽取被視為序列標(biāo)注問題。序列標(biāo)注問題中當(dāng)前的預(yù)測標(biāo)簽不僅與當(dāng)前的輸入特征相關(guān),還與之前的預(yù)測標(biāo)簽相關(guān),預(yù)測標(biāo)簽序列之間具有強(qiáng)相互依賴關(guān)系。目前常用的統(tǒng)計機(jī)器學(xué)習(xí)方法有:隱馬爾克夫模型(HMM)、最大熵隱馬模型(MEMM)、條件隨機(jī)場模型(CRF)等。CRF是計算整個標(biāo)記序列的聯(lián)合分布概率,在全局范圍內(nèi)進(jìn)行歸一化處理,不僅克服HMM輸出的獨(dú)立性假設(shè)問題,而且有效避免了MEMM的標(biāo)記偏置問題。如馮艷紅等[16]提出一種基于詞向量和條件隨機(jī)場的領(lǐng)域術(shù)語識別方法,將領(lǐng)域詞語的語義特征和領(lǐng)域特征融入CRF模型中,在漁業(yè)領(lǐng)域語料、通用語料和混合語料上進(jìn)行實驗,該方法均取得較好效果。李想等[17]將農(nóng)作物、病蟲害和農(nóng)藥名稱的詞性、偏旁部首、左右指界詞、附近數(shù)量詞等特征融入CRF模型,建立特征與命名實體類別和詞位間的關(guān)聯(lián)關(guān)系,從而識別出命名實體,對農(nóng)作物、病蟲害、農(nóng)藥命名實體識別的準(zhǔn)確度分別達(dá)97.72%、87.63%、98.05%。基于統(tǒng)計機(jī)器學(xué)習(xí)的實體抽取獲得了較好的結(jié)果,但是該方法需要人工選擇的特征作為模型輸入,實體抽取的效果嚴(yán)重依賴特征選取,且模型的泛化能力不強(qiáng)。

    1.1.3? 基于深度學(xué)習(xí)的實體抽取

    深度學(xué)習(xí)技術(shù)成為研究命名實體識別問題的熱點(diǎn)方法,能夠有效地解決人工選擇特征的不足和高維向量空間帶來的數(shù)據(jù)稀疏問題。近年來,基于深度學(xué)習(xí)的實體抽取主要思路是,首先采用字粒度、詞粒度或者混合粒度將文本進(jìn)行向量表示,然后用長短期記憶網(wǎng)絡(luò)(LSTM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)等網(wǎng)絡(luò)進(jìn)行文本的語言特征提取,最后用條件隨機(jī)場(CRF)輸出最優(yōu)標(biāo)簽序列。如Huang Z等[18]首次提出融合LSTM和CRF的端到端的命名實體識別模型,與基線方法相比,該方法具有較強(qiáng)的魯棒性,對詞語特征工程的依賴性較小。在此基礎(chǔ)上,Lample G等[19]提出兩種命名實體識別模型:一種是基于雙向LSTM和CRF的命名實體識別模型,一種是基于轉(zhuǎn)移的命名實體識別模型,在沒有人工處理特征和地名錄的前提下,英語、荷蘭語、德語和西班牙語數(shù)據(jù)集上均取得較好的結(jié)果。Zhang Y等[20]提出基于Lattice LSTM的中文命名實體識別模型,該模型對輸入字符序列和所有匹配詞典的潛在詞匯進(jìn)行編碼。與基于字符的方法相比,該模型顯性地利用詞和詞序信息,與基于詞的方法相比,Lattice LSTM不會出現(xiàn)分詞錯誤。在多個數(shù)據(jù)集上證明Lattice LSTM方法優(yōu)于基于詞和基于字符的LSTM命名實體識別方法。目前,大部分神經(jīng)網(wǎng)絡(luò)都是使用Word2Vec和Glove工具訓(xùn)練詞向量,所得到的詞向量沒有考慮詞序?qū)υ~義的影響,Google在2018年10月發(fā)布BERT語言表示模型,在各項自然語言處理任務(wù)中都取得了最先進(jìn)的結(jié)果。王子牛等[21]提出基于BERT的中文命名實體方法,首先用BERT訓(xùn)練大量未標(biāo)注語料,得到抽象的語義特征,然后結(jié)合LSTM-CRF神經(jīng)網(wǎng)絡(luò),該方法在《人民日報》數(shù)據(jù)集上的F1值達(dá)到94.86%。此外,深度學(xué)習(xí)方法還被廣泛應(yīng)用于歷史事件名抽取[22]、電子病歷實體抽取[23]、商業(yè)領(lǐng)域?qū)嶓w抽取[24]、在線醫(yī)療實體抽取[25]等應(yīng)用場景。值得說明的是,基于深度學(xué)習(xí)的實體抽取方法,在英語和中文等高資源語言中取得很好的效果;對于維吾爾語、蒙古語等低資源語言,實體抽取的效果有待提高。

    1.2? 跨語言情境下的實體抽取研究

    跨語言的實體抽取主要目標(biāo)是提升低資源語言的命名實體識別效果。值得說明的是,跨語言實體抽取不能理解為“單語言實體抽取”與“機(jī)器翻譯”的簡單拼接。從研究現(xiàn)狀來看,目前主要包括以下兩點(diǎn):一是基于標(biāo)簽數(shù)據(jù)遷移的跨語言實體抽取;二是利用基于語言獨(dú)立特征遷移的跨語言實體抽取。

    1.2.1? 基于標(biāo)簽遷移的跨語言實體抽取

    基于標(biāo)簽遷移的跨語言實體抽取是指利用平行語料或者雙語詞典將源語言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語言,并在目標(biāo)語言上建立實體抽取模型以完成實體識別任務(wù)。在基于平行語料的跨語言實體抽取方面,Ni J等[26]提出一種基于弱監(jiān)督的跨語言命名實體識別方法,首先建立英語實體抽取模型,得到英語實體標(biāo)簽;然后通過包含對齊信息的平行語料庫,實現(xiàn)英語與目標(biāo)語言句子的對齊,并將英語的標(biāo)簽映射給目標(biāo)語言;最后建立目標(biāo)語言的實體抽取模型。其研究結(jié)果表明,目標(biāo)語言實體抽取的效果好壞取決于英語實體抽取模型和平行語料庫在詞匯句子層面的對齊程度。徐廣義等[27]為了解決柬埔寨語實體標(biāo)簽語料稀缺和命名實體缺乏明顯標(biāo)識特征的問題,根據(jù)英語和柬埔寨語的平行語料來構(gòu)造雙語圖,獲取柬埔寨語的實體類別分布特征,顯著提高了柬埔寨語的命名實體識別的性能。上述實驗結(jié)果表明,通過平行語料庫將源語言標(biāo)簽遷移給低資源語言,能夠有效提升低資源語言的命名實體識別效果。值得說明的是,由于構(gòu)建平行語料庫需要耗費(fèi)較多的人力,所以從一定程度上限制了該方法的推廣性。

    在基于雙語詞典的跨語言實體抽取方面,Mayhew S等[28]利用“廉價”雙語詞典,將一種或幾種高資源語言中可用的標(biāo)簽數(shù)據(jù)“翻譯”為目標(biāo)語言,并在廉價詞典的基礎(chǔ)上加入維基百科特征,顯著提高目標(biāo)語言實體抽取的效果?;诹畠r詞典的方法,其效果在很大程度上取決于雙語詞典的規(guī)模和質(zhì)量,由于人工構(gòu)建雙語詞典具有一定的困難,在處理真正低資源語言的命名實體識別問題上具有局限性。Xie J等[29]為了減少對人工構(gòu)建雙語詞典的依賴,用種子詞典進(jìn)行詞典規(guī)約得到包含更多單詞對的雙語詞典,將源語言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語言;為了提高數(shù)據(jù)遷移過程中語序的魯棒性,在神經(jīng)網(wǎng)絡(luò)模型中加入自注意力機(jī)制,在西班牙語、荷蘭語和德語數(shù)據(jù)集上取得了較好的結(jié)果。與此類似,Ehrmann M等[30]嘗試在沒有任何平行語料庫的情況下構(gòu)建雙語詞典,通過無監(jiān)督的方式對齊單語單詞嵌入空間。值得說明的是,利用雙語詞典進(jìn)行標(biāo)簽映射存在標(biāo)簽映射錯誤問題。為解決該問題,吳煥欽[31]提出一種基于軟對齊的跨語言命名實體識別方法,通過建立跨語言神經(jīng)網(wǎng)絡(luò)模型,其中源語言句子、源語言標(biāo)簽和目標(biāo)語言句子均用于預(yù)測目標(biāo)語言的命名實體標(biāo)簽,從而實現(xiàn)源語言到目標(biāo)語言的標(biāo)簽遷移,充分利用了源語言和目標(biāo)語言的上下文信息??偟膩碚f,一方面,基于雙語詞典的跨語言實體抽取方法擺脫了對于雙語平行語料的限制,因而具有更廣泛的應(yīng)用;另一方面,如何減少對人工構(gòu)建雙語詞典的依賴(即在處理低資源語言時能夠準(zhǔn)確、自動、快速地構(gòu)建雙語詞典),又成為新的瓶頸問題。

    1.2.2? 基于語言獨(dú)立特征遷移的跨語言實體抽取

    基于語言獨(dú)立特征遷移的跨語言實體抽取是指在一種語言上通過語言獨(dú)立特征訓(xùn)練出模型,然后將模型直接遷移給其他語言。依照語言獨(dú)立特征的不同,可以分為詞簇特征、音韻特征、維基百科特征和共享詞向量特征等。在詞簇特性方面,“詞簇”(Word Cluster)是指文本中2個或2個以上的詞形以固定的組合關(guān)系(或位置)重復(fù)同現(xiàn)[32-33]。Tackstrom O等[34]將具有語言獨(dú)立性的詞簇特征加入直接遷移系統(tǒng)中,實現(xiàn)從英語到目標(biāo)語言的語言結(jié)構(gòu)遷移,在依賴句法分析和命名實體識別任務(wù)中,系統(tǒng)相對誤差分別減少13%和26%。在上述研究的基礎(chǔ)上,Tackstrom O[35]在命名實體識別任務(wù)中,通過加入多種源語言的詞簇特征,并結(jié)合自訓(xùn)練學(xué)習(xí)目標(biāo)語言的獨(dú)立特征,顯著提高目標(biāo)語言實體抽取的效果。在音韻特征方面,Bharadwaj A等[36]提出一種加入音韻特征的神經(jīng)網(wǎng)絡(luò)模型,并結(jié)合自注意機(jī)制學(xué)習(xí)關(guān)注更有效的字符,預(yù)訓(xùn)練的模型能夠很好地適應(yīng)標(biāo)注語料少甚至沒有標(biāo)注語料的目標(biāo)語言中。在維基百科特征方面,Tsai C T等[37]將單詞和短語鏈接到維基百科中的條目,并使用頁面類別作為語言獨(dú)立特征,實驗表明,維基百科特征可有效提高命名實體識別的性能。在共享詞向量特征方面,Ni J等[26]將源語言和目標(biāo)語言的詞向量投影到共享空間,將共享空間中的詞向量作為語言獨(dú)立特征,在源語言上訓(xùn)練模型并將其直接應(yīng)用到目標(biāo)語言中,實驗表明該方法優(yōu)于之前最先進(jìn)的方法,并且縮小了與監(jiān)督學(xué)習(xí)的差距??傮w而言,基于語言獨(dú)立特征遷移的方法,可以有效地將源領(lǐng)域的預(yù)訓(xùn)練模型遷移給目標(biāo)語言,提高了模型在不同語言間的自適應(yīng)性,但是該方法仍需要一定量的目標(biāo)語言標(biāo)注語料,對于真正低資源語言來說,具有一定的局限性。

    值得說明的是,目前基于深度學(xué)習(xí)的實體抽取模型,較多地集中在單語言數(shù)據(jù)集上。在跨語言實體抽取任務(wù)上,一方面,由于機(jī)器翻譯并不能完全解決標(biāo)注語料缺乏的問題;另一方面,基于標(biāo)簽遷移的跨語言實體抽取較多地依賴于平行語料或雙語詞典的自動構(gòu)建,這使得命名實體識別的效果提升仍然面臨諸多挑戰(zhàn)。如何有效地將源語言豐富的標(biāo)注語料遷移給目標(biāo)語言,成為當(dāng)前亟待解決的研究問題。鑒于此,本文提出融合標(biāo)簽遷移學(xué)習(xí)和深度學(xué)習(xí)的跨語言命名實體識別框架。一方面,探究不同的標(biāo)簽映射方式和深度學(xué)習(xí)方法對跨語言命名實體抽取系統(tǒng)的影響;另一方面,探究遷移的數(shù)據(jù)量、雙語詞典規(guī)模和相似度計算方式對跨語言實體抽取系統(tǒng)的影響,以期為跨語言實體抽取相關(guān)研究提供借鑒。

    2? 研究框架與方法

    2.1? 研究問題

    本文旨在探究跨語言情境下的實體抽取問題,參照Feng X等[38]關(guān)于低資源語言命名實體識別的研究,我們將英語假定為高資源的源語言,西班牙語和荷蘭語為低資源的目標(biāo)語言(即完全沒有實體標(biāo)注語料,只有少量或者完全沒有雙語詞典),利用跨語言知識在源語言和目標(biāo)語言之間建立橋梁,將源語言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語言,得到目標(biāo)語言的訓(xùn)練集,然后建立目標(biāo)語言的命名實體識別模型。具體而言,本文在特定的數(shù)據(jù)集上探究以下問題:①在跨語言實體抽取任務(wù)中,如何有效地將資源豐富語言中的標(biāo)簽遷移到低資源語言中?在有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)中,哪一種遷移方法更為有效?②在跨語言標(biāo)簽遷移的基礎(chǔ)上,如何將深度學(xué)習(xí)正確地應(yīng)用于命名實體識別模型?在卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)、長短時記憶網(wǎng)絡(luò)模型(LSTM)和門控循環(huán)單元(GRU)等神經(jīng)網(wǎng)絡(luò)模型中,哪一種更為有效?③在跨語言實體抽取任務(wù)中,如何合理地確定源語言訓(xùn)練數(shù)據(jù)的規(guī)模?源語言訓(xùn)練數(shù)據(jù)的規(guī)模是否越大越好?④如何合理地確定源語言和目標(biāo)語言雙語詞典的規(guī)模?雙語詞典的規(guī)模是否越大越好?⑤在跨語言實體抽取任務(wù)中,如何選擇合理的相似度方法來計算源語言和目標(biāo)語言的對應(yīng)翻譯?

    2.2? 研究框架

    本文提出跨語言實體抽?。–ross-Lingual Entity Extraction,CLEE)框架,如圖1所示,該框架由跨語言標(biāo)簽映射模塊和命名實體識別模塊構(gòu)成。標(biāo)簽映射模塊中,根據(jù)生成雙語詞典是否需要種子詞典,將標(biāo)簽映射模塊分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩類,實現(xiàn)從源語言到目標(biāo)語言的標(biāo)簽遷移,其中有監(jiān)督學(xué)習(xí)包括簡單詞典翻譯和擴(kuò)展詞典翻譯;無監(jiān)督學(xué)習(xí)包括自學(xué)習(xí)詞典翻譯。在命名實體識別模塊,對目標(biāo)語言建立基于深度學(xué)習(xí)的實體抽取模型。

    2.3? 跨語言標(biāo)簽映射模塊

    2.3.1? 簡單詞典翻譯

    相對于平行語料庫而言,雙語詞典是一種豐富且廉價的資源,將直接通過雙語詞典得到目標(biāo)語言標(biāo)簽數(shù)據(jù)的方法稱為簡單詞典翻譯。該方法的主要思路是從Github網(wǎng)站下載Facebook官方提供的源語言和目標(biāo)語言高度對齊的雙語詞典[39],通過雙語詞典將源語言的單詞翻譯成目標(biāo)語言,并將源語言的標(biāo)簽數(shù)據(jù)直接映射給目標(biāo)語言,得到帶標(biāo)簽的目標(biāo)語言訓(xùn)練集;然后根據(jù)雙語詞典得到的目標(biāo)語言訓(xùn)練集,建立深度學(xué)習(xí)的命名實體識別模型。

    2.3.2? 詞典擴(kuò)展翻譯

    對于低資源的語言,當(dāng)雙語詞典資源也很稀缺的情況下,可以利用種子詞典進(jìn)行詞典擴(kuò)展翻譯。具體思路如下:首先通過種子詞典學(xué)習(xí)源語言和目標(biāo)語言詞向量之間的正交性矩陣W,通過正交性映射將源語言和目標(biāo)語言的詞向量映射到同一向量空間;其次是進(jìn)行詞典規(guī)約(Lexicon Induction)[40],將預(yù)訓(xùn)練的源語言和目標(biāo)語言詞向量通過相似性局部縮放(CSLS)[40],得到包含更多單詞對的雙語詞典;最后利用擴(kuò)展后的雙語詞典,將源語言的單詞翻譯成目標(biāo)語言,并將源語言的標(biāo)簽直接映射給目標(biāo)語言,得到目標(biāo)語言的訓(xùn)練數(shù)據(jù)集。

    正交性映射的基本原理是假設(shè)有一個種子詞典D={xi,yi}(i=1,2,…,d),其中xi為源語言的詞向量,yi為對應(yīng)目標(biāo)語言的詞向量,共有d個單詞對。通過迭代訓(xùn)練式(1)得到正交性矩陣W,正交性矩陣W保證映射前和映射后的詞向量方差保持不變。

    minw=Wxi-yi2s.t.WWT=I(1)

    相似性局部縮放(CSLS)的基本原理是源語言和目標(biāo)語言的詞向量通過正交矩陣W映射到同一空間后,根據(jù)最近鄰找出同一向量空間下,目標(biāo)語言詞向量Y對應(yīng)源語言詞向量WX的翻譯。余弦相似度可以計算源語言詞向量WX和目標(biāo)語言詞向量Y之間的相似性,余弦值越大,說明源語言對應(yīng)的目標(biāo)語言翻譯越正確。但該方法存在Hubness問題,即最近鄰是非對稱的,目標(biāo)語言詞向量Y是源語言詞向量WX的最近鄰,但源語言詞向量WX不是目標(biāo)語言詞向量Y的最近鄰。鑒于此,本文采用相似性局部縮放(CSLS)方法,計算公式如式(2)和式(3)所示:

    CSLS(WXs,Yt)=2cos(WXs,Yt)-rT(WXs)-rs(Yt)(2)

    rT(WXs)=1K∑Yt∈ηT(s)cos(WXs,Yt), rs(Yt)=1K∑WXs∈ηS(t)cos(WXs,Yt)(3)

    rT(WXs)和rs(Yt)用于度量每個源語言和目標(biāo)語言單詞的Hubness問題的嚴(yán)重程度,如果一個單詞和另外一種語言的單詞都很接近,則r值就很高,那么CSLS(WXs,Yt)的值會變小。

    2.3.3? 自學(xué)習(xí)詞典翻譯

    詞典擴(kuò)展翻譯依賴于小型種子詞典,采用有監(jiān)督的方法學(xué)習(xí)源語言和目標(biāo)語言之間的映射矩陣。但對于真正低資源的語言,當(dāng)源語言和目標(biāo)語言之間不存在雙語詞典的情況下,利用不同語言的等價詞具有相似性分布的原理,進(jìn)行無監(jiān)督的自學(xué)習(xí)詞典翻譯[41]。具體分3個步驟:

    第一步:詞向量的標(biāo)準(zhǔn)化。首先根據(jù)維度歸一化源語言詞向量X和目標(biāo)語言詞向量Y;然后均值中心化每個維度;最后重復(fù)維度歸一化處理步驟。

    第二步:完全無監(jiān)督的初始化。利用標(biāo)準(zhǔn)化后的源語言和目標(biāo)語言詞向量去構(gòu)建初始化詞典D,詞典D的行是來自于源語言X的單詞(X1,X2,…,Xi,…);列是來自于目標(biāo)語言Y的單詞(Y1,Y2,…,Yi,…),如果Y中的第j個詞是X中的第i個詞的翻譯,則Dij=1;否則Dij=0。由于X和Y是兩種不同語言訓(xùn)練得到的詞向量矩陣,無論是第i個單詞Xi*和Yi*,還是第j個維度X*j和Y*j,它們之間都不是對齊的,故用相似矩陣替代詞向量矩陣:MX=XXT和MY=YYT。對相似性矩陣的每一行都進(jìn)行排序,在嚴(yán)格的等距條件下,排序后不同語言中相等的詞會得到相同的向量。因此給出sorted(MX)中的任意一行,都可以在sorted(MY)中找到最相近的一行,從而找到對應(yīng)詞的翻譯。

    D=D11D12……

    D21D22……

    ……Dij…

    …………(4)

    第三步:自學(xué)習(xí)訓(xùn)練過程。通過最大化當(dāng)前字典D的相似性來計算最優(yōu)正交映射WX和WY,計算公式如式(5)所示;并在映射后的詞向量相似矩陣上計算最優(yōu)的詞典D,映射后的詞向量相似矩陣為XWXWTZZT,如果j=argmaxk(Xi*WX)·(Yj*WY),則Dij=1,否則Dij=0。不斷地重復(fù)上述訓(xùn)練步驟直到收斂。

    argmaxWX,WY∑i∑jDij((Xi*WX)·(Yj*WY))(5)

    2.4? 命名實體識別模塊

    目標(biāo)語言的命名實體識別可看作是序列標(biāo)注問題,輸入序列為X={x1,x2,…,xn},xi為該序列中的第i個單詞;輸出是與X相對應(yīng)的標(biāo)簽序列Y={y1,y2,…,yn},yi為第i個單詞的標(biāo)簽。本文的詞表示編碼器使用雙向LSTM神經(jīng)網(wǎng)絡(luò),可充分利用單詞的上下文信息;解碼器使用CRF,常見的解碼器有CRF、HMM和MEMMs,而解碼器CRF能夠計算整個標(biāo)記序列的聯(lián)合概率分布,是在全局范圍統(tǒng)計歸一化,標(biāo)簽預(yù)測的效果較好。故該部分實驗主要為了比較不同的字符編碼器對目標(biāo)語言的命名實體識別模型的影響。命名實體識別模塊的框架如圖2所示。

    圖2? 命名實體識別模塊架構(gòu)圖

    通過標(biāo)簽映射模塊,得到目標(biāo)語言的訓(xùn)練集,對目標(biāo)語言建立基于深度學(xué)習(xí)的命名實體識別模型。該模型包括編碼和解碼兩個環(huán)節(jié),在編碼環(huán)節(jié),首先采用門控循環(huán)單元(GRU)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)或者雙向長短期記憶模型(LSTM)得到每個單詞的字符向量;然后通過加載預(yù)訓(xùn)練的詞向量或者用Word2Vec工具訓(xùn)練維基百科語料庫得到每個單詞的詞向量;接著將每個單詞的詞向量Wword和字符向量Cword串聯(lián)得到聯(lián)合向量表示Eword;最后采用長短期記憶模型(LSTM)獲取每個單詞的上下文特征。在解碼環(huán)節(jié),通過條件隨機(jī)場(CRF)分析句子中標(biāo)簽之間的制約關(guān)系,加入標(biāo)簽轉(zhuǎn)移概率矩陣,給出全局最優(yōu)標(biāo)簽序列。

    2.4.1? 字符編碼器(CNN/GRU/LSTM神經(jīng)網(wǎng)絡(luò))

    英語、西班牙語和荷蘭語的單詞都具有豐富的形態(tài)信息,如單詞的前綴和后綴等,這些信息能夠為命名實體識別任務(wù)提供有價值的信息,顯著提高標(biāo)簽預(yù)測的效果。此外,研究表明,單詞拼寫對詞性標(biāo)注和語言建模等任務(wù)中的未登錄詞有很大的幫助。為了使單詞表示對拼寫敏感,本文采用字符編碼器提取單詞中的字符信息,探究以下3種字符編碼器,即卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)和門控循環(huán)單元(GRU)在命名實體識別上的效果。

    2.4.2? 詞表示編碼器(LSTM神經(jīng)網(wǎng)絡(luò))

    循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在訓(xùn)練過程中通常會出現(xiàn)梯度消失或梯度爆炸的情況,為了解決這個問題,長短期記憶網(wǎng)絡(luò)(LSTM)應(yīng)運(yùn)而生,LSTM能很好地提升模型的長距離依賴的性能。LSTM和一般RNN的區(qū)別在于,LSTM增加了一個存儲器塊單元A,這個存儲器塊A包括3部分:輸入門、遺忘門和輸出門。輸入門決定有多少新信息需要加入單元中,遺忘門主要用于控制單元內(nèi)信息的存儲,即決定丟棄什么信息,輸出門是確定該單元A要輸出什么信息。

    2.4.3? 條件隨機(jī)場(CRF)解碼器

    Bi-LSTM層輸出每個單詞對應(yīng)的各個標(biāo)簽的預(yù)測分值,可以挑選分值最高的作為單詞的標(biāo)簽,但經(jīng)常會出現(xiàn)一些不合法的標(biāo)簽序列。故在Bi-LSTM層的基礎(chǔ)上加CRF層,CRF層能從訓(xùn)練數(shù)據(jù)中得到約束性規(guī)則,例如句子第一個單詞以B/O開頭,而不能從I開頭;在B-label1和I-label2中,label1和label2要同類型;O和I-label不能組合在一起。標(biāo)簽序列中非法序列出現(xiàn)的概率大大降低,從而提高標(biāo)簽預(yù)測的準(zhǔn)確性。

    對于輸入句子X={x1,x2,…,xn},對應(yīng)的輸出標(biāo)簽為Y={y1,y2,…,yn}。該標(biāo)簽序列的計算得分為:

    s(X,Y)=∑ni=0Ayi,yi+1+∑ni=0Pi,yi(6)

    其中,P是Bi-LSTM的輸出得分矩陣,P的大小是n*k,k是不同標(biāo)簽的數(shù)目,Pi,j是代表第i個單詞標(biāo)記為第j個標(biāo)簽的得分。A是轉(zhuǎn)移得分矩陣,Ai,j是同一句子中由標(biāo)簽i到標(biāo)簽j的轉(zhuǎn)移分?jǐn)?shù)。矩陣A是大小為k+2的正方形矩陣,k是標(biāo)簽的個數(shù)。對這個分?jǐn)?shù)進(jìn)行指數(shù)化和標(biāo)準(zhǔn)化,可以得到標(biāo)注序列y的概率值p(y|X)。

    p(y|X)=es(X,Y)∑∈YXes(X,)(7)

    在式(7)中,YX表示句子X的所有可能的標(biāo)簽輸出序列。

    3? 實驗結(jié)果與討論

    3.1? 數(shù)據(jù)集

    本次實驗中,以英語作為源語言,數(shù)據(jù)來源于CoNLL2003公開數(shù)據(jù)集[42];以西班牙語和荷蘭語為目標(biāo)語言,數(shù)據(jù)來源于CoNLL2002公開數(shù)據(jù)集[43]。3種語言的訓(xùn)練集、驗證集和測試集已劃分好。例如,英語的訓(xùn)練集、驗證集和測試集中分別包含單詞數(shù)為204 567個、51 587個和46 666個。具體統(tǒng)計如表1所示。

    3種語言均使用BIO標(biāo)注法,其中,B表示實體詞的開始,I表示實體詞的內(nèi)部,O表示實體詞的外部(不是實體詞),在B和I的后接實體類型以區(qū)分不同的實體。CoNLL2003和CoNLL2002數(shù)據(jù)集包含4種類型的實體,分別為人名(Person)、地名(Location)、機(jī)構(gòu)名(Organization)和其他實體(Miscellaneous)。例如:

    3.2? 實驗及參數(shù)設(shè)置

    為探究本文提出的研究問題,在跨語言命名實體識別的任務(wù)中,將比較標(biāo)簽映射方式、命名實體識別方法、遷移數(shù)據(jù)量的大小、雙語詞典的大小以及求最近鄰的方法5個因素對跨語言命名實體識別系統(tǒng)的影響,相關(guān)實驗設(shè)置如表3所示。

    在命名實體識別算法中,從向量維度、訓(xùn)練設(shè)置和超參數(shù)3個方面設(shè)置相關(guān)參數(shù),遵循以下原則:一是可比性,即不同模型的參數(shù)設(shè)置最大可能具有一致性,如保持相同的詞向量維度和字符向量維度等;二是兼顧可用性和效率性,參照相關(guān)研究工作的參數(shù)設(shè)置[44],使得模型有較好的實體抽取效果,并盡可能地減少存儲空間的開銷和運(yùn)行時間的耗費(fèi)。具體參數(shù)設(shè)置如表4所示。

    3.3? 基線方法

    本文提出融合自學(xué)習(xí)詞典翻譯和GRU-LSTM-CRF網(wǎng)絡(luò)的實體抽取方法,為了檢驗該方法的有效性,假定英語為高資源語言,西班牙語和荷蘭語為低資源語言(完全沒有實體標(biāo)注語料)。跨語言標(biāo)簽映射模塊中,以簡單詞典翻譯、詞典擴(kuò)展翻譯為基線方法;命名實體識別模塊中,以CRF、CNN-LSTM-CRF、LSTM-LSTM-CRF為基線方法。具體來說,將所提出的方法與11種基線方法進(jìn)行比對,如表5所示。

    3.4? 本文方法與基線方法的對比實驗

    在本文方法與基線方法的對比中,以英語為源語言、西班牙語和荷蘭語為目標(biāo)語言,探究跨語言實體抽取(CLEE)框架的有效性。具體而言,在跨語言標(biāo)簽映射模塊,通過雙語詞典將英語的CoNLL2003訓(xùn)練集遷移給西班牙語和荷蘭語,得到目標(biāo)語言的訓(xùn)練集。在命名實體識別模塊,用遷移的目標(biāo)語言訓(xùn)練集訓(xùn)練命名實體識別模型,并用西班牙語和荷蘭語的CoNLL2002驗證集和測試集對模型進(jìn)行驗證和評估。統(tǒng)計出實驗結(jié)果的準(zhǔn)確率(P)、召回率(R)和F1值,具體實驗結(jié)果如表6和表7所示。

    由表6可以看出,在“英語-西班牙語”數(shù)據(jù)集上,本文所提出的“自學(xué)習(xí)詞典翻譯+GRU-LSTM-CRF網(wǎng)絡(luò)”的實體抽取效果優(yōu)于其他基線方法,F(xiàn)1值達(dá)到0.6419。具體地,比較不同標(biāo)簽映射方式對實驗結(jié)果的影響,固定命名實體識別模型為GRU-LSTM-CRF,得出自學(xué)習(xí)詞典翻譯效果最好,F(xiàn)1值為0.6419;其次為簡單詞典翻譯,F(xiàn)1值為0.6369;詞典擴(kuò)展翻譯排在最后,F(xiàn)1值為0.6299。

    比較不同命名實體識別模型對實驗結(jié)果的影響,在不同的標(biāo)簽映射方法中,CRF模型實體抽取的效果均遠(yuǎn)遠(yuǎn)低于基于深度學(xué)習(xí)的實體抽取方法;當(dāng)標(biāo)簽映射方式為簡單詞典翻譯時,GRU-LSTM-CRF取得了最優(yōu)結(jié)果,F(xiàn)1值為0.6369,比CNN-LSTM-CRF和LSTM-LSTM-CRF的F1值分別高0.028和0.027;當(dāng)標(biāo)簽映射方式為詞典擴(kuò)展翻譯時,GRU-LSTM-CRF取得了最優(yōu)結(jié)果(0.6299),CNN-LSTM-CRF次之(0.6226),LSTM-LSTM-CRF結(jié)果最差(0.5930);當(dāng)標(biāo)簽映射方式為自學(xué)習(xí)詞典翻譯時,同樣是GRU-LSTM-CRF的方法效果最好,比CNN-LSTM-CRF和LSTM-LSTM-CRF大約高了4個百分點(diǎn)。

    由表7可以看出,在“英語-荷蘭語”數(shù)據(jù)集上,本文所提出的“自學(xué)習(xí)詞典翻譯+GRU-LSTM-CRF網(wǎng)絡(luò)”的實體抽取效果同樣優(yōu)于其他基線方法,F(xiàn)1值達(dá)到0.6557。具體地,比較不同標(biāo)簽映射方式對實驗結(jié)果的影響,固定命名實體識別模型為GRU-LSTM-CRF,得出自學(xué)習(xí)詞典翻譯取得最好的效果,F(xiàn)1值為0.6557,比簡單詞典翻譯和詞典擴(kuò)展翻譯分別高0.017和0.011。

    比較不同命名實體識別模型對實驗結(jié)果的影響,在不同的標(biāo)簽映射方法中,CRF模型實體抽取的效果均遠(yuǎn)遠(yuǎn)低于基于深度學(xué)習(xí)的實體抽取方法;當(dāng)標(biāo)簽映射方式為簡單詞典翻譯時,CNN-LSTM-CRF取得了最優(yōu)結(jié)果,F(xiàn)1值為0.6484,LSTM-LSTM-CRF次之(0.6420),GRU-LSTM-CRF最差(0.6388);當(dāng)標(biāo)簽映射方式為詞典擴(kuò)展翻譯時,GRU-LSTM-CRF取得了最優(yōu)結(jié)果(0.6451),比CNN-LSTM-CRF和LSTM-LSTM-CRF大約高了3個百分點(diǎn)。當(dāng)標(biāo)簽映射方式為自學(xué)習(xí)詞典翻譯時,CNN-LSTM-CRF、LSTM-LSTM-CRF和GRU-LSTM-CRF 3種實體抽取方法的F1分別為0.6549、0.6481和0.6557,實驗效果上整體相差不大。

    綜合表6和表7來看,自學(xué)習(xí)詞典翻譯在跨語言標(biāo)簽映射中具有一定優(yōu)勢。作為一種無監(jiān)督的標(biāo)簽映射方法,自學(xué)習(xí)詞典翻譯方法不需要雙語種子詞典,而是根據(jù)源語言和目標(biāo)語言的分布形態(tài)生成雙語詞典。當(dāng)目標(biāo)語言完全沒有標(biāo)注語料,且源語言和目標(biāo)語言之間沒有雙語詞典時,可通過該方法得到比簡單詞典翻譯和詞典擴(kuò)展翻譯更好的實驗結(jié)果。此外,CRF統(tǒng)計模型的實體抽取效果遠(yuǎn)遠(yuǎn)低于基于深度學(xué)習(xí)的實體抽取模型;GRU-LSTM-CRF模型與其余兩種深度學(xué)習(xí)模型相比較,在大多數(shù)情況下GRU字符編碼器表現(xiàn)更好,可能是因為GRU的結(jié)構(gòu)比LSTM更加簡單,GRU能更快地趨于收斂,并且所需的Epoch次數(shù)更少,這使得迭代次數(shù)一致的情況下,GRU取得了更好的結(jié)果。

    從實驗結(jié)果和實際情況的比照來看,本文提出的“自學(xué)習(xí)詞典翻譯+GRU-LSTM-CRF”方法在不同的評價指標(biāo)下均取得較好的結(jié)果,在多數(shù)情況下能夠較好地識別出實體,但仍存在少數(shù)與實際情況不一致的結(jié)果。例如,在西班牙語句子“Sao Paulo(Brasil),23 May(EFECOM)”中,單詞“Sao Paulo”的中文含義為“圣保羅”,被人工標(biāo)注為地名,而實驗結(jié)果將其判定為人名。通過對原始語料進(jìn)行比對,發(fā)現(xiàn)在英語訓(xùn)練集中,單詞“Sao Paulo”的實體標(biāo)簽存在地名和人名兩種情況,由于待識別語句長度較短(上下文信息并不充分),可能導(dǎo)致分類錯誤。再如,在荷蘭語句子“In Viangros Kan Het Vlees,in Welke Fase Van Het Productieproces Het Zich Ook Bevindt,Perfect Getraceerd Worden Aan De Hand Van Een Etiket”(譯為“在Viangros,肉產(chǎn)品在生產(chǎn)過程任何階段都可以通過其標(biāo)簽被完美地追蹤”)中,單詞“Viangros”被人工標(biāo)注為組織機(jī)構(gòu)名,而實驗結(jié)果將其誤判為地名。通過對原始語料進(jìn)行比對,發(fā)現(xiàn)通過數(shù)據(jù)遷移得到的荷蘭語訓(xùn)練集中介詞“in”的上下文中存在較多地名,可能導(dǎo)致訓(xùn)練出的模型將單詞Viangros誤判為地名。

    3.5? 擴(kuò)展實驗

    擴(kuò)展實驗部分,本文探究從源語言遷移不同大小的訓(xùn)練集給目標(biāo)語言、雙語詞典大小以及計算最近鄰的方法對跨語言的命名實體識別模型的影響。

    3.5.1? 源語言訓(xùn)練集大小對跨語言實體抽取效果的影響

    標(biāo)簽映射方法為簡單詞典翻譯,命名實體識別模型為CNN-LSTM-CRF,雙語詞典的大小為8 000,比較遷移不同大小的訓(xùn)練集對命名實體識別的影響。實驗結(jié)果如表8和表9所示。

    從表8和表9可以看出,總體而言,在目標(biāo)語言為西班牙語或荷蘭語時,隨著遷移訓(xùn)練集數(shù)量的不斷增加,F(xiàn)1值逐漸增加。具體而言。在源語言數(shù)據(jù)集規(guī)模由3 000增加到150 000時,F(xiàn)1值增加較為迅速;在達(dá)到150 000后,F(xiàn)1值增加開始放緩;

    3.5.2? 雙語詞典大小對跨語言實體抽取效果的影響

    從源語言遷移的訓(xùn)練集大小為180 000,標(biāo)簽映射方法為簡單詞典翻譯,命名實體識別模型為CNN-LSTM-CRF,比較不同雙語詞典大小對西班牙語命名實體識別的影響。其中雙語詞典大小為0時,實際是直接進(jìn)行模型的遷移,用英語訓(xùn)練集訓(xùn)練得到模型后,并在西班牙語和荷蘭語的驗證集和測試集上進(jìn)行驗證和評估。具體結(jié)果如表10和表11所示。

    由表10和表11可知,在西班牙語數(shù)據(jù)集上,當(dāng)雙語詞典大小為8 000時,模型結(jié)果最優(yōu),F(xiàn)1值為0.6235;在荷蘭語數(shù)據(jù)集上,雙語詞典大小為10 000時結(jié)果最好,F(xiàn)1值為0.6484。總體上看,隨著雙語詞典大小的增加,F(xiàn)1值也不斷增加。

    在一定范圍內(nèi),從源語言遷移到目標(biāo)語言的標(biāo)簽數(shù)據(jù)越大,雙語詞典越大,包含的跨語言的知識也越多,跨語言的命名實體識別系統(tǒng)的性能也就越好。

    3.5.3? 相似度計算方法對跨語言實體抽取效果的影響

    詞典擴(kuò)展翻譯和自學(xué)習(xí)詞典翻譯在生成雙語詞典時,都利用相似度來計算源語言和目標(biāo)語言的對應(yīng)翻譯。本文提出兩種相似度計算方法,分別為余弦相似度和相似性局部縮放(CSLS),比較這兩種標(biāo)簽映射方式中不同計算最近鄰的方法對西班牙語和荷蘭語命名實體識別的影響。實驗結(jié)果如表12和表13所示。

    由表12和表13可知,在西班牙語和荷蘭語數(shù)據(jù)集上,當(dāng)遷移的訓(xùn)練集大小為180 000,命名實體識別的模型CNN-LSTM-CRF時,詞典擴(kuò)展翻譯和自學(xué)習(xí)詞典翻譯這兩種標(biāo)簽映射方式利用相似性局部縮放(CSLS)計算源語言和目標(biāo)語言的相似性,效果均優(yōu)于余弦相似度。CSLS可以計算不同語言間的單詞相似性,并且考慮了源語言和目標(biāo)語言的Hubness程度懲罰。比如當(dāng)某個單詞與另一種語言中的多個單詞相似時,該單詞的CSLS值會較小,可以有效抑制某些單詞是很多單詞的最近鄰的情況。

    3.6? 討? 論

    根據(jù)本文方法與基線方法的對比實驗和擴(kuò)展實驗的結(jié)果,我們對2.1中所提出的研究問題進(jìn)行探討。針對問題1“在跨語言實體抽取任務(wù)中,如何有效地將資源豐富語言中的標(biāo)簽遷移到低資源語言中?在有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)中,哪一種遷移方法更為有效?”,從不同標(biāo)簽映射方式對實驗結(jié)果的影響可以看出,在跨語言實體抽取任務(wù)中,使用不同的標(biāo)簽映射方式會在很大程度上影響模型效果。當(dāng)標(biāo)簽映射方式為簡單詞典翻譯,雙語詞典大小為10 000,通過雙語詞典將源語言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語言。當(dāng)標(biāo)簽映射方式為詞典擴(kuò)展翻譯時,首先雙語種子詞典的大小設(shè)為2 000,通過正交性映射和相似性局部縮放(CSLS),詞典擴(kuò)展到100 000個單詞對,將源語言的訓(xùn)練集遷移給為目標(biāo)語言。由于簡單詞典翻譯和詞典擴(kuò)展翻譯均為有監(jiān)督的標(biāo)簽映射方式,其標(biāo)簽映射的效果很大程度上依賴于雙語詞典的質(zhì)量和大小。而自學(xué)習(xí)詞典翻譯法是一種完全無監(jiān)督的標(biāo)簽映射方式,利用源語言和目標(biāo)語言的相似詞向量之間具有相似的分布特征,通過不斷地迭代訓(xùn)練生成包括100 000個單詞對的雙語詞典,將源語言的訓(xùn)練集遷移給為目標(biāo)語言。實驗表明,無監(jiān)督的自學(xué)習(xí)標(biāo)簽映射方法取得最好的效果。

    針對問題2“在跨語言標(biāo)簽遷移的基礎(chǔ)上,如何將深度學(xué)習(xí)正確地應(yīng)用于命名實體識別模型?在卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)、長短時記憶網(wǎng)絡(luò)模型(LSTM)和門控循環(huán)單元(GRU)等神經(jīng)網(wǎng)絡(luò)模型中,哪一種更為有效?”,從不同命名實體識別模型對實驗結(jié)果的影響可以看出,采用不同的深度學(xué)習(xí)命名實體識別方法,對實驗結(jié)果產(chǎn)生不同的影響。分別采用CNN、LSTM和GRU 3種神經(jīng)網(wǎng)絡(luò)模型對字符向量進(jìn)行編碼,其中GRU神經(jīng)網(wǎng)絡(luò)的效果最好。雖然GRU神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)比較簡單,但仍然能夠取得相對較好的結(jié)果,表明在跨語言命名實體識別系統(tǒng)中,GRU-LSTM-CRF模型足以捕獲目標(biāo)語言的字符向量和詞向量信息。

    針對問題3“在跨語言實體抽取任務(wù)中,如何合理地確定源語言訓(xùn)練數(shù)據(jù)的規(guī)模?源語言訓(xùn)練數(shù)據(jù)的規(guī)模是否越大越好?”,從不同大小的訓(xùn)練集對實驗結(jié)果的影響可以看出,在西班牙語和荷蘭語數(shù)據(jù)集上,當(dāng)固定雙語詞典大小不變,遷移的訓(xùn)練集大小在30 000~180 000之間,隨著遷移的訓(xùn)練集增大,跨語言命名實體識別的效果呈現(xiàn)上升趨勢。但是當(dāng)遷移的訓(xùn)練集大小為210 000時,F(xiàn)1值反而下降。由于遷移的訓(xùn)練集過大,但雙語詞典大小有限,得到的目標(biāo)語言訓(xùn)練集中的未登錄詞較多,從而影響跨語言命名實體識別系統(tǒng)的性能。因此,有必要合理地平衡雙語詞典大小和遷移標(biāo)簽數(shù)據(jù)二者的關(guān)系,使得跨語言命名實體識別系統(tǒng)達(dá)到最好的效果。

    針對問題4“如何合理地確定源語言和目標(biāo)語言雙語詞典的規(guī)模?雙語詞典的規(guī)模是否越大越好?”,從不同雙語詞典大小對實驗結(jié)果的影響可以看出,隨著雙語詞典的詞數(shù)量增大,跨語言命名實體識別系統(tǒng)的性能越好。由于雙語詞典越大,包含源語言和目標(biāo)語言間信息越多,將源語言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語言的更加準(zhǔn)確。但是,隨著雙語詞典的不斷增加,跨語言命名實體識別的性能增長緩慢,故規(guī)模小但高度對齊的雙語詞典可有效提高跨語言命名實體識別的效果。此外,當(dāng)雙語詞典的大小為0時,是將源語言訓(xùn)練出的模型直接遷移到目標(biāo)語言,這種模型使用直接遷移的方法效果較差。

    針對問題5“在跨語言實體抽取任務(wù)中,如何選擇合理的相似度方法來計算源語言和目標(biāo)語言的對應(yīng)翻譯?”,從不同計算最近鄰的方法對實驗結(jié)果的影響可以看出,在西班牙語和荷蘭語數(shù)據(jù)集上,詞典擴(kuò)展翻譯和自學(xué)習(xí)詞典翻譯兩種標(biāo)簽映射方式均利用相似性生成雙語詞典,因此在擴(kuò)展實驗部分,在詞典擴(kuò)展翻譯和自學(xué)習(xí)詞典翻譯中比較余弦相似度和CSLS兩種相似度計算方法對跨語言命名實體識別系統(tǒng)的影響。由于CSLS考慮了源語言和目標(biāo)語言單詞的Hubness程度懲罰,生成源語言和目標(biāo)語言間的雙語詞典對齊效果更好。

    總體而言,與其他研究相比,本文所提出的框架具有以下優(yōu)勢:①相比于機(jī)器翻譯模型,本文較好地解決了由于詞匯語序被調(diào)整以及源語言詞匯被拆分或合并等所帶來的標(biāo)簽映射錯誤問題;②相比于基于平行語料的方法,本文方法節(jié)省了構(gòu)建平行語料所消耗的人力與時間;③相比于其他基于雙語詞典的方法,本文提出無監(jiān)督雙語詞典構(gòu)建模型,能夠更加便利地應(yīng)用于無標(biāo)注資源的小語種語言實體抽取。從理論上來看,當(dāng)目標(biāo)語言完全沒有標(biāo)注語料時,根據(jù)雙語詞典資源稀缺程度的不同,本文提出3種不同的標(biāo)簽映射方法。其中,針對一般低資源語言,可采用簡單詞典翻譯和詞典擴(kuò)展翻譯;對于完全無雙語詞典的語言,可采用自學(xué)習(xí)詞典翻譯。從實踐上來看,我們通過實證探究遷移的數(shù)據(jù)量、雙語詞典規(guī)模和相似度計算方式在跨語言實體抽取任務(wù)中的影響,對于跨語言實體抽取實踐具有借鑒作用。研究結(jié)果對于改進(jìn)跨語言情境下的知識獲取模型、促進(jìn)知識獲取研究等方面具有重要意義。

    4? 結(jié)? 語

    為了提升跨語言情境下低資源語言命名實體識別模型的性能,本文在跨語言實體抽?。–LEE)框架下,首先利用遷移學(xué)習(xí)的思想,將源語言的標(biāo)簽數(shù)據(jù)遷移給目標(biāo)語言,然后利用深度學(xué)習(xí)的思想,建立目標(biāo)語言的命名實體識別模型。本文將標(biāo)簽映射模塊和命名實體識別模塊的不同方法進(jìn)行組合,并在西班牙語和荷蘭語數(shù)據(jù)集上進(jìn)行實證研究,論證了結(jié)合自學(xué)習(xí)詞典翻譯和GRU-LSTM-CRF網(wǎng)絡(luò)的無監(jiān)督跨語言實體抽取效果最好。實驗結(jié)果表明,通過利用跨語言知識在源語言和目標(biāo)語言之間建立橋梁,能顯著提升低資源語言實體抽取的效果。

    受制于實驗條件,本文僅探究了與跨語言命名實體識別相關(guān)的5個問題。在后續(xù)研究中,將繼續(xù)探究以下問題:①如何進(jìn)一步優(yōu)化研究方法,持續(xù)改進(jìn)現(xiàn)有命名實體識別模型,使用BERT模型或者在模型中加入自注意力機(jī)制來提高跨語言命名實體識別的性能;②進(jìn)一步探究HowNet義原詞典、同義詞詞典以及反義詞詞典等語義工具對于跨語言命名實體識別效果的提升。

    參考文獻(xiàn)

    [1]孫鎮(zhèn),王惠臨.命名實體識別研究進(jìn)展綜述[J].現(xiàn)代圖書情報技術(shù),2010,(6):42-47.

    [2]禤鎮(zhèn)宇,蔣盛益,張禮明,等.基于多特征Bi-LSTM-CRF的影評人名識別研究[J].中文信息學(xué)報,2019,33(3):94-101.

    [3]魏勇,李鴻飛,胡丹露,等.一種基于復(fù)合特征的中文地名識別方法[J].武漢大學(xué)學(xué)報:信息科學(xué)版,2018,43(1):17-23.

    [4]關(guān)曉炟,呂學(xué)強(qiáng),李卓,等.用戶查詢?nèi)罩局械闹形臋C(jī)構(gòu)名識別[J].現(xiàn)代圖書情報技術(shù),2014,(1):72-78.

    [5]余麗,錢力,付常雷,等.基于深度學(xué)習(xí)的文本中細(xì)粒度知識元抽取方法研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(1):38-45.

    [6]劉曉娟,劉群,余夢霞.基于關(guān)聯(lián)數(shù)據(jù)的命名實體識別[J].情報學(xué)報,2019,38(2):191-200.

    [7]馬建霞,袁慧,蔣翔.基于Bi-LSTM+CRF的科學(xué)文獻(xiàn)中生態(tài)治理技術(shù)相關(guān)命名實體抽取研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,4(Z1):78-88.

    [8]張琴,郭紅梅,張智雄.融合詞嵌入表示特征的實體關(guān)系抽取方法研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(9):8-15.

    [9]鄂海紅,張文靜,肖思琪,等.深度學(xué)習(xí)實體關(guān)系抽取研究綜述[J].軟件學(xué)報,2019,30(6):1793-1818.

    [10]丁晟春,侯琳琳,王穎.基于電商數(shù)據(jù)的產(chǎn)品知識圖譜構(gòu)建研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(3):45-56.

    [11]安波,韓先培,孫樂.融合知識表示的知識庫問答系統(tǒng)[J].中國科學(xué):信息科學(xué),2018,48(11):1521-1532.

    [12]范馨月,崔雷.基于文本挖掘的藥物副作用知識發(fā)現(xiàn)研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(3):79-86.

    [13]Riaz K.Rule-based Named Entity Recognition in Urdu[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2010:126-135.

    [14]Collins M,Singer Y.Unsupervised Models for Named Entity Classification[C]//Proceedings of Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora.Stroudsburg:ACL,1999:100-110.

    [15]周昆.基于規(guī)則的命名實體識別研究[D].合肥:合肥工業(yè)大學(xué),2010.

    [16]馮艷紅,于紅,孫庚,等.基于詞向量和條件隨機(jī)場的領(lǐng)域術(shù)語識別方法[J].計算機(jī)應(yīng)用,2016,36(11):3146-3151.

    [17]李想,魏小紅,賈璐,等.基于條件隨機(jī)場的農(nóng)作物病蟲害及農(nóng)藥命名實體識別[J].農(nóng)業(yè)機(jī)械學(xué)報,2017,48(S1):178-185.

    [18]Huang Z,Xu W,Yu K,et al.Bidirectional LSTM-CRF Models for Sequence Tagging[EB/OL].https://arxiv.org/abs/1508.01991,2020-03-16.

    [19]Lample G,Ballesteros M,Subramanian S,et al.Neural Architectures for Named Entity Recognition[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2016:260-270.

    [20]Zhang Y,Yang J.Chinese NER Using Lattice LSTM[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2018:1554-1564.

    [21]王子牛,姜猛,高建瓴,等.基于BERT的中文命名實體識別方法[J].計算機(jī)科學(xué),2019,46(S2):138-142.

    [22]唐慧慧,王昊,張紫玄,等.基于漢字標(biāo)注的中文歷史事件名抽取研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(7):89-100.

    [23]李綱,潘榮清,毛進(jìn),等.整合BiLSTM-CRF網(wǎng)絡(luò)和詞典資源的中文電子病歷實體識別[J].現(xiàn)代情報,2020,40(4):3-12,58.

    [24]丁晟春,方振,王楠.基于Bi-LSTM-CRF的商業(yè)領(lǐng)域命名實體識別[J].現(xiàn)代情報,2020,40(3):103-110.

    [25]陳美杉,夏晨曦.肝癌患者在線提問的命名實體識別研究:一種基于遷移學(xué)習(xí)的方法[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(12):61-69.

    [26]Ni J,Dinu G,F(xiàn)lorian R,et al.Weakly Supervised Cross-lingual Named Entity Recognition via Effective Annotation and Representation Projection[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2017:1470-1480.

    [27]徐廣義,嚴(yán)馨,余正濤,等.融合跨語言特征的柬埔寨語命名實體識別方法[J].云南大學(xué)學(xué)報:自然科學(xué)版,2018,40(5):865-871.

    猜你喜歡
    深度學(xué)習(xí)
    從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
    面向大數(shù)據(jù)遠(yuǎn)程開放實驗平臺構(gòu)建研究
    基于自動智能分類器的圖書館亂架圖書檢測
    搭建深度學(xué)習(xí)的三級階梯
    有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
    電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
    利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
    考試周刊(2016年94期)2016-12-12 12:15:04
    MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
    大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
    深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
    亚洲综合精品二区| 最新的欧美精品一区二区| 欧美高清成人免费视频www| 99热这里只有精品一区| 亚洲精品第二区| 18禁在线无遮挡免费观看视频| 一区二区三区四区激情视频| 亚洲av电影在线观看一区二区三区| 亚洲国产精品专区欧美| 免费播放大片免费观看视频在线观看| 22中文网久久字幕| 国产精品一区二区性色av| 久久人人爽av亚洲精品天堂| 免费不卡的大黄色大毛片视频在线观看| 久久精品国产自在天天线| 午夜日本视频在线| 三级国产精品欧美在线观看| 国产高清不卡午夜福利| 国产精品国产av在线观看| 在线观看一区二区三区激情| 国产精品国产三级国产专区5o| 精品卡一卡二卡四卡免费| 国产高清国产精品国产三级| 欧美精品国产亚洲| 亚洲国产精品专区欧美| 又大又黄又爽视频免费| 69精品国产乱码久久久| 亚洲va在线va天堂va国产| 久久99精品国语久久久| 日韩一本色道免费dvd| 久久99精品国语久久久| 亚洲精品亚洲一区二区| 国产永久视频网站| 成人毛片a级毛片在线播放| 高清午夜精品一区二区三区| 男女免费视频国产| 日韩熟女老妇一区二区性免费视频| 精品人妻一区二区三区麻豆| av线在线观看网站| 国产精品伦人一区二区| 国产乱来视频区| 国产中年淑女户外野战色| 精品人妻熟女av久视频| 久久久久精品性色| 99热这里只有精品一区| 日本黄色片子视频| 韩国高清视频一区二区三区| 精品一区二区三区视频在线| 国产片特级美女逼逼视频| 国产在视频线精品| 一区二区三区免费毛片| 国精品久久久久久国模美| 亚洲精品久久午夜乱码| 国精品久久久久久国模美| 日日爽夜夜爽网站| 少妇猛男粗大的猛烈进出视频| 91久久精品国产一区二区成人| 啦啦啦中文免费视频观看日本| 男男h啪啪无遮挡| 王馨瑶露胸无遮挡在线观看| 国模一区二区三区四区视频| 一级毛片我不卡| av国产久精品久网站免费入址| 高清欧美精品videossex| 2021少妇久久久久久久久久久| 国产在视频线精品| 性色avwww在线观看| 高清不卡的av网站| 少妇猛男粗大的猛烈进出视频| 精品一区在线观看国产| 成人18禁高潮啪啪吃奶动态图 | 一个人免费看片子| 丝袜喷水一区| 欧美一级a爱片免费观看看| 国产成人精品一,二区| 人妻 亚洲 视频| 欧美高清成人免费视频www| 十八禁网站网址无遮挡 | 人人妻人人添人人爽欧美一区卜| 久久青草综合色| 一区二区三区免费毛片| 日本欧美国产在线视频| 国产片特级美女逼逼视频| 国产亚洲一区二区精品| 亚洲成人一二三区av| 免费看日本二区| av线在线观看网站| 国产高清三级在线| 国产午夜精品一二区理论片| 91精品一卡2卡3卡4卡| 亚洲欧美成人精品一区二区| 精品酒店卫生间| 高清午夜精品一区二区三区| 2022亚洲国产成人精品| 日本wwww免费看| 又大又黄又爽视频免费| 久久久久视频综合| 九色成人免费人妻av| 2018国产大陆天天弄谢| 久久久久人妻精品一区果冻| 久久久精品94久久精品| 9色porny在线观看| 99九九线精品视频在线观看视频| 亚洲,一卡二卡三卡| 毛片一级片免费看久久久久| 日本av手机在线免费观看| 毛片一级片免费看久久久久| 亚洲综合精品二区| 美女cb高潮喷水在线观看| 最近2019中文字幕mv第一页| 国产91av在线免费观看| 亚洲av在线观看美女高潮| 大又大粗又爽又黄少妇毛片口| 99久久精品一区二区三区| 久久精品熟女亚洲av麻豆精品| 欧美变态另类bdsm刘玥| 久久久久久久久久成人| 性高湖久久久久久久久免费观看| 国产高清不卡午夜福利| 夜夜看夜夜爽夜夜摸| 自拍偷自拍亚洲精品老妇| 极品人妻少妇av视频| 精品久久久久久久久av| 午夜免费鲁丝| 精品少妇内射三级| av女优亚洲男人天堂| 国产精品99久久99久久久不卡 | 久久99蜜桃精品久久| 少妇人妻一区二区三区视频| 久久久久久伊人网av| 欧美国产精品一级二级三级 | 久久狼人影院| 日韩,欧美,国产一区二区三区| 人体艺术视频欧美日本| 肉色欧美久久久久久久蜜桃| 国产免费福利视频在线观看| 男人舔奶头视频| 欧美bdsm另类| 多毛熟女@视频| 青青草视频在线视频观看| 热re99久久国产66热| 久久国内精品自在自线图片| 天堂俺去俺来也www色官网| 极品人妻少妇av视频| 九九久久精品国产亚洲av麻豆| 伦理电影免费视频| 成人无遮挡网站| 亚洲欧美日韩另类电影网站| 国产精品久久久久久精品古装| 欧美成人午夜免费资源| 国产色婷婷99| 国产白丝娇喘喷水9色精品| 在线观看av片永久免费下载| av福利片在线| 国产亚洲午夜精品一区二区久久| 在线观看免费高清a一片| 亚洲四区av| 麻豆乱淫一区二区| 日本欧美视频一区| 18+在线观看网站| 人人妻人人澡人人爽人人夜夜| 亚洲一区二区三区欧美精品| 国产极品粉嫩免费观看在线 | 99国产精品免费福利视频| 精品国产露脸久久av麻豆| 亚洲av国产av综合av卡| 精品国产一区二区久久| 精品久久久久久久久av| 丰满少妇做爰视频| 天堂俺去俺来也www色官网| 观看免费一级毛片| 人妻一区二区av| 亚洲经典国产精华液单| 久久免费观看电影| 如日韩欧美国产精品一区二区三区 | 国产免费视频播放在线视频| 久久国内精品自在自线图片| 在线免费观看不下载黄p国产| 国产91av在线免费观看| 亚洲人成网站在线观看播放| 99精国产麻豆久久婷婷| 22中文网久久字幕| 少妇人妻久久综合中文| 亚洲av.av天堂| 一级毛片电影观看| 黄色毛片三级朝国网站 | 欧美日韩综合久久久久久| 国产精品国产三级专区第一集| 亚洲伊人久久精品综合| 伦理电影免费视频| av不卡在线播放| 美女视频免费永久观看网站| a级一级毛片免费在线观看| 亚洲成色77777| 最新的欧美精品一区二区| 国产成人免费观看mmmm| 亚洲精品国产色婷婷电影| 高清欧美精品videossex| 婷婷色av中文字幕| 久久久国产欧美日韩av| 亚洲在久久综合| 亚洲成色77777| 少妇人妻一区二区三区视频| 午夜久久久在线观看| 国产在视频线精品| 欧美日韩亚洲高清精品| 国产色婷婷99| 成人免费观看视频高清| 日韩人妻高清精品专区| 精品国产一区二区久久| 日本爱情动作片www.在线观看| videossex国产| 99热全是精品| 国产色爽女视频免费观看| 伊人久久精品亚洲午夜| 精品人妻偷拍中文字幕| 99热国产这里只有精品6| 亚洲内射少妇av| 免费观看的影片在线观看| 欧美日韩亚洲高清精品| 国产伦在线观看视频一区| 赤兔流量卡办理| 欧美人与善性xxx| 美女大奶头黄色视频| 大片电影免费在线观看免费| 好男人视频免费观看在线| 麻豆乱淫一区二区| 80岁老熟妇乱子伦牲交| 国产亚洲午夜精品一区二区久久| 国产真实伦视频高清在线观看| 亚洲精品乱久久久久久| 嫩草影院新地址| 3wmmmm亚洲av在线观看| 看非洲黑人一级黄片| 亚洲av.av天堂| 国产亚洲91精品色在线| 大片免费播放器 马上看| 国产乱来视频区| 大又大粗又爽又黄少妇毛片口| 成人免费观看视频高清| 国产女主播在线喷水免费视频网站| 日本色播在线视频| 搡老乐熟女国产| 人人妻人人添人人爽欧美一区卜| 91精品伊人久久大香线蕉| 国产日韩欧美视频二区| 男人添女人高潮全过程视频| 精品国产露脸久久av麻豆| 日韩精品有码人妻一区| 欧美日韩视频高清一区二区三区二| 狂野欧美激情性bbbbbb| 大又大粗又爽又黄少妇毛片口| 你懂的网址亚洲精品在线观看| 精品国产一区二区久久| 中文字幕av电影在线播放| a级毛色黄片| 一级毛片aaaaaa免费看小| 人体艺术视频欧美日本| 精华霜和精华液先用哪个| 久久午夜综合久久蜜桃| 狂野欧美激情性bbbbbb| 成年女人在线观看亚洲视频| 伊人亚洲综合成人网| 精品久久国产蜜桃| 亚洲国产精品成人久久小说| 大又大粗又爽又黄少妇毛片口| 我的老师免费观看完整版| 亚洲av福利一区| 在现免费观看毛片| 亚洲第一av免费看| 肉色欧美久久久久久久蜜桃| 女人精品久久久久毛片| av国产精品久久久久影院| 嘟嘟电影网在线观看| 日韩视频在线欧美| 亚洲欧美一区二区三区黑人 | 美女主播在线视频| 免费大片18禁| 久久人人爽人人片av| 国产伦精品一区二区三区四那| 亚洲精品视频女| 成人特级av手机在线观看| 欧美精品亚洲一区二区| 日韩一区二区视频免费看| 男女啪啪激烈高潮av片| 成人特级av手机在线观看| 亚洲人与动物交配视频| 国产免费又黄又爽又色| 久久99一区二区三区| 大片电影免费在线观看免费| 日韩亚洲欧美综合| 久久狼人影院| 亚洲精品亚洲一区二区| 午夜久久久在线观看| 午夜激情福利司机影院| 亚洲国产精品999| 91aial.com中文字幕在线观看| 成人漫画全彩无遮挡| 日本黄色片子视频| 人妻制服诱惑在线中文字幕| 亚洲欧美成人综合另类久久久| 国产成人免费无遮挡视频| 丝袜在线中文字幕| 女性生殖器流出的白浆| 久久久久久久久大av| 男男h啪啪无遮挡| tube8黄色片| 欧美日韩一区二区视频在线观看视频在线| 99热网站在线观看| 色婷婷久久久亚洲欧美| 国产欧美日韩精品一区二区| av网站免费在线观看视频| 欧美国产精品一级二级三级 | 你懂的网址亚洲精品在线观看| 亚洲av.av天堂| 老司机影院成人| 日韩电影二区| 欧美精品人与动牲交sv欧美| a级毛片免费高清观看在线播放| 在线免费观看不下载黄p国产| 欧美高清成人免费视频www| 亚洲av欧美aⅴ国产| 我要看日韩黄色一级片| 国产一级毛片在线| 日本黄色日本黄色录像| av福利片在线| 嫩草影院入口| 国产免费又黄又爽又色| a级毛片在线看网站| 久久99热这里只频精品6学生| 美女视频免费永久观看网站| 成人免费观看视频高清| 亚州av有码| 妹子高潮喷水视频| 三级经典国产精品| 国产精品国产三级国产av玫瑰| 成年人午夜在线观看视频| 在线精品无人区一区二区三| 国内揄拍国产精品人妻在线| 婷婷色综合www| 午夜视频国产福利| 亚洲美女黄色视频免费看| 久久99热这里只频精品6学生| 国产日韩欧美亚洲二区| 成人毛片a级毛片在线播放| 18禁在线播放成人免费| 午夜精品国产一区二区电影| 三级经典国产精品| 亚洲国产欧美在线一区| 人妻系列 视频| 人妻制服诱惑在线中文字幕| 亚洲怡红院男人天堂| 国产精品久久久久成人av| 久久毛片免费看一区二区三区| 五月伊人婷婷丁香| 2021少妇久久久久久久久久久| 欧美成人精品欧美一级黄| 中文资源天堂在线| 少妇被粗大猛烈的视频| 欧美精品一区二区大全| 人人澡人人妻人| 国产精品久久久久久久久免| av天堂中文字幕网| 黑人猛操日本美女一级片| 极品教师在线视频| 亚洲在久久综合| 日韩不卡一区二区三区视频在线| 美女cb高潮喷水在线观看| 日韩人妻高清精品专区| 色哟哟·www| 麻豆精品久久久久久蜜桃| 久久av网站| 97超视频在线观看视频| 中文乱码字字幕精品一区二区三区| 免费看不卡的av| 一区在线观看完整版| 久久99热这里只频精品6学生| 中国国产av一级| 亚洲欧美日韩东京热| 久久久久精品性色| 婷婷色麻豆天堂久久| 久久精品国产a三级三级三级| 午夜影院在线不卡| 亚洲成人av在线免费| 99久久中文字幕三级久久日本| 国产片特级美女逼逼视频| 精品人妻熟女毛片av久久网站| 色婷婷av一区二区三区视频| 亚洲欧美一区二区三区国产| 亚洲国产日韩一区二区| 97超视频在线观看视频| a级毛色黄片| 国产熟女欧美一区二区| 国产国拍精品亚洲av在线观看| 久久精品久久久久久久性| 全区人妻精品视频| 中国国产av一级| 免费黄网站久久成人精品| 国产女主播在线喷水免费视频网站| 噜噜噜噜噜久久久久久91| 中文字幕人妻熟人妻熟丝袜美| 亚洲精品亚洲一区二区| 一二三四中文在线观看免费高清| 国产成人精品一,二区| 在线观看免费日韩欧美大片 | 在线观看美女被高潮喷水网站| 精品人妻一区二区三区麻豆| 日韩一本色道免费dvd| 黄色毛片三级朝国网站 | 久久久国产一区二区| 极品教师在线视频| 成年美女黄网站色视频大全免费 | 2018国产大陆天天弄谢| 久热久热在线精品观看| 欧美日韩一区二区视频在线观看视频在线| 18禁在线播放成人免费| 日本91视频免费播放| 久久99精品国语久久久| 午夜福利影视在线免费观看| 国产伦理片在线播放av一区| av免费在线看不卡| 天堂俺去俺来也www色官网| 亚洲经典国产精华液单| 一级毛片电影观看| 亚洲精品一区蜜桃| 自拍偷自拍亚洲精品老妇| 日本91视频免费播放| 插逼视频在线观看| 久久午夜综合久久蜜桃| 国产乱人偷精品视频| 国产黄频视频在线观看| 亚洲精品国产av成人精品| 国产成人一区二区在线| av又黄又爽大尺度在线免费看| 晚上一个人看的免费电影| 亚洲精品aⅴ在线观看| 啦啦啦视频在线资源免费观看| 青春草视频在线免费观看| 五月伊人婷婷丁香| 狂野欧美白嫩少妇大欣赏| 波野结衣二区三区在线| 一级二级三级毛片免费看| 一级爰片在线观看| 中文欧美无线码| 麻豆成人午夜福利视频| 成人亚洲欧美一区二区av| 一级二级三级毛片免费看| 久久久久久久亚洲中文字幕| 国产一区二区在线观看日韩| 国产精品一区www在线观看| 国产高清不卡午夜福利| 日本爱情动作片www.在线观看| 在线观看免费视频网站a站| 亚洲av男天堂| 亚洲国产欧美日韩在线播放 | 一本久久精品| 久久久久久久久久成人| 亚洲内射少妇av| 涩涩av久久男人的天堂| 日本av免费视频播放| 黄色视频在线播放观看不卡| 亚洲成人av在线免费| 狂野欧美激情性xxxx在线观看| 久久久久久久亚洲中文字幕| 看非洲黑人一级黄片| 国产美女午夜福利| 插逼视频在线观看| 在线观看美女被高潮喷水网站| 成人综合一区亚洲| 成人黄色视频免费在线看| av不卡在线播放| 久久久国产精品麻豆| 免费大片18禁| 中文字幕久久专区| 亚洲av.av天堂| 欧美成人精品欧美一级黄| 亚洲一区二区三区欧美精品| 午夜老司机福利剧场| 成年人免费黄色播放视频 | 一边亲一边摸免费视频| 最近的中文字幕免费完整| 国产成人一区二区在线| 午夜激情久久久久久久| 亚洲国产精品国产精品| 成人黄色视频免费在线看| 少妇熟女欧美另类| 欧美日韩一区二区视频在线观看视频在线| 最近中文字幕高清免费大全6| 大又大粗又爽又黄少妇毛片口| 国产精品秋霞免费鲁丝片| 亚洲国产欧美日韩在线播放 | 国产淫片久久久久久久久| 大陆偷拍与自拍| 国产av国产精品国产| 久久av网站| a级毛片免费高清观看在线播放| 丝袜脚勾引网站| 在线观看av片永久免费下载| 国产淫片久久久久久久久| 天天操日日干夜夜撸| 亚洲国产精品成人久久小说| 交换朋友夫妻互换小说| 国产老妇伦熟女老妇高清| 全区人妻精品视频| 亚洲精品国产av成人精品| 日本免费在线观看一区| 最近手机中文字幕大全| 肉色欧美久久久久久久蜜桃| 亚洲欧美清纯卡通| 肉色欧美久久久久久久蜜桃| 国产精品久久久久成人av| 日本-黄色视频高清免费观看| 国内精品宾馆在线| 国产成人精品久久久久久| 99久国产av精品国产电影| 成年美女黄网站色视频大全免费 | 99热这里只有是精品在线观看| 国产精品国产三级专区第一集| 麻豆乱淫一区二区| 国产精品偷伦视频观看了| 亚洲av综合色区一区| 69精品国产乱码久久久| 亚洲av不卡在线观看| 日韩不卡一区二区三区视频在线| 亚洲图色成人| 日日撸夜夜添| 国产成人精品一,二区| 国产国拍精品亚洲av在线观看| 日韩一区二区视频免费看| 91久久精品国产一区二区三区| 亚洲精品一二三| 视频中文字幕在线观看| 看免费成人av毛片| 久久国产亚洲av麻豆专区| 国产av精品麻豆| 日韩亚洲欧美综合| 2022亚洲国产成人精品| 久久久久久久国产电影| 18禁裸乳无遮挡动漫免费视频| 两个人免费观看高清视频 | 亚洲国产日韩一区二区| 毛片一级片免费看久久久久| 国产av精品麻豆| 熟女人妻精品中文字幕| 亚洲美女黄色视频免费看| 亚洲av在线观看美女高潮| 午夜激情久久久久久久| 亚洲国产精品999| 亚洲婷婷狠狠爱综合网| 永久免费av网站大全| 欧美丝袜亚洲另类| 精品一区二区免费观看| 黄色欧美视频在线观看| 丰满迷人的少妇在线观看| 成人亚洲精品一区在线观看| av不卡在线播放| 2022亚洲国产成人精品| 蜜桃久久精品国产亚洲av| 亚洲国产欧美在线一区| av视频免费观看在线观看| 偷拍熟女少妇极品色| 国产精品.久久久| 国内精品宾馆在线| 国产黄色免费在线视频| 国产一级毛片在线| 美女国产视频在线观看| 精品久久久噜噜| 久久ye,这里只有精品| 亚洲欧美日韩东京热| 婷婷色综合www| 日本色播在线视频| 在线观看免费视频网站a站| 国产精品久久久久久av不卡| 男女边摸边吃奶| 精品人妻一区二区三区麻豆| 天堂8中文在线网| 午夜福利在线观看免费完整高清在| 欧美成人精品欧美一级黄| 国产亚洲午夜精品一区二区久久| av福利片在线观看| 另类精品久久| 免费久久久久久久精品成人欧美视频 | 国产精品人妻久久久影院| 亚洲欧美日韩东京热| 国产美女午夜福利| 99久久中文字幕三级久久日本| 一个人看视频在线观看www免费| 下体分泌物呈黄色| 国产成人91sexporn| 麻豆成人av视频| 亚洲欧美中文字幕日韩二区| 亚洲欧美成人综合另类久久久| 亚洲欧美成人精品一区二区| 亚洲av免费高清在线观看| 久久久久精品久久久久真实原创| 亚洲精品一二三| 热99国产精品久久久久久7| 国产欧美日韩综合在线一区二区 | 国产成人精品婷婷| 亚洲成色77777| 妹子高潮喷水视频| 午夜久久久在线观看| 精品国产一区二区三区久久久樱花| 一级av片app| 国产一区亚洲一区在线观看| 日韩熟女老妇一区二区性免费视频| 日韩一区二区三区影片| 在线观看三级黄色| 人人妻人人澡人人爽人人夜夜| 国产69精品久久久久777片| 九色成人免费人妻av| 99视频精品全部免费 在线| 特大巨黑吊av在线直播| 久久ye,这里只有精品| 在线看a的网站|