魯佩佩
摘要:訓(xùn)練語料庫的貧乏對(duì)低資源語種的命名實(shí)體識(shí)別效果有很大影響,高資源語種向低資源語種進(jìn)行標(biāo)簽投影解決了低資源語種的語料問題。但由于詞典的投影昂貴且單一,而Wikidata提供多語詞條,一對(duì)多的標(biāo)注投影極大地減少了投影產(chǎn)生的噪聲,通過易獲得的雙語平行文本,基于Wikidata詞條可構(gòu)建多語種知識(shí)庫,完成標(biāo)簽投影,構(gòu)建訓(xùn)練語料庫,提升低資源語種實(shí)體的識(shí)別功能。
關(guān)鍵詞:低資源語種;知識(shí)庫;命名實(shí)體識(shí)別;標(biāo)簽投影
中文圖書分類號(hào):TP393? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)04-0184-03
命名實(shí)體識(shí)別任務(wù)的研究從基于規(guī)則、基于統(tǒng)計(jì)到基于深度學(xué)習(xí),雖然深度學(xué)習(xí)的研究方法在英文等語種的實(shí)體識(shí)別中有極優(yōu)的效果,但是對(duì)于沒有足夠多標(biāo)注數(shù)據(jù)的低資源語種來說,深度學(xué)習(xí)模型效果不理想。
對(duì)于低資源語種的命名實(shí)體識(shí)別,文獻(xiàn)[1]主要實(shí)現(xiàn)了基于統(tǒng)計(jì)與規(guī)則相結(jié)合的人名通過條件隨機(jī)場識(shí)別;文獻(xiàn)[2]提出了基于學(xué)習(xí)的實(shí)體識(shí)別學(xué)習(xí)框架,向已有特定領(lǐng)域的模型進(jìn)行學(xué)習(xí),并遷移到任意神經(jīng)網(wǎng)絡(luò)模型,避免受到數(shù)據(jù)噪聲的干擾;文獻(xiàn)[3]使用并行數(shù)據(jù)將詞性信息從資源豐富的語言傳輸?shù)劫Y源貧乏的語言使用少量帶注釋的數(shù)據(jù)來學(xué)習(xí)糾正錯(cuò)誤,使用少量帶標(biāo)注的訓(xùn)練數(shù)據(jù)通過單詞對(duì)齊進(jìn)行標(biāo)簽投影來進(jìn)行半監(jiān)督學(xué)習(xí)。
本文將關(guān)系抽取中使用較廣泛的遠(yuǎn)程監(jiān)督方法應(yīng)用到命名實(shí)體識(shí)別中,通過Wikidata[4]構(gòu)建多語種知識(shí)庫,基于知識(shí)庫詞條對(duì)實(shí)體標(biāo)簽投影。對(duì)于投影產(chǎn)生的標(biāo)注數(shù)據(jù),使用BILSTM處理輸入,輸出層后連接CRF對(duì)輸出結(jié)果進(jìn)行約束。
1數(shù)據(jù)預(yù)處理及遠(yuǎn)程監(jiān)督知識(shí)庫構(gòu)建
遠(yuǎn)程監(jiān)督是由Mintz[5]提出的一種弱監(jiān)督學(xué)習(xí)方法,多用于進(jìn)行信息抽取中的關(guān)系抽取領(lǐng)域,它主要是通過現(xiàn)有的知識(shí)庫對(duì)齊大量的無標(biāo)注語料庫來構(gòu)建監(jiān)督學(xué)習(xí)所需的知識(shí)關(guān)系語料,可以用來解決監(jiān)督學(xué)習(xí)中標(biāo)注語料不足的問題,則對(duì)于本文涉及的低資源語種的標(biāo)注數(shù)據(jù)量不足的問題,可通過遠(yuǎn)程監(jiān)督,通過對(duì)齊知識(shí)庫,構(gòu)建低資源語種的實(shí)體標(biāo)注語料庫。
1.1Wikidata構(gòu)建知識(shí)庫
在Wikidata知識(shí)庫中,詞條數(shù)目超過四千萬,數(shù)據(jù)存儲(chǔ)以三元組的“主謂賓”方式。對(duì)于語句“新褲子樂隊(duì)的成員有彭磊、龐寬、趙夢(mèng)和Hayato”則有三元組“name(entity)-member(relationship)-Hayato(entity)”。對(duì)Wikidata的數(shù)據(jù)查詢使用SPARQL[6]語言,它的主要操作是根據(jù)給定的關(guān)系,從三元組中獲得關(guān)系兩側(cè)的實(shí)體。
1.2基于Selenium的爬蟲翻譯
目前,谷歌翻譯支持109種語言,在構(gòu)建知識(shí)庫時(shí),因?yàn)閷?shí)體的全稱或簡稱有多種,但都代表此實(shí)體,如表1所示,Wikidata中,新疆這個(gè)詞條對(duì)應(yīng)的各語言個(gè)數(shù)存在多個(gè),其中,西班牙語(Spanish)對(duì)應(yīng)21個(gè)。此外,為了投影覆蓋率,本文基于谷歌翻譯,通過Selenium爬蟲工具,優(yōu)化補(bǔ)足知識(shí)庫。
1.3基于知識(shí)庫的標(biāo)注投影
根據(jù)前面的操作步驟,可以完成基本知識(shí)庫構(gòu)建,主要存儲(chǔ)在neo4j數(shù)據(jù)庫中,如圖1所示:
對(duì)于平行語料的雙語文本,基于知識(shí)庫的投影如圖2所示,之后對(duì)目標(biāo)語言投影結(jié)果分解,就可得到命名實(shí)體標(biāo)注序列:B-PEROOB-LOC I-LOC I-LOCI-LOCI-LOC。
2命名實(shí)體識(shí)別模型
實(shí)體識(shí)別模型主要采用BILSTM-CRF[7],如圖3所示,其中BILSTM是由雙向的LSTM組成,此構(gòu)造可以充分利用上下文信息,把正向和反向兩個(gè)方向計(jì)算的值拼接作為CRF層的輸入,BILSTM的輸出是標(biāo)簽的概率值,在BILSTM后接入CRF層主要是預(yù)測標(biāo)簽時(shí)可以充分考慮上下文關(guān)聯(lián),規(guī)避如“B-ORG”后接“I-PER”的情況。
其中,長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)結(jié)構(gòu)如圖4所示,圖中G1,G2,G3表示門單元結(jié)構(gòu)。G1通過sigmod激活函數(shù)處理上一隱藏狀態(tài)以及當(dāng)前輸入來決定是否忘記上一隱藏狀態(tài)。G2通過sigmod和tanh來處理當(dāng)前序列位置的輸入,G3則通過序列輸入和控制參數(shù)的輸出,決定需遺忘和需記憶的信息,得到當(dāng)前位置的狀態(tài)。計(jì)算如下:
3實(shí)驗(yàn)
3.1實(shí)驗(yàn)數(shù)據(jù)集
本文雙語平行語料庫主要采用歐洲議會(huì)平行語料庫1996-2011,它包括21種歐洲語言,實(shí)驗(yàn)中選取西班牙語-英語的平行語料,測試集采用CoNLL2002數(shù)據(jù)集,該數(shù)據(jù)集包含西班牙語和荷蘭語兩個(gè)語種,本文選取西班牙語的測試集進(jìn)行測試。實(shí)驗(yàn)數(shù)據(jù)詳情見表2:
3.2標(biāo)注方式和評(píng)價(jià)標(biāo)準(zhǔn)
本文采用的是BIO標(biāo)注,對(duì)人名、地名和機(jī)構(gòu)名三類實(shí)體進(jìn)行識(shí)別操作。評(píng)價(jià)標(biāo)準(zhǔn)采用精確率(P)、召回率(R)和F1值,定義如下:
3.3知識(shí)庫構(gòu)建及訓(xùn)練文本生成
對(duì)于平行文本,首先使用StanfordCorenlp工具對(duì)英語文本進(jìn)行命名實(shí)體識(shí)別,該工具主要識(shí)別八種類型:O、MISC、LOCATION、GPE、FACILITY、ORGANIZATION、DEMONYM和PERSON,本文主要進(jìn)行PERSON、LOCATION和ORGANIZATION的識(shí)別。源語種文本實(shí)體數(shù)如表3所示。根據(jù)實(shí)體識(shí)別生成的詞條,從Wikidata中獲得相應(yīng)實(shí)體的西班牙語表示,再投影至西班牙語文本,形成訓(xùn)練數(shù)據(jù)。
3.4基于BILSTM-CRF模型進(jìn)行西班牙語命名實(shí)體識(shí)別
為了對(duì)比不同方法對(duì)低資源語種命名實(shí)體識(shí)別的效果,本文對(duì)比CRF模型、BILSTM模型和BILSTM-CRF模型對(duì)于只有少量訓(xùn)練數(shù)據(jù)的語言進(jìn)行訓(xùn)練的結(jié)果,選取CoNLL2002語料庫中的200條數(shù)據(jù)進(jìn)行訓(xùn)練。之后再將本文生成的投影數(shù)據(jù)單獨(dú)使用BILSTM-CRF模型進(jìn)行訓(xùn)練,參數(shù)設(shè)置如下:學(xué)習(xí)率為0.01,dropout為0.5,訓(xùn)練周期為20,詞向量維度100,隱藏層維度為100,優(yōu)化器為SGD(Stochastic Gradient Descent)。實(shí)驗(yàn)結(jié)果如表4所示:
實(shí)驗(yàn)結(jié)果表明,對(duì)于只有少量訓(xùn)練語料數(shù)據(jù)的低資源語種來看,測試中識(shí)別效果很差,對(duì)比CRF、BILSTM和BILSTM-CRF模型, BILSTM獲取了詞語前后的歷史信息,融入了詞語的上下文信息,相比于CRF模型,精確率卻下降了18%,因?yàn)橛?xùn)練數(shù)量過少,命名實(shí)體少,但相對(duì)于測試集,命名實(shí)體多了很多,所以在召回率和F1的值中效果就會(huì)較差。輸出層后通過CRF約束可實(shí)現(xiàn)16.42%的改進(jìn)。通過平行文本進(jìn)行實(shí)體投影的語料來說,雖然投影中會(huì)產(chǎn)生不必要的噪聲,但可以在沒有訓(xùn)練語料的情況下,僅僅通過平行文本,就可達(dá)到11%的提升。
4 結(jié)束語
在命名實(shí)體識(shí)別的研究中,對(duì)于訓(xùn)練語料庫豐富的高資源語種可以達(dá)到幾近完全正確,而對(duì)于低資源語種,由于訓(xùn)練數(shù)據(jù)的貧乏,深度學(xué)習(xí)無法學(xué)習(xí)實(shí)體分布?;谠~典投影是獲得大量低資源訓(xùn)練語料最直接的方法,但是詞典構(gòu)建較為昂貴,并且雙語為一對(duì)一對(duì)應(yīng)。
本文提出了基于知識(shí)庫來完成標(biāo)簽從高資源語種向低資源語種的投影,為實(shí)體標(biāo)簽投影提供了新的思路,在實(shí)驗(yàn)中對(duì)比直接對(duì)少量的低資源語種進(jìn)行訓(xùn)練。但是在標(biāo)簽投影的過程中會(huì)出現(xiàn)投影丟失的情況,未來可通過跨語種詞向量對(duì)齊來優(yōu)化知識(shí)庫,并且投影產(chǎn)生的噪聲不能忽略,直接影響訓(xùn)練模型,未來可對(duì)投影數(shù)據(jù)進(jìn)行降噪處理提升識(shí)別率。
參考文獻(xiàn):
[1] 塔什甫拉提,尼扎木丁. 維吾爾語文本信息中人名實(shí)體識(shí)別研究[D].烏魯木齊:新疆大學(xué),2016.
[2] 張寧. 面向特定領(lǐng)域的命名實(shí)體識(shí)別技術(shù)研究[D].杭州:浙江大學(xué),2018.
[3] Duong L,Cohn T,Verspoor K,et al.What can we get from 1000 tokens?A case study of multilingual POS tagging for resource-poor languages[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP).Doha,Qatar.Stroudsburg,PA,USA:Association for ComputationalLinguistics,2014:886-897.
[4] Vrande?i?D,Kr?tzsch M.Wikidata:a free collaborative knowledgebase[J].Communications of the ACM,2014,57(10):78-85.
[5] Mintz M , Bills S , Snow R , et al. Distant supervision for relation extraction without labeled data[C]// International Joint Conference on Acl. Association for Computational Linguistics, 2009.
[6] Catherine COMPAROT,OllivierHAEMMERL?,Nathalie HERNANDEZ. Generation of SPARQL queries from keywords and query patterns[J]. Technique et Science Informatiques,2013,32(7-8).
[7] Huang Z ,Xu W , Yu K . Bidirectional LSTM-CRF Models for Sequence Tagging[J]. Computer ence, 2015.
[8] Yarowsky D,Ngai G,Wicentowski R.Inducingmultilingual text analysis tools via robust projection across aligned corpora[C]//2001:1-8.
[9] Wang M Q,Manning C D.Cross-lingual projected expectation regularization for weakly supervised learning[J].TransactionsoftheAssociation for Computational Linguistics,2014,2:55-66.
[10] Fang M,Cohn T.Learning when to trust distant supervision:an application to low-resource POS tagging using cross-lingual projection[EB/OL].2016:arXiv:1607.01133[cs.CL].https://arxiv.org/abs/1607.01133.
【通聯(lián)編輯:光文玲】