徐澤輝,珠 杰, 許澤洲,汪 超,嚴(yán)松思,劉亞姍
(1. 西藏大學(xué) 信息科學(xué)技術(shù)學(xué)院,西藏 拉薩 540000;2. 省部共建西藏信息化協(xié)同創(chuàng)新中心,西藏 拉薩 540000)
命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語(yǔ)言處理中一項(xiàng)經(jīng)典的任務(wù),其目的是從自然文本中抽取實(shí)體并將其分類(lèi)為預(yù)先定義的類(lèi)別。BiLSTM-CRF(Birectional Long Short-Term Memory-Conditional Random Field)模型[1]在中英文命名實(shí)體識(shí)別領(lǐng)域取得了巨大成功,但是也存在著訓(xùn)練開(kāi)銷(xiāo)大的問(wèn)題。本文將其運(yùn)用到藏文命名實(shí)體識(shí)別,BiLSTM-CRF模型會(huì)計(jì)算每個(gè)輸入的藏文音節(jié)對(duì)應(yīng)每種標(biāo)簽的概率并選擇最佳組合,而事實(shí)上只要確定了實(shí)體首位音節(jié)所對(duì)應(yīng)的實(shí)體類(lèi)別,就不需要對(duì)該實(shí)體后續(xù)音節(jié)進(jìn)行計(jì)算。同時(shí)由于藏文是一種低資源語(yǔ)言,目前還沒(méi)有公開(kāi)的藏文命名實(shí)體識(shí)別數(shù)據(jù)集,大規(guī)模且高質(zhì)量的標(biāo)注數(shù)據(jù)集獲取困難,考慮將預(yù)訓(xùn)練模型Word2Vec[2]、ELMo[3]、ALBERT[4]引入藏文命名實(shí)體識(shí)別,以彌補(bǔ)數(shù)據(jù)資源不足的問(wèn)題。
本文擬采用級(jí)聯(lián)任務(wù)的方式,將實(shí)體邊界劃分、實(shí)體類(lèi)別判斷分開(kāi)進(jìn)行,并結(jié)合預(yù)訓(xùn)練技術(shù)構(gòu)建Cascade-Word2Vec-BiLSTM-CRF模型、Cascade-ELMo-BiLSTM-CRF模型、Cascade-ALBERT- BiLSTM-CRF模型,達(dá)到縮短訓(xùn)練時(shí)間、提高識(shí)別效果的目的。
早期的藏文命名實(shí)體識(shí)別主要采用基于規(guī)則的方法[5-6],通過(guò)語(yǔ)言學(xué)專(zhuān)家對(duì)藏文文本手工構(gòu)建有限規(guī)則,再?gòu)奈谋局袑ふ遗c這些規(guī)則匹配的字符來(lái)識(shí)別命名實(shí)體,該方法依賴知識(shí)庫(kù)和詞典的建立,需要耗費(fèi)大量的時(shí)間和精力,而且難以找到適合所有領(lǐng)域的規(guī)則模型,可遷移性較差。2013年開(kāi)始逐漸將統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型應(yīng)用到藏文命名實(shí)體識(shí)別上,華卻才讓等[7]將基于音節(jié)特征的感知機(jī)模型應(yīng)用于藏文命名實(shí)體識(shí)別,在測(cè)試集上F1值達(dá)到了86%。珠杰等[8]通過(guò)分析藏文文法,認(rèn)為藏文人名的上下文特征可作為藏文人名識(shí)別特征,研究了觸發(fā)詞、虛詞、人名詞典、指人名詞后綴等不同特征的組合,優(yōu)化對(duì)藏文人名識(shí)別效果,將這些特征應(yīng)用在條件隨機(jī)場(chǎng)模型,F1值最高達(dá)到80%。劉飛飛等[9]提出了藏文人名高頻詞和譯名姓氏、上下文信息、人名并列關(guān)系的三層特征模型,利用條件隨機(jī)場(chǎng)進(jìn)行藏文人名識(shí)別研究,F1值最高達(dá)到了95%。近些年隨著計(jì)算機(jī)算力的不斷提高,深度學(xué)習(xí)被廣泛應(yīng)用在計(jì)算機(jī)視覺(jué)以及自然語(yǔ)言處理中,這種可以自動(dòng)學(xué)習(xí)句子特征,無(wú)需復(fù)雜特征工程的神經(jīng)網(wǎng)絡(luò)也被研究者應(yīng)用到藏文命名實(shí)體識(shí)別中。珠杰等[10]采用Word2Vec模型,首先訓(xùn)練出200維的藏文詞向量,然后將之輸入到三層神經(jīng)網(wǎng)絡(luò)中,實(shí)驗(yàn)結(jié)果顯示F1值達(dá)到94%以上。王志娟等[11]提出一種主動(dòng)學(xué)習(xí)策略,首先利用少量標(biāo)注語(yǔ)料訓(xùn)練一個(gè)CRF模型,然后用這個(gè)模型去標(biāo)注大量未標(biāo)注語(yǔ)料,選擇置信度高的語(yǔ)料作為標(biāo)注語(yǔ)料。實(shí)驗(yàn)表明,只需要原來(lái)約33%的標(biāo)注語(yǔ)料,就可達(dá)到與監(jiān)督式模型相近的識(shí)別效果。孫朋[12]提出了三種主動(dòng)學(xué)習(xí)采樣策略,然后在主動(dòng)學(xué)習(xí)模型的基礎(chǔ)上融入了自學(xué)習(xí)采樣策略,在降低了約77%的語(yǔ)料標(biāo)注量后,F1值達(dá)到89.36%。李曉敏[13]設(shè)計(jì)實(shí)現(xiàn)了基于BiLSTM-CRF和IDCNN-CRF的藏文命名實(shí)體識(shí)別模型,并對(duì)IDCNN-CRF模型做了改進(jìn),將卷積操作后連接的一個(gè)全連接層改為兩個(gè),改進(jìn)后的IDCNN-CRF模型相比于原模型F1值提高了約0.83%,并將注意力機(jī)制引入上述兩個(gè)模型,F1值最高達(dá)到80.81%。環(huán)科尤[14]通過(guò)研究格薩爾史詩(shī)特點(diǎn),除了提出六種實(shí)體類(lèi)型,還將BERT預(yù)訓(xùn)練模型融合到LSTM-CRF模型中,取得了最好的識(shí)別效果,F1值達(dá)到98.11%。洛桑嘎登等[15]基于藏文音節(jié)構(gòu)成原理,將藏文音節(jié)構(gòu)件特征和藏文音節(jié)特征融合輸入到BiLSTM-CRF模型中,相比于只輸入藏文音節(jié)特征的模型,該模型F1值提高了約1.58%。
2015年Huang等[1]首次提出了將BiLSTM-CRF模型用于序列標(biāo)注任務(wù),本文采用BiLSTM-CRF模型作為藏文命名實(shí)體識(shí)別基線模型。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種,RNN理論上可以處理任意長(zhǎng)度的序列信息,但是當(dāng)序列過(guò)長(zhǎng)時(shí)會(huì)出現(xiàn)梯度消失問(wèn)題,且很難學(xué)到長(zhǎng)期依賴特征。LSTM模型通過(guò)遺忘門(mén)、輸入門(mén)、輸出門(mén)解決了RNN序列過(guò)長(zhǎng)時(shí)出現(xiàn)的梯度消失和長(zhǎng)期依賴問(wèn)題。LSTM單元結(jié)構(gòu)如圖1所示。
具體計(jì)算過(guò)程如式(1)~式(6)所示。
BiLSTM的優(yōu)勢(shì)在于能夠考慮長(zhǎng)遠(yuǎn)的上下文信息,但是不能夠考慮標(biāo)簽間的依賴關(guān)系,而條件隨機(jī)場(chǎng)(CRF)模型能夠考慮標(biāo)簽的相鄰關(guān)系,獲得全局最優(yōu)標(biāo)簽序列,所以我們使用CRF來(lái)建模標(biāo)簽序列。將二者結(jié)合起來(lái),BiLSTM-CRF模型如圖2所示。
圖2 BiLSTM-CRF模型
使用BiLSTM-CRF模型進(jìn)行藏文命名實(shí)體識(shí)別,不僅需要識(shí)別實(shí)體邊界,還需要判斷出實(shí)體類(lèi)型,如圖2所示。BiLSTM需要分別計(jì)算每個(gè)音節(jié)九種標(biāo)簽的得分,在CRF層中也需要學(xué)習(xí)11×11的轉(zhuǎn)移矩陣,其中加入了句子開(kāi)始標(biāo)志(S)和句子結(jié)束標(biāo)志(E)。而事實(shí)上只要判斷出實(shí)體詞第一個(gè)音節(jié)是什么類(lèi)型,該實(shí)體后續(xù)音節(jié)就必然與實(shí)體開(kāi)始音節(jié)類(lèi)型相同。2020年Wei等[17]提出一種級(jí)聯(lián)思想(Cascade),很好地解決了關(guān)系抽取中三元組重疊問(wèn)題。將Cascade思想運(yùn)用到命名實(shí)體識(shí)別中,把實(shí)體邊界識(shí)別和實(shí)體類(lèi)型判斷分開(kāi)來(lái),作為兩個(gè)任務(wù)。首先識(shí)別實(shí)體邊界,將隨機(jī)初始化的音節(jié)向量送入到BiLSTM-CRF模型中,標(biāo)簽只有B、I、O三種,轉(zhuǎn)移矩陣僅為5×5,相比于單任務(wù)的BiLSTM-CRF模型,標(biāo)簽種類(lèi)和轉(zhuǎn)移矩陣都大大縮減,運(yùn)算效率得到極大提升。實(shí)體類(lèi)型判斷只需抽取BiLSTM輸出的實(shí)體表征向量,將表征向量輸入一個(gè)全連接層做分類(lèi)即可[18]。本文采用每個(gè)實(shí)體詞第一個(gè)音節(jié)的向量作為該實(shí)體表征向量,實(shí)體類(lèi)別標(biāo)簽只有四種,分別為普通名詞(ng)、人名(nh)、地名(ns)、組織機(jī)構(gòu)名(ni)。Cascade-BiLSTM-CRF模型如圖3所示。
圖 3 Cascade-BiLSTM-CRF模型
預(yù)訓(xùn)練技術(shù)的發(fā)展可追溯到2013年由谷歌的Milolov等[2]提出的Word2Vec模型,該模型是將無(wú)標(biāo)文本數(shù)據(jù)轉(zhuǎn)化為低維度的稠密向量表示,目的是通過(guò)學(xué)習(xí)相鄰單詞之間的上下文關(guān)系來(lái)預(yù)測(cè)每個(gè)單詞的向量表示,Word2Vec模型最初被廣泛應(yīng)用于詞向量表示的學(xué)習(xí),其高效的訓(xùn)練和高質(zhì)量的詞向量表示成為了預(yù)訓(xùn)練領(lǐng)域的基礎(chǔ)。2018年P(guān)eters等[3]提出了ELMo(Embeddings from Language Models)模型,ELMo利用預(yù)訓(xùn)練的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)對(duì)大規(guī)模文本語(yǔ)料進(jìn)行學(xué)習(xí),捕捉詞匯的復(fù)雜語(yǔ)義信息和語(yǔ)法特征。與傳統(tǒng)的詞向量表示(如Word2Vec)相比,ELMo能夠生成上下文相關(guān)的詞向量,從而更好地描述多義詞及其在不同語(yǔ)境下的含義。ALBERT[4]是一種基于BERT[9]的輕量級(jí)語(yǔ)言模型,于2019年由谷歌提出,與BERT相似,其也是一種基于Transformer架構(gòu)的預(yù)訓(xùn)練語(yǔ)言模型,ALBERT通過(guò)對(duì)BERT的改進(jìn)和優(yōu)化,減少參數(shù)量和提高訓(xùn)練效率的同時(shí),仍保持高水平的性能表現(xiàn)。
本文使用2.33 GB藏文無(wú)標(biāo)語(yǔ)料對(duì)預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練,三種預(yù)訓(xùn)練模型向量維度均設(shè)置為300,得到藏文Word2Vec、ELMo、ALBERT預(yù)訓(xùn)練模型后,將藏文音節(jié)序列分別輸入這三種預(yù)訓(xùn)練模型,獲得該序列中每個(gè)音節(jié)的Word2Vec、ELMo、ALBERT向量,然后,輸入 Cascade-BiLSTM-CRF模型中的隨機(jī)初始化音節(jié)向量分別由藏文 Word2Vec音節(jié)向量、藏文ELMo音節(jié)向量、藏文ALBERT音節(jié)向量替換,構(gòu)建Cascade-Word2Vec-BiLSTM-CRF 模型、Cascade-ELMo-BiLSTM-CRF 模型、Cascade-ALBERT-BiLSTM-CRF 模型。
由于目前沒(méi)有公開(kāi)的藏文命名實(shí)體識(shí)別數(shù)據(jù)集,本文實(shí)驗(yàn)數(shù)據(jù)由西藏信息化省部共建協(xié)同創(chuàng)新中心提供,共18.27MB語(yǔ)料,在此基礎(chǔ)上按照B-ng, I-ng, B-nh, I-nh, B-ns, I-ns, B-ni,I-ni,O進(jìn)行標(biāo)注,將語(yǔ)料按照9∶0.5∶0.5的比例劃分訓(xùn)練集、驗(yàn)證集與測(cè)試集,16.44 MB語(yǔ)料作為訓(xùn)練集,0.91 MB語(yǔ)料作為驗(yàn)證集,0.91 MB語(yǔ)料作為測(cè)試集。各類(lèi)實(shí)體統(tǒng)計(jì)如表1所示。
表1 數(shù)據(jù)集各類(lèi)實(shí)體個(gè)數(shù)
本文采用精確率P、召回率R和F1值來(lái)對(duì)藏文命名實(shí)體識(shí)別進(jìn)行評(píng)測(cè)。具體定義如式(7)~式(9)所示。
其中,Tp表示本來(lái)是實(shí)體,識(shí)別為實(shí)體的個(gè)數(shù);Fp表示本來(lái)是非實(shí)體,識(shí)別為實(shí)體的個(gè)數(shù),FN表示本來(lái)是實(shí)體,識(shí)別為非實(shí)體的個(gè)數(shù)。
針對(duì)藏文命名實(shí)體識(shí)別任務(wù),本文使用如表2所示的實(shí)驗(yàn)硬件環(huán)境及參數(shù)設(shè)置。
表2 實(shí)驗(yàn)硬件環(huán)境及參數(shù)設(shè)置
本文使用相同的標(biāo)注語(yǔ)料訓(xùn)練BiLSTM-CRF模型、Word2Vec-BiLSTM-CRF模型、ELMo-BiLSTM-CRF模型、ALBERT-BiLSTM-CRF模型、Cascade-BiLSTM-CRF模型、Cascade-Word2Vec-BiLSTM-CRF模型、Cascade-ELMo-BiLSTM-CRF模型、Cascade-ALBERT-BiLSTM-CRF模型并在測(cè)試集上進(jìn)行了測(cè)試。
如表3所示,BiLSTM-CRF模型訓(xùn)練一輪需要887.49s,而Cascade-BiLSTM-CRF模型訓(xùn)練一輪只需要636.35s,訓(xùn)練時(shí)間縮短了28.30%,而F1值僅降低0.81%;Word2Vec-BiLSTM-CRF模型在使用了Cascade技術(shù)后訓(xùn)練一輪時(shí)間減少29.86%,而F1值僅僅降低0.62%;ELMo-BiLSTM-CRF模型在使用了Cascade技術(shù)后訓(xùn)練一輪時(shí)間減少28.02%,而F1值僅降低1.03%;ALBERT-BiLSTM-CRF模型在使用了Cascade技術(shù)后訓(xùn)練一輪時(shí)間減少38.76%,同時(shí)F1值提高0.63%。實(shí)驗(yàn)證明了Cascade技術(shù)可以有效降低訓(xùn)練時(shí)間,節(jié)省計(jì)算資源。另外,從實(shí)驗(yàn)結(jié)果可以看出,藏文命名實(shí)體識(shí)別任務(wù)在加入了ALBERT預(yù)訓(xùn)練語(yǔ)言模型后F1值提升明顯,ALBERT-BiLSTM-CRF模型相比于基線模型BiLSTM-CRFF1值提高7.61%;相比于Word2Vec-BiLSTM-CRF模型F1值提高5.77%;相比于ELMo-BiLSTM-CRF模型F1值提高3.03%。
表3 各模型實(shí)驗(yàn)結(jié)果
本文將Cascade技術(shù)應(yīng)用于藏文命名實(shí)體識(shí)別,將一個(gè)大任務(wù)分為兩個(gè)小任務(wù),使得訓(xùn)練時(shí)間減少,但是這也導(dǎo)致了實(shí)體分類(lèi)時(shí)出現(xiàn)誤差,從而使識(shí)別效果降低。使用預(yù)訓(xùn)練模型后,更好地學(xué)習(xí)了藏文先驗(yàn)知識(shí),從而使識(shí)別效果相較于基線模型有所提高,并且Word2Vec、ELMo、ALBERT三種預(yù)訓(xùn)練模型對(duì)于藏文命名實(shí)體識(shí)別效果的提升依次增強(qiáng)。結(jié)合Cascade技術(shù)后識(shí)別效率也有所提高。
由于在使用Cascade技術(shù)時(shí)采取了用第一個(gè)音節(jié)向量代替整個(gè)藏文詞向量的方法,導(dǎo)致在實(shí)體分類(lèi)時(shí)出現(xiàn)偏差。在下一步的研究中需要對(duì)藏文實(shí)體的向量表征進(jìn)行進(jìn)一步探索。