古再力努爾·依明,米吉提·阿不里米提,哈妮克孜·伊拉洪,艾斯卡爾·艾木都拉
(新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046)
從隨機(jī)序列中準(zhǔn)確定位和提取基本粒度單元是自然語言信息處理研究的核心內(nèi)容.這項(xiàng)研究需要大量高質(zhì)量的現(xiàn)實(shí)語料信息.但是很多小語言標(biāo)準(zhǔn)化工作跟不上,給信息處理研究帶來更多困難.由于詞干單元比其他附加成分長些且結(jié)構(gòu)相對穩(wěn)定,因此從語言隨機(jī)序列中確定和提取詞干單元是較有效的處理方法.
維吾爾語是派生類語言,句子由一個(gè)個(gè)分離的詞構(gòu)成,詞可以通過詞干綴加若干詞綴派生.在派生和綴加過程中會產(chǎn)生語音協(xié)調(diào)等變化,并在文本中體現(xiàn)出來.詞干本身是一個(gè)詞,表達(dá)詞的固有詞義,而詞綴獨(dú)立時(shí)沒有含義,但功能強(qiáng)大.詞綴可分為構(gòu)詞詞綴和構(gòu)形詞綴兩個(gè)部分[1].構(gòu)詞詞綴跟詞干連在一起改變詞義,而構(gòu)形詞綴只會改變詞形,卻改變不了詞義.由豐富且復(fù)雜的多種詞綴和形態(tài)綴加形式,從而可以構(gòu)成大量的派生詞.根據(jù)對本文數(shù)據(jù)集進(jìn)行的統(tǒng)計(jì),維吾爾語存在120多種的詞綴和幾千種組合形式,這給詞干提取工作帶來困難.
表1 維吾爾語詞干加詞綴舉例Table 1 Examples of Uyghur stems and affixes
如表1所示,單詞“vorunlaxturux”由詞干“vorun”與3個(gè)構(gòu)詞詞綴“l(fā)ax,tur,ux”構(gòu)成.其中詞干“vorun”(位置)是名詞,給它加詞綴“l(fā)ax”可以構(gòu)成“vorunlax”(表演),其可以做動詞,也可以做名詞.接著給這個(gè)詞加詞綴“tur”,即構(gòu)成動詞“vorunlaxtur”(安排),最終該動詞后面加詞綴“ux”變成了名詞“vorunlaxturux”(安排).
維吾爾語文字中的每個(gè)元音和輔音對應(yīng)的字母以不同的字母形式出現(xiàn)在詞首、詞中和詞末的位置[2].它們的寫法至多有四種或至少有兩種形態(tài).為了減少每個(gè)字母的多種寫法以及便于處理,本文使用拉丁字母對維吾爾語文本進(jìn)行轉(zhuǎn)換,對應(yīng)的字母對照表如表2所示.
表2 字母對照表Table 2 Alphabetical chart
在黏著語詞干提取過程中,當(dāng)處理某個(gè)句子時(shí),先對句子中的成分(單詞)進(jìn)行詞干切分,獲得詞素(詞干和詞綴)形式,如前綴+詞干+復(fù)合詞綴(后綴1+后綴2+后綴3).切分過程中通常會存在一些歧義現(xiàn)象,如下面例子所示.例子中“tepix”和“berix”都是具有兩種詞義的詞.它們在這兩種詞義的基礎(chǔ)上可分成兩組詞干.“tepix”的詞干為“tAp”(踢)和“tap”(找),“berix”的詞干為“bar”(去)和“bAr”(給).這兩個(gè)詞因在句子中包含的意思不同,而決定這個(gè)詞是包括前者詞干的“tepix”(踢)或者“berix”(去)還是包括后者詞干的“tepix”(掙)或者“berix”(給).
tepix(踢掙)=tAp(踢)+ix=tap(找)+ix
berix(去給)=bar(去)+ix=bAr(給)+ix
在自然語言處理領(lǐng)域中,維吾爾語是屬于一種資源稀缺的語言,如果只考慮語言本身存在的詞干詞綴問題,最終結(jié)果可能得不到提升,因此可以從另一個(gè)角度上進(jìn)行全面考慮,即考慮句子層面的上下文信息.本文提出了通過字符級向量和上下文信息相融合并使用雙向LSTM、注意力機(jī)制和條件隨機(jī)場在句子層面上進(jìn)行分析.由于本文數(shù)據(jù)是以句子為單位,每個(gè)句子成分都會受到上下文語義關(guān)系的影響,因此該方法能有效利用上下文信息.
如果要從單詞中提取形態(tài)信息,則必須考慮單詞的所有字符特征,并選擇哪些特征對當(dāng)前任務(wù)更重要.例如,在詞干提取任務(wù)中,信息特征分別出現(xiàn)在開頭(如“navAqil”(無知)中的前綴“na”)或者在結(jié)尾(如“vAhlaqliq”(有禮貌的)中的后綴“l(fā)iq”).為了解決這個(gè)問題,有必要在具有句子上下文信息的數(shù)據(jù)集上考慮詞干與詞綴特征.
維吾爾語作為典型的黏著語,在詞干提取研究中,通常會出現(xiàn)不切分、過度切分和歧義切分等情況,其中歧義現(xiàn)象出現(xiàn)得比較離散,而且沒有固定的規(guī)則,它是因上下文信息而改變.如果僅僅考慮詞語本身,就會出現(xiàn)歧義切分的問題,因此為了避免切分錯(cuò)誤,必須考慮句子上下文信息.此外,當(dāng)遇到罕見詞時(shí),如果不考慮它的前后特征,則會產(chǎn)生該切分的單詞不切分的現(xiàn)象.如果過度切分的情況變多,則不切分的情況會變少,如果過度切分的情況變少,那么不切分的情況就會變多.本文提出的BiLSTM-Attention-CRF模型能平衡以上經(jīng)常存在的情況,根據(jù)輸入序列句子內(nèi)部中的詞干和詞綴之間的關(guān)系,突出詞干和詞綴的界限,通過上下文更有效地解決上述問題.
表3 詞干提取對比實(shí)例Table 3 Stemming comparison example
表3所示,當(dāng)對第1條句子進(jìn)行詞干提取時(shí),傳統(tǒng)模型無法提取“tilxunaslar”(語言學(xué)家們)中的詞干“til”(語言),而誤切分為詞干“tilxunas”(語言學(xué)家)和詞綴“l(fā)ar”,即出現(xiàn)不切分的現(xiàn)象.到句子中的第3個(gè)詞“nuqta”時(shí),傳統(tǒng)模型將詞干尾部的“ta”視為詞綴,并誤切分為詞干“nuq”和詞綴“ta”,此時(shí)出現(xiàn)過度切分的情況.在第2個(gè)和第3個(gè)句子中,“basma”是一詞多義的詞.第2句中的“basma”是動詞,可以切分成“bas+ma”.但是第3句中的“basma”是形容詞,不能再切分.傳統(tǒng)模型把這兩個(gè)句子中的“basma”視為同一個(gè)詞,均切分為詞干“bas”和詞綴“ma”,而未考慮該詞在不同句子中所包含的意思.一般情況下,當(dāng)傳統(tǒng)的詞干提取模型遇到上述類似的情況時(shí),它根據(jù)文本數(shù)據(jù)中統(tǒng)計(jì)的單詞特征和形態(tài)規(guī)則來計(jì)算出各類切分形式的出現(xiàn)概率,但無法進(jìn)行映射,從而得不到正確的切分形式.而本文提出的BiLSTM-Attention-CRF模型根據(jù)輸入的上下文,考慮句子中所包含的前后詞之間的關(guān)聯(lián)和單詞中的字符特征,可以正確的切分成為詞干“til”和詞綴“xunas”、“l(fā)ar”.當(dāng)處理“nuqta”時(shí),本文模型將它看作為一個(gè)單詞,不會進(jìn)行過度切分.到第2和第3條句子,模型根據(jù)上下文語義信息可以正確識別出第2句中的詞干“basma”和第3句中的詞干“bas”和詞綴“ma”.當(dāng)本文模型處理歧義現(xiàn)象問題時(shí),盡管或多或少存在一些歧義切分,并不能完全解決該問題,但是本文提出的模型還是能有效地解決歧義現(xiàn)象問題.
詞干提取在自然語言處理研究中起著關(guān)鍵性作用,它在各種NLP任務(wù)中得到廣泛使用.詞干提取本身就是對文本中的每個(gè)詞進(jìn)行切分,并將詞干和詞綴拆分開來,從而獲得詞干[3].詞干提取能獲取有效的、有意義的語言特征,并減少信息的重復(fù)出現(xiàn)率和特征位數(shù)[4],如以下例子所示:
(原型)vAllikkA vAllikni qoxsaq vAllikniN vikki hAssigA tAN bolidu.(五十加五十等于兩倍的五十.)
(切分后)vAllik+kAvAllik+niqox+saqvAllik+niNvikki hAssi+gA tAN bol+idu.
以上句子由8個(gè)詞組成,對它進(jìn)行詞素切分和詞干提取,可以將其中的3個(gè)詞切分為一個(gè)詞干和3個(gè)詞綴的形式.它們的詞干(下劃線文字)都是vAllik(五十).由3個(gè)詞綴(粗體字)連接在同一個(gè)詞干后面表示3種詞義,從其獲取3種詞特征,如表4所示.由此可見,將維吾爾語詞切分成有效的詞素序列,可以降低詞干和詞綴的重復(fù)率,從而促進(jìn)文本信息處理的發(fā)展.
表4 維吾爾語詞語變體Table 4 Uyghur word variants
在國內(nèi)派生類語言詞干提取研究中,文獻(xiàn)[5]以哈薩克語詞干詞綴連接點(diǎn)為出發(fā),采用N-gram語言模型進(jìn)行詞干提取,并將準(zhǔn)確率達(dá)到了72.34%.文獻(xiàn)[6]開發(fā)了一個(gè)句子級多語言形態(tài)處理工具.該工具提供句子級的詞素提取功能,使用平行語料庫來訓(xùn)練一個(gè)統(tǒng)計(jì)模型,并且將詞素切分準(zhǔn)確率達(dá)到了98%.文獻(xiàn)[7]分別使用Lovins算法、條件隨機(jī)場(CRF)模型和雙向門控循環(huán)單元網(wǎng)絡(luò)(BiGRU),在不同的兩種數(shù)據(jù)集上通過一系列處理對于詞干提取研究進(jìn)行了對比實(shí)驗(yàn).從實(shí)驗(yàn)結(jié)果可知,基于CRF模型的詞干提取方法優(yōu)于傳統(tǒng)方法.如果序列標(biāo)注方式不同,則得到的詞干提取效果也不同.但是數(shù)據(jù)中詞與詞之間的獨(dú)立性給CRF模型學(xué)習(xí)更多的信息帶來不便.文獻(xiàn)[8]采用BiGRU進(jìn)行了維吾爾語詞干提取,并且解決了其中存在的數(shù)據(jù)稀疏的問題.此項(xiàng)實(shí)驗(yàn)表明,通過充分利用上下文信息可以有效解決歧義消解的問題,而且該方法在各個(gè)性能上面超過了幾種主流的統(tǒng)計(jì)方法.文獻(xiàn)[9]采用N-gram模型對于維吾爾語進(jìn)行了詞干提取.在使用N-gram模型的前提下通過詞性特征提取的詞干準(zhǔn)確率達(dá)到了95.19%,同時(shí)把詞性特征和上下文詞干信息融合到一起,將準(zhǔn)確率達(dá)到了96.60%.
在本文中,提出了一種基于雙向LSTM、注意力機(jī)制和CRF的神經(jīng)網(wǎng)絡(luò)詞干提取模型.該詞干提取模型使用雙向LSTM從文本中學(xué)習(xí)輸入之間的長距離依賴關(guān)系,并提取更好的特征.此外,還引入了注意力機(jī)制來計(jì)算注意力概率分布,并突出了詞干提取的性能.
本文提出BiLSTM-Attention-CRF詞干提取模型,主要由輸入層、預(yù)處理層、句子級字符嵌入層、BiLSTM層、Attention層和CRF層構(gòu)成.整體框架如圖1所示.首先以句子級文本數(shù)據(jù)為輸入,對其進(jìn)行預(yù)處理,先刪除標(biāo)點(diǎn)符號,然后人工切分句子中的詞干與詞綴部分,接著以字符為單位再對它們進(jìn)行切分和標(biāo)注,并將它們的特征向量輸入到BiLSTM層,BiLSTM學(xué)習(xí)輸入之間的依賴關(guān)系獲取上下文特征.將BiLSTM的輸出作為Attention層的輸入獲取全局特征信息,然后把它送入到CRF層,最終通過CRF得到對應(yīng)的標(biāo)注序列.
到目前為止,神經(jīng)網(wǎng)絡(luò)有很多種類型,每種類型都有自己的特點(diǎn).循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)具有非常重要的能力,那就是記住以前的事件.LSTM結(jié)構(gòu)由文獻(xiàn)[10]引入,被視為由RNN發(fā)展而來的變形結(jié)構(gòu).RNN通常存在梯度消失或者梯度爆炸的問題,LSTM為了解決其不足,在RNN的基礎(chǔ)上額外增加記憶單元而生成的.
圖1 模型整體框架Fig.1 Overall framework of the model
圖2 LSTM網(wǎng)絡(luò)單元Fig.2 LSTM networks
常見的LSTM網(wǎng)絡(luò)結(jié)構(gòu)由記憶單元、遺忘門、輸入門和輸出門組成[11],其結(jié)構(gòu)如圖2所示.記憶單元直接沿著整個(gè)鏈條流動,存儲長時(shí)間或短時(shí)間的信息.記憶單元的作用是學(xué)習(xí)3個(gè)門的參數(shù)來獲取或控制本單元中的信息,使有效的信息通過較長的距離也能保存到記憶單元中[12].遺忘門決定了要在單元格中丟棄哪些信息,輸入門控制哪些新信息將存儲在單元格中.在LSTM單元中,輸入門與遺忘門在記憶長期依賴層面上能夠起到關(guān)鍵性作用,它們的功能是摒棄無用信息,將需要的有用信息傳入到下一時(shí)刻.輸出門根據(jù)記憶單元控制LSTM單元的輸出值.
其結(jié)構(gòu)用以下公式來表示.其中,xt表示當(dāng)前時(shí)刻的輸入信息.it表示當(dāng)前時(shí)刻的輸入門,ht-1表示前一時(shí)刻的隱層狀態(tài),σ表示非線性激活函數(shù),ft表示當(dāng)前時(shí)刻的遺忘門,ct表示用于存儲序列信息的自循環(huán)神經(jīng)元,tanh是雙曲正切激活函數(shù),ot表示當(dāng)前時(shí)刻的輸出門,ht表示當(dāng)前時(shí)刻的隱層狀態(tài),Wi、Wf、Wc、Wo是依次對應(yīng)輸入門、遺忘門、記憶單元與輸出門的權(quán)重矩陣,bi、bf、bc、bo是偏置向量.
X=[ht-1xt]
(1)
it=σ(Wi·X+bi)
(2)
ft=σ(Wf·X+bf)
(3)
ct=ft⊙ct-1+it⊙tanh(Wc·X+bc)
(4)
ot=σ(Wo·X+bo)
(5)
ht=ot⊙tanh(ct)
(6)
LSTM只能捕獲輸入序列的上文信息,但無法捕獲下文信息.BiLSTM在LSTM的基礎(chǔ)上進(jìn)行優(yōu)化而被提出來的,它實(shí)際上是由兩個(gè)LSTM網(wǎng)絡(luò)構(gòu)成,一個(gè)是正向輸入的LSTM,另一個(gè)是反向輸入的LSTM,它們的參數(shù)是獨(dú)立的,輸出也是相互不干擾.BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示.
圖3 BiLSTM結(jié)構(gòu)Fig.3 BiLSTM structure
圖3中,xt+1、xt、xt-1表示輸入的向量數(shù)據(jù),ht是前向LSTM和后向LSTM的隱藏狀態(tài),ht-1和ht+1表示在t時(shí)刻關(guān)于過去和未來的隱藏信息.向量化文本進(jìn)入BiLSTM進(jìn)行上下文語義特征提取,它同時(shí)處理上下文信息,能分別獲取歷史信息和未來信息.為了獲得更多上下文依賴關(guān)系,本文將采用以雙向LSTM的特點(diǎn)為出發(fā)點(diǎn)進(jìn)行模型訓(xùn)練,由產(chǎn)生的前向和后向語義信息獲取上下文信息.
注意力機(jī)制(AM)由Bahdanau等人[13]首次提出,是深度學(xué)習(xí)研究中最有價(jià)值的突破之一.注意力機(jī)制計(jì)算注意力概率分布,從而體現(xiàn)出輸入與輸出之間的相關(guān)性,并且優(yōu)化神經(jīng)網(wǎng)絡(luò)模型.注意力機(jī)制對文本的前后語義編碼賦予不同的權(quán)重,以更精確的區(qū)分文本中的詞干與詞綴信息,來提高詞干提取的效果.注意力層的結(jié)構(gòu)為如圖4所示.
圖4 注意力機(jī)制結(jié)構(gòu)Fig.4 Attention mechanism structure
對句子級形態(tài)分析而言,句子中的單詞與單詞之中的字符對詞干提取的作用是不同的.為了區(qū)分它們之間的關(guān)鍵特征,通過引入注意力層來更進(jìn)一步提取其中存在的文本特征.注意力模型用于將句子、單詞、字符與輸出之間的聯(lián)系體現(xiàn)出來.注意力權(quán)重的學(xué)習(xí)是通過在原有網(wǎng)絡(luò)結(jié)構(gòu)的結(jié)構(gòu)基礎(chǔ)上添加一個(gè)前饋網(wǎng)絡(luò)來實(shí)現(xiàn).
多元GARCH模型主要包括條件均值方程和條件方差方程。條件均值方程采用向量自回歸VAR(n)模型分析。其中n為VAR模型的滯后階數(shù),根據(jù)AIC準(zhǔn)則選取。VAR模型采用多方程聯(lián)立的形式,每個(gè)方程中的內(nèi)生變量對所有內(nèi)生變量滯后期進(jìn)行回歸,從而估計(jì)出跨期動態(tài)關(guān)系。對于條件方差方程,本文主要采用GJR-GARCH的形式分析。
an=softmax(hnst)
(7)
(8)
其中,an是注意力權(quán)重,hn是編碼器的隱藏狀態(tài)值,ct是各個(gè)輸出狀態(tài)hn的一個(gè)加權(quán)和,將模型生成的注意力權(quán)重賦給相應(yīng)的隱藏層狀態(tài),使得注意力權(quán)重起到作用.在文本模型中引入注意力層之后,將其跟BiLSTM模型一起訓(xùn)練.
條件隨機(jī)場(Condition Random Field),簡稱為CRF,是結(jié)合隱馬爾可夫模型(HMM)和最大熵模型(ME)的優(yōu)點(diǎn)[14]用于對輸入序列進(jìn)行標(biāo)注與切分的條件概率模型.BiLSTM只考慮上下文信息,無法考慮到相鄰標(biāo)簽之間的依賴關(guān)系,而CRF能考慮標(biāo)簽之間的依賴關(guān)系獲取一個(gè)最優(yōu)序列,并且能解決BiLSTM的不足.通過CRF來對字符、單詞和句子上下文特征進(jìn)行融合.
圖5 CRF層結(jié)構(gòu)Fig.5 CRF layer structure
在神經(jīng)網(wǎng)絡(luò)模型中通常使用Softmax函數(shù)來進(jìn)行分類預(yù)測,它跟CRF序列標(biāo)注存在著密切的邏輯關(guān)系[15].本文采用的BiLSTM、注意力機(jī)制和CRF相結(jié)合的模型能夠處理上下文和相鄰標(biāo)簽之間存在的依賴關(guān)系,有效地處理序列標(biāo)注問題.CRF層是神經(jīng)網(wǎng)絡(luò)架構(gòu)的最后一層,它的輸入是注意力層的輸出結(jié)果,將其作為輸入通過轉(zhuǎn)移分?jǐn)?shù)矩陣和發(fā)射分?jǐn)?shù)矩陣來對于輸出之間的關(guān)系進(jìn)行全面的衡量,最終得出最優(yōu)的輸出序列,從而顯著提高詞干提取的效果.CRF層對于全局特征進(jìn)行歸一化獲得全局最優(yōu),它的結(jié)構(gòu)如圖5所示.
本文所采用的數(shù)據(jù)集是從官方網(wǎng)站人民網(wǎng)(uyghur.people.com.cn)爬取得到的20030條維吾爾文句子.數(shù)據(jù)包含于體育、教育、旅游、生活等4個(gè)領(lǐng)域,本文將其以8∶1∶1的比例分成訓(xùn)練集、測試集和驗(yàn)證集,具體的數(shù)據(jù)統(tǒng)計(jì)如表5所示.
表5 數(shù)據(jù)統(tǒng)計(jì)信息Table 5 Data statistics
首先對數(shù)據(jù)中的所有句子成分進(jìn)行詞干與詞綴切分,以便處理后續(xù)的標(biāo)注數(shù)據(jù)工作.如圖6所示是對本文實(shí)驗(yàn)數(shù)據(jù)包含的所有句子里面的詞素(詞干和詞綴)與單詞進(jìn)行統(tǒng)計(jì)之后得出的結(jié)果,圖中的數(shù)據(jù)沒有包含重復(fù)的詞匯與詞素.
一般維吾爾語詞具有兩三個(gè)詞綴,而且它們的形式比較多樣化,因此本文實(shí)驗(yàn)數(shù)據(jù)需要手動切分和自動標(biāo)注.在此過程中,本文列出了最長和最短的單詞、詞干及詞綴,如表6所示.
圖6 語料統(tǒng)計(jì)分布Fig.6 Corpus statistics distribution
表6 最長最短的詞素與單詞Table 6 Longest and shortest morphemes and words
當(dāng)標(biāo)注數(shù)據(jù)時(shí),本文使用BIOES序列標(biāo)注方法來標(biāo)記詞干和詞綴.在定義標(biāo)記集時(shí),為了更全面、有效地表示文本,將詞干詞綴部分以字符為單位進(jìn)行細(xì)切分,由標(biāo)記集{B-S、I-S、B-E、I-E、O}來表示句子中的每個(gè)字符所對應(yīng)的詞干詞綴標(biāo)簽.其中,B-S表示詞干首字符、I-S表示詞干非首字符、B-E表示詞綴首字符、I-E表示詞綴非首字符,O表示非詞干詞綴(數(shù)字).例如,mAn bu yil 17 yaxqa kirdim(我今年17歲了).如果對該句子中的每個(gè)字符進(jìn)行標(biāo)注,則所對應(yīng)的標(biāo)注序列為“m/B-S a/I-S n/I-S b/B-S u/I-S y/B-S i/I-S l/I-S 1/O 7/O y/B-S a/I-S x/I-S q/B-E a/I-E k/B-S i/I-S r/I-S d/B-E i/I-E m/I-E”.符號“/”后面表示每個(gè)字符所對應(yīng)的標(biāo)記.CRF層從輸入序列學(xué)到更多的信息,從而更有效地描述上下文信息.本文通過對訓(xùn)練集進(jìn)行訓(xùn)練,使得模型對輸入進(jìn)行辨別分類,從而提高整體模型的效果.
(9)
(10)
(11)
本文實(shí)驗(yàn)的深度學(xué)習(xí)框架為PyTorch,采用CPU進(jìn)行訓(xùn)練,實(shí)驗(yàn)的超參數(shù)設(shè)置為如表7所示.
表7 實(shí)驗(yàn)參數(shù)Table 7 Experimental parameters
為了驗(yàn)證本文所提出的BiLSTM-Attention-CRF模型的有效性,本文選擇由清華大學(xué)所提供的維吾爾語詞級形態(tài)切分語料庫(THUUyMorph)[16]和本文手動構(gòu)建的人民網(wǎng)數(shù)據(jù)集作為研究對象,使用BiLSTM、BiLSTM-CRF和BiLSTM-Attention-CRF等不同模型進(jìn)行消融實(shí)驗(yàn),對比了它們在不同數(shù)據(jù)集上的詞干提取效果.如表8所示是THUUyMoprh數(shù)據(jù)集以詞為單位統(tǒng)計(jì)的數(shù)據(jù)分布情況.在不同數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果如表9、表10所示.
表8 THUUyMoprh數(shù)據(jù)集的數(shù)據(jù)分布Table 8 Data distribution of the THUUyMoprh dataset
表9 THUUyMorph數(shù)據(jù)集上的消融實(shí)驗(yàn)(%)Table 9 Ablation study on THUUyMorph dataset(%)
表10 人民網(wǎng)數(shù)據(jù)集上的消融實(shí)驗(yàn)(%)Table 10 Ablation study on People′s Daily Online dataset(%)
從實(shí)驗(yàn)結(jié)果可以看出,通過神經(jīng)網(wǎng)絡(luò)模型使用不同類型的兩種數(shù)據(jù)集提取的詞干效果截然不同.THUUyMorph是由一個(gè)個(gè)單獨(dú)的維吾爾語詞構(gòu)成,沒有句子上下文信息的數(shù)據(jù)集.人民網(wǎng)數(shù)據(jù)集是因本文所需而采集的句子級數(shù)據(jù)集.當(dāng)使用詞級數(shù)據(jù)集時(shí),3種模型的詞干提取效果幾乎差不多,但是可以看出本文提出的BiLSTM-Attention-CRF對于詞級數(shù)據(jù)集還是能起到一定的作用.對于句子級數(shù)據(jù)集而言,BiLSTM-Attention-CRF模型的詞干提取效果更明顯.由此可見,本文提出的詞干提取模型應(yīng)用于兩種不同的數(shù)據(jù)集,能充分體現(xiàn)出本文模型的普適性.此外,實(shí)驗(yàn)結(jié)果表明,句子級數(shù)據(jù)集考慮字符特征的同時(shí),全面考慮上下文,更充分地獲取詞干詞綴邊界信息,跟詞級數(shù)據(jù)集相比,可以更有效地提取詞干.
本文構(gòu)建與采用的句子語料有益于神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)更多的信息.通過BiLSTM模型,使用句子級語料來獲取正向和反向的上下文序列特征.在BiLSTM模型的基礎(chǔ)上添加注意力機(jī)制層進(jìn)行權(quán)重學(xué)習(xí),充分利用長距離和全局特征信息,從而得出的詞干提取性能更好.
根據(jù)本文定義的序列標(biāo)簽,當(dāng)進(jìn)行測試時(shí),對于數(shù)據(jù)中的詞干和詞綴部分分別進(jìn)行提取后的效果如圖7所示.正確識別并提取詞干首字符(B-S)、詞干非首字符(I-S)、詞綴首字符(B-E)、詞綴非首字符(I-E)和非詞干詞綴字符(O)的準(zhǔn)確率依次為96.16%、97.98%、93.57%、95.38%、99.4%.從整體來看,由于詞綴包含前綴和后綴,識別前綴相對比較困難,因此詞綴的識別率比起詞干的識別率略低.本文數(shù)據(jù)集中數(shù)字占的比例相對比較少,而且數(shù)字是指0~9的10個(gè)數(shù),所以它的識別率最高.
圖7 詞干和詞綴識別率Fig.7 Recognition rate of stems and affixes
為了驗(yàn)證傳統(tǒng)模型和本文提出的神經(jīng)網(wǎng)絡(luò)模型在詞干提取任務(wù)上的性能,將本文模型分別與統(tǒng)計(jì)模型HMM、CRF和幾個(gè)常見的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了對比.對比過程是使用BiGRU、BiGRU-CRF以及兩種統(tǒng)計(jì)模型在本文構(gòu)建的人民網(wǎng)數(shù)據(jù)集上進(jìn)行詞干提取.對比實(shí)驗(yàn)結(jié)果如表11所示.
表11 對比實(shí)驗(yàn)結(jié)果(%)Table 11 Comparative experimental results(%)
從表11可以看出,在相同的數(shù)據(jù)集上,神經(jīng)網(wǎng)絡(luò)模型的詞干提取效果優(yōu)于基于傳統(tǒng)的HMM和CRF模型.如果進(jìn)一步進(jìn)行分析,BiLSTM-Attention-CRF模型的效果比BiGRU和BiGRU-CRF的效果更好,可以視為本文模型的詞干提取效果最佳.
針對黏著語詞干提取研究中字符向量表征過于單一,無法有效地處理具有上下文信息的數(shù)據(jù).本文研究根據(jù)大量高質(zhì)量的句子級語料庫,提出了一種基于神經(jīng)網(wǎng)絡(luò)的融合字符和上下文特征的詞干提取模型.當(dāng)采用雙向LSTM時(shí),通過連續(xù)表示可以緩解詞與詞素之間的數(shù)據(jù)稀疏問題.本文將黏著語詞干提取任務(wù)視為序列標(biāo)注問題,采用兩種不同的數(shù)據(jù)集,通過不同的模型進(jìn)行了詞干提取.實(shí)驗(yàn)結(jié)果表明,本文提出的模型對于具有句子上下文的數(shù)據(jù)集上的詞干提取效果更優(yōu).同時(shí)本文將傳統(tǒng)模型和神經(jīng)網(wǎng)絡(luò)模型在本文數(shù)據(jù)集上對詞干提取效果進(jìn)行了對比.由對比結(jié)果可知,BiLSTM-Attention-CRF模型優(yōu)于其他模型,并且具有顯著的準(zhǔn)確度.與此同時(shí),當(dāng)考慮字符特征和上下文信息時(shí)可以有效地解決黏著語中常存在的不切分、過度切分和歧義切分等現(xiàn)象.總而言之,同時(shí)考慮長距離和全局特征極其重要.本文沒有探討屬于黏著語的其他語言,因此在往后的研究中,嘗試考慮更多黏著語語言特征,學(xué)習(xí)更多更豐富的形態(tài)關(guān)系,深入研究多語言形態(tài)分析,進(jìn)一步提高詞干提取效果,并將其遷移到語系相似的更多低資源語言當(dāng)中.