• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于BiLSTM-CNN-CRF模型的維吾爾文命名實體識別

    2018-08-17 01:22:10買買提阿依甫
    計算機工程 2018年8期
    關(guān)鍵詞:維吾爾文字符命名

    買買提阿依甫,·,·,

    (新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046)

    0 概述

    命名實體識別[1](Named Entity Recognition,NER)是自然語言處理(Natural Language Processing,NLP)工作中具有挑戰(zhàn)性的任務(wù)之一,通過它可以準確地從文本中識別出人名、機構(gòu)名、地名、時間、日期、貨幣、百分號等信息,為話題識別、話題跟蹤、信息檢索、機器翻譯、輿情分析等高級NLP任務(wù)提供重要的特征信息。過去NER任務(wù)多采用基于規(guī)則的識別方法、基于統(tǒng)計機器學(xué)習(xí)的識別方法(包括隱馬爾可夫模型、條件隨機場模型、支持向量機等)和基于規(guī)則和統(tǒng)計相結(jié)合的混合識別方法[2]。近年來,深度神經(jīng)網(wǎng)絡(luò)在自然語言處理領(lǐng)域受到了廣泛的關(guān)注,相比于上述方法,基于深度神經(jīng)網(wǎng)絡(luò)的方法具有泛化性更強、更少依賴人工特征的優(yōu)點。因此,面向漢語和英語等大語言,研究人員已提出了許多基于深度神經(jīng)網(wǎng)絡(luò)的NER模型,但針對以維吾爾語為代表的低資源少數(shù)民族語言的研究較少。維吾爾命名實體識別研究大多只針對維吾爾人名的識別,關(guān)于人名、地名、機構(gòu)名的通用研究較少,目前多數(shù)研究都是基于規(guī)則或統(tǒng)計模型的方法。

    針對維吾爾文命名實體識別問題,本文構(gòu)建基于BiLSTM-CNN-CRF的混合深度學(xué)習(xí)模型。首先利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型捕獲單詞的字符級特征向量;然后將字符級特征向量、詞性向量和詞向量拼接的混合向量作為BiLSTM模型的輸入進行訓(xùn)練,獲取語句單詞之間隱含的語義特征;最后通過CRF模型得到最優(yōu)標注序列。

    1 神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)

    本節(jié)將詳細描述BiLSTM-CNN-CRF[1]神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)的各組成部分,從下至上逐一介紹神經(jīng)網(wǎng)絡(luò)中的各神經(jīng)層。

    1.1 字詞向量特征

    1.1.1 字符特征

    維吾爾語是典型的黏著語[3],具有復(fù)雜的形態(tài)變化。從文字信息處理的角度出發(fā),維吾爾文字屬于復(fù)雜文本信息處理的范疇。現(xiàn)行維吾爾文使用的文字為基于阿拉伯字符的文字,該類文字的形狀特征為不等寬的字符,每個字符根據(jù)在詞中出現(xiàn)的位置又有不同的形狀,書寫特征是自右向左書寫(數(shù)字和其他非阿拉伯字符保持自己的書寫順序),與英語和漢語順序相反。

    現(xiàn)行維吾爾文有32個字母。每個字母按出現(xiàn)在詞首、詞中、詞末的位置有不同的形式。字母表中的單式除代表該字母的獨立形式外,一般出現(xiàn)在詞末不可連字母之后,前式出現(xiàn)在可連字母之前,中式出現(xiàn)在詞中2個可連字母中間,末式出現(xiàn)在詞末可連字母之后,有些字母只有單式和末式,這樣維吾爾文32個字母實際共有126種寫法。為了降低字符向量維度,本文通過設(shè)計現(xiàn)行維吾爾文到拉丁維吾爾文的轉(zhuǎn)換算法,從而將維吾爾文字符轉(zhuǎn)換為一個拉丁字符,這樣只用32個拉丁字母就可以表示維吾爾文。

    1.1.2 詞向量

    詞向量[4]的主要設(shè)計思想是通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)詞語的聯(lián)合概率分布,將語料中的單詞映射到指定的d維稠密實數(shù)向量。word2vec用到了2個重要的模型:CBOW模型和Skip-Gram模型[5]。

    維吾爾句子中單詞之間用空格或標點符號來分割。維吾爾文單詞在結(jié)構(gòu)上可以分為詞根和詞干:詞根是不可分割的最小語義單元;詞干是由幾個詞根或詞根和詞綴連接構(gòu)成,單詞一般由詞干和詞綴(附加成分)連接構(gòu)成,每個詞的變化形式最多可達到數(shù)百種。例如:詞根為ish(事宜,事情),通過對其連接構(gòu)詞詞綴qi,可以得到詞干ish+qi=ishqi(工人),可以將單詞結(jié)構(gòu)表示為:單詞=詞綴+詞干+后綴1+后綴2+后綴3+…。例如:ish+qi+lar+ning=ishqilarning(工人們的)。為了獲取維吾爾單詞隱含的豐富信息,本文未對維吾爾詞語進行詞干提取,保留了詞干與詞綴,對語料庫中的每個單詞進行訓(xùn)練預(yù)先生成了對應(yīng)的詞向量。

    本文利用word2vec工具的Skip-Gram模型對從網(wǎng)絡(luò)上下載的無標注維吾爾語料庫進行訓(xùn)練生成了詞向量,假設(shè)語料庫由w1,w2,…,wm個單詞組成,Skip-Gram模型的目標是使以下函數(shù)最大化:

    其中,n是訓(xùn)練窗口大小,訓(xùn)練時根據(jù)窗口大小獲取當前詞語的上下文相關(guān)詞語。

    經(jīng)過word2vec生成的詞向量為:vi=[a0,a1,…,ad],其中d=300表示詞向量的維度。通過word2vec訓(xùn)練生成的詞向量每一維都包含豐富的上下文信息。例1給出了維吾爾語料庫中一個單詞用word2vec生成的詞向量。

    圖1 通過維吾爾文詞向量獲取的相似單詞

    1.1.3 詞性特征

    本文采用詞向量很方便地添加了其他新的特征。例如,對于詞語可以添加詞性特征、字符特征等信息,通過這些信息可以對詞語進行抽象化,能夠進一步發(fā)現(xiàn)語句中詞語的結(jié)構(gòu)聯(lián)系。因此,本文加入了字符特征和詞性特征,進一步提高了命名實體識別的性能。維吾爾文詞性有2種標注方法:一級詞性和二級詞性,如表1所示。

    表1 維吾爾文詞性標注設(shè)置

    由于本文語料庫沒有二級詞性標注數(shù)據(jù),因此實驗只使用一級詞性特征。使用維度為4的實數(shù)向量表示詞性向量,最后與詞向量和字符向量拼接構(gòu)成混合向量作為BiLSTM模型輸入,提高了模型的命名實體識別性能。

    1.2 卷積神經(jīng)模型

    卷積神經(jīng)網(wǎng)絡(luò)[6]中卷積層能夠提取文本數(shù)據(jù)的局部特征信息,通過使用卷積和最大池化層可以提取局部特征信息中最具有代表性的部分作為特征向量?,F(xiàn)有研究表明,CNN是一種從詞的字符中提取形態(tài)信息(如詞的前綴或后綴)并將其編碼為神經(jīng)表示的最有效方法,文獻[1,7]采用CNN提取字符級特征在命名實體識別領(lǐng)域達到了很好的效果,因此,本文利用CNN提取維吾爾文單詞的字符特征,通過使用字符級特征、單詞詞性和詞向量相結(jié)合的方法提高模型的命名實體識別性能,但維吾爾文中不存在大小寫的問題,在本文中并沒有用到字符類型等特征,采用CNN提取的維吾爾文形態(tài)特征信息作為詞向量的補充,從而模型的識別率得到了很好的提高。

    CNN模型結(jié)構(gòu)如圖2所示,其由字符向量表、卷積層和池化層組成。

    圖2 字符級CNN模型結(jié)構(gòu)

    對CNN網(wǎng)絡(luò)中包括32個維吾爾文字母和37個標點符號,再加上一個表示不在字符集中的不確定字符的共70個字符分別生成對應(yīng)的字符向量,由這些向量構(gòu)成字符向量表。字符向量表的作用是將單詞中的每個字符轉(zhuǎn)換成為對應(yīng)的字符向量,然后生成單詞對應(yīng)的字符向量矩陣。由于單詞長度不一樣,因此生成的字符向量矩陣的大小也不一樣。為解決該問題,本文以最長的單詞長度為標準,利用Padding占位符補全單詞兩端[8],使字符向量矩陣的長度一致。此方法同樣可以用于句子長度不一致的問題,最后字符向量表在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中通過反向傳播機制自動更新字符向量矩陣。通過實驗發(fā)現(xiàn)CNN網(wǎng)絡(luò)可以有效獲取維吾爾文單詞中的前綴或后綴等形態(tài)特征信息。

    1.3 BiLSTM模塊

    1.3.1 LSTM模塊

    遞歸神經(jīng)網(wǎng)絡(luò)[9]具有一定的記憶功能,可以被用來解決很多NLP問題,但是它并不能很好地處理長時依賴問題,存在梯度消失和梯度爆炸的問題。

    為了解決傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)的梯度消失等問題,研究者提出了RNN的特殊形式:長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[9-10],傳統(tǒng)RNN每一步的隱藏單元只是執(zhí)行一個簡單的tanh或ReLU操作[11]。LSTM是遞歸神經(jīng)網(wǎng)絡(luò)的一種特殊形式,同樣考慮時序關(guān)系,只是LSTM每個隱層節(jié)點還加一些特殊的結(jié)構(gòu),如圖3所示。可以看出,LSTM增加了記憶單元,主要由3個控制門,即遺忘門、輸入門、輸出門與一個記憶單元(cell)組成。LSTM利用記憶單元對歷史信息進行記錄,并且這個記錄是由3個控制門來控制LSTM單元應(yīng)寫入、讀取、輸出的內(nèi)容。因此,通過這些控制門,LSTM能夠緩解原始RNN所面臨的“梯度消失”或“梯度爆炸”問題。

    圖3 LSTM單元結(jié)構(gòu)

    LSTM單元在t時刻更新的公式如下:

    it=σ(Wiht-1+Uixt+bi)

    (1)

    ft=σ(Wfht-1+Ufxt+bf)

    (2)

    ot=σ(Woht-1+Uoxt+bo)

    (5)

    ht=ot⊙tanh(ct)

    (6)

    在維吾爾文中,人名、機構(gòu)名和地名中由3個以上的單詞構(gòu)成的情況較多,通過LSTM網(wǎng)絡(luò)能夠記憶單詞間的長距離依賴關(guān)系的特點,有效識別出維吾爾文中的較長的人名、地名和機構(gòu)名。例如:“samat bilan kvrash xinjiang aptonum rayonluk helik dohturhanisida ishlaydu.”(賽買提和庫萊西在新疆自治區(qū)人民醫(yī)院工作。),針對這句話中的機構(gòu)名“xinjiang aptonum rayonluk helik dohturhanisida”(新疆自治區(qū)人民醫(yī)院),用傳統(tǒng)的統(tǒng)計模型CRF進行識別時出現(xiàn)了無法完全識別的問題,而LSTM模型巧妙地識別出了類似長機構(gòu)名。在這句話中kvrash是個兼類詞(人名和動詞),通過LSTM模型根據(jù)上下文歷史信息正確識別CRF統(tǒng)計模型無法識別的兼類詞。

    1.3.2 BiLSTM模塊

    在句子中命名實體的正確識別取決于詞的上下文[12]。前后2個詞對預(yù)測標簽都很重要,如果能夠獲取過去和將來的上下文信息,對命名實體識別任務(wù)很有幫助。然而,LSTM的隱藏狀態(tài)ht僅從過去獲取信息,對未來一無所知。雙向LSTM[7,13](簡稱為BiLSTM)是一種較好的解決方案,其有效性已在前人的工作中得以證明,基本思想是將每個順序序列和逆序序列呈現(xiàn)到2個單獨的隱藏狀態(tài),以分別捕獲過去和將來的信息,然后將連接2個隱藏狀態(tài)作為最終輸出。BiLSTM已經(jīng)被證明在許多機器翻譯、問題回答、序列標注等NLP任務(wù)中很有用。

    姥爺最拿手的是高湯汆大白菜:切掉菜根,將摘洗干凈的菜身攔腰切開一分為二,上邊是新嫩青綠的菜葉,下邊則是晶瑩粗厚的菜幫子,用香濃月白的高湯汆燙,然后加粉絲和紅肉丸子,出鍋的時候來一點香油和蝦米,美味至極,是我童年味蕾上最美好的記憶。

    1.4 CRF模塊

    條件隨機場(Condition Random Field,CRF)[7,12]模型是一種用于標注和切分有序數(shù)據(jù)的條件概率模型。該模型結(jié)合了隱馬爾可夫模型和最大熵模型的優(yōu)點[13],避免了這些模型本身存在的一些缺點,能夠有效地解決序列標注問題。 可以把命名實體識別任務(wù)轉(zhuǎn)化成一個序列標注任務(wù),本文采用SBIEO標記策略(如表2所示)對語料進行標注,表3是使用SBIEO標記策略對給定現(xiàn)行維吾爾文句子進行轉(zhuǎn)換為拉丁維吾爾句子后的標注示例。

    表2 CRF模塊SBIEO標簽集

    表3 維吾爾文命名實體標注方法示例

    對于命名實體識別任務(wù),本文使用CRF模型聯(lián)合建模標注決策,而不是獨立建模決策。將CRF層作為神經(jīng)網(wǎng)絡(luò)架構(gòu)的最后一層,對BiLSTM模塊的輸出結(jié)果進行處理,獲得最優(yōu)的全局標注序列。

    對于一個給定維吾爾文句子,本文用X={x1,x2,…,xn}表示對應(yīng)的輸入單詞序列,假設(shè)P是大小為n×k的BiLSTM網(wǎng)絡(luò)輸出的分數(shù)矩陣,其中k是不同標簽的數(shù)量,Pi,j對應(yīng)第i個單詞的第j個標簽的分數(shù)。對于一個標簽預(yù)測y={y1,y2,…,yn},定義其分數(shù)為:

    其中,A是轉(zhuǎn)移分數(shù)矩陣,Ai,j表示從標簽i轉(zhuǎn)移到標簽j的分數(shù),y0和yn是在句子開始和結(jié)束為位置添加的標簽,因此,A是一個大小為k+2的方陣。

    對于序列y,本文采用softmax來生成所有:

    在訓(xùn)練過程中最大化正確標簽序列的對數(shù)概率:

    其中,YX是對于輸入句子X的所有可能標簽序列。從上式可以明顯看出,本文的神經(jīng)網(wǎng)絡(luò)產(chǎn)生有效的輸出標簽序列。最終解碼時,通過以下公式預(yù)測得分最大的輸出序列:

    通過將BiLSTM的輸出向量輸入到CRF層來構(gòu)造神經(jīng)網(wǎng)絡(luò)模型[11]。本文神經(jīng)網(wǎng)絡(luò)架構(gòu)由BiLSTM模塊、CNN模塊和CRF模塊組成。第1層是輸入層,主要負責(zé)將輸入的句子進行字詞向量的映射,為了便于后期處理首先通過轉(zhuǎn)換算法將現(xiàn)行維吾爾文句子轉(zhuǎn)換成拉丁維吾爾文,然后通過查詢詞向量表將文本轉(zhuǎn)換為詞向量序列,再對于文本中的每個單詞,通過查詢字符向量表獲得每個字符的字符向量,由字符向量組成單詞的字符向量矩陣。CNN模塊對字符向量矩陣進行卷積和最大池化,獲得每個單詞的字符級特征,每個單詞的字符向量和詞性向量與詞向量拼接組合后的混合向量作為第2層神經(jīng)網(wǎng)絡(luò)模塊BiLSTM的輸入,最后用第3層CRF模塊將第2層的輸出解碼出一個最優(yōu)的標記序列。本文神經(jīng)網(wǎng)絡(luò)的體系結(jié)構(gòu)如圖4所示。

    圖4 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

    2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練

    2.1 參數(shù)初始化

    2.1.1 詞向量

    文獻[10,14]已指出,詞向量在提高序列標記任務(wù)性能中起到了至關(guān)重要的作用。目前缺乏公開的已訓(xùn)練好的維吾爾文詞向量數(shù)據(jù)集。為了構(gòu)建維吾爾文詞向量,本文首先從知名度較高的幾個新聞網(wǎng)站上下載了新聞數(shù)據(jù)(如表4所示),然后對收集到的9.5萬條新聞數(shù)據(jù)(包含多余3 500萬條詞條,40多萬單詞)用gensim的skip-gram模型進行訓(xùn)練[15],生成了維度為300的詞向量,本實驗設(shè)置窗口的大小為5,單詞頻率最小值設(shè)為4。

    表4 下載數(shù)據(jù)統(tǒng)計

    2.1.2 字符向量

    實驗對70個維吾爾文字符和標點符號使用隨機均勻分布來初始化字符向量查詢表,字符向量的維度設(shè)為10,并且其取值范圍為[-0.5,0.5]。

    2.2 優(yōu)化算法

    目前神經(jīng)網(wǎng)絡(luò)中流行的優(yōu)化算法有隨機梯度下降(Stochastic Gradient Descent,SGD)、Momentum、Adagrad、Adadelta、RMSprop、Adam、Adamax等[13,16-17],每個優(yōu)化算法都有自己的特點,本文實驗中使用了SGD算法進行優(yōu)化,實驗結(jié)果表明SGD優(yōu)化算法提高了模型性能,學(xué)習(xí)率η0初始值設(shè)為0.001,momentum設(shè)為0.9,每個訓(xùn)練周期學(xué)習(xí)率η0通過公式:ηt=η0/1+ρt來自動更新,其中延遲率為ρ=0.5,t是已經(jīng)完成的訓(xùn)練循環(huán)數(shù)。

    2.3 Dropout參數(shù)

    在正則化方法中,Dropout[16]是非常有用和成功的一種技術(shù)。一般來說,它會隨機刪除一些神經(jīng)元,以在不同批量上訓(xùn)練不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)。在實驗中Dropout的值和在模型中的位置很關(guān)鍵,直接影響到模型的性能。在多數(shù)神經(jīng)網(wǎng)絡(luò)研究中,Dropout值設(shè)為0.5時的性能較好,能夠有效防止過擬合問題,但在本文實驗中,用不同的Dropout的值對模型進行了交叉驗證。實驗結(jié)果表明,Dropout值為0.63時達到了最好的識別效果,在BiLSTM模型輸入輸出端兩端都用了Dropout機制[17]。本文神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)定如表5所示。

    表5 神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置

    3 實驗與結(jié)果分析

    3.1 實驗數(shù)據(jù)集

    由于目前維吾爾命名實體識別缺乏公開的標注數(shù)據(jù)集,因此本文人工建立了一個維吾爾文命名實體識別數(shù)據(jù)集。所使用的語料是從政府新聞網(wǎng)站天山網(wǎng)下載的維吾爾語新聞數(shù)據(jù),從中挑選22 150個維吾爾語句子,然后對其進行人工標注詞性和命名實體標記,作為本文實驗的維吾爾文命名實體識別語料庫,如表6所示。

    表6 維吾爾文命名實體識別標注語料庫

    3.2 實驗結(jié)果

    本文進行了5組實驗對維吾爾文人名、地名、機構(gòu)名進行命名實體識別,5組實驗都在實驗室的UNERDATA數(shù)據(jù)集上進行命名實體識別。實驗的評測方法是F1值、準確率、召回率[18]。

    實驗1實驗?zāi)康?1)將CRF模型作為基準模型,測試統(tǒng)計模型CRF在實驗室提供的UNERDATA數(shù)據(jù)集上的性能;2)匯總使用CRF模型進行命名實體識別時發(fā)現(xiàn)的一系列問題。實驗中使用了目前較流行的統(tǒng)計模型CRF++[18],由于標記數(shù)據(jù)集是基于句子的,因此對于CRF++工具,只考慮了詞級特征。使用CRF工具進行UNER任務(wù)后發(fā)現(xiàn)了以下問題:

    1)CRF統(tǒng)計模型對語料中沒有出現(xiàn)的人名、地名無法正確識別。由于目前維吾爾文中尚缺少大型人名、地名和機構(gòu)名稱的標注語料庫,導(dǎo)致統(tǒng)計模型無法正確識別命名實體。

    2)維吾爾文中機構(gòu)名稱存在大量的縮寫情況,CRF模型對這種由單獨字符組成的機構(gòu)名縮寫無法進行識別。例如:“ürümchi she?irlik j x idarsi”(烏魯木齊市公安局)里面的“j x”是公安局的縮寫,CRF模型對這種縮寫無法準確識別。

    3)維吾爾文中的人名存在缺乏統(tǒng)一的寫作風(fēng)格,有些人名有幾種寫法。例如:人名“memetqasim”(買買提喀斯木)的另一個寫法是“matqasim”(買提喀斯木)。

    4)維吾爾文中存在大量兼類詞,有些人名兼有其他含義。例如:人名“yalqun”(亞力坤)的另一個意思是火焰,CRF模型無法利用上下文對這種兼類詞進行正確識別,有時將類似人名識別標記為O(其他)。

    5)維吾爾人姓名基本上由2個詞組成,但也存在一個人名由3,4個人名組成的情況,例如:“nurmemetоbulqasim”(努爾麥麥提吾布力卡斯木),CRF模型無法對這些長人名正確識別。

    6)維吾爾地名中大量存在長地名和長機構(gòu)名,例如:“shinjang uyghur aptonom rayoni”(新疆維吾爾自治區(qū)),CRF模型無法對類似長地名準確識別。

    7)維吾爾文論壇、微博、新聞等網(wǎng)絡(luò)文本中存在大量的拼寫錯誤問題,CRF模型無法對拼寫錯誤的單詞準確識別,其準確率為78.35%,召回率為75.78%,F1值為77.04%,

    實驗2實驗?zāi)康?1)研究深度神經(jīng)網(wǎng)絡(luò)模型相對于統(tǒng)計模型在維吾爾命名實體識別上是否有優(yōu)勢;2)研究深度神經(jīng)網(wǎng)絡(luò)能否解決CRF統(tǒng)計模型中發(fā)現(xiàn)的問題。實驗中分別用簡單RNN模型、LSTM模型和BiLSTM模型進行UNER任務(wù)。從表7中可以看出,簡單RNN模型的性能和CRF模型基本一樣,LSTM模型和BiLSTM模型的性能都比CRF模型好,其中BiLSTM模型的F1值比CRF模型提高了5.03%。

    表7 神經(jīng)網(wǎng)絡(luò)模型的實驗結(jié)果 %

    實驗3實驗?zāi)康?驗證CNN模型的有效性。實驗在LSTM模型和BiLSTM模型的基礎(chǔ)上加入了CNN模型,使用CNN模型獲取字符特征,然后將字符向量和詞向量拼接后作為LSTM或BiLSTM模型的輸入進行訓(xùn)練。從表8的實驗結(jié)果可以看出,LSTM、BiLSTM模型加入CNN網(wǎng)絡(luò)后系統(tǒng)的識別能力都得到了提高,LSTM-CNN模型的F1值比LSTM模型提高了1.3%,BiLSTM-CNN模型比BiLSTM模型F1值提高了2.69%。

    表8 加入CNN模型后的實驗結(jié)果 %

    實驗4實驗?zāi)康?驗證CRF模型加入到BiLSTM-CNN-CRF框架后系統(tǒng)的性能,并進一步提升系統(tǒng)UNER任務(wù)中的識別性能。在實驗3的基礎(chǔ)上,對BiLSTM模型的輸出進行CRF層,輸出概率最大的最優(yōu)標記序列。從表9的實驗結(jié)果可以看出,加入CRF層后LSTM-CNN-CRF模型和BiLSTM-CNN-CRF模型準確率都得到了提高,其中BiLSTM-CNN-CRF模型的F1值比BiLSTM-CNN模型提高了4.3%。

    表9 加入CRF模型后各模型的實驗結(jié)果 %

    實驗5實驗?zāi)康?進一步提高系統(tǒng)的命名實體識別性能。在實驗4的基礎(chǔ)上,對系統(tǒng)的輸入向量增加了詞性向量,本文實驗中由于UNERDATA數(shù)據(jù)集中未提供維吾爾二級詞性的標記,只使用了一級詞性作為特征進行了模型訓(xùn)練,將CNN模型提取出來的字符特征向量和詞性向量與詞向量拼接生成最終特征向量作為RNN-CNN-CRF模型的輸入進行訓(xùn)練。從表10的實驗結(jié)果中可以看出,詞性向量加入到詞向量后BiLSTM-CNN-CRF模型準確率有了提升,其中BiLSTM-CNN-CRF模型的準確率達到了91.46%,F1值達到了91.89%,相對于基線CRF方法,其準確率提高了13.11%,F1值提高了14.85%。

    表10 加入詞性向量后各模型的實驗結(jié)果 %

    以上5組實驗結(jié)果表明,本文建立的BiLSTM-CNN-CRF模型通過使用字符向量、詞性向量和詞向量組合的混合向量,在維吾爾文命名實體識別任務(wù)中達到了最好的性能。

    4 結(jié)束語

    針對維吾爾文命名實體識別任務(wù),本文以傳統(tǒng)的CRF統(tǒng)計模型作為基準進行實驗,總結(jié)維吾爾文命名實體識別中出現(xiàn)的問題,進而構(gòu)建基于BiLSTM-CNN-CRF框架的神經(jīng)網(wǎng)絡(luò)模型。該模型在CNN層捕獲字符級特征向量,在BiLSTM層獲取當前詞語的過去和將來的上下文信息,在CRF層對BiLSTM層的輸出進行解碼,最終輸出最優(yōu)的標記序列。基于UNERDATA語料的實驗結(jié)果進一步驗證了BiLSTM-CNN-CRF框架對維吾爾文命名實體識別的有效性。

    本文構(gòu)建的BiLSTM-CNN-CRF深度學(xué)習(xí)模型能夠在維吾爾文命名實體識別語料庫上得到較好的實驗結(jié)果,并已應(yīng)用于維吾爾文網(wǎng)絡(luò)輿情分析系統(tǒng),有效識別出了文本中的人名、地名和機構(gòu)名,提高了輿情系統(tǒng)分析能力。后續(xù)將進一步完善語料庫,加入二級詞性標注特征信息,并在新語料庫的基礎(chǔ)上測試本文模型的性能。

    猜你喜歡
    維吾爾文字符命名
    尋找更強的字符映射管理器
    命名——助力有機化學(xué)的學(xué)習(xí)
    字符代表幾
    一種USB接口字符液晶控制器設(shè)計
    電子制作(2019年19期)2019-11-23 08:41:50
    消失的殖民村莊和神秘字符
    有一種男人以“暖”命名
    東方女性(2018年3期)2018-04-16 15:30:02
    為一條河命名——在白河源
    散文詩(2017年17期)2018-01-31 02:34:08
    西部少數(shù)民族語言對阿拉伯文獻的譯介及其特點
    維吾爾文研究與Android維文閱讀器的實現(xiàn)?
    察合臺維吾爾文古籍的主要特點
    国产黄色免费在线视频| 亚洲av.av天堂| 久久99热这里只频精品6学生| 久久国产亚洲av麻豆专区| a 毛片基地| 亚洲av成人精品一区久久| 伦理电影大哥的女人| 亚洲av国产av综合av卡| 制服人妻中文乱码| 国产亚洲一区二区精品| 不卡视频在线观看欧美| 街头女战士在线观看网站| 夫妻午夜视频| 精品人妻熟女av久视频| av视频免费观看在线观看| 两个人的视频大全免费| 五月玫瑰六月丁香| 久久国内精品自在自线图片| 丝袜喷水一区| 国产有黄有色有爽视频| 制服丝袜香蕉在线| 免费高清在线观看视频在线观看| 看非洲黑人一级黄片| 大片电影免费在线观看免费| 18禁在线播放成人免费| 久久 成人 亚洲| 成人无遮挡网站| a 毛片基地| 黑人巨大精品欧美一区二区蜜桃 | 在线观看免费高清a一片| av在线播放精品| 国产老妇伦熟女老妇高清| 国产一级毛片在线| 久久久久久久国产电影| 国产亚洲精品第一综合不卡 | 少妇被粗大的猛进出69影院 | 亚洲丝袜综合中文字幕| 亚洲中文av在线| 三级国产精品欧美在线观看| 亚洲av中文av极速乱| 免费观看a级毛片全部| 国产成人免费观看mmmm| 久久久精品94久久精品| 91在线精品国自产拍蜜月| 能在线免费看毛片的网站| a 毛片基地| 纯流量卡能插随身wifi吗| 国产色婷婷99| 午夜福利,免费看| 熟女电影av网| 超色免费av| 桃花免费在线播放| 精品少妇久久久久久888优播| 免费日韩欧美在线观看| 美女视频免费永久观看网站| 亚洲国产毛片av蜜桃av| 免费看不卡的av| 亚洲久久久国产精品| 看十八女毛片水多多多| 人妻夜夜爽99麻豆av| 如日韩欧美国产精品一区二区三区 | 国产极品天堂在线| 九九久久精品国产亚洲av麻豆| 国产精品免费大片| 黄色毛片三级朝国网站| 国产 精品1| 亚洲不卡免费看| 午夜福利,免费看| 男女免费视频国产| 日韩制服骚丝袜av| 一级二级三级毛片免费看| 校园人妻丝袜中文字幕| 亚洲色图综合在线观看| 国产片特级美女逼逼视频| 美女视频免费永久观看网站| 久久狼人影院| 国产成人精品福利久久| 久久热精品热| 成人国产麻豆网| 久久久精品94久久精品| 99九九在线精品视频| 最近2019中文字幕mv第一页| 18禁动态无遮挡网站| 国产精品国产三级国产专区5o| 在线观看人妻少妇| 亚洲av在线观看美女高潮| 国产精品人妻久久久久久| 人人妻人人爽人人添夜夜欢视频| 大香蕉久久网| 一级,二级,三级黄色视频| 女人精品久久久久毛片| av国产精品久久久久影院| 国产片特级美女逼逼视频| 免费黄网站久久成人精品| 男人添女人高潮全过程视频| 国产精品一区二区在线观看99| 午夜福利网站1000一区二区三区| 五月伊人婷婷丁香| 一级a做视频免费观看| 好男人视频免费观看在线| 久久久久久久国产电影| 熟女av电影| av.在线天堂| 日韩伦理黄色片| 黑人猛操日本美女一级片| 一本大道久久a久久精品| 婷婷成人精品国产| av专区在线播放| 黑丝袜美女国产一区| 免费观看a级毛片全部| 成人影院久久| 中文字幕精品免费在线观看视频 | 在线天堂最新版资源| 精品国产一区二区久久| 99热6这里只有精品| 在线观看人妻少妇| 性高湖久久久久久久久免费观看| 欧美精品一区二区免费开放| xxx大片免费视频| 丰满少妇做爰视频| 亚洲精品国产av蜜桃| 一区二区日韩欧美中文字幕 | 国产一区有黄有色的免费视频| 99re6热这里在线精品视频| 午夜福利网站1000一区二区三区| 亚洲综合色惰| 日本爱情动作片www.在线观看| 亚洲欧美一区二区三区国产| 国产一区有黄有色的免费视频| 日韩熟女老妇一区二区性免费视频| 一区二区三区精品91| 免费久久久久久久精品成人欧美视频 | 亚洲第一区二区三区不卡| 亚洲国产av新网站| 国产综合精华液| a 毛片基地| 尾随美女入室| 亚洲综合色惰| 国产精品一二三区在线看| 大香蕉久久网| 有码 亚洲区| 性色av一级| videosex国产| 在线观看三级黄色| 中文字幕亚洲精品专区| 久久久久久久久久久久大奶| av卡一久久| 欧美精品高潮呻吟av久久| 精品人妻偷拍中文字幕| 国产免费视频播放在线视频| 久久精品熟女亚洲av麻豆精品| 超色免费av| 在线观看免费高清a一片| 国产日韩欧美在线精品| 精品国产乱码久久久久久小说| 午夜91福利影院| 久久这里有精品视频免费| 中文欧美无线码| 毛片一级片免费看久久久久| 考比视频在线观看| 亚洲伊人久久精品综合| 少妇熟女欧美另类| 欧美日韩综合久久久久久| 中文精品一卡2卡3卡4更新| 亚洲精品第二区| 岛国毛片在线播放| 精品一区在线观看国产| 精品人妻一区二区三区麻豆| 亚洲精品自拍成人| 人妻人人澡人人爽人人| 不卡视频在线观看欧美| 男女边吃奶边做爰视频| 精品人妻一区二区三区麻豆| 中文欧美无线码| 精品久久久精品久久久| 人人妻人人爽人人添夜夜欢视频| 亚洲精品色激情综合| 久久精品国产亚洲网站| 午夜福利在线观看免费完整高清在| 搡老乐熟女国产| 亚洲精品乱码久久久v下载方式| 国产免费一级a男人的天堂| 成人18禁高潮啪啪吃奶动态图 | 天堂中文最新版在线下载| 亚州av有码| 午夜福利影视在线免费观看| 亚洲av不卡在线观看| 99re6热这里在线精品视频| 亚洲美女黄色视频免费看| 一级二级三级毛片免费看| 久久人人爽人人片av| 国产午夜精品一二区理论片| 亚洲av欧美aⅴ国产| 大片电影免费在线观看免费| 日本欧美国产在线视频| 一级爰片在线观看| av.在线天堂| 一区二区三区精品91| 七月丁香在线播放| 久久影院123| 熟女人妻精品中文字幕| 欧美日韩综合久久久久久| 国产亚洲最大av| 久久久久久久久久久丰满| 男的添女的下面高潮视频| 高清不卡的av网站| 日韩电影二区| 色婷婷av一区二区三区视频| 免费看av在线观看网站| 亚洲精品aⅴ在线观看| 啦啦啦中文免费视频观看日本| 在线观看一区二区三区激情| 久久精品国产自在天天线| 国产老妇伦熟女老妇高清| 久久婷婷青草| 婷婷色麻豆天堂久久| 黑人猛操日本美女一级片| 在线 av 中文字幕| 精品视频人人做人人爽| 交换朋友夫妻互换小说| 欧美国产精品一级二级三级| 狂野欧美激情性bbbbbb| 久热这里只有精品99| 亚洲av欧美aⅴ国产| 黑人猛操日本美女一级片| 亚洲精品第二区| 亚洲性久久影院| 日本色播在线视频| 久久韩国三级中文字幕| 久久精品国产亚洲av天美| 久久国产精品大桥未久av| 日韩中文字幕视频在线看片| 熟女人妻精品中文字幕| 午夜福利,免费看| 国产熟女午夜一区二区三区 | 精品亚洲成国产av| 狂野欧美白嫩少妇大欣赏| 欧美人与善性xxx| av免费观看日本| 久久国产亚洲av麻豆专区| 蜜桃久久精品国产亚洲av| 亚洲中文av在线| 免费不卡的大黄色大毛片视频在线观看| 日韩亚洲欧美综合| 免费人成在线观看视频色| 母亲3免费完整高清在线观看 | 欧美激情国产日韩精品一区| 你懂的网址亚洲精品在线观看| 一本色道久久久久久精品综合| av不卡在线播放| 日韩精品免费视频一区二区三区 | 老司机影院毛片| 亚洲伊人久久精品综合| av电影中文网址| 欧美97在线视频| a级毛片在线看网站| 狂野欧美激情性xxxx在线观看| 国产精品一二三区在线看| 国产在线视频一区二区| 精品国产一区二区久久| 夜夜骑夜夜射夜夜干| 久久这里有精品视频免费| 国产精品偷伦视频观看了| 最近中文字幕高清免费大全6| 免费黄网站久久成人精品| 99视频精品全部免费 在线| 777米奇影视久久| 99热6这里只有精品| 国产成人freesex在线| 人人妻人人澡人人看| 午夜福利影视在线免费观看| 久久狼人影院| 亚洲精品久久久久久婷婷小说| 欧美性感艳星| 三上悠亚av全集在线观看| 人体艺术视频欧美日本| 免费久久久久久久精品成人欧美视频 | 欧美日韩精品成人综合77777| 一二三四中文在线观看免费高清| videos熟女内射| 亚洲精品aⅴ在线观看| 中国国产av一级| 如何舔出高潮| 熟女电影av网| 九色成人免费人妻av| 少妇熟女欧美另类| 九草在线视频观看| 十分钟在线观看高清视频www| a级毛片黄视频| 高清视频免费观看一区二区| 免费播放大片免费观看视频在线观看| 最近手机中文字幕大全| 男人添女人高潮全过程视频| 亚洲精品久久久久久婷婷小说| 亚洲欧美日韩卡通动漫| 中文字幕人妻熟人妻熟丝袜美| 三级国产精品欧美在线观看| 久久午夜综合久久蜜桃| 极品少妇高潮喷水抽搐| 高清午夜精品一区二区三区| 日韩av免费高清视频| 少妇 在线观看| 久久精品国产亚洲av涩爱| 制服诱惑二区| 大片免费播放器 马上看| 亚洲国产毛片av蜜桃av| 亚洲精品自拍成人| 久久青草综合色| 涩涩av久久男人的天堂| 久久久久久久久久久久大奶| 日韩成人av中文字幕在线观看| 在线观看人妻少妇| 亚洲精品视频女| 日日爽夜夜爽网站| 一级爰片在线观看| av在线观看视频网站免费| 亚洲国产最新在线播放| 日韩欧美一区视频在线观看| 中文欧美无线码| 插阴视频在线观看视频| 久久毛片免费看一区二区三区| 日本av免费视频播放| av国产久精品久网站免费入址| 青春草视频在线免费观看| 欧美日韩在线观看h| 精品卡一卡二卡四卡免费| 久久精品熟女亚洲av麻豆精品| 国产精品无大码| 婷婷色综合www| a级片在线免费高清观看视频| 五月伊人婷婷丁香| 国内精品宾馆在线| 伦精品一区二区三区| 日韩精品有码人妻一区| 欧美国产精品一级二级三级| 亚洲av综合色区一区| 欧美老熟妇乱子伦牲交| 欧美日韩成人在线一区二区| 久久 成人 亚洲| 日韩精品免费视频一区二区三区 | 欧美精品一区二区大全| 黑人欧美特级aaaaaa片| 国产日韩欧美亚洲二区| 亚洲精品,欧美精品| 午夜老司机福利剧场| 国产精品国产av在线观看| 亚洲美女视频黄频| 亚洲精品第二区| 国产av码专区亚洲av| 国产日韩一区二区三区精品不卡 | 成人毛片60女人毛片免费| 日本爱情动作片www.在线观看| 一级爰片在线观看| 制服诱惑二区| 老司机影院成人| 欧美日本中文国产一区发布| 黑丝袜美女国产一区| 成人国产av品久久久| 中文字幕最新亚洲高清| 日韩在线高清观看一区二区三区| 国产日韩一区二区三区精品不卡 | 精品午夜福利在线看| 久久久国产欧美日韩av| 欧美精品国产亚洲| 精品一品国产午夜福利视频| 国国产精品蜜臀av免费| 熟女av电影| 国产日韩一区二区三区精品不卡 | 一边亲一边摸免费视频| 少妇被粗大的猛进出69影院 | 国产成人a∨麻豆精品| 国产在线免费精品| 国模一区二区三区四区视频| 亚洲人成77777在线视频| 18禁在线无遮挡免费观看视频| 色94色欧美一区二区| 热re99久久国产66热| .国产精品久久| 成人无遮挡网站| 熟女电影av网| av女优亚洲男人天堂| 天天躁夜夜躁狠狠久久av| 黄色视频在线播放观看不卡| 亚洲av国产av综合av卡| 亚洲精品456在线播放app| 日本色播在线视频| 99久久人妻综合| 亚洲av.av天堂| 国产高清三级在线| 午夜久久久在线观看| 国产av一区二区精品久久| 亚洲精品国产色婷婷电影| 国产精品不卡视频一区二区| 日本av手机在线免费观看| 久久鲁丝午夜福利片| 国产精品一区二区在线不卡| 国产日韩欧美在线精品| 免费观看a级毛片全部| 精品人妻熟女av久视频| 色网站视频免费| 一级二级三级毛片免费看| 青春草视频在线免费观看| 日韩精品有码人妻一区| 麻豆乱淫一区二区| 肉色欧美久久久久久久蜜桃| 国产精品久久久久久av不卡| 国产av一区二区精品久久| 精品午夜福利在线看| 老熟女久久久| 国产 一区精品| 午夜激情福利司机影院| 高清黄色对白视频在线免费看| 午夜老司机福利剧场| 免费看光身美女| 亚洲精品国产色婷婷电影| 美女中出高潮动态图| 美女国产视频在线观看| 国产精品久久久久久久久免| 亚洲av国产av综合av卡| 成年人午夜在线观看视频| 色网站视频免费| 91久久精品国产一区二区成人| a级片在线免费高清观看视频| 久久久国产一区二区| 国产日韩欧美亚洲二区| 人成视频在线观看免费观看| 成人18禁高潮啪啪吃奶动态图 | 日韩熟女老妇一区二区性免费视频| 黑人猛操日本美女一级片| h视频一区二区三区| 国产精品人妻久久久影院| 十八禁高潮呻吟视频| 国产熟女午夜一区二区三区 | 热99久久久久精品小说推荐| 午夜福利网站1000一区二区三区| 精品卡一卡二卡四卡免费| 久久女婷五月综合色啪小说| 男男h啪啪无遮挡| 五月开心婷婷网| 欧美性感艳星| 日韩成人伦理影院| 黑人欧美特级aaaaaa片| 麻豆成人av视频| 国产高清国产精品国产三级| 久久精品熟女亚洲av麻豆精品| xxx大片免费视频| 涩涩av久久男人的天堂| 极品人妻少妇av视频| 国产欧美日韩一区二区三区在线 | 亚洲精品第二区| 男女边摸边吃奶| 国产片特级美女逼逼视频| 在线天堂最新版资源| 我要看黄色一级片免费的| 国产熟女欧美一区二区| av电影中文网址| 狠狠婷婷综合久久久久久88av| 一级毛片我不卡| 全区人妻精品视频| 丰满少妇做爰视频| 久久久国产精品麻豆| 啦啦啦视频在线资源免费观看| 中文欧美无线码| videossex国产| 女性生殖器流出的白浆| 免费大片18禁| 久久久欧美国产精品| 黑人高潮一二区| 精品亚洲乱码少妇综合久久| 国产精品偷伦视频观看了| 日韩 亚洲 欧美在线| 国产女主播在线喷水免费视频网站| 久久国内精品自在自线图片| 亚洲av男天堂| 内地一区二区视频在线| 亚洲精品日韩av片在线观看| 在线观看www视频免费| 久久免费观看电影| 在现免费观看毛片| 大又大粗又爽又黄少妇毛片口| 五月伊人婷婷丁香| 特大巨黑吊av在线直播| 午夜日本视频在线| 午夜激情福利司机影院| 视频在线观看一区二区三区| 九色亚洲精品在线播放| 亚洲一区二区三区欧美精品| 国产精品一区www在线观看| 亚洲av欧美aⅴ国产| 亚洲国产色片| 交换朋友夫妻互换小说| 午夜激情av网站| 亚洲精品亚洲一区二区| 亚洲人与动物交配视频| 欧美日韩一区二区视频在线观看视频在线| 99九九在线精品视频| 熟女电影av网| a级毛色黄片| 日韩制服骚丝袜av| 国产淫语在线视频| av天堂久久9| 欧美激情极品国产一区二区三区 | 丝瓜视频免费看黄片| 一边亲一边摸免费视频| 99国产精品免费福利视频| 久久韩国三级中文字幕| 22中文网久久字幕| 内地一区二区视频在线| 97在线视频观看| 国产在线免费精品| a 毛片基地| 少妇被粗大猛烈的视频| 久久精品熟女亚洲av麻豆精品| 精品少妇久久久久久888优播| 美女脱内裤让男人舔精品视频| 午夜激情福利司机影院| www.色视频.com| 午夜免费男女啪啪视频观看| 黄片播放在线免费| 十八禁网站网址无遮挡| 免费大片18禁| 精品酒店卫生间| 午夜91福利影院| 肉色欧美久久久久久久蜜桃| 老司机亚洲免费影院| 国产精品国产三级专区第一集| 秋霞在线观看毛片| 日产精品乱码卡一卡2卡三| 日韩精品有码人妻一区| 韩国av在线不卡| 国产极品天堂在线| 青春草国产在线视频| 汤姆久久久久久久影院中文字幕| 建设人人有责人人尽责人人享有的| 欧美精品人与动牲交sv欧美| 水蜜桃什么品种好| 亚洲精品日韩在线中文字幕| a级毛色黄片| 成人手机av| 丝袜在线中文字幕| 国产 一区精品| 18禁观看日本| 国产成人免费观看mmmm| 又黄又爽又刺激的免费视频.| 亚洲国产欧美在线一区| 久久精品熟女亚洲av麻豆精品| 免费久久久久久久精品成人欧美视频 | 91aial.com中文字幕在线观看| 亚洲精品456在线播放app| 日韩中字成人| 欧美成人午夜免费资源| 日韩一本色道免费dvd| 老司机影院成人| 我的老师免费观看完整版| 欧美精品亚洲一区二区| 免费高清在线观看视频在线观看| 人妻系列 视频| 日韩中字成人| 亚洲图色成人| av又黄又爽大尺度在线免费看| 一级毛片aaaaaa免费看小| 色哟哟·www| 日日摸夜夜添夜夜添av毛片| 成人漫画全彩无遮挡| 免费大片黄手机在线观看| 卡戴珊不雅视频在线播放| 国产精品久久久久久久电影| 精品一区二区三区视频在线| 国产永久视频网站| 在线观看www视频免费| 欧美日韩精品成人综合77777| 亚洲精品乱码久久久v下载方式| 中国三级夫妇交换| 男人添女人高潮全过程视频| 亚洲欧洲精品一区二区精品久久久 | 蜜桃国产av成人99| 日韩不卡一区二区三区视频在线| 精品亚洲成a人片在线观看| 亚洲av福利一区| 久久毛片免费看一区二区三区| 在线观看国产h片| 国产精品一区二区三区四区免费观看| 午夜福利视频精品| 制服丝袜香蕉在线| 99热全是精品| 哪个播放器可以免费观看大片| 欧美 日韩 精品 国产| 美女国产视频在线观看| 美女中出高潮动态图| 亚洲精品国产色婷婷电影| 国产毛片在线视频| 啦啦啦视频在线资源免费观看| 一级毛片黄色毛片免费观看视频| 下体分泌物呈黄色| 大香蕉久久成人网| 亚洲不卡免费看| 爱豆传媒免费全集在线观看| 国产午夜精品一二区理论片| av在线播放精品| 成人亚洲欧美一区二区av| 国产精品嫩草影院av在线观看| 男女啪啪激烈高潮av片| 91精品国产九色| 美女国产视频在线观看| av专区在线播放| 最近中文字幕高清免费大全6| .国产精品久久| 下体分泌物呈黄色| 91aial.com中文字幕在线观看| 乱人伦中国视频| 2018国产大陆天天弄谢| 亚洲无线观看免费| 91精品伊人久久大香线蕉| 亚洲国产精品一区二区三区在线| 丰满饥渴人妻一区二区三|