• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于去噪字詞聯(lián)合模型的中文命名實(shí)體識(shí)別

    2021-04-12 05:18:44倩,顧

    楊 倩,顧 磊

    南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,南京 210023

    隨著互聯(lián)網(wǎng)和信息科技的飛速發(fā)展,人們正處于一個(gè)大量的數(shù)據(jù)信息時(shí)代。為了應(yīng)對(duì)信息爆炸帶來(lái)的嚴(yán)峻考驗(yàn),亟需一種自動(dòng)管理、提取文本中信息的技術(shù),幫助人們從海量的文本信息中找到所需的關(guān)鍵信息,對(duì)命名實(shí)體識(shí)別的研究便是在這一背景下產(chǎn)生的。命名實(shí)體識(shí)別主要是從文本中識(shí)別出特定類別的實(shí)體,例如人名、地名、組織機(jī)構(gòu)名等,是自然語(yǔ)言處理任務(wù)中的最基礎(chǔ)的一步,可以應(yīng)用于關(guān)系抽取[1]、實(shí)體鏈接[2]、事件提取[3]、知識(shí)圖譜等一系列下游任務(wù)。因而,命名實(shí)體識(shí)別一直受到國(guó)內(nèi)外研究者的廣泛關(guān)注。

    早期的命名實(shí)體識(shí)別主要采用基于規(guī)則的方法[4],該方法主要通過(guò)語(yǔ)言學(xué)專家對(duì)目標(biāo)文本手工制定有效的規(guī)則識(shí)別命名實(shí)體,大多依賴知識(shí)庫(kù)和詞典的建立,需要耗費(fèi)大量的時(shí)間和精力,而且難以找到適合所有領(lǐng)域的規(guī)則模型,可遷移性較差[5]。因此,隨著技術(shù)的發(fā)展,研究人員越來(lái)越關(guān)注基于統(tǒng)計(jì)的方法來(lái)實(shí)現(xiàn)命名實(shí)體識(shí)別?;诮y(tǒng)計(jì)的方法涉及的機(jī)器學(xué)習(xí)模型主要有隱馬爾科夫模型[6](Hidden Markov Model,HMM)、最大熵模型[7](Maximum Entropy,ME)、條件隨機(jī)場(chǎng)[8-9](Conditional Random Field,CRF)、支持向量機(jī)(Support Vector Machine,SVM)等。基于統(tǒng)計(jì)的方法,主要是利用大型語(yǔ)料庫(kù)來(lái)訓(xùn)練,需要針對(duì)不同任務(wù)進(jìn)行大量手工特征工程來(lái)設(shè)計(jì)出合適的特征模板[5],雖然解決了可遷移性問(wèn)題,但依舊比較費(fèi)時(shí)費(fèi)力。近幾年,隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,在命名實(shí)體識(shí)別方向使用基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法取得了很大的進(jìn)展。Collobert 等人[10]提出了一種基于神經(jīng)網(wǎng)絡(luò)的統(tǒng)一模型CNN-CRF,CNN(Convolutional Neural Network)用來(lái)提取字特征,CRF 預(yù)測(cè)序列標(biāo)簽,實(shí)驗(yàn)結(jié)果表明該模型表現(xiàn)優(yōu)于之前最好的統(tǒng)計(jì)模型。Chiu 等人[11]將Collobert 模型中的前饋神經(jīng)網(wǎng)絡(luò)進(jìn)一步優(yōu)化,改為使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM)。Dong等人[12]將偏旁部首特征引入神經(jīng)網(wǎng)絡(luò)BiLSTM-CRF中,獲得更好的識(shí)別結(jié)果。Peng 等人[13]提出一種能夠聯(lián)合訓(xùn)練中文分詞任務(wù)的統(tǒng)一模型,融入了從分詞系統(tǒng)學(xué)習(xí)到的詞邊界隱藏信息,識(shí)別效果明顯提升。He 等人[14]針對(duì)標(biāo)記語(yǔ)料有限的情況,提出一種基于BiLSTM神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)模型進(jìn)行中文命名實(shí)體識(shí)別。Zhang等人[15]將注意力機(jī)制[16]融入通用的BiLSTM-CRF模型,捕捉到更多的上下文特征。Cao 等人[17]利用了對(duì)抗性遷移學(xué)習(xí)聯(lián)合訓(xùn)練中文分詞任務(wù)和中文命名實(shí)體識(shí)別任務(wù),抽取任務(wù)共享詞邊界信息,識(shí)別效果較好。Zhang 等人[18]構(gòu)建了一種字詞聯(lián)合的網(wǎng)格(Lattice)結(jié)構(gòu),將和字典匹配到的詞信息整合進(jìn)神經(jīng)網(wǎng)絡(luò)模型,不僅避免了分詞錯(cuò)誤,同時(shí)充分利用了詞與詞的序列信息,該模型在多個(gè)數(shù)據(jù)集上有很好地表現(xiàn)。與基于規(guī)則和基于統(tǒng)計(jì)的方法相比,這些基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別方法獲得了更好的識(shí)別效果。

    基于字詞聯(lián)合的神經(jīng)網(wǎng)絡(luò)雖然在中文命名實(shí)體識(shí)別上有著良好的表現(xiàn),但仍存在著一定的改進(jìn)空間。本文在Zhang等人[18]字詞聯(lián)合神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,提出了一種融合Gated 去噪機(jī)制的字詞聯(lián)合網(wǎng)絡(luò)模型進(jìn)行中文命名實(shí)體識(shí)別,將該網(wǎng)絡(luò)模型簡(jiǎn)稱Gated-Lattice,實(shí)驗(yàn)結(jié)果表明,改進(jìn)的模型可以有效地提升命名實(shí)體識(shí)別效果。

    1 基于字詞聯(lián)合的BiLSTM-CRF模型

    1.1 基于字詞聯(lián)合的LSTM模型

    長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)是對(duì)傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種改進(jìn)模型,它在原有循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,加入記憶細(xì)胞來(lái)記錄狀態(tài)信息,并引入了輸入門(mén)、遺忘門(mén)、輸出門(mén)三個(gè)門(mén)結(jié)構(gòu),有效地解決了由于梯度爆炸和梯度消失而產(chǎn)生的長(zhǎng)距離依賴問(wèn)題[10]。因此,LSTM網(wǎng)絡(luò)模型被廣泛的應(yīng)用于序列標(biāo)注問(wèn)題中。

    基于字詞聯(lián)合的LSTM 模型(Lattice)[18-19]是處理中文命名實(shí)體識(shí)別任務(wù)的一種有效模型,該模型是在基于字級(jí)LSTM模型的基礎(chǔ)上集成詞信息,如圖1所示。通過(guò)加入詞,可以充分利用精確的詞序列信息,有效避免分詞錯(cuò)誤的影響[18]。

    圖1 基于字詞聯(lián)合的LSTM模型

    基于字詞聯(lián)合的LSTM模型的輸入包括兩個(gè)部分:字信息和詞信息。設(shè)字典Dc和詞典Dw分別是使用自動(dòng)分詞的大量原始文本構(gòu)建的字向量矩陣和詞向量矩陣,給定句子s={ }c1,c2,…,cM,輸入信息為單字序列c1,c2,…,cM和該句子與詞典Dw匹配到的所有詞wb,e,b、e是詞首字、尾字的索引。如圖1中,c1,c2,c3,c4,c5依次對(duì)應(yīng)“北京天安門(mén)”五個(gè)字,w1,2為“北京”,w3,5為“天安門(mén)”。將每一個(gè)字cj通過(guò)查找字典Dc映射為字向量xcj,并將每一個(gè)詞wb,e通過(guò)查找詞典Dw映射為詞向量xw b,e,表達(dá)式如下:

    在基于字詞聯(lián)合的LSTM模型[18]中,假設(shè)輸入為字和詞xwb,e,首先計(jì)算字級(jí)xcj的LSTM 單元中的相關(guān)狀態(tài),計(jì)算方式如下:

    其中,σ表示sigmoid激活函數(shù),icj、ocj、f jc分別表示輸入門(mén)、輸出門(mén)、遺忘門(mén),Wc ix、Wc ih、Wcox、Wc oh、Wc fx、Wfch、WCc?x、WCc?h、bci、boc、bcf、bcC?都是模型參數(shù),hcj-1表示上一個(gè)字隱藏層的輸出,表示當(dāng)前字xcj產(chǎn)生的狀態(tài)信息。

    對(duì)于詞xwb,e采用類似的方式,用表示詞的記憶細(xì)胞狀態(tài),記錄從句子開(kāi)始詞的循環(huán)狀態(tài)信息,值的計(jì)算方法如下:

    其中,iwb,e、f bw,e分別表示詞的輸入門(mén)和遺忘門(mén)。Wiwx、Wiwh、Wfwx、Wfwh、WCw?x、WCw?h、、bwC?是模型參數(shù),hcb是cb對(duì)應(yīng)的隱藏層輸出,Cbl是從句子開(kāi)始第b個(gè)字對(duì)應(yīng)的記憶細(xì)胞所記錄的字詞循環(huán)狀態(tài)。

    由于聯(lián)合了字詞信息,進(jìn)入每個(gè)字詞聯(lián)合(Lattice)的記憶細(xì)胞狀態(tài)Clb的信息便有了更多的輸入源,如圖1中,Cl5的輸入源包括字xc5(門(mén))和詞Cw3,5(天安門(mén))。因此對(duì)于Cle的計(jì)算,要將字xce和所有詞的記憶細(xì)胞狀態(tài)Cbw,e同時(shí)考慮在內(nèi)。為了控制每個(gè)詞的記憶細(xì)胞狀態(tài)Cbw,e的輸入程度,額外地設(shè)置一個(gè)輸入門(mén)icb,e,其計(jì)算方式如下:

    其中,Wxl、WCl、bl是對(duì)應(yīng)的模型參數(shù)。

    為了衡量每個(gè)Cjl的各個(gè)輸入源,xcj、Cbw,j的貢獻(xiàn),采用歸一化的方法為其分配權(quán)重:

    其中,icj、ibc,j的計(jì)算方式分別采用式(3)和式(11),Aj和Ab,j是xcj、Cbw,j對(duì)應(yīng)的歸一化因子,即分配權(quán)重。再例如圖1,Cl5的輸入源:xc5和Cw3,5的權(quán)重分別是A5和A3,5。

    將當(dāng)前各個(gè)輸入源的狀態(tài)信息與對(duì)應(yīng)的權(quán)重進(jìn)行加權(quán)求和,得到Clj:

    由于最終要對(duì)每一個(gè)字打標(biāo)簽,體現(xiàn)在字級(jí)層面上,因此采用字級(jí)輸出門(mén)ocj控制當(dāng)前記憶細(xì)胞狀態(tài)Cjl的輸出程度。最后的隱藏層輸出向量hcj計(jì)算如下:

    其中,ocj、Clj分別取自式(4)、(14)。

    1.2 BiLSTM-CRF模型

    單向的LSTM模型只能獲取過(guò)去的信息,不能考慮到未來(lái)的上下文信息[20]。Dyer等人[21]證明了雙向LSTM模型的有效性,BiLSTM能夠同時(shí)捕獲前向和后向的長(zhǎng)距離信息,有利于下一階段的序列預(yù)測(cè)。因此,將前向隱藏向量hcj和后向隱藏向量hcj合并起來(lái),得到BiLSTM模型的輸出hj,如圖2中BiLSTM層的輸出。

    圖2 基于Gated去噪機(jī)制的字詞聯(lián)合BiLSTM-CRF模型

    命名實(shí)體識(shí)別任務(wù)中,相鄰字的標(biāo)簽之間通常會(huì)有很強(qiáng)的依賴關(guān)系,例如,在BMES(B-Begin:詞首,M-Middle:詞中,E-End:詞尾,S-Single:?jiǎn)巫郑╊愋蜆?biāo)注中,標(biāo)簽M-LOC 只能在標(biāo)簽B-LOC 之后,而不能跟在B-ORG 或E-LOC 之后。因此,一般使用CRF 模型[18]直接作用在BiLSTM 層的輸出hj上,進(jìn)行合標(biāo)注,以保證標(biāo)簽的合理性與正確性。

    2 融合Gated 去噪機(jī)制的字詞聯(lián)合BiLSTMCRF模型

    2.1 Gated去噪機(jī)制

    本文在對(duì)輸入文本的每一個(gè)字進(jìn)行字嵌入時(shí),使用了一個(gè)在大型原始文本上訓(xùn)練的字典矩陣Dc。該字典矩陣采用連續(xù)詞袋模型[22],即依據(jù)中心字前后各兩個(gè)字來(lái)預(yù)測(cè)中心字向量表示,最終將所有訓(xùn)練完成的字向量組成Dc。

    在實(shí)驗(yàn)過(guò)程中,將輸入文本數(shù)據(jù)與字典匹配,可以快速有效地查找到相應(yīng)的字向量。由于匹配到的字向量是在大量原始文本上訓(xùn)練得到的,因此這些字向量包含的信息含噪、不夠準(zhǔn)確。確切地說(shuō),對(duì)于一個(gè)訓(xùn)練文本中的每個(gè)字,其字向量表示是依據(jù)上下文訓(xùn)練的,但是局部區(qū)域里的字不一定每次都出現(xiàn)在一起,有的可能只出現(xiàn)少數(shù)次,導(dǎo)致提取的字特征不夠準(zhǔn)確,從而影響識(shí)別效果。針對(duì)這一缺陷,考慮加入一個(gè)Gated去噪機(jī)制,對(duì)字向量信息進(jìn)行微調(diào),即讓每個(gè)字向量以一定概率出現(xiàn),以過(guò)濾掉文本中一些無(wú)關(guān)的或者不重要的字信息。而對(duì)于訓(xùn)練文本與詞典Dw匹配到的詞序列,由于這些詞可以提供大量的精確的詞邊界信息,有利于提升命名實(shí)體識(shí)別的性能[18],因此,不使用去噪機(jī)制對(duì)詞進(jìn)行處理。

    Gated 去噪機(jī)制實(shí)質(zhì)上是一個(gè)神經(jīng)網(wǎng)絡(luò)層,對(duì)輸入特征向量進(jìn)行了一次線性變換和一次非線性變換。主要由一個(gè)sigmoid 激活函數(shù)作用在原始輸入字向量上,輸出一系列0~1之間的值,然后加權(quán)到對(duì)應(yīng)的原始輸入字向量來(lái)控制輸入字信息的輸入程度,從而達(dá)到去噪的效果。

    對(duì)于句子s={c1,c2,…,cM},將每個(gè)字cj通過(guò)字典Dc映射為相應(yīng)的字向量:

    將rc j作為該神經(jīng)網(wǎng)絡(luò)層的輸入,然后采用Gated去噪機(jī)制gj直接作用到原始字向量rc j上,得到微調(diào)后的字向量xc j,如圖2中虛框深藍(lán)色區(qū)域所示。xc j具體計(jì)算方式如下:

    其中,Wg、bg為模型參數(shù),⊙表示逐點(diǎn)乘積。

    2.2 融合Gated去噪機(jī)制的字詞聯(lián)合BiLSTMCRF模型

    融合Gated 去噪機(jī)制的字詞聯(lián)合BiLSTM-CRF 模型整體框架如圖2 所示,其大致過(guò)程如下:首先將字序列和與詞典匹配到的詞序列作為輸入,經(jīng)過(guò)嵌入層分別將字和詞映射為相應(yīng)的字向量和詞向量。再將字向量經(jīng)過(guò)一個(gè)Gated去噪神經(jīng)網(wǎng)絡(luò)層進(jìn)一步處理,該神經(jīng)網(wǎng)絡(luò)層針對(duì)不同的輸入文本序列,作出相應(yīng)的文本字特征調(diào)整。然后將調(diào)整后的字向量與詞向量一同送入BiLSTM 神經(jīng)網(wǎng)絡(luò)中,得到前后兩個(gè)方向上的隱藏狀態(tài)。最后,再使用CRF模型進(jìn)行序列合理化標(biāo)注,通過(guò)將BiLSTM層輸出的隱藏狀態(tài)作為CRF層的輸入,獲得最終的全局最優(yōu)標(biāo)簽序列。

    2.3 訓(xùn)練過(guò)程

    本文模型的訓(xùn)練過(guò)程:

    輸入:原始字序列s={c1,c2,…,cM},與詞典Dw匹配到的所有子序列wb,j,以及真實(shí)標(biāo)簽序列:

    輸出:命名實(shí)體標(biāo)簽序列:

    1.rc j =Dc(cj),xwb,e=Dw(wb,e)//字嵌入、詞嵌入

    2.xcj=Gated(rc j)//Gated去噪機(jī)制

    3.(xcj,xwb,e)//前向LSTM

    6. 令句子級(jí)隱藏向量h=[h1,h2,…,hM],并根據(jù)句子真實(shí)序列標(biāo)簽y,得到P(y,h)=CRF(y,h,s)

    7. 利用對(duì)數(shù)似然損失函數(shù)公式(20)進(jìn)行計(jì)算,再利用反向傳播,更新參數(shù),返回第2步重新計(jì)算

    本文模型的訓(xùn)練過(guò)程如上文所示,輸入序列先經(jīng)過(guò)嵌入層,再經(jīng)過(guò)Gated 去噪層、BiLSTM 層,然后在CRF層,為了全局考慮,根據(jù)BiLSTM 層輸出的句子級(jí)隱藏向量h和真實(shí)標(biāo)簽序列y,產(chǎn)生輸入序列被標(biāo)注為y的概率P(y,h),利用如下對(duì)數(shù)似然損失函數(shù):

    最大化正確標(biāo)簽序列的概率,最后通過(guò)反向傳播,根據(jù)梯度下降優(yōu)化算法更新模型參數(shù),并返回到Gated去噪層重新計(jì)算。

    3 實(shí)驗(yàn)

    3.1 數(shù)據(jù)集

    本文實(shí)驗(yàn)中使用了兩個(gè)公開(kāi)數(shù)據(jù)集:Resume數(shù)據(jù)集和Weibo數(shù)據(jù)集。Resume數(shù)據(jù)集來(lái)自新浪財(cái)經(jīng)的1 027份簡(jiǎn)歷總結(jié),標(biāo)注了8 種命名實(shí)體:CONT(Country)、EDU(Educational Institution)、LOC(Location)、PER(Person Name)、ORG(Organization)、PRO(Profession)、RACE(Ethnicity Background)、TITLE(Job Title);Weibo數(shù)據(jù)集來(lái)自社交媒體網(wǎng)站,標(biāo)注了4 種命名實(shí)體:PER、ORG、LOC、GPE,包括名稱實(shí)體和名詞實(shí)體。表1列出兩個(gè)數(shù)據(jù)集的詳細(xì)信息,統(tǒng)計(jì)了其訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集中句子和字符的數(shù)量。

    表1 數(shù)據(jù)集統(tǒng)計(jì)情況

    3.2 實(shí)驗(yàn)基本設(shè)置

    本文的模型(Gated-Lattice)實(shí)驗(yàn)設(shè)置:在64 位Ubuntu16.0系統(tǒng),Intel E5-2603 v4 @ 1.70 GHz×6處理器,15.6 GB 內(nèi)存,Quadro M2000 顯卡硬件環(huán)境中進(jìn)行。本文模型是在文獻(xiàn)[18]模型的基礎(chǔ)上進(jìn)行改進(jìn)的,因此采用了與之相同的參數(shù)設(shè)置,如表2 所示。具體參數(shù)值如下:embedding 大小設(shè)置為50,LSTM 模型的隱藏層節(jié)點(diǎn)數(shù)設(shè)置為200;Dropout 丟棄率應(yīng)用于字向量和詞向量,設(shè)置值為0.5;采用隨機(jī)下降梯度(SGD)進(jìn)行模型參數(shù)優(yōu)化,設(shè)置初始學(xué)習(xí)率為0.015,衰減率為0.05。

    表2 參數(shù)設(shè)置

    對(duì)比模型實(shí)驗(yàn)設(shè)置:在Resume 數(shù)據(jù)集上使用的對(duì)比模型來(lái)自Zhang 等人[18],因?yàn)楸疚牡哪P褪窃赯hang等人[18]的模型上的改進(jìn),所以為了實(shí)驗(yàn)的公平性,Zhang等人[18]的模型和本文的模型采用如上所述一樣的實(shí)驗(yàn)設(shè)置和參數(shù)設(shè)置。在Weibo 數(shù)據(jù)集上使用的三個(gè)對(duì)比模型來(lái)自Peng等人[13]、He等人[14]和Zhang等人[18],其中,前兩個(gè)對(duì)比模型的實(shí)驗(yàn)數(shù)據(jù)直接取自其文獻(xiàn),而Zhang等人[18]的實(shí)驗(yàn)設(shè)置也與本文實(shí)驗(yàn)設(shè)置相同。

    3.3 評(píng)價(jià)指標(biāo)

    判別一個(gè)命名實(shí)體是否被正確標(biāo)注主要考慮三個(gè)方面[23]:(1)是否正確劃分出實(shí)體邊界;(2)是否正確標(biāo)注出實(shí)體標(biāo)簽類型;(3)是否按照正確標(biāo)簽順序標(biāo)注實(shí)體。為了直觀地對(duì)比預(yù)測(cè)和實(shí)際的標(biāo)注結(jié)果,本文采用準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F1 值(F1-score)三個(gè)指標(biāo)來(lái)衡量模型效果。準(zhǔn)確率是正確標(biāo)注的實(shí)體數(shù)占預(yù)測(cè)標(biāo)注實(shí)體總數(shù)的比例,召回率是指正確標(biāo)注的實(shí)體數(shù)占原來(lái)標(biāo)準(zhǔn)標(biāo)注實(shí)體總數(shù)的比例,為了綜合評(píng)價(jià)模型的性能,又引入F1評(píng)價(jià)指標(biāo),即準(zhǔn)確率和召回率的加權(quán)幾何平均值。三個(gè)評(píng)價(jià)指標(biāo)的計(jì)算公式如下:

    3.4 實(shí)驗(yàn)對(duì)比分析

    為了驗(yàn)證本文提出的融合Gated去噪機(jī)制的字詞聯(lián)合BiLSTM-CRF 模型的有效性,實(shí)驗(yàn)中,使用了兩個(gè)不同領(lǐng)域的公開(kāi)數(shù)據(jù)集進(jìn)行模型訓(xùn)練,并利用測(cè)試集進(jìn)行測(cè)試。

    表3 給出了在Resume 測(cè)試集上的實(shí)驗(yàn)結(jié)果,并同Zhang 等人[18]的模型結(jié)果作了對(duì)比。在基于詞的BiLSTM-CRF 模型(Word baseline)上獲得了93.58%的F1 值,在此基礎(chǔ)上再加上字和雙字(Word baseline+char+bichar LSTM)后的F1 值達(dá)到了94.24%;在基于字的BiLSTM-CRF模型(Char baseline)獲得了93.48%的F1 值,在此基礎(chǔ)上再加上雙字和分詞特征(Char baseline+bichar+softword),F(xiàn)1值達(dá)到了94.41%;在基于字詞聯(lián)合的BiLSTM-CRF模型(Lattice)上,F(xiàn)1值達(dá)到了94.46%,本文提出的在這一模型基礎(chǔ)上改進(jìn)的模型相較于這一最高結(jié)果,將F1 值提高到了95.04%。而且,P值和R值較表2中最高的結(jié)果均有不同程度的提升,特別是R值提升到了95.10%。

    表3 不同模型在Resume數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比%

    采用的第一個(gè)數(shù)據(jù)集Resume數(shù)據(jù)集內(nèi)容取自新浪財(cái)經(jīng)網(wǎng)的簡(jiǎn)歷,語(yǔ)言文本較為正式、規(guī)范,因此本文模型在其測(cè)試效果上表現(xiàn)很好。為了進(jìn)一步驗(yàn)證模型性能,將采用一個(gè)更復(fù)雜的數(shù)據(jù)集進(jìn)行訓(xùn)練測(cè)試:Weibo數(shù)據(jù)集。Weibo數(shù)據(jù)集的內(nèi)容取自社交媒體文本,具有文本長(zhǎng)度短,語(yǔ)言不規(guī)范,噪聲多,詞匯新奇等特點(diǎn),這使得對(duì)該數(shù)據(jù)集進(jìn)行命名實(shí)體的識(shí)別變得更加困難。

    表4顯示了本文模型和前人模型在Weibo數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比結(jié)果(均為F1值)。其中,NE表示只含名稱實(shí)體(Named Entity)的語(yǔ)料,NM 表示只含名詞實(shí)體(Nominal Mention)的語(yǔ)料,Overall 表示包含NE 和NM 兩部分整體語(yǔ)料。Peng 2015[13]是一種能夠聯(lián)合訓(xùn)練中文分詞任務(wù)的統(tǒng)一模型,在NE、NM和Overall上分別獲得了51.96%、61.05%和56.05%的F1值。He 2017[14]是一種基于BiLSTM神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)模型,由于其采用的是半監(jiān)督,因此得到的F1 值略低。進(jìn)一步采用本文的改進(jìn)模型進(jìn)行訓(xùn)練,發(fā)現(xiàn)相較于Zhang 的結(jié)果,F(xiàn)1 值分別從52.34%、62.03%、57.72%提高到52.52%、62.07%、58.52%,超過(guò)了表4 中對(duì)比模型的結(jié)果,進(jìn)一步驗(yàn)證了模型的有效性。

    表4 不同模型在Weibo數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比%

    3.5 案例分析

    表5 和表6 分別顯示了在Weibo、Resume 數(shù)據(jù)集上字詞聯(lián)合Lattice 模型和本文改進(jìn)的Gated-Lattice 模型的對(duì)比案例,Golds是標(biāo)準(zhǔn)標(biāo)簽。在表5中,字詞聯(lián)合模型錯(cuò)誤地將“鄧超四”識(shí)別為人名實(shí)體,留下職業(yè)名詞“大名捕”,而改進(jìn)的模型通過(guò)學(xué)習(xí)自動(dòng)減少干擾信息,根據(jù)上下文信息正確識(shí)別出“鄧超”是人名,留下電影名“四大名捕”。表6 中,字詞聯(lián)合模型只正確識(shí)別出“國(guó)家物資局”是機(jī)構(gòu)名,而改進(jìn)的融合Gated機(jī)制的字詞聯(lián)合模型還成功地識(shí)別出了“物資部”與“國(guó)內(nèi)貿(mào)易部金屬材料流通司”機(jī)構(gòu)名實(shí)體,由此進(jìn)一步說(shuō)明了改進(jìn)的模型的有效性。

    表5 Weibo數(shù)據(jù)集案例

    表6 Resume數(shù)據(jù)集案例

    4 結(jié)束語(yǔ)

    本文提出了一種基于字詞聯(lián)合去噪機(jī)制融合的中文命名實(shí)體識(shí)別算法,該算法的目的是利用Gated去噪神經(jīng)網(wǎng)絡(luò)對(duì)輸入字特征進(jìn)行微調(diào),使得輸送到字詞聯(lián)合模型中的字特征表示更加準(zhǔn)確,讓模型專注于學(xué)習(xí)跟命名實(shí)體相關(guān)的特征。實(shí)驗(yàn)證明了提出的改進(jìn)算法可以有效地提高中文命名實(shí)體識(shí)別的效果。不過(guò),從實(shí)驗(yàn)結(jié)果來(lái)看,由于Weibo數(shù)據(jù)集內(nèi)容非正式、語(yǔ)言不太規(guī)范,包括本文算法在內(nèi)的現(xiàn)有算法在識(shí)別效果上都不太理想,因此,這將是今后進(jìn)一步研究改進(jìn)的方向。

    aaaaa片日本免费| 最好的美女福利视频网| 激情 狠狠 欧美| 在现免费观看毛片| av在线老鸭窝| 在线观看免费视频日本深夜| 日韩三级伦理在线观看| 最后的刺客免费高清国语| 蜜桃亚洲精品一区二区三区| 两性午夜刺激爽爽歪歪视频在线观看| 国产三级中文精品| a级毛片免费高清观看在线播放| 国产精品嫩草影院av在线观看| 99久久成人亚洲精品观看| 黄色一级大片看看| 精品久久久久久久久亚洲| av在线天堂中文字幕| 最近的中文字幕免费完整| 国产探花在线观看一区二区| 91久久精品电影网| a级毛片免费高清观看在线播放| 久久精品国产亚洲av天美| 国产伦在线观看视频一区| 波多野结衣高清无吗| 美女黄网站色视频| 插阴视频在线观看视频| 午夜福利成人在线免费观看| 人妻制服诱惑在线中文字幕| 五月伊人婷婷丁香| 国产精品久久久久久av不卡| 久久久久精品国产欧美久久久| 国产白丝娇喘喷水9色精品| eeuss影院久久| 舔av片在线| 午夜激情欧美在线| 在线国产一区二区在线| 久久热精品热| 中国国产av一级| 51国产日韩欧美| 国产伦精品一区二区三区四那| 麻豆久久精品国产亚洲av| 久久久久久久久久黄片| 亚洲国产色片| 午夜日韩欧美国产| 亚洲欧美日韩无卡精品| 99国产精品一区二区蜜桃av| 日韩欧美国产在线观看| 国产高潮美女av| 波多野结衣高清作品| 日本一二三区视频观看| 国产欧美日韩精品一区二区| 免费看a级黄色片| 黄色视频,在线免费观看| 1024手机看黄色片| 日韩欧美在线乱码| 日本色播在线视频| 久久6这里有精品| 女的被弄到高潮叫床怎么办| 欧美日韩综合久久久久久| 久久久成人免费电影| 欧美成人a在线观看| 人妻久久中文字幕网| 日本熟妇午夜| 香蕉av资源在线| 午夜老司机福利剧场| 一卡2卡三卡四卡精品乱码亚洲| 亚洲性久久影院| 色在线成人网| 观看美女的网站| 一级av片app| 不卡视频在线观看欧美| 亚洲av.av天堂| 男人的好看免费观看在线视频| 国产 一区 欧美 日韩| 中文亚洲av片在线观看爽| 国产精品一及| 国产黄色视频一区二区在线观看 | 欧美国产日韩亚洲一区| av天堂中文字幕网| 有码 亚洲区| 可以在线观看的亚洲视频| 国产精品野战在线观看| 亚洲国产精品sss在线观看| 一夜夜www| 精品日产1卡2卡| 又黄又爽又免费观看的视频| 亚洲国产欧洲综合997久久,| aaaaa片日本免费| 国产伦在线观看视频一区| 久久国产乱子免费精品| 岛国在线免费视频观看| 一本精品99久久精品77| 日韩av不卡免费在线播放| 久久精品综合一区二区三区| 蜜桃亚洲精品一区二区三区| 欧美日韩一区二区视频在线观看视频在线 | 少妇熟女aⅴ在线视频| av国产免费在线观看| 欧美zozozo另类| 亚洲不卡免费看| 小说图片视频综合网站| 国产亚洲91精品色在线| 女人被狂操c到高潮| 日韩,欧美,国产一区二区三区 | 最好的美女福利视频网| 国产精品久久视频播放| 联通29元200g的流量卡| 亚洲欧美日韩无卡精品| 日本一二三区视频观看| 在线播放无遮挡| 精品人妻视频免费看| 一区二区三区四区激情视频 | 在线a可以看的网站| 日日撸夜夜添| 最近的中文字幕免费完整| 国产午夜精品论理片| 少妇丰满av| 日韩欧美精品免费久久| 少妇的逼水好多| 亚洲乱码一区二区免费版| 69人妻影院| 亚洲国产精品久久男人天堂| 婷婷精品国产亚洲av| 日韩欧美三级三区| 日韩 亚洲 欧美在线| 中文资源天堂在线| avwww免费| 春色校园在线视频观看| 中文资源天堂在线| 国产高清激情床上av| 美女cb高潮喷水在线观看| 免费人成在线观看视频色| 午夜福利在线在线| 午夜福利在线观看吧| 精品久久久久久久久久免费视频| 午夜影院日韩av| 欧美在线一区亚洲| 99精品在免费线老司机午夜| 亚洲成人中文字幕在线播放| 97热精品久久久久久| 国产成人a区在线观看| 成人av一区二区三区在线看| 国产精品女同一区二区软件| 乱码一卡2卡4卡精品| 91久久精品电影网| 少妇猛男粗大的猛烈进出视频 | 精品一区二区三区人妻视频| 一夜夜www| 一本精品99久久精品77| 日本与韩国留学比较| 少妇猛男粗大的猛烈进出视频 | ponron亚洲| a级毛色黄片| 天天一区二区日本电影三级| 日本精品一区二区三区蜜桃| 99热全是精品| 中文亚洲av片在线观看爽| 国产一区二区亚洲精品在线观看| 干丝袜人妻中文字幕| 国产黄片美女视频| 国产精品爽爽va在线观看网站| 欧美成人免费av一区二区三区| 日本成人三级电影网站| 97超视频在线观看视频| 欧美色欧美亚洲另类二区| 精品少妇黑人巨大在线播放 | 久久国产乱子免费精品| 国产片特级美女逼逼视频| 尾随美女入室| 黑人高潮一二区| a级毛色黄片| .国产精品久久| 女生性感内裤真人,穿戴方法视频| 女人被狂操c到高潮| 欧美区成人在线视频| 色综合站精品国产| 国产乱人偷精品视频| 老熟妇仑乱视频hdxx| 日韩强制内射视频| 国产 一区 欧美 日韩| 亚洲精品日韩在线中文字幕 | 亚洲不卡免费看| 99久久久亚洲精品蜜臀av| 校园人妻丝袜中文字幕| 欧美最黄视频在线播放免费| 亚洲美女视频黄频| 亚洲欧美中文字幕日韩二区| 网址你懂的国产日韩在线| 亚洲内射少妇av| 欧美3d第一页| 免费在线观看影片大全网站| 天天躁日日操中文字幕| 国产亚洲精品av在线| 色综合亚洲欧美另类图片| 最近的中文字幕免费完整| 婷婷亚洲欧美| 乱人视频在线观看| 淫妇啪啪啪对白视频| 亚洲自拍偷在线| 男人的好看免费观看在线视频| 亚洲国产日韩欧美精品在线观看| 亚州av有码| 最新在线观看一区二区三区| 身体一侧抽搐| 亚洲婷婷狠狠爱综合网| 欧美绝顶高潮抽搐喷水| 国国产精品蜜臀av免费| 国产高清三级在线| 少妇丰满av| 国产精品一区www在线观看| 久久久久国产网址| a级毛片a级免费在线| 亚洲不卡免费看| 亚洲激情五月婷婷啪啪| 午夜福利视频1000在线观看| 日韩精品中文字幕看吧| 露出奶头的视频| 99久久成人亚洲精品观看| 人人妻,人人澡人人爽秒播| 中国美女看黄片| 国产精品不卡视频一区二区| 国产男人的电影天堂91| 午夜福利成人在线免费观看| 2021天堂中文幕一二区在线观| 欧美成人a在线观看| 亚洲av中文字字幕乱码综合| 久久精品夜夜夜夜夜久久蜜豆| 一个人免费在线观看电影| 久久精品国产亚洲av天美| 日本黄色视频三级网站网址| АⅤ资源中文在线天堂| 色尼玛亚洲综合影院| 欧美+亚洲+日韩+国产| 久久久久国内视频| 天天一区二区日本电影三级| 狂野欧美激情性xxxx在线观看| 中文在线观看免费www的网站| 国产av在哪里看| 男人的好看免费观看在线视频| 搞女人的毛片| 床上黄色一级片| 内地一区二区视频在线| 无遮挡黄片免费观看| 一本一本综合久久| 国产精品亚洲一级av第二区| 女人十人毛片免费观看3o分钟| 可以在线观看毛片的网站| 国产精品av视频在线免费观看| 三级毛片av免费| 精品不卡国产一区二区三区| 久久6这里有精品| 成人精品一区二区免费| 欧美精品国产亚洲| 国产在视频线在精品| 亚洲欧美日韩无卡精品| 少妇熟女欧美另类| 亚洲欧美精品自产自拍| 国产精品久久久久久av不卡| 人妻制服诱惑在线中文字幕| 日韩欧美免费精品| 午夜视频国产福利| 国产av不卡久久| 校园春色视频在线观看| 亚洲精品日韩av片在线观看| 夜夜夜夜夜久久久久| 麻豆久久精品国产亚洲av| 性插视频无遮挡在线免费观看| 在线国产一区二区在线| 免费高清视频大片| 国产 一区 欧美 日韩| 黄片wwwwww| 久久精品夜色国产| 国产精品综合久久久久久久免费| 99久国产av精品国产电影| 精品福利观看| 99国产精品一区二区蜜桃av| 尾随美女入室| 中国国产av一级| 啦啦啦韩国在线观看视频| 九九久久精品国产亚洲av麻豆| 欧美3d第一页| 男人舔奶头视频| 午夜福利视频1000在线观看| 99视频精品全部免费 在线| 综合色丁香网| 久久久久免费精品人妻一区二区| 一级毛片电影观看 | 国产亚洲av嫩草精品影院| 免费无遮挡裸体视频| 中国国产av一级| 99热精品在线国产| 国产欧美日韩精品亚洲av| 又爽又黄a免费视频| eeuss影院久久| 欧美色欧美亚洲另类二区| 悠悠久久av| 一本久久中文字幕| 老熟妇乱子伦视频在线观看| 欧美在线一区亚洲| 色综合色国产| 男女之事视频高清在线观看| 精品少妇黑人巨大在线播放 | 亚洲国产欧洲综合997久久,| 亚洲av成人精品一区久久| 日韩制服骚丝袜av| 九九爱精品视频在线观看| 成人三级黄色视频| 欧美3d第一页| 国产真实伦视频高清在线观看| 国产人妻一区二区三区在| 熟女电影av网| 日本一二三区视频观看| 免费观看在线日韩| 俺也久久电影网| 亚洲经典国产精华液单| 毛片一级片免费看久久久久| 日韩国内少妇激情av| 欧美中文日本在线观看视频| 亚洲精品一区av在线观看| 久99久视频精品免费| 欧美三级亚洲精品| 亚洲精品国产av成人精品 | 亚洲欧美中文字幕日韩二区| 免费观看在线日韩| 最近手机中文字幕大全| 插逼视频在线观看| 一边摸一边抽搐一进一小说| 在线a可以看的网站| 久久韩国三级中文字幕| 欧美激情久久久久久爽电影| 亚洲欧美日韩卡通动漫| 亚洲欧美日韩东京热| 欧美一区二区亚洲| 亚洲性久久影院| 舔av片在线| 久久久久久久久中文| 男女边吃奶边做爰视频| 波多野结衣巨乳人妻| АⅤ资源中文在线天堂| 99久久精品一区二区三区| 亚洲熟妇中文字幕五十中出| 99精品在免费线老司机午夜| 国国产精品蜜臀av免费| 18+在线观看网站| 亚洲精品粉嫩美女一区| 国产av麻豆久久久久久久| 免费高清视频大片| 国产激情偷乱视频一区二区| 国产一区二区亚洲精品在线观看| 波多野结衣巨乳人妻| 国国产精品蜜臀av免费| 日韩在线高清观看一区二区三区| 美女xxoo啪啪120秒动态图| 赤兔流量卡办理| 国产精品三级大全| 中文字幕av在线有码专区| 色综合站精品国产| 91在线观看av| 国产精品女同一区二区软件| 天天一区二区日本电影三级| 免费人成视频x8x8入口观看| 亚洲最大成人中文| av卡一久久| 伦理电影大哥的女人| 日韩av在线大香蕉| 欧美日韩综合久久久久久| 一区二区三区免费毛片| 在线天堂最新版资源| 最近手机中文字幕大全| 1000部很黄的大片| 热99re8久久精品国产| 亚洲精品亚洲一区二区| 免费在线观看成人毛片| 日韩欧美精品v在线| 男人狂女人下面高潮的视频| 91av网一区二区| 如何舔出高潮| 国产不卡一卡二| 亚洲人成网站在线播| 色噜噜av男人的天堂激情| 99热这里只有精品一区| 久久精品国产亚洲av香蕉五月| 内地一区二区视频在线| 丰满的人妻完整版| 久久人妻av系列| 国产精品人妻久久久影院| 亚洲在线观看片| 免费高清视频大片| 人人妻人人看人人澡| 亚洲精品国产成人久久av| 97超碰精品成人国产| 欧美一区二区亚洲| 99久久九九国产精品国产免费| 男女视频在线观看网站免费| 欧美日韩综合久久久久久| 亚洲欧美清纯卡通| 国产精品综合久久久久久久免费| 亚洲人与动物交配视频| 亚洲精品在线观看二区| 成年免费大片在线观看| 欧美日韩在线观看h| 99久国产av精品| 久久精品国产自在天天线| 亚洲国产精品久久男人天堂| 黑人高潮一二区| 99热精品在线国产| 黄色视频,在线免费观看| 熟妇人妻久久中文字幕3abv| 免费搜索国产男女视频| 亚洲国产高清在线一区二区三| 在现免费观看毛片| 男人舔奶头视频| 国产69精品久久久久777片| 精华霜和精华液先用哪个| 亚洲av不卡在线观看| 九九久久精品国产亚洲av麻豆| 老师上课跳d突然被开到最大视频| 亚洲精品色激情综合| 国产精品电影一区二区三区| a级毛片a级免费在线| 伦精品一区二区三区| av在线播放精品| 国产精品1区2区在线观看.| 亚洲精品国产av成人精品 | 久久草成人影院| 日本 av在线| 国产aⅴ精品一区二区三区波| 国产亚洲91精品色在线| 国产精品不卡视频一区二区| 丝袜美腿在线中文| 亚洲第一区二区三区不卡| 能在线免费观看的黄片| 国产一区二区三区av在线 | 亚洲专区国产一区二区| 日本欧美国产在线视频| 男人舔奶头视频| 国产单亲对白刺激| 久久99热这里只有精品18| 亚洲人成网站高清观看| 露出奶头的视频| 天天一区二区日本电影三级| 俺也久久电影网| 国产高清视频在线播放一区| 女人被狂操c到高潮| 国内揄拍国产精品人妻在线| 成人美女网站在线观看视频| 国产一区二区三区在线臀色熟女| 黄色一级大片看看| 久久九九热精品免费| 日韩一本色道免费dvd| 免费在线观看成人毛片| 午夜a级毛片| 亚洲人成网站高清观看| 我要看日韩黄色一级片| 黄色一级大片看看| 99久国产av精品国产电影| 欧美+亚洲+日韩+国产| 免费看日本二区| 色综合亚洲欧美另类图片| 大又大粗又爽又黄少妇毛片口| 国产一区二区三区在线臀色熟女| 白带黄色成豆腐渣| 最近在线观看免费完整版| 99国产极品粉嫩在线观看| 欧美成人精品欧美一级黄| 国产成人91sexporn| 国内精品久久久久精免费| 乱人视频在线观看| 免费av不卡在线播放| 国产片特级美女逼逼视频| 国产男靠女视频免费网站| 午夜福利成人在线免费观看| 国产一区亚洲一区在线观看| 日日摸夜夜添夜夜添av毛片| 天天躁日日操中文字幕| 一进一出抽搐gif免费好疼| 女人被狂操c到高潮| 丰满的人妻完整版| 真人做人爱边吃奶动态| 69av精品久久久久久| 亚洲第一区二区三区不卡| 国产中年淑女户外野战色| 久久精品国产自在天天线| 变态另类成人亚洲欧美熟女| 精品欧美国产一区二区三| 亚洲精品一区av在线观看| 亚洲国产精品久久男人天堂| 麻豆国产97在线/欧美| 国产探花极品一区二区| 亚洲精品久久国产高清桃花| 男人舔奶头视频| 精品久久久久久成人av| 亚洲熟妇熟女久久| 日韩,欧美,国产一区二区三区 | 少妇猛男粗大的猛烈进出视频 | 色综合站精品国产| 成年版毛片免费区| 国产精品一区www在线观看| 97人妻精品一区二区三区麻豆| 久久久久精品国产欧美久久久| 国产一区二区激情短视频| 久久久久国产网址| 最近在线观看免费完整版| 国产真实伦视频高清在线观看| 午夜久久久久精精品| 露出奶头的视频| 亚洲av二区三区四区| 成人性生交大片免费视频hd| 久久精品国产自在天天线| 亚洲欧美日韩高清在线视频| 免费大片18禁| 精品熟女少妇av免费看| 热99re8久久精品国产| 日本 av在线| 国产av麻豆久久久久久久| 亚洲欧美日韩卡通动漫| 一区二区三区高清视频在线| 蜜桃亚洲精品一区二区三区| 波多野结衣高清作品| 搞女人的毛片| 久久久色成人| 麻豆国产97在线/欧美| 亚洲最大成人中文| 最近在线观看免费完整版| 亚洲成人中文字幕在线播放| 日韩大尺度精品在线看网址| 国产高清有码在线观看视频| 悠悠久久av| 成熟少妇高潮喷水视频| 有码 亚洲区| 少妇高潮的动态图| 亚洲四区av| 91av网一区二区| 黄色欧美视频在线观看| 一个人免费在线观看电影| 免费观看在线日韩| 成年女人毛片免费观看观看9| 免费不卡的大黄色大毛片视频在线观看 | 欧美bdsm另类| 一级毛片aaaaaa免费看小| 69av精品久久久久久| ponron亚洲| 亚洲不卡免费看| 淫秽高清视频在线观看| 插逼视频在线观看| 女人被狂操c到高潮| 五月玫瑰六月丁香| 亚洲欧美日韩东京热| 亚洲国产色片| 亚洲欧美成人综合另类久久久 | 直男gayav资源| 91久久精品国产一区二区三区| 在线观看66精品国产| 麻豆乱淫一区二区| 99热只有精品国产| 搞女人的毛片| 国产真实乱freesex| 精品国产三级普通话版| 日韩欧美在线乱码| 男人的好看免费观看在线视频| 无遮挡黄片免费观看| 国产色婷婷99| 少妇猛男粗大的猛烈进出视频 | 俄罗斯特黄特色一大片| av.在线天堂| 极品教师在线视频| 色哟哟·www| 人人妻人人澡欧美一区二区| 中文字幕人妻熟人妻熟丝袜美| 国产精品女同一区二区软件| 身体一侧抽搐| 蜜桃久久精品国产亚洲av| 国产精品爽爽va在线观看网站| 国产亚洲精品久久久久久毛片| 性欧美人与动物交配| 亚洲av成人av| 婷婷精品国产亚洲av| 国产视频内射| 日韩三级伦理在线观看| 黄色一级大片看看| 国产中年淑女户外野战色| 国产精品,欧美在线| 欧美人与善性xxx| av女优亚洲男人天堂| 男女做爰动态图高潮gif福利片| 91在线观看av| 日韩亚洲欧美综合| 搡女人真爽免费视频火全软件 | 精品久久国产蜜桃| 在线a可以看的网站| 又爽又黄无遮挡网站| 亚洲精品粉嫩美女一区| 亚洲成人av在线免费| 男人狂女人下面高潮的视频| 色哟哟·www| 亚洲人成网站在线播放欧美日韩| 91精品国产九色| 丰满乱子伦码专区| 精品熟女少妇av免费看| 亚洲av电影不卡..在线观看| 露出奶头的视频| 国产成人精品久久久久久| 免费黄网站久久成人精品| 听说在线观看完整版免费高清| av在线蜜桃| 别揉我奶头 嗯啊视频| 乱人视频在线观看| 免费在线观看影片大全网站| 久久精品国产鲁丝片午夜精品| 日本免费a在线| 大型黄色视频在线免费观看| 日韩欧美国产在线观看| 两个人视频免费观看高清| 欧美又色又爽又黄视频| 国产色婷婷99|