• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    中文命名實體識別研究綜述

    2023-02-18 07:16:10王穎潔張程燁白鳳波汪祖民季長清
    計算機與生活 2023年2期
    關(guān)鍵詞:分詞命名實體

    王穎潔,張程燁,白鳳波,汪祖民+,季長清,2

    1.大連大學 信息工程學院,遼寧 大連116622

    2.大連大學 物理科學與技術(shù)學院,遼寧 大連116622

    3.中國政法大學 證據(jù)科學研究院,北京100088

    命名實體識別(named entity recognition,NER)是自然語言處理中的一項基礎(chǔ)任務,主要用于識別文本中實體的類別和邊界。該任務最初是在信息理解會議(message understanding conference,MUC)任務[1]上作為實體關(guān)系分類的一個子任務被提出,其中關(guān)注的實體類型主要包括組織名、人名、地名等。命名實體識別的主要思想是先將待識別文本轉(zhuǎn)換為嵌入向量的形式,然后將嵌入向量輸入到識別模型中,最終將模型的輸出通過分類器得到實體分類的結(jié)果。將文本中的實體進行準確的劃分和分類,可以有效地為接下來關(guān)系抽取、情感分析和文本分類等下游任務提供可靠的支撐,因此,如何有效提高命名實體識別的效果,成為當前工業(yè)界關(guān)注和研究的焦點。

    本文從當前中文命名實體識別的研究成果出發(fā),首先對命名實體識別各個階段的研究成果進行了概述,同時從漢字和單詞兩個角度,對當前中文NER 熱門的字詞特征融合方法進行了論述和總結(jié)。然后,針對當前中文NER 的研究成果,在模型方法優(yōu)化和模型預處理兩個優(yōu)化方向上進行了總結(jié)。最后,對中文NER 任務中常用的數(shù)據(jù)集和評價指標進行了歸納和整理,并對中文NER 任務未來的研究方向和研究重點進行了展望。

    1 命名實體識別方法

    命名實體識別的主要任務是從海量的文本數(shù)據(jù)中識別不同類型的實體。這不僅是構(gòu)建知識圖譜或智能問答系統(tǒng)的基礎(chǔ)技術(shù)環(huán)節(jié),而且也是進行文本信息挖掘的第一步。命名實體識別的方法按照發(fā)展歷程可以分為基于規(guī)則的方法、基于統(tǒng)計模型的方法和基于深度學習的方法三類。

    1.1 基于規(guī)則的方法

    基于規(guī)則的方法由于易于實現(xiàn)且無需訓練的特點,在早期的實體抽取任務中取得了很好的效果。基于規(guī)則的方法在已有知識庫和詞典的基礎(chǔ)上,通過特定領(lǐng)域的專家手工制定規(guī)則模板,以標點符號、指示詞、位置詞、方向詞、關(guān)鍵字、中心詞等特征作為抽取的依據(jù)。常見的基于規(guī)則的實體抽取方式包括基于實體詞典的最大匹配算法和基于正則表達式的規(guī)則模板設(shè)計?;谝?guī)則的方法的優(yōu)點是在特定領(lǐng)域內(nèi)的準確率高,且召回率很低,適用于數(shù)據(jù)集較小且更新不頻繁的領(lǐng)域。Feng 等人[2]針對在數(shù)據(jù)集實例較少時,單一基于條件隨機場(conditional random field,CRF)的提取器準確率和召回率效果不好的情況,將CRF、規(guī)則模板和中文實體詞典結(jié)合使用,實現(xiàn)了良好的性能。Pan[3]通過將識別規(guī)則引入統(tǒng)計方法,減少了對大規(guī)模語料庫的依賴。Yan[4]從實體內(nèi)部組成和上下文語境入手,針對姓名構(gòu)建了相應的識別規(guī)則,極大地提高了中文人名識別的準確率。但同時基于規(guī)則的方法也存在著泛化能力差、詞典構(gòu)造成本高的問題。因此在面向海量文本數(shù)據(jù)的今天,基于規(guī)則的方法大多情況下與選用的訓練模型結(jié)合使用,以提高模型的準確率。

    1.2 基于統(tǒng)計模型的方法

    基于統(tǒng)計模型的方法的核心在于針對特定的研究背景來選擇合適的訓練模型。與基于規(guī)則的方法相比,這種方法省略了諸多繁瑣的規(guī)則設(shè)計,可以花費更短的時間訓練人工標注的語料庫,提高了訓練效率。同時,面對特定領(lǐng)域規(guī)則不同的問題,基于統(tǒng)計模型的方法只需要針對特定領(lǐng)域的訓練集,重新對模型進行訓練即可。因此這種方法的可移植性很高,使用方便。目前常用的模型有隱馬爾可夫模型(hidden Markov model,HMM)、條件隨機場模型、支持向量機(support vector machine。SVM)和最大熵模型(maximum entropy,ME)等。而HMM 和CRF 在序列標注領(lǐng)域效果突出,因此被廣泛應用于實體抽取領(lǐng)域。以下對HMM 模型進行簡要的介紹。

    隱馬爾可夫模型是一種針對序列標注的概率模型,能夠通過觀測序列來預測隱含的狀態(tài)序列。它的基本思想是根據(jù)觀測序列找到隱藏的狀態(tài)序列,同時服從于齊次馬爾可夫假設(shè)和觀測獨立假設(shè)。按照所研究的基本問題可以將其分為三類,即概率計算問題、參數(shù)學習問題和解碼計算問題。

    (1)概率計算,即給定模型參數(shù)λ=(A,B,π)和觀測序列Z=(z1,z2,…,zN),計算觀測序列Z的條件概率P(Z|λ)。其中A為狀態(tài)轉(zhuǎn)移矩陣,B為觀測矩陣。以前向算法為例,其流程描述如圖1 所示。

    圖1 序列標注問題流程描述Fig.1 Description of sequence labeling problem process

    設(shè)有T個序列,定義前向概率αt(i)表示t時刻的狀態(tài)以及第1,2,…,t時刻的觀測在給定參數(shù)下的聯(lián)合概率;bi(x)表示由狀態(tài)xi生成給定觀測數(shù)據(jù)的概率。經(jīng)推導后可得第t+1 時刻的前向概率為:

    其中,aij表示在當前時刻處于狀態(tài)xi的條件下,下一時刻轉(zhuǎn)移到狀態(tài)xj的狀態(tài)轉(zhuǎn)移概率。則觀測序列Z的條件概率為:

    (2)參數(shù)學習,即在給定觀測序列Z=(z1,z2,…,zN)的情況下,求模型中的最優(yōu)參數(shù)λ*:

    其實質(zhì)上就是對模型進行訓練并調(diào)參的過程,一般通過最大期望算法進行求解,具體的數(shù)學推導這里不做贅述,可以參考Rabiner[5]的文章或者其他相關(guān)書籍。

    (3)解碼計算,即在給定模型參數(shù)λ=(A,B,π)和觀測序列Z=(z1,z2,…,zN)的情況下,求最可能出現(xiàn)的狀態(tài)序列X=(x1,x2,…,xN)。常用的解決方法是將其看作一個最短路徑問題,采用Viterbi 算法的思想,首先尋找概率最大的路徑,其次在得到概率最大路徑之后,從最優(yōu)路徑終點開始,回溯地尋找最優(yōu)路徑上當前點的上一個點,直到找到最優(yōu)路徑的起點。因此解碼計算問題也可以認為是一個模型預測問題。

    HMM 模型訓練速度快,復雜度低,但容易在訓練過程中陷入局部最優(yōu)解。為了解決標注偏置問題,得到序列標注問題的全局最優(yōu)解,Lafferty 等人[6]提出使用CRF 來解決序列標注問題?,F(xiàn)階段存在海量的文本數(shù)據(jù),因此基于統(tǒng)計模型的實體抽取方法由于可以面向大規(guī)模語料而占據(jù)了一定的研究地位。Wang 等人[7]提出了一種帶有回路的條件隨機場(conditional random field with loop,L-CRF)來研究句子級別的序列特征,能夠?qū)ι舷挛闹g的關(guān)聯(lián)進行更精準的推斷,得到更為合理的序列。Yang 等人[8]提出了一種基于注意力機制的Attention-BiLSTM-CRF模型,發(fā)現(xiàn)在BiLSTM(bi-directional long short-term memory)層中單獨的詞特征要比單獨的字符特征好,且二者同時運用能進一步提高性能。Li 等人[9]將HMM 與Transformer 模型結(jié)合,增加了模型的穩(wěn)定性和魯棒性。Alnabki 等人[10]通過使用局部近鄰算法尋找語義上與模糊術(shù)語相似的標記,與BiLSTM-CRF相結(jié)合后,F(xiàn)1 值在特定實體類型上有明顯提高。

    但是基于統(tǒng)計模型的實體抽取方法也存在一定的局限性,所使用的模型只與當前時刻的狀態(tài)和所觀察的對象有關(guān)。在模型的實際訓練過程中,序列的標注不僅和單獨的某個詞相關(guān),而且和這個詞所在的位置和序列總長度都有關(guān)聯(lián)。因此為了與上下文進行語境的結(jié)合,提出了基于深度學習的實體抽取方法。

    1.3 基于深度學習的方法

    深度學習的概念由Hinton 等人于2006 年提出,起源于對人工神經(jīng)網(wǎng)絡的研究。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。深度學習覆蓋領(lǐng)域多,涉及到的知識面廣,可以解決以往的機器學習難以解決的大量問題,但其實質(zhì)仍然是機器學習的一個子集。常見的深度學習模型包括卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)、圖神經(jīng)網(wǎng)絡(graph neural network,GNN)、深度神經(jīng)網(wǎng)絡(deep neural network,DNN)、生成對抗網(wǎng)絡(generative adversarial network,GAN)、長短時記憶網(wǎng)絡(long short-term memory,LSTM)、Transformer 和BERT(bi-directional encoder representation from transformers)等。

    神經(jīng)網(wǎng)絡的基本結(jié)構(gòu)由輸入層、隱藏層、輸出層三部分組成,其中輸入層的每個神經(jīng)元(neuron)可以看作待研究對象的一個特征;隱藏層用于將輸入層傳遞的數(shù)據(jù)通過內(nèi)部的函數(shù)進行處理后傳遞給輸出層,具體的實現(xiàn)細節(jié)對用戶透明;輸出層將隱藏層的計算結(jié)果進行處理后輸出。其中隱藏層的層數(shù)應當適中,過少的層數(shù)會導致需要增加更多的訓練集,而過多的層數(shù)會產(chǎn)生過擬合的現(xiàn)象。

    1.3.1 長短時記憶網(wǎng)絡

    長短時記憶網(wǎng)絡(LSTM)隸屬于一種循環(huán)神經(jīng)網(wǎng)絡,在時序數(shù)據(jù)預測、語音識別、文本翻譯等領(lǐng)域均表現(xiàn)出不錯的效果。在命名實體識別領(lǐng)域,LSTM可以有效提取上下文的語義信息,從而能夠更好地理解文本內(nèi)容。LSTM 的單元結(jié)構(gòu)如圖2 所示。

    圖2 LSTM 單元結(jié)構(gòu)Fig.2 Unit structure of LSTM model

    可以看出,相較于RNN 而言,LSTM 的每個單元結(jié)構(gòu)增加了圖2 所示的遺忘門、更新門和輸出門三種門控制結(jié)構(gòu),從而解決了對上文長期依賴的問題。因此LSTM 可以具有較長的短期記憶,與RNN 相比具有更好的效果。

    LSTM 遺忘門的結(jié)構(gòu)如圖3(a)所示,其作用是決定上一時刻的單元狀態(tài)有多少會保留到當前時刻。設(shè)輸入數(shù)據(jù)為i維列向量xt,上一時刻的隱藏狀態(tài)為j維列向量ht-1,則參數(shù)矩陣Wif和Whf的維度分別為j×i和j×j,偏置矩陣bif和bhf的維度均為j×1。最終,遺忘門的輸出ft的計算公式如下:

    LSTM 更新門的結(jié)構(gòu)如圖3(b)所示,其作用是決定當前時刻網(wǎng)絡的輸入有多少會更新到單元狀態(tài)中。更新門首先對輸入數(shù)據(jù)xt和上一時刻的隱藏狀態(tài)ht-1進行計算,其中參數(shù)矩陣Wii和Wig的維度為j×i、Whi和Whg的維度為j×j,偏置矩陣bii、bhi、big、bhg的維度均為j×1。最終,更新門的輸出it和gt計算公式如下:

    計算出it和gt后,即可和遺忘門的輸出ft與前一時刻的狀態(tài)Ct-1進行計算,得到更新的單元狀態(tài)Ct,其計算公式如下:

    其中⊙表示哈達瑪乘積運算。

    LSTM 輸出門的結(jié)構(gòu)如圖3(c)所示,其作用是決定從更新后的單元狀態(tài)中輸出的信息。輸出門根據(jù)輸入數(shù)據(jù)xt和上一時刻的隱藏狀態(tài)ht-1計算得到輸出門的輸出ot,其計算公式如下:

    圖3 LSTM 門控結(jié)構(gòu)Fig.3 Gate control structure of LSTM model

    其中參數(shù)矩陣Wio和Who的維度分別為j×i和j×j,偏置矩陣bio和bho的維度均為j×1。

    最后,根據(jù)ot和更新后的單元狀態(tài)Ct,得到該時刻的輸出ht,并傳遞到下一個LSTM 單元中,ht的計算公式如下:

    LSTM 相較于RNN 而言,在一定程度上解決了梯度消失和梯度爆炸問題。但是為了更好地捕捉雙向的語義依賴,通常會在NER 任務中選擇使用由前項LSTM 和后項LSTM 組合而成的雙向Bi-LSTM,并與CRF 結(jié)合使用以提高識別準確率。

    1.3.2 中英文NER 相互借鑒關(guān)系

    相對于中文命名實體識別而言,英文文本的NER 技術(shù)由于文本分詞界限清晰,相關(guān)研究起步較早,對應的成果和產(chǎn)品均已經(jīng)處于成熟期。中文文本和英文文本同時具有相似的詞性類型和語法結(jié)構(gòu),因此國內(nèi)外的學者近年來逐步嘗試將英文命名實體識別的相關(guān)技術(shù)應用到中文命名實體識別中。并且中文命名實體識別面臨的問題在英文文本中也有類似的體現(xiàn)。例如,對于原始數(shù)據(jù)的標注大多停留在原始的手工標注階段,需要一種相對穩(wěn)定且可靠的標注手段。同時,隨著大數(shù)據(jù)時代的到來,每天都會出現(xiàn)大量的互聯(lián)網(wǎng)新詞,需要尋找一種能夠使詞典不斷更新的方式,以避免出現(xiàn)OOV(out of vocabulary)問題。因此,從已有的英文命名實體識別研究中尋找思路是極有必要的。

    Zhao 等人[11]提出了一種多標簽CNN 方法,將實體識別任務作為分類任務處理,在原有的輸出層上加入多標簽機制,用于捕獲相鄰標簽之間的相關(guān)信息,在疾病名和化合物識別任務中取得了更好的效果。Wang 等人[12]提出了一種基于生成對抗網(wǎng)絡的數(shù)據(jù)增強算法,可以在不使用外部資源的情況下,生成更加多樣化的訓練數(shù)據(jù)擴大數(shù)據(jù)集,同時可以自動生成標注。為了解決文本數(shù)據(jù)中噪聲的干擾,Aguilar 等人[13]提出了一種多任務神經(jīng)網(wǎng)絡,將CNN和BiLSTM 并行使用,能夠從字詞序列、語法信息和地名詞典信息中學習到更高階的特征。但該方法對于實體邊界的處理效果仍然不太理想。為了解決這個問題,Guo 等人[14]在模型中加入了注意力機制,同時針對中文語料,將部首嵌入集成到字符嵌入中作為輸入,以豐富語義信息。

    在某些專業(yè)領(lǐng)域中,文本類型的語料庫規(guī)模較小,訓練的效果明顯降低。針對文本數(shù)據(jù)集較少的問題,Zhang 等人[15]提出使用GAN 模型所生成的注釋數(shù)據(jù)作為訓練數(shù)據(jù),同時采用光滑近似逼近思想處理離散類型的文本數(shù)據(jù),解決了標注數(shù)據(jù)缺乏和同一實體標注不一致的問題。通常在處理不同領(lǐng)域的數(shù)據(jù)集時,需要對模型進行重新訓練,在模型比較復雜且語料庫規(guī)模較大時會花費大量成本。Das等人[16]基于圖聚類算法,采用無監(jiān)督方法提取語料庫中的實體關(guān)系,可以有效地將實體進行分類,并且適用于一般數(shù)據(jù)集。由于實體抽取的效果依賴于前期對文檔分詞的效果,有學者提出在文檔級別對文本進行實體抽取。Zhao 等人[17]使用基于文檔級的注意力機制,采用連續(xù)詞袋模型(continuous bag of words,CBOW)對輸入字向量進行預訓練,保證了實體標簽的一致性。Yang 等人[18]將雙向RNN 與膠囊網(wǎng)絡結(jié)合,提出了文檔級的BSRU-ATTCapsNet(bi-directional simple recurrent unit-attention-based capsule network)模型,不僅可以提取文檔中復雜結(jié)構(gòu)的遠距離依賴信息,而且可以從多個維度學習實體對的更深層次的關(guān)系。

    相較于傳統(tǒng)的深度學習模型,預訓練模型訓練的時間較短,同時訓練結(jié)果也通常優(yōu)于傳統(tǒng)模型。預訓練模型是指已經(jīng)用數(shù)據(jù)集訓練好的模型,在遇到相似的問題時,可以在調(diào)整模型中的參數(shù)后直接使用,大大縮短了模型訓練的時間。目前應用較多的主流預訓練模型有ELMo(embedding from language model)、BERT、GPT-2(generative pretrained transformer)、ALBERT 和Transformer 等。然而,預訓練模型的參數(shù)量并非越大越好,過多的參數(shù)量會產(chǎn)生推理速度慢、內(nèi)存空間占用大的問題,從而增加了不必要的訓練時間。常見的預訓練模型參數(shù)量如圖4所示。

    圖4 預訓練模型參數(shù)量對比Fig.4 Comparison of parameters of pre-training model

    Guo 等人[19]提出了一種字級別的中文NER 方法,將BiLSTM 和Transformer-XL(Transformer-extra long)模型結(jié)合使用,解決了Transformer 位置和方向信息缺失的問題,大大提高了實體邊界識別的準確率。Cai[20]使用多準則融合方法構(gòu)建BERT-DNN-CRF 模型以挖掘語料庫間的共有信息,從而提高中文命名實體識別的準確率和召回率。Liu 等人[21]將兩個BiLSTM 網(wǎng)絡以點對點的方式合并后與ALBERT 結(jié)合使用,提高了中文實體識別任務的細粒度,可以實現(xiàn)高精度的序列標注,在CLUENER 2020 數(shù)據(jù)集上可以達到91.56%的準確率。針對在命名實體識別時概念不夠明確或?qū)嶓w數(shù)量較少,導致F 值下降的問題,Chen 等人[22]提出了一種融合BERT 的多層次司法文書實體識別模型,使用掩碼語言模型(Masked LM)在BERT 層進行無監(jiān)督預訓練,在中國裁判文書網(wǎng)上公開的裁判文書訓練中,F(xiàn)1 值達到了89.12%,明顯優(yōu)于對照模型。

    2 文本預處理

    2.1 序列標注方法

    序列標注(sequence tagging)是自然語言處理領(lǐng)域的基礎(chǔ)任務,其目標是對句子中每個單詞的實體或詞性進行標注,并在此基礎(chǔ)上預測給定的文本序列中的標簽類型。對于中文文本而言,序列標注任務即是對文本中每一個漢字給出一個對應的標簽。在命名實體識別任務中,常用的序列標注方法有三種,分別為三位序列標注的BIO 方法、四位序列標注的BMES 和BIOES 方法。表1 列出了標注的標簽類型所表示的含義。

    表1 常用標注標簽類型含義Tabel 1 Meaning of common label annotation types

    相較于BIO 方法,BIOES 方法額外提供了實體結(jié)束位置的信息,并給出了針對單字實體的標簽,因此可以提供更多的信息;但它需要預測的標簽更多,效果也可能因此而受到影響。在BIOES 的基礎(chǔ)上,衍生了針對于特定領(lǐng)域數(shù)據(jù)集的標注方法BILOU 和BMEWO,其表示含義如表2 所示。

    表2 BILOU 和BMEWO 標簽類型Tabel 2 Annotation label types of BILOU and BMEWO

    2.2 中文文本詞匯分割

    在執(zhí)行自然語言處理任務中,對于整段的文本,首先需要以字或詞為單位進行分割。分詞的準確率會對下游任務產(chǎn)生直接影響,分詞產(chǎn)生的誤差也將在接下來的過程中逐級傳遞。因此,作為自然語言處理的基礎(chǔ),分詞是文本預處理環(huán)節(jié)的關(guān)鍵技術(shù)。

    在以英語為代表的印歐語系語言中,每個單詞之間都以空格進行分割,因此可以相對簡單和準確地提取單詞,極大地降低了文本分詞的難度。然而,中文文本將漢字作為基本單位,使用連續(xù)的字符序列進行書寫,文本中的短語和詞組無法直接通過文本的外在屬性進行切分,在一定程度上影響了分詞的準確率。因此,近年來對于中文分詞(Chinese word segmentation,CWS)的研究受到了極大的關(guān)注。在國際計算語言協(xié)會(ACL)下屬的中文特殊興趣研究小組SIGHAN 舉辦的國際中文分詞比賽中[23-24],所使用的SIGHAN Bakeoff 2005/2008 依然是當前中文分詞研究的主要數(shù)據(jù)集。目前對于中文分詞任務,主要采用開源的中文分詞系統(tǒng)進行處理。圖5 列出了主要采用的中文分詞系統(tǒng)及其特性,并通過四類數(shù)據(jù)測試了不同分詞系統(tǒng)的分詞準確度。

    圖5 不同分詞系統(tǒng)對比Fig.5 Comparison of different word segmentation systems

    CWS 方法分為兩類:基于詞典的方法[25],根據(jù)預先定義的分詞規(guī)則,從字符串中切出單詞,然后與詞典中的單詞匹配以完成分詞?;谠~典的方法簡單有效,但這種方法無法處理不在詞匯表中的單詞,同時對于多義詞的切分效果不佳?;诮y(tǒng)計的方法,依賴于從語料庫中學習的統(tǒng)計模型或特征[26-27],本質(zhì)是將分詞視為一個概率最大化問題。統(tǒng)計方法在表外詞識別和多義詞分割方面有了很大的改進,但其分詞性能依賴于訓練語料庫的質(zhì)量。并且基于統(tǒng)計的方法對于一些共現(xiàn)頻率高的單字符詞的識別精度較差,大多情況下有較高的時間復雜度。近年來,基于神經(jīng)網(wǎng)絡的連續(xù)小波分解方法,由于其非線性映射能力、自學習能力以及有效減少特征工程工作量的優(yōu)勢,多次被用于解決CWS 問題[28-30]。

    中文分詞相較于英文分詞,存在著以下四個難點:第一,在漢語中,同一個漢字在不同的語境中可能有不同的語義;第二,漢語中的詞不僅可以是一個字符,也可以由兩個或多個字符組成;第三,漢語句子中的每個字之間處于緊密連接的狀態(tài),詞組之間沒有明顯的切分特點和詞性變化;第四,許多新詞匯的出現(xiàn)和中英文混合詞匯的加入給分詞帶來了挑戰(zhàn)。針對上述問題,國內(nèi)外的學者展開了深入研究。

    Wang 等人[31]和Li 等人[32]利用深度神經(jīng)網(wǎng)絡的優(yōu)勢,自動學習和提取CWS 深度特征,極大地降低了傳統(tǒng)機器學習序列標記模型中,稀疏特征向量和維數(shù)過大導致內(nèi)存和計算資源的浪費。對于跨域CWS,Zhang 等人[33]提出了一種用于聯(lián)合CWS 和詞性標記的監(jiān)督域自適應方法。Qiu 等人[34]基于連續(xù)小波分解方法,提出了一種使用雙傳播算法自動挖掘小說名詞實體的方法。Zhang 等人[35]將外部字典集成到CWS 模型中,提高了跨域CWS 的準確率。

    作為一種替代表示學習模型,自注意力網(wǎng)絡(self-attention network,SAN)[36]已被證明對一系列自然語言處理任務非常有效,例如機器翻譯[37]、選區(qū)解析[38]、語義角色標記[39]和語言建模[40-42]。Gan 等人[43]首次使用SAN 模型處理CWS 任務,不僅可以實現(xiàn)高度并行化,而且在域內(nèi)和跨域中文分詞數(shù)據(jù)集上都能夠?qū)崿F(xiàn)良好的效果。然而,現(xiàn)有的中文自動分詞研究成果還不能完全滿足實際應用的需要。在一些專業(yè)領(lǐng)域中,對于分詞規(guī)范化、分詞歧義、非語料庫詞識別、分詞順序等問題,仍然需要進一步研究。

    2.3 中文NER 任務常用數(shù)據(jù)集

    為了準確地評估中文NER 模型識別的效果,研究人員嘗試采用一種可以通過理論證明的模型評價方法。在通常情況下,同一模型在不同環(huán)境下的效果存在較大的差異,因此需要提供一個基準評估數(shù)據(jù)集,從而客觀地評價當前模型的實體識別效果,進而開展下一步模型分析和改進的研究。

    對于中文命名實體識別任務而言,數(shù)據(jù)集中標簽的標注準確率可以對模型的識別效果產(chǎn)生很大的影響。圖6 列出了近年來在中文命名實體識別任務中常用的數(shù)據(jù)集,并列舉了其年份、來源和實體類型數(shù)量。

    圖6 中文NER 常用數(shù)據(jù)集Fig.6 Commonly used Chinese NER datasets

    2.4 模型評價指標

    模型在構(gòu)建完成后,需要對其執(zhí)行結(jié)果進行評估。模型評估不僅為了確認該模型是否符合實際的需求,而且在評估的同時,模型的參數(shù)和特征值都需要根據(jù)評估結(jié)果進行相應的修正,從而對模型進一步優(yōu)化。對于同一個模型,需要從各個角度進行評估,而非從某個單一的角度判斷其性能優(yōu)劣。當多種模型進行橫向?qū)Ρ葧r,使用不同的評價方法往往會導致不一樣的測試結(jié)論。因此,在評估具體模型時,評估結(jié)果的好壞通常是相對的??傮w而言,模型的好壞不僅取決于測試數(shù)據(jù)的質(zhì)量和使用算法的性能,還決定于所完成任務的具體需求。

    在知識抽取任務中,常見的評價指標有準確率(precision)、召回率(recall)和F 值(F-score),這三個指標常被用來衡量所采用的知識抽取系統(tǒng)的性能。由于在二元分類任務中,預測結(jié)果和真實情況之間存在四種不同的組合,即預測為正例的正樣本TP、預測為正例的負樣本FP、預測為負例的正樣本FN 和預測為負例的負樣本TN,這四者組成了二元分類任務的混淆矩陣(confusion matrix)。

    準確率:指在所有預測為正例的樣本中,真實值也為正例的概率。

    召回率:指在真實值的所有正樣本中預測為正例的概率。

    F 值:用來衡量二分類模型精確度的一種指標,當準確率和召回率發(fā)生相互矛盾的情況時,可以同時兼顧分類模型的精確率和召回率兩個評價指標。

    當準確率和召回率都很重要時,可以認為二者有相同的權(quán)重,即β=1,則稱此時的F 值為F1 值。

    模型的評估檢驗方式眾多,以下對其中常用的三種檢驗方式進行介紹。

    (1)Holdout檢驗

    Holdout檢驗是一種最為簡單也最為直接的驗證方法。它將原始的數(shù)據(jù)集隨機劃分成訓練集和驗證集兩個互斥的集合。這種方式的缺點也很明顯,計算出來的評估指標與劃分方式有很大的關(guān)系,并且當數(shù)據(jù)集中數(shù)據(jù)不平衡時,無法進行劃分。為了消除這種隨機性,引入了交叉檢驗的方式。

    (2)交叉檢驗

    交叉驗證的核心思想是在已有數(shù)據(jù)集規(guī)模較小的情況下重復使用數(shù)據(jù)。首先對數(shù)據(jù)集進行切分,并將切分后的子集歸為訓練集和測試集兩類,最終基于訓練集和測試集反復進行模型的訓練和優(yōu)化,從而對模型進行檢驗。從數(shù)據(jù)切分的方式上看,交叉檢驗分為簡單交叉驗證和K-fold交叉驗證兩種方式。

    簡單交叉驗證首先將給定的數(shù)據(jù)劃分為訓練集與測試集兩部分,接著用訓練集在不同的條件下對模型進行n次訓練,從而得到n個不同的模型;最后在測試集上對當前n個模型進行測試,計算其測試誤差,并選取誤差最小的模型作為最優(yōu)訓練模型。

    K-fold 交叉驗證首先將全部樣本劃分成k個大小相等的樣本子集;接著依次遍歷這k個子集,每次遍歷利用k-1 個子集的數(shù)據(jù)作為訓練集,余下的子集作為測試集,進行模型的調(diào)參和優(yōu)化;最后把k次評估指標的平均值作為最終的評估指標。

    (3)自助檢驗法

    不管是Holdout 檢驗還是交叉檢驗,其原理都是基于劃分訓練集和測試集的方法來進行模型評估。然而在實際情況中,訓練數(shù)據(jù)集的規(guī)模通常較小,因此無論如何進行劃分都會減少訓練集的規(guī)模,從而影響模型的訓練效果。此時基于自主采樣的自助法成為了目前針對小規(guī)模樣本模型評估的主流選擇。

    自助法首先對總數(shù)為N的樣本集合進行N次有放回的隨機抽樣,根據(jù)抽樣結(jié)果得到大小為N的訓練集。由于采樣過程隨機,必定會存在從未被抽取的樣本。自助法將這些沒有被抽取過的樣本作為驗證集,進行模型驗證。

    當采用自助法進行模型評估時,訓練數(shù)據(jù)集越大,其訓練集和驗證集的比例越會趨近于一個穩(wěn)定值。其證明過程如下:

    由于在一次抽樣過程中,某一樣本未被抽中的概率Pval為:

    則N次抽樣均未被抽中的概率為:

    當訓練集較大時,N可以視作趨近于無窮大,則當樣本數(shù)較大時有:

    也即當樣本數(shù)很大時,樣本中約有36.8%的數(shù)據(jù)會作為驗證集使用。

    3 中文字詞特征融合

    傳統(tǒng)的中文命名實體識別方法根據(jù)固定的轉(zhuǎn)換編碼,將每個漢字轉(zhuǎn)換為特征向量輸入到網(wǎng)絡模型中。然而,這種方法存在著較為嚴重的局限性。首先,該類方法僅利用了漢字自身的特征,并沒有結(jié)合字在詞中的位置信息,會導致出現(xiàn)上下文語義缺失的問題。同時,與英文單詞不同,漢字自身具有豐富的象形特征,而這種固有的特征信息并沒有被充分利用。為了解決上述問題,在中文特征融合這一方面有超過百篇的文章來討論如何解決語義缺失問題。根據(jù)所融合的特征對象進行劃分,大體上可以分為兩類特征融合:詞語特征融合和漢字特征融合。

    3.1 詞語特征融合

    在中文文本中,分詞的錯誤引起的錯誤傳播會導致命名實體識別的效果變差,使用常規(guī)的通用分詞方法甚至會導致基于詞語的NER 方法的準確率低于基于字符的方法[44]。因此,為了有效利用單詞序列信息,可以采用一種格結(jié)構(gòu)[45]進行處理,通過詞開始和結(jié)束的字符來確定所在的位置。該方法的主要缺點在于只適用于LSTM 模型,存在一定的信息損失且無法使用GPU 進行并行化計算。

    為了解決這些問題,Sui 等人[46]構(gòu)建了三種不同的字詞連接圖網(wǎng)絡,并使用生成式對抗網(wǎng)絡提取三種圖網(wǎng)絡中的前n個字符節(jié)點的特征,證明了該方法可以有效避免詞級別特征融合時的信息損失。為了避免信息損失而導致的詞沖突問題,Gui 等人[47]將中文NER 視為一個圖節(jié)點分類任務,通過圖結(jié)構(gòu)實現(xiàn)局部信息的聚合,并增加全局節(jié)點進行全局信息融入。Ma 等人[48]將特定長度的單詞放在特定的層中,并加入整個句子的語境信息和更高維度的信息,不僅減少了單詞之間的沖突,而且實現(xiàn)了模型的并行計算。Kong 等人[49]將每個字能夠?qū)臉撕瀰R成一個分詞標簽嵌入向量,在融合詞典的嵌入向量與字向量直接連接,可以極大地提高訓練速度。

    為了捕捉長距離的依賴,Transformer 模型采用了自注意力機制以保持位置信息。由于自注意力機制具有無偏性,可以使用位置向量來提取位置信息。Li 等人[50]根據(jù)自注意力機制的無偏性,對文獻[45]的結(jié)構(gòu)進行了重構(gòu)。具體而言,該方法對于所有漢字和詞都提供了一個位置向量,以包含其開始和結(jié)束位置。因此,所提出的FLAT(flat lattice transformer)模型可以直接實現(xiàn)字符與所匹配的全部詞匯的交互。

    3.2 漢字特征融合

    作為世界上最古老的文字之一,漢字由于其濃縮性和聯(lián)想性的特點,使得單一漢字可以包含極大數(shù)量的隱含信息。與其他語言相同,漢字的語義會隨著說話者的語氣、說話的時間和場合以及上下文語境的不同而變化。同時,漢字作為一種象形文字,文字本身也蘊含著大量的特征信息,例如漢字的筆畫、筆順、偏旁部首以及語調(diào)。這些特征信息交融在一起,共同構(gòu)成了漢字豐富的語義信息。在Zhang 等人[51]的研究中已經(jīng)證明,筆畫、結(jié)構(gòu)和拼音相似的漢語單詞具有相似的語義。因此,對漢字的固有字形特征進行提取是很有必要的。在現(xiàn)有的研究中,主流方法包括融合漢字字形特征、漢字筆畫特征、漢字偏旁特征和漢字讀音特征等。

    3.2.1 漢字字形特征

    基于傳統(tǒng)的命名實體識別方法,Li等人[52]結(jié)合漢字的詞性特征,對中文文本進行命名實體識別,并證明了詞性特征可以有效提高中文命名實體識別的準確率。作為一種象形文字,漢字自身固有的形態(tài)也可以視作一種特征。因此有學者嘗試將漢字視為圖像進行處理[53]。

    Su 等人[54]對漢字的位圖進行處理,通過自動編碼器直接從字符的位圖中學習,并依據(jù)漢字圖向量進行語義增強。Meng 等人[55]使用了一種改進的CNN 處理漢字位圖,有效提高了模型的泛化性。

    3.2.2 漢字筆畫特征

    為了得到單詞和字符是如何構(gòu)造的先驗假設(shè),以自動獲取與漢語單詞相關(guān)的有意義的潛在表示,有學者提出利用漢語單詞所傳達的筆畫信息,來捕捉單詞的形態(tài)和語義信息。Cao 等人[56]首次提出了使用漢字的筆畫特征信息進行語義增強的思想,將漢字筆畫分為五種不同的類型,并為每個筆畫分配一個整數(shù)類型的ID 值作為特征標識。實驗證明引入筆畫特征后可以得到更好的中文實體識別效果。Zhang 等人[57]對中文和日文的筆畫特征進行特征提取和比對,并應用在機器翻譯中,識別率得到了顯著提高。

    3.2.3 漢字偏旁特征

    在中文文本中,漢字的偏旁是由筆畫所組成,因此可以包含筆畫特征的一部分特征信息。同時,漢字的偏旁在一定程度上可以反映漢字所屬的類別。由此可見,對漢字的偏旁特征進行提取可以實現(xiàn)更好的識別效果。

    Sun 等人[58]通過使用漢字的詞根特征,在中文命名實體識別任務中的識別率得到了顯著提高。同時,Shao 等人[59]也通過實驗證明,在中文自然語言的理解任務中,對詞根和偏旁這類漢字的固有特征進行提取可以起到良好的改進作用。

    在文獻[55-56]的基礎(chǔ)上,Chen 等人[60]對漢字的偏旁特征進行提取,并結(jié)合GRU-GatedConv(gated recurrent unit with gated convolution)網(wǎng)絡,在公開數(shù)據(jù)集上進行了測試,實驗結(jié)果表明提取偏旁特征對中文命名實體識別起到了積極的作用。在中醫(yī)領(lǐng)域,Yang 等人[61]將筆畫特征和偏旁特征結(jié)合使用進行命名實體識別,其F1 值高于單獨使用筆畫特征或偏旁特征。

    3.2.4 漢字讀音特征

    在中文文本中,即使是同樣的漢字,在不同的語境下所代表的含義也有所差異,有的時候甚至代表了完全相反的含義。其中,漢字的讀音在一定程度上可以反映說話人的情感或所處語境的類型。同時,從語言學的角度來看,口語是一種更直接的語義表達,文本只有作為口語的記錄時才具有實際意義。因此,漢字的讀音也作為漢字的固有特征之一,得到了廣泛的研究。

    Zhang 等人[51]在Cao 等人[56]研究的基礎(chǔ)上,將漢字的拼音特征嵌入到漢字的特征向量中,并通過實驗證明了融合拼音特征、字形特征和偏旁特征的識別準確率高于僅使用字形特征和偏旁特征。Zhu 等人[62]在漢語文本中引入漢字的讀音特征向量,并采用相同的模型進行比對,結(jié)果表明讀音特征的引入對文本的識別可以起到良好的改進效果。Chaudhary等人[63]同樣將漢字的拼音特征融入網(wǎng)絡模型中,使模型的識別效果得到顯著的提升。Zhang 等人[64]結(jié)合上述特征,將漢字的結(jié)構(gòu)、偏旁、筆畫和拼音特征融合到漢字的字符向量中,并通過設(shè)計特征子序列來學習這些特征之間的相關(guān)性。該方法在融合了四種漢字固有特征后,在中文命名實體識別任務和文本分類任務中的結(jié)果均優(yōu)于目前最先進的方法。

    4 中文命名實體識別方法改進

    中文命名實體識別相較于英文而言,首先面臨的問題就是如何對文本中的詞語進行正確的分割。同時中文的詞語數(shù)量龐大,且更新速度快,時效性較強,因此基于詞典的模型往往會出現(xiàn)無法識別新詞的問題。并且一詞多義和多音字的問題在中文文本中廣泛存在,需要進行特殊的標記處理。最后,對于識別性能較好的模型,需要對其中的算法進行優(yōu)化,以縮短模型的訓練時間和模型泛化性。

    4.1 模型結(jié)構(gòu)優(yōu)化

    近年來,基于深度學習的模型逐漸成為命名實體識別主流的解決方案。與基于特征的方法[65]相比,基于深度學習的模型有助于發(fā)現(xiàn)文本中隱含的深層特征。根據(jù)單詞在句子中的形式,可以把基于深度學習的模型分為處理字和處理詞兩類。

    對于處理字的模型,輸入的句子被視為一個字符序列,該序列通過相應模型結(jié)構(gòu),輸出各個字符對應的預測標簽。Peters等人[66]提出了ELMO 模型對中文文本進行處理,該模型在具有字符卷積的兩層雙向語言模型的基礎(chǔ)上計算,具有較高的準確率。對于處理詞的模型,輸入的每個單詞都由其單詞嵌入表示。Yadav 等人[67]提出了一個詞級別LSTM 結(jié)構(gòu),并使用CRF 層處理預測的標簽向量以提高模型性能,在CoNLL 2003 數(shù)據(jù)集上獲得了84.26%的F1 分數(shù)。在實際的應用環(huán)境中,需要減少模型的訓練時間,針對這個問題,Yohannes 等人[68]使用CNN 進行語義信息的降維,極大地減少了模型的參數(shù)量。

    在醫(yī)學命名實體識別領(lǐng)域,Xie 等人[69]使用skipgram 編碼引入漢字詞匯特征,在CCKS 2019 公開數(shù)據(jù)集中取得了較好的醫(yī)學實體識別效果。Lee 等人[70]基于一種改進的圖神經(jīng)網(wǎng)絡,并結(jié)合多特征融合方法,在保證模型識別效果的情況下提高了模型的識別效率。華為諾亞方舟實驗室首創(chuàng)了一種預訓練語言模型哪吒NEZHA[71],該模型首次使用了函數(shù)式相對位置編碼。通過對比實驗可發(fā)現(xiàn),采用了函數(shù)式相對位置編碼的方式明顯優(yōu)于其他位置的編碼方式。

    4.2 基于BERT 的預處理方法

    BERT 是在2018 年由谷歌公司的Devlin 等人[40]提出的一種基于深度學習的語言表示模型,其主要的模型結(jié)構(gòu)是Transformer 編碼器。BERT 模型使用掩詞模型和相鄰句預測兩個方法完成文本字詞特征的預訓練。其中,掩詞模型通過將單詞掩蓋,從而學習其上下文內(nèi)容特征,來預測被掩蓋的單詞;相鄰句預測通過學習句子間關(guān)系特征,預測兩個句子的位置是否是相鄰的。由于BERT 在做文本處理類任務時,不需要對模型做過多修改,在中文命名實體識別的研究中受到了廣泛的關(guān)注。谷歌公司在2018 年發(fā)布了用于處理中文文本的BERT 模型,該模型僅含有1.1×108的參數(shù)量,并可以識別簡體中文和繁體中文。該模型一經(jīng)問世,便有眾多學者嘗試將它用于中文命名實體識別任務中。

    Li 等人[72]將外部詞典知識直接集成到BERT 層中,實現(xiàn)詞典增強型BERT 做預訓練。直接使用BERT 雖然可以提升識別的準確率,但是由于BERT內(nèi)部參數(shù)過多,會導致內(nèi)存不足和訓練時間過長等問題。因此,Lan 等人[73]提出了一種簡化的BERT 模型ALBERT,該模型使用跨層參數(shù)共享方法,在略微犧牲模型性能的情況下極大地減少了模型的參數(shù)量和訓練時間。Xiong等人[74]將ALBERT 和雙向長短期記憶神經(jīng)網(wǎng)絡相結(jié)合,并用于中國政府公文的處理,在各類政府文書實體上均實現(xiàn)了良好的識別效果。

    在醫(yī)學領(lǐng)域,同樣開展了一系列關(guān)于醫(yī)學中文實體識別的研究。Wen 等人[75]使用BERT 對中醫(yī)文本進行了實體識別,根據(jù)比對識別效果,證明了預訓練的語言模型在中醫(yī)命名實體識別任務中的有效性。Xiao 等人[76]對多源詞典信息進行了融合,不僅提高了中醫(yī)實體識別的效果,而且模型具有良好的領(lǐng)域遷移性。Zhang 等人[77]將字符與所對應的詞匯相結(jié)合,在CCKS 2019數(shù)據(jù)集中實現(xiàn)了84.98%的F1值。

    對于臨床醫(yī)療診斷文本,Zhu 等人[78]將多個Bi-LSTM 模型與BERT 結(jié)合,并通過實驗證明以交錯的方式堆疊Bi-LSTM 模型相對于直接堆疊可以實現(xiàn)更好的識別效果,并可以花費更少的訓練時間。針對臨床醫(yī)療診斷文本標注量少的問題,Chen 等人[79]結(jié)合BERT 模型,采用半監(jiān)督方法進行訓練,減少了對大量標記數(shù)據(jù)的依賴。同時,對比研究表明,在已有模型的基礎(chǔ)上,使用BERT 模型作為編碼器進行預訓練,可以在醫(yī)學實體的識別任務中取得良好的效果。表3 列出了在CCKS 2020 數(shù)據(jù)集上表現(xiàn)良好的幾種模型,其相應的實現(xiàn)效果使用F1 值作為評價指標[80-83]。

    表3 基于BERT 的模型在CCKS 2020 上的效果Tabel 3 Effect of BERT-based models on CCKS 2020

    4.3 實際應用優(yōu)化

    相對于實驗環(huán)境中的理想情況,實際工程應用中的因果結(jié)構(gòu)常常會存在各種偽相關(guān)的路徑。由于預訓練數(shù)據(jù)和所使用測試集之間的偽相關(guān)性,預訓練模型會對特定標簽有一定的預測偏好。一旦對預訓練數(shù)據(jù)或測試集進行很小的干預,性能就會迅速下降,極大地影響命名實體識別的準確率。同時,同一概念可以存在多種表達方式,這也導致了預訓練模型在不同測試集上的效果極不穩(wěn)定。目前主流的方法是在文本中引入更多的信息,主要分為加入示例的類比信息[84]和加入上下文推理信息[85]兩類。

    加入上下文推理信息是指在原有基礎(chǔ)上,增加通過檢索得到的相關(guān)上下文[86]。上下文推理信息分為顯式和隱式兩種推理方式。顯式推理指上下文中已經(jīng)包含了答案的詞語;隱式推理指上下文中雖然沒有明確給出具體的答案,但是同樣可以根據(jù)詞性等方式預測答案。這種方式可以對文本的各種表述有更高的適應能力,在一定程度上提高模型的預測穩(wěn)定性。加入示例的類比信息是指在原有基礎(chǔ)上,增加一些示范性的樣例[87]。這種方式可以借助示例的類比,幫助模型更好地識別實體類別,同時也提升了答案的類別準確率,從而提升了NER的準確率[88]。這種方式也存在著不足之處。所加入的示例只能幫助預訓練模型更好地識別實體的類別,對于某一個類別內(nèi)部的實體識別效果,并沒有實質(zhì)性的提升。并且,預測偏好的問題在示例類比過程中同樣存在。預訓練模型同樣傾向于選擇示例中的標簽,導致預測存在整體的偏差[89]。同時,錯誤的示例標簽對模型的性能影響并不明顯。Min 等人[89]在12 個不同的主流模型上進行了測試,發(fā)現(xiàn)即使僅有格式正確的輸入或輸出時,模型的識別效果依然可以達到95%以上。因此,加入示例的類比信息導致的模型性能提高,主要是因為模型學習了輸出的大致分布,而并非輸入和輸出的對應關(guān)系。

    目前,命名實體識別在大型網(wǎng)商平臺的應用包括搜索召回、情感分析等。在網(wǎng)商平臺的O2O(online to offline)搜索中,對商家的描述是商家名稱、地址等多個互相之間相關(guān)性并不高的文本域,如果采用簡單取交集的方式,必然會產(chǎn)生大量的誤召回。國內(nèi)的某電商技術(shù)團隊采用實體詞典匹配和模型預測相結(jié)合的框架,使模型預測具備泛化能力,同時解決了詞典匹配的歧義問題。整體識別架構(gòu)如圖7 所示。

    圖7 實體識別整體架構(gòu)Fig.7 Entity recognition overall architecture

    同時,用戶數(shù)據(jù)的吞吐量極大,因此存在搜索性能和訓練數(shù)據(jù)質(zhì)量的要求。針對以上問題,該電商技術(shù)團隊采用模型蒸餾、算子融合、混合精度和批處理推理的方式,在不影響效果的基礎(chǔ)上,極大提升了模型訓練和預測的速度。同時,通過弱監(jiān)督標注數(shù)據(jù)生成的方法,解決了標注數(shù)據(jù)難以獲取的問題,在搜索召回的實際應用中取得了良好的效果。

    5 中文命名實體識別實際應用

    5.1 中文命名實體識別在醫(yī)療領(lǐng)域的應用

    電子病歷作為一種重要的醫(yī)學信息資源,是衛(wèi)生健康領(lǐng)域信息化的重要組成部分之一。研究者通過利用其中蘊含的大量關(guān)于疾病癥狀、診斷和治療信息,使用自然語言處理和人工智能技術(shù)來挖掘和發(fā)現(xiàn)電子病歷中的有效知識,可以有效優(yōu)化就醫(yī)流程和降低醫(yī)療成本。近年來,隨著“互聯(lián)網(wǎng)+醫(yī)療”概念的引入,電子病歷系統(tǒng)廣泛應用于各級醫(yī)院,電子病歷文本的數(shù)量也隨之呈爆炸式的增長。然而,當前對于醫(yī)療領(lǐng)域的命名實體識別仍然存在著許多問題。首先,現(xiàn)階段暫時沒有系統(tǒng)化的中文醫(yī)學語料庫,對醫(yī)療領(lǐng)域命名實體識別的研究造成了許多困難;同時,在醫(yī)療領(lǐng)域內(nèi)傳統(tǒng)使用的RNN 模型在文本序列較長時,容易損失大量的有價值信息;并且,現(xiàn)有方法大多僅將一個文本序列映射為單一的向量表示,無法從多個維度分析文本序列的特征;最后,當前醫(yī)療領(lǐng)域命名實體識別的研究對標注訓練數(shù)據(jù)集的數(shù)量和質(zhì)量依賴極大。但是,醫(yī)療領(lǐng)域數(shù)據(jù)集中大量的醫(yī)學專有名詞、非標準化的名詞縮寫、大量專業(yè)名詞的英文縮寫和書寫或表達錯誤產(chǎn)生的噪聲,都對當前的研究帶來了巨大的挑戰(zhàn)。

    針對醫(yī)學語料庫較少的問題,美國國家集成生物與臨床信息研究中心針對不同疾病危險因素,在2006 年建立了較為完善的生物疾病信息語料庫。我國的知識圖譜與語義計算大會從2017 年開始,組織了多次面向中文電子病歷的命名實體識別評測任務,并構(gòu)建了中文電子病歷的語料庫。Su 等人[90]所在的研究團隊在國內(nèi)外電子病歷標注規(guī)則的基礎(chǔ)上,提出了一套相對完整的中文電子病歷命名實體標注方案。

    同時,國內(nèi)外的學者對所使用的模型也進行了相應的優(yōu)化。Luo 等人[91]將領(lǐng)域詞典和多頭注意力機制相結(jié)合,不僅捕獲了語境、語義等潛在特征,而且減少了數(shù)據(jù)不均衡導致的精確度降低問題。Wang等人[92]采用了RNN-CNN 的混合式結(jié)構(gòu),并使用RoBERTa(robustly optimized BERT pretraining approach)進行向量嵌入表示,在處理長短交替的序列文本時實現(xiàn)了更高的準確率和更短的訓練時間。Tian等人[93]使用泛化的通用語料庫對當前基于Transformer 的衍生模型和基于BiLSTM-CRF 的衍生模型進行了評估,證明了基于Transformer 的衍生模型擁有更為優(yōu)秀的泛化性。Li等人[81]采取了特征融合的思路,使用BiLSTM 和IDCNN(iterated dilated CNN)分別提取文本的上下文特征和局部特征,F(xiàn)1 值在CCKS 2020 的數(shù)據(jù)集中達到了89.68%。

    針對中文電子病歷數(shù)據(jù)集質(zhì)量存在的問題,Zhang等人[94]采用RoBERTa 與WWM(whole word masking)方法結(jié)合的方式進行預訓練,有效減少了數(shù)據(jù)集中文本噪聲的影響。Jing 等人[95]針對小樣本電子病歷數(shù)據(jù)集,采取了半監(jiān)督的方式,顯著降低了人工標注的工作量,對相關(guān)項目的實際應用開發(fā)有較大的指導意義。

    5.2 中文命名實體識別在政法領(lǐng)域的應用

    近年來,隨著國家司法和政務改革的持續(xù)開展,政法領(lǐng)域智能化平臺的建設(shè)受到了廣泛的關(guān)注,對海量的政法類文書進行智能分析和處理已成為當前研究的重要內(nèi)容。在目前政法領(lǐng)域命名實體識別的研究中,主要存在以下兩點問題:首先,現(xiàn)有的政法命名實體識別大多傾向于識別實體的固有屬性,而并沒有落實到政法屬性,限制了諸如政法知識圖譜下游任務的展開。同時,相對于通用領(lǐng)域的NER 任務,政法領(lǐng)域要求實體識別的細粒度更高。例如,對于地理實體的識別,通用領(lǐng)域的NER 只要求提取出大體的行政區(qū)即可。然而政法領(lǐng)域所需要提取的地理實體常常需要精確到街道和樓宇一級,因此使用現(xiàn)有的方法會導致準確率降低,并產(chǎn)生很大的誤差。

    針對上述問題,國內(nèi)外的學者近年來對此展開了一系列的研究。Li 等人[96]通過手工的方式構(gòu)建法律文本語料庫,在司法領(lǐng)域中取得了86.09%的F1值。Liu 等人[97]采取自監(jiān)督的方式,在迭代過程中擴展標注詞典,只需要手工標注小部分數(shù)據(jù)即可達到良好的效果。針對政法領(lǐng)域?qū)嶓w的高細粒度要求,Ding 等人[98]使用ELECTRA 模型對電信網(wǎng)絡詐騙案件文本進行處理,可以得到細粒度較高的識別實體。然而,噪聲和一詞多義的問題仍然沒有得到有效解決。Roegiest等人[99]提出使用句子的邏輯傾向進行標記,從而縮小實體識別的范圍。在文獻[99]的基礎(chǔ)上,Donnelly 等人[100]提出了一種雙層結(jié)構(gòu)的篩選器,其中一層對可能包含實體的句子進行篩選,另一層對句子中實體的位置進行篩選。這種方式不僅緩解了數(shù)據(jù)不均衡的問題,而且提高了實體識別的細粒度。

    6 結(jié)束語

    對于中文命名實體識別任務而言,目前所提出的模型和方法基本可以滿足實際生產(chǎn)環(huán)境的需要,并且在特定領(lǐng)域中能夠達到令人滿意的識別準確率。但是,當前中文NER 的研究仍然受到諸多因素的制約,主要存在以下四點的不足:第一,現(xiàn)有的中文NER 模型參數(shù)量十分龐大,模型的訓練需要消耗大量的時間,因此需要一種輕量化的模型來彌補這一不足之處。第二,當前的研究大多集中在特定領(lǐng)域,也即所提出的模型大多具有領(lǐng)域?qū)R恍?,在遷移領(lǐng)域數(shù)據(jù)集后,模型的效果可能會明顯降低,因此需要提出一種具有良好泛化性的模型。第三,當前大多神經(jīng)網(wǎng)絡模型對于訓練詞表外的詞的識別效果不佳。第四,目前所使用的網(wǎng)絡模型大多是基于人工神經(jīng)網(wǎng)絡的結(jié)構(gòu),因此可以嘗試與生物神經(jīng)學相結(jié)合,使用基于脈沖神經(jīng)網(wǎng)絡的方法開展進一步研究。

    猜你喜歡
    分詞命名實體
    命名——助力有機化學的學習
    前海自貿(mào)區(qū):金融服務實體
    中國外匯(2019年18期)2019-11-25 01:41:54
    結(jié)巴分詞在詞云中的應用
    智富時代(2019年6期)2019-07-24 10:33:16
    有一種男人以“暖”命名
    東方女性(2018年3期)2018-04-16 15:30:02
    為一條河命名——在白河源
    散文詩(2017年17期)2018-01-31 02:34:08
    實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
    哲學評論(2017年1期)2017-07-31 18:04:00
    兩會進行時:緊扣實體經(jīng)濟“釘釘子”
    振興實體經(jīng)濟地方如何“釘釘子”
    值得重視的分詞的特殊用法
    高考分詞作狀語考點歸納與疑難解析
    一区二区三区乱码不卡18| 国产精品国产av在线观看| 精品亚洲乱码少妇综合久久| 欧美+日韩+精品| 国产精品久久久久久久电影| 亚洲欧洲国产日韩| 亚洲成人手机| 亚洲av综合色区一区| 成人午夜精彩视频在线观看| 大话2 男鬼变身卡| 精品久久久久久电影网| 久久韩国三级中文字幕| 亚洲国产精品国产精品| 99国产综合亚洲精品| 免费播放大片免费观看视频在线观看| 久久 成人 亚洲| 亚洲欧美日韩另类电影网站| 日韩电影二区| 22中文网久久字幕| 亚洲精品国产色婷婷电影| 久久久久网色| 老熟女久久久| 黄色配什么色好看| 国产精品无大码| 成人国语在线视频| 久久人妻熟女aⅴ| 日本爱情动作片www.在线观看| 啦啦啦在线观看免费高清www| 如日韩欧美国产精品一区二区三区| 日韩一本色道免费dvd| 中文欧美无线码| 国产熟女午夜一区二区三区| 亚洲国产av新网站| 精品午夜福利在线看| 久久ye,这里只有精品| av国产精品久久久久影院| 精品国产国语对白av| 免费日韩欧美在线观看| 国产乱来视频区| 三上悠亚av全集在线观看| 国产色爽女视频免费观看| 老司机影院毛片| 搡女人真爽免费视频火全软件| av国产精品久久久久影院| 欧美亚洲日本最大视频资源| 亚洲成av片中文字幕在线观看 | 日本-黄色视频高清免费观看| 精品一区二区免费观看| 亚洲国产最新在线播放| 午夜影院在线不卡| 国产成人精品福利久久| 久久免费观看电影| 22中文网久久字幕| 最近最新中文字幕大全免费视频 | 波野结衣二区三区在线| 国产麻豆69| 亚洲色图综合在线观看| 纯流量卡能插随身wifi吗| 久久久久精品人妻al黑| 搡女人真爽免费视频火全软件| 日日爽夜夜爽网站| 国产亚洲精品第一综合不卡 | 九色亚洲精品在线播放| 在线精品无人区一区二区三| 日本与韩国留学比较| 丰满迷人的少妇在线观看| 少妇熟女欧美另类| 精品少妇黑人巨大在线播放| 最黄视频免费看| 亚洲 欧美一区二区三区| 国产精品久久久久久久久免| 不卡视频在线观看欧美| 菩萨蛮人人尽说江南好唐韦庄| 精品少妇内射三级| av在线老鸭窝| 日韩av在线免费看完整版不卡| av一本久久久久| 少妇 在线观看| 日本91视频免费播放| 精品人妻一区二区三区麻豆| 亚洲综合色网址| 七月丁香在线播放| 日韩中文字幕视频在线看片| 中国三级夫妇交换| 国产片内射在线| 少妇猛男粗大的猛烈进出视频| 中文乱码字字幕精品一区二区三区| 成人二区视频| 久久国产精品男人的天堂亚洲 | av免费在线看不卡| 亚洲av电影在线观看一区二区三区| 高清不卡的av网站| 久久久久国产精品人妻一区二区| 欧美成人午夜免费资源| 久久这里有精品视频免费| 国产精品一区二区在线观看99| 美女大奶头黄色视频| 26uuu在线亚洲综合色| 九色成人免费人妻av| 嫩草影院入口| 超碰97精品在线观看| 久久精品熟女亚洲av麻豆精品| 国产成人精品福利久久| 女的被弄到高潮叫床怎么办| 青春草亚洲视频在线观看| 18禁裸乳无遮挡动漫免费视频| 99国产综合亚洲精品| 日韩av不卡免费在线播放| 91国产中文字幕| 久久久久视频综合| av福利片在线| 国产亚洲午夜精品一区二区久久| 毛片一级片免费看久久久久| 人妻系列 视频| 国产精品国产三级国产专区5o| kizo精华| 人人妻人人澡人人看| 午夜91福利影院| tube8黄色片| 国产精品 国内视频| 久久综合国产亚洲精品| 亚洲少妇的诱惑av| 亚洲av国产av综合av卡| videossex国产| 国产色爽女视频免费观看| 交换朋友夫妻互换小说| 亚洲精品久久午夜乱码| 亚洲伊人色综图| 你懂的网址亚洲精品在线观看| 又粗又硬又长又爽又黄的视频| 欧美精品亚洲一区二区| 岛国毛片在线播放| 看非洲黑人一级黄片| 亚洲av成人精品一二三区| 午夜视频国产福利| 国产一区二区激情短视频 | 蜜桃国产av成人99| 在线观看免费视频网站a站| 五月开心婷婷网| freevideosex欧美| 日韩三级伦理在线观看| 高清不卡的av网站| 激情视频va一区二区三区| 国产xxxxx性猛交| 精品国产露脸久久av麻豆| 最黄视频免费看| 97在线视频观看| 欧美国产精品va在线观看不卡| av视频免费观看在线观看| 香蕉国产在线看| 美女内射精品一级片tv| 国产又色又爽无遮挡免| 亚洲av男天堂| 激情视频va一区二区三区| 国产免费现黄频在线看| 亚洲国产欧美在线一区| 亚洲综合色网址| av网站免费在线观看视频| 一级片'在线观看视频| 高清欧美精品videossex| 91成人精品电影| 亚洲第一区二区三区不卡| 黑人高潮一二区| 大香蕉97超碰在线| 久久久国产欧美日韩av| 99国产综合亚洲精品| 中国三级夫妇交换| 日本欧美国产在线视频| 久久这里有精品视频免费| 欧美日韩成人在线一区二区| 综合色丁香网| 国产成人aa在线观看| 久久毛片免费看一区二区三区| 亚洲精品aⅴ在线观看| 欧美少妇被猛烈插入视频| 亚洲五月色婷婷综合| 免费黄频网站在线观看国产| 你懂的网址亚洲精品在线观看| 国产激情久久老熟女| 国产精品一二三区在线看| 国产精品国产av在线观看| 91国产中文字幕| 免费大片18禁| 久久久久久人妻| videosex国产| 精品一区二区三区四区五区乱码 | 高清黄色对白视频在线免费看| www.熟女人妻精品国产 | 色婷婷av一区二区三区视频| 国产精品一二三区在线看| 成人亚洲精品一区在线观看| 一区二区av电影网| 亚洲av福利一区| 永久免费av网站大全| 日韩制服骚丝袜av| 久久精品久久精品一区二区三区| 97精品久久久久久久久久精品| 另类亚洲欧美激情| 99视频精品全部免费 在线| 国产黄色免费在线视频| 精品午夜福利在线看| 在线观看免费高清a一片| 侵犯人妻中文字幕一二三四区| 巨乳人妻的诱惑在线观看| 插逼视频在线观看| 亚洲欧美成人综合另类久久久| 黄色毛片三级朝国网站| 中文字幕制服av| 成人亚洲欧美一区二区av| 一边亲一边摸免费视频| 久久精品国产亚洲av天美| 成人毛片a级毛片在线播放| 久久97久久精品| 国产成人精品一,二区| 日本与韩国留学比较| 婷婷色综合www| 高清视频免费观看一区二区| 国产男女内射视频| 精品亚洲成a人片在线观看| 国产极品天堂在线| 在现免费观看毛片| 亚洲av电影在线进入| 国产亚洲最大av| 丝瓜视频免费看黄片| 精品福利永久在线观看| 99九九在线精品视频| 97在线视频观看| 妹子高潮喷水视频| 22中文网久久字幕| 99久国产av精品国产电影| 精品少妇黑人巨大在线播放| 亚洲欧洲精品一区二区精品久久久 | 国产成人精品一,二区| 日本色播在线视频| 人妻系列 视频| 你懂的网址亚洲精品在线观看| 综合色丁香网| 97超碰精品成人国产| av免费在线看不卡| 亚洲美女搞黄在线观看| 日本色播在线视频| 韩国av在线不卡| 熟女电影av网| 99久久综合免费| 亚洲精品一二三| 十分钟在线观看高清视频www| 麻豆精品久久久久久蜜桃| 欧美日韩一区二区视频在线观看视频在线| 日日爽夜夜爽网站| 亚洲久久久国产精品| 欧美精品国产亚洲| 丁香六月天网| 少妇人妻 视频| 韩国高清视频一区二区三区| 日韩av在线免费看完整版不卡| 一区二区三区乱码不卡18| 深夜精品福利| 一本色道久久久久久精品综合| 大香蕉97超碰在线| 桃花免费在线播放| 久久精品久久精品一区二区三区| 熟女人妻精品中文字幕| 午夜视频国产福利| av播播在线观看一区| 观看美女的网站| 纯流量卡能插随身wifi吗| videosex国产| 免费大片18禁| 熟女av电影| 精品久久蜜臀av无| 国产亚洲精品第一综合不卡 | a级毛色黄片| 亚洲欧美精品自产自拍| 亚洲高清免费不卡视频| 少妇高潮的动态图| 中国国产av一级| 成人综合一区亚洲| 18禁裸乳无遮挡动漫免费视频| 中文字幕制服av| 国产精品国产三级专区第一集| 高清欧美精品videossex| www.av在线官网国产| 亚洲精品国产色婷婷电影| 亚洲第一av免费看| 一本色道久久久久久精品综合| 纯流量卡能插随身wifi吗| 汤姆久久久久久久影院中文字幕| a 毛片基地| 免费女性裸体啪啪无遮挡网站| 久久 成人 亚洲| 人妻一区二区av| 九色成人免费人妻av| 涩涩av久久男人的天堂| www.色视频.com| 18禁动态无遮挡网站| av在线观看视频网站免费| 精品一区二区三区视频在线| 精品国产露脸久久av麻豆| 久久国产亚洲av麻豆专区| 国产精品不卡视频一区二区| 亚洲精品国产色婷婷电影| 夜夜爽夜夜爽视频| 在线观看三级黄色| 国产日韩欧美在线精品| 少妇的丰满在线观看| 亚洲图色成人| 成人黄色视频免费在线看| 亚洲五月色婷婷综合| 人成视频在线观看免费观看| 欧美人与性动交α欧美软件 | av不卡在线播放| 女性生殖器流出的白浆| 国产免费视频播放在线视频| 少妇高潮的动态图| 日日摸夜夜添夜夜爱| 欧美+日韩+精品| 国产高清国产精品国产三级| 免费看不卡的av| 一边亲一边摸免费视频| 成年女人在线观看亚洲视频| 七月丁香在线播放| 极品少妇高潮喷水抽搐| 美女国产视频在线观看| 伊人久久国产一区二区| 亚洲综合色惰| 在线观看人妻少妇| 七月丁香在线播放| 丝袜喷水一区| 777米奇影视久久| 91成人精品电影| 少妇人妻久久综合中文| 亚洲精品一区蜜桃| 精品久久久久久电影网| 高清在线视频一区二区三区| 精品一区二区三区四区五区乱码 | 日本与韩国留学比较| 侵犯人妻中文字幕一二三四区| 成人毛片a级毛片在线播放| 大香蕉97超碰在线| 最近最新中文字幕大全免费视频 | 免费人妻精品一区二区三区视频| 建设人人有责人人尽责人人享有的| 日韩av不卡免费在线播放| videossex国产| 夜夜爽夜夜爽视频| 永久网站在线| 亚洲av国产av综合av卡| 亚洲色图综合在线观看| 久久婷婷青草| 精品国产乱码久久久久久小说| 女性被躁到高潮视频| 精品人妻熟女毛片av久久网站| 日日撸夜夜添| 香蕉精品网在线| 精品人妻偷拍中文字幕| 免费日韩欧美在线观看| 亚洲人成77777在线视频| 黄色怎么调成土黄色| 成人二区视频| freevideosex欧美| av不卡在线播放| 国产在线免费精品| 国产亚洲欧美精品永久| 国产乱来视频区| 久久久久久久久久久免费av| 国产成人精品婷婷| 久久久久久久大尺度免费视频| 人体艺术视频欧美日本| 中文字幕最新亚洲高清| 亚洲国产精品国产精品| 亚洲一区二区三区欧美精品| 中文字幕av电影在线播放| 久久精品熟女亚洲av麻豆精品| 国产极品粉嫩免费观看在线| 亚洲人与动物交配视频| 美女脱内裤让男人舔精品视频| 久久午夜福利片| 国产精品一区二区在线观看99| 大片免费播放器 马上看| 免费av不卡在线播放| 美女内射精品一级片tv| 国产精品久久久久久久电影| av不卡在线播放| 满18在线观看网站| 少妇人妻精品综合一区二区| 国产精品成人在线| 999精品在线视频| 亚洲色图 男人天堂 中文字幕 | 中文乱码字字幕精品一区二区三区| 99精国产麻豆久久婷婷| 国内精品宾馆在线| 亚洲国产精品一区二区三区在线| 丝袜脚勾引网站| 九九在线视频观看精品| 成人影院久久| 在线观看www视频免费| 狠狠精品人妻久久久久久综合| 婷婷色麻豆天堂久久| 国产精品嫩草影院av在线观看| 国产一区二区激情短视频 | 十分钟在线观看高清视频www| 久热久热在线精品观看| 婷婷色麻豆天堂久久| 夜夜骑夜夜射夜夜干| 亚洲中文av在线| 精品少妇久久久久久888优播| 亚洲性久久影院| 国产精品一区二区在线不卡| 18+在线观看网站| 一边亲一边摸免费视频| 国产爽快片一区二区三区| 久久99蜜桃精品久久| 欧美精品亚洲一区二区| 国产免费一级a男人的天堂| 亚洲欧美清纯卡通| 国产毛片在线视频| 多毛熟女@视频| 男女无遮挡免费网站观看| 国产一区亚洲一区在线观看| 欧美成人精品欧美一级黄| 国产极品天堂在线| 精品一区二区三区视频在线| av.在线天堂| av国产精品久久久久影院| a级片在线免费高清观看视频| 美女国产视频在线观看| 午夜精品国产一区二区电影| 这个男人来自地球电影免费观看 | 美女国产视频在线观看| 纯流量卡能插随身wifi吗| 亚洲天堂av无毛| 久久精品久久久久久久性| 国产免费一级a男人的天堂| 一级毛片我不卡| 亚洲国产日韩一区二区| 久久ye,这里只有精品| 国产又爽黄色视频| 亚洲美女视频黄频| 激情视频va一区二区三区| 人成视频在线观看免费观看| 精品久久久精品久久久| 日韩,欧美,国产一区二区三区| 免费观看无遮挡的男女| 免费女性裸体啪啪无遮挡网站| 国产精品一区www在线观看| 边亲边吃奶的免费视频| 一本大道久久a久久精品| 久久久久久久亚洲中文字幕| 国产精品不卡视频一区二区| 亚洲伊人久久精品综合| 免费看av在线观看网站| 伊人亚洲综合成人网| 好男人视频免费观看在线| 蜜桃在线观看..| 亚洲精品色激情综合| 自线自在国产av| a级毛片在线看网站| 亚洲综合精品二区| 成人亚洲精品一区在线观看| 成人18禁高潮啪啪吃奶动态图| 高清在线视频一区二区三区| 2022亚洲国产成人精品| 日本欧美国产在线视频| 狠狠婷婷综合久久久久久88av| 久久99一区二区三区| 毛片一级片免费看久久久久| 亚洲精华国产精华液的使用体验| 亚洲综合色惰| 国产精品一二三区在线看| 交换朋友夫妻互换小说| 一本久久精品| 蜜桃在线观看..| 一级a做视频免费观看| 又黄又爽又刺激的免费视频.| 久久精品久久久久久噜噜老黄| 亚洲精品第二区| 国产女主播在线喷水免费视频网站| av电影中文网址| 黄色配什么色好看| 制服人妻中文乱码| 亚洲国产精品国产精品| 国产黄频视频在线观看| 欧美 亚洲 国产 日韩一| 99国产精品免费福利视频| 免费av中文字幕在线| 久久久国产欧美日韩av| 人人妻人人澡人人看| 久久久精品区二区三区| 亚洲欧美一区二区三区黑人 | 大片电影免费在线观看免费| 又黄又爽又刺激的免费视频.| 美女国产视频在线观看| 欧美成人午夜免费资源| 哪个播放器可以免费观看大片| 久久精品久久久久久久性| 午夜日本视频在线| 免费日韩欧美在线观看| 免费观看av网站的网址| 亚洲高清免费不卡视频| 国产欧美亚洲国产| 日本av手机在线免费观看| 欧美变态另类bdsm刘玥| 午夜久久久在线观看| 亚洲丝袜综合中文字幕| 国产极品粉嫩免费观看在线| 亚洲国产欧美日韩在线播放| 国产有黄有色有爽视频| 国产1区2区3区精品| 高清视频免费观看一区二区| 国产高清国产精品国产三级| 久久毛片免费看一区二区三区| 男女高潮啪啪啪动态图| 赤兔流量卡办理| 亚洲精品国产色婷婷电影| 少妇被粗大的猛进出69影院 | 亚洲精品日本国产第一区| 制服丝袜香蕉在线| 午夜福利影视在线免费观看| 成人亚洲精品一区在线观看| 综合色丁香网| 精品人妻在线不人妻| 亚洲av.av天堂| 欧美成人午夜免费资源| 国产 一区精品| 一边摸一边做爽爽视频免费| 纵有疾风起免费观看全集完整版| 2021少妇久久久久久久久久久| 久久国产精品大桥未久av| 亚洲成人手机| 看十八女毛片水多多多| 亚洲精品av麻豆狂野| 高清视频免费观看一区二区| 久久午夜综合久久蜜桃| 夜夜爽夜夜爽视频| 亚洲综合色惰| 久热久热在线精品观看| 午夜日本视频在线| 熟女人妻精品中文字幕| 亚洲精品乱码久久久久久按摩| 国产精品一区www在线观看| 国产69精品久久久久777片| 亚洲天堂av无毛| 熟妇人妻不卡中文字幕| 亚洲伊人久久精品综合| 亚洲欧美色中文字幕在线| 在线观看三级黄色| 国产又爽黄色视频| 亚洲美女视频黄频| 十八禁高潮呻吟视频| 欧美日韩精品成人综合77777| 免费看av在线观看网站| 日韩人妻精品一区2区三区| 午夜老司机福利剧场| 久久国产精品大桥未久av| 大片免费播放器 马上看| 午夜福利,免费看| 国产精品三级大全| 亚洲第一av免费看| 精品一区二区免费观看| 亚洲美女搞黄在线观看| 一区二区av电影网| 亚洲国产精品国产精品| 亚洲国产av新网站| 国产一区有黄有色的免费视频| 2018国产大陆天天弄谢| 国产成人午夜福利电影在线观看| 国产精品女同一区二区软件| 国产一区二区激情短视频 | 香蕉国产在线看| 超碰97精品在线观看| 久久久久久久久久久久大奶| 中文乱码字字幕精品一区二区三区| 你懂的网址亚洲精品在线观看| 亚洲成人手机| 成年人免费黄色播放视频| av在线播放精品| 性高湖久久久久久久久免费观看| av卡一久久| 制服丝袜香蕉在线| 免费黄色在线免费观看| 黄片无遮挡物在线观看| 久久久久久人妻| 国产精品国产三级国产av玫瑰| 在线观看免费视频网站a站| 国产精品欧美亚洲77777| 欧美人与善性xxx| 大片免费播放器 马上看| 伊人亚洲综合成人网| 国产乱人偷精品视频| 亚洲国产精品一区三区| 亚洲av日韩在线播放| 在线 av 中文字幕| 免费高清在线观看视频在线观看| 晚上一个人看的免费电影| 人人妻人人澡人人看| 精品亚洲成国产av| 欧美国产精品一级二级三级| 国产伦理片在线播放av一区| 国产欧美另类精品又又久久亚洲欧美| av在线老鸭窝| 在线观看三级黄色| 考比视频在线观看| 久久精品久久精品一区二区三区| 国产精品.久久久| av国产久精品久网站免费入址| 精品国产露脸久久av麻豆| 在线 av 中文字幕| 午夜日本视频在线| 亚洲成人一二三区av| 精品一区二区三区四区五区乱码 | 内地一区二区视频在线| 精品午夜福利在线看| 尾随美女入室| videossex国产| 美女大奶头黄色视频|