• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于實(shí)體級(jí)遮蔽BERT與BiLSTM-CRF的農(nóng)業(yè)命名實(shí)體識(shí)別

    2022-11-13 07:57:04韋紫君胡小春陳寧江
    關(guān)鍵詞:字符命名實(shí)體

    韋紫君,宋 玲,胡小春,陳寧江,3

    基于實(shí)體級(jí)遮蔽BERT與BiLSTM-CRF的農(nóng)業(yè)命名實(shí)體識(shí)別

    韋紫君1,宋 玲2,3※,胡小春4,陳寧江1,3

    (1. 廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院,南寧 530004;2.南寧學(xué)院信息工程學(xué)院,南寧 530200;3. 廣西多媒體通信與網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室,南寧 530004;4.廣西財(cái)經(jīng)學(xué)院信息與統(tǒng)計(jì)學(xué)院,南寧 530007)

    字符的位置信息和語(yǔ)義信息對(duì)命名方式繁雜且名稱長(zhǎng)度較長(zhǎng)的中文農(nóng)業(yè)實(shí)體的識(shí)別至關(guān)重要。為解決命名實(shí)體識(shí)別過程中由于捕獲字符位置信息、上下文語(yǔ)義特征和長(zhǎng)距離依賴信息不充足導(dǎo)致識(shí)別效果不理想的問題,該研究提出一種基于EmBERT-BiLSTM-CRF模型的中文農(nóng)業(yè)命名實(shí)體識(shí)別方法。該方法采用基于Transformer的深度雙向預(yù)訓(xùn)練語(yǔ)言模型(Bidirectional Encoder Representation from Transformers,BERT)作為嵌入層提取字向量的深度雙向表示,并使用實(shí)體級(jí)遮蔽策略使模型更好地表征中文語(yǔ)義;然后使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM)學(xué)習(xí)文本的長(zhǎng)序列語(yǔ)義特征;最后使用條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)在訓(xùn)練數(shù)據(jù)中學(xué)習(xí)標(biāo)注約束規(guī)則,并利用相鄰標(biāo)簽之間的信息輸出全局最優(yōu)的標(biāo)注序列。訓(xùn)練過程中使用了焦點(diǎn)損失函數(shù)來緩解樣本分布不均衡的問題。試驗(yàn)在構(gòu)建的語(yǔ)料庫(kù)上對(duì)農(nóng)作物品種、病害、蟲害和農(nóng)藥4類農(nóng)業(yè)實(shí)體進(jìn)行識(shí)別。結(jié)果表明,該研究的EmBERT-BiLSTM-CRF模型對(duì)4類農(nóng)業(yè)實(shí)體的識(shí)別性能相較于其他模型有明顯提升,準(zhǔn)確率為94.97%,1值為95.93%。

    農(nóng)業(yè);命名實(shí)體識(shí)別;實(shí)體級(jí)遮蔽;BERT;BiLSTM;CRF

    0 引 言

    隨著信息化技術(shù)的快速發(fā)展,農(nóng)戶通過線上智能問答解決線下農(nóng)業(yè)問題已成為趨勢(shì)。面對(duì)龐大的問答數(shù)據(jù),如何對(duì)數(shù)據(jù)進(jìn)行分類、關(guān)鍵詞定位、深層語(yǔ)義關(guān)系挖掘是實(shí)現(xiàn)智能問答的關(guān)鍵,同時(shí)也是自然語(yǔ)言處理(Natural Language Processing,NLP)和農(nóng)業(yè)大數(shù)據(jù)智能研究領(lǐng)域的熱點(diǎn)研究方向[1]。命名實(shí)體識(shí)別[2](Named Entity Recognition,NER)是自然語(yǔ)言處理、智能問答[3]和知識(shí)圖譜構(gòu)建[4]等領(lǐng)域的關(guān)鍵技術(shù),其主要任務(wù)是從非結(jié)構(gòu)化文本中識(shí)別出有意義的名詞或短語(yǔ)并加以歸類,而農(nóng)業(yè)命名實(shí)體識(shí)別任務(wù)則是識(shí)別出農(nóng)業(yè)文本中的相關(guān)實(shí)體,如農(nóng)作物品種、病害、蟲害和農(nóng)藥名稱等。當(dāng)前中文農(nóng)業(yè)命名實(shí)體識(shí)別存在以下兩方面的問題:一是農(nóng)業(yè)知識(shí)數(shù)據(jù)尤其是標(biāo)記好的數(shù)據(jù)集難以獲得,導(dǎo)致模型性能和準(zhǔn)確率達(dá)不到預(yù)期效果;二是農(nóng)業(yè)實(shí)體命名方式繁雜多變且名稱長(zhǎng)度較長(zhǎng),并缺乏標(biāo)準(zhǔn)的數(shù)據(jù)集和構(gòu)詞規(guī)范,難以對(duì)農(nóng)業(yè)語(yǔ)料進(jìn)行分詞、分類、語(yǔ)義挖掘等操作。

    早期的命名實(shí)體識(shí)別研究大多是基于規(guī)則的方法[5-6],先根據(jù)特定領(lǐng)域知識(shí)手工設(shè)計(jì)規(guī)則并做成詞典,然后通過模式匹配等方式來實(shí)現(xiàn)命名實(shí)體識(shí)別。此類方法高度依賴人工設(shè)計(jì)規(guī)則,對(duì)語(yǔ)料庫(kù)與標(biāo)準(zhǔn)構(gòu)詞規(guī)范的依賴性很高,難以準(zhǔn)確識(shí)別構(gòu)詞復(fù)雜的命名實(shí)體。隨著機(jī)器學(xué)習(xí)的應(yīng)用,開始將命名實(shí)體識(shí)別任務(wù)建模為多分類任務(wù)或序列標(biāo)注任務(wù),訓(xùn)練模型從標(biāo)記好的數(shù)據(jù)中學(xué)習(xí)實(shí)體的命名模式,再對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行命名實(shí)體預(yù)測(cè)。文獻(xiàn) [7]提出基于條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)的農(nóng)作物病蟲害及農(nóng)藥命名實(shí)體識(shí)別方法,利用標(biāo)注后的數(shù)據(jù)訓(xùn)練CRF模型并對(duì)語(yǔ)料進(jìn)行分類。文獻(xiàn)[8]使用BIO(Begin, Inside, Outside)和BMES(Begin, Middle, End, Single)2種標(biāo)注方式,根據(jù)不同分類進(jìn)行特征選取,再基于CRF模型對(duì)農(nóng)業(yè)命名實(shí)體進(jìn)行識(shí)別。上述方法通常需要大規(guī)模的標(biāo)注語(yǔ)料,而中文農(nóng)業(yè)命名實(shí)體識(shí)別任務(wù)的標(biāo)準(zhǔn)語(yǔ)料庫(kù)難以獲得,增加了農(nóng)業(yè)實(shí)體的識(shí)別難度,影響識(shí)別效果。

    利用深度神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)深層語(yǔ)義特征,為命名實(shí)體識(shí)別任務(wù)提供了更多可借鑒的方法[9]。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,Recurrent Neural Network)+CRF和卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Network)+RNN+CRF 2種網(wǎng)絡(luò)結(jié)構(gòu)開始被廣泛應(yīng)用于命名實(shí)體識(shí)別任務(wù)。RNN+CRF結(jié)構(gòu)[10-11],將帶有語(yǔ)義信息的字符嵌入輸入到RNN(如雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM)、雙向門控神經(jīng)網(wǎng)絡(luò))中,進(jìn)一步學(xué)習(xí)文本的長(zhǎng)序列語(yǔ)義特征;再使用CRF輸出全局最優(yōu)的標(biāo)注序列。文獻(xiàn)[12]利用連續(xù)詞袋模型預(yù)訓(xùn)練字向量,并引入文檔級(jí)注意力機(jī)制獲取實(shí)體間的相似信息,基于BiLSTM-CRF模型構(gòu)建農(nóng)業(yè)命名實(shí)體識(shí)別框架,解決農(nóng)業(yè)中分詞不準(zhǔn)確和實(shí)體標(biāo)注不一致的問題。文獻(xiàn)[13]針對(duì)漁業(yè)領(lǐng)域命名實(shí)體長(zhǎng)度較長(zhǎng)的特點(diǎn),使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM,Long Short-Term Memory)學(xué)習(xí)長(zhǎng)距離依賴信息,并將標(biāo)記信息融入CRF模型,構(gòu)建Character+LSTM+CRF漁業(yè)實(shí)體識(shí)別模型,解決漁業(yè)實(shí)體較長(zhǎng)造成識(shí)別效果較差的問題。CNN+RNN+CRF結(jié)構(gòu)[14-15],通常是在RNN+CRF結(jié)構(gòu)的基礎(chǔ)上,先利用CNN提取具有漢字偏旁部首特征信息的部首嵌入,再將部首嵌入與帶有語(yǔ)義信息的字符嵌入相結(jié)合作為最終的輸入,同時(shí)考慮中文字符的部首信息和語(yǔ)義信息。文獻(xiàn)[16]采用基于部首嵌入和注意力機(jī)制的農(nóng)業(yè)病蟲害命名實(shí)體識(shí)別模型,將部首嵌入與字符嵌入結(jié)合作為輸入,采用不同尺寸窗口的卷積神經(jīng)網(wǎng)絡(luò)提取不同尺度的局部上下文信息,基于BiLSTM-CRF框架對(duì)農(nóng)業(yè)病蟲害實(shí)體進(jìn)行識(shí)別,緩解了農(nóng)業(yè)中內(nèi)在語(yǔ)義信息缺失的問題。上述方法均使用Word2Vec[17-18]模型作為嵌入層,而Word2Vec輸出的是上下文無關(guān)的淺層特征向量,因此無法表征一詞多義。中文里不少詞匯都具有一詞多義,并且中文農(nóng)業(yè)命名實(shí)體具有構(gòu)詞復(fù)雜和實(shí)體長(zhǎng)度較長(zhǎng)的特點(diǎn),因此字符的位置和上下文依賴信息至關(guān)重要,而上述方法無法充分考慮以上2種信息,就會(huì)影響識(shí)別效果。預(yù)訓(xùn)練語(yǔ)言模型(BERT[19]、ERNIE[20]等),通過預(yù)訓(xùn)練字向量的深度雙向表示,進(jìn)一步提高了命名實(shí)體識(shí)別的性能。文獻(xiàn)[21]基于外部詞典和BERT模型,利用特征向量拼接的方式融合字級(jí)特征和詞典特征對(duì)農(nóng)業(yè)領(lǐng)域的5類實(shí)體進(jìn)行識(shí)別,提高了農(nóng)業(yè)命名實(shí)體識(shí)別的性能。該方法利用外部詞典來輔助提取詞級(jí)特征,但基于詞典提取的詞級(jí)特征向量是固定的,即對(duì)于具有一詞多義的詞匯來說其不同語(yǔ)義得到的是相同的特征表示,因此并不能很好的區(qū)分其間的語(yǔ)義差異。并且基于詞典的方法具有一定的局限性,不能很好地處理輸入句子中出現(xiàn)詞典中不存在的詞。文獻(xiàn)[22]采用基于BERT+BiLSTM+Attention模型,利用BERT預(yù)訓(xùn)練字向量,再融合BiLSTM與注意力機(jī)制去重點(diǎn)關(guān)注文本中的主要特征,解決中醫(yī)病歷文本有效信息識(shí)別和抽取困難的問題。文獻(xiàn)[23]采用融合注意力機(jī)制與BERT+BiLSTM+CRF模型,利用BERT提高模型語(yǔ)義表征能力和使用注意力機(jī)制計(jì)算序列詞間相關(guān)性,解決漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別準(zhǔn)確率不高的問題。上述方法針對(duì)特定領(lǐng)域和具有明顯實(shí)體特征的命名實(shí)體識(shí)別效果較好,但不同領(lǐng)域的實(shí)體特征間存在差異,并且在農(nóng)業(yè)中存在具有邊界模糊特點(diǎn)的命名實(shí)體,因此無法將以上方法直接應(yīng)用于農(nóng)業(yè)領(lǐng)域。

    基于以上農(nóng)業(yè)命名實(shí)體識(shí)別任務(wù)中缺少標(biāo)準(zhǔn)語(yǔ)料庫(kù)、模型無法充分表征中文語(yǔ)義和名稱長(zhǎng)度較長(zhǎng)的實(shí)體識(shí)別準(zhǔn)確率低的問題,本文做了以下工作:1)基于權(quán)威農(nóng)業(yè)信息網(wǎng)站的相關(guān)信息,構(gòu)建一個(gè)中文農(nóng)業(yè)命名實(shí)體識(shí)別語(yǔ)料庫(kù);2)使用預(yù)訓(xùn)練語(yǔ)言模型BERT作為嵌入層,從無標(biāo)簽的文本中預(yù)訓(xùn)練出字向量的深度雙向表示,并根據(jù)中文的特點(diǎn)改進(jìn)原有的語(yǔ)言遮蔽方法,使用實(shí)體級(jí)遮蔽策略讓模型對(duì)文本中的完整實(shí)體進(jìn)行遮蔽和預(yù)測(cè),使模型更好地表征中文的語(yǔ)義;3)使用焦點(diǎn)損失函數(shù)緩解樣本分布不均衡問題,提高模型對(duì)難識(shí)別樣本的識(shí)別能力;4)使用BiLSTM-CRF模型作為下游任務(wù)模型,將BERT中獲取的字向量深度雙向表示序列輸入到雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)中做進(jìn)一步的語(yǔ)義編碼,學(xué)習(xí)文本的長(zhǎng)序列語(yǔ)義特征;最后通過CRF層輸出概率最大的標(biāo)注序列,實(shí)現(xiàn)農(nóng)業(yè)命名實(shí)體的準(zhǔn)確識(shí)別。并通過對(duì)比試驗(yàn),驗(yàn)證本文方法對(duì)中文農(nóng)業(yè)命名實(shí)體的有效識(shí)別。

    1 數(shù)據(jù)集構(gòu)建

    1.1 數(shù)據(jù)獲取

    本文語(yǔ)料是在各大權(quán)威農(nóng)業(yè)信息網(wǎng)站(如中國(guó)作物種質(zhì)信息網(wǎng)、中國(guó)農(nóng)業(yè)信息網(wǎng)、中國(guó)農(nóng)業(yè)知識(shí)網(wǎng)等)爬取的包含農(nóng)作物病蟲害、農(nóng)作物品種和農(nóng)藥品種相關(guān)的文本。原始數(shù)據(jù)中包含大量非結(jié)構(gòu)化數(shù)據(jù),因此在數(shù)據(jù)標(biāo)注前對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,包括非文本數(shù)據(jù)、鏈接及特殊字符刪除和去停用詞等操作,從而得到一個(gè)規(guī)范的語(yǔ)料庫(kù)。該語(yǔ)料庫(kù)包含37 243個(gè)農(nóng)業(yè)領(lǐng)域的中文句子,29 790個(gè)農(nóng)業(yè)類實(shí)體,共約180萬個(gè)中文字符。其中訓(xùn)練集、驗(yàn)證集和測(cè)試集按7:2:1的比例進(jìn)行分配。語(yǔ)料庫(kù)信息如表1所示。

    表1 語(yǔ)料庫(kù)信息

    1.2 標(biāo)注體系

    本文采用BIO體系對(duì)語(yǔ)料進(jìn)行標(biāo)注,共設(shè)計(jì)9個(gè)標(biāo)簽,分別是“B-CROP”、“I-CROP”、“B-DIS”、“I-DIS”、“B-PEST”、“I-PEST”、“B-PC”、“I-PC”、“O”。其中“B”表示實(shí)體名稱的開始,“I”表示實(shí)體名稱的內(nèi)部,“O”表示非實(shí)體部分。實(shí)體類型表示如下:“CROP”表示農(nóng)作物品種,“DIS”表示農(nóng)作物病害,“PEST”表示農(nóng)作物蟲害,“PC”表示農(nóng)藥品種。語(yǔ)料標(biāo)注示例如圖1所示。標(biāo)注后的數(shù)據(jù)集有29 790個(gè)命名實(shí)體,其中農(nóng)作物實(shí)體11 057個(gè),農(nóng)藥實(shí)體8 121個(gè),病害實(shí)體4 505個(gè),蟲害實(shí)體6 107個(gè)。

    圖1 語(yǔ)料標(biāo)注示例

    2 農(nóng)業(yè)命名實(shí)體識(shí)別方法的設(shè)計(jì)

    2.1 方法流程及模型架構(gòu)

    農(nóng)業(yè)命名實(shí)體識(shí)別方法流程如圖2所示,該方法主要分為中文農(nóng)業(yè)命名實(shí)體識(shí)別語(yǔ)料庫(kù)構(gòu)建、預(yù)訓(xùn)練和下游NER模型訓(xùn)練3個(gè)部分。該方法在預(yù)訓(xùn)練中根據(jù)中文語(yǔ)義的特點(diǎn)改進(jìn)了語(yǔ)言遮蔽方法,使用實(shí)體級(jí)遮蔽策略代替單個(gè)字符遮蔽策略,使訓(xùn)練得到的模型能夠更好地表征中文語(yǔ)義。

    圖2 農(nóng)業(yè)命名實(shí)體識(shí)別方法流程

    使用EmBERT-BiLSTM-CRF模型實(shí)現(xiàn)中文農(nóng)業(yè)命名實(shí)體識(shí)別任務(wù),模型由輸入層、BERT層、BiLSTM層和CRF層4部分組成。其中BERT層用于生成字向量的深度雙向表示;BiLSTM層用于挖掘文本的長(zhǎng)序列語(yǔ)義信息,使模型充分考慮上下文語(yǔ)境;CRF層用于學(xué)習(xí)標(biāo)注約束規(guī)則,并對(duì)BiLSTM的輸出進(jìn)行標(biāo)注合法性檢驗(yàn),最終輸出全局最優(yōu)的標(biāo)注序列,模型輸出的不是獨(dú)立的標(biāo)簽序列,而是考慮規(guī)則和順序的最佳序列。模型結(jié)構(gòu)如圖3所示。

    2.2 BERT層和實(shí)體級(jí)遮蔽策略

    BERT[19]是基于Transformer[24]的深度雙向預(yù)訓(xùn)練語(yǔ)言模型,能夠通過對(duì)所有層的上下文進(jìn)行聯(lián)合調(diào)節(jié),從無標(biāo)簽文本中預(yù)訓(xùn)練出特征的深度雙向表示,使特征向量可充分表征上下文語(yǔ)義信息,可有效解決傳統(tǒng)Word2Vec模型無法解決的一詞多義問題。多數(shù)中文農(nóng)業(yè)實(shí)體的命名方式繁雜多變且名稱長(zhǎng)度較長(zhǎng),其識(shí)別過程中,每個(gè)字符的位置和語(yǔ)義信息是關(guān)鍵。BERT模型的輸入表示由字符的位置嵌入、段嵌入與token嵌入3種特征嵌入表示求和來構(gòu)建的,充分考慮了字符的位置信息。預(yù)訓(xùn)練期間使用遮蔽語(yǔ)言模型,使訓(xùn)練得到的特征向量攜帶上下文語(yǔ)義信息,因此本文使用BERT作為模型的嵌入層。

    圖3 EmBERT-BiLSTM-CRF模型結(jié)構(gòu)

    為訓(xùn)練出深度雙向表示,采用對(duì)輸入文本進(jìn)行隨機(jī)遮蔽的方式,讓模型預(yù)測(cè)那些被遮蔽的字符。BERT原有的遮蔽方法是使用單個(gè)[MASK]標(biāo)志對(duì)文本中的單個(gè)字符進(jìn)行遮蔽,但中文的一個(gè)實(shí)體往往是由多個(gè)中文字符組成的,如果依然使用原有的遮蔽方法則無法將整個(gè)實(shí)體完整遮蔽,導(dǎo)致模型在預(yù)測(cè)被遮蔽詞時(shí)會(huì)產(chǎn)生偏差,從而無法準(zhǔn)確預(yù)測(cè)。因此本文將改進(jìn)BERT原有的語(yǔ)言遮蔽方法,使用實(shí)體級(jí)遮蔽策略(Entity-level Masking,EM)對(duì)中文文本進(jìn)行遮蔽。EM首先對(duì)文本進(jìn)行中文分詞和利用實(shí)體詞典進(jìn)行實(shí)體分析,然后使用多個(gè)連續(xù)的[MASK]標(biāo)志對(duì)整個(gè)中文實(shí)體進(jìn)行遮蔽,再讓模型預(yù)測(cè)完整實(shí)體中被[MASK]標(biāo)志替換的所有字符,獲得實(shí)體級(jí)的特征信息,從而緩解在進(jìn)行中文預(yù)測(cè)時(shí)因語(yǔ)義不完整造成的偏差。在訓(xùn)練過程中,模型對(duì)全文中的實(shí)體進(jìn)行隨機(jī)遮蔽,組成所有被遮蔽實(shí)體的中文字符共占全文總字符的15%。被選中遮蔽的實(shí)體中,80%被連續(xù)的[MASK]標(biāo)志替換,10%被語(yǔ)料庫(kù)中任意的實(shí)體替換,10%保持不變。EM方法如圖4所示,示例如表2所示。

    注:x1~ xn表示輸入序列中的字符。[MASK]表示當(dāng)前字符被遮蔽。

    表2 實(shí)體級(jí)遮蔽示例

    由于使用了遮蔽策略,訓(xùn)練過程中Transformer編碼器并不知道將預(yù)測(cè)哪些字符或哪些字符已經(jīng)被替換,所以保留了所有字符的上下文分布表示,使每一個(gè)字符最終攜帶其上下文語(yǔ)義信息。并且實(shí)體級(jí)遮蔽策略能讓模型學(xué)習(xí)到實(shí)體級(jí)的特征信息,對(duì)于不同語(yǔ)義的同一實(shí)體或一個(gè)句子中不同位置的同一實(shí)體都能產(chǎn)生不同的特征向量,從而有效緩解中文中一詞多義的問題。

    2.3 BiLSTM層

    農(nóng)業(yè)領(lǐng)域的實(shí)體命名中有不少病害和蟲害實(shí)體長(zhǎng)度為8個(gè)或以上中文字符,例如“水稻東格魯病毒病”、“水稻菲島毛眼水蠅”、“水稻顯紋縱卷葉螟”等;農(nóng)藥實(shí)體長(zhǎng)度為7個(gè)或以上中文字符,例如“丁硫克百威乳油”、“吡蟲啉可濕性粉劑”等。農(nóng)業(yè)命名實(shí)體具有較大的上下文長(zhǎng)距離依賴性,因此利用BiLSTM網(wǎng)絡(luò)學(xué)習(xí)文本的長(zhǎng)序列語(yǔ)義特征。

    LSTM[27]只能捕獲當(dāng)前時(shí)刻狀態(tài)之前的信息,無法捕獲之后的信息,因此無法同時(shí)考慮文本的上下文語(yǔ)境。雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)[28-29]由前向LSTM和后向LSTM構(gòu)成,前向LSTM利用上文的信息來預(yù)測(cè)當(dāng)前詞,后向LSTM利用下文的信息來預(yù)測(cè)當(dāng)前詞,因此可同時(shí)利用文本上下文信息,學(xué)習(xí)文本的長(zhǎng)序列語(yǔ)義特征,提高模型的識(shí)別能力。

    2.4 焦點(diǎn)損失函數(shù)

    構(gòu)建語(yǔ)料庫(kù)時(shí),數(shù)據(jù)為基于爬蟲技術(shù)從網(wǎng)絡(luò)中爬取的各種文本信息,數(shù)據(jù)存在一定的隨機(jī)性,導(dǎo)致語(yǔ)料庫(kù)通常存在樣本分布不均衡的問題。例如語(yǔ)料庫(kù)中某一種標(biāo)簽的樣本數(shù)量遠(yuǎn)多于其他標(biāo)簽的樣本數(shù)量,導(dǎo)致訓(xùn)練過程中損失函數(shù)的分布失衡,使模型在訓(xùn)練過程中傾向于樣本數(shù)量多的標(biāo)簽,造成樣本數(shù)量少的標(biāo)簽的識(shí)別性能較差。

    為了緩解樣本分布不均衡帶來的問題,本文利用焦點(diǎn)損失函數(shù)[30](Focal Loss,F(xiàn)L)在訓(xùn)練過程中平衡樣本的權(quán)重,通過減少易識(shí)別樣本在損失函數(shù)中的權(quán)重,讓模型更關(guān)注于難識(shí)別樣本。FL在交叉熵?fù)p失函數(shù)的基礎(chǔ)上加入權(quán)重參數(shù)和調(diào)制因子來平衡樣本分布,算法見公式(7)。

    2.5 CRF層

    BiLSTM的輸出相互獨(dú)立,無法考慮相鄰標(biāo)簽之間的信息,直接使用BiLSTM的輸出結(jié)果預(yù)測(cè)標(biāo)簽容易出現(xiàn)非法標(biāo)注的問題,如表3所示。因此,本文在BiLSTM層之上加入CRF層來緩解標(biāo)注偏置問題,從而提高序列標(biāo)注的準(zhǔn)確性。利用條件隨機(jī)場(chǎng)[31](CRF)在訓(xùn)練數(shù)據(jù)中自動(dòng)學(xué)習(xí)標(biāo)注的約束規(guī)則,例如標(biāo)注序列只能以“B-”或“O”開頭,不能以“I-”開頭;實(shí)體標(biāo)注序列只能以“B-”開頭,不能以“O”或“I-”開頭;標(biāo)注序列“B-label1 I-label2 I-label3...”中的labe1、label2、label3...應(yīng)該為同一種標(biāo)簽等,CRF將學(xué)習(xí)到的約束規(guī)則在預(yù)測(cè)時(shí)用于檢測(cè)標(biāo)注序列是否合法。

    表3 非法標(biāo)注序列示例

    序列標(biāo)注中,CRF不僅考慮當(dāng)前時(shí)刻的觀察狀態(tài),也考慮之前時(shí)刻的隱藏狀態(tài),因此能夠充分利用相鄰標(biāo)簽之間的信息,使最終的輸出不是獨(dú)立的標(biāo)簽序列,而是考慮規(guī)則和順序的最佳序列。設(shè)={1,2,3,…,x}為輸入的觀察序列,={1,2,3,…,y}為對(duì)應(yīng)的輸出標(biāo)注序列,CRF層在給定需要標(biāo)注的觀察序列的條件下,計(jì)算整個(gè)序列的聯(lián)合概率分布,最終輸出一個(gè)全局最優(yōu)的標(biāo)注序列,算法見公式(8)。

    3 試驗(yàn)與結(jié)果分析

    試驗(yàn)數(shù)據(jù)集采用第1小節(jié)構(gòu)建的農(nóng)業(yè)命名實(shí)體識(shí)別語(yǔ)料庫(kù),其中訓(xùn)練集、驗(yàn)證集和測(cè)試集的比例為7:2:1。采用實(shí)體級(jí)遮蔽策略的BERT模型(EmBERT),網(wǎng)絡(luò)層數(shù)為12層,隱藏層維度為768,多頭注意力機(jī)制中自注意力(Self Attention)頭的數(shù)量為12。下游模型中使用的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)的隱藏層維度(lstm_dim)為128。為預(yù)防過擬合同時(shí)提高模型的泛化能力,在模型中引入了Dropout[32]機(jī)制。

    3.1 試驗(yàn)設(shè)置

    試驗(yàn)過程中需要優(yōu)化調(diào)整的參數(shù)主要有學(xué)習(xí)率(learning_rate)、失活率(dropout_rate)、批處理規(guī)模(batch_size)和迭代次數(shù)(epochs)。學(xué)習(xí)率過大容易導(dǎo)致模型的損失增大、準(zhǔn)確率降低;學(xué)習(xí)率過小則容易導(dǎo)致模型的收斂速度下降,因此合適的學(xué)習(xí)率是模型整體獲得良好性能的保證。失活率是模型訓(xùn)練時(shí)神經(jīng)元不更新權(quán)重的概率,用于防止模型過擬合,通常失活率設(shè)置為0.5。批處理規(guī)模即每批次訓(xùn)練的樣本數(shù)量,其在一定程度上影響模型的數(shù)據(jù)處理速度和收斂精度;batch_size過大模型容易收斂到一些較差的局部最優(yōu)點(diǎn)上,batch_size過小則容易導(dǎo)致模型不收斂或需要很大的epochs才能收斂。epochs為模型進(jìn)行全數(shù)據(jù)訓(xùn)練的次數(shù)(如1個(gè)epoch表示模型完整訓(xùn)練一次),通常需要多個(gè)epochs來保證模型獲得最好的學(xué)習(xí)效果。經(jīng)過多次對(duì)比試驗(yàn)得到的最優(yōu)參數(shù)設(shè)置如下,使用Adam[33]優(yōu)化器,learning_rate為7e-5,dropout_rate為0.5,batch_size為32,epochs為150。

    3.2 評(píng)價(jià)指標(biāo)

    試驗(yàn)采用召回率、準(zhǔn)確率和1值來衡量模型的性能,評(píng)價(jià)指標(biāo)計(jì)算公式如下:

    式中TruePositive為準(zhǔn)確識(shí)別的農(nóng)業(yè)實(shí)體個(gè)數(shù),ActualPositive為數(shù)據(jù)集中存在的農(nóng)業(yè)實(shí)體總數(shù),PredictPositive為識(shí)別出的農(nóng)業(yè)實(shí)體總數(shù)。

    3.3 結(jié)果與分析

    面向農(nóng)業(yè)領(lǐng)域4類實(shí)體(農(nóng)作物、農(nóng)藥、病害、蟲害),利用構(gòu)建的農(nóng)業(yè)命名實(shí)體識(shí)別語(yǔ)料庫(kù),設(shè)置3組對(duì)比試驗(yàn)驗(yàn)證分析本文提出的農(nóng)業(yè)命名實(shí)體識(shí)別方法的有效性。

    1)不同遮蔽策略性能的比較分析

    為驗(yàn)證實(shí)體級(jí)遮蔽策略對(duì)提高中文農(nóng)業(yè)命名實(shí)體推理和識(shí)別能力的有效性,分別對(duì)不使用遮蔽策略(No Masking)的模型Word2Vec+BiLSTM+CRF、使用字符級(jí)遮蔽策略(Word-level Masking(Chinese character))的模型Word-level Masking BERT+BiLSTM+CRF和使用實(shí)體級(jí)遮蔽策略(Entity-level Masking)的模型Entity-level masking BERT+BiLSTM+CRF進(jìn)行對(duì)比試驗(yàn),試驗(yàn)結(jié)果如表4所示。

    表4 不同遮蔽策略試驗(yàn)結(jié)果

    由表4可看出,使用實(shí)體級(jí)遮蔽策略的模型性能最好,準(zhǔn)確率達(dá)到了94.56%。此外,使用實(shí)體級(jí)遮蔽策略相較于使用字符級(jí)遮蔽策略,模型的準(zhǔn)確率、召回率和1值分別提高了2.59、1.7和2.15個(gè)百分點(diǎn);相較于不使用遮蔽策略,模型的準(zhǔn)確率、召回率和F1值分別提高了5.79、2.08和4個(gè)百分點(diǎn)。不使用遮蔽策略時(shí),模型輸出的字向量不包含上下文語(yǔ)義信息,難以解決一詞多義的問題,因此模型識(shí)別性能相對(duì)較弱,準(zhǔn)確率僅為88.77%。使用字符級(jí)遮蔽策略,通過對(duì)文本中的字符進(jìn)行隨機(jī)遮蔽,再讓模型預(yù)測(cè)被遮蔽的字符,使編碼器保留了每個(gè)字符的上下文分布表示,通過利用上下文信息在一定程度上解決了一詞多義的問題,因此模型識(shí)別性能有較好的提升,準(zhǔn)確率為91.97%。與字符級(jí)遮蔽策略相比,實(shí)體遮蔽策略是對(duì)文本中的完整實(shí)體進(jìn)行隨機(jī)遮蔽,再讓模型預(yù)測(cè)被遮蔽實(shí)體中所有被[MASK]標(biāo)志替換的中文字符,使模型可以學(xué)習(xí)到完整的實(shí)體級(jí)語(yǔ)義信息,提高對(duì)中文語(yǔ)義的推理和表征能力,因此模型的性能得到了進(jìn)一步的提升,準(zhǔn)確率為94.56%。

    2)不同損失函數(shù)性能的比較分析

    為驗(yàn)證焦點(diǎn)損失函數(shù)對(duì)提高中文農(nóng)業(yè)命名實(shí)體識(shí)別能力的有效性,分別利用不同損失函數(shù)在EmBERT-BiLSTM-CRF模型上進(jìn)行消融試驗(yàn),試驗(yàn)結(jié)果如表5所示。

    表5 不同損失函數(shù)試驗(yàn)結(jié)果

    注:CE為交叉熵?fù)p失,CRF為條件隨機(jī)場(chǎng)損失,F(xiàn)L為焦點(diǎn)損失。“√”表示模型中用到的損失函數(shù)。

    Note: CE is the cross entropy loss, CRF is the conditional random field loss, FL is the focal loss. “√” indicates that the loss function is used in the model.

    由試驗(yàn)結(jié)果可看出,使用CRF損失+FL的模型識(shí)別性能最好,1值為95.93%。其中,使用交叉熵?fù)p失(Cross Entropy,CE)的模型在樣本分布不均衡時(shí),損失函數(shù)的分布發(fā)生傾斜,使模型在訓(xùn)練過程中傾向于樣本數(shù)量多的標(biāo)簽,導(dǎo)致樣本數(shù)量少的標(biāo)簽的識(shí)別效果較差,模型的整體識(shí)別性能較差,1值為91.20%。使用焦點(diǎn)損失(FL)的模型,在CE的基礎(chǔ)上加入權(quán)重參數(shù)和調(diào)制因子來在增大數(shù)量少的標(biāo)簽樣本在損失函數(shù)中的權(quán)重,讓模型在訓(xùn)練過程中傾向于難識(shí)別樣本,提高了模型對(duì)難識(shí)別樣本的識(shí)別能力,緩解了樣本分布不均衡導(dǎo)致數(shù)量少的標(biāo)簽樣本識(shí)別效果較差的問題,因此相較于CE其識(shí)別性能有所提升,模型1值為91.89%。使用CRF損失的模型,通過計(jì)算標(biāo)簽間的轉(zhuǎn)移分?jǐn)?shù)來建模標(biāo)簽轉(zhuǎn)移路徑,然后訓(xùn)練模型最大化真實(shí)路徑的概率,讓模型利用相鄰標(biāo)簽的信息來輸出最優(yōu)的標(biāo)注序列,因此相較于單獨(dú)使用CE和FL的模型,其識(shí)別性能有較大提升,模型1值達(dá)到95.50%。使用CRF損失+FL的模型涵蓋了CRF損失和FL的優(yōu)點(diǎn),不僅能緩解樣本分布不均衡帶來的問題還能利用相鄰標(biāo)簽之間的信息,因此其識(shí)別性能優(yōu)于上述所有模型,模型1值為95.93%。同時(shí)本文通過對(duì)FL中和的不同取值進(jìn)行對(duì)比試驗(yàn),由試驗(yàn)結(jié)果得出=0.25,=2.0時(shí)模型獲得最優(yōu)性能,試驗(yàn)結(jié)果如表6所示。

    表6 FL不同α和γ的試驗(yàn)結(jié)果

    注:為權(quán)重因子,為聚焦參數(shù)。

    Note:is the weighting factor,is the focusing parameter.

    3)不同模型性能的比較分析

    為驗(yàn)證EmBERT-BiLSTM-CRF模型對(duì)中文農(nóng)業(yè)命名實(shí)體識(shí)別的性能,分別與BiLSTM、LSTM-CRF[13]、BiLSTM-CRF[28]和BERT-BiLSTM-CRF模型進(jìn)行對(duì)比試驗(yàn),試驗(yàn)結(jié)果如表7所示。由試驗(yàn)結(jié)果可看出,本文模型的識(shí)別性能優(yōu)于其他對(duì)比模型。

    表7 不同模型試驗(yàn)結(jié)果

    注:EmBERT-BiLSTM-CRF*為使用了實(shí)體級(jí)遮蔽策略但沒有使用FL的模型。EmBERT-BiLSTM-CRF為使用了實(shí)體級(jí)遮蔽策略和FL的模型。

    Note: EmBERT-BiLSTM-CRF* is a model that uses an entity-level masking strategy but does not use FL. EmBERT-BiLSTM-CRF is a model that uses an entity-level strategy and FL.

    BiLSTM模型的輸出相互獨(dú)立,在進(jìn)行標(biāo)簽預(yù)測(cè)時(shí)會(huì)出現(xiàn)標(biāo)注偏置問題,因此其識(shí)別效果相對(duì)較差,模型1值為89.55%。LSTM-CRF和BiLSTM-CRF模型在LSTM和BiLSTM模型的基礎(chǔ)上增加了CRF層,通過學(xué)習(xí)標(biāo)注約束規(guī)則和利用相鄰標(biāo)簽的信息,獲得一個(gè)全局最優(yōu)的標(biāo)注序列來緩解標(biāo)注偏置問題,與模型①相比,增加了CRF層的模型②③識(shí)別效果有所提升,1值分別為91.04%、91.50%。BERT-BiLSTM-CRF模型在BiLSTM-CRF模型的基礎(chǔ)上引入了BERT預(yù)訓(xùn)練語(yǔ)言模型作為嵌入層,使模型更充分的考慮了字符的位置信息和上下文語(yǔ)義信息,與模型①②③相比其識(shí)別效果有所提升,1值為93.35%。

    EmBERT-BiLSTM-CRF*模型不僅使用了BERT作為嵌入層學(xué)習(xí)字符的深度雙向表示,并且根據(jù)中文語(yǔ)義的特點(diǎn)改進(jìn)了語(yǔ)言遮蔽方法,使用實(shí)體級(jí)遮蔽策略(EM)對(duì)文本中的實(shí)體進(jìn)行完整的遮蔽和預(yù)測(cè),使模型能更好地表征中文語(yǔ)義,其識(shí)別效果相較于模型①②③④有了較大提升,1值為95.50%。EmBERT-BiLSTM-CRF模型在EmBERT-BiLSTM-CRF*的基礎(chǔ)上引入焦點(diǎn)損失函數(shù)來緩解樣本分布不均衡問題,通過增大數(shù)量少的標(biāo)簽樣本在損失函數(shù)中的權(quán)重,讓模型在訓(xùn)練過程中更關(guān)注難識(shí)別樣本,提高模型對(duì)難識(shí)別樣本的識(shí)別能力,模型的識(shí)別效果優(yōu)于上述所有模型,1值為95.93%。試驗(yàn)驗(yàn)證了在中文農(nóng)業(yè)命名實(shí)體識(shí)別的過程中,字符的位置信息和提高模型對(duì)實(shí)體完整語(yǔ)義的推理能力,對(duì)于農(nóng)業(yè)實(shí)體的準(zhǔn)確識(shí)別起到重要作用。

    圖5為不同模型對(duì)于農(nóng)業(yè)領(lǐng)域4類命名實(shí)體識(shí)別的效果。從圖5中可以看到,在所有實(shí)體類別中各個(gè)模型對(duì)農(nóng)作物、農(nóng)藥和蟲害實(shí)體的識(shí)別效果相對(duì)較好,對(duì)病害實(shí)體的識(shí)別效果相對(duì)較差。通過分析得到,蟲害和農(nóng)藥實(shí)體的識(shí)別效果較好是因?yàn)檗r(nóng)藥實(shí)體大多以“劑”、“乳油”等字詞結(jié)尾,蟲害實(shí)體大多以“虱”、“蟲”、“蟬”、“蚜”等字結(jié)尾,這兩類實(shí)體均具有較為明顯的實(shí)體特征,從而使模型對(duì)于這兩類實(shí)體的識(shí)別效果較好。農(nóng)作物實(shí)體的長(zhǎng)度相對(duì)較短,大多為2至3個(gè)中文字符,因此模型對(duì)農(nóng)作物實(shí)體特征的捕獲更完整,對(duì)其識(shí)別效果也相對(duì)較好。病害實(shí)體中存在一些類似于“水稻倒伏”、“小麥混雜退化”、“花生爛種”等實(shí)體特征不太明顯的實(shí)體,并且大多數(shù)病害實(shí)體存在實(shí)體嵌套的現(xiàn)象,例如“玉米圓斑病”、“水稻惡苗病”、“水稻東格魯病毒病”等,這使得模型對(duì)于病害實(shí)體識(shí)別的效果相對(duì)較差。本文的EmBERT-BiLSTM-CRF模型對(duì)病害實(shí)體的識(shí)別準(zhǔn)確率均高于其他幾個(gè)模型,說明使用實(shí)體級(jí)遮蔽策略對(duì)實(shí)體進(jìn)行完整遮蔽和預(yù)測(cè),使模型更充分地捕獲和表征字符的完整語(yǔ)義信息,從而提高農(nóng)業(yè)命名實(shí)體的識(shí)別效果。

    圖5 不同模型對(duì)4類農(nóng)業(yè)命名實(shí)體識(shí)別結(jié)果

    4 結(jié) 論

    本文針對(duì)中文農(nóng)業(yè)命名實(shí)體長(zhǎng)度較長(zhǎng)且命名方式繁雜多變,導(dǎo)致識(shí)別準(zhǔn)確率較低的問題,提出基于EmBERT-BiLSTM-CRF模型的農(nóng)業(yè)命名實(shí)體識(shí)別方法。通過使用BERT(Bidirectional Encoder Representation from Transformers)預(yù)訓(xùn)練語(yǔ)言模型作為嵌入層,充分考慮字符的位置信息和上下文語(yǔ)義信息,并根據(jù)中文語(yǔ)義的特點(diǎn)改進(jìn)了BERT原有的語(yǔ)言遮蔽方法,使用實(shí)體級(jí)遮蔽策略讓模型對(duì)中文實(shí)體進(jìn)行完整遮蔽,學(xué)習(xí)獲得實(shí)體級(jí)的特征信息,從而緩解模型在預(yù)測(cè)時(shí)因語(yǔ)義不完整造成的偏差,增強(qiáng)模型對(duì)中文語(yǔ)義的表征能力。同時(shí)在訓(xùn)練過程中使用焦點(diǎn)損失函數(shù),增大數(shù)量少的標(biāo)簽樣本在損失函數(shù)中的權(quán)重,提高模型對(duì)難識(shí)別樣本的識(shí)別能力。利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)學(xué)習(xí)文本的長(zhǎng)距離依賴信息,再使用條件隨機(jī)場(chǎng)去獲得全局最優(yōu)標(biāo)注序列,使得整個(gè)模型的識(shí)別效果得到了明顯提升。模型的準(zhǔn)確率為94.97%,召回率為96.92%,1值為95.93%。由于農(nóng)業(yè)實(shí)體中存在著實(shí)體嵌套和實(shí)體特征不明顯的問題,因此本文的下一步研究方向?qū)⒅赜趯?duì)實(shí)體特征不明顯、實(shí)體邊界模糊的實(shí)體的識(shí)別方法的研究。

    [1] 金寧,趙春江,吳華瑞,等. 基于BiGRU_M(jìn)ulCNN的農(nóng)業(yè)問答問句分類技術(shù)研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(5):199-206.

    Jin Ning, Zhao Chunjiang, Wu Huarui, et al. Classification technology of agricultural questions based on BiGRU_MulCNN[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(5): 199-206. (in Chinese with English abstract)

    [2] Li J, Sun A, Han J, et al. A survey on deep learning for named entity recognition[J]. IEEE Transactions on Knowledge and Data Engineering, 2020, 34(1): 50-70.

    [3] Mollá D, van Zaanen M, Smith D. Named entity recognition for question answering[C]// Proceedings of the Australasian Language Technology Workshop 2006, Carlton, Vic, Australasian Language Technology Association, 2006: 51-58.

    [4] 吳賽賽,周愛蓮,謝能付,等. 基于深度學(xué)習(xí)的作物病蟲害可視化知識(shí)圖譜構(gòu)建[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(24):177-185.

    Wu Saisai, Zhou Ailian, Xie Nengfu, et al. Construction of visualization domain-specific knowledge graph of crop diseases and pests based on deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(24): 177-185. (in Chinese with English abstract)

    [5] Hanisch D, Fundel K, Mevissen H T, et al. ProMiner: Rule-based protein and gene entity recognition[J]. BMC Bioinformatics, 2005, 6(1): 1-9.

    [6] Kim J H, Woodland P C. A rule-based named entity recognition system for speech input[C]// Sixth International Conference on Spoken Language Processing, Beijing, China, ISCA, 2000: 521-524

    [7] 李想,魏小紅,賈璐,等. 基于條件隨機(jī)場(chǎng)的農(nóng)作物病蟲害及農(nóng)藥命名實(shí)體識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2017,48(S1):178-185.

    Li Xiang, Wei Xiaohong, Jia Lu, et al. Recognition of crops, diseases and pesticides named entities in Chinese based on conditional random fields[J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(S1):178-185. (in Chinese with English abstract)

    [8] 王春雨,王芳. 基于條件隨機(jī)場(chǎng)的農(nóng)業(yè)命名實(shí)體識(shí)別研究[J]. 河北農(nóng)業(yè)大學(xué)學(xué)報(bào),2014,37(1):132-135.

    Wang Chunyu, Wang Fang. Study on recognition of chinese agricultural named entity with conditional random fields[J]. Journal of Agricultural University of Hebei, 2014, 37(1): 132-135. (in Chinese with English abstract)

    [9] Zhai F, Potdar S, Xiang B, et al. Neural models for sequence chunking[C]//Proceedings of the AAAI Conference on Artificial Intelligence, San Francisco, California, USA, AAAI, 2017: 3365-3371.

    [10] Gridach M. Character-level neural network for biomedical named entity recognition[J]. Journal of Biomedical Informatics, 2017, 70: 85-91.

    [11] Dong C, Zhang J, Zong C, et al. Character-based LSTM-CRF with radical-level features for Chinese named entity recognition[M]//Natural Language Understanding and Intelligent Applications. Cham: Springer, 2016: 239-250.

    [12] 趙鵬飛,趙春江,吳華瑞,等. 基于注意力機(jī)制的農(nóng)業(yè)文本命名實(shí)體識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2021,52(1):185-192.

    Zhao Pengfei, Zhao Chunjiang, Wu Huarui, et al. Research on named entity recognition of Chinese Agricultural based on attention mechanism[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(1): 185-192. (in Chinese with English abstract)

    [13] 孫娟娟,于紅,馮艷紅,等. 基于深度學(xué)習(xí)的漁業(yè)領(lǐng)域命名實(shí)體識(shí)別[J]. 大連海洋大學(xué)學(xué)報(bào),2018,33(2):265-269.

    Sun Juanjuan, Yu Hong, Feng Yanhong, et al. Recognition of nominated fishery domain entity based on deep learning architectures[J]. Journal of Dalian Ocean University, 2018, 33(2): 265-269. (in Chinese with English abstract)

    [14] Shen Y, Yun H, Lipton Z C, et al. Deep active learning for named entity recognition[C]//Proceedings of the 2nd Workshop on Representation Learning for NLP, Vancouver, Canada, Association for Computational Linguistics, 2017: 252-256.

    [15] 李麗雙,郭元?jiǎng)P. 基于CNN-BLSTM-CRF模型的生物醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 中文信息學(xué)報(bào),2018,32(1):116-122.

    Li Lishuang, Guo Yuankai. Biomedical named entity recognition with CNN-BLSTM-CRF [J]. Journal of Chinese information Processing, 2018, 32(1):116-122. (in Chinese with English abstract)

    [16] 郭旭超,唐詹,刁磊,等. 基于部首嵌入和注意力機(jī)制的病蟲害命名實(shí)體識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(S2):335-343.

    Guo Xuchao, Tang Zhan, Diao Lei, et al. Recognition of chinese agricultural diseases and pests named entity with joint adical-embedding and self-attention mechanism[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(S2): 335-343. (in Chinese with English abstract)

    [17] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[EB/OL]. (2013.09.07) [2022.06.29]. https://doi.org/10.48550/arXiv.1301.3781.

    [18] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]// Advances in Neural Information Processing Systems, Lake Tahoe, US: MIT Press, 2013, 26: 3111-3119.

    [19] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, Minnesota, 2019: 4171-4186.

    [20] Sun Y, Wang S, Li Y, et al. Ernie: Enhanced representation through knowledge integration[EB/OL]. (2019.04.09) [2022.06.29]. https://doi.org/10.48550/arXiv.1904.09223.

    [21] 趙鵬飛,趙春江,吳華瑞,等. 基于 BERT 的多特征融合農(nóng)業(yè)命名實(shí)體識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(3):112-118.

    Zhao Pengfei, Zhao Chunjiang, Wu Huarui, et al. Recognition of the agricultural named entities with multi-feature fusion based on BERT[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(3): 112-118. (in Chinese with English abstract)

    [22] 杜琳,曹東,林樹元,等. 基于BERT與Bi-LSTM融合注意力機(jī)制的中醫(yī)病歷文本的提取與自動(dòng)分類[J]. 計(jì)算機(jī)科學(xué),2020,47(S2):416-420.

    Du Lin, Cao Dong, Lin Shuyuan, et al. Extraction and automatic classification of TCM medical records based on attention mechanism of BERT and Bi-LSTM[J]. Computer Science, 2020, 47(S2): 416-420. (in Chinese with English abstract)

    [23] 任媛,于紅,楊鶴,等. 融合注意力機(jī)制與BERT+ BiLSTM+CRF模型的漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(10):135-141.

    Ren Yuan, Yu Hong, Yang He, et al. Recognition of quantitative indicator of fishery standard using attention mechanism and the BERT+BiLSTM+CRF model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(10): 135-141. (in Chinese with English abstract)

    [24] Ashish V, Noam S, Niki P,et al.Attention is all you need[C]//Advances in Neural Information Processing Systems, Long Beach, California, USA, Curran Associates Inc, 2017: 6000-6010.

    [25] Hasim A, Andrew S, Fran?oise B. Long short-term memory based recurrent neural network architectures for large vocabulary speech recognition[J]. Computer Science, 2014, 4(1):338-342.

    [26] Felix A, Jürgen S. Lstmrecurrent networks learn simple context-free and context-sensitive languages[J]. IEEE Transactions on Neural Networks, 2001, 12(6): 1333-1340.

    [27] Hammerton J. Named entity recognition with long short-term memory[C]//Proceedings of the Seventh Conference on Natural language learning at HLT-NAACL 2003, Edmonton, Canada, Association for Computational Linguistics, 2003: 172-175.

    [28] Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, Canada, IEEE, 2013: 6645-6649.

    [29] Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging[J]. Computer Science, 2015, 4(1): 1508-1519.

    [30] Lin T, Priya G, Ross G, et al. Focal Loss for Dense Object Detection[C]// 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, IEEE, 2017: 2999-3007.

    [31] Lafferty J, McCallum A, Pereira F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the 18th International Conference on Machine Learning 2001, San Francisco, CA, USA, Morgan Kaufmann Publishers Inc, 2001: 282-289.

    [32] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.

    [33] Kingma D, Ba J. Adam: A method for stochastic optimization[C]// Proceedings of the 3rd International Conference on Learning Representations, San Diego, CA, 2015: 1-15.

    Named entity recognition of agricultural based entity-level masking BERT and BiLSTM-CRF

    Wei Zijun1, Song Ling2,3※, Hu Xiaochun4, Chen Ningjiang1,3

    (1.530004; 2.530200,;3530004; 4.530007)

    An intelligent question-answering of agricultural knowledge can be one of the most important parts of information agriculture. Among them, named entity recognition has been a key technology for intelligent question-answering and knowledge graph construction in the fields of agricultural domain. It is also a high demand for the accurate identification of named entities. Furthermore, the Chinese named entity recognition can be confined to the location and semantic information of characters, due to the long length of agricultural entity and complex naming. Therefore, it is very necessary to improve the recognition performance in the process of named entity recognition, particularly for the sufficient capture of character position, contextual semantic features, and long-distance dependency information. In this study, a novel Chinese named entity recognition of agriculture was proposed using EmBERT-BiLSTM-CRF model. Firstly, the Bidirectional Encoder Representation from Transformers (BERT) pre-trained language model was applied as the layer of word embedding. The context semantic representation of the model was then improved to alleviate the polysemy, when pre-training the depth bidirectional representation of word vectors. Secondly, the language masking of BERT was enhanced significantly, according to the characteristics of Chinese. An Entity-level Masking strategy was utilized to completely mask the Chinese entities in the sentence with the consecutive tokens. The Chinese semantics was then better represented to alleviate the bias caused by incomplete semantics. Thirdly, the Bidirectional Long Short-Term Memory Network (BiLSTM) model was adopted to learn the semantic features of long-sequence using two LSTM networks (forward and backward), considering the contextual information in both directions at the same time. The long-distance dependency information of text was then captured during this time. Finally, the Conditional Random Field (CRF) was used to learn the labelling constraint in the training data. Among them, the learned constraint rules were used to detect whether the label sequence was legal during prediction. After that, the CRF also utilized the information of adjacent labels to output the globally optimal label sequence. Thus, the output of the model was a dependent label sequence, but an optimal sequence was considered the rules and order. A focal loss function was also used to alleviate the unbalanced sample distribution. A series of experiments were performed to construct the corpus of named entity recognition. As such, the corpus contained a total of 29 790 agricultural entities after BIO labelling, including 11 057 crops, 8 121 pesticides, 4 505 diseases, and 6 107 pest entities, in which the training, validation, and test set were divided, according to the ratio of 7:2:1. Four types of agricultural entities from the text were identified, including the crop varieties, pesticides, diseases, and insect pests, and then to label them. The experimental results show that the recognition accuracy of the EmBERT-BiLSTM-CRF model for the four types of entities was 94.97%, and the F1 score was 95.93%. Which compared with the models based on BiLSTM-CRF and BERT-BiLSTM-CRF, the recognition performance of EmBERT-BiLSTM-CRF is significantly improved, proved that used pre-trained language model as the a word embedding layer can represent the characteristics of characters well and the Entity-level Masking strategy can alleviate the bias caused by incomplete semantics, thereby enhanced the Chinese semantic representation ability of the model, so that enabling the model to more accurately identify Chinese agricultural named entities. This research can not only provide arelatively high entity recognition accuracy for tasks such as agricultural intelligence question answering, but also offer new ideas for the identification of Chinese named entities in fishery, animal husbandry, Chinese medical, and biological fields.

    agriculture; named entity recognition; entity-level masking; BERT; BiLSTM; CRF

    10.11975/j.issn.1002-6819.2022.15.021

    TP391

    A

    1002-6819(2022)-15-0195-09

    韋紫君,宋玲,胡小春,等. 基于實(shí)體級(jí)遮蔽BERT與BiLSTM-CRF的農(nóng)業(yè)命名實(shí)體識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(15):195-203.doi:10.11975/j.issn.1002-6819.2022.15.021 http://www.tcsae.org

    Wei Zijun, Song Ling, Hu Xiaochun, et al. Named entity recognition of agricultural based entity-level masking BERT and BiLSTM-CRF[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(15): 195-203. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.15.021 http://www.tcsae.org

    2021-12-20

    2022-06-29

    國(guó)家重點(diǎn)研發(fā)計(jì)劃課題(2018YFB1404404);廣西重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(桂科AB19110050);南寧市科技重大專項(xiàng)(20211005)

    韋紫君,研究方向?yàn)樽匀徽Z(yǔ)言處理。Email:1034268781@qq.com

    宋玲,教授,研究方向?yàn)槲锫?lián)網(wǎng)及大數(shù)據(jù)計(jì)算。Email:731486203@qq.com

    猜你喜歡
    字符命名實(shí)體
    尋找更強(qiáng)的字符映射管理器
    命名——助力有機(jī)化學(xué)的學(xué)習(xí)
    字符代表幾
    前海自貿(mào)區(qū):金融服務(wù)實(shí)體
    一種USB接口字符液晶控制器設(shè)計(jì)
    電子制作(2019年19期)2019-11-23 08:41:50
    消失的殖民村莊和神秘字符
    有一種男人以“暖”命名
    東方女性(2018年3期)2018-04-16 15:30:02
    為一條河命名——在白河源
    實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
    兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
    久久久国产成人免费| www.精华液| 无遮挡黄片免费观看| www.999成人在线观看| 国产黄色小视频在线观看| 99久久无色码亚洲精品果冻| 亚洲熟妇熟女久久| 午夜视频精品福利| 亚洲国产高清在线一区二区三 | 国产精品二区激情视频| a在线观看视频网站| 十分钟在线观看高清视频www| 波多野结衣巨乳人妻| 不卡一级毛片| 哪里可以看免费的av片| 99在线视频只有这里精品首页| 国产aⅴ精品一区二区三区波| 女性被躁到高潮视频| 国产av在哪里看| 激情在线观看视频在线高清| 亚洲第一欧美日韩一区二区三区| 精品一区二区三区四区五区乱码| 99在线视频只有这里精品首页| 最新在线观看一区二区三区| 欧美日本视频| 村上凉子中文字幕在线| 搡老妇女老女人老熟妇| 国产成人欧美在线观看| 欧美激情久久久久久爽电影| 亚洲欧美日韩无卡精品| 国内毛片毛片毛片毛片毛片| 久久久久国产一级毛片高清牌| 91九色精品人成在线观看| 日韩精品青青久久久久久| 国产黄a三级三级三级人| 午夜精品在线福利| 日日摸夜夜添夜夜添小说| 欧美激情久久久久久爽电影| 一区二区三区高清视频在线| 欧美激情极品国产一区二区三区| 亚洲国产精品成人综合色| bbb黄色大片| 成人一区二区视频在线观看| 午夜免费成人在线视频| 成人午夜高清在线视频 | 国产一区在线观看成人免费| a级毛片在线看网站| 狂野欧美激情性xxxx| 久久久久免费精品人妻一区二区 | 成人手机av| 亚洲人成网站高清观看| 18禁观看日本| 免费观看人在逋| e午夜精品久久久久久久| 精品久久久久久久人妻蜜臀av| 国产爱豆传媒在线观看 | 可以在线观看的亚洲视频| 啦啦啦观看免费观看视频高清| 国产一级毛片七仙女欲春2 | 老熟妇乱子伦视频在线观看| 日本 av在线| 99国产精品一区二区蜜桃av| 亚洲avbb在线观看| 亚洲欧美精品综合一区二区三区| 免费在线观看完整版高清| 99riav亚洲国产免费| 天堂影院成人在线观看| 久久久久久免费高清国产稀缺| 亚洲av美国av| 久99久视频精品免费| 亚洲精品av麻豆狂野| 天天躁夜夜躁狠狠躁躁| 久久香蕉国产精品| 国产极品粉嫩免费观看在线| 国产亚洲精品综合一区在线观看 | 欧美日韩亚洲综合一区二区三区_| 免费在线观看成人毛片| 老司机在亚洲福利影院| 深夜精品福利| 成人手机av| 精品国产乱子伦一区二区三区| 亚洲国产欧美日韩在线播放| 极品教师在线免费播放| 久久久国产成人精品二区| 久久精品亚洲精品国产色婷小说| 欧美黑人精品巨大| 国产av又大| 脱女人内裤的视频| 亚洲美女黄片视频| 在线观看午夜福利视频| 国产激情偷乱视频一区二区| 亚洲国产毛片av蜜桃av| 久久久久国内视频| 最近最新中文字幕大全电影3 | 亚洲自拍偷在线| 搡老熟女国产l中国老女人| 亚洲午夜理论影院| 国产精品1区2区在线观看.| 韩国精品一区二区三区| 午夜福利一区二区在线看| 国内毛片毛片毛片毛片毛片| 亚洲欧洲精品一区二区精品久久久| 女同久久另类99精品国产91| 亚洲中文av在线| 窝窝影院91人妻| 精品一区二区三区视频在线观看免费| 听说在线观看完整版免费高清| xxxwww97欧美| 老熟妇乱子伦视频在线观看| 亚洲熟妇中文字幕五十中出| 最新在线观看一区二区三区| 久久香蕉精品热| 亚洲久久久国产精品| 国产真实乱freesex| 看黄色毛片网站| 国产男靠女视频免费网站| 制服丝袜大香蕉在线| 成人三级做爰电影| 不卡一级毛片| 99国产综合亚洲精品| 婷婷丁香在线五月| 国产成人av激情在线播放| 9191精品国产免费久久| 国产av一区二区精品久久| 给我免费播放毛片高清在线观看| 久久精品亚洲精品国产色婷小说| 午夜福利一区二区在线看| 一本一本综合久久| 两性午夜刺激爽爽歪歪视频在线观看 | 亚洲成人精品中文字幕电影| 一级片免费观看大全| 久久午夜综合久久蜜桃| 日本五十路高清| 51午夜福利影视在线观看| svipshipincom国产片| 亚洲 欧美 日韩 在线 免费| 叶爱在线成人免费视频播放| 日韩欧美国产在线观看| 久久久久亚洲av毛片大全| 最近最新中文字幕大全免费视频| 免费在线观看日本一区| 日韩欧美国产一区二区入口| 亚洲aⅴ乱码一区二区在线播放 | 国产午夜福利久久久久久| 亚洲精品国产精品久久久不卡| 老司机午夜十八禁免费视频| 久久国产精品影院| 亚洲精品美女久久久久99蜜臀| 国产国语露脸激情在线看| 美国免费a级毛片| 国产av在哪里看| 亚洲中文av在线| 男人的好看免费观看在线视频 | 高清毛片免费观看视频网站| 国产99久久九九免费精品| 婷婷精品国产亚洲av在线| 欧美激情高清一区二区三区| 欧美大码av| 国产爱豆传媒在线观看 | 欧美日韩亚洲国产一区二区在线观看| 动漫黄色视频在线观看| 51午夜福利影视在线观看| 欧美大码av| www.自偷自拍.com| 亚洲精品久久国产高清桃花| 搡老熟女国产l中国老女人| 日韩欧美一区视频在线观看| 后天国语完整版免费观看| 黑人操中国人逼视频| 午夜a级毛片| 91国产中文字幕| 人人妻人人看人人澡| www日本黄色视频网| 国产色视频综合| 韩国av一区二区三区四区| 国产蜜桃级精品一区二区三区| 后天国语完整版免费观看| 久久精品亚洲精品国产色婷小说| 亚洲av成人av| 国产成人啪精品午夜网站| 少妇粗大呻吟视频| 国产伦人伦偷精品视频| 日日夜夜操网爽| 日韩成人在线观看一区二区三区| 国产av又大| 亚洲自偷自拍图片 自拍| 欧美午夜高清在线| 亚洲一区高清亚洲精品| 99久久久亚洲精品蜜臀av| 俄罗斯特黄特色一大片| 亚洲在线自拍视频| 国产又色又爽无遮挡免费看| 国产国语露脸激情在线看| 国产精品国产高清国产av| 99热只有精品国产| 亚洲欧美精品综合久久99| 亚洲一区二区三区色噜噜| 叶爱在线成人免费视频播放| 久久青草综合色| 亚洲自拍偷在线| 俺也久久电影网| 午夜日韩欧美国产| 久久99热这里只有精品18| 亚洲午夜理论影院| 韩国精品一区二区三区| АⅤ资源中文在线天堂| 色播亚洲综合网| 两人在一起打扑克的视频| 男女那种视频在线观看| 麻豆成人av在线观看| 男人舔女人的私密视频| 国产91精品成人一区二区三区| 黑丝袜美女国产一区| 最近在线观看免费完整版| 精品久久久久久久久久久久久 | 一区二区三区高清视频在线| 免费电影在线观看免费观看| 99国产精品一区二区蜜桃av| 可以免费在线观看a视频的电影网站| 亚洲精品av麻豆狂野| 国产亚洲av高清不卡| 亚洲av美国av| 亚洲国产精品久久男人天堂| 亚洲国产精品999在线| 国产精华一区二区三区| 在线十欧美十亚洲十日本专区| 精品乱码久久久久久99久播| 亚洲欧美精品综合久久99| 每晚都被弄得嗷嗷叫到高潮| 日韩av在线大香蕉| 精品卡一卡二卡四卡免费| 一区二区日韩欧美中文字幕| e午夜精品久久久久久久| 在线观看www视频免费| 午夜亚洲福利在线播放| 热re99久久国产66热| 国产蜜桃级精品一区二区三区| 欧美色欧美亚洲另类二区| 亚洲中文字幕日韩| 亚洲国产精品成人综合色| 精品久久久久久久人妻蜜臀av| 午夜福利一区二区在线看| e午夜精品久久久久久久| 久久久久久免费高清国产稀缺| 精品免费久久久久久久清纯| 9191精品国产免费久久| 国产欧美日韩精品亚洲av| 国产成人啪精品午夜网站| 亚洲精品在线观看二区| 亚洲一卡2卡3卡4卡5卡精品中文| 日本黄色视频三级网站网址| 免费搜索国产男女视频| 国产精品乱码一区二三区的特点| 亚洲人成77777在线视频| 中文字幕最新亚洲高清| 久久狼人影院| 欧美丝袜亚洲另类 | 波多野结衣av一区二区av| 99在线人妻在线中文字幕| 午夜精品久久久久久毛片777| 怎么达到女性高潮| 亚洲精品在线观看二区| 久久香蕉国产精品| 在线观看免费日韩欧美大片| 婷婷丁香在线五月| 亚洲专区字幕在线| 久久国产乱子伦精品免费另类| 亚洲精品美女久久久久99蜜臀| 国产真实乱freesex| 日日爽夜夜爽网站| 18禁观看日本| 久久中文字幕人妻熟女| 国产日本99.免费观看| 香蕉久久夜色| 巨乳人妻的诱惑在线观看| 免费在线观看黄色视频的| 一级黄色大片毛片| 淫秽高清视频在线观看| 精品日产1卡2卡| 日韩中文字幕欧美一区二区| 88av欧美| 三级毛片av免费| 国产亚洲精品一区二区www| 国产野战对白在线观看| 国产精品久久久久久人妻精品电影| 亚洲成a人片在线一区二区| 国产伦一二天堂av在线观看| 免费看a级黄色片| 欧美性猛交╳xxx乱大交人| 国产日本99.免费观看| 一本精品99久久精品77| 悠悠久久av| 成人免费观看视频高清| 99精品久久久久人妻精品| 欧美乱色亚洲激情| 国产精品久久久av美女十八| av视频在线观看入口| 午夜福利成人在线免费观看| 国产免费男女视频| 久久狼人影院| 大型av网站在线播放| 欧美大码av| 午夜福利欧美成人| 国产v大片淫在线免费观看| 97碰自拍视频| 无人区码免费观看不卡| 不卡一级毛片| 日韩高清综合在线| 国产熟女xx| 国产成人系列免费观看| 亚洲精华国产精华精| 精品国内亚洲2022精品成人| 国产精品久久久久久精品电影 | 在线观看一区二区三区| 91麻豆av在线| 成人三级黄色视频| 性欧美人与动物交配| 婷婷精品国产亚洲av在线| 免费在线观看黄色视频的| 亚洲一区二区三区色噜噜| a在线观看视频网站| 黄色成人免费大全| 母亲3免费完整高清在线观看| 无限看片的www在线观看| or卡值多少钱| 99精品在免费线老司机午夜| 啦啦啦 在线观看视频| 最近最新中文字幕大全电影3 | 久久草成人影院| 女人高潮潮喷娇喘18禁视频| 国产国语露脸激情在线看| 午夜视频精品福利| 国产麻豆成人av免费视频| 老司机靠b影院| 一本久久中文字幕| 国产一级毛片七仙女欲春2 | 欧美日本亚洲视频在线播放| 国产精品亚洲av一区麻豆| 亚洲专区中文字幕在线| 欧美人与性动交α欧美精品济南到| 久久精品亚洲精品国产色婷小说| 91成人精品电影| 久久久久久亚洲精品国产蜜桃av| 精品第一国产精品| 自线自在国产av| cao死你这个sao货| 99国产精品99久久久久| 日韩精品中文字幕看吧| 中文亚洲av片在线观看爽| 欧美黑人欧美精品刺激| 免费在线观看成人毛片| 香蕉久久夜色| 美女午夜性视频免费| 久久香蕉激情| 色老头精品视频在线观看| 国产亚洲精品av在线| 伊人久久大香线蕉亚洲五| 极品教师在线免费播放| 国内久久婷婷六月综合欲色啪| 欧美+亚洲+日韩+国产| 啪啪无遮挡十八禁网站| 久久国产精品人妻蜜桃| 久久精品人妻少妇| 亚洲av第一区精品v没综合| 热re99久久国产66热| 黄色女人牲交| 麻豆国产av国片精品| 欧美乱码精品一区二区三区| www日本黄色视频网| 男人操女人黄网站| 国产亚洲精品av在线| av欧美777| 久久久久国内视频| 免费一级毛片在线播放高清视频| av在线播放免费不卡| 欧美日韩福利视频一区二区| 亚洲专区国产一区二区| 视频在线观看一区二区三区| 在线观看免费视频日本深夜| 嫁个100分男人电影在线观看| 亚洲中文字幕日韩| 久久久国产成人免费| 久久久久久人人人人人| 在线看三级毛片| 婷婷精品国产亚洲av在线| 97超级碰碰碰精品色视频在线观看| 最好的美女福利视频网| 色综合欧美亚洲国产小说| 97人妻精品一区二区三区麻豆 | 老司机在亚洲福利影院| 丝袜人妻中文字幕| 丝袜在线中文字幕| 日本一区二区免费在线视频| 女人高潮潮喷娇喘18禁视频| av天堂在线播放| 国产精品美女特级片免费视频播放器 | 最新美女视频免费是黄的| 久久精品国产清高在天天线| 高清在线国产一区| 国产精品二区激情视频| 麻豆一二三区av精品| 露出奶头的视频| 亚洲一区二区三区不卡视频| 两个人视频免费观看高清| 免费无遮挡裸体视频| 18美女黄网站色大片免费观看| 亚洲三区欧美一区| 欧美日韩一级在线毛片| 2021天堂中文幕一二区在线观 | 免费在线观看完整版高清| 亚洲欧美日韩高清在线视频| 国产精品爽爽va在线观看网站 | 中文字幕人妻丝袜一区二区| 成人欧美大片| 午夜福利免费观看在线| 午夜免费鲁丝| 一区二区日韩欧美中文字幕| 女人被狂操c到高潮| www.自偷自拍.com| 国内精品久久久久久久电影| 久久国产乱子伦精品免费另类| 亚洲av电影不卡..在线观看| 男女做爰动态图高潮gif福利片| 非洲黑人性xxxx精品又粗又长| 少妇粗大呻吟视频| 99在线视频只有这里精品首页| 男人舔女人的私密视频| 久久精品国产99精品国产亚洲性色| 国产成人系列免费观看| 精品久久久久久久久久久久久 | 国内少妇人妻偷人精品xxx网站 | 黄色片一级片一级黄色片| 自线自在国产av| 在线av久久热| 两个人免费观看高清视频| 正在播放国产对白刺激| 亚洲精品国产精品久久久不卡| 久久精品国产综合久久久| 国产高清有码在线观看视频 | 日韩免费av在线播放| 桃红色精品国产亚洲av| 久久精品人妻少妇| 欧美一级毛片孕妇| 国产精品,欧美在线| 看免费av毛片| 欧美日韩亚洲综合一区二区三区_| 欧美激情久久久久久爽电影| 在线观看免费日韩欧美大片| 97碰自拍视频| 熟女少妇亚洲综合色aaa.| 国产精品久久久久久精品电影 | 免费观看人在逋| 国产乱人伦免费视频| 成人手机av| 日韩精品青青久久久久久| 亚洲第一欧美日韩一区二区三区| 91麻豆精品激情在线观看国产| 国产av一区在线观看免费| 国产成年人精品一区二区| 色综合婷婷激情| 满18在线观看网站| 夜夜看夜夜爽夜夜摸| 无人区码免费观看不卡| 一a级毛片在线观看| xxx96com| 国产精品精品国产色婷婷| 欧美激情久久久久久爽电影| 欧美成狂野欧美在线观看| www.自偷自拍.com| 美女扒开内裤让男人捅视频| 欧美激情 高清一区二区三区| 日日爽夜夜爽网站| 日日干狠狠操夜夜爽| 黄色成人免费大全| 国产极品粉嫩免费观看在线| 欧美在线黄色| 精品久久久久久久久久免费视频| 国产一区二区三区在线臀色熟女| 亚洲午夜精品一区,二区,三区| 国产色视频综合| av天堂在线播放| www.精华液| 长腿黑丝高跟| 国产免费男女视频| 在线观看免费日韩欧美大片| 日本五十路高清| svipshipincom国产片| 哪里可以看免费的av片| 天天一区二区日本电影三级| 欧美成狂野欧美在线观看| 日本五十路高清| svipshipincom国产片| 日韩三级视频一区二区三区| av电影中文网址| 久久亚洲真实| 老熟妇仑乱视频hdxx| 国产v大片淫在线免费观看| 免费在线观看完整版高清| 亚洲午夜理论影院| 欧美成人一区二区免费高清观看 | 精品国产超薄肉色丝袜足j| 亚洲欧美激情综合另类| 婷婷六月久久综合丁香| 欧美最黄视频在线播放免费| 叶爱在线成人免费视频播放| 亚洲人成网站在线播放欧美日韩| 久久香蕉激情| 97碰自拍视频| 99久久精品国产亚洲精品| 精品不卡国产一区二区三区| www.自偷自拍.com| 国产成人影院久久av| 欧美成人午夜精品| 一个人观看的视频www高清免费观看 | 亚洲av成人一区二区三| 99热只有精品国产| 国产片内射在线| 国产欧美日韩一区二区三| 午夜久久久久精精品| 欧美黄色片欧美黄色片| 国产成人av激情在线播放| 国产av不卡久久| 久久国产亚洲av麻豆专区| 欧美性猛交黑人性爽| 亚洲国产日韩欧美精品在线观看 | 免费在线观看成人毛片| 女人高潮潮喷娇喘18禁视频| 亚洲一区高清亚洲精品| 国产真人三级小视频在线观看| 国产精品久久电影中文字幕| 久热这里只有精品99| 久久午夜综合久久蜜桃| 欧美黄色片欧美黄色片| 啦啦啦观看免费观看视频高清| 黄色视频不卡| 中文字幕高清在线视频| 国产精品爽爽va在线观看网站 | 国产一区在线观看成人免费| 淫妇啪啪啪对白视频| 性色av乱码一区二区三区2| 久久九九热精品免费| 不卡一级毛片| bbb黄色大片| 无遮挡黄片免费观看| 91麻豆av在线| 草草在线视频免费看| 午夜久久久在线观看| 午夜福利一区二区在线看| 亚洲天堂国产精品一区在线| 久热这里只有精品99| www.精华液| 欧美激情 高清一区二区三区| 精品国内亚洲2022精品成人| 国产欧美日韩精品亚洲av| 看片在线看免费视频| 极品教师在线免费播放| 国产成+人综合+亚洲专区| 国产成人精品无人区| 国产精品免费视频内射| 久久九九热精品免费| 天天躁夜夜躁狠狠躁躁| 最新在线观看一区二区三区| 午夜福利欧美成人| 亚洲欧洲精品一区二区精品久久久| 中文字幕人妻丝袜一区二区| 成人精品一区二区免费| 少妇裸体淫交视频免费看高清 | 18禁国产床啪视频网站| 黄色a级毛片大全视频| a级毛片a级免费在线| 久久精品亚洲精品国产色婷小说| 黄频高清免费视频| 变态另类成人亚洲欧美熟女| 男人操女人黄网站| 波多野结衣高清无吗| 午夜福利成人在线免费观看| 国产私拍福利视频在线观看| 啦啦啦韩国在线观看视频| 极品教师在线免费播放| 白带黄色成豆腐渣| 久久久久九九精品影院| 成人国产一区最新在线观看| 欧美中文日本在线观看视频| av在线播放免费不卡| 男女那种视频在线观看| 国产精品日韩av在线免费观看| av电影中文网址| 久久精品91无色码中文字幕| 亚洲国产欧美日韩在线播放| 国产97色在线日韩免费| av中文乱码字幕在线| 午夜亚洲福利在线播放| 少妇 在线观看| 精品熟女少妇八av免费久了| 亚洲真实伦在线观看| 免费在线观看成人毛片| 午夜福利欧美成人| 国产精品一区二区免费欧美| 成人免费观看视频高清| 岛国在线观看网站| 十八禁人妻一区二区| 亚洲专区中文字幕在线| 首页视频小说图片口味搜索| 国产精品久久久人人做人人爽| 日本一本二区三区精品| 日韩视频一区二区在线观看| 午夜免费鲁丝| 黄频高清免费视频| 18禁美女被吸乳视频| 亚洲av五月六月丁香网| 好男人在线观看高清免费视频 | 操出白浆在线播放| 日韩 欧美 亚洲 中文字幕| 午夜福利成人在线免费观看| 国产免费av片在线观看野外av|