• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于注意力機制的農(nóng)業(yè)文本命名實體識別

    2021-02-01 12:03:00趙鵬飛趙春江吳華瑞
    農(nóng)業(yè)機械學(xué)報 2021年1期
    關(guān)鍵詞:語料語料庫文檔

    趙鵬飛 趙春江,2 吳華瑞 王 維

    (1.山西農(nóng)業(yè)大學(xué)工學(xué)院, 太谷 030801; 2.國家農(nóng)業(yè)信息化工程技術(shù)研究中心, 北京 100097;3.北京農(nóng)業(yè)信息技術(shù)研究中心, 北京 100097)

    0 引言

    隨著農(nóng)業(yè)信息化技術(shù)的快速發(fā)展,農(nóng)戶可通過農(nóng)技服務(wù)平臺進行在線問答咨詢。面對海量的問題數(shù)據(jù),快速而準確地定位關(guān)鍵詞、挖掘深層的語義關(guān)系是農(nóng)業(yè)智能問答系統(tǒng)亟需解決的問題[1]。農(nóng)業(yè)命名實體識別作為一種智能化信息抽取方法,其主要任務(wù)是從非結(jié)構(gòu)化的問答數(shù)據(jù)中識別不同類型的實體,如農(nóng)作物病蟲害、作物品種、農(nóng)藥名稱等,這是構(gòu)建智能問答系統(tǒng)的關(guān)鍵技術(shù)環(huán)節(jié),是農(nóng)業(yè)文本信息挖掘領(lǐng)域的熱點研究方向。

    在農(nóng)業(yè)領(lǐng)域,許多研究者利用機器學(xué)習(xí)進行實體識別研究。文獻[2]提出基于條件隨機場的識別方法,通過添加詞性、左右指界詞等模板特征,對農(nóng)作物、病蟲害及農(nóng)藥3類實體進行識別。文獻[3]采用BIO和BMES兩種實體標注方式,基于CRF模型對數(shù)據(jù)集中農(nóng)作物、家禽、病蟲害等實體進行識別。文獻[4]將農(nóng)業(yè)本體概念作為子特征加入CRF模型中,對涉農(nóng)商品名稱進行抽取和類別標注。但是,傳統(tǒng)的基于機器學(xué)習(xí)的方法依賴手工設(shè)計的特征模板,在提高模型性能的同時也導(dǎo)致整個模型的魯棒性和泛化能力下降[5]。

    農(nóng)業(yè)實體構(gòu)詞復(fù)雜、種類眾多,導(dǎo)致農(nóng)業(yè)領(lǐng)域?qū)嶓w識別研究更具有挑戰(zhàn)性,主要體現(xiàn)在:由于缺乏規(guī)范的農(nóng)業(yè)詞典,采用分詞工具對農(nóng)業(yè)語料進行分詞出現(xiàn)分詞錯誤的現(xiàn)象,影響了模型性能;同一實體在文本中所處位置不同,以單句為處理單元的識別方法無法聚焦全文語境,存在實體標注不一致問題。

    隨著深度學(xué)習(xí)算法的改進,網(wǎng)絡(luò)模型能夠自動學(xué)習(xí)到更深層次的特征信息,在很多領(lǐng)域?qū)嶓w識別任務(wù)取得了理想的效果[6-12]。

    近年來,注意力機制在自然語言處理領(lǐng)域得到了廣泛的應(yīng)用[13-15]。文獻[16]基于BiLSTM-CRF框架,通過添加注意力機制學(xué)習(xí)有效的字符特征向量。文獻[17]提出基于雙向注意機制的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)模型,該模型能更好地獲取標簽之間的關(guān)系。文獻[18]提出了多注意力模型,在阿拉伯語實體識別任務(wù)中取得較好的結(jié)果。文獻[19]利用卷積神經(jīng)網(wǎng)絡(luò)提取漢字分解后的特征信息,基于自注意力機制識別醫(yī)學(xué)電子病歷的相關(guān)實體。

    上述基于深度學(xué)習(xí)的方法為農(nóng)業(yè)領(lǐng)域開展命名實體識別研究提供了參考依據(jù),但在農(nóng)業(yè)文本向量化表示方面并未提出有效的方法來獲取字符之間豐富的語義特征,并且相關(guān)模型在農(nóng)業(yè)領(lǐng)域數(shù)據(jù)集上沒有進行驗證,不足以說明農(nóng)業(yè)領(lǐng)域命名實體識別的相關(guān)問題。

    本文在農(nóng)業(yè)領(lǐng)域命名實體識別任務(wù)中,基于深度學(xué)習(xí)方法,在BiLSTM-CRF網(wǎng)絡(luò)模型基礎(chǔ)上,有針對性地引入大量無標注農(nóng)業(yè)語料,通過預(yù)訓(xùn)練方式對農(nóng)業(yè)實體字符分布式表示進行擴充,并引入文檔級注意力機制重點關(guān)注實體關(guān)鍵字信息,通過余弦距離相似度得分獲取文本中實體之間的相關(guān)系數(shù),進一步對模型結(jié)構(gòu)和訓(xùn)練參數(shù)進行優(yōu)化和改進,構(gòu)建基于注意力機制的Att-BiLSTM-CRF混合網(wǎng)絡(luò)模型,以期實現(xiàn)農(nóng)業(yè)文本命名實體的精準識別。

    1 數(shù)據(jù)采集與預(yù)處理

    1.1 數(shù)據(jù)采集

    農(nóng)業(yè)命名實體識別缺少公開的語料數(shù)據(jù)集,本文通過數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標注3個步驟,建立農(nóng)業(yè)領(lǐng)域?qū)嶓w識別語料庫。本文的語料數(shù)據(jù)主要通過爬蟲框架,抓取各大農(nóng)業(yè)網(wǎng)站(中國農(nóng)業(yè)信息網(wǎng)、中國農(nóng)業(yè)知識網(wǎng)、中國作物種質(zhì)資源信息網(wǎng)、國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心等)關(guān)于農(nóng)作物病蟲害和農(nóng)作物品種的文本語料。其中,標注語料庫作為實驗數(shù)據(jù)集,包含4 604篇農(nóng)業(yè)文本,共33 096個句子;未標注語料庫作為預(yù)訓(xùn)練數(shù)據(jù)集,包含26 025條語料,共300萬個中文字符。

    1.2 數(shù)據(jù)預(yù)處理

    通過爬蟲抓取的語料數(shù)據(jù),包含大量的網(wǎng)站標簽、鏈接、特殊字符等非文本的結(jié)構(gòu)數(shù)據(jù),不利于數(shù)據(jù)標注。通過Python正則表達式、字符格式規(guī)范化等操作,刪除非文本數(shù)據(jù),獲取規(guī)范化的農(nóng)業(yè)語料庫。

    1.3 數(shù)據(jù)標注

    本文采用人工標注的方式進行語料庫的標注,語料庫包含實體共26 309個,其中,病害名稱4 129個,蟲害名稱4 275個、農(nóng)藥名稱11 952個、農(nóng)作物品種名稱5 953個,不同類型實體統(tǒng)計如表1所示。使用BIEO標記方案表示命名實體,B表示實體名稱的開始,I和E分別表示實體的內(nèi)部和實體的結(jié)束標記,O表示語料中的非實體。語料庫注釋示例如圖1所示。為更好地識別實體所屬類別,將類別信息添加在實體標簽上,實體類型描述如下:病害名稱實體-Disease、蟲害名稱實體-Pest、農(nóng)藥名稱實體-Pesticide、農(nóng)作物品種名稱實體-Crop。其中,B-Disease和B-Crop分別表示病害和農(nóng)作物品種的命名實體的開始。

    表1 語料庫統(tǒng)計信息Tab.1 Corpus statistics

    2 模型框架

    本文模型包含字嵌入層、BiLSTM層、Attention層和CRF層4部分,模型結(jié)構(gòu)如圖2所示。

    2.1 字嵌入層

    2.1.1預(yù)處理

    在英文NER任務(wù)中,由于每個單詞被空格分隔,很多研究將詞向量與字符向量拼接作為模型輸入,提高模型的性能。與英文單詞不同,中文詞語之間沒有明顯的分隔標記,而且詞語具有較強的領(lǐng)域性。因此,為更好地處理中文實體識別任務(wù),多數(shù)方法都將分詞作為語料處理的基本步驟。但是,現(xiàn)有分詞技術(shù)不能準確地進行切分,會產(chǎn)生各種各樣的錯誤[20]。

    例如,病害實體“水稻細菌性褐條病”分詞結(jié)果為“水稻/細菌性/褐/條/病”,農(nóng)作物品種實體“兩優(yōu)培九”分詞結(jié)果為“兩/優(yōu)/培九”。這些實體被錯誤地拆分,從而導(dǎo)致模型不能正確獲取實體的特征表示,基于字的實體識別可以有效地避免這類問題。

    本文使用字向量作為模型初始輸入,采用預(yù)訓(xùn)練方式,以字為單位進行切割,獲取特征表示,緩解分詞準確度對性能的影響。

    2.1.2字向量表示

    農(nóng)業(yè)文本數(shù)據(jù)需進行文本向量化,將相應(yīng)字符映射為一定維度的實數(shù)向量,才能被計算機處理。本文采用Word2vec的CBOW模型[21-22],在模型架構(gòu)基礎(chǔ)上,針對字向量維度,進一步優(yōu)化和驗證,通過對這些無標注的語料進行無監(jiān)督訓(xùn)練,得到相應(yīng)的分布式表示,最終生成特定維度的字向量,構(gòu)建字向量表。CBOW模型的框架如圖3所示,主要有輸入層、映射層和輸出層3層。

    在CBOW模型中,目標字由上下文推測得到,已知當前字wm,利用周圍2n(n為窗口尺寸)個字wm-n、wm-n+1、…、wm+n-1、wm+n預(yù)測wm當前字出現(xiàn)的概率。以病害實體“小麥霜霉病”為例,通過字“霜”的上下文“小”、“麥”、“霉”、“病”4個字,來預(yù)測所有字出現(xiàn)的概率,其中目標字“霜”出現(xiàn)的概率最大。

    在預(yù)訓(xùn)練過程中,CBOW模型字級窗口設(shè)置為2,構(gòu)建字向量表,每個字對應(yīng)唯一的向量表示。本文驗證了不同維度字向量對模型性能造成的影響,維度設(shè)置為50、100、150和200,經(jīng)過實驗對比發(fā)現(xiàn),字向量維度設(shè)置為100時模型的性能最優(yōu)。因此,通過預(yù)訓(xùn)練方式,獲取農(nóng)業(yè)文本100維度的字向量特征表示,適用于農(nóng)業(yè)領(lǐng)域命名實體識別。

    2.2 BiLSTM層

    LSTM是一種特殊的循環(huán)網(wǎng)絡(luò)模型,克服了RNN模型在訓(xùn)練過程存在的梯度爆炸問題[23]。農(nóng)業(yè)實體的構(gòu)詞方式復(fù)雜多樣,針對目標實體的識別,需要考慮實體不同位置的上下文信息,來獲取更深層次的特征表示。LSTM是單向的循環(huán)神經(jīng)網(wǎng)絡(luò),只能獲取目標詞過去的文本信息。例如,病害實體“玉米根腐病”,LSTM只能訪問“腐”的前一個字“根”的特征信息,不能預(yù)測下一個字“病”的出現(xiàn)。目標詞的上下文信息對實體識別具有不同程度的影響,為了準確識別出農(nóng)業(yè)命名實體,構(gòu)建了雙向LSTM(BiLSTM)網(wǎng)絡(luò)模型,進行正向和反向2個不同方向的文本表示,充分獲取目標詞過去和將來的特征信息。

    LSTM網(wǎng)絡(luò)的主要結(jié)構(gòu)可以形式化地表示為

    it=σ(Wiht-1+Uixt+bi)

    (1)

    ft=σ(Wfht-1+Ufxt+bf)

    (2)

    (3)

    (4)

    ot=σ(Woht-1+Uoxt+bo)

    (5)

    ht=ot⊙tanh(ct)

    (6)

    式中σ——sigmod激活函數(shù)

    tanh——雙曲正切激活函數(shù)

    it、ft、ot、ct——在t時刻的輸入門、忘記門、輸出門、記憶細胞

    Ui、Uf、Uc、Uo、Wi、Wf、Wo、Wc——不同控制門對應(yīng)的權(quán)重矩陣

    bi、bf、bo、bc——偏置向量

    xt——t時刻的輸入向量

    ht——t時刻的輸出結(jié)果

    ⊙——點乘運算符

    字嵌入層的向量x,將作為t時刻BiLSTM層的輸入,通過正向LSTM輸出特征序列和反向輸出序列,得到隱藏層拼接的向量,經(jīng)過tanh激活函數(shù)進行加權(quán)得到最終的輸出結(jié)果ht,將作為Attention層的輸入。

    2.3 Attention層

    在命名實體識別任務(wù)中,由于中文構(gòu)詞方式靈活多變,同一實體具有多種表述方式,實體在文本不同位置可能多次出現(xiàn)。以單句為訓(xùn)練單元的識別模型,關(guān)注實體在該句的上下文表示,忽略全文的語境信息,容易造成同一文本實體標注不一致的問題。

    例如,水稻稻瘟病的描述如下:水稻又見“【火燒瘟】”,早稻警惕【稻瘟病】流行,一定要早做預(yù)防。當前江西早稻,……禾苗都可以點火燒了,名符其實的“【火燒瘟】”?!舅镜疚敛 坑址Q【稻熱病】、【火燒瘟】,癥狀表現(xiàn)為中央呈灰白色病斑,邊緣呈顯著褐色,且發(fā)病部位在潮濕的環(huán)境下會產(chǎn)生灰色的霉狀物。

    文本中,水稻稻瘟病又稱火燒瘟,火燒瘟作為病害實體,在文本中不同句子的不同位置多次出現(xiàn)。以句子為處理單元的模型,在脫離上下文語境的情況下,對【火燒瘟】病害實體出現(xiàn)錯標或者漏標的現(xiàn)象。為解決實體標注不一致的問題,通常采用基于規(guī)則制定的方法,但是特定領(lǐng)域的規(guī)則制定較為復(fù)雜,需要較強的領(lǐng)域知識,不同的領(lǐng)域規(guī)則不具有通用性。

    針對農(nóng)業(yè)文本中實體命名方式多樣化、實體分布不均勻的特點,在注意力模型基本架構(gòu)上進行擴展,引入文檔級全局信息,并增加余弦距離得分的相似性評估,對處于不同位置的同一實體重點關(guān)注?;谧⒁饬Φ膶W(xué)習(xí)模型,能夠忽略文本中無關(guān)的信息,關(guān)注實體關(guān)鍵信息,模型以整篇文本作為訓(xùn)練單元,考慮實體上下文的語境信息,緩解實體標注不一致問題。

    本文用D=(S1,S2,…,Sd)表示文檔包含d個句子,每個句子S=(w1,w2,…,wm)包含m個字,文檔中包含字的總數(shù)是N。對于文檔中的實體,通過注意矩陣A處理BiLSTM層輸出的特征序列,來計算當前目標字與文檔中所有字之間的相關(guān)性,獲取目標字wi基于文檔層面的全局特征表示gi,計算公式為

    (7)

    其中

    (8)

    (9)

    式中Ai,j——當前字wi與文檔中字wj注意力權(quán)重

    hj——BiLSTM層輸出

    score(wi,wj)——采用余弦距離判定的字wi與字wj相似性得分

    Wa——訓(xùn)練過程中學(xué)習(xí)到的參數(shù)

    最后,目標字wi在文檔級注意力層的輸出為ci,通過tanh函數(shù)來獲取置信度ei,計算公式為

    ci=tanh(Wg[gi,hi])

    (10)

    ei=tanh(Weci)

    (11)

    式中Wg、We——訓(xùn)練時學(xué)習(xí)到的參數(shù)矩陣

    2.4 CRF層

    在CRF層,采用狀態(tài)轉(zhuǎn)換矩陣來預(yù)測當前標簽,獲得全局最優(yōu)的標記序列[24]。設(shè)定P為Attention層的輸出矩陣,維度為m×k,m表示輸入句子包含字的數(shù)量,k表示標簽集合的元素數(shù)。對于輸入文檔D,對應(yīng)的輸出標簽序列y=(y1,y2,…,yn) 的概率為

    (12)

    式中X——輸入的文本序列

    Ayi,yi+1——從標簽yi轉(zhuǎn)移到標簽yi+1的分數(shù),Ayi,yi+1的值越大表示標簽i轉(zhuǎn)移到標簽j的可能性越大

    Pi,yi——第i個字被預(yù)測為第yi個標簽的分數(shù)

    然后,利用Softmax函數(shù),得到序列y的條件概率。最后,使用Viterbi[25]算法將得分最高的序列y*作為模型最終的標注結(jié)果。

    2.5 模型參數(shù)配置及評價

    模型的參數(shù)配置如表2所示,參數(shù)通過反復(fù)實驗確定的,字向量維度設(shè)置為100。模型使用雙向的LSTM網(wǎng)絡(luò),隱藏層維度設(shè)置為128。為減輕模型過擬合問題,引入Dropout機制[26],Dropout的值直接影響到模型性能,設(shè)置為0.5。選取ADAM[27]優(yōu)化算法,學(xué)習(xí)率為0.002。模型訓(xùn)練批處理參數(shù)為16,迭代次數(shù)設(shè)置為50。

    表2 參數(shù)配置Tab.2 Parameter setting

    與其他實體識別方法相似,采用準確率P、召回率R、F值作為實驗的評價指標[28]。

    3 實驗結(jié)果

    在不依賴人工設(shè)計特征的情況下,通過調(diào)整不同的模型參數(shù),在1.3節(jié)構(gòu)建的標注數(shù)據(jù)集上驗證模型的識別性能。語料庫中訓(xùn)練集、測試集、驗證集按7∶2∶1的比例進行分配,數(shù)據(jù)集之間無重疊,因此測試數(shù)據(jù)集的實驗結(jié)果可作為實體識別效果的評價指標。

    3.1 不同嵌入向量性能比較

    本文分別以詞向量和字向量作為Att-BiLSTM-CRF模型的初始輸入,驗證不同嵌入向量對模型性能的影響,對比結(jié)果如表3所示。將字向量作為模型的輸入,模型識別準確率P為93.48%,相較于詞向量作為模型輸入,準確率提升了2.96個百分點。分析結(jié)果得知,基于詞向量的輸入,實體被錯誤拆分,導(dǎo)致這些復(fù)雜的實體沒有被正確識別,例如,水稻品種“廣8優(yōu)郁香”被錯誤地拆分為“廣/8/優(yōu)郁/香/”。接著,驗證了不同字向量維度對模型性能的影響。字向量維度設(shè)置為50、100、150、200,模型準確率P分別為91.19%、93.48%、92.15%、91.83%;召回率R分別為89.5%、90.6%、90.08%、90.21%;F值分別為90.29%、92.01%、91.04%、91.00%。從實驗結(jié)果看出,適當增加字向量維度,可以獲取質(zhì)量更好的字級分布式表示,字向量維度為100時,模型性能達到最高。隨著維度越來越大,訓(xùn)練成本越來越高,模型性能很難得到提升,甚至下降。針對農(nóng)業(yè)實體,字向量維度不是越大越好,在一定范圍內(nèi)存在局部最優(yōu)值。

    表3 不同嵌入向量實驗結(jié)果對比Tab.3 Results of different embedding %

    3.2 不同注意力機制的性能比較

    采用字向量維度100,并在BiLSTM-CRF模型框架上增加句子級和文檔級的注意層,并對模型性能進行了評估。結(jié)果如表4所示。句子級的方法,模型的準確率P為91.23%,召回率R為89.24%,F(xiàn)值為90.23%。分析結(jié)果發(fā)現(xiàn),同一文本中,部分農(nóng)藥實體“農(nóng)抗120/Pesticide”,被錯誤標記為農(nóng)作物品種實體“農(nóng)抗120/Crop”。這種標記不一致的現(xiàn)象,是由于“農(nóng)抗120”與大多數(shù)農(nóng)作物品種實體構(gòu)詞方式相似,都是“詞+數(shù)字”的方式,在識別過程中,雖然句子級注意力獲取了該實體在句中特征信息,但是并沒有考慮全文的語境,從而導(dǎo)致上述錯誤的判斷。

    表4 不同Attention機制實驗結(jié)果對比

    與基于句子級的方法相比,文檔級方法模型的準確率P、召回率R、F值分別提高了2.25、1.36、1.78個百分點。結(jié)果表明,文檔級方法通過獲取文檔中字之間的相關(guān)信息,通過余弦函數(shù)計算文檔中目標字與其他字的相似度,調(diào)整目標字的權(quán)重,在緩解上述討論的標記不一致問題的同時,有效地提高了模型性能。

    3.3 不同模型性能比較

    為了驗證本文提出的基于Att-BiLSTM-CRF在農(nóng)業(yè)語料上的識別性能,在不同的模型上進行對比實驗,模型包括:LSTM[29]、LSTM-CRF[30]、BiLSTM-CRF[31]以及本文提出的基于文檔級的Att-BiLSTM-CRF,實驗結(jié)果如表5所示。在準確率P、F值兩方面,對比了各模型針對4類實體的識別性能,結(jié)果如圖4所示。

    表5 不同模型的實驗結(jié)果對比

    由表5可知,LSTM模型通過隱藏層獲取過去的序列信息,結(jié)構(gòu)比較單一,模型準確率為80.36%。LSTM-CRF模型相比于LSTM模型,通過添加CRF層,利用實體間相鄰的標簽動態(tài)規(guī)劃最優(yōu)的序列標注,模型準確率為83.95%。為了獲得輸入序列豐富的上下文信息,基于BiLSTM-CRF模型框架,模型準確率為89.89%,與LSTM-CRF模型相比,提升了5.94個百分點?;谖臋n級注意力的Att-BiLSTM-CRF模型,通過添加注意力層,獲取文本中實體間的相似系數(shù),與其他3個模型相比,準確率P和F值最高,分別為93.48%和92.01%。

    圖4展示了4種模型對于農(nóng)藥、蟲害、農(nóng)作物品種以及病害4類實體的識別率P和F值,4種模型對病害和農(nóng)藥實體識別準確率較高,蟲害和農(nóng)作物品種較低。LSTM模型結(jié)構(gòu)單一,對于復(fù)雜的蟲害和農(nóng)作物品種實體,模型不能獲取豐富的特征信息,識別率為65.92%和71.64%,F(xiàn)值為71.33%和72.48%。LSTM-CRF模型對蟲害實體識別率為73.18%,農(nóng)作物品種實體識別率為76.59%,相較于LSTM模型分別提高了7.26、4.95個百分點。

    分析得出,病害和農(nóng)藥具有較規(guī)則的后綴組成詞,例如,病害的“病”、農(nóng)藥的“乳油”等,這些明顯的字特征信息提高了這類實體識別的準確率。而蟲害和農(nóng)作物的構(gòu)詞比較復(fù)雜,例如“數(shù)字+詞”、“數(shù)字+字母”等方式,因此這類實體需要提升模型的復(fù)雜性,來獲取更豐富的特征信息。

    BiLSTM-CRF模型對農(nóng)藥和病害實體識別率相對較高,為94.35%、92.70%,對蟲害和農(nóng)作物兩類實體識別率為83.66%、85.47%,相較于LSTM-CRF模型,分別提升了10.48、8.88個百分點。模型通過雙向LSTM隱藏層提取過去和未來的序列信息,對復(fù)雜、長度較大的實體識別率有較大提升。但是,模型依然存在實體標簽不一致的現(xiàn)象。

    本文Att-BiLSTM-CRF模型對農(nóng)藥實體識別率達到97.58%,蟲害實體識別率為91.15%,對于構(gòu)詞更復(fù)雜的農(nóng)作物品種實體識別率達到最高的87.26%,F(xiàn)值為84.92%。進一步驗證了添加文檔級的注意力機制,結(jié)合實體所在文本的語境信息,獲取實體關(guān)注度能夠提高農(nóng)業(yè)實體的識別效果。

    實驗結(jié)果表明,本文提出的Att-BiLSTM-CRF模型不使用任何字典或外部注解資源,在訓(xùn)練過程中動態(tài)地獲取實體間的相似關(guān)系,能夠有效地識別農(nóng)業(yè)復(fù)雜實體,F(xiàn)值達到92.01%。

    3.4 不同模型識別效率比較

    為了驗證語料集的規(guī)模對模型性能的影響,本文新增了3個語料庫,包含實體數(shù)量分別為9 906、15 020、20 618,新增的語料庫同樣按照7∶2∶1的比例進行分配,數(shù)據(jù)集之間無重疊,實驗結(jié)果如下:LSTM模型由于結(jié)構(gòu)比較單一,在4種規(guī)模語料庫準確率較低,分別為64.52%、72.85%、83.93%、85.11%。LSTM-CRF模型通過添加CRF層,獲取標簽轉(zhuǎn)移的最優(yōu)概率,與LSTM相比,模型準確率分別提高了1.40、2.03、0.43、1.57個百分點。BiLSTM-CRF和Att-BiLSTM-CRF在語料集較小的情況下,模型達到較好的識別效果。隨著語料集規(guī)模的擴大,融入注意力機制的Att-BiLSTM-CRF模型,在4種規(guī)模語料庫識別準確率均達到最高,分別為85.11%、86.68%、90.29%、93.48%。

    最后,本文通過中國農(nóng)技推廣信息平臺,在農(nóng)技問答板塊,抽取了相應(yīng)的農(nóng)戶問答文本數(shù)據(jù),應(yīng)用Att-BiLSTM-CRF模型對文本數(shù)據(jù)進行了實體識別,結(jié)果如表6所示。

    表6 問答數(shù)據(jù)識別結(jié)果示例Tab.6 Examples of Q&A data recognition results

    4 結(jié)論

    (1)針對農(nóng)業(yè)領(lǐng)域命名實體識別中實體識別類別眾多、實體類型組成復(fù)雜,造成分詞不準確等問題,提出基于注意力機制的Att-BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型方法,提升了識別性能,F(xiàn)值為92.01%。

    (2)通過預(yù)訓(xùn)練的方法獲取農(nóng)業(yè)實體字級的分布式表示,緩解分詞錯誤造成的性能影響。通過多種向量維度的實驗,證明基于字向量的識別方法適用于農(nóng)業(yè)領(lǐng)域NER任務(wù),字向量維度設(shè)置為100,模型準確率P達到93.48%,召回率為90.60%。

    (3)基于文檔級的注意力機制獲取實體間的相似度,可確保農(nóng)業(yè)實體標簽的一致性,避免錯標或者漏標的情況,提高了模型識別性能。

    猜你喜歡
    語料語料庫文檔
    有人一聲不吭向你扔了個文檔
    《語料庫翻譯文體學(xué)》評介
    把課文的優(yōu)美表達存進語料庫
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    基于RI碼計算的Word復(fù)制文檔鑒別
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
    基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
    語言與翻譯(2015年4期)2015-07-18 11:07:45
    《苗防備覽》中的湘西語料
    國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
    午夜免费男女啪啪视频观看| 欧美日本中文国产一区发布| 欧美激情高清一区二区三区| 制服诱惑二区| 国产片内射在线| av国产久精品久网站免费入址| 性色av一级| 少妇被粗大的猛进出69影院| 母亲3免费完整高清在线观看| 一本色道久久久久久精品综合| 看免费av毛片| 在线亚洲精品国产二区图片欧美| 亚洲成av片中文字幕在线观看| 国产成人精品无人区| 老司机午夜十八禁免费视频| 精品少妇内射三级| 亚洲少妇的诱惑av| 成人国产av品久久久| 亚洲,欧美精品.| 精品免费久久久久久久清纯 | avwww免费| 黑丝袜美女国产一区| 亚洲一区二区三区欧美精品| 多毛熟女@视频| 男人爽女人下面视频在线观看| 国产亚洲av片在线观看秒播厂| 捣出白浆h1v1| 国产成人av教育| 一区二区三区四区激情视频| 三上悠亚av全集在线观看| 欧美黄色片欧美黄色片| 国产一区二区三区av在线| 在线观看国产h片| 久久久久网色| 午夜福利一区二区在线看| 天堂中文最新版在线下载| 日韩一卡2卡3卡4卡2021年| 国产免费视频播放在线视频| 成年av动漫网址| 啦啦啦 在线观看视频| 亚洲熟女精品中文字幕| 啦啦啦中文免费视频观看日本| 激情视频va一区二区三区| 国产精品久久久人人做人人爽| 一级片免费观看大全| 色综合欧美亚洲国产小说| 热99国产精品久久久久久7| 一个人免费看片子| 国产精品 国内视频| 欧美日韩亚洲国产一区二区在线观看 | 亚洲成人免费电影在线观看 | 美女福利国产在线| 亚洲国产毛片av蜜桃av| 精品福利永久在线观看| 久久午夜综合久久蜜桃| 晚上一个人看的免费电影| 久久久久精品人妻al黑| 久久这里只有精品19| 91精品国产国语对白视频| 欧美亚洲日本最大视频资源| 国产一区二区三区综合在线观看| 亚洲av成人精品一二三区| 美女福利国产在线| 波多野结衣av一区二区av| 叶爱在线成人免费视频播放| 一级毛片 在线播放| 91九色精品人成在线观看| 自线自在国产av| 国产免费现黄频在线看| 十分钟在线观看高清视频www| 欧美乱码精品一区二区三区| 天天影视国产精品| 国产黄色免费在线视频| 久久99热这里只频精品6学生| 婷婷色av中文字幕| 看十八女毛片水多多多| 一本色道久久久久久精品综合| 日本欧美国产在线视频| 欧美老熟妇乱子伦牲交| 女警被强在线播放| www日本在线高清视频| 乱人伦中国视频| 国产不卡av网站在线观看| 亚洲,欧美,日韩| 国产成人系列免费观看| 人人妻人人爽人人添夜夜欢视频| 精品免费久久久久久久清纯 | 香蕉国产在线看| 久久久精品国产亚洲av高清涩受| 女人爽到高潮嗷嗷叫在线视频| 久久久久久人人人人人| 久久鲁丝午夜福利片| 成人手机av| 青青草视频在线视频观看| 热re99久久精品国产66热6| 人妻一区二区av| 亚洲五月婷婷丁香| 中文字幕av电影在线播放| 18禁观看日本| 亚洲国产精品一区二区三区在线| 国产成人啪精品午夜网站| 一二三四在线观看免费中文在| 国产不卡av网站在线观看| 国产黄频视频在线观看| 高清不卡的av网站| 国产又爽黄色视频| 亚洲五月婷婷丁香| 咕卡用的链子| 久久久精品免费免费高清| 超色免费av| 久久青草综合色| 狠狠精品人妻久久久久久综合| 久久国产精品大桥未久av| 日本wwww免费看| 91九色精品人成在线观看| 免费少妇av软件| 久久久亚洲精品成人影院| 久久影院123| 国产亚洲av高清不卡| 一本一本久久a久久精品综合妖精| 日本色播在线视频| 欧美 亚洲 国产 日韩一| 国产主播在线观看一区二区 | 成年av动漫网址| 国产av精品麻豆| xxx大片免费视频| 美女国产高潮福利片在线看| 国产精品二区激情视频| 日本wwww免费看| av不卡在线播放| h视频一区二区三区| 嫁个100分男人电影在线观看 | 51午夜福利影视在线观看| 美女扒开内裤让男人捅视频| 蜜桃国产av成人99| 久久中文字幕一级| 国产一区二区 视频在线| 三上悠亚av全集在线观看| 国产熟女欧美一区二区| 久久久精品94久久精品| 国产爽快片一区二区三区| 精品国产乱码久久久久久男人| 成人国产av品久久久| 97精品久久久久久久久久精品| 午夜福利乱码中文字幕| 久久精品亚洲av国产电影网| 久久精品国产综合久久久| 美女午夜性视频免费| 婷婷色麻豆天堂久久| 精品少妇久久久久久888优播| 国产爽快片一区二区三区| 免费观看av网站的网址| 9色porny在线观看| 亚洲图色成人| 人成视频在线观看免费观看| xxxhd国产人妻xxx| 欧美在线黄色| 观看av在线不卡| 亚洲精品国产av成人精品| 赤兔流量卡办理| 别揉我奶头~嗯~啊~动态视频 | 搡老岳熟女国产| 视频在线观看一区二区三区| 亚洲国产欧美网| 美女午夜性视频免费| 久久99精品国语久久久| 超碰成人久久| 国产精品九九99| 精品久久蜜臀av无| 麻豆乱淫一区二区| 午夜免费成人在线视频| 青春草视频在线免费观看| 亚洲国产日韩一区二区| 日韩一本色道免费dvd| 最新在线观看一区二区三区 | 高清欧美精品videossex| 天天躁日日躁夜夜躁夜夜| 99热全是精品| 亚洲精品久久成人aⅴ小说| 精品久久久久久久毛片微露脸 | 日韩,欧美,国产一区二区三区| 男女边摸边吃奶| www.精华液| 日本欧美国产在线视频| 伊人久久大香线蕉亚洲五| 黄片小视频在线播放| 久久免费观看电影| 多毛熟女@视频| 亚洲国产成人一精品久久久| 精品福利永久在线观看| 色播在线永久视频| 高清视频免费观看一区二区| av又黄又爽大尺度在线免费看| 一区二区三区激情视频| 免费女性裸体啪啪无遮挡网站| 亚洲av电影在线观看一区二区三区| 亚洲 国产 在线| 永久免费av网站大全| 啦啦啦中文免费视频观看日本| 搡老岳熟女国产| 制服诱惑二区| 97精品久久久久久久久久精品| 视频区欧美日本亚洲| 又粗又硬又长又爽又黄的视频| 亚洲精品国产区一区二| 天天操日日干夜夜撸| 高潮久久久久久久久久久不卡| 丝袜喷水一区| 又大又黄又爽视频免费| 黄网站色视频无遮挡免费观看| 最近中文字幕2019免费版| 亚洲欧洲精品一区二区精品久久久| 好男人电影高清在线观看| 国产女主播在线喷水免费视频网站| av国产精品久久久久影院| 精品国产超薄肉色丝袜足j| 午夜精品国产一区二区电影| 久久ye,这里只有精品| 一级毛片我不卡| www.自偷自拍.com| 宅男免费午夜| 免费看十八禁软件| 国产精品一区二区在线不卡| 日本91视频免费播放| 国产精品国产三级专区第一集| 色播在线永久视频| 亚洲精品美女久久av网站| 2018国产大陆天天弄谢| 十八禁高潮呻吟视频| 国产精品国产三级专区第一集| 欧美日韩国产mv在线观看视频| 午夜免费男女啪啪视频观看| 自拍欧美九色日韩亚洲蝌蚪91| 亚洲国产成人一精品久久久| 日韩av不卡免费在线播放| 丝袜美足系列| 日本黄色日本黄色录像| av天堂久久9| 少妇精品久久久久久久| 国产一区二区在线观看av| 亚洲成人免费电影在线观看 | 日日摸夜夜添夜夜爱| 久久久精品免费免费高清| 亚洲国产av影院在线观看| 午夜两性在线视频| 国产精品 国内视频| av国产久精品久网站免费入址| 黄片小视频在线播放| 可以免费在线观看a视频的电影网站| 国产精品久久久久久精品古装| 满18在线观看网站| 9191精品国产免费久久| 19禁男女啪啪无遮挡网站| 多毛熟女@视频| videos熟女内射| 一区在线观看完整版| 黄色视频在线播放观看不卡| 中文字幕另类日韩欧美亚洲嫩草| 在线观看免费高清a一片| 国产午夜精品一二区理论片| av又黄又爽大尺度在线免费看| 亚洲精品国产av蜜桃| 18在线观看网站| 久久精品亚洲熟妇少妇任你| 女人久久www免费人成看片| 久久久精品94久久精品| 精品一品国产午夜福利视频| 日韩中文字幕视频在线看片| 精品人妻1区二区| 午夜av观看不卡| a级毛片黄视频| 亚洲av电影在线进入| 精品第一国产精品| 在线观看免费视频网站a站| 日本vs欧美在线观看视频| 亚洲精品国产区一区二| 国产精品成人在线| 精品少妇一区二区三区视频日本电影| 你懂的网址亚洲精品在线观看| 亚洲精品久久午夜乱码| 国产一卡二卡三卡精品| 久久久精品94久久精品| 精品国产一区二区三区四区第35| 桃花免费在线播放| 18禁观看日本| 日韩伦理黄色片| 国产日韩欧美视频二区| 天天躁夜夜躁狠狠久久av| 一本大道久久a久久精品| 日韩,欧美,国产一区二区三区| 久久久久精品国产欧美久久久 | 黄色视频在线播放观看不卡| 亚洲国产精品一区二区三区在线| 国产精品久久久久成人av| 国产三级黄色录像| 伦理电影免费视频| 亚洲人成网站在线观看播放| 国产精品 欧美亚洲| 一个人免费看片子| 在线av久久热| 一个人免费看片子| 各种免费的搞黄视频| 丝瓜视频免费看黄片| 波多野结衣一区麻豆| 亚洲五月色婷婷综合| 亚洲欧美一区二区三区黑人| 一区二区三区乱码不卡18| 在线天堂中文资源库| 国产一区二区 视频在线| 久热这里只有精品99| 十分钟在线观看高清视频www| 久久久久久久国产电影| 别揉我奶头~嗯~啊~动态视频 | 老汉色av国产亚洲站长工具| 伦理电影免费视频| 两个人免费观看高清视频| 婷婷丁香在线五月| 巨乳人妻的诱惑在线观看| 亚洲免费av在线视频| 91字幕亚洲| 波多野结衣一区麻豆| 日韩一区二区三区影片| 亚洲五月婷婷丁香| 天堂俺去俺来也www色官网| 老鸭窝网址在线观看| 女人被躁到高潮嗷嗷叫费观| 欧美日韩亚洲综合一区二区三区_| 国精品久久久久久国模美| 亚洲,欧美,日韩| av天堂久久9| 精品人妻在线不人妻| av网站在线播放免费| 欧美av亚洲av综合av国产av| 亚洲av男天堂| 丁香六月天网| 一本色道久久久久久精品综合| 精品人妻1区二区| 亚洲欧洲国产日韩| 99久久人妻综合| 99热国产这里只有精品6| 蜜桃国产av成人99| 国产黄色免费在线视频| 一区二区三区乱码不卡18| 久久精品久久精品一区二区三区| 蜜桃在线观看..| 可以免费在线观看a视频的电影网站| 超碰97精品在线观看| 又大又爽又粗| 精品国产超薄肉色丝袜足j| 亚洲人成电影观看| 精品少妇一区二区三区视频日本电影| 十八禁人妻一区二区| 亚洲欧美日韩另类电影网站| 中国美女看黄片| 久热爱精品视频在线9| 亚洲av欧美aⅴ国产| 五月天丁香电影| 亚洲国产精品一区二区三区在线| 亚洲一区中文字幕在线| 男女下面插进去视频免费观看| av国产久精品久网站免费入址| 国产精品国产av在线观看| 久久九九热精品免费| 亚洲 欧美一区二区三区| 亚洲av电影在线观看一区二区三区| 国产野战对白在线观看| 别揉我奶头~嗯~啊~动态视频 | 手机成人av网站| 国产av精品麻豆| 久久 成人 亚洲| 蜜桃在线观看..| 99热网站在线观看| 妹子高潮喷水视频| a级毛片在线看网站| 欧美日韩国产mv在线观看视频| 十八禁网站网址无遮挡| 男女边吃奶边做爰视频| 午夜福利视频在线观看免费| 精品熟女少妇八av免费久了| 一边摸一边做爽爽视频免费| 看十八女毛片水多多多| 男女国产视频网站| 亚洲成人免费av在线播放| 欧美日韩福利视频一区二区| 一级黄片播放器| 人成视频在线观看免费观看| 精品高清国产在线一区| 一本一本久久a久久精品综合妖精| 熟女少妇亚洲综合色aaa.| 亚洲专区中文字幕在线| 丝袜人妻中文字幕| 五月天丁香电影| 视频区欧美日本亚洲| 黄片播放在线免费| 国产精品香港三级国产av潘金莲 | 一级黄色大片毛片| 色94色欧美一区二区| 丰满迷人的少妇在线观看| 91成人精品电影| 久久99一区二区三区| 一区二区三区乱码不卡18| 免费观看人在逋| www日本在线高清视频| 国产熟女欧美一区二区| 亚洲色图综合在线观看| 在线观看免费视频网站a站| 中文字幕人妻熟女乱码| 国产片特级美女逼逼视频| 日韩,欧美,国产一区二区三区| 中文字幕色久视频| 国产日韩欧美亚洲二区| 久久精品久久久久久噜噜老黄| 999精品在线视频| 国产精品偷伦视频观看了| 777久久人妻少妇嫩草av网站| 免费高清在线观看日韩| 黑人欧美特级aaaaaa片| 国产精品香港三级国产av潘金莲 | 热re99久久精品国产66热6| 久久中文字幕一级| 黄色怎么调成土黄色| 亚洲国产看品久久| 一级毛片电影观看| 亚洲精品美女久久久久99蜜臀 | 久久人妻熟女aⅴ| 亚洲国产精品成人久久小说| 一区二区三区精品91| 飞空精品影院首页| 国产成人免费观看mmmm| 亚洲精品久久成人aⅴ小说| 国产精品一区二区在线不卡| 岛国毛片在线播放| 亚洲精品国产av成人精品| 国产女主播在线喷水免费视频网站| 一级a爱视频在线免费观看| 久久天躁狠狠躁夜夜2o2o | 一级毛片 在线播放| 久久国产精品男人的天堂亚洲| 国产成人啪精品午夜网站| 黄片小视频在线播放| 亚洲,一卡二卡三卡| 精品久久久久久久毛片微露脸 | 在线观看www视频免费| 99热国产这里只有精品6| 国产野战对白在线观看| 国产精品国产av在线观看| 久久影院123| 大香蕉久久网| 老司机深夜福利视频在线观看 | 欧美国产精品一级二级三级| 一二三四社区在线视频社区8| 精品高清国产在线一区| 高清黄色对白视频在线免费看| 亚洲精品成人av观看孕妇| 男人操女人黄网站| 在线观看人妻少妇| 精品一区在线观看国产| 大香蕉久久网| www日本在线高清视频| 最新的欧美精品一区二区| 蜜桃国产av成人99| 十分钟在线观看高清视频www| 亚洲精品久久成人aⅴ小说| 国产一区二区 视频在线| 女性生殖器流出的白浆| 五月天丁香电影| 欧美亚洲 丝袜 人妻 在线| 久久久久久久国产电影| 国产男人的电影天堂91| 熟女av电影| 中文字幕高清在线视频| 欧美在线一区亚洲| 美女视频免费永久观看网站| 首页视频小说图片口味搜索 | 在线观看免费高清a一片| 久久人妻熟女aⅴ| 秋霞在线观看毛片| 少妇人妻 视频| 欧美97在线视频| 久久热在线av| 最近中文字幕2019免费版| 黄色视频在线播放观看不卡| 别揉我奶头~嗯~啊~动态视频 | 在线看a的网站| 一区二区三区激情视频| 日本vs欧美在线观看视频| h视频一区二区三区| 亚洲精品久久午夜乱码| 男女之事视频高清在线观看 | 男女下面插进去视频免费观看| 亚洲中文字幕日韩| 日本vs欧美在线观看视频| 精品人妻在线不人妻| av在线播放精品| 国产亚洲精品久久久久5区| 侵犯人妻中文字幕一二三四区| 精品国产乱码久久久久久小说| 国产成人系列免费观看| 久久综合国产亚洲精品| 国产熟女欧美一区二区| 黄网站色视频无遮挡免费观看| 国产精品秋霞免费鲁丝片| av欧美777| 看免费av毛片| 男女免费视频国产| 国产一级毛片在线| 大码成人一级视频| 一二三四社区在线视频社区8| 日韩免费高清中文字幕av| 麻豆av在线久日| 亚洲专区中文字幕在线| 国产激情久久老熟女| 久久鲁丝午夜福利片| 不卡av一区二区三区| 一区二区三区精品91| 男女午夜视频在线观看| 成人影院久久| 99精国产麻豆久久婷婷| 午夜两性在线视频| 七月丁香在线播放| 欧美老熟妇乱子伦牲交| 精品久久久精品久久久| 超色免费av| 涩涩av久久男人的天堂| 久久影院123| 美女脱内裤让男人舔精品视频| 国产视频一区二区在线看| 菩萨蛮人人尽说江南好唐韦庄| 少妇被粗大的猛进出69影院| 大片免费播放器 马上看| 日韩av在线免费看完整版不卡| 狠狠精品人妻久久久久久综合| 熟女少妇亚洲综合色aaa.| 19禁男女啪啪无遮挡网站| 亚洲一区中文字幕在线| 婷婷色综合大香蕉| 精品一品国产午夜福利视频| 久久国产亚洲av麻豆专区| 母亲3免费完整高清在线观看| 久久久久久久国产电影| 夫妻午夜视频| 夫妻性生交免费视频一级片| 侵犯人妻中文字幕一二三四区| 亚洲国产av影院在线观看| 久久毛片免费看一区二区三区| 好男人视频免费观看在线| 18在线观看网站| 国产野战对白在线观看| 人人澡人人妻人| 国产成人精品久久久久久| 亚洲国产欧美日韩在线播放| 亚洲精品国产一区二区精华液| av有码第一页| 侵犯人妻中文字幕一二三四区| 精品久久久久久电影网| 欧美激情 高清一区二区三区| 无限看片的www在线观看| 亚洲色图 男人天堂 中文字幕| 国产又爽黄色视频| 日日摸夜夜添夜夜爱| 日韩人妻精品一区2区三区| 久久精品国产a三级三级三级| 男女高潮啪啪啪动态图| 免费高清在线观看日韩| 激情视频va一区二区三区| av又黄又爽大尺度在线免费看| 亚洲国产日韩一区二区| 亚洲欧美一区二区三区国产| 亚洲伊人久久精品综合| 亚洲av美国av| 国产片特级美女逼逼视频| 国产国语露脸激情在线看| 赤兔流量卡办理| 一本久久精品| 亚洲天堂av无毛| 成年动漫av网址| 王馨瑶露胸无遮挡在线观看| 在线观看免费日韩欧美大片| 国产日韩欧美在线精品| 少妇猛男粗大的猛烈进出视频| 1024视频免费在线观看| 午夜福利视频在线观看免费| 啦啦啦中文免费视频观看日本| 天天躁夜夜躁狠狠久久av| 国产日韩欧美亚洲二区| 精品少妇久久久久久888优播| 美女大奶头黄色视频| 亚洲国产精品国产精品| 久久热在线av| 永久免费av网站大全| 丝瓜视频免费看黄片| 黑人欧美特级aaaaaa片| cao死你这个sao货| 人人妻,人人澡人人爽秒播 | 欧美黑人精品巨大| 女人爽到高潮嗷嗷叫在线视频| 亚洲天堂av无毛| 80岁老熟妇乱子伦牲交| 最近手机中文字幕大全| 美女主播在线视频| 蜜桃在线观看..| 国产精品熟女久久久久浪| 亚洲欧洲国产日韩| 久久av网站| 丝袜脚勾引网站| 菩萨蛮人人尽说江南好唐韦庄| 在线精品无人区一区二区三| 97人妻天天添夜夜摸| 亚洲伊人久久精品综合| 久久精品国产亚洲av涩爱| 手机成人av网站| 国产成人免费观看mmmm| 啦啦啦 在线观看视频| 一边摸一边做爽爽视频免费| 色综合欧美亚洲国产小说|