任 媛,于 紅,楊 鶴,劉巨升,楊惠寧,孫哲濤,張思佳,劉明劍,孫 華
融合注意力機(jī)制與BERT+BiLSTM+CRF模型的漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別
任 媛,于 紅※,楊 鶴,劉巨升,楊惠寧,孫哲濤,張思佳,劉明劍,孫 華
(1. 大連海洋大學(xué)信息工程學(xué)院,大連 116023;2. 設(shè)施漁業(yè)教育部重點(diǎn)實(shí)驗(yàn)室,大連 116023;3. 遼寧省海洋信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,大連 116023)
在漁業(yè)標(biāo)準(zhǔn)文本中,定量指標(biāo)識(shí)別對(duì)標(biāo)準(zhǔn)內(nèi)容服務(wù)具有重要的意義,針對(duì)目前常用的命名實(shí)體識(shí)別方法對(duì)漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別準(zhǔn)確率不高的問(wèn)題,該研究提出了融合注意力機(jī)制與BERT+BiLSTM+CRF(Bidirectional Encoder Representations from Transformers + Bi-directional Long Short-Term Memory + Conditional Random Field,來(lái)自轉(zhuǎn)換器的雙向編碼器表征量+雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)+條件隨機(jī)場(chǎng))模型的漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別方法,該方法將漁業(yè)標(biāo)準(zhǔn)中定量指標(biāo)拆分為指標(biāo)名、指標(biāo)值、單位、限制詞4類實(shí)體,通過(guò)分析漁業(yè)標(biāo)準(zhǔn)語(yǔ)料的特點(diǎn)發(fā)現(xiàn)位置信息對(duì)指標(biāo)名等實(shí)體識(shí)別效果具有重要影響,首先利用BERT模型中位置向量信息提高指標(biāo)名等實(shí)體的識(shí)別效果,其次采用BiLSTM(Bi-directional Long Short-Term Memory,雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò))模型學(xué)習(xí)漁業(yè)標(biāo)準(zhǔn)文本定量指標(biāo)中長(zhǎng)序列語(yǔ)義特征,然后再將注意力機(jī)制與BERT+BiLSTM模型進(jìn)行融合以解決長(zhǎng)序列語(yǔ)義稀釋問(wèn)題,最后利用CRF(Conditional Random Field,條件隨機(jī)場(chǎng))層得到預(yù)測(cè)序列標(biāo)簽。試驗(yàn)結(jié)果表明,融合注意力機(jī)制與BERT+BiLSTM+CRF模型的漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別準(zhǔn)確率為94.51%、召回率為96.37%、1值為95.43%,研究表明,該方法解決了漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別準(zhǔn)確率不高的問(wèn)題,可以比較準(zhǔn)確地識(shí)別由指標(biāo)名、指標(biāo)值、單位、限制詞組成的漁業(yè)標(biāo)準(zhǔn)定量指標(biāo),是一種有效的漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別方法,可為農(nóng)業(yè)、醫(yī)學(xué)、生物等其他領(lǐng)域定量指標(biāo)命名實(shí)體識(shí)別提供新思路。
漁業(yè);標(biāo)準(zhǔn);模型;定量指標(biāo);BERT;注意力機(jī)制;BiLSTM;命名實(shí)體識(shí)別
漁業(yè)標(biāo)準(zhǔn)信息服務(wù)是實(shí)現(xiàn)漁業(yè)標(biāo)準(zhǔn)化生產(chǎn)的基礎(chǔ),基于標(biāo)準(zhǔn)內(nèi)容服務(wù)的漁業(yè)標(biāo)準(zhǔn)精準(zhǔn)服務(wù)是提高漁業(yè)生產(chǎn)效益、提升漁業(yè)管理能力和決策水平的有效手段[1-3]。但目前漁業(yè)標(biāo)準(zhǔn)服務(wù)主要通過(guò)關(guān)鍵字匹配方式進(jìn)行,無(wú)法實(shí)現(xiàn)基于內(nèi)容的標(biāo)準(zhǔn)服務(wù),因此不能滿足精準(zhǔn)服務(wù)需求?;谥R(shí)圖譜的領(lǐng)域信息服務(wù)是領(lǐng)域知識(shí)精準(zhǔn)服務(wù)的主流方法,在農(nóng)業(yè)、醫(yī)學(xué)等領(lǐng)域得到了廣泛應(yīng)用[4-6]。要實(shí)現(xiàn)漁業(yè)標(biāo)準(zhǔn)信息精準(zhǔn)服務(wù),需要構(gòu)建漁業(yè)標(biāo)準(zhǔn)知識(shí)圖譜,漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別是漁業(yè)標(biāo)準(zhǔn)知識(shí)圖譜構(gòu)建的基礎(chǔ)[7]。漁業(yè)標(biāo)準(zhǔn)指標(biāo)是漁業(yè)標(biāo)準(zhǔn)命名實(shí)體的重要組成部分,定量指標(biāo)是其中最重要內(nèi)容之一,定量指標(biāo)識(shí)別的準(zhǔn)確性直接影響漁業(yè)標(biāo)準(zhǔn)命名實(shí)體的識(shí)別效果,進(jìn)而影響漁業(yè)標(biāo)準(zhǔn)知識(shí)圖譜的構(gòu)建質(zhì)量。因此,需要研究有效的漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別算法,以實(shí)現(xiàn)漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)的自動(dòng)提取,為基于標(biāo)準(zhǔn)內(nèi)容服務(wù)的標(biāo)準(zhǔn)信息精準(zhǔn)服務(wù)提供數(shù)據(jù)支撐。
早期命名實(shí)體識(shí)別主要是基于規(guī)則和詞典的方法,王沖等利用敏感詞規(guī)則方法對(duì)用戶的真實(shí)對(duì)話意圖進(jìn)行識(shí)別,解決了分詞結(jié)果不準(zhǔn)確帶來(lái)的錯(cuò)誤傳導(dǎo)問(wèn)題,取得較好的效果[8]。該類方法主要依賴于專家制定規(guī)則,對(duì)語(yǔ)料庫(kù)要求較高,對(duì)詞典和規(guī)則依賴性較強(qiáng),對(duì)詞典中存在的或規(guī)則中涵蓋的實(shí)體識(shí)別效果較好,但不能識(shí)別復(fù)雜實(shí)體。為解決復(fù)雜實(shí)體識(shí)別效果不好的問(wèn)題,向曉雯等采用統(tǒng)計(jì)與規(guī)則結(jié)合的方法進(jìn)行實(shí)體識(shí)別,利用隱馬爾可夫模型進(jìn)行實(shí)體識(shí)別,效果有明顯提升,但無(wú)法有效解決實(shí)體歧義問(wèn)題[9]。深度學(xué)習(xí)具有自主學(xué)習(xí)特征的能力,自2006年被提出以來(lái),已被廣泛應(yīng)用于命名實(shí)體識(shí)別[10]。Majtner等采用深度學(xué)習(xí)方法對(duì)醫(yī)學(xué)領(lǐng)域的黑色腫瘤類別實(shí)體進(jìn)行識(shí)別,解決了人工提取特征效率不高的問(wèn)題,取得了較好的識(shí)別效果,但是該方法無(wú)法有效解決復(fù)雜實(shí)體識(shí)別和實(shí)體嵌套問(wèn)題[11];賀琳等提出使用CNN+BiGRU+CRF(Convolutional Neural Network+ Bi- directional Gated Recurrent Unit+Conditional Random Field,卷積神經(jīng)網(wǎng)絡(luò)+雙向門控循環(huán)網(wǎng)絡(luò)+條件隨機(jī)場(chǎng))模型對(duì)外來(lái)海洋生物實(shí)體進(jìn)行識(shí)別,解決了外來(lái)海洋生物領(lǐng)域?qū)嶓w復(fù)雜且實(shí)體間存在嵌套導(dǎo)致實(shí)體識(shí)別效果較差的問(wèn)題[12];BERT(Bidirectional Encoder Representations from Transformers,來(lái)自轉(zhuǎn)換器的雙向編碼器表征量)模型被提出之后[13],杜琳等利用BERT與BiLSTM(Bi-directional Long Short-Term Memory,雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò))融合注意力機(jī)制對(duì)中醫(yī)藥文本進(jìn)行識(shí)別,解決了中醫(yī)文本利用率低、識(shí)別有效信息效果差的問(wèn)題[14]。文獻(xiàn)[11-14]中的方法對(duì)實(shí)體類別數(shù)量較少情況的效果較好,但是漁業(yè)領(lǐng)域?qū)嶓w類別較多,不能直接上述方法使用。
為解決漁業(yè)領(lǐng)域命名實(shí)體識(shí)別問(wèn)題,孫娟娟等提出基于深度學(xué)習(xí)的漁業(yè)領(lǐng)域命名實(shí)體識(shí)別方法,在漁業(yè)領(lǐng)域命名實(shí)體識(shí)別任務(wù)中取得了較好的效果,但該方法主要針對(duì)較寬范圍的漁業(yè)領(lǐng)域命名實(shí)體識(shí)別,沒(méi)考慮漁業(yè)標(biāo)準(zhǔn)命名實(shí)體存在的實(shí)體特征不明顯、語(yǔ)義序列較長(zhǎng)等問(wèn)題[15]。程名等提出了融合注意力機(jī)制和BiLSTM+CRF漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別方法,該方法對(duì)漁業(yè)標(biāo)準(zhǔn)號(hào)和漁業(yè)標(biāo)準(zhǔn)定性指標(biāo)識(shí)別取得了較好的效果[7]。但對(duì)具有特殊結(jié)構(gòu)的定量指標(biāo)識(shí)別效果不夠好,存在準(zhǔn)確率和召回率偏低的問(wèn)題。因此,需要在研究漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)命名實(shí)體結(jié)構(gòu)特點(diǎn)的基礎(chǔ)上,研究有效的漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)實(shí)體識(shí)別方法。
針對(duì)以上問(wèn)題,本研究在分析漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)結(jié)構(gòu)特性的基礎(chǔ)上,研究漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)實(shí)體分解方法和語(yǔ)料標(biāo)注方法,將漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)分解為指標(biāo)名、指標(biāo)值、單位、限制詞等4類實(shí)體,提出了融合注意力機(jī)制與BERT+BiLSTM+CRF模型的漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別方法,并進(jìn)行試驗(yàn)驗(yàn)證,以實(shí)現(xiàn)對(duì)漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)有效識(shí)別。
1.1.1 數(shù)據(jù)來(lái)源
試驗(yàn)數(shù)據(jù)來(lái)源于漁業(yè)領(lǐng)域真實(shí)生產(chǎn)中采用的標(biāo)準(zhǔn),從“大連市漁業(yè)標(biāo)準(zhǔn)體系化服務(wù)與決策系統(tǒng)平臺(tái)”漁業(yè)標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)中下載了300余篇涵蓋國(guó)標(biāo)、行標(biāo)、地標(biāo)的水產(chǎn)養(yǎng)殖種質(zhì)、育苗、養(yǎng)殖等漁業(yè)標(biāo)準(zhǔn),語(yǔ)料庫(kù)約36萬(wàn)余字符。
1.1.2 漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)結(jié)構(gòu)特性分析
1)漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)的組成元素及分布特性
對(duì)300多篇漁業(yè)標(biāo)準(zhǔn)進(jìn)行分析發(fā)現(xiàn),在漁業(yè)標(biāo)準(zhǔn)中,存在很多定量描述內(nèi)容,例如:“溫度不高于18 ℃”、“孔徑40 mm-80 mm”等,通過(guò)對(duì)這些定量描述分析發(fā)現(xiàn):漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)不是由單一實(shí)體構(gòu)成,而是由幾個(gè)不同類別實(shí)體構(gòu)成,主要包括指標(biāo)名、指標(biāo)值、單位、限制詞4個(gè)部分,例如上例中“溫度”是指標(biāo)名、“不高于”是限制詞、“18”是指標(biāo)值、“℃”是單位,因?yàn)槎恐笜?biāo)中既包含文字又包含數(shù)字和單位,并且組合方式也不同,很難找到固定模式,將漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)作為一個(gè)整體進(jìn)行識(shí)別準(zhǔn)確率和召回率較低,因此需要將漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)進(jìn)行拆分。
通過(guò)對(duì)36余萬(wàn)字符的漁業(yè)標(biāo)準(zhǔn)語(yǔ)料庫(kù)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析發(fā)現(xiàn),漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)的基礎(chǔ)實(shí)體包含指標(biāo)名、指標(biāo)值、限制詞和單位4個(gè)類別,其中每一類基礎(chǔ)實(shí)體在漁業(yè)標(biāo)準(zhǔn)文本中出現(xiàn)的頻率都較高,上述4類實(shí)體字符占文本總量約10.7%,其中各類別實(shí)體數(shù)量及分布如表1所示。
表1 實(shí)體數(shù)據(jù)分布
從以上統(tǒng)計(jì)結(jié)果可以看出,雖然不能將漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)作為一個(gè)整體進(jìn)行實(shí)體識(shí)別,但是只要能識(shí)別出其中的基礎(chǔ)實(shí)體以及基礎(chǔ)實(shí)體之間的位置關(guān)系,就可以把這一個(gè)定量指標(biāo)實(shí)體識(shí)別出來(lái)。因此,將漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)分解為指標(biāo)名、指標(biāo)值、單位、限制詞4類基礎(chǔ)實(shí)體,然后分別把這4類實(shí)體作為單獨(dú)的實(shí)體進(jìn)行識(shí)別,這樣每一類標(biāo)簽都有明顯特征,可以提高每一類實(shí)體的識(shí)別準(zhǔn)確率,進(jìn)而提高定量指標(biāo)的識(shí)別準(zhǔn)確率。
2)漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)的結(jié)構(gòu)形態(tài)
雖然漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)主要由指標(biāo)名、指標(biāo)值、限制詞和單位等4種基礎(chǔ)實(shí)體構(gòu)成,但是它們的結(jié)構(gòu)形態(tài)存在差異,要想準(zhǔn)確識(shí)別每一類實(shí)體,需要了解它們的結(jié)構(gòu)形態(tài),通過(guò)對(duì)36余萬(wàn)字符漁業(yè)標(biāo)準(zhǔn)語(yǔ)料庫(kù)數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)的結(jié)構(gòu)形態(tài)主要包括5種典型的形態(tài),具體形態(tài)如表2所示。每一類形態(tài)中,這4類實(shí)體都具有固定的位置關(guān)系,因此,位置信息對(duì)漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)實(shí)體識(shí)別具有重要的作用。
表2 實(shí)體結(jié)構(gòu)特征實(shí)例
1.1.3 漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)標(biāo)注方法
語(yǔ)料標(biāo)注是命名實(shí)體識(shí)別的重要步驟,不同特點(diǎn)的語(yǔ)料需要采用不同的標(biāo)注方法。命名實(shí)體識(shí)別一般采用BIO(Begin Inside Other,開(kāi)始中間其他)方法進(jìn)行語(yǔ)料標(biāo)注[16],但漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)由4部分組成,基本的BIO方法無(wú)法表達(dá)漁業(yè)標(biāo)準(zhǔn)定量指標(biāo),因此需要根據(jù)定量指標(biāo)命名實(shí)體的結(jié)構(gòu)特點(diǎn)設(shè)計(jì)一種有效的標(biāo)注方法。本研究借鑒并擴(kuò)展了BIO標(biāo)注方法的基本思想[17],在BIO基礎(chǔ)上擴(kuò)展類別信息,與其他標(biāo)注類別不同的是根據(jù)漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)的組成元素和結(jié)構(gòu)形態(tài)給出了標(biāo)簽類別定義。標(biāo)簽類別定義如表3所示。指標(biāo)名、指標(biāo)值、單位、限制詞的表現(xiàn)形式分別用NAM、FIG、UUU、LIM表示。
表3 標(biāo)簽類別定義
1.2.1 模型總體架構(gòu)設(shè)計(jì)
由1.1.2的漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)命名實(shí)體具有結(jié)構(gòu)差異性和形態(tài)多樣性等特點(diǎn),如果將定量指標(biāo)作為整體進(jìn)行識(shí)別,可能會(huì)因?yàn)橛啥鄠€(gè)部分組合起來(lái)的定量指標(biāo)在語(yǔ)料中出現(xiàn)頻率較低導(dǎo)致識(shí)別效果不好,因此,提出將定量指標(biāo)進(jìn)行拆分識(shí)別的方法。由于漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)中各類實(shí)體出現(xiàn)的位置有一定的規(guī)律性,因此位置信息對(duì)拆分后的實(shí)體識(shí)別至關(guān)重要;此外,由于與漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別相關(guān)的字符序列較長(zhǎng),因此實(shí)體識(shí)別時(shí)需要進(jìn)行長(zhǎng)序列語(yǔ)義特征學(xué)習(xí);而長(zhǎng)序列語(yǔ)義特征學(xué)習(xí)可能會(huì)帶來(lái)語(yǔ)義稀釋問(wèn)題,因此需要采用有效的方法解決該問(wèn)題;沒(méi)有規(guī)范性約束的實(shí)體標(biāo)簽中可能由于不規(guī)范標(biāo)簽的存在導(dǎo)致識(shí)別效果不好,因此需要進(jìn)行標(biāo)簽規(guī)范性約束。綜合上述分析,在設(shè)計(jì)漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別模型時(shí)需綜合考慮位置信息利用、長(zhǎng)序列語(yǔ)義特征學(xué)習(xí)、語(yǔ)義稀釋問(wèn)題解決、標(biāo)簽規(guī)范性約束等因素。
對(duì)常用的深度學(xué)習(xí)模型進(jìn)行綜合研究發(fā)現(xiàn),BERT模型具有預(yù)測(cè)推斷位置向量和結(jié)構(gòu)信息的能力;BiLSTM在確保短序列語(yǔ)義學(xué)習(xí)效果的基礎(chǔ)上增加了學(xué)習(xí)長(zhǎng)序列語(yǔ)義的能力;注意力機(jī)制增強(qiáng)特征詞的權(quán)重,可以解決特征詞語(yǔ)義稀釋問(wèn)題;CRF具備對(duì)標(biāo)簽進(jìn)行約束的能力。因此設(shè)計(jì)了融合注意力機(jī)制與BERT+BiLSTM+CRF的漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別模型。
模型總體架構(gòu)如圖1所示。共分為4層網(wǎng)絡(luò)模型,從表 2可以看出,實(shí)體組合方式不同,存在指標(biāo)名在指標(biāo)值前,和指標(biāo)名在指標(biāo)值后的情況,需要學(xué)習(xí)表示實(shí)體之間相互關(guān)系的位置向量,為后面的語(yǔ)義理解打下基礎(chǔ),因此將BERT層作為第一層,先利用預(yù)訓(xùn)練的BERT模型對(duì)語(yǔ)料進(jìn)行初始化,然后將BERT層與BiLSTM結(jié)合,將BERT模型輸出位置和結(jié)構(gòu)信息向量作為雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)各個(gè)時(shí)間點(diǎn)的輸入,送入BiLSTM模型中,為了強(qiáng)化位置信息作用,同時(shí)將位置向量和字向量輸入BiLSTM模型,經(jīng)過(guò)雙向處理后,輸出結(jié)果同時(shí)具備長(zhǎng)時(shí)記憶和短時(shí)記憶。此時(shí),由于長(zhǎng)時(shí)記憶和短時(shí)記憶權(quán)重不同,可能引起長(zhǎng)序列語(yǔ)義稀釋問(wèn)題,用注意力層處理BiLSTM模型的輸出結(jié)果可以提升重點(diǎn)詞語(yǔ)在句子中的權(quán)重,使模型將注意力集中在目標(biāo)實(shí)體上,降低其他無(wú)關(guān)詞作用。CRF層計(jì)算注意力層的輸出得到最優(yōu)結(jié)果,轉(zhuǎn)化成序列標(biāo)簽得到最終預(yù)測(cè)結(jié)果。
1.2.2 BERT層
BERT是一個(gè)預(yù)訓(xùn)練模型[18-21],具有預(yù)測(cè)上下文信息、提供位置信息的作用。在漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)命名實(shí)體識(shí)別任務(wù)中,位置和語(yǔ)義信息起到關(guān)鍵作用,而一般的語(yǔ)言模型不能很好理解句子之間的關(guān)系,漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)需要模型學(xué)習(xí)上下文信息和結(jié)構(gòu)特征,所以采用BERT模型進(jìn)行漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別。
BERT能夠計(jì)算詞語(yǔ)之間的相互聯(lián)系,利用計(jì)算到的權(quán)重提取出文本關(guān)鍵特征,并且利用自注意力機(jī)制進(jìn)行預(yù)訓(xùn)練,相比于其他預(yù)訓(xùn)練模型,可以深層次理解上下文信息,捕捉到文本的結(jié)構(gòu)特點(diǎn)。
BERT模型輸入的是字向量和位置向量的總和[22]。字向量可以表示模型中關(guān)于字的主要信息,因?yàn)樽宰⒁饬C(jī)制不能記住時(shí)序信息,所以加入位置向量可以提升識(shí)別的準(zhǔn)確性。BERT模型輸入實(shí)例如圖2所示,輸入向量由字向量與位置向量的和構(gòu)成。
1.2.3 BiLSTM模型
通過(guò)對(duì)漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)分析發(fā)現(xiàn),漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)中指標(biāo)名實(shí)體長(zhǎng)短不一,最長(zhǎng)實(shí)體可達(dá)8個(gè)字符,上下文存在較強(qiáng)的依賴關(guān)系,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的LSTM可以把長(zhǎng)依賴轉(zhuǎn)化成短依賴并且計(jì)算出依賴的概率[23],可以有效利用上一時(shí)刻特征判斷下一時(shí)刻特征,所以LSTM網(wǎng)絡(luò)實(shí)現(xiàn)了漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別任務(wù)的長(zhǎng)序列記憶功能。在漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)中,例如“大腸桿菌含量小于230 MPN/100 g”其中“大腸桿菌含量”是指標(biāo)名,“小于”是限制詞,“230”是指標(biāo)值,“MPN/100 g”是單位,此時(shí)指標(biāo)名字符較長(zhǎng),而LSTM網(wǎng)絡(luò)可以解決長(zhǎng)序列的問(wèn)題。
但后一時(shí)刻詞權(quán)重大于當(dāng)前時(shí)刻詞權(quán)重是LSTM網(wǎng)絡(luò)存在的問(wèn)題[24]。所以采取雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)BiLSTM(正向LSTM與反向LSTM結(jié)合)對(duì)漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)進(jìn)行識(shí)別,不僅可以解決長(zhǎng)期依賴問(wèn)題,還可以解決后一時(shí)刻權(quán)重大于當(dāng)前時(shí)刻權(quán)重問(wèn)題。
1.2.4 注意力機(jī)制
注意力機(jī)制的靈感來(lái)源于人類觀察事物時(shí)的狀態(tài),當(dāng)人觀察事物時(shí),會(huì)將注意力集中在某些具有特殊特征事物上,忽略特殊特征外的其他事物。注意力機(jī)制利用這一原理可以精準(zhǔn)、快速地學(xué)習(xí)漁業(yè)標(biāo)準(zhǔn)文本信息,BiLSTM模型存在長(zhǎng)序列前端語(yǔ)義稀釋問(wèn)題,輸出的特征向量信息不夠準(zhǔn)確,導(dǎo)致識(shí)別的實(shí)體標(biāo)簽信息錯(cuò)誤。
注意力機(jī)制本質(zhì)是權(quán)重分配,通過(guò)計(jì)算詞與詞之間的關(guān)聯(lián)程度,獲取詞語(yǔ)結(jié)構(gòu)信息。在漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別模型中引入注意力機(jī)制,可以生成不斷變化的語(yǔ)義向量使模型關(guān)注重點(diǎn)詞,抑制無(wú)用詞,可以有效解決BiLSTM網(wǎng)絡(luò)生成固定的語(yǔ)義向量導(dǎo)致長(zhǎng)序列前端語(yǔ)義稀釋的問(wèn)題。
注意力層用來(lái)獲取句子級(jí)別信息[25],可以提取長(zhǎng)距離依賴信息,并對(duì)編碼層信息進(jìn)行整合。注意力層主要計(jì)算注意力權(quán)重向量r,其定義如式(1)所示。
式中y表示BiLSTM 層輸出的特征序列,b表示文檔中詞語(yǔ)之間的相關(guān)性概率分布,其定義如式(2)所示。
式中w和w表示文檔中的第個(gè)詞和第個(gè)詞,是文檔中詞的個(gè)數(shù),( w,w)表示采用詞w與詞w 的相似性得分,( w,w)表示詞w與文檔中任意詞w的相似性得分。
例如:想要判斷“池塘的面積”中的指標(biāo)名實(shí)體,需要根據(jù)公式計(jì)算注意力權(quán)重向量,假設(shè)模型計(jì)算結(jié)果為:“池塘”權(quán)重為0.2,“的”權(quán)重為0.1,“面積”權(quán)重為0.7,選擇最大權(quán)重實(shí)體,因此“面積”被選為指標(biāo)名實(shí)體。
通過(guò)注意力層處理BiLSTM層輸出的特征序列,得到當(dāng)前詞與序列中其他詞的相關(guān)性,獲取全局特征表示,然后將加入注意力機(jī)制的特征序列送入CRF中進(jìn)行標(biāo)簽的預(yù)測(cè)。
1.2.5 CRF層
經(jīng)過(guò)BERT層、BiLSTM層以及注意力層處理后向量需要進(jìn)行序列標(biāo)注,無(wú)約束的標(biāo)注可能給出錯(cuò)誤的標(biāo)簽,為了解決這一問(wèn)題,加入CRF層對(duì)標(biāo)簽進(jìn)行約束。CRF層能從訓(xùn)練數(shù)據(jù)中獲得約束性規(guī)則,可以為最后預(yù)測(cè)的標(biāo)簽添加約束,保證預(yù)測(cè)標(biāo)簽合法性[26]。在訓(xùn)練過(guò)程中,這些約束可以通過(guò)CRF層自動(dòng)學(xué)習(xí),具體約束有兩點(diǎn)。
1)句子中第一個(gè)詞總是以標(biāo)簽“B-”或“O”開(kāi)始,而不是“I-”。
2)標(biāo)簽“B-L1 I-L2 I-L3 I-…”,其中L1、L2、L3實(shí)體標(biāo)簽類型是一樣的。例如“B-LIM I-LIM I-LIM”是合法序列標(biāo)簽,“B-UUU I-FIG”就是不合法序列標(biāo)簽。定義這些約束條件,使預(yù)測(cè)不合法的序列標(biāo)簽出現(xiàn)概率降低,可以提升整體識(shí)別的準(zhǔn)確率。
1)試驗(yàn)環(huán)境
研究試驗(yàn)的硬件環(huán)境為intel xeon E5-2630 v3 2.4 GHZ處理器,6 GB內(nèi)存,操作系統(tǒng)為 Ubuntu 16.04 LTS 64 bit,GPU為GTX2080Ti。搭建依賴環(huán)境為python3+tensorflow1.12。
2)試驗(yàn)數(shù)據(jù)
試驗(yàn)將36余萬(wàn)字符分為兩部分,將試驗(yàn)數(shù)據(jù)80%作為訓(xùn)練集,20%的數(shù)據(jù)作為測(cè)試集進(jìn)行試驗(yàn)。
3)試驗(yàn)方案
首先,BiLSTM+CRF模型是命名實(shí)體識(shí)別領(lǐng)域的基線(baseline)模型,一般的命名實(shí)體識(shí)別算法都與該模型進(jìn)行比較,因此設(shè)計(jì)了與BiLSTM+CRF模型的比較試驗(yàn);其次,此前程名等對(duì)漁業(yè)標(biāo)準(zhǔn)指標(biāo)進(jìn)行了識(shí)別,取得了一定效果,但是未能有效識(shí)別漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)[7],本研究是為了解決程名等提出的模型不能有效識(shí)別漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)這一問(wèn)題而提出的,因此設(shè)計(jì)了與程名等提出的融合注意力與BiLSTM+CRF模型的比較試驗(yàn);最后,為了比較注意力機(jī)制對(duì)識(shí)別結(jié)果的影響,分別設(shè)計(jì)了BERT+BiLSTM+CRF模型試驗(yàn)以及融合注意力與BERT+BiLSTM+CRF模型試驗(yàn),因此總共設(shè)計(jì)了4個(gè)模型試驗(yàn)。此外,因?yàn)闈O業(yè)標(biāo)準(zhǔn)定量指標(biāo)中包括4類實(shí)體,每類實(shí)體具有不同特點(diǎn),為了比較不同實(shí)體的識(shí)別效果,設(shè)計(jì)了不同類別實(shí)體識(shí)別效果比較試驗(yàn)。
4)試驗(yàn)結(jié)果評(píng)價(jià)方法
目前,在命名實(shí)體識(shí)別任務(wù)中,評(píng)價(jià)模型效果的指標(biāo)主要包括準(zhǔn)確率、召回率和1值[27],因?yàn)闈O業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別任務(wù)的目標(biāo)是自動(dòng)識(shí)別文本中的命名實(shí)體,為知識(shí)圖譜構(gòu)建提供數(shù)據(jù),命名實(shí)體識(shí)別的準(zhǔn)確率、召回率將直接影響知識(shí)圖譜的構(gòu)建質(zhì)量,因此選擇準(zhǔn)確率、召回率和1值作為漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別任務(wù)的性能評(píng)價(jià)指標(biāo)。
在試驗(yàn)過(guò)程中,參數(shù)優(yōu)化是關(guān)鍵步驟。需要依次改變模型中某個(gè)參數(shù),其余參數(shù)固定不變,對(duì)測(cè)試集進(jìn)行訓(xùn)練進(jìn)行最優(yōu)化探索,最終獲得實(shí)體識(shí)別效果較好的模型參數(shù)。主要修改學(xué)習(xí)率、迭代次數(shù)(Epoch)、失活率(Dropout)、隨機(jī)初始化向量和優(yōu)化器。學(xué)習(xí)率越大,損失函數(shù)越大,識(shí)別效果越差,但學(xué)習(xí)率過(guò)小會(huì)使收斂速率降低,導(dǎo)致識(shí)別速率減慢;完成1次完整模型訓(xùn)練就是1次迭代,但是由于1次迭代并不能保證學(xué)習(xí)效果最好所以需要多次迭代,迭代次數(shù)表示模型學(xué)習(xí)效果最好的次數(shù);失活率過(guò)大則導(dǎo)致模型不收斂,過(guò)小則導(dǎo)致模型收斂特別慢或者無(wú)法學(xué)習(xí),因此需要設(shè)置合適的失活率;初始化向量就是將數(shù)據(jù)分為數(shù)據(jù)塊,且固定大小的數(shù)據(jù)塊;優(yōu)化器用來(lái)更新和計(jì)算影響模型訓(xùn)練和模型輸出的網(wǎng)絡(luò)參數(shù),使其逼近或達(dá)到最優(yōu)值[28]。
通過(guò)對(duì)訓(xùn)練集的數(shù)據(jù)進(jìn)行參數(shù)訓(xùn)練,得到最優(yōu)訓(xùn)練參數(shù)如下:學(xué)習(xí)率為0.001,迭代次數(shù)為40,失活率為0.5,向量維為300,優(yōu)化器為Adam。
2.3.1 模型綜合性能比較試驗(yàn)
對(duì)BiLSTM+CRF模型、融合注意力+BiLSTM+CRF模型、BERT+BiLSTM+CRF模型和融合注意力與BERT+ BiLSTM+CRF模型進(jìn)行了試驗(yàn),所有模型試驗(yàn)的訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù)均采用同一數(shù)據(jù)集,試驗(yàn)結(jié)果如表4所示。
表4 不同模型試驗(yàn)結(jié)果對(duì)比
從表4可以看出,無(wú)論是BiLSTM+CRF模型還是BERT+BiLSTM+CRF模型,加入注意力機(jī)制后,識(shí)別的準(zhǔn)確率、召回率、1值分別為91.73%、89.64%、90.78%和94.51%、96.37%、95.43%,說(shuō)明用注意力機(jī)制增加對(duì)漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)中各類實(shí)體的權(quán)重可以有效提升識(shí)別效果;在BiLSTM+CRF模型的基礎(chǔ)上加入BERT模型后,識(shí)別效果顯著提升,準(zhǔn)確率、召回率、1值分別為92.89%、96.08%、94.46%,說(shuō)明位置信息在漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別過(guò)程中具有重要作用,加入BERT預(yù)訓(xùn)練語(yǔ)言模型后,增加了表達(dá)位置的信息,使得識(shí)別效果提升幅度較大。提出的融合注意力機(jī)制與BERT+BiLSTM+CRF模型識(shí)別結(jié)果優(yōu)于其他模型,與融合注意力+BiLSTM+CRF模型相比,準(zhǔn)確率、召回率、1值分別提升2.78、6.73、4.65個(gè)百分點(diǎn),與BERT+BiLSTM+CRF模型相比,準(zhǔn)確率、召回率和1值分別提升1.62、0.25和0.97個(gè)百分點(diǎn),說(shuō)明位置信息和實(shí)體權(quán)重信息同樣重要,在BiLSTM+CRF模型的基礎(chǔ)上,加入注意力機(jī)制和BERT模型既提供實(shí)體自身權(quán)重,又突出了位置信息權(quán)重,使模型更準(zhǔn)確地識(shí)別定量指標(biāo)。
2.3.2 不同類別實(shí)體識(shí)別效果比較試驗(yàn)
為進(jìn)一步評(píng)價(jià)各類定量指標(biāo)實(shí)體的識(shí)別效果,將4組模型進(jìn)行對(duì)比試驗(yàn),分別對(duì)指標(biāo)名、指標(biāo)值、單位、限制詞4類不同實(shí)體進(jìn)行識(shí)別,試驗(yàn)結(jié)果如表5所示。
從試驗(yàn)結(jié)果可知,4類實(shí)體的識(shí)別結(jié)果中,指標(biāo)值、單位、限制詞的識(shí)別結(jié)果較好,而指標(biāo)名的識(shí)別結(jié)果較差,因?yàn)檫@3類實(shí)體大多是由數(shù)字以及特殊符號(hào)構(gòu)成,與上下文的文字相比,實(shí)體特征較為明顯,結(jié)合位置信息進(jìn)行識(shí)別,識(shí)別的準(zhǔn)確率、召回率較高;而指標(biāo)名完全由文字構(gòu)成,與上下文的文字相似度較高,需要先進(jìn)行與上下文之間的邊界劃分,再進(jìn)行實(shí)體識(shí)別,邊界劃分導(dǎo)致的錯(cuò)誤會(huì)傳遞給實(shí)體識(shí)別任務(wù),進(jìn)而降低識(shí)別的準(zhǔn)確性,因此整體識(shí)別效果不好。
綜合上述試驗(yàn),融合注意力機(jī)制與BERT+ BiLSTM+CRF模型的識(shí)別效果優(yōu)于其他3個(gè)模型,識(shí)別的準(zhǔn)確率接近95%,召回率、1值均超過(guò)95%,與BERT+BiLSTM+CRF命名實(shí)體識(shí)別模型相比,采用注意力機(jī)制可以高效分配注意力資源,有選擇地關(guān)注相關(guān)信息,更精準(zhǔn)地學(xué)習(xí)特征信息,注意力機(jī)制通過(guò)計(jì)算時(shí)序向量進(jìn)行加權(quán),將權(quán)重作為特征向量的方法,解決了BiLSTM模型梯度消失問(wèn)題,1值有明顯提升。與程名等[7]采用融合注意力機(jī)制和BiLSTM+CRF的漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別模型相比,提出的模型結(jié)合字向量、位置向量、句子特征進(jìn)行識(shí)別,并使用BERT模型的自注意力機(jī)制進(jìn)行預(yù)訓(xùn)練,BERT模型中的Transformer層采用雙向編碼器表示能夠很好地增強(qiáng)文本上下文記憶[29],使準(zhǔn)確率、召回率、1值均有提升,經(jīng)試驗(yàn)證明,該模型在漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)命名實(shí)體識(shí)別結(jié)果有較大提升。
表5 不同模型類別結(jié)果對(duì)比
1)本研究針對(duì)漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)由多個(gè)基礎(chǔ)實(shí)體組成且實(shí)體結(jié)構(gòu)差異性大等問(wèn)題,提出了實(shí)體拆分的方法,將定量指標(biāo)拆分為指標(biāo)名、指標(biāo)值、單位、限制詞4類基礎(chǔ)實(shí)體進(jìn)行識(shí)別,有效解決了漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)實(shí)體識(shí)別困難的問(wèn)題。
2)針對(duì)漁業(yè)標(biāo)準(zhǔn)文本中定量指標(biāo)識(shí)別準(zhǔn)確率不高的問(wèn)題,設(shè)計(jì)了融合注意力機(jī)制與BERT+BiLSTM+CRF模型的漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別方法,與程名等提出的融合注意力機(jī)制和BiLSTM+CRF模型的漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別方法相比,提出的模型結(jié)合字向量、位置向量、句子特征進(jìn)行識(shí)別,并使用BERT模型的自注意力機(jī)制進(jìn)行預(yù)訓(xùn)練,采用雙向編碼器方式增強(qiáng)了文本上下文記憶,識(shí)別效果得到了明顯提升,識(shí)別的準(zhǔn)確率為94.51%、召回率為96.37%、1值為95.43%,解決了漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別準(zhǔn)確率不高的問(wèn)題,是一種有效的漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別方法,也為農(nóng)業(yè)、醫(yī)學(xué)、生物等其他領(lǐng)域的定量指標(biāo)命名實(shí)體識(shí)別提供了新思路。
雖然本研究已經(jīng)提升了漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)實(shí)體識(shí)別問(wèn)題,但由于實(shí)體邊界不清晰導(dǎo)致指標(biāo)名類別實(shí)體的識(shí)別效果依然不夠理想,下一步需要研究一種方法有效解決實(shí)體邊界不清晰導(dǎo)致錯(cuò)誤傳遞的問(wèn)題。
[1] 任酉貴. 遼寧省海洋漁業(yè)綜合管理數(shù)據(jù)服務(wù)平臺(tái)建設(shè)概述[J]. 海洋信息,2019,34(2):57-61.
Ren Yougui. The construction of liaoning oceans and fisheries management data service platform based on big spatial data[J]. Ocean Information, 2019, 34(2): 57-61. (in Chinese with English abstract)
[2] 于紅,馮艷紅,李晗,等. 漁業(yè)標(biāo)準(zhǔn)體系化服務(wù)與決策系統(tǒng)研究[J]. 大連海洋大學(xué)學(xué)報(bào),2019,34(2):260-266.
Yu Hong, Feng Yanhong, Li Han, et al. Establishment of a systematic service and assistant decision-making system for fishery standard[J]. Journal of Dalian Ocean University, 2019, 34(2): 260-266. (in Chinese with English abstract)
[3] 劉亞迪,余連祥,冷華南. 鄉(xiāng)村振興戰(zhàn)略背景下現(xiàn)代漁業(yè)發(fā)展優(yōu)勢(shì)、問(wèn)題及政策分析:以浙江省湖州市南潯區(qū)漁業(yè)發(fā)展為例[J]. 海洋湖沼通報(bào),2020(5):155-163.
Liu Yadi, Yu Lianxiang, Leng Huanan. Analysis of advantages, problems and policies of modern fishery development in the context of rural revitalization strategy: Take Nanxun District, Huzhou, Zhejiang Province as an example[J]. Bulletin of Oceans and Lakes, 2020(5): 155-163. (in Chinese with English abstract)
[4] 吳賽賽,周愛(ài)蓮,謝能付,等. 基于深度學(xué)習(xí)的作物病蟲(chóng)害可視化知識(shí)圖譜構(gòu)建[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(24):177-185.
Wu Saisai, Zhou Ailian, Xie Nengfu, et al. Construction of visual knowledge graph of crop diseases and insect pests based on deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(24): 177-185. (in Chinese with English abstract)
[5] 張善文,王振,王祖良. 結(jié)合知識(shí)圖譜與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的小麥條銹病預(yù)測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(12):172-178.
Zhang Shanwen, Wang Zhen, Wang Zuliang. Prediction of wheat srtipe rust disease by combining knowledge graph and bidirectional long short-term memory network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(12): 172-178. (in Chinese with English abstract)
[6] 奧德瑪,楊云飛,穗志方,等. 中文醫(yī)學(xué)知識(shí)圖譜 CMeKG構(gòu)建初探[J]. 中文信息學(xué)報(bào),2019,33(10):1-9.
Ao Dema, Yang Yunfei, Sui Zhifang, et al. Preliminary study on the construction of Chinese medical knowledge graph[J]. Journal of Chinese Information Processing, 2019, 33(10): 1-9. (in Chinese with English abstract)
[7] 程名,于紅,馮艷紅,等. 融合注意力機(jī)制和BiLSTM+CRF的漁業(yè)標(biāo)準(zhǔn)命名實(shí)體識(shí)別[J]. 大連海洋大學(xué)學(xué)報(bào),2020,35(2):296-301.
Cheng Ming, Yu Hong, Feng Yanhong, et al. Research on named entity labeling and recognition of fishery standards[J]. Journal of Dalian Ocean University, 2020, 35(2): 296-301. (in Chinese with English abstract)
[8] 王沖,張虎,王鑫,等. 融合敏感詞規(guī)則和字符級(jí)RCNN模型的用戶意圖識(shí)別[J]. 計(jì)算機(jī)應(yīng)用與軟件,2020,37(3):160-165.
Wang Chong, Zhang Hu, Wang Xin, et al. User intention recognition based on sensitive word rules and character-level RCNN model[J]. Computer Applications and Software, 2020, 37(3): 160-165. (in Chinese with English abstract)
[9] 向曉雯,史曉東,曾華琳. 一個(gè)統(tǒng)計(jì)與規(guī)則相結(jié)合的中文命名實(shí)體識(shí)別系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用,2005(10):2404-2406.
Xiang Xiaowen, Shi Xiaodong, Zeng Hualin. A Chinese named entity recognition system using statistics-based and rules-based method[J]. Computer Applications, 2005(10): 2404-2406. (in Chinese with English abstract)
[10] Li Lishuang, Jiang Yuxin. Integrating language model and reading control gate in BLSTM-CRF for biomedical named entity recognition[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2020, 17(3): 841-846.
[11] Majtner T, Yildirim-Yayilgan S, Hardeberg J Y . Combining deep learning and hand-crafted features for skin lesion classification[C]// 2016 Sixth International Conference on Image Processing Theory, Tools and Applications (IPTA). IEEE, 2017(10): 12-15.
[12] 賀琳,張雨,巴韓飛. 基于CNN-BiGRU-CRF模型的外來(lái)海洋生物實(shí)體識(shí)別[J]. 大連海洋大學(xué)學(xué)報(bào),2020,194:1-10.
He Lin, Zhang Yu, Ba Hanfei. Recognition of alien marine organisms based on CNN-BiGRU-CRF model[J]. Journal of Dalian Ocean University, 2020, 194: 1-10. (in Chinese with English abstract)
[13] 毛明毅,吳晨,鐘義信,等. 加入自注意力機(jī)制的BERT命名實(shí)體識(shí)別模型[J]. 智能系統(tǒng)學(xué)報(bào),2020,84(4):146-153.
Mao Mingyi, Wu Chen, Zhong Yixin, et al. BERT named entity recognition model with self-attention mechanism[J]. Journal of Intelligent Systems, 2020, 84(4): 146-153. (in Chinese with English abstract)
[14] 杜琳,曹東,林樹(shù)元,等. 基于BERT與Bi-LSTM融合注意力機(jī)制的中醫(yī)病歷文本的提取與自動(dòng)分類[J]. 計(jì)算機(jī)科學(xué),2020,47(S2):416-420.
Du Lin, Cao Dong, Lin Shuyuan, et al. Extraction and automatic classification of TCM medical records based on attention mechanism of BERT and Bi-LSTM[J]. Computer Science, 2020, 47(S2): 416-420. (in Chinese with English abstract)
[15] 孫娟娟,于紅,馮艷紅,等. 基于深度學(xué)習(xí)的漁業(yè)領(lǐng)域命名實(shí)體識(shí)別[J]. 大連海洋大學(xué)學(xué)報(bào),2018,33(2):265-269.
Sun Juanjuan, Yu Hong, Feng Yanhong, et al. Recognition of nominated fishery domain entity based on deep learning architectures[J]. Journal of Dalian Ocean University, 2018, 33(2): 265-269. (in Chinese with English abstract)
[16] 秦穎,王小捷,鐘義信. 級(jí)聯(lián)中文組塊識(shí)別[J]. 北京郵電大學(xué)學(xué)報(bào),2008,31(1):14-17.
Qin Ying, Wang Xiaojie, Zhong Yixin. Cascaded Chinese chunk recognition[J]. Journal of Beijing University of Posts and Telecommunications, 2008. 31(1): 14-17. (in Chinese with English abstract)
[17] 計(jì)峰,邱錫鵬. 基于序列標(biāo)注的中文依存句法分析方法[J]. 計(jì)算機(jī)應(yīng)用與軟件,2009,26(10):133-135.
Ji Feng, Qiu Xipeng. A new Chinese dependency analysis method based on sequence labeling model[J]. Computer Applications and Software, 2009, 26(10): 133-135. (in Chinese with English abstract)
[18] Francis S, Landeghem J V, Moens M F. Transfer learning for named entity recognition in financial and biomedical documents[J]. Information (Switzerland), 2019, 10(8): 248.
[19] 謝騰,楊俊安,劉輝. 基于BERT-BiLSTM-CRF模型的中文實(shí)體識(shí)別[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2020(7):48-55.
Xie Teng, Yang Junan, Liu Hui. Chinese entity recognition based on BERT-BiLSTM-CRF model[J]. Computer Systems & Applications, 2020(7): 48-55. (in Chinese with English abstract)
[20] 趙平,孫連英,萬(wàn)瑩,等. 基于BERT+BiLSTM+CRF的中文景點(diǎn)命名實(shí)體識(shí)別[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2020,29(6):169-174.
Zhao Ping, Sun Lianying, Wan Ying, et al. Chinese scenic spots named entity recognition based on BERT+BiLSTM+CRF[J]. Computer Systems & Applications, 2020, 29(6): 169-174. (in Chinese with English abstract)
[21] 王月,王孟軒,張勝,等. 基于BERT的警情文本命名實(shí)體識(shí)別[J]. 計(jì)算機(jī)應(yīng)用,2020,40(2):535-540.
Wang Yue, Wang Mengxuan, Zhang Sheng, et al. Alarm text named entity recognition based on BERT[J]. Journal of Computer Applications, 2020, 40(2): 535-540. (in Chinese with English abstract)
[22] Liu H, Perl Y, Geller J. Concept placement using BERT trained by transforming and summarizing biomedical ontology structure[J]. Journal of Biomedical Informatics, 2020, 112: 103607.
[23] Gers F, Schmidhuber J, Cummins F, et al. Learning to forget: Continual prediction with LSTM[J]. Neural Computation, 2000, 12(10): 2451-2471.
[24] Cho M, Ha J, Park C, et al. Combinatorial feature embedding based on CNN and LSTM for biomedical named entity recognition[J]. Journal of Biomedical Informatics, 2020, 103: 1532-1539
[25] Zhao B, Wu X, Feng J, et al. Diversified visual attention networks for fine-grained object classification[J]. IEEE Transactions on Multimedia, 2017(18): 149-157.
[26] Wegner J, Montoyazegarra J, Schindler K. A higher-order CRF model for road network extraction[J]. IEEE, 2013. 1: 1698-1705
[27] 宋楓溪,高林. 文本分類器性能評(píng)估指標(biāo)[J]. 計(jì)算機(jī)工程,2004(13):107-109.
Song Fengxi, Gao Lin. Performance evaluation metric of text classifier[J]. Computer Engineering, 2004 (13): 107-109. (in Chinese with English abstract)
[28] 仝衛(wèi)國(guó),李敏霞,張一可. 深度學(xué)習(xí)優(yōu)化算法研究[J]. 計(jì)算機(jī)科學(xué), 2018, 45(2):155-159.
Tong Weiguo, Li Minxia, Zhang Yike. Research optimization algorithms of deep learning[J]. Computer Science, 2018, 45(2):155-159. (in Chinese with English abstract)
[29] Qin H, Wang Y. Enhancing named entity recognition from military news with bert[J]. Journal of Physics Conference Series, 2020, 1453:012132
Recognition of quantitative indicator of fishery standard using attention mechanism and the BERT+BiLSTM+CRF model
Ren Yuan, Yu Hong※, Yang He, Liu Jusheng , Yang Huining, Sun Zhetao, Zhang Sijia, Liu Mingjian, Sun Hua
(1.,,116023,; 2.,,116023,; 3.,116023,)
Fishery information service is a vital component to realize data analysis, feature extraction, and fishing forecasting, particularly for a high comprehensive production capacity and modernized management in fishery. The commonly-used keyword matching without standard contents cannot meet the high demand for accurate service in the current information system of fishery. The standard quantitative indicators in fishery have become one of the most important tasks in the information service. Therefore, it is very necessary to accurately identify the effective standard quantitative indicators for the automatic extraction of fishery. Combining the attention mechanism and the BERT+BiLSTM+CRF (Bidirectional Encoder Representations from Transformers + Bi-directional Long Short-Term Memory + Conditional Random Field) model, this study aims to propose a highly accurate recognition method of standard quantitative indicators in fishery, further to replace the commonly-used entity recognition. The quantitative indicators were firstly divided into four types of entities: the indicator name, indicator value, unit, and qualified words for identification. This operation effectively dealt with the difficult identification of fishery standard quantitative indicator entities. It was found that the location information behaved a significant impact on the recognition of indicator names and other entities. Vector data was also utilized to improve the recognition of indicator names. Secondly, the BiLSTM model was used to learn the semantic features of long sequences in the fishery standard text quantitative indicators. The attention mechanism was then integrated to treat the long-sequence semantic dilution. Finally, all sequence tags were obtained through the CRF layer. The test results showed that the accuracy rate was 94.51%, the recall rate was 96.37%, and the1 value was 95.43% for the fusion attention mechanism and the BERT+BiLSTM+CRF model. Compared with the fusion attention + BiLSTM + CRF (named entity recognition model), the accuracy, recall rate, and F1 value increased by 2.78, 6.73, and 4.65 percentage points, respectively. The word vectors, position vectors, and sentence features were combined for better recognition in the model. The self-attention mechanism of the BERT model was pre-trained, where a bidirectional encoder was used for the transformer layer in the BERT model, indicating a better performance on the text context memory. Compared with the BERT+BiLSTM+CRF model, the accuracy, recall, and1 value increased by 1.62, 0.25, and 0.97 percentage points, respectively, indicating that the attention mechanism contributed to the greater weight of the target entity in the long- and short-term memory network. The features were then weighted to make the model more accurately identify quantitative indicators. The proposed model can be expected to more accurately identify the fishery standard quantitative indicators, especially the indicator names, indicator values, units, qualifiers. This investigation can provide promising data support to accurate information using standard content services. The effective fishery standard quantitative index can also offer new ideas for the identification of quantitative indicator named entities in agricultural, medical, and biological fields
fisheries; standards; models; quantitative index; BERT; attention mechanism; BiLSTM; named entity recognition
10.11975/j.issn.1002-6819.2021.10.016
TP391
A
1002-6819(2021)-10-0135-07
任媛,于紅,楊鶴,等. 融合注意力機(jī)制與BERT+BiLSTM+CRF模型的漁業(yè)標(biāo)準(zhǔn)定量指標(biāo)識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(10):135-141.doi:10.11975/j.issn.1002-6819.2021.10.016 http://www.tcsae.org
Ren Yuan, Yu Hong, Yang He, et al. Recognition of quantitative indicator of fishery standard using attention mechanism and the BERT+BiLSTM+CRF model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(10): 135-141. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.10.016 http://www.tcsae.org
2020-12-14
2021-04-14
設(shè)施漁業(yè)教育部重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題(2021-MOEKLECA-KF-05);遼寧省教育廳研究項(xiàng)目(JL201917);國(guó)家自然科學(xué)基金項(xiàng)目(61802046)
任媛,研究方向?yàn)樽匀徽Z(yǔ)言處理。Email:971457354@qq.com
于紅,博士,教授,研究方向?yàn)閿?shù)據(jù)集成、漁業(yè)知識(shí)圖譜等。Email:yuhong@dlou.edu.cn