宋林鵬 劉世洪 王翠
摘要:農(nóng)業(yè)技術(shù)需求文本實體提取是農(nóng)業(yè)技術(shù)轉(zhuǎn)移工作中需求分析能夠量化、特征化的關(guān)鍵技術(shù)。基于主流農(nóng)業(yè)技術(shù)轉(zhuǎn)移網(wǎng)站上的農(nóng)業(yè)技術(shù)需求文本進行分析,提出農(nóng)業(yè)技術(shù)需求文本中需求主體對象、需求意圖、需求程度3種關(guān)鍵實體成分;分別使用傳統(tǒng)的CRF和基于神經(jīng)網(wǎng)絡(luò)的詞向量+BiLSTM+CRF 2種模型對關(guān)鍵實體進行識別提取。試驗結(jié)果表明,詞向量+BiLSTM+CRF在正確率、召回率指標(biāo)上分別能達到88.51%和82.28%以上,均優(yōu)于CRF模型。
關(guān)鍵詞:農(nóng)業(yè)技術(shù)需求挖掘;命名實體識別;條件隨機場;雙向長短時記憶網(wǎng)絡(luò)
中圖分類號: S126文獻標(biāo)志碼: A
文章編號:1002-1302(2021)05-0186-08
農(nóng)業(yè)創(chuàng)新鏈?zhǔn)且粋€以農(nóng)業(yè)研發(fā)活動為基礎(chǔ),以農(nóng)業(yè)科技成果轉(zhuǎn)化為渠道,以實現(xiàn)農(nóng)業(yè)科技成果產(chǎn)業(yè)化應(yīng)用、市場化推廣為目的的產(chǎn)業(yè)鏈[1]。在這個產(chǎn)業(yè)鏈中,農(nóng)業(yè)科技成果轉(zhuǎn)化起到了樞紐的作用,其上游是農(nóng)業(yè)研發(fā)活動的主體,包括各大高校和科研院所,下游是進行直接農(nóng)業(yè)生產(chǎn)的農(nóng)民或農(nóng)業(yè)企業(yè),他們希望應(yīng)用農(nóng)業(yè)技術(shù)來改進生產(chǎn)活動,提高生產(chǎn)效益,但由于經(jīng)濟等方面的限制,只能借助于上游研發(fā)機構(gòu)的成果,而農(nóng)業(yè)科技成果轉(zhuǎn)化正是起到了“中間人”的作用,其效果發(fā)揮的質(zhì)量影響著整個產(chǎn)業(yè)鏈的通達程度。農(nóng)業(yè)科技轉(zhuǎn)移平臺正是農(nóng)業(yè)科技成果轉(zhuǎn)化的承載實體,完善農(nóng)業(yè)科技轉(zhuǎn)移平臺建設(shè)是破解農(nóng)業(yè)科技成果轉(zhuǎn)化難的關(guān)鍵。
當(dāng)前,我國農(nóng)業(yè)技術(shù)轉(zhuǎn)移主要依賴政府主導(dǎo),農(nóng)機推廣人員作為技術(shù)供需雙方的中間人,進行線下推廣。這種方式存在成本高、效率低、時效性差等問題。一方面,農(nóng)民或農(nóng)企(特別是中小農(nóng)企)對農(nóng)業(yè)技術(shù)獲取渠道、技術(shù)應(yīng)用狀況、收益等方面的信息掌握十分薄弱,許多農(nóng)企當(dāng)前依然依靠傳統(tǒng)技術(shù)甚至過度的人力資源投入進行生產(chǎn)經(jīng)營,導(dǎo)致農(nóng)業(yè)生產(chǎn)過程成本高昂、效益低下;另一方面,許多高校和科研機構(gòu)的成果應(yīng)用不到實際的生產(chǎn)上,形成了技術(shù)擁有者和技術(shù)需求者脫節(jié)的現(xiàn)象。農(nóng)業(yè)技術(shù)本質(zhì)上也是商品,會受到市場規(guī)律的影響,市場的需求是主導(dǎo)市場資源配置和生產(chǎn)的主導(dǎo)力量,農(nóng)業(yè)技術(shù)的市場需求同樣也是農(nóng)業(yè)技術(shù)轉(zhuǎn)移市場的主導(dǎo)因素。許多學(xué)者也對當(dāng)前農(nóng)業(yè)技術(shù)轉(zhuǎn)移機制脫離市場需求的問題進行了深入研究,并給出了相應(yīng)的對策,但這些研究大多是從政策、理論方面給出建議,很少有在具體技術(shù)層面提出優(yōu)化農(nóng)業(yè)技術(shù)需求信息挖掘的。
隨著線上商品交易模式的日益成熟,我國政府和非政府機構(gòu)也建立了各種形式的線上農(nóng)業(yè)技術(shù)交易平臺,這些平臺積累了很多技術(shù)相關(guān)數(shù)據(jù),其中技術(shù)需求描述文本是技術(shù)需求方對自身需求的簡要描述,這些文本數(shù)據(jù)多是非結(jié)構(gòu)化的,對需求文本中命名實體的提取是精準(zhǔn)獲取需求信息的基礎(chǔ)環(huán)節(jié),是技術(shù)轉(zhuǎn)移系統(tǒng)構(gòu)建技術(shù)推薦、技術(shù)供需匹配、企業(yè)需求畫像等工作的關(guān)鍵技術(shù)。
1 相關(guān)技術(shù)
1.1 序列標(biāo)注任務(wù)
序列標(biāo)注是對1個給定的序列中的每個元素進行標(biāo)記,或者說給每個元素打1個標(biāo)簽,標(biāo)簽的具體形式取決于不同的任務(wù),常見的系列標(biāo)注任務(wù)包括分詞、詞性標(biāo)注、關(guān)鍵詞抽取、命名實體識別[5]、詞義角色標(biāo)注等。在做序列標(biāo)注時只要針對特定給定的標(biāo)簽集合,就可以進行特定的序列標(biāo)注任務(wù)。
序列標(biāo)注任務(wù)的一般形式:對于待標(biāo)注的一段序列X={x1,x2,…,xn},需要給每個預(yù)測一個標(biāo)注,先定義Tag集合是T={t1,t2,…,tn},比如,分詞的標(biāo)注可以定義為{Begin,Middle,End,Single},命名實體識別的標(biāo)注可以定義為{形容詞,名詞,動詞,…},假設(shè)預(yù)測序列是Y={y1,y2,…,yn},要計算P(Y|X)從而得到序列Y,再定義對應(yīng)的真實標(biāo)簽序列是 L={l1,l2,…,ln},那就對Y和L使用交叉熵計算損失函數(shù),通過梯度下降來求解參數(shù)。和普通分類不一樣的是,這些預(yù)測的標(biāo)注之間可能是有關(guān)聯(lián)的,可能須要通過上一個標(biāo)注的信息去預(yù)測下一個標(biāo)注。
在深度學(xué)習(xí)被廣泛應(yīng)用之前,序列標(biāo)注問題的解決方案大多借助于隱馬爾科夫模型(HMM)、最大熵模型(ME)、條件隨機場模型(CRF)等。尤其是CRF,是解決序列標(biāo)注問題的主流方法,但是這些方法依賴于人工定義大量的特征,工作量大,但模型的可解釋性好。隨著深度學(xué)習(xí)的發(fā)展,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在序列標(biāo)注問題中取得了很大的進步,且隨著RNN里門控機制、注意力機制的成功應(yīng)用,在系列學(xué)習(xí)里能捕獲到更關(guān)鍵、更寬泛的上下文信息,大幅提升了系列標(biāo)注的應(yīng)用效果[6]。而且深度學(xué)習(xí)中的端到端學(xué)習(xí)(end-to-end),也讓序列標(biāo)注問題變得更簡單了。
1.2 詞嵌入
文本是一種非結(jié)構(gòu)化的數(shù)據(jù)信息,是不可以直接被計算的,文本表示的作用就是將這些非結(jié)構(gòu)化的信息轉(zhuǎn)化為結(jié)構(gòu)化的信息,這樣就可以針對文本信息作計算,來完成日常所能見到的文本分類,情感判斷等任務(wù)。詞嵌入(word embedding)是文本表示的一類方法,簡單的說是將高維空間(空間的維度通常是詞典的大?。┲斜硎驹~的高維向量(比如獨熱one-hot表示)映射到低維連續(xù)空間中的向量,映射后的向量稱為詞向量,在低維的詞向量有更好的語義信息。詞向量可以作為最終結(jié)果來使用,也可以作為神經(jīng)網(wǎng)絡(luò)層的輸入來進一步學(xué)習(xí)有用信息。
Word2vec是由Google提出的一種詞嵌入方法和工具,是基于統(tǒng)計方法來獲得詞向量,這種算法有2種訓(xùn)練模式:(1)通過上下文來預(yù)測當(dāng)前詞,即CBOW(Continuous Bag-of-Words Model);(2)通過當(dāng)前詞來預(yù)測上下文,即Skip-gram (Continuous Skip-gram Model)。
在基于神經(jīng)網(wǎng)絡(luò)命名實體標(biāo)記中,使用Word2vec對詞級別或者字級別進行向量表達時,每個詞向量會帶上一定的語義關(guān)系,比如臨近關(guān)系。把這些帶有語義關(guān)系的向量作為模型的輸入,能有效優(yōu)化模型效果。
1.3 長短時記憶模型
長短時記憶模型(LSTM)[7]是一種特殊類型的RNN,是為了解決傳統(tǒng)RNN中梯度消失和難于學(xué)習(xí)長距離的依賴信息的問題。如圖1是傳統(tǒng)RNN和LSTM概覽結(jié)構(gòu),RNN輸入只有1個隱藏狀態(tài)(hidden state,h),LSTM有隱藏狀態(tài)和細(xì)胞狀態(tài)(c)2個傳輸狀態(tài),y是模型最終的輸出單元。c是LSTM的核心,細(xì)胞狀態(tài)就像一條傳送帶,會沿著模型鏈一直傳遞,且只有一些少量的線性交互,信息在上面流傳保持不變會很容易,易于長距離依賴狀態(tài)的保存和更新。
LSTM 通過一種名為門(gate)的結(jié)構(gòu)控制cell的狀態(tài),并向其中刪減或增加信息。1個LSTM有3個這樣的門:遺忘門、輸入門和輸出門。以語言翻譯任務(wù)來舉例:cell狀態(tài)可能會需要考慮主語的性別,這樣才能找到正確的代詞。筆者設(shè)定如果看到1個新的主語,遺忘門就用來忘記舊的主語所代表的性別,然后利用輸入門將新主語的性別信息加入細(xì)胞狀態(tài)中,以替換要忘記的舊信息。最后,須要確定輸出的內(nèi)容,當(dāng)它只看到1個主語時,就可能會輸出與動詞相關(guān)的信息,比如它會輸出主語是單數(shù)
還是復(fù)數(shù),這樣的話,如果后面真的出現(xiàn)了動詞,就可以確定它的形式。LSTM模型的詳細(xì)結(jié)構(gòu)和計算過程見圖2、式(1)。
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)
ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)
Ct=ftCt-1+ittanh(Wxcxt+Whcht-1+bc)
ht=ottanh(Ct)。(1)
式中:σ即激勵函數(shù)Sigmoid函數(shù);xt是模型在t時刻的輸入;it、ft、ot、Ct、ht分別是t時刻輸入門、遺忘門、輸出門、記憶細(xì)胞、隱藏門的激活向量;W、b是模型學(xué)到的參數(shù)權(quán)重和偏置。
LSTM中信息是單向流動的,如果能像訪問過去的上下文信息一樣,訪問未來的上下文,這樣對于許多序列標(biāo)注任務(wù)是非常有益的。例如,在序列標(biāo)注的時候,如果能像知道這個詞之前的詞一樣,知道將要來的詞,這將非常有幫助。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)的基本思想是提出每一個訓(xùn)練序列向前和向后共是2個LSTM,而且這2個都連接著1個輸出層。這個結(jié)構(gòu)提供給輸出層輸入序列中每一個點完整的過去和未來的上下文信息。
1.4 條件隨機場
條件隨機場模型(CRF)是給定一組輸入序列條件下另一組輸出序列的條件概率分布模型,其本質(zhì)是一個條件序列無向圖模型[8],在給定觀察序列的條件下,CRF會計算整個觀察系列對應(yīng)標(biāo)記序列的聯(lián)合概率分布,而不是像HMM那樣在給定當(dāng)前狀態(tài)條件下,標(biāo)記下一個狀態(tài)的分布。CRF綜合了HMM和最大熵模型的優(yōu)點,對于觀測序列并沒有做馬爾科夫獨立性假設(shè),這使得CRF能更好地擬合標(biāo)記序列相互作用的特征信息。CRF雖然改善了臨近相互作用的特征信息,但對于長距離的依賴信息并不能利用,且CRF的應(yīng)用效果依賴于人工對特征的選取,不能很好地進行端到端進行學(xué)習(xí)。CRF的參數(shù)化定義如下:
P(y|x)=expi,kλktk(yt-1,yi,x,i)+∑i,lulsl(yi,x, i)〗Z(x);(2)
Z(x)=∑yexpi,kλktk(yt-1,yi,x,i)+∑i,lulsl(yi,x,i)〗。(3)
式中:Z(x)為規(guī)范化因子;P(y|x)為在給定隨機變量序列x的條件下,隨機變量序列y的條件概率分布;tk(yt-1,yi,x,i)是轉(zhuǎn)移特征函數(shù),表示在給定觀測x的情況下從上個節(jié)點yt-1轉(zhuǎn)移到這個節(jié)點yi的情況;sl(yi,x,i)是狀態(tài)特征函數(shù),表示當(dāng)前節(jié)點yi是不是標(biāo)記x的情況;λk和ul是特征函數(shù)分別對應(yīng)的權(quán)值;Z(x)為規(guī)范化因子,求和時在所有可能的輸出序列上進行的。
CRF的精準(zhǔn)使用正是依賴于對特征的使用以及特征函數(shù)的定義和學(xué)習(xí),在某個具體領(lǐng)域使用CRF有時候需要在大量的語料里總結(jié)結(jié)構(gòu)特征,并轉(zhuǎn)化為CRF的特征函數(shù),比如CRF用于詞性標(biāo)注時,對標(biāo)注系列2個動詞不同緊鄰出現(xiàn)這一特征可以給予正向打分。CRF對最終系列的判定就是基于所有特征函數(shù)對潛在系列的所有單詞的打分值。
注意在CRF的定義中,并沒有要求X和Y有相同的結(jié)構(gòu)。而實現(xiàn)中,一般都假設(shè)X和Y有相同的結(jié)構(gòu),CRF就構(gòu)成了線性鏈條件隨機場(linear chain conditional random fields,簡稱linear-CRF),其結(jié)構(gòu)見圖3。
1.5 基于詞嵌入+BiLSTM+CRF模型的命名實體識別
相對于CRF,BiLSTM能利用更遠(yuǎn)距離的上下文信息,目前在系列標(biāo)注任務(wù)里基本都是以神經(jīng)網(wǎng)絡(luò)的形式進行,但是某些任務(wù)中,一些強限制特征,BiLSTM并沒有好的機制進行保障,而CRF可以以特征函數(shù)的形式來利用這部分信息,比如在詞性標(biāo)注任務(wù)中,2個動詞不可能緊鄰出現(xiàn)這一強限制特征。而使用詞向量來代替?zhèn)鹘y(tǒng)one-hot(獨熱編碼)稀疏表示,也能有效提升輸入的語義關(guān)系,因此,在系列標(biāo)注任務(wù)中常結(jié)合詞向量、BiLSTM和CRF進行建模,其模型結(jié)構(gòu)見圖4。
2 結(jié)果與分析
2.1 數(shù)據(jù)集
試驗采集技E網(wǎng)(https://www.ctex.cn/)、三泰百科(http://www.3tbest.com/)、中國科學(xué)院北京國家技術(shù)轉(zhuǎn)移中心(http://www.nttc.ac.cn/)等農(nóng)業(yè)技術(shù)交易網(wǎng)站的共2500條技術(shù)需求描述文本,原始數(shù)據(jù)例子見表1。
使用jieba分詞系統(tǒng)解析出文本的詞語特征和詞性特征,以胖姜下腳料高效利用加工技術(shù)研究為例,結(jié)果見表2。
2.2 標(biāo)注
2.2.1 實體分析
目前存在諸多農(nóng)業(yè)技術(shù)交易網(wǎng)站,用戶可以在網(wǎng)站發(fā)布自己的技術(shù)需求,通常只是一段話的形式,為了對用戶技術(shù)需求進行深層次分析, 必須得從這段技術(shù)需求描述里挖掘出定性定量的特征實體。經(jīng)分析,一段農(nóng)業(yè)技術(shù)需求描述通常會包括3個特征:需求主體對象、需求意圖、需求程度,具體含義如下:
以尋找一種農(nóng)藥殘留的秒級檢測方法為例,特征實體見圖5。
2.2.2 標(biāo)注集選擇
試驗使用CRF++工具進行CRF模型訓(xùn)練測試,CRF++有2種標(biāo)注模式,BIO標(biāo)注模式見表4,BIOES標(biāo)注模式見表5。
因為農(nóng)業(yè)技術(shù)需求描述文檔所要識別的特征均有比較明顯的結(jié)束特征(如很多技術(shù)需求描述文檔均以技術(shù)結(jié)尾)識別,所以選擇BIOES標(biāo)注模式。對需求主體對象、需求意圖、需求程度 2個特征標(biāo)注就共需要3×4+1=13個標(biāo)注方式,詳見表6。
2.2.3 標(biāo)注結(jié)果
詞語料詞級別標(biāo)注例子見表7。詞語級別語料主要用來進行CRF模型訓(xùn)練,在CRF模型中,對特定領(lǐng)域?qū)嶓w識別,詞語級別進行建模相較于字符級別精度更高。語料字符級別標(biāo)注例子見表8。字符級別語料主要用于BiLSTM+CRF模型訓(xùn)練。
2.3 訓(xùn)練環(huán)境
試驗使用CRF和詞向量+BiLSTM+CRF 2種模型分別進行訓(xùn)練測試,并對比2種模型的效果。
用CRF++工具進行試驗,CRF++是由谷歌工程師研發(fā)開源,是目前綜合性能最佳的CRF工具。詞向
其中CRF模型使用了詞匯和詞性2個標(biāo)注特征,使量+BiLSTM+CRF模型是基于Python環(huán)境的Gensim和TensorFlow(TF)工具包搭建,使用gensim的word2vec對象構(gòu)建字符向量,TF搭建BiLSTM和CRF層。
2.4 評價指標(biāo)
正確率、召回率和F值是評測中文命名實體識別系統(tǒng)性能的指標(biāo),也是本研究采取的評測指標(biāo),定義如下:
P=系統(tǒng)識別出且正確的命名實體個數(shù)系統(tǒng)識別出的命名實體個數(shù)×100%;
(4)
R=系統(tǒng)識別出且正確的命名實體個數(shù)測試集中所有的命名實體個數(shù)×100%;
(5)
F值(綜合標(biāo)準(zhǔn))=2×R×PR+P×100%。(6)
式中:P表示正確率;R表示召回率。試驗判別正確識別命名個體的標(biāo)準(zhǔn)是基于整個實體粒度,而不是字符粒度。
2.5 結(jié)果
試驗將2 500條標(biāo)注按照8 ∶2的比率分為訓(xùn)練集和試驗集,表10是使用CRF和詞向量+BiLSTM+CRF 2個模型識別效果得出的評估結(jié)論:
各選取3條測試數(shù)據(jù)實體識別結(jié)果見表11。
3 討論與結(jié)論
本研究闡明了中文命名實體提取相關(guān)技術(shù)在農(nóng)業(yè)技術(shù)需求挖掘中的作用,收集了主流農(nóng)業(yè)技術(shù)轉(zhuǎn)移網(wǎng)站中2 500條技術(shù)需求描述文本,并分析了農(nóng)業(yè)技術(shù)需求描述文本中3種關(guān)鍵實體(技術(shù)需求實體對象、技術(shù)需求意圖、意圖程度),使用傳統(tǒng)的CRF模型和基于神經(jīng)網(wǎng)絡(luò)的詞向量+BiLSTM+CRF模型分別對這3種實體對象進行提取。試驗結(jié)果表明,詞向量+BiLSTM+CRF模型在實體提取上有著更好的效果,其正確率和召回率均優(yōu)于CRF模型,從試驗結(jié)果分析來看,CRF模型對一些訓(xùn)練語料中未出現(xiàn)的實體識別效果不佳,難于做到神經(jīng)網(wǎng)絡(luò)對特征高度抽象的效果。當(dāng)然,本試驗僅使用詞匯和詞性2個特征,CRF模型往往依賴于較大量級的人工特征定義,這也限制了CRF模型的實用性。而詞向量+BiLSTM+CRF模型end-to-end的訓(xùn)練方法減少了模型對于人工特征定義的依賴,并且神經(jīng)網(wǎng)絡(luò)有很好的特征抽象能力,因此對一些語料中未出現(xiàn)的實體對象也有較好的識別作用,但模型需要更多的數(shù)據(jù)才能最大化發(fā)揮其效果。因此人工特征數(shù)據(jù)的增加都是繼續(xù)優(yōu)化農(nóng)業(yè)技術(shù)需求命名實體提取任務(wù)的方向,接下來也會朝這個方向進一步試驗。
Word2Vec的使用,雖然在一定程度上解決了詞語上下文關(guān)系的問題,但Word2Vec本身是一種淺層結(jié)構(gòu)價值訓(xùn)練的詞向量,所學(xué)習(xí)到的語義信息受制于窗口大小,不能解決詞語在不同語境下具有不同含義這個多義詞問題。BERT(bidirectional encoder representation from transformers)是一個基于Transformers的預(yù)訓(xùn)練模型,通過前期大量語料的無監(jiān)督訓(xùn)練,為下游任務(wù)學(xué)習(xí)大量先驗的語言、句法、詞義等信息,使用BERT替代Word2Vec作為BiLSTM輸入層語言特征提取與表示方法,能獲取到訓(xùn)練文本豐富的語法、語義特征。當(dāng)前,許多學(xué)者研究了基于BERT+BiLSTM+CRF模型來優(yōu)化系列標(biāo)注任務(wù)的性能,并取得不錯的收益。本研究嘗試把BERT用于農(nóng)業(yè)技術(shù)需求文本命名實體任務(wù),也是接下來一個優(yōu)化的方向。
試驗收集了諸多線上農(nóng)業(yè)技術(shù)轉(zhuǎn)移平臺的技術(shù)需求描述文本,但這些文本都還是冰山一角,目前我國農(nóng)業(yè)從業(yè)者整體還是以教育背景較低的傳統(tǒng)農(nóng)民為主,這些農(nóng)民對技術(shù)需求大部分只能以很口語化的形式進行描述,收集這些口語化的數(shù)據(jù),對其實體特征進行提取也是試驗的一個發(fā)展方向。
農(nóng)業(yè)現(xiàn)代化關(guān)鍵在科技進步和創(chuàng)新,而技術(shù)轉(zhuǎn)移是給農(nóng)業(yè)插上科技的翅膀。構(gòu)建以需求為導(dǎo)向的轉(zhuǎn)移機制能有效縮小技術(shù)需求者與技術(shù)生產(chǎn)者之間的信息鴻溝,加速技術(shù)轉(zhuǎn)移速度,提升農(nóng)業(yè)領(lǐng)域技術(shù)成果轉(zhuǎn)化率,對促進國家現(xiàn)代化農(nóng)業(yè)發(fā)展具有重要的意義。目前,建立的諸多農(nóng)業(yè)技術(shù)轉(zhuǎn)移線上平臺積累了大量的技術(shù)需求描述文本,使用命名實體相關(guān)技術(shù)對文本進行實體提取,使農(nóng)業(yè)技術(shù)需求分析能特征化、量化,是進一步進行農(nóng)業(yè)技術(shù)供需匹配、個性化推薦以及企業(yè)需求畫像等工作的關(guān)鍵技術(shù),對國家農(nóng)業(yè)技術(shù)轉(zhuǎn)移工作具有重要意義,這是一項艱巨,但也很值得去做的工作。
參考文獻:
[1]朱晴晴,胡春陽. 基于創(chuàng)新鏈視角的農(nóng)業(yè)科技成果轉(zhuǎn)化機制研究. 衡水學(xué)院學(xué)報,2016,18(1):40-44.
[2]李 響. 構(gòu)建市場主導(dǎo)型的農(nóng)業(yè)科技推廣體制. 鄉(xiāng)村科技,2019(26):16-17.
[3]焦 源. 需求導(dǎo)向型農(nóng)技推廣機制研究. 青島:中國海洋大學(xué),2014.
[4]倪向東,費紅琳,嚴(yán)艷紅. 企業(yè)技術(shù)需求的挖掘、評價與對接研究. 江蘇科技信息,2017(20):39-42.
[5]Chinchor N. MUC-6 named entity task definition (version 2.1) . Columbia:Proceedings of the 6th Conference on Message Understanding,1995.
[6]Li J,Sun A,Han J,et al. A survey on deep learning for named entity recognition. (2020-03-22). https://arxiv.org/pdf/1812.09449.pdf.
[7]Gers F. Long short-term memory in recurrent neural networks. Lausann:Swiss federal Institute of Technology in Lausanne,2001.
[8]Wallach H M. Conditional random fields:an introduction. (2004-02-24). http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=1C65BB8417A63996952E1A 5388208760?doi=10.1.1.64.436&rep=rep1&type=pdf.
[9]翟社平,段宏宇,李兆兆. 基于BILSTM_CRF的知識圖譜實體抽取方法. 計算機應(yīng)用與軟件,2019,36(5):269-274,280.
[10]李德玉,王 佳,王素格. 基于cw2vec-BiLSTM-CRF的汽車名稱和屬性識別方法. 山西大學(xué)學(xué)報(自然科學(xué)版),2020,43(2):267-272.
[11]Lin B Y,Xu F F,Luo Z,et al. Multi-channel bilstm-crf model for emerging named entity recognition in social media. Copenhagen:Proceedings of the 3rd Workshop on Noisy User-generated Text,2017.
[12]Devlin J,Chang M W,Lee K,et al. Bert:pre-training of deep bidirectional transformers for language understanding. (2019-05-24). https://arxiv.org/pdf/1810.04805.pdf&usg=ALkJrhhzxlCL6yTht2BRmH9atgvKFxHsxQ.
[13]Yang H. BERT meets chinese word segmentation. (2019-09-20). https://arxiv.org/pdf/1909.09292.pdf.
[14]Dai Z J,Wang X T,Ni P,et al. Named entity recognition using BERT BILSTM CRF for Chinese electronic health records. Suzhou:12th International Congress on Image and Signal Processing,Biomedical Engineering and Informatics (CISP-BMEI),2019.
[15]王子牛,姜 猛,高建瓴,等. 基于BERT的中文命名實體識別方法. 計算機科學(xué),2019,46(增刊2):138-142.