于潤(rùn)羽,杜軍平,薛哲,徐欣,奚軍慶
(1.北京郵電大學(xué) 智能通信軟件與多媒體北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100876; 2.司法部信息中心, 北京 100020)
科技大數(shù)據(jù)[1-2]可以定義為與科研相關(guān)的活動(dòng)產(chǎn)生的海量數(shù)據(jù),其以論文數(shù)據(jù)為主體,具有數(shù)據(jù)規(guī)模大、內(nèi)容專業(yè)化、特征屬性繁多的特點(diǎn)。科技學(xué)術(shù)會(huì)議數(shù)據(jù)包含某個(gè)領(lǐng)域內(nèi)的論文集合。以學(xué)術(shù)會(huì)議為單位進(jìn)行畫像的構(gòu)建,可以幫助科研人員快速獲得有價(jià)值的科研信息,而構(gòu)建畫像的核心工作即為命名實(shí)體識(shí)別。
命名實(shí)體識(shí)別是自然語(yǔ)言處理中知識(shí)抽取領(lǐng)域中的重要研究方向,其目的是將給定文本中的實(shí)體按照預(yù)定義好的類別進(jìn)行分類[3-4]。學(xué)術(shù)會(huì)議論文數(shù)據(jù)的命名實(shí)體識(shí)別與通用領(lǐng)域的識(shí)別有一定區(qū)別,主要原因在于通用領(lǐng)域的數(shù)據(jù)集的文本有較為嚴(yán)格的組成規(guī)范。但由于科研領(lǐng)域技術(shù)更新迭代快,導(dǎo)致論文數(shù)據(jù)集中有大量的專業(yè)術(shù)語(yǔ)[5]。同時(shí)實(shí)體之間的關(guān)系也相對(duì)復(fù)雜,增加了實(shí)體識(shí)別的難度。
中文命名實(shí)體識(shí)別的準(zhǔn)確率和中文分詞結(jié)果直接相關(guān),如果在分詞階段發(fā)生錯(cuò)誤,會(huì)嚴(yán)重影響識(shí)別效果[6]。目前在中文命名實(shí)體識(shí)別過(guò)程中,大部分方法是基于字符模型編碼,這種方式在通用領(lǐng)域的命名識(shí)別中取得了較好的效果,但它無(wú)法挖掘到一串字符信息中的詞級(jí)別的信息。為了解決這個(gè)問題,可以把字符級(jí)模型和詞級(jí)別的模型相結(jié)合,降低歧義發(fā)生的概率[7]。然而在學(xué)術(shù)論文數(shù)據(jù)中,由于專業(yè)詞匯較多,采用這種方式很有可能產(chǎn)生錯(cuò)誤的詞語(yǔ)邊界。因此本文引入論文關(guān)鍵詞特征,提出關(guān)鍵詞?字符編碼方式,在編碼階段同時(shí)考慮到關(guān)鍵詞級(jí)別和字符級(jí)別的語(yǔ)義信息。此外,在長(zhǎng)短期記憶網(wǎng)絡(luò) (long-short term memory, LSTM)和條件隨機(jī)場(chǎng)(conditional random field, CRF)為主體框架的基礎(chǔ)上,在LSTM層引入自注意力機(jī)制(self-attention mechanism, SA),彌補(bǔ)長(zhǎng)短期記憶網(wǎng)絡(luò)無(wú)法考慮到全局信息的缺陷,最后將LSTM和注意力機(jī)制輸出的結(jié)果進(jìn)行融合再通過(guò)CRF進(jìn)行標(biāo)注,兼顧了字符之間的依賴關(guān)系,在論文數(shù)據(jù)集中取得了更好的識(shí)別效果。
本文的主要貢獻(xiàn):
1)提出了一種結(jié)合基于關(guān)鍵詞?字符LSTM和注意力機(jī)制(keyword-character long-short term memory and attention mechanism, KCLA)的命名實(shí)體識(shí)別方法,利用論文數(shù)據(jù)集進(jìn)行訓(xùn)練并進(jìn)行命名實(shí)體的識(shí)別;
2) 使用預(yù)訓(xùn)練模型對(duì)關(guān)鍵詞特征進(jìn)行訓(xùn)練,獲得對(duì)應(yīng)的詞向量,在神經(jīng)網(wǎng)絡(luò)中將其與字符級(jí)別特征進(jìn)行融合,獲取文本中潛在的語(yǔ)義信息;
3) 為科技學(xué)術(shù)會(huì)議論文數(shù)據(jù)中的實(shí)體進(jìn)行定義,在網(wǎng)絡(luò)層同時(shí)使用長(zhǎng)短期記憶網(wǎng)絡(luò)和注意力機(jī)制,充分考慮文本中的上下文信息以及全局信息,優(yōu)化實(shí)體識(shí)別的效果。
近年來(lái)命名實(shí)體識(shí)別的研究方法快速發(fā)展,包括基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。機(jī)器學(xué)習(xí)方法一般是通過(guò)標(biāo)注好的文本進(jìn)行訓(xùn)練,利用訓(xùn)練好的模型進(jìn)行識(shí)別[8]。常用模型有隱馬爾可夫模型[9]、最大熵模型、決策樹、支持向量機(jī)等。
基于深度學(xué)習(xí)的方法近年來(lái)發(fā)展迅速,可以通過(guò)不同的神經(jīng)網(wǎng)絡(luò)完成該任務(wù),首先是卷積神經(jīng)網(wǎng)絡(luò) (convolutional neural network, CNN),Yao 等[10]提出提出了一種基于CNN的適合醫(yī)學(xué)文本內(nèi)容的訓(xùn)練的命名實(shí)體識(shí)別方法,無(wú)需構(gòu)建詞典同時(shí)保證較高的準(zhǔn)確率。Strubell等[11]提出了迭代擴(kuò)張卷積神經(jīng)網(wǎng)絡(luò)(iterated dilated convolutional neural networks, IDCNN)命名實(shí)體識(shí)別的方法,與下文提到的目前最具有表現(xiàn)力的LSTM模型相比,該模型只需要O(N)的時(shí)間復(fù)雜度,在保持與LSTM相當(dāng)?shù)木鹊臈l件下,可以實(shí)現(xiàn)8倍的速度提升。Yang等[12]分別采用字符級(jí)CNN和詞級(jí)別CNN的的方式進(jìn)行命名實(shí)體識(shí)別,在字符級(jí)CNN中使用單層CNN,詞級(jí)別采用多層CNN,最后利用Softmax或者CRF的方式實(shí)現(xiàn)實(shí)體的標(biāo)注。Kong等[13]提出了一種完全基于CNN的模型,充分利用GPU并行性來(lái)提高模型效率,模型中構(gòu)造多級(jí)CNN來(lái)捕獲短期和長(zhǎng)期上下文信息,在保證較高識(shí)別準(zhǔn)確率的情況下大幅提高了效率。
循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)也可以用于命名實(shí)體識(shí)別,RNN的變體LSTM在命名實(shí)體識(shí)別方面取得了顯著的成就。Huang等[14]融合雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)(BiLSTM-CRF)應(yīng)用于自然語(yǔ)言處理基準(zhǔn)序列標(biāo)記數(shù)據(jù)集。Zhang等[15]提出了針對(duì)中文NER的Lattice LSTM模型。與基于字符的方法相比,顯式地利用了詞序列信息,達(dá)到了最佳結(jié)果。Han等[16]針對(duì)專業(yè)領(lǐng)域內(nèi)命名實(shí)體識(shí)別通常面臨領(lǐng)域內(nèi)標(biāo)注數(shù)據(jù)缺乏的問題,將生成對(duì)抗網(wǎng)絡(luò)與長(zhǎng)短期記憶網(wǎng)絡(luò)模型相結(jié)合,在各項(xiàng)指標(biāo)上顯著優(yōu)于其他模型。
近年來(lái),基于深度學(xué)習(xí)的命名實(shí)體識(shí)別研究除了基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的方法外,還出現(xiàn)了一些更新的技術(shù)。首先,Transformer模型[17-18]不再使用傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)思想,使用到的只有注意力機(jī)制[19]。BERT模型于2018年被提出,在自然語(yǔ)言處理的各個(gè)領(lǐng)域都取得了令人矚目的效果[20],在命名實(shí)體識(shí)別領(lǐng)域,Dai等[21]在中文電子病歷表識(shí)別的應(yīng)用上使用了BERT+BiLISM+CRF的網(wǎng)絡(luò)結(jié)構(gòu),取得了很好的效果,Li等[22]使用了多層變種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行中文臨床命名實(shí)體識(shí)別,同樣取得了很好的識(shí)別效果。文獻(xiàn)[23]中利用預(yù)訓(xùn)練的BERT模型結(jié)合BiLSTM,提高了在Weibo中文數(shù)據(jù)集上命名實(shí)體識(shí)別的準(zhǔn)確率。Li等[24]針對(duì)現(xiàn)有的Lattice LSTM結(jié)構(gòu)復(fù)雜的問題,提出了FLAT,在性能和效率上均有提升。Yoon等[25]提出一個(gè)新型的命名實(shí)體識(shí)別(named entity recognition, NER)模型,由多個(gè)雙向LSTM網(wǎng)絡(luò)構(gòu)成,每個(gè)網(wǎng)絡(luò)作為一個(gè)單獨(dú)的任務(wù)識(shí)別某一種制定的實(shí)體類型,多個(gè)任務(wù)將各自學(xué)習(xí)到的知識(shí)進(jìn)行轉(zhuǎn)移,獲得更準(zhǔn)確的預(yù)測(cè)。
在本節(jié)中,主要介紹結(jié)合關(guān)鍵詞-字符LSTM和注意力機(jī)制的科技學(xué)術(shù)會(huì)議論文命名實(shí)體識(shí)別算法。
本文提出一種結(jié)合關(guān)鍵詞?字符LSTM和注意力機(jī)制的科技學(xué)術(shù)會(huì)議論文命名實(shí)體識(shí)別算法。如圖1所示,模型的分為向量表示層(Embedding)、融合雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和自注意力機(jī)制層(BiLSTM-SA),以及條件隨機(jī)場(chǎng)層(CRF)。具體而言,向量表示層抽取了字符級(jí)別的特征以及關(guān)鍵詞特征,挖掘了數(shù)據(jù)中潛在的語(yǔ)義信息,生成向量作為后續(xù)網(wǎng)絡(luò)的輸入。BiLSTM-SA層通過(guò)神經(jīng)網(wǎng)絡(luò)提取局部和全局的文本的特征,最后通過(guò)CRF層獲得最大概率的命名實(shí)體分類。
圖1 KCLA算法整體框架Fig.1 Framework of KCLA algorithm
向量表示層主要將科技學(xué)術(shù)會(huì)議論文中的自然語(yǔ)言文本映射成后續(xù)層次能夠識(shí)別計(jì)算的形式。向量表示層可以基于不同的模型實(shí)現(xiàn),下面分別介紹字符級(jí)別編碼模型,詞級(jí)別編碼模型以及本文提出的關(guān)鍵詞?字符編碼模型。
2.2.1 基于字符級(jí)別編碼
基于字符級(jí)別編碼模型是將按照每一個(gè)中文字符進(jìn)行編碼,給定一個(gè)論文標(biāo)題文本序列:基于神經(jīng)網(wǎng)絡(luò)的文本分類,可以將其表示為s=[c1c2cn],其中ci表示句子中的第i個(gè)字符,每個(gè)字符經(jīng)過(guò)式(1)的變換,獲得對(duì)應(yīng)的輸入向量。
式中Ec代表字符級(jí)別的向量表示。最終的輸入向量可以表示為輸入到LSTM網(wǎng)絡(luò)中。
2.2.2 基于詞級(jí)別編碼
基于詞級(jí)別編碼模型是將按照詞中文詞匯進(jìn)行編碼,同樣給定文本序列:基于神經(jīng)網(wǎng)絡(luò)的文本分類,按照常規(guī)的中文分詞方式對(duì)其進(jìn)行切分,然后按照詞級(jí)別進(jìn)行編碼,可以將其表示為s=[w1w2wn],通過(guò)式(2)的變換,獲得對(duì)應(yīng)的輸入向量。
式中Ew代表詞級(jí)別的向量表示。最終的輸入向量可以表示為輸入到LSTM網(wǎng)絡(luò)中。
2.2.3 關(guān)鍵詞?字符編碼模型
關(guān)鍵詞?字符編碼模型主要考慮到了科技學(xué)術(shù)會(huì)議中論文數(shù)據(jù)本身的特點(diǎn)。由于論文數(shù)據(jù)專業(yè)性強(qiáng),因此常規(guī)的分詞方式并不適用于論文數(shù)據(jù)集,如果采用基本的字詞融合,可能會(huì)產(chǎn)生很多錯(cuò)誤的邊界,影響識(shí)別準(zhǔn)確率??紤]到論文數(shù)據(jù)集中有關(guān)鍵詞這一特征,例如對(duì)于文本序列:基于神經(jīng)網(wǎng)絡(luò)的文本分類模型,在關(guān)鍵詞字段中包含了神經(jīng)網(wǎng)絡(luò)、文本分類等詞匯,如果不考慮關(guān)鍵詞信息,該句會(huì)被切分為
對(duì)于本文想要識(shí)別的實(shí)體,顯然產(chǎn)生了錯(cuò)誤的詞匯邊界,因此要引入關(guān)鍵詞特征,構(gòu)建詞典,對(duì)于例子中的文本序列,需要將其正確切分為
獲得了正確的詞匯邊界后,在上述的文本序列中,字符層面依然通過(guò)=Ec(ci)對(duì)輸入的字符進(jìn)行變換,獲得對(duì)應(yīng)的向量。除此之外要考慮關(guān)鍵詞層面的信息,這里運(yùn)用來(lái)表示一個(gè)關(guān)鍵詞信息,例如:表示關(guān)鍵詞“神經(jīng)網(wǎng)絡(luò)”,表示關(guān)鍵詞“文本分類”,通過(guò)式=Ew(wb,e)進(jìn)行變換。在實(shí)現(xiàn)的過(guò)程中,首先利用Word2Vec對(duì)文本中的關(guān)鍵詞進(jìn)行預(yù)訓(xùn)練,獲得關(guān)鍵詞的詞向量模型,在模型中提取出詞向量矩陣,然后和字符級(jí)別的向量共同輸入到LSTM網(wǎng)絡(luò)層中,在LSTM中對(duì)二者進(jìn)行融合,整體結(jié)構(gòu)如圖2所示。
圖2 Keyword-Character編碼結(jié)構(gòu)Fig.2 Structure of Keyword-Character
LSTM是一種特殊的RNN,與傳統(tǒng)的RNN相比,LSTM同樣是基于xt和ht?1來(lái) 計(jì)算ht,但加入了輸入門it、 遺忘門ft以 及輸出門ot3個(gè)門和1個(gè)內(nèi)部記憶單元ct。
第t層的更新計(jì)算公式為
LSTM模型按照文本序列的輸入處理上文的信息,而下文的信息對(duì)于科技學(xué)術(shù)會(huì)議論文數(shù)據(jù)的處理也有重要意義,因此本模型采用BiLSTM,它由兩層LSTM組成,向量表示層得到的向量按照正序作為正向LSTM的輸入,即可以得到輸出序列:
再通過(guò)反向輸入的方式,得到逆向LSTM輸出序列:
將兩層的輸出進(jìn)行融合,得到包含上下文的特征hn=[hLhR]。
在本文提出的關(guān)鍵詞?字符編碼模型中,LSTM的輸入需要包含字符級(jí)關(guān)鍵詞級(jí)信息。在2.2.3節(jié)中,我們獲得了字符級(jí)向量以及關(guān)鍵詞級(jí)向量對(duì)于關(guān)鍵詞級(jí)向量同樣通過(guò)式(3)進(jìn)行變換獲得LSTM的單元但不需要輸出門,因?yàn)樽罱K的預(yù)測(cè)是以字符為單位,因此在詞級(jí)別不需要進(jìn)行輸出。
BiLSTM在可以考慮到上下文的信息,但對(duì)于全局信息無(wú)法充分的表達(dá),因此本模型將自注意力機(jī)制作為BiLSTM模塊的補(bǔ)充,提高命名實(shí)體識(shí)別的準(zhǔn)確率。
Attention的計(jì)算如式(5)所示。Q、K、V三個(gè)矩陣均來(lái)自同一輸入,首先計(jì)算Q與K之間的點(diǎn)乘,然后除以一個(gè)尺度標(biāo)度dk,然后將其結(jié)果歸一化,再乘以矩陣V就得到權(quán)重求和的表示。由于Attention本身就考慮到了全局的輸入,因此直接利用字符級(jí)別編碼進(jìn)行輸入。
獲得了BiLSTM和Attention的輸出之后,LSTM的輸出為h=[h1h2hn]。
Attention層的輸入為字符編碼的向量,輸出通過(guò)式(5)的計(jì)算后,輸出為a=[a1a2an],然后對(duì)這兩個(gè)輸出進(jìn)行融合操作,假設(shè)BiLSTM-SA層的輸出為yn,在進(jìn)行融合操作時(shí)采用歸一化求和的形式,即
在預(yù)測(cè)當(dāng)前標(biāo)簽時(shí),CRF通??梢援a(chǎn)生更高的標(biāo)記精度。由于論文數(shù)據(jù)相鄰字符之間有較強(qiáng)的依賴關(guān)系,因此,在模型的最后一層,利用CRF來(lái)對(duì)前序?qū)又械玫降娜诤咸卣餍畔⑦M(jìn)行解碼。
我們獲得LSTM-SA層的序列輸出為y=[y1y2yn],CRF的標(biāo)記過(guò)程為
式中:Oi,yi表示第i個(gè)單詞標(biāo)記為yi個(gè)標(biāo)簽的概率;Ti,j表示由標(biāo)簽轉(zhuǎn)移到標(biāo)簽的概率。CRF在語(yǔ)句S中標(biāo)記序列的概率為
最終的解碼階段通過(guò)CRF中的標(biāo)準(zhǔn)Viterbi算法,預(yù)測(cè)出最優(yōu)的命名實(shí)體識(shí)別序列。
本節(jié)進(jìn)行實(shí)驗(yàn)并對(duì)結(jié)果進(jìn)行分析。首先介紹算法的評(píng)價(jià)指標(biāo)和實(shí)驗(yàn)參數(shù),然后描述了在該評(píng)價(jià)指標(biāo)和參數(shù)下KCLA算法的實(shí)驗(yàn)結(jié)果,并和其他網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了對(duì)比。
本實(shí)驗(yàn)使用準(zhǔn)確率(precision)、召回率(recall)以及F1值作為科技學(xué)術(shù)會(huì)議論文命名實(shí)體識(shí)別對(duì)比實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)。
準(zhǔn)確率P、召回率R、F1值的公式分別為
式中:TP表示實(shí)際為真且預(yù)測(cè)為真的個(gè)數(shù);FP表示實(shí)際為假但預(yù)測(cè)為真的個(gè)數(shù);FN為實(shí)際為真但預(yù)測(cè)為假的個(gè)數(shù)。
本實(shí)驗(yàn)中,利用scrapy爬蟲框架,對(duì)知網(wǎng)上的論文數(shù)據(jù),按照不同的領(lǐng)域進(jìn)行了爬取,利用按照領(lǐng)域爬取的數(shù)據(jù)進(jìn)行訓(xùn)練及測(cè)試。實(shí)驗(yàn)中,獲取了信息科學(xué)和機(jī)械工業(yè)分類下的論文數(shù)據(jù)各20 000條,按照8∶2的比例構(gòu)建訓(xùn)練集和測(cè)試集,將命名實(shí)體定義為研究技術(shù)(TEC)、研究問題(PRO)、研究形式(MOD) 3類實(shí)體,然后對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行標(biāo)注,數(shù)據(jù)集標(biāo)注后數(shù)據(jù)分布情況如表1、2所示。
表1 信息科技領(lǐng)域數(shù)據(jù)集分布情況Table 1 Distribution of data sets in the field of information technology
表2 機(jī)械工業(yè)領(lǐng)域數(shù)據(jù)集分布情況Table 2 Distribution of data sets in the field of machinery industry
在本文實(shí)驗(yàn)中,KCLA算法的關(guān)鍵詞的特征向量維度設(shè)置為50,LSTM的隱藏層維度為128,batch size設(shè)置為32,學(xué)習(xí)率設(shè)置為0.001,dropout為0.5,優(yōu)化器使用Adam。
本節(jié)使用IDCNN、IDCNN+CRF、BiLSTM、BiLSTM+CRF以及Lattice-LSTM這幾種算法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果在信息科學(xué)數(shù)據(jù)集下如表3所示,在機(jī)械工業(yè)數(shù)據(jù)集下如表4所示。
表3 信息科學(xué)分類論文數(shù)據(jù)不同算法的對(duì)比實(shí)驗(yàn)Table 3 Comparative experiment of different algorithms in information science papers
表4 機(jī)械工業(yè)分類論文數(shù)據(jù)不同算法的對(duì)比實(shí)驗(yàn)Table 4 Comparative experiment of different algorithms in mechanical industry papers
根據(jù)表3可以看出,在信息科學(xué)數(shù)據(jù)集中,本文提出的KCLA算法在性能方面要優(yōu)于對(duì)比算法。首先,IDCNN是CNN卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn),它通過(guò)引入空洞卷積的概念,共享參數(shù)防止過(guò)擬合。IDCNN+CRF則在IDCNN的基礎(chǔ)上加入CRF,通過(guò)Viterbi算法,預(yù)測(cè)出全局最優(yōu)的標(biāo)注序列。CNN的優(yōu)點(diǎn)在于時(shí)間復(fù)雜度相對(duì)較低,但準(zhǔn)確率不及以BiLSTM為主體的算法。對(duì)比算法中,BiLSTM+CRF同時(shí)考慮到上下文的信息和字符之間的關(guān)聯(lián),因此效果相對(duì)較好,但其并沒有挖掘到潛在詞級(jí)別的語(yǔ)義信息,KCLA算法通過(guò)融合關(guān)鍵詞的特征,對(duì)關(guān)鍵詞信息進(jìn)行預(yù)訓(xùn)練獲得對(duì)應(yīng)的詞向量,獲取到了文本中潛在的語(yǔ)義信息、準(zhǔn)確率、召回率、F1值均有一定程度的提高。
根據(jù)表4可以看出,在機(jī)械工業(yè)數(shù)據(jù)集的對(duì)比算法中,KCLA算法也取得了最好的識(shí)別效果。以LSTM為主體框架的算法的效果仍然優(yōu)于IDCNN算法,其中Lattice LSTM對(duì)比BiLSTM+CRF沒有明顯的提升,主要原因在于其利用通用領(lǐng)域的詞向量,可能會(huì)產(chǎn)生錯(cuò)誤的詞匯邊界,因此影響了識(shí)別效果。
圖3描述在信息科學(xué)數(shù)據(jù)訓(xùn)練過(guò)程中l(wèi)oss的變化趨勢(shì),圖4給出在第一個(gè)epoch中l(wèi)oss隨batch的變化趨勢(shì)。
圖3 loss隨epoch的變化趨勢(shì)Fig.3 Trend of loss with epoch
圖4 loss隨batch的變化趨勢(shì)Fig.4 Trend of loss with batch
根據(jù)圖3可以看出,epoch到達(dá)10時(shí)基本收斂。本文實(shí)驗(yàn)中將訓(xùn)練epoch參數(shù)設(shè)置為20,但設(shè)置了提前終止條件:如果兩個(gè)周期內(nèi)驗(yàn)證集準(zhǔn)確率沒有提升,則提前停止訓(xùn)練。在實(shí)驗(yàn)中訓(xùn)練到第10個(gè)epoch時(shí),提前停止。
根據(jù)圖4可以看出,loss在第一個(gè)epoch中快速下降。在機(jī)械工業(yè)數(shù)據(jù)集中的loss變化與信息科學(xué)領(lǐng)域趨勢(shì)相同。
3.4.1 LSTM 隱藏層參數(shù)對(duì)識(shí)別效果的影響
將LSTM的隱藏層維度設(shè)置不同數(shù)值進(jìn)行實(shí)驗(yàn),確定其對(duì)論文數(shù)據(jù)命名實(shí)體識(shí)別效果的影響,圖5和圖6分別給出隱藏層維度對(duì)信息科學(xué)和機(jī)械工業(yè)數(shù)據(jù)識(shí)別效果的影響。
圖5 隱藏層維度對(duì)信息科學(xué)數(shù)據(jù)識(shí)別效果的影響Fig.5 Influence of hidden dimension in the information science data
圖6 隱藏層維度對(duì)機(jī)械工業(yè)數(shù)據(jù)識(shí)別效果的影響Fig.6 Influence of hidden dimension in the machinery industry data
根據(jù)圖5可以看出,在信息科學(xué)數(shù)據(jù)集中,隱藏層維度分別設(shè)置為 32、64、128、256、512。識(shí)別的各項(xiàng)評(píng)價(jià)指標(biāo)開始隨著隱藏層維度的增大而升高,128維時(shí)獲得最好的識(shí)別效果,對(duì)比32維的識(shí)別效果,128維的識(shí)別準(zhǔn)確率、召回率、F1值分別提升了約16%、8%、12%,可見隱藏層維度是影響命名實(shí)體識(shí)別效果的重要參數(shù)。但隨著維度的繼續(xù)增加,識(shí)別的效果并沒有提升,甚至有輕微幅度的下降。
根據(jù)圖6可以看出,在機(jī)械工業(yè)數(shù)據(jù)集中,隱藏層維度在128維和256維時(shí)都獲得了很好的識(shí)別效果。對(duì)比32維時(shí),128維的準(zhǔn)確率、召回率、F1值分別提高了約9%、7%、8%。1到達(dá)512維時(shí)有很微小的下降,結(jié)合圖5、6可以得出結(jié)論:當(dāng)隱藏層維度較低時(shí),KCLA不足以充分的學(xué)習(xí)到文本中的特征,影響了識(shí)別的效果。但如果維度設(shè)置的過(guò)高,可能導(dǎo)致過(guò)擬合現(xiàn)象,導(dǎo)致識(shí)別效果下降。
3.4.2 batch size參數(shù)對(duì)識(shí)別效果的影響
將batch size設(shè)置不同數(shù)值進(jìn)行實(shí)驗(yàn),確定其對(duì)論文數(shù)據(jù)命名實(shí)體識(shí)別效果的影響,圖7、8分別給出batch size對(duì)信息科學(xué)和機(jī)械工業(yè)數(shù)據(jù)識(shí)別效果的影響。
圖7 batch size對(duì)信息科學(xué)數(shù)據(jù)識(shí)別效果的影響Fig.7 Influence of batch size in the information science data
根據(jù)圖7可以看出,在信息科學(xué)數(shù)據(jù)集下,從F1值來(lái)看,batch size為64時(shí),識(shí)別效果最好,但和其他size相比,效果波動(dòng)幅度很小,并沒有明顯的差異。
根據(jù)圖8可以看出,在機(jī)械工業(yè)數(shù)據(jù)集中,F(xiàn)1值在32時(shí)獲得了最好的識(shí)別效果,和在信息科學(xué)數(shù)據(jù)集中一樣,在batch size從32增加到160的整個(gè)過(guò)程中,只有小幅度的變化。同時(shí),準(zhǔn)確率、召回率、F1值會(huì)有一定的波動(dòng),并沒有在某一個(gè)size下共同取得最好的效果。結(jié)合圖7、8可以得出結(jié)論,參數(shù)batch size對(duì)于KCLA算法影響較小。
圖8 batch size對(duì)機(jī)械工業(yè)數(shù)據(jù)識(shí)別效果的影響Fig.8 Influence of batch size in the machinery industry data
本文針對(duì)科技學(xué)術(shù)會(huì)議論文數(shù)據(jù),提出了結(jié)合關(guān)鍵詞?字符LSTM和注意力機(jī)制的命名實(shí)體識(shí)別算法(KCLA),對(duì)學(xué)術(shù)會(huì)議中包含的論文信息進(jìn)行實(shí)體定義,對(duì)數(shù)據(jù)集按照實(shí)體定義進(jìn)行標(biāo)注,然后利用KCLA算法對(duì)實(shí)體進(jìn)行識(shí)別。其中KCLA算法模型由向量表示層、BiLSTM-SA層和CRF層構(gòu)成。實(shí)驗(yàn)數(shù)據(jù)表明,KCLA算法可以對(duì)科技學(xué)術(shù)會(huì)議中論文數(shù)據(jù)的命名實(shí)體進(jìn)行有效的識(shí)別。通過(guò)對(duì)比實(shí)驗(yàn),將KCLA與IDCNN, BiLSTM等算法進(jìn)行比較,KCLA算法在科技學(xué)術(shù)會(huì)議論文數(shù)據(jù)集中有更好的表現(xiàn)。基于識(shí)別出的命名實(shí)體,結(jié)合論文數(shù)據(jù)中結(jié)構(gòu)化的數(shù)據(jù)中獲取到的關(guān)聯(lián)關(guān)系,可以對(duì)學(xué)術(shù)會(huì)議數(shù)據(jù)構(gòu)建知識(shí)圖譜和精準(zhǔn)畫像,更加直觀形象地展示出科技學(xué)術(shù)會(huì)議中潛在的語(yǔ)義信息,為科研人員進(jìn)行科研信息的獲取以及進(jìn)行科研決策提供良好的數(shù)據(jù)支撐。