陳 祥,張仰森,2,李尚美,胡昌秀,成琪昊
(1.北京信息科技大學(xué) 智能信息處理研究所, 北京 100101;2.國(guó)家經(jīng)濟(jì)安全預(yù)警工程北京實(shí)驗(yàn)室, 北京 100044)
命名實(shí)體識(shí)別是自然語(yǔ)言處理領(lǐng)域中的一項(xiàng)基礎(chǔ)任務(wù),也是開(kāi)展智能問(wèn)答、關(guān)系抽取、機(jī)器翻譯等研究任務(wù)的基礎(chǔ)環(huán)節(jié)。對(duì)于實(shí)體本身而言,區(qū)別于傳統(tǒng)命名實(shí)體,領(lǐng)域?qū)I(yè)實(shí)體是具有領(lǐng)域表征作用的某一領(lǐng)域特有的命名實(shí)體。隨著建設(shè)網(wǎng)絡(luò)強(qiáng)國(guó)戰(zhàn)略的提出,計(jì)算機(jī)科學(xué)領(lǐng)域相關(guān)技術(shù)在人們?nèi)粘I钪邪l(fā)揮著越來(lái)越重要的作用。研究領(lǐng)域的發(fā)展與科研活動(dòng)的開(kāi)展息息相關(guān),面向計(jì)算機(jī)科學(xué)領(lǐng)域,精準(zhǔn)識(shí)別領(lǐng)域的專業(yè)實(shí)體,對(duì)科研活動(dòng)的展開(kāi)具有技術(shù)層面的輔助作用,如為科研項(xiàng)目、學(xué)術(shù)論文的評(píng)審專家推薦提供技術(shù)支持。
實(shí)現(xiàn)計(jì)算機(jī)科學(xué)領(lǐng)域的科技項(xiàng)目或?qū)W術(shù)論文的評(píng)審專家推薦,關(guān)鍵因素在于盡可能滿足專家自身的研究領(lǐng)域與文檔涉及的研究領(lǐng)域相匹配的條件。而研究領(lǐng)域信息通常以專業(yè)實(shí)體的形式表現(xiàn)出來(lái),計(jì)算機(jī)科學(xué)領(lǐng)域的專業(yè)實(shí)體通常包含在科研專家的學(xué)術(shù)論文中,同時(shí)學(xué)術(shù)論文的摘要是一篇論文的精華,其高度概括了論文的主要內(nèi)容。專業(yè)實(shí)體包含多種類別,其中一類是專家研究領(lǐng)域?qū)嶓w,因此從學(xué)術(shù)論文的摘要中提取專業(yè)實(shí)體,是獲取專家研究領(lǐng)域信息的關(guān)鍵,以此表征專家的學(xué)術(shù)研究領(lǐng)域,為后續(xù)的評(píng)審專家推薦奠定基礎(chǔ)。為此,實(shí)現(xiàn)對(duì)計(jì)算機(jī)科學(xué)領(lǐng)域?qū)I(yè)實(shí)體的識(shí)別具有非常重要的現(xiàn)實(shí)意義。
目前,有關(guān)命名實(shí)體識(shí)別任務(wù)的研究大致可以分為2類:一類是針對(duì)人名、地名、機(jī)構(gòu)名、時(shí)間表達(dá)式等傳統(tǒng)的命名實(shí)體進(jìn)行識(shí)別[1-4];另一類是針對(duì)某一特定領(lǐng)域的專業(yè)實(shí)體進(jìn)行識(shí)別,目前研究較多的特定領(lǐng)域主要包括生物醫(yī)學(xué)[5-7]、軍事領(lǐng)域[8-9]等。針對(duì)命名實(shí)體識(shí)別的實(shí)現(xiàn)方法可分為基于規(guī)則和詞典的方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法以及基于深度學(xué)習(xí)的方法。近年來(lái),基于深度學(xué)習(xí)的方法取得的成果較為顯著。馮艷紅等[10]提出一種基于BLSTM的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的命名實(shí)體識(shí)別方法,結(jié)合基于上下文的詞向量和基于字的詞向量,有效地利用了文本中命名實(shí)體的上下文信息以及組成實(shí)體的前綴、后綴和領(lǐng)域信息;李博等[5]提出了一種完全基于注意力機(jī)制的Transformer-CRF命名實(shí)體識(shí)別模型,解決了輸入和輸出序列對(duì)模型識(shí)別效果的限制問(wèn)題;唐國(guó)強(qiáng)等[6]采用雙向門控循環(huán)網(wǎng)絡(luò)、多頭注意力機(jī)制和條件隨機(jī)場(chǎng)相容和的方式,進(jìn)行實(shí)體識(shí)別,有效地利用了未標(biāo)注數(shù)據(jù)并實(shí)現(xiàn)了對(duì)文本自身特征進(jìn)行深入地捕捉;單義棟等[8]以字詞向量同時(shí)作為模型的輸入,利用注意力機(jī)制獲取特征向量,同時(shí)采用維特比算法解碼,標(biāo)注命名實(shí)體標(biāo)簽;車金立等[9]基于Bi-GRU-CRF命名實(shí)體識(shí)別模型,引入軍事詞語(yǔ)中的詞位信息,提出了一種融合詞位字向量的命名實(shí)體識(shí)別方法。王月等[11]使用BERT預(yù)訓(xùn)練語(yǔ)言模型,同時(shí)引入注意力機(jī)制改進(jìn)BiLSTM-CRF模型,完成命名實(shí)體識(shí)別任務(wù)。語(yǔ)言模型保存了較完整的語(yǔ)義信息,從而提高了模型特征抽取能力。李健龍等[12]基于無(wú)監(jiān)督學(xué)習(xí)的方式訓(xùn)練軍事領(lǐng)域語(yǔ)料進(jìn)行詞語(yǔ)向量表示,采用融入注意力機(jī)制的雙向LSTM遞歸神經(jīng)網(wǎng)絡(luò)模型完成軍事領(lǐng)域命名實(shí)體識(shí)別任務(wù);曹春萍等[13]面向醫(yī)學(xué)領(lǐng)域,提出了一種卷積神經(jīng)網(wǎng)絡(luò)-雙向長(zhǎng)短期記憶網(wǎng)絡(luò)-條件隨機(jī)場(chǎng)相結(jié)合的實(shí)體識(shí)別模型,利用多種尺度卷積核的CNN對(duì)識(shí)別效果進(jìn)行改善。
近年來(lái),隨著RoBERTa預(yù)訓(xùn)練模型的提出,越來(lái)越多的學(xué)者開(kāi)始著手于此模型的研究與應(yīng)用,并以此模型為基礎(chǔ)進(jìn)行命名實(shí)體識(shí)別任務(wù)的研究。張?jiān)魄颷14]提出了一種基于RoBERTa-wwm動(dòng)態(tài)融合的實(shí)體識(shí)別模型,提升了對(duì)電子病歷實(shí)體的識(shí)別效果。Yin等[15]提出一種基于RoBERTa-wwm的細(xì)粒度中文命名實(shí)體識(shí)別模型,并在公開(kāi)的CLUENER2020數(shù)據(jù)集中取得較好的效果。Cui等[16]將RoBERTa模型與卷積注意力機(jī)制相融合,以此融合模型開(kāi)展中文命名實(shí)體識(shí)別的研究,通過(guò)實(shí)驗(yàn)驗(yàn)證了該模型的有效性。
綜上所述,關(guān)于命名實(shí)體識(shí)別任務(wù)的研究正如火如荼地進(jìn)行著,也取得了顯著的成果。然而,目前關(guān)于計(jì)算機(jī)科學(xué)領(lǐng)域?qū)I(yè)實(shí)體的識(shí)別任務(wù)研究較少,考慮以實(shí)現(xiàn)評(píng)審專家推薦為最終目的開(kāi)展此方面研究,通過(guò)構(gòu)建的專業(yè)實(shí)體識(shí)別模型獲取專家研究領(lǐng)域的相關(guān)信息,對(duì)專家進(jìn)行表征。利用RoBERTa-wwm-BiLSTM-CRF模型對(duì)計(jì)算機(jī)科學(xué)領(lǐng)域的學(xué)術(shù)論文中的專業(yè)實(shí)體進(jìn)行識(shí)別,通過(guò)RoBERTa-wwm預(yù)訓(xùn)練模型獲取輸入文本的字符語(yǔ)義向量,并將其輸送下游BiLSTM-CRF模型中實(shí)現(xiàn)對(duì)專業(yè)實(shí)體的識(shí)別,提升獲取計(jì)算機(jī)科學(xué)領(lǐng)域?qū)I(yè)實(shí)體的有效性和準(zhǔn)確性。
面向計(jì)算機(jī)科學(xué)領(lǐng)域?qū)I(yè)實(shí)體識(shí)別的研究方案分為以下2個(gè)步驟:專家論文摘要數(shù)據(jù)的獲取與預(yù)處理以及專業(yè)實(shí)體識(shí)別模型的構(gòu)建。
2.1.1摘要數(shù)據(jù)獲取
由于專業(yè)實(shí)體識(shí)別方法是面向中文文本領(lǐng)域的,且中國(guó)知網(wǎng)(CNKI)平臺(tái)中收錄了大量學(xué)術(shù)專家的科研論文,論文內(nèi)容中涉及的專家研究領(lǐng)域信息較為廣泛,同時(shí)其行文用詞具有很高的權(quán)威性和可信度,因此利用網(wǎng)絡(luò)爬蟲(chóng)工具,爬取中國(guó)知網(wǎng)平臺(tái)的專家論文摘要數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集。在爬取專家的論文摘要數(shù)據(jù)之前,通過(guò)人工的方式從全國(guó)各大高校官網(wǎng)中手動(dòng)地獲取一些專家基本信息數(shù)據(jù)。同時(shí)結(jié)合實(shí)驗(yàn)室已有專家基本信息數(shù)據(jù),對(duì)兩部分專家基本信息數(shù)據(jù)進(jìn)行先融合再去除重復(fù)、無(wú)效數(shù)據(jù)的處理,最終得到專家基本信息數(shù)據(jù)表,表中主要包括專家姓名、專家所在高校單位名稱等字段。
中國(guó)知網(wǎng)平臺(tái)的高級(jí)檢索功能給使用者提供了一種能準(zhǔn)確查找某位專家論文數(shù)據(jù)的方法?;谝延械膶<一拘畔?shù)據(jù)表,結(jié)合中國(guó)知網(wǎng)平臺(tái)高級(jí)檢索頁(yè)面所具備的根據(jù)作者名和作者單位進(jìn)行聯(lián)合查找的功能,利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù),對(duì)表中的每位專家在知網(wǎng)平臺(tái)中收錄的論文摘要進(jìn)行爬取,如圖1所示。同時(shí),為了盡量避免由于同一所高校中存在專家重名現(xiàn)象而導(dǎo)致獲取到的論文摘要與計(jì)算機(jī)科學(xué)領(lǐng)域無(wú)關(guān)的情況,在爬取論文信息時(shí),以論文所屬的分類號(hào)為依據(jù)對(duì)不屬于計(jì)算機(jī)科學(xué)領(lǐng)域的摘要文本進(jìn)行過(guò)濾。參考《中國(guó)圖書(shū)館分類法》中的中國(guó)圖書(shū)分類號(hào)信息,爬取論文分類號(hào)屬于TP18(人工智能理論)、TP24(機(jī)器人技術(shù))、TP3(計(jì)算技術(shù)、計(jì)算機(jī)技術(shù))的論文摘要文本,過(guò)濾其他不包含上述分類號(hào)的摘要文本,以此保證摘要數(shù)據(jù)的可用性。
由于專家撰寫(xiě)論文所標(biāo)注的單位信息不一定同高校名稱完全一致,例如:清華大學(xué)丁**副教授在論文中標(biāo)注的單位信息有“清華大學(xué)軟件學(xué)院”“清華大學(xué)北京信息科學(xué)與技術(shù)國(guó)家研究中心”等,并不是“清華大學(xué)”,因此在高級(jí)檢索頁(yè)面中設(shè)置模糊匹配的方式對(duì)作者單位進(jìn)行篩選,以保證爬取的專家論文摘要數(shù)據(jù)充足而全面。
Selenium WebDriver是開(kāi)源API集合,可以用于自動(dòng)測(cè)試Web應(yīng)用程序,并可以在大多數(shù)Web瀏覽器上運(yùn)行,在爬蟲(chóng)中也有很好的應(yīng)用。 selenium工具具有簡(jiǎn)單方便、易于實(shí)現(xiàn)、隱匿性強(qiáng)的優(yōu)點(diǎn)[17]。基于上述說(shuō)明,設(shè)計(jì)了基于selenium工具的網(wǎng)絡(luò)爬蟲(chóng)框架,如圖2所示。
圖2 基于selenium工具的爬蟲(chóng)框架
2.1.2摘要數(shù)據(jù)預(yù)處理
基于中國(guó)知網(wǎng)平臺(tái)的文獻(xiàn)知網(wǎng)節(jié)頁(yè)面內(nèi)容簡(jiǎn)潔性的特點(diǎn),通過(guò)上述爬蟲(chóng)框架爬取的數(shù)據(jù)中不包含廣告、不相關(guān)信息等噪聲數(shù)據(jù)。經(jīng)觀察,在爬取的論文摘要數(shù)據(jù)中不同摘要的文本長(zhǎng)度不盡相同,甚至存在2條摘要的文本字?jǐn)?shù)相差幾百的情況。這就可能導(dǎo)致后續(xù)對(duì)文本向量化處理時(shí)需要過(guò)多地“補(bǔ)0”,從而影響整體的實(shí)驗(yàn)效果。因此,在進(jìn)行預(yù)處理時(shí),以摘要文本的“?!被蛘摺?”為分隔符,對(duì)摘要進(jìn)行切分,以句子作為后續(xù)數(shù)據(jù)標(biāo)注和文本向量化的基本單位。
2.2.1RoBERTa-wwm-ext-large預(yù)訓(xùn)練模型
基于遷移學(xué)習(xí)的思想,預(yù)訓(xùn)練模型最開(kāi)始是在圖像領(lǐng)域提出的,且獲得了良好的效果,近年被廣泛應(yīng)用到自然語(yǔ)言處理各項(xiàng)任務(wù)中。目前,BERT模型是使用較為廣泛的一種預(yù)訓(xùn)練語(yǔ)言模型,其于2018年10月由Google AI研究院提出[14]。BERT預(yù)訓(xùn)練模型一經(jīng)問(wèn)世,就因其在不同NLP任務(wù)中都取得了較為突出的成果而備受廣大NLP學(xué)者的關(guān)注。基礎(chǔ)的BERT模型基于默認(rèn)的12層Transformer Encoder對(duì)輸入進(jìn)行編碼,同時(shí)創(chuàng)造性地使用MLM(masked language modeling)和NSP(next sentence prediction)2種方式對(duì)模型進(jìn)行訓(xùn)練,使得BERT模型具有理解長(zhǎng)序列上下文關(guān)系的能力和強(qiáng)大的表征能力。
近年來(lái),對(duì)于基礎(chǔ)BERT模型的改進(jìn)研究也層出不窮,實(shí)驗(yàn)所使用的RoBERTa-wwm-ext-large預(yù)訓(xùn)練模型是由哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的改進(jìn)模型。相比于基礎(chǔ)BERT的模型,RoBERTa模型的改進(jìn)之處在于具有更多的模型參數(shù)、更大的Batch Size、更充足的訓(xùn)練數(shù)據(jù),同時(shí)在模型訓(xùn)練過(guò)程中去除NSP任務(wù)。RaBERTa模型采用動(dòng)態(tài)掩碼的方式代替靜態(tài)掩碼,通過(guò)復(fù)制原始語(yǔ)料,每一份語(yǔ)料隨機(jī)選擇15%的Token,對(duì)其按照[mask]、replace、keep分別為80%、10%、10%的占比方式進(jìn)行mask處理,增強(qiáng)模型的表征能力。
RoBERTa預(yù)訓(xùn)練模型結(jié)構(gòu)如圖3所示。RoBERTa的輸入為每一個(gè)Token對(duì)應(yīng)的表征,而每一個(gè)Token表征由Token Embeddings、Segment Embeddings、Position Embeddings 3部分組成,如圖4所示。在將Token表征送入RoBERTa模型之前,在輸入序列之前添加[CLS]標(biāo)簽,為RoBERTa最后一個(gè)Transformer層的輸出所用,同時(shí)使用[SEP]標(biāo)簽對(duì)輸入的句子進(jìn)行分割。輸入的Token表征經(jīng)Transformer Encoder層和動(dòng)態(tài)掩碼MLM層后得到相應(yīng)的輸出。C為[CLS]標(biāo)簽對(duì)應(yīng)最后一個(gè)Transformer的輸出,Ti(i=1,…,N)則代表其他Token對(duì)應(yīng)最后一個(gè)Transformer的輸出。在命名實(shí)體識(shí)別(named entity recognition,NER)任務(wù)中,只把部分內(nèi)容作為下游神經(jīng)網(wǎng)絡(luò)的輸入。
圖4 Token表征構(gòu)成圖
wwm(whole word masking)表示對(duì)語(yǔ)料的詞進(jìn)行mask處理,而B(niǎo)ERT模型的mask處理則是針對(duì)字而言的,RoBERTa-wwm在一定程度上提高了模型的學(xué)習(xí)能力。
實(shí)驗(yàn)使用的RoBERTa-wwm-ext-large是支持中文的RoBERTa-like BERT模型,采用全詞遮罩wwm技術(shù),直接采用最大長(zhǎng)度512進(jìn)行訓(xùn)練,預(yù)訓(xùn)練數(shù)據(jù)集包括中文維基百科、百科、新聞、問(wèn)答等,該模型集成了RoBERTa模型和BERT-wwm模型的優(yōu)點(diǎn),具有較好的可用性。
2.2.2BiLSTM-CRF模型
隨著近些年深度學(xué)習(xí)技術(shù)不斷發(fā)展與成熟,越來(lái)越來(lái)多深度學(xué)習(xí)模型被應(yīng)用于實(shí)際的NLP任務(wù)中。循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)就是一種典型的深度學(xué)習(xí)模型,其可以處理時(shí)間序列信息,通過(guò)“記憶”將序列前后信息關(guān)聯(lián)起來(lái)。但是在RNN模型訓(xùn)練的過(guò)程中容易產(chǎn)生梯度消失和梯度爆炸的問(wèn)題,從而導(dǎo)致RNN無(wú)法很好地學(xué)習(xí)到時(shí)序數(shù)據(jù)的長(zhǎng)期依賴關(guān)系。而長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)引入“門”機(jī)制,通過(guò)控制特征的流通和損失解決RNN模型存在的問(wèn)題。單個(gè)LSTM單元如圖5所示。
圖5 LSTM單元結(jié)構(gòu)圖
LSTM通過(guò)“忘記門”ft、“更新門”it、“輸出門”ot實(shí)現(xiàn)對(duì)信息的選擇記憶,過(guò)濾噪聲信息,減輕記憶負(fù)擔(dān)。LSTM內(nèi)部的前向傳播公式如下:
(1)
(2)
(3)
(4)
(5)
ht=ot?tanh(ct)
(6)
(7)
LSTM往往關(guān)注的是上文所傳遞的信息,從而忽略了當(dāng)前輸入的下文信息,這在一些NLP任務(wù)中存在著一定的局限性,如NER任務(wù)。為了充分考慮上下文信息對(duì)模型輸出結(jié)果的影響,相關(guān)學(xué)者設(shè)計(jì)了將一個(gè)輸入序列同時(shí)連接前向LSTM層和后向LSTM層的BiLSTM深度學(xué)習(xí)模型。BiLSTM模型將2層網(wǎng)絡(luò)的隱含層連接起來(lái),共同傳遞至輸出層進(jìn)行結(jié)果預(yù)測(cè)。
BiLSTM模型只選擇標(biāo)簽分?jǐn)?shù)最高的一類標(biāo)簽作為輸出,沒(méi)有考慮到標(biāo)簽與標(biāo)簽之間的內(nèi)聯(lián)系和依賴關(guān)系,很可能輸出不符合常理的無(wú)效標(biāo)簽序列,因此單獨(dú)的BiLSTM模型在NER任務(wù)中往往不能取得很好的效果,通常需結(jié)合CRF算法共同使用。CRF是一種序列標(biāo)注算法,在最終輸出預(yù)測(cè)標(biāo)簽之前自動(dòng)學(xué)習(xí)并添加標(biāo)簽的約束條件,考慮標(biāo)簽與標(biāo)簽之間的關(guān)聯(lián)性,提高模型輸出標(biāo)簽序列的有效性。
CRF接受如X=(x1,x2,…,xn)的輸入序列,得到如Y=(y1,y2,…,yn)的輸出序列,在NER任務(wù)中得到輸出結(jié)果為模型預(yù)測(cè)標(biāo)簽序列。輸出序列得分的計(jì)算公式如下:
(8)
式中:S表示得分;Ayi,yi+1表示從yi到y(tǒng)i+1的轉(zhuǎn)移概率矩陣;Pi,yi表示softmax函數(shù)在第i個(gè)位置輸出yi的概率。在輸入序列為X的條件下,預(yù)測(cè)序列Y的softmax歸一化概率計(jì)算公式如下:
(9)
式中:P(Y|X)表示在X條件下輸出Y的概率;Y′表 示所有標(biāo)簽集合;y′表示真實(shí)標(biāo)簽。型損失值loss通過(guò)如下公式進(jìn)行計(jì)算:
(10)
最后,計(jì)算得到最優(yōu)標(biāo)簽序列:
y*=arg max(S(X,y′))
(11)
2.2.3模型整體框架
采用RoBERTa-wwm-BiLSTM-CRF聯(lián)合模型對(duì)計(jì)算機(jī)科學(xué)領(lǐng)域的專業(yè)實(shí)體識(shí)別任務(wù)進(jìn)行分析研究,優(yōu)化BERT預(yù)訓(xùn)練模型的語(yǔ)義表征能力,模型框架如圖6所示。
將專家論文摘要文本以字為單位進(jìn)行切分并添加索引,隨后將切分后的索引格式文本序列輸入RoBERTa-wwm層,獲取RoBERTa-wwm層輸出的每個(gè)位置表示。之后,將各層文本表示信息輸入BiLSTM模型,對(duì)序列特征信息進(jìn)行初步獲取。最后,利用CRF層處理得到最后的預(yù)測(cè)序列表示。綜上步驟,完成對(duì)計(jì)算機(jī)科學(xué)領(lǐng)域?qū)I(yè)實(shí)體的識(shí)別任務(wù)。
以爬蟲(chóng)獲取的論文摘要數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),采用《計(jì)算機(jī)科學(xué)技術(shù)百科全書(shū)》中的學(xué)科名詞及經(jīng)人工校對(duì)后的論文關(guān)鍵詞作為標(biāo)注詞,對(duì)摘要數(shù)據(jù)中的計(jì)算機(jī)領(lǐng)域?qū)I(yè)名詞進(jìn)行人工標(biāo)注。由于目前暫未出現(xiàn)計(jì)算機(jī)科學(xué)領(lǐng)域?qū)I(yè)實(shí)體的公開(kāi)數(shù)據(jù)集,因此以自行標(biāo)注的數(shù)據(jù)完成模型的訓(xùn)練與測(cè)評(píng)。實(shí)體采用“BIO”標(biāo)注方式,“B”表示實(shí)體詞的開(kāi)始位置,“I”表示實(shí)體詞的中部位置,“O”表示非實(shí)體詞部分。通過(guò)對(duì)論文摘要中出現(xiàn)的專業(yè)名詞進(jìn)行分析,人為地將專業(yè)名詞實(shí)體分為3類,分別是科研方向?qū)嶓w(表述計(jì)算機(jī)科學(xué)領(lǐng)域?qū)<已芯糠较虻膶I(yè)名詞實(shí)體,如人工智能)、概念名稱實(shí)體(表述計(jì)算機(jī)科學(xué)領(lǐng)域某種概念的專業(yè)名詞實(shí)體,如魯棒性)、技術(shù)名稱實(shí)體(表明進(jìn)行學(xué)術(shù)研究所用技術(shù)的專業(yè)名詞實(shí)體,如BERT)。由此,所使用的數(shù)據(jù)集對(duì)應(yīng)的標(biāo)簽集合為:{O、B-sde、I-sde、B-coe、B-tce、I-tce}。其中,sde代表科研方向?qū)嶓w,coe代表概念名稱實(shí)體,tce代表技術(shù)名稱實(shí)體。
實(shí)驗(yàn)數(shù)據(jù)集*為6 512篇計(jì)算機(jī)科學(xué)領(lǐng)域?qū)<覍W(xué)術(shù)論文摘要,并將數(shù)據(jù)集劃分為訓(xùn)練集與測(cè)試集。其中,訓(xùn)練集中共5 000篇論文摘要文本,共25 635條句子;測(cè)試集中共1 512篇論文摘要文本,共6 278條句子。實(shí)體種類與具體數(shù)量如表1所示。
表1 數(shù)據(jù)實(shí)體種類與數(shù)量
采用實(shí)體識(shí)別精確率(Precision)、實(shí)體識(shí)別召回率(Recall)、實(shí)體識(shí)別F1值(F1-Score)3個(gè)指標(biāo)來(lái)進(jìn)行專業(yè)實(shí)體識(shí)別模型的評(píng)價(jià),具體計(jì)算公式如表2所示。
表2 評(píng)價(jià)指標(biāo)
其中,P為模型識(shí)別專業(yè)實(shí)體的精確率,R為模型識(shí)別專業(yè)實(shí)體的召回率,TP表示正確識(shí)別實(shí)體的數(shù)量,FP表示錯(cuò)誤識(shí)別實(shí)體的數(shù)量,FN表示未能被識(shí)別實(shí)體的數(shù)量。
為了驗(yàn)證模型的有效性,設(shè)置了不同命名實(shí)體識(shí)別模型在同一數(shù)據(jù)集有關(guān)識(shí)別效果的對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)所用環(huán)境及模型相關(guān)參數(shù)分別如表3、表4所示。
表3 實(shí)驗(yàn)環(huán)境
表4 模型主要參數(shù)
在訓(xùn)練過(guò)程中,設(shè)置預(yù)訓(xùn)練模型微調(diào)學(xué)習(xí)率的大小為5×10-5,在下游模型中設(shè)置學(xué)習(xí)速率的大小為1×10-3。
實(shí)驗(yàn)選取了BiLSTM-CRF模型、BERT-BiLSTM-CRF模型、BERT-wwm-BiLSTM-CRF模型作為對(duì)照模型,同所提優(yōu)化模型進(jìn)行比較。其中,BiLSTM-CRF模型屬于經(jīng)典的NER模型,后續(xù)的拓展模型大多在其基礎(chǔ)上進(jìn)行改進(jìn)與優(yōu)化,此模型沒(méi)有使用預(yù)訓(xùn)練模型,采用靜態(tài)詞向量的方式進(jìn)行訓(xùn)練。BERT-BiLSTM-CRF模型在BiLSTM-CRF模型引入預(yù)訓(xùn)練模型獲得包含語(yǔ)義信息的字符向量,再同下游模型連接完成命名實(shí)體識(shí)別的任務(wù)。在一些研究中,該模型取得了不錯(cuò)的效果。BERT-wwm-BiLSTM-CRF模型在BERT模型字符級(jí)掩碼的基礎(chǔ)上提出詞語(yǔ)級(jí)掩碼的概念,并通過(guò)詞語(yǔ)掩碼的方式訓(xùn)練模型,實(shí)現(xiàn)了對(duì)模型的進(jìn)一步優(yōu)化。文本模型在BERT模型的基礎(chǔ)上,使用RoBERTa預(yù)訓(xùn)練模型獲取字符向量,此預(yù)訓(xùn)練模型憑借動(dòng)態(tài)掩碼的訓(xùn)練方式以及更豐富的訓(xùn)練參數(shù)和語(yǔ)料,同時(shí)結(jié)合了wwm機(jī)制的優(yōu)點(diǎn),進(jìn)一步提高了模型的泛化能力。通過(guò)對(duì)比實(shí)驗(yàn),得到了基于實(shí)驗(yàn)數(shù)據(jù)集各模型對(duì)專業(yè)實(shí)體的識(shí)別效果,實(shí)驗(yàn)結(jié)果如表5所示。
表5 各模型在實(shí)驗(yàn)數(shù)據(jù)集上的專業(yè)實(shí)體識(shí)別情況
實(shí)驗(yàn)結(jié)果表明,在自主標(biāo)注的數(shù)據(jù)集上,加入BERT預(yù)訓(xùn)練模型后對(duì)專業(yè)實(shí)體的識(shí)別效果相較于傳統(tǒng)的BiLSTM-CRF模型而言具有較為明顯的提升,F1值提高了8.88%。在BERT模型中融入wwm機(jī)制后,其識(shí)別的精確率、召回率、F1值均有所提升,說(shuō)明模型獲取文本語(yǔ)義信息的能力有所增強(qiáng),體現(xiàn)了wwm機(jī)制的有效性。從具體數(shù)值看,相較于BERT-BiLSTM-CRF模型,BERT-wwm-BiLSTM-CRF模型識(shí)別的準(zhǔn)確率提升1.87%、召回率提升1.52%、F1值提升1.69%,引入wwm機(jī)制有助于下游任務(wù)的效果提升。
為了驗(yàn)證動(dòng)態(tài)掩碼機(jī)制在提高模型識(shí)別效果方面的有效性,實(shí)驗(yàn)中用此模型(RoBERTa-wwm-BiLSTM-CRF)與BERT-wwm-BiLSTM-CRF模型進(jìn)行對(duì)比實(shí)驗(yàn)。從表5可以看出,文本模型在識(shí)別精確率、召回率、F1值3項(xiàng)指標(biāo)上均有所提升,具體分別提升了1.70%、1.56%、1.63%,說(shuō)明了RoBERTa 動(dòng)態(tài)掩碼機(jī)制的有效性。實(shí)驗(yàn)?zāi)P驮贐ERT模型的基礎(chǔ)上,將動(dòng)態(tài)掩碼與詞語(yǔ)級(jí)掩碼機(jī)制相結(jié)合,在一定程度上使得預(yù)訓(xùn)練模型的輸出結(jié)果具有更豐富的語(yǔ)義表示,提高了模型的泛化能力,可更好地為下游任務(wù)服務(wù),有助于提高識(shí)別專業(yè)實(shí)體的效果。
面向計(jì)算機(jī)科學(xué)領(lǐng)域,針對(duì)專業(yè)實(shí)體識(shí)別任務(wù)構(gòu)建了一種RoBERTa-wwm-BiLSTM-CRF的聯(lián)合模型,對(duì)模型的有效性在自主標(biāo)注的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。同時(shí),在實(shí)驗(yàn)中設(shè)置3個(gè)對(duì)照模型與實(shí)驗(yàn)?zāi)P拖鄬?duì)比,得到如下結(jié)論:
1) BERT預(yù)訓(xùn)練模型的引入使得在NER任務(wù)的上游獲得了字符級(jí)的語(yǔ)義表示,將其送入 BiLSTM-CRF模型后在一定程度上提高了對(duì)專業(yè)實(shí)體識(shí)別的效果。
2) wwm機(jī)制的引入提高了預(yù)訓(xùn)練模型的泛化能力,相較于字符級(jí)掩碼策略,wwm機(jī)制在NER任務(wù)上具有更好的實(shí)際效果和使用價(jià)值。
3) RoBERTa的動(dòng)態(tài)掩碼策略提高了模型適應(yīng)掩碼策略的能力和模型學(xué)習(xí)能力,將RoBERTa的動(dòng)態(tài)掩碼策略與wwm方式結(jié)合,能獲取更豐富的語(yǔ)義表示,在連接下游的BiLSTM-CRF基礎(chǔ)模型后,總體上提升了對(duì)專業(yè)實(shí)體的識(shí)別準(zhǔn)確性,在對(duì)比實(shí)驗(yàn)中取得了最好的效果。
此外,實(shí)驗(yàn)數(shù)據(jù)集存在不同實(shí)體類別數(shù)量的不均衡問(wèn)題。例如技術(shù)名稱實(shí)體數(shù)量較其他2類偏少,也在一定程度上導(dǎo)致了對(duì)該類實(shí)體識(shí)別效果劣于其他2類實(shí)體的結(jié)果。未來(lái)的工作中需要針對(duì)上述問(wèn)題提出進(jìn)一步的改進(jìn)策略,處理數(shù)據(jù)不均衡的問(wèn)題,提升對(duì)計(jì)算機(jī)科學(xué)領(lǐng)域?qū)I(yè)實(shí)體的識(shí)別效果。