摘要:[目的/意義]利用命名實(shí)體識(shí)別技術(shù)深入挖掘古籍文獻(xiàn),推動(dòng)中文古籍?dāng)?shù)字化進(jìn)程,對(duì)于推動(dòng)歷史學(xué)習(xí)、增強(qiáng)文化自信以及弘揚(yáng)中國傳統(tǒng)文化具有重要意義。[方法/過程]提出多粒度特征融合的古文命名實(shí)體識(shí)別方法,以《左傳》為研究語料,構(gòu)建人名、地名、時(shí)間等命名實(shí)體識(shí)別任務(wù)。首先,將古文字信息、詞性信息及字形特征融合,提高輸入特征表示能力;然后,在加入預(yù)測實(shí)體頭尾輔助任務(wù)學(xué)習(xí)古句邊界信息的同時(shí)利用Transfer交互器啟發(fā)式學(xué)習(xí)古文實(shí)體構(gòu)詞規(guī)律,并用BiLSTM和IDCNN聯(lián)合抽取上下文信息;最后,將學(xué)習(xí)到的多種古文特征加權(quán)融合,輸入CRF中進(jìn)行實(shí)體預(yù)測。[結(jié)果/結(jié)論]實(shí)驗(yàn)結(jié)果表明,多粒度特征融合的古文命名實(shí)體識(shí)別方法,相比主流的BERT-BiLSTM-CRF模型,精確率、召回率和F1值分別提升5.09%、13.45%和9.87%。多粒度特征融合的古文命名實(shí)體識(shí)別方法能夠精準(zhǔn)地實(shí)現(xiàn)對(duì)古籍文本的命名實(shí)體識(shí)別。
關(guān)鍵詞:數(shù)字人文;古文;實(shí)體識(shí)別;多粒度特征融合
分類號(hào):TP391.1
引用格式:孟佳娜, 許英傲, 趙丹丹, 等. 數(shù)字人文視域下多粒度特征融合的古文命名實(shí)體識(shí)別[J/OL]. 知識(shí)管理論壇, 2024, 9(6): 533-546 [引用日期]. http://www.kmf.ac.cn/p/411/. (Citation: Meng Jiana, Xu Yingao, Zhao Dandan, et al. Multi-Granularity Feature Fusion for Named Entity Recognition of Classical Chinese Texts from the Perspective of Digital Humanities[J/OL]. Knowledge Management Forum, 2024, 9(6): 533-546 [cite date]. http://www.kmf.ac.cn/p/411/.)
1" 引言/Introduction
中華文明悠久源遠(yuǎn),歷經(jīng)千年歲月,蘊(yùn)含著無數(shù)珍貴的智慧和經(jīng)驗(yàn)。千古典籍,如明珠般閃爍著歷史的光芒,描繪了一幅幅精彩紛呈的歷史畫卷。以人為鑒,能夠領(lǐng)悟得失之道;以史為鑒,能夠洞悉興衰之勢。汲取中華文明上下五千年的歷史智慧和經(jīng)驗(yàn),乃是實(shí)現(xiàn)人民幸福、國家興盛、中華民族偉大復(fù)興的重要法寶。近年來社會(huì)信息化的趨勢日益增強(qiáng),數(shù)字人文研究悄然興起,為傳統(tǒng)人文與社會(huì)科學(xué)研究提供了新的研究范式[1]。中共中央辦公廳、國務(wù)院辦公廳印發(fā)的《關(guān)于推進(jìn)新時(shí)代古籍工作的意見》給數(shù)字人文下的古籍智能信息處理研究指明了方向并提供了重要的機(jī)遇。從研究的精細(xì)程度來看,古籍智能信息處理主要分為詞匯級(jí)、句子級(jí)、篇章級(jí)。古文詞匯級(jí)研究主要包括自動(dòng)分詞、詞性標(biāo)注、關(guān)系抽取與命名實(shí)體識(shí)別[2]。其中,命名實(shí)體識(shí)別是自然語言處理領(lǐng)域的重要任務(wù)之一,旨在從文本數(shù)據(jù)中識(shí)別出具有特定意義的實(shí)體,并對(duì)其進(jìn)行分類和抽取。以《左傳》為例,利用筆者提出的命名實(shí)體識(shí)別模型結(jié)合前端技術(shù),實(shí)現(xiàn)命名實(shí)體識(shí)別任務(wù)案例可視化(見圖1)。由于命名實(shí)體通常表示現(xiàn)實(shí)中具體的人、地點(diǎn)、組織機(jī)構(gòu)、時(shí)間或事件等,因此命名實(shí)體識(shí)別在信息提取、機(jī)器翻譯、自動(dòng)問答、情感分析、知識(shí)圖譜構(gòu)建等應(yīng)用場景中具有廣泛的應(yīng)用。
近年來,隨著古籍?dāng)?shù)字化進(jìn)程不斷加快,古文的命名實(shí)體識(shí)別任務(wù)變得尤為重要。古文命名實(shí)體識(shí)別有助于深入挖掘古文本身的語言、歷史、文化等價(jià)值。通過識(shí)別古文中的人名、地名、時(shí)間等實(shí)體,能夠?yàn)楣糯?、?jīng)濟(jì)、社會(huì)等方面的研究提供更加準(zhǔn)確和全面的資料信息。但由于古文語料其語法、結(jié)構(gòu)及字意的特殊性,從古文中提取實(shí)體難度極大。命名實(shí)體識(shí)別模型在提取實(shí)體前,需要準(zhǔn)確理解字、詞及語句的內(nèi)容才能更加準(zhǔn)確判定實(shí)體。古文存在很多一詞多意的現(xiàn)象,模型理解古文語義十分困難。例如,古文中“策之不以其道”“執(zhí)策而臨之”“策勛十二傳”中的“策”分別代表“驅(qū)使”“馬鞭”“記錄”的意思。其次,長度適中的語料便于命名實(shí)體識(shí)別模型記憶重要信息,遺忘非重要內(nèi)容,推斷實(shí)體可能存在的概率及判定實(shí)體的邊界,而古文句式短小,簡明扼要,模型推斷實(shí)體存在的概率、捕捉文本邊界信息或特征十分困難。例如,“知者不惑,仁者不憂,勇者不懼?!弊詈?,嵌入字、詞或詞性等特征的輸入表示隱含了實(shí)體構(gòu)詞規(guī)律和詞邊界等重要信息,面向古文領(lǐng)域的命名實(shí)體識(shí)別,現(xiàn)有的模型對(duì)于如何整合多粒度特征信息以及學(xué)習(xí)古文實(shí)體構(gòu)詞規(guī)則研究較少。針對(duì)上述問題,筆者提出多粒度特征融合的古文命名實(shí)體識(shí)別方法以提高實(shí)體識(shí)別的精度,以《左傳》數(shù)據(jù)集為實(shí)驗(yàn)對(duì)象,構(gòu)建時(shí)間、地名、人名等命名實(shí)體識(shí)別任務(wù)。實(shí)驗(yàn)結(jié)果證明了多粒度特征融合的古文命名實(shí)體識(shí)別方法的優(yōu)異性。相較于傳統(tǒng)模型,主要貢獻(xiàn)如下:①提出一種融合字、詞性、字形結(jié)構(gòu)并顯示學(xué)習(xí)邊界信息的多粒度特征融合古文命名實(shí)體識(shí)別模型架構(gòu)(以下簡稱MG-NER)。②設(shè)計(jì)了一種用于共享實(shí)體邊界信息并啟發(fā)式學(xué)習(xí)實(shí)體構(gòu)詞規(guī)律的Transfer交互器。
2" 相關(guān)研究/Related research
2.1" 早期命名實(shí)體識(shí)別技術(shù)發(fā)展研究
命名實(shí)體識(shí)別技術(shù)歷史悠久,針對(duì)其特定任務(wù)的深度學(xué)習(xí)技術(shù)已經(jīng)被廣泛提出。較早解決命名實(shí)體識(shí)別任務(wù)的神經(jīng)網(wǎng)絡(luò)由J. Hammerton[3]提出,該模型采用的是LSTM(Long Short-Term Memory)神經(jīng)網(wǎng)絡(luò)。R. Collobert等[4]提出了CNN-CRF(Convolutional Neural Network-Conditional Random Field)的模型架構(gòu),取得了優(yōu)于統(tǒng)計(jì)模型的效果。相較于單向LSTM僅使用過去時(shí)刻信息來預(yù)測當(dāng)前的結(jié)果,Z. Huang等[5]提出BiLSTM-CRF(Bidirectional Long Short Term Memory-Conditional Random Field)作為命名實(shí)體識(shí)別任務(wù)的神經(jīng)網(wǎng)絡(luò)模型,取得了比單向LSTM神經(jīng)網(wǎng)絡(luò)更優(yōu)異的結(jié)果。J. P. C. Chiu等[6]使用BiLSTM-CNNs(Bidirectional Long Short Term Memory-Convolutional Neural Networks)進(jìn)行命名實(shí)體識(shí)別,進(jìn)一步推動(dòng)了該領(lǐng)域的發(fā)展。而A. Akbik等[7]則探討用于序列標(biāo)注的上下文字符串嵌入方法,為命名實(shí)體識(shí)別的研究提供了另一種視角。
2.2" 基于預(yù)訓(xùn)練語言模型的命名實(shí)體識(shí)別技術(shù)
通過研究領(lǐng)域命名實(shí)體識(shí)別下游任務(wù)特點(diǎn)設(shè)計(jì)模型,并結(jié)合微調(diào)上游預(yù)訓(xùn)練語言模型的方法,可以有效提升領(lǐng)域化的命名實(shí)體識(shí)別精度。2018年10月谷歌AI團(tuán)隊(duì)發(fā)布新的預(yù)訓(xùn)練語言模型BERT(Bidirectional Encoder Representation from Transformers)[8]刷新包括命名實(shí)體識(shí)別等11項(xiàng)自然語言處理任務(wù)記錄。預(yù)訓(xùn)練語言模型作為編碼層并結(jié)合下游任務(wù)微調(diào)逐漸成為主流的文本挖掘方法。其后,一系列基于BERT改進(jìn)的預(yù)訓(xùn)練語言模型出現(xiàn)。Z. Lan等[9]提出一種基于BERT的輕量級(jí)自監(jiān)督學(xué)習(xí)模型ALBERT,通過分解詞嵌入和跨層參數(shù)共享技術(shù)解決了BERT模型參數(shù)規(guī)模過大和訓(xùn)練下游任務(wù)時(shí)間長的問題。Y. Liu等[10]則使用更大規(guī)模的數(shù)據(jù)文本及參數(shù)量訓(xùn)練出性能優(yōu)秀的預(yù)訓(xùn)練語言模型RoBERTa。中文預(yù)訓(xùn)練語言模型普適性雖強(qiáng),但在面對(duì)特定領(lǐng)域文本的自然語言處理任務(wù)時(shí),其功能的發(fā)揮容易受限。由于古文命名實(shí)體識(shí)別技術(shù)發(fā)展較晚,因此對(duì)于古文命名實(shí)體識(shí)別任務(wù),領(lǐng)域化的深度預(yù)訓(xùn)練語言模型成為提高古文文本實(shí)體識(shí)別效果的關(guān)鍵技術(shù)。2022年劉江峰等[11]基于《四庫全書》繁體語料在BERT和RoBERTa上進(jìn)行繼續(xù)訓(xùn)練得到SikuBERT和SikuRoBERTa預(yù)訓(xùn)練語言模型,其設(shè)計(jì)面向《左傳》語料的命名實(shí)體識(shí)別等任務(wù),驗(yàn)證了SikuBERT和SikuRoBERTa在古文詞法、句法和語境學(xué)習(xí)以及泛化能力方面具有較強(qiáng)的能力。此外SikuBERT和SikuRoBERTa被第一個(gè)古漢語領(lǐng)域NLP工具評(píng)估比賽EvaHan 2022[12]作為封閉環(huán)境下的預(yù)訓(xùn)練模型。P. Wang等[12]在BERT預(yù)訓(xùn)練模型的基礎(chǔ)上,使用了較SikuBERT和SikuRoBERTa更大規(guī)模的古文數(shù)據(jù)集訓(xùn)練得到了Bert-Ancient-Chinese模型,進(jìn)一步豐富了古文領(lǐng)域化的深度預(yù)訓(xùn)練語言模型。
2.3" 基于融合字詞信息的命名實(shí)體識(shí)別技術(shù)
早期的命名實(shí)體識(shí)別模型通常以一個(gè)字或一個(gè)單詞作為特征輸入的單位。但通常一個(gè)中文詞語是由多個(gè)中文符號(hào)構(gòu)成,中文語句又由多個(gè)具有實(shí)際含義的字或詞構(gòu)成,僅僅以字作為輸入單位會(huì)損失詞語特征信息。因此,在模型輸入階段如何同時(shí)有效利用字和詞信息成為提高中文命名實(shí)體識(shí)別模型性能的關(guān)鍵。許多學(xué)者和專家探究了不同的字信息和詞信息融合方法。Y. Zhang等[13]提出了Lattice-LSTM模型,該模型同時(shí)對(duì)輸入的字序列以及該字在詞典中匹配得到的所有詞序列進(jìn)行編碼,并將潛在的詞匯信息融合進(jìn)字信息當(dāng)中,從而使得模型在獲得字信息的同時(shí),也可以有效地利用詞的先驗(yàn)信息。但由于Lattice-LSTM模型擁有特定的復(fù)雜格子結(jié)構(gòu),很難完全利用GPU的并行計(jì)算能力,導(dǎo)致有著比較低的推理速度。隨后,X. Li等[14]提出了面向中文的FLAT(Flat-lattice Transformer)模型,其針對(duì)Lattice結(jié)構(gòu)設(shè)計(jì)了一種巧妙的編碼方式,將Lattice轉(zhuǎn)為平面結(jié)構(gòu),以此提高模型的推理速度。FLAT模型在古文命名實(shí)體識(shí)別中的優(yōu)越性也被證實(shí)。謝靖等[15]以《黃帝內(nèi)經(jīng)·素問》為研究對(duì)象、以FLAT結(jié)構(gòu)為微調(diào)模型,構(gòu)建了中醫(yī)文獻(xiàn)中病癥、病理等命名實(shí)體識(shí)別任務(wù)。實(shí)驗(yàn)結(jié)果證明,該微調(diào)模型可以同時(shí)有效利用字和詞信息,提高古代中醫(yī)命名實(shí)體的識(shí)別效率。M. Peng等[16]根據(jù)字符在其所有匹配詞的位置劃分4種集合,并將其整合對(duì)應(yīng)到字符中,也有效降低了Lattice-LSTM方法的復(fù)雜程度。雖然,在特征輸入階段有效融合了字詞信息,但大多方法忽略了如何利用模型充分提取、學(xué)習(xí)這些有效信息。
2.4" 基于特征抽取的命名實(shí)體識(shí)別技術(shù)
中文或古文字符本身存在著一些實(shí)際含義,其字形結(jié)構(gòu)、拼音信息、偏旁部首等的特定規(guī)律特征可以被模型學(xué)習(xí),以此提高命名實(shí)體識(shí)別模型的效果。Z. Sun等[17]將每個(gè)字符的仿宋、行楷和隸書3種字形信息與拼音信息融合,在大規(guī)模語料上訓(xùn)練出中文預(yù)訓(xùn)練模型ChineseBERT,在命名實(shí)體識(shí)別任務(wù)中取得了優(yōu)異的結(jié)果。尹成龍等[18]提出一種將詞嵌入、字嵌入和部首嵌入相融合的新方法,該方法充分利用不同粒度的語義信息,提高了模型的識(shí)別效果。孫紅等[19]提出了MF-NER方法,通過編碼漢字中每個(gè)字部件,并使用注意力機(jī)制使得文本序列中的字啟發(fā)式地融合細(xì)粒度信息,賦予模型獲取中文字形特征的能力。上述方法均從漢字本身特點(diǎn)出發(fā),賦予模型更多可學(xué)習(xí)的規(guī)律和特征。此后,基于聯(lián)合輔助任務(wù)的命名實(shí)體識(shí)別技術(shù)也被廣泛提出。C. Chen等[20]利用圖注意力網(wǎng)絡(luò)層捕捉句子中詞間關(guān)系,并將實(shí)體首尾詞匯的預(yù)測看作是兩個(gè)獨(dú)立的二分類問題,作為輔助任務(wù)加入訓(xùn)練,緩解了詞邊界沖突的問題。Y. Gu等[21]在加入預(yù)測實(shí)體頭尾輔助任務(wù)的同時(shí),進(jìn)一步利用注意力機(jī)制讓模型學(xué)習(xí)實(shí)體內(nèi)字與字間的關(guān)聯(lián)關(guān)系,并探索實(shí)體的命名規(guī)律性,在多個(gè)數(shù)據(jù)集取得了當(dāng)年最好的結(jié)果。
目前,現(xiàn)有的古文命名實(shí)體識(shí)別研究在模型輸入表征層未能有效融合字形信息、詞性信息及字信息的特征表示。模型特征提取設(shè)計(jì)較為單一,未能有效探究實(shí)體邊界及實(shí)體構(gòu)詞規(guī)律。針對(duì)以上問題,筆者將融合多重粒度的嵌入表示,并聯(lián)合輔助任務(wù)預(yù)測實(shí)體頭尾的同時(shí)使用注意力機(jī)制啟發(fā)式學(xué)習(xí)實(shí)體構(gòu)成規(guī)律,從而有效地提高古文命名實(shí)體識(shí)別任務(wù)的性能。
3" 理論與模型/Theory and model
筆者提出了適用于古文命名實(shí)體識(shí)別任務(wù)的MG-NER模型。MG-NER模型由嵌入層、邊界感知層、特征感知層、CRF[22]4個(gè)部分組成,模型結(jié)構(gòu)見圖2。首先,它直接將BERT作為編碼器得到文本當(dāng)中每個(gè)字的向量表示。MG-NER模型將字向量、詞性向量和3種字體的字形結(jié)構(gòu)特征向量融合作為最終的模型輸入表示。其次,將多粒度特征融合向量表示分別送入邊界感知層和特征感知層。邊界感知層在預(yù)測實(shí)體頭與實(shí)體尾的同時(shí),利用Transfer交互器共享實(shí)體邊界信息并啟發(fā)式學(xué)習(xí)實(shí)體構(gòu)詞規(guī)律。特征感知層一方面使用BiLSTM[23]抽取序列的依賴關(guān)系和時(shí)序關(guān)系,另一方面使用IDCNN[24]擴(kuò)張卷積視野,捕獲長遠(yuǎn)距離特征信息,學(xué)習(xí)語句內(nèi)部規(guī)律特征。最后,通過CRF層預(yù)測結(jié)果。接下來詳細(xì)介紹模型。
3.1" "嵌入設(shè)計(jì)
3.1.1" 向量
向量是一種在計(jì)算機(jī)科學(xué)和數(shù)學(xué)領(lǐng)域廣泛使用的數(shù)據(jù)結(jié)構(gòu),向量可以用來表示各種信息和數(shù)據(jù),是計(jì)算機(jī)理解人類語言和信息的一種數(shù)據(jù)媒介。通常,在自然語言處理各類任務(wù)中,通過預(yù)訓(xùn)練語言模型將字或詞等對(duì)象映射成向量形式。預(yù)訓(xùn)練語言模型旨在通過在大量無監(jiān)督語料上進(jìn)行預(yù)訓(xùn)練,以學(xué)習(xí)豐富的上下文信息,獲得比較好的語言表示,再將其應(yīng)用到特定的自然語言處理的下游任務(wù)。在具體實(shí)驗(yàn)中,由于古文數(shù)據(jù)文本與通用領(lǐng)域數(shù)據(jù)文本有較大差異,因此使用Bert-ancient-Chinese[12]作為預(yù)訓(xùn)練語言模型。Bert-ancient-Chinese模型使用雙向注意力機(jī)制在詩部、史部、醫(yī)部等大規(guī)模的無監(jiān)督古文語料庫上進(jìn)行預(yù)訓(xùn)練從而獲得預(yù)訓(xùn)練語言模型。相比SikuBERT和SikuRoBERTa[25]等古文預(yù)訓(xùn)練語言模型Bert-ancient-Chinese擁有更大的詞表,收錄了更多的生僻字,因此更有利于提升模型在下游任務(wù)的表現(xiàn)性能。
3.1.2" 字嵌入
MG-NER模型通過已有的BERT預(yù)訓(xùn)練模型在命名實(shí)體識(shí)別任務(wù)上進(jìn)行微調(diào)(Fine-tune)操作,從而優(yōu)化句子中每個(gè)字的上下文表示信息。給定一個(gè)輸入序列,每一個(gè)字符的向量表示如公式(1)所示:
公式(1)
3.1.3" 詞性嵌入
已有的研究表明,結(jié)合詞性的字特征作為模型的輸入表示可以有效提高模型的學(xué)習(xí)能力。為了提高輸入特征表示,強(qiáng)化模型對(duì)實(shí)體邊界信息的識(shí)別能力,將詞性向量拼接到字向量之后。一個(gè)詞由一個(gè)字符或多個(gè)字符組成,為了對(duì)齊詞與詞性的粒度,筆者根據(jù)一個(gè)詞包含字的個(gè)數(shù)復(fù)制詞性。例如,“長安君”由“長”“安”和“君”3個(gè)字組成?!伴L安君”的詞性為“NR”,因此將“NR”分別嵌入到“長”“安”和“君”3個(gè)字中,詞性嵌入過程見圖3。給定一個(gè)字級(jí)別向量序列和一個(gè)詞性向量序列 ,對(duì)于融合后的向量表示如公式(2)所示:
公式(2)
3.1.4" 字形結(jié)構(gòu)嵌入
漢語是一種符號(hào)語言,很多字符屬于象形字,字符的符號(hào)蘊(yùn)含著豐富的語義信息和學(xué)習(xí)價(jià)值,例如,“液”“河”和“湖”都有“氵”,表示這些字符都與“水”的語義相關(guān)。因此,將字形結(jié)構(gòu)融合模型中可以增強(qiáng)漢語自然語言模型的表現(xiàn)力。
受ChineseBERT啟發(fā),筆者采用仿宋、行楷和隸書3種字體。通過3種不同的字體對(duì)比和學(xué)習(xí),可以使模型更好地從圖像角度理解
字符表達(dá)的含義。在特征輸入階段,通過多角度學(xué)習(xí)語句特征,有助于提高模型對(duì)于語料內(nèi)容理解和學(xué)習(xí)的能力。分別將每個(gè)漢字進(jìn)行20×20的圖形向量化,然后將其分別拉平成1 200維向量,拼接后輸入全連接層,最終得到融合3種字體的字形結(jié)構(gòu)向量。仿宋、行楷、隸書3種字形結(jié)構(gòu)嵌入的流程見圖4。給定字與詞性融合向量序列和融合3種字體的字形結(jié)構(gòu)向量序列,對(duì)于嵌入后的向量表示如公式(3)所示:
公式(3)
3.2" "網(wǎng)絡(luò)層
3.2.1" 雙向長短時(shí)記憶網(wǎng)絡(luò)
BiLSTM是由雙向LSTM網(wǎng)絡(luò)組合而成,通過對(duì)輸入的文本序列做順序和逆序的計(jì)算,提取序列中的上下文信息[26],得到向量序列。實(shí)現(xiàn)其功能的主要單元為LSTM,LSTM通過選擇性遺忘上一時(shí)刻的細(xì)胞狀態(tài)中的信息以及記憶下一時(shí)刻新的信息得以傳遞,而無用的信息被釋放丟棄,并在每個(gè)時(shí)間步都會(huì)輸出隱層狀態(tài),其中遺忘、記憶與輸出由通過上個(gè)時(shí)刻的隱層狀態(tài)和當(dāng)前輸入計(jì)算出的遺忘門、記憶門、輸出門來控制。
3.2.2" Transfer交互器
實(shí)體頭與實(shí)體尾的預(yù)測可以有效挖掘嵌入特征的語義和實(shí)體邊界等潛在信息。此外,實(shí)體構(gòu)詞也存在著一定規(guī)律性,這一規(guī)律性代表了某一類型的實(shí)體。例如,“籃球隊(duì)”“足球隊(duì)”都是以“隊(duì)”字結(jié)尾,其都代表了組織團(tuán)隊(duì)這一類實(shí)體,“夏四月”“正月”“初月”都是以“月”字結(jié)尾,其都代表了時(shí)間這一類實(shí)體。預(yù)測實(shí)體頭與實(shí)體尾的同時(shí),啟發(fā)式地學(xué)習(xí)這些字間規(guī)律特征,可以提升模型的整體性能。通過兩個(gè)獨(dú)立的BiLSTM網(wǎng)絡(luò)及深度全連接網(wǎng)絡(luò)層提取實(shí)體頭尾特征信息,通過這種方式可以利用模型有效學(xué)習(xí)實(shí)體首尾的構(gòu)詞規(guī)律。此外,在學(xué)習(xí)實(shí)體首尾構(gòu)詞規(guī)律的同時(shí),通過特征交互矩陣計(jì)算句內(nèi)字與字間的得分可以啟發(fā)式學(xué)習(xí)句內(nèi)的規(guī)律特征。為了對(duì)齊字間規(guī)律得分及原始語句向量矩陣維度,將得到的字間規(guī)律特征矩陣與特征降維矩陣相互運(yùn)算,最終得到包含語義信息及字間規(guī)律信息的信息矩陣。啟發(fā)式學(xué)習(xí)字間規(guī)律特征流程如圖5所示:
筆者提出將Transfer交互器用于交互共享實(shí)體頭與實(shí)體尾特征信息并啟發(fā)式學(xué)習(xí)實(shí)體構(gòu)詞規(guī)律。Transfer交互器結(jié)構(gòu)包括特征交互矩陣W、特征降維矩陣V、信息矩陣Head_information和Tail_information、激活函數(shù)tanh,輸出矩陣Head_out和Tail_out,其結(jié)構(gòu)如圖6所示:
Transfer交互器核心思想為分別將用于預(yù)測實(shí)體開頭與實(shí)體結(jié)尾的兩個(gè)獨(dú)立BiLSTM的輸出與特征交互矩陣W相乘并使用tanh函數(shù)激活,充分交互實(shí)體頭與實(shí)體尾的特征信息。通過特征降維矩陣V,進(jìn)一步優(yōu)化特征空間,挖掘潛在特征信息。
hi、hj為兩個(gè)獨(dú)立BILSTM的輸出,將其分別與特征交互矩陣W相乘并用雙曲正切函數(shù)激活,得到包含實(shí)體頭與實(shí)體尾關(guān)聯(lián)特征信息的矩陣Ip、Iq。計(jì)算方法如公式(4)、公式(5)所示:
公式(4)
公式(5)
將關(guān)聯(lián)特征信息的矩陣Ip、Iq分別與特征降維矩陣V相乘,進(jìn)一步優(yōu)化特征空間,并對(duì)其歸一化得到信息矩陣Qp、Qq。計(jì)算方法如公式(6)、公式(7)所示:
公式(6)
公式(7)
hi、hj分別與信息矩陣Qp、Qq相乘,得到包含了實(shí)體頭與實(shí)體尾特征關(guān)聯(lián)關(guān)系的輸出矩陣Head_out和Tail_out。計(jì)算方法如公式(8)、公式(9)所示:
公式(8)
公式(9)
3.2.3" 輸出層和損失函數(shù)
筆者將邊界感知層學(xué)習(xí)到的邊界信息與特征感知層學(xué)習(xí)到的特征信息融合,最終送入CRF進(jìn)行預(yù)測。
邊界信息與特征信息融合計(jì)算方式見公式(10)。式中W1、W2、W3分別為可學(xué)習(xí)參數(shù),可以更好地平衡不同模塊對(duì)于模型的貢獻(xiàn)程度。和分別為預(yù)測實(shí)體頭與實(shí)體尾的輸出矩陣,為學(xué)習(xí)到的特征融合矩陣。
公式(10)
MG-NER最終損失值采用損失合策略,邊界感知層和特征感知層相互學(xué)習(xí)、相互作用,最終提高模型的準(zhǔn)確性。損失合計(jì)算方法如公式(11)所示:
公式(11)
4" 實(shí)驗(yàn)/Experiment
4.1" 實(shí)驗(yàn)數(shù)據(jù)集
古文實(shí)體語料資源稀缺,獲取難度較大,筆者采用古文數(shù)據(jù)集《左傳》進(jìn)行實(shí)驗(yàn)分析。《左傳》是第一屆古漢語分詞與詞性標(biāo)注評(píng)測EvaHan2022所使用的數(shù)據(jù)集,包含訓(xùn)練集8 900條句子,驗(yàn)證集1 200條句子,測試集1 000條句子,每條句子中包含的實(shí)體類型和數(shù)量不等,總計(jì)分為三大實(shí)體類型,包括人名(Name)、地名(Loc)、時(shí)間(Time)。相較于詩歌、散文等其他古文數(shù)據(jù)集,《左傳》語料內(nèi)容豐富,句法復(fù)雜,實(shí)驗(yàn)結(jié)果具有一定的參考價(jià)值和意義。針對(duì)經(jīng)典的文言文的命名實(shí)體識(shí)別任務(wù),有利于研究目前學(xué)界已有古代漢語命名實(shí)體識(shí)別研究成果,更有利于發(fā)現(xiàn)、探討當(dāng)前研究進(jìn)展的問題和不足,一同推動(dòng)古代漢語命名實(shí)體識(shí)別技術(shù)的研究。表1和表2分別展示了《左傳》語句規(guī)模統(tǒng)計(jì)情況、實(shí)體分布情況。
《左傳》數(shù)據(jù)集使用BIOES標(biāo)注體系進(jìn)行序列標(biāo)注。在BIOES序列標(biāo)注體系中,B代表實(shí)體的起始位置,I代表實(shí)體的中間位置,O代表非實(shí)體部分,E代表實(shí)體終止位置,S代表單獨(dú)字為一個(gè)實(shí)體。序列標(biāo)注情況如表3所示:
實(shí)驗(yàn)通過常用的命名實(shí)體識(shí)別評(píng)估指標(biāo)對(duì)構(gòu)建的模型進(jìn)行性能評(píng)估,分別為精準(zhǔn)率(Precision,P)、召回率(Recall,R)和F1值(F1)3個(gè)指標(biāo)衡量模型的精準(zhǔn)性。計(jì)算公式如下:
公式(12)
公式(13)
公式(14)
4.2" 分詞及詞性標(biāo)注
實(shí)驗(yàn)選取HanLP2.x工具對(duì)《左傳》數(shù)據(jù)集進(jìn)行分詞及詞性標(biāo)注,HanLP2.x使用了大規(guī)模語料上預(yù)訓(xùn)練的語言模型,這些語料已經(jīng)包括互聯(lián)網(wǎng)上絕大部分的古代漢語和現(xiàn)代漢語。為了進(jìn)一步提高分詞及詞性標(biāo)注的準(zhǔn)確率,降低由于分詞及詞性標(biāo)注錯(cuò)誤導(dǎo)致模型性能下降的風(fēng)險(xiǎn),筆者對(duì)文本人工檢查5 000余字。表4展示了HanLP2.x對(duì)《左傳》數(shù)據(jù)集的分詞及詞性標(biāo)注效果。
4.3" 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)參數(shù)設(shè)置
實(shí)驗(yàn)環(huán)境為Window11操作系統(tǒng)、CPU Intel Core i7-10700 2.90G Hz、16 GB RAM以及NVIDIA GeForce GTX 1660 SUPER 圖形處理器。模型框架為Python3.9、torch1.13。為了更好地調(diào)整學(xué)習(xí)率策略,筆者采用等間隔調(diào)整的有序調(diào)整方法,即在每經(jīng)過10輪迭代后,對(duì)學(xué)習(xí)率進(jìn)行相應(yīng)的衰減。其他參數(shù)詳如表5所示:
4.4" 實(shí)驗(yàn)結(jié)果與分析
4.4.1" 預(yù)訓(xùn)練模型對(duì)比實(shí)驗(yàn)
繼2018年基于Transformer架構(gòu)的預(yù)訓(xùn)練自然語言處理模型BERT出現(xiàn)后,針對(duì)各個(gè)特定領(lǐng)域的預(yù)訓(xùn)練自然語言模型相繼出現(xiàn)。為得到對(duì)古文字編碼效果更優(yōu)的古文預(yù)訓(xùn)練自然語言模型,筆者以《左傳》為研究語料,選取Bert-base-Chinese、Bert-ancient-Chinese、SikuBERT、SikuRoBERTa、GuwenBERT 5種預(yù)訓(xùn)練語言模型進(jìn)行實(shí)驗(yàn)對(duì)比。此外,預(yù)訓(xùn)練語言模型與BiLSTM-CRF結(jié)合已成為命名實(shí)體識(shí)別任務(wù)基礎(chǔ)研究模型,筆者在此基線模型基礎(chǔ)上繼續(xù)研究。實(shí)驗(yàn)結(jié)果如表6所示:
由表6可知,Bert-base-Chinese預(yù)訓(xùn)練模型F1值較Bert-ancient-Chinese預(yù)訓(xùn)練模型下降5.14%。古文和現(xiàn)代漢語在詞義、語法規(guī)則等方面存在顯著差異,因此現(xiàn)有的中文預(yù)訓(xùn)練模型并不適用于古文命名實(shí)體識(shí)別任務(wù)。使用雙向注意力機(jī)制在詩部、史部、醫(yī)部等大規(guī)模的無監(jiān)督古文語料庫上進(jìn)行預(yù)訓(xùn)練,因而獲得的Bert-ancient-Chinese預(yù)訓(xùn)練語言模型的準(zhǔn)確率、F1值明顯高于其他預(yù)訓(xùn)練模型。筆者進(jìn)行了多種基線模型對(duì)比實(shí)驗(yàn),確定Bert-ancient-Chinese + BiLSTM + CRF為最優(yōu)的基線模型組合方式。
4.4.2" 詞性嵌入對(duì)比實(shí)驗(yàn)
在基線模型的基礎(chǔ)上,筆者選取jieba、HanLP2.x、HanLP2.x+人工重構(gòu)3種方式對(duì)《左傳》數(shù)據(jù)集進(jìn)行詞性標(biāo)注。得到標(biāo)注后的詞性結(jié)果分別與靜態(tài)詞性向量文件匹配,得到50維的詞性特征向量,并將詞性特征向量拼接到字向量之后,進(jìn)行命名實(shí)體識(shí)別任務(wù)。此外,由于一個(gè)詞由一個(gè)或多個(gè)字符組成,為了對(duì)齊詞與詞性的粒度,筆者根據(jù)一個(gè)詞包含字的個(gè)數(shù)復(fù)制詞性。實(shí)驗(yàn)結(jié)果如表7所示:
由表7可知,由于jieba分詞針對(duì)古漢語分詞及詞性標(biāo)注效果不佳,錯(cuò)誤的詞性特征傳播會(huì)導(dǎo)致模型學(xué)習(xí)到錯(cuò)誤的特征,其效果不佳。HanLP2.x+人工重構(gòu)的詞性標(biāo)方式在《左傳》數(shù)據(jù)集的精確率方面不如HanLP2.x,但其召回率較HanLP2.x提升了4.11%,具有顯著的優(yōu)勢。
4.4.3" 實(shí)驗(yàn)對(duì)比
在《左傳》數(shù)據(jù)集上,筆者提出的MG-NER模型與已有的多種模型進(jìn)行對(duì)比,實(shí)驗(yàn)證明了提出的MG-NER命名實(shí)體識(shí)別模型的有效性,實(shí)驗(yàn)結(jié)果如表8所示:
(1)FLAT。X. Li等[14]將Lattice結(jié)構(gòu)轉(zhuǎn)化為由多個(gè)跨度組成的平面結(jié)構(gòu),每個(gè)跨度對(duì)應(yīng)一個(gè)字或詞以及其相對(duì)應(yīng)的原始位置。此外,為了對(duì)不同跨度產(chǎn)生交互,筆者提出了跨度的相對(duì)位置編碼。該模型解決了模型性能效率低下、引入外部詞匯信息不全或錯(cuò)誤的問題。
(2)SIMP。M. Peng等[16]提出一種將每個(gè)字符的所有匹配詞合并到字符級(jí)別NER模型的方法。該方法解決了分詞帶來的錯(cuò)誤傳播及模型無法完全利用詞信息的問題。通過實(shí)驗(yàn)驗(yàn)證了所提出方法的有效性。
(3)MECT。S. Wu等[27]利用漢字的結(jié)構(gòu)信息來加強(qiáng)漢字的特征表達(dá),在FLAT基礎(chǔ)上提出使用多元數(shù)據(jù)嵌入來集成漢字特征和部首級(jí)嵌入的方法。MECT能夠更好地捕捉漢字的語義信息,為模型提供更多的特征信息。實(shí)驗(yàn)結(jié)果證明了該方法的優(yōu)越性。
(4)HGN。J. Hu等[28]提出一種使用滑動(dòng)窗口機(jī)制提取局部特征和位置信息的方法。該模型將全局信息和局部信息進(jìn)行融合預(yù)測實(shí)體標(biāo)簽,解決了Transformer忽略局部特征信息的問題。
由表8可知,筆者提出的MG-NER模型在《左傳》數(shù)據(jù)集展示出了優(yōu)秀的性能。在不嵌入3種字形特征時(shí),其F1值達(dá)到了88.59%,MG-NER在捕捉實(shí)體邊界的同時(shí),啟發(fā)式地學(xué)習(xí)實(shí)體字間規(guī)律,有效學(xué)習(xí)利用了輸入階段的特征信息。加入字形圖像特征時(shí),由于對(duì)圖像采用全連接層進(jìn)行特征提取,雖然提高了一定時(shí)間效率,但特征信息相對(duì)粗糙,存在一些噪音問題導(dǎo)致精確率下降,提取到了很多非實(shí)體片段。加入圖像特征的同時(shí),模型學(xué)習(xí)到了那些能用字形結(jié)構(gòu)表達(dá)字符本身含義的規(guī)律,捕捉到了更多的實(shí)體片段,因此召回率有所提升,達(dá)到84.32%。FLAT模型提升了詞匯信息質(zhì)量,SIMP模型充分提高了字詞的特征表示能力,MECT模型和MF-NER模型根據(jù)漢字特點(diǎn)引入結(jié)構(gòu)特征,HGN有效捕捉了局部特征,但以上對(duì)比模型都沒有充分挖掘潛在特征對(duì)于模型的正向反饋以及實(shí)體構(gòu)詞規(guī)律的學(xué)習(xí),因此其效果不如筆者提出的MG-NER模型。此外,由于古文語料實(shí)體分布特殊,一大部分實(shí)體均由一個(gè)字符構(gòu)成,模型學(xué)習(xí)其特征規(guī)律較為困難,因此實(shí)驗(yàn)結(jié)果普遍不如通用領(lǐng)域命名實(shí)體識(shí)別實(shí)驗(yàn)結(jié)果。
4.4.4" 消融實(shí)驗(yàn)
為進(jìn)一步驗(yàn)證MG-NER模型各個(gè)模塊的有效性,在《左傳》數(shù)據(jù)集中進(jìn)行不同子模塊消融實(shí)驗(yàn)。其中,對(duì)整體模型的6個(gè)子模塊消融包括:①在特征輸入階段去掉字形特征;②在特征輸入階段加入字形特征;③保留預(yù)測實(shí)體頭尾輔助任務(wù),在特征抽取階段去掉IDCNN網(wǎng)絡(luò),僅用BiLSTM網(wǎng)絡(luò)對(duì)特征進(jìn)行抽??;④去掉用于啟發(fā)式學(xué)習(xí)字間規(guī)律的Transfer交互器;⑤在特征輸入階段去掉拼接的詞性特征向量;⑥去掉預(yù)測實(shí)體頭尾的輔助模塊以及用于啟發(fā)式學(xué)習(xí)字間規(guī)律的Transfer交互器。實(shí)驗(yàn)結(jié)果如表9所示:
由表9可知,在嵌入層加入字形特征時(shí),由于模型獲取了更多有效特征信息,充分學(xué)習(xí)了一些可以由字形結(jié)構(gòu)體現(xiàn)字符所表達(dá)的含義,捕捉到了更多的實(shí)體片段,召回率提升0.75%,但在圖像特征提取時(shí),使用全連接層將圖片結(jié)構(gòu)拉平進(jìn)行特征提取,提取特征粒度相對(duì)粗糙,捕捉到了一些非實(shí)體片段,具有一定的噪音導(dǎo)致精確率有所下降。因此,在特征輸入階段加入圖像模態(tài)的特征信息具有一定的積極因素和消極因素。其中去掉IDCNN網(wǎng)絡(luò),在《左傳》數(shù)據(jù)集的F1下降5%。IDCNN網(wǎng)絡(luò)采用卷積層和池化層,通過局部感受視野提取特征,更多關(guān)注于相鄰字符間的關(guān)系,而BiLSTM網(wǎng)絡(luò)具有前向和后向兩個(gè)LSTM層,更多關(guān)注于上下文信息。在特征提取階段,IDCNN網(wǎng)絡(luò)與BiLSTM呈現(xiàn)出了互補(bǔ)結(jié)構(gòu),若去掉某一網(wǎng)絡(luò),精確率、召回率和F1值均有明顯的下降趨勢。其中去掉Transfer交互器,在《左傳》數(shù)據(jù)集的F1下降1.52%。Transfer交互器通過特征交互矩陣啟發(fā)式的學(xué)習(xí)到了實(shí)體字間的規(guī)律特征。古文語句的句法結(jié)構(gòu)復(fù)雜,字間存在很多值得學(xué)習(xí)的規(guī)律特征,僅通過預(yù)測實(shí)體頭尾輔助任務(wù)學(xué)習(xí)實(shí)體首尾規(guī)律而忽略實(shí)體內(nèi)的字間規(guī)律導(dǎo)致實(shí)驗(yàn)結(jié)果F1值明顯下降。其中去掉詞性特征,在《左傳》數(shù)據(jù)集的精確率、召回率和F1值分別下降2.36%、4.15%、3.68%。一個(gè)詞由一個(gè)字符或多個(gè)字符組成,為了對(duì)齊詞與詞性的粒度,在MG-NER模型中,根據(jù)一個(gè)詞包含字的個(gè)數(shù)復(fù)制詞性,并拼接在字向量之后。因此,詞性特征包含了詞語的邊界信息,可以讓模型充分學(xué)習(xí)詞邊界特征信息。在劃分詞性時(shí)對(duì)比不同詞性標(biāo)注工具,選取較為精準(zhǔn)的HanLP2.x工具,并人工校驗(yàn)了5 000余字,因此詞性特征對(duì)于MG-NER在各指標(biāo)的影響十分顯著。其中去掉邊界感知層,在《左傳》數(shù)據(jù)集的F1下降2.73%。邊界感知層旨在顯示識(shí)別實(shí)體頭尾部分,充分學(xué)習(xí)詞性特征潛在的邊界信息,邊界感知層與詞性嵌入特征二者相得益彰。實(shí)驗(yàn)結(jié)果證明了本方法的有效性。
5" 結(jié)語/Conclusions
筆者提出了數(shù)字人文視域下多粒度特征融合的古文命名實(shí)體識(shí)別MG-NER模型。MG-NER模型將字特征、詞性特征、字形特征相互融合,提高模型輸入階段的特征表達(dá)。實(shí)驗(yàn)證明,通過多角度學(xué)習(xí)字詞及字結(jié)構(gòu)特征可以有效提高模型預(yù)測實(shí)體的性能。雖然通過提高特征輸入方法使得模型性能得到一定提升,但同時(shí)需要明確特征種類及特點(diǎn),調(diào)整模型網(wǎng)絡(luò)層的架構(gòu)才能令模型更好地捕捉、學(xué)習(xí)、掌握這些規(guī)律特征。研究發(fā)現(xiàn),特征輸入階段在加入詞性信息后,其特征向量包含了詞邊界信息,通過加入預(yù)測實(shí)體頭尾輔助任務(wù)讓模型進(jìn)一步學(xué)習(xí)實(shí)體邊界特征規(guī)律,以此讓模型發(fā)揮最大學(xué)習(xí)效能。除實(shí)體頭尾外,實(shí)體內(nèi)的字間也存在一定規(guī)律性,在加入預(yù)測實(shí)體頭尾輔助任務(wù)學(xué)習(xí)邊界信息的同時(shí),通過Transfer交互器啟發(fā)式學(xué)習(xí)字間規(guī)律特征,實(shí)驗(yàn)證明了Transfer交互器可以有效計(jì)算字間規(guī)律得分,幫助模型掌握字間規(guī)律,提高判別實(shí)體段的能力。面向古文領(lǐng)域的語料,一個(gè)字代表一類地名實(shí)體、時(shí)間實(shí)體、人名實(shí)體較為常見,并且這些字大多由表及意。從字形結(jié)構(gòu)的角度輸入特征,利用BiLSTM網(wǎng)絡(luò)和IDCNN網(wǎng)絡(luò)聯(lián)合抽取學(xué)習(xí)文字及圖像多元特征。在加入字形結(jié)構(gòu)特征后,其精確率和F1值下降,但召回率有所升高,說明MG-NER模型學(xué)習(xí)到了一些有用信息,但由于提取圖像特征粗糙存在一些噪聲,導(dǎo)致了一定的錯(cuò)誤傳播。因此,可以根據(jù)實(shí)際需要選取是否加入字形特征。通過對(duì)比實(shí)驗(yàn)及消融實(shí)驗(yàn),均證明了MG-NER模型的優(yōu)秀性能。
未來筆者將結(jié)合大模型外部知識(shí)、大模型數(shù)據(jù)增強(qiáng)等方法繼續(xù)優(yōu)化MG-NER模型以提高古文命名實(shí)體識(shí)別的性能,并構(gòu)建以MG-NER模型為核心的古文數(shù)據(jù)集實(shí)體自動(dòng)標(biāo)注可視化系統(tǒng)。
參考文獻(xiàn)/References:
[1] 王東波. SikuBERT:數(shù)字人文下的古籍智能信息處理(專題前言)[J]. 圖書館論壇, 2022, 42(6): 30. (WANG D B. SikuBERT: intelligent information processing of ancient texts in digital humanities(special introduction)[J]. Library tribune, 2022, 42(6): 30.)
[2] GRISHMAN R, SUNDHEIM B. Message understanding conference 6: a brief history[C]// Proceedings of the 16th conference on computational linguistics. Stroudsburg: Association for Computational Linguistics, 1996.
[3] HAMMERTON J. Named entity recognition with long short-term memory[C]// Proceedings of Conference on natural language learning at HLT-NAACL. Stroudsburg: Association for Computational Linguistics, 2003.
[4] COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. Journal of machine learning research, 2011, 12(1): 2493-2537.
[5] HUANG Z, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging: computer science[EB/OL]. [2024-06-20]. https://arxiv.org/abs/1508.01991.
[6] CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs: computer science[EB/OL]. [2024-06-20]. https://aclanthology.org/Q16-1026.
[7] AKBIK A, BLYTHE D, VOLLGRAF R. Contextual string embeddings for sequence labeling[C]// Proceedings of International conference on computational linguistics. Stroudsburg: Association for Computational Linguistics, 2018.
[8] DEVLIN J, CHANG M W, LEE K, et al. Bert: pre-training of deep bidirectional transformers for language understanding: computer science[EB/OL]. [2024-06-20]. https://arxiv.org/abs/1810.04805.
[9] LAN Z, CHEN M, GOODMAN S, et al. ALBERT: a lite BERT for self-supervised learning of language representations: computer science[EB/OL]. [2024-07-15]. https://arxiv.org/abs/1909.11942.
[10] LIU Y, OTT M, GOYAL N, et al. RoBERTa: a robustly optimized BERT pretraining approach: computer science[EB/OL]. [2024-07-15]. https://arxiv.org/abs/1907.11692.
[11] 劉江峰, 馮鈺童, 王東波, 等. 數(shù)字人文視域下SikuBERT增強(qiáng)的史籍實(shí)體識(shí)別研究[J]. 圖書館論壇, 2022, 42(10): 61-72. (LIU J F, FENG Y T, WANG D B. Research on historical entity recognition enhanced by SikuBERT under the perspective of digital humanities[J]. Library tribune, 2022, 42(10): 61-72.)
[12] WANG P, REN Z. The uncertainty-based retrieval framework for ancient Chinese CWS and POS: computer science[EB/OL]. [2024-07-20]. https://arxiv.org/abs/2310.08496.
[13] ZHANG Y, YANG J. Chinese NER using Lattice LSTM: computer science[EB/OL]. [2024-07-20]. https://arxiv.org/abs/1805.02023.
[14] LI X, YAN H, QIU X, et al. FLAT: Chinese NER using Flat-Lattice Transformer: computer science[EB/OL]. [2024-07-20]. https://arxiv.org/abs/2004.11795.
[15] 謝靖, 劉江峰, 王東波.古代中國醫(yī)學(xué)文獻(xiàn)的命名實(shí)體識(shí)別研究——以Flat-lattice增強(qiáng)的SikuBERT預(yù)訓(xùn)練模型為例[J]. 圖書館論壇, 2022, 42(10): 51-60. (XIE J, LIU J F, WANG D B. Research on named entity recognition of ancient Chinese medical literature: a case study of flat-lattice enhanced SikuBERT pre-trained model[J]. Library tribune, 2022, 42(10): 51-60.)
[16] PENG M, MA R, ZHANG Q, et al. Simplify the usage of lexicon in Chinese NER: computer science[EB/OL]. [2024-07-20]. https://arxiv.org/abs/1908.05969.
[17] SUN Z, LI X, SUN X, et al. Chinesebert: Chinese pretraining enhanced by glyph and pinyin information: computer science[EB/OL]. [2024-07-26]. https://arxiv.org/abs/2106.16038.
[18] 尹成龍, 陳愛國. 融合多重嵌入的中文命名實(shí)體識(shí)別[J]. 中文信息學(xué)報(bào), 2023, 37(4): 63-71. (YIN C L, CHEN A G. Chinese Named entity recognition with integrated multiple embeddings[J]. Journal of Chinese information processing, 2023, 37(4): 63-71.)
[19] 孫紅, 王哲. 多粒度融合的命名實(shí)體識(shí)別[J]. 中文信息學(xué)報(bào), 2023, 37(3): 123-134. (SUN H, WANG Z. Named entity recognition with multi-granularity fusion[J]. Journal of Chinese information processing, 2023, 37(3): 123-134.)
[20] CHEN C, KONG F. Enhancing entity boundary detection for better Chinese named entity recognition[C]//Proceedings of the 59th annual meeting of the Association for Computational Linguistics and the 11th International joint conference on natural language processing. Stroudsburg: Association for Computational Linguistics, 2021: 20-25.
[21] GU Y, QU X, WANG Z, et al. Delving deep into regularity: a simple but effective method for Chinese named entity recognition[J]. arxiv:2204.05544, 2022.
[22] LAFFERTY J, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Proceedings of International conference on machine learning. San Francisco: Morgan Kaufmann Publishers, 2002.
[23] ZHOU P, SHI W, TIAN J, et al. Attention-based bidirectional long short-term memory networks for relation classification[C]//Proceedings of the 54th annual meeting of the Association for Computational Linguistics. Berlin: Association for Computational Linguistics, 2016.
[24] STRUBELL E, VERGA P, BELANGER D, et al. Fast and accurate entity recognition with iterated dilated convolutions: computer science[EB/OL]. [2024-07-26]. https://arxiv.org/abs/1702.02098.
[25] 王東波, 劉暢, 朱子赫, 等. SikuBERT與SikuRoBERTa: 面向數(shù)字人文的《四庫全書》預(yù)訓(xùn)練模型構(gòu)建及應(yīng)用研究[J]. 圖書館論壇, 2022, 42(6): 31-43. (WANG D B, LIU C, ZHU Z H. SikuBERT and SikuRoBERTa: research on the construction and application of pre-trained models for the Siku Quanshu (Complete Library of the Four Treasuries)in the Context of Digital Humanities[J]. Library tribune, 2022, 42(6): 31-43.)
[26] 李正輝, 廖光忠.基于多層次特征提取的中文醫(yī)療實(shí)體識(shí)別[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2023, 33(9): 119-125. (LI Z H, LIAO G Z. Chinese medical entity recognition based on multi-level feature extraction[J]. Computer technology and development, 2023, 33(9): 119-125.)
[27] WU S, SONG X, FENG Z. MECT: multi-metadata embedding based cross-transformer for Chinese named entity recogtion[EB/OL]. https://aclanthology.org/2021.acl-long.121.pdf.
[28] HU J, SHEN Y, LIU Y, et al. Hero-gang neural model for named entity recognition[C]//Proceedings of the 2022 conference of the North American Chapter of the Association for Computational Linguistics: human language technologies. Seattle: Association for Computational Linguistics, 2022: 1924-1936.
作者貢獻(xiàn)說明/Author contributions:
孟佳娜:設(shè)計(jì)研究方案,修改論文;
許英傲:提出研究思路,撰寫論文;
趙丹丹:采集、清洗和分析數(shù)據(jù);
李豐毅:設(shè)計(jì)實(shí)驗(yàn),處理數(shù)據(jù);
趙" 迪:修訂論文與定稿。
Multi-Granularity Feature Fusion for Named Entity Recognition of Classical Chinese Texts from the Perspective of Digital Humanities
Meng Jiana" Xu Yingao" Zhao Dandan" Li Fengyi" Zhao Di
School of Computer Science and Engineering, Danlian Minzu University, Dalian 116600
Abstract:[Purpose/Significance] Leveraging Named Entity Recognition (NER) techniques for the thorough exploration of ancient literary documents not only drives forward the digitization of ancient Chinese texts, including the vital process of Ancient text digitization, which is crucial for historical studies, bolstering cultural confidence, promoting traditional Chinese culture, and advancing Named Entity Recognition (NER) as a foundational task in NLP.[Method/Process] A method for named entity recognition in classical Chinese texts with multi-granularity feature fusion was proposed, Leveraging “Zuo Zhuan” as the research corpus and formulating named entity recognition tasks for personal names, geographical names, temporal entities, etc. Initially, ancient character information, part-of-speech (POS) information, and glyph features were integrated to enhance input feature representation. Subsequently, auxiliary tasks for predicting entity boundaries were introduced, alongside the utilization of a Transfer Interactor heuristic to learn classical Chinese entity formation rules. This was complemented by joint contextual information extraction using BiLSTM and IDCNN (Iterated Dilated Convolutional Neural Network). Finally, learned features were weighted and merged into a CRF (Conditional Random Field) for entity prediction. [Result/Conclusion] Experimental results demonstrate that the proposed method of multi-granularity feature fusion for named entity recognition in classical Chinese texts enhances precision, recall, and F1 score by 5.09%, 13.45%, and 9.87%, respectively, compared to the mainstream BERT-BiLSTM-CRF method. Multi-granularity feature fusion for named entity recognition in classical Chinese texts is crucial for accurately identifying named entities in ancient texts.
Keywords: digital humanities" " classical Chinese" " entity recognition" " multi-granularity feature fusion
Fund project(s): This work is supported by the Humanities and Social Sciences Research Planning Fund project titled “The Research on the Internet Smart Dissemination of Chinese Culture Based on Knowledge Graphs” (Grant No. 23YJA860010) and the Fundamental Research Funds for the Central Universities project titled “Research on Sentiment Analysis Based on Large Models and Knowledge-Driven Approaches” (Grant No. 140250).
Author(s): Meng Jiana, professor, PhD, master supervisor; Xu Ying’ao, master candidate; Zhao Dandan, associate professor, PhD, master supervisor, corresponding author, E-mail: 86313700@qq.com; Li Fengyi, master candidate; Zhao Di, lecturer, PhD.
Received: 2024-07-22" " Published: 2024-12-17