關(guān)鍵詞:數(shù)字人文;古籍文本;命名實體識別;Bert-BiLSTM-MHA-CRF
中圖分類號:TP18 文獻標(biāo)識碼:A
文章編號:1009-3044(2024)28-0027-03
0 引言
古籍文本作為文化遺產(chǎn)的重要組成部分,是體現(xiàn)文化自信的重要載體。隨著國家實施“中華古籍保護計劃”,大量古籍文本實現(xiàn)了數(shù)字化保護。隨著“數(shù)字人文”理念的提出,對古籍保護研究提出了新要求。因此,如何運用現(xiàn)代科學(xué)技術(shù)深層次挖掘古籍文本潛在的語義知識,是展現(xiàn)中華五千年傳統(tǒng)文化精神,實現(xiàn)中華民族文化自信的重要途徑。大量學(xué)者開始在數(shù)字人文視角下,對古籍史書進行數(shù)字化的組織和探索,以積極響應(yīng)國家古籍保護與利用政策。武漢大學(xué)的肖希明提出,數(shù)據(jù)整合主要體現(xiàn)在數(shù)據(jù)、信息、知識三個層面[1]。上海師范大學(xué)的歐陽劍團隊構(gòu)建了典籍分析平臺,該平臺基于可視化技術(shù),可以實時對典籍進行文本挖掘,從而為歷史學(xué)、文學(xué)等多個領(lǐng)域提供幫助和參考[2]。命名實體識別(Named Entity Recogni?tion,簡稱NER[3]) 作為古籍?dāng)?shù)字人文研究中最基礎(chǔ)的重要環(huán)節(jié),其自動化抽取的結(jié)果決定著下游任務(wù)的準(zhǔn)確性。
傳統(tǒng)基于規(guī)則字典的古籍文本NER方法的準(zhǔn)確性局限于專家制定規(guī)則及設(shè)定詞典的覆蓋程度,雖易實現(xiàn)但受限于單部古籍,可移植性差。統(tǒng)計機器學(xué)習(xí)的古籍文本NER方法的準(zhǔn)確性受限于初期特征工程的建立。如何運用深度學(xué)習(xí)模型在低成本的基礎(chǔ)上實現(xiàn)高質(zhì)量的古籍文本NER,是提升“數(shù)字人文”研究準(zhǔn)確性的重要途徑。針對古漢語文本,條件隨機場(Conditional Random Field,CRF) 模型是一種較為成熟的技術(shù)方案。例如,肖磊[4]與汪青青[5]基于CRF模型分別對《左傳》的地名與人名進行識別;黃水清等[6]基于先秦古漢語語料庫和CRF模型構(gòu)建了古漢語地名自動識別模型,并取得了較好的識別效果;葉輝等[7]通過實驗發(fā)現(xiàn),基于多特征CRF模型可增強中醫(yī)古籍《金匱要略》中癥狀藥物實體的抽取能力;王東波等[8]在CRF模型基礎(chǔ)上,對先秦語料庫中構(gòu)成歷史事件基本實體成分的人名、地名、時間進行抽取并構(gòu)建自動識別模型。本文嘗試以傳統(tǒng)古籍文本NER的條件隨機場(Conditional Random Fields[9],簡稱CRF) 為基礎(chǔ)模型架構(gòu),將古籍NER任務(wù)轉(zhuǎn)化為序列標(biāo)注任務(wù),并在此模型架構(gòu)基礎(chǔ)上融合預(yù)訓(xùn)練模型(Bidirectional En?coder Representation from Transformers[10],以下簡稱Bert) 、雙向長短期記憶網(wǎng)絡(luò)模型(Bi-directional LongShort-Term Memory[11],以下簡稱Bi-LSTM) 和多頭自注意力機制(Multi-headed Self-attention[12],以下簡稱MHA) ,即Bert-BiLSTM-MHA-CRF古籍NER模型,實現(xiàn)對古籍文本高質(zhì)量的NER研究。
1古籍NER框架
本文針對古籍文本語義關(guān)聯(lián)性強、情感特征明顯的特點,提出了Bert-BiLSTM-MHA-CRF古籍NER框架,如圖1所示,由古籍文本輸入層、Bert預(yù)訓(xùn)練層、Bi-LSTM層、MHA層和CRF層組成。
Bert預(yù)訓(xùn)練層:考慮到古籍文本多以省略句為主,本文結(jié)合Bert預(yù)訓(xùn)練模型的強大表征能力,通過Bert 模型中的雙向Transformer編碼器對輸入的古籍文本進行訓(xùn)練。Bert利用其[Mark]掩碼語言模型,通過自定義設(shè)置參數(shù)的語句預(yù)測,能夠較為準(zhǔn)確地捕獲古籍文本的上下文語義信息,實現(xiàn)對輸入字符語義信息的判斷。Bert模型架構(gòu)由輸入層(Input) 、編碼層(Transformer) 和輸出層(Output) 組成。輸入層用于構(gòu)建古籍文本的單位詞向量集合;編碼層實現(xiàn)詞向量、位置向量和段向量的信息嵌入,以首次獲取字符的上下文語義特征;輸出層則以單位詞向量的形式輸出結(jié)果。
為規(guī)避單次實驗可能導(dǎo)致的誤判,本文進行了10 次交叉實驗,并將其結(jié)果作為評估模型性能的指標(biāo),以增強實驗結(jié)果的說服力。對比實驗選擇了CRF、Bi-LSTM、Bi-LSTM-CRF、Bi-LSTM-MHA-CRF、CNNCRF和CNN等模型,具體對比結(jié)果見表2。
從表2中可以看出,在總體效果上,Bert-BiLSTMMHA-CRF古籍NER模型在精確率、召回率和F1值上分別達到了0.8777、0.880 0和0.8789,均實現(xiàn)了最佳性能。與傳統(tǒng)CRF模型相比,精確率、召回率和F1值分別提高了0.347 8、0.537 8、0.463 1;與Bi-LSTM模型相比,提高了0.0159、0.1189、0.0706;與Bi-LSTM-CRF模型相比,提高了0.0364、0.0908、0.0645;與CNN模型相比,提高了0.093 0、0.1745、0.1359;與Bi-LSTM-MHACRF模型相比,提高了0.0332、0.0792、0.056 8;與CNN-CRF模型相比,提高了0.0326、0.1300、0.0842。
從不同實體的識別效果來看,無論是PER(人名)、LOC(地名)還是TIM(時間),本文所用的方法效果皆最佳。
對于PER 的識別,本文提出的Bert-BiLSTMMHA-CRF古籍NER模型精確率、召回率和F1值分別達到0.89、0.87和0.88。相較于CRF模型,這三個指標(biāo)分別提升了0.45、0.71和0.62;相較于Bi-LSTM模型,分別提升了0.01、0.12和0.07;相較于Bi-LSTM-CRF 模型,分別提升了0.03、0.10 和0.07;相較于CNN 模型,分別提升了0.09、0.18和0.14;相較于CNN-CRF模型,分別提升了0.04、0.13 和0.09;相較于Bi-LSTMMHA-CRF模型,分別提升了0.03、0.09和0.06。
對于LOC實體的識別,本文方法的精確率、召回率和F1 值分別達到0.84、0.88 和0.86。相比CRF 模型,這些指標(biāo)分別提升了0.29、0.25和0.28;相比Bi-LSTM 模型,分別提升了0.03、0.13 和0.08;相比Bi-LSTM-CRF模型,分別提升了0.05、0.10和0.07;相比CNN模型,分別提升了0.13、0.20和0.17;相比CNNCRF模型,分別提升了0.03、0.16 和0.10;相比Bi-LSTM-MHA-CRF模型,分別提升了0.05、0.08和0.07。
對于TIM實體,由于其在古籍文本中的出現(xiàn)較為簡單,識別難度相對較低。包括本文模型在內(nèi)的Bi-LSTM、Bi-LSTM-CRF、CNN、CNN-CRF 和Bi-LSTMMHA-CRF的F1值均達到0.9以上,本文方法的F1值達到0.94,在各模型中效果最佳。
實驗結(jié)果表明,Bert預(yù)訓(xùn)練模型能夠較好地實現(xiàn)古籍文本的表征,而Bi-LSTM模型有效捕獲字符的上下文語義信息,MHA則通過篩選語義信息,提升了模型的整體準(zhǔn)確性。
3 結(jié)論
本文提出的Bert-BiLSTM-MHA-CRF 古籍NER 框架在處理古籍文本中表現(xiàn)出細粒度和深層次的文本語義挖掘能力,有效提升了模型的整體準(zhǔn)確性。本文提出的古籍NER模型在精確率、召回率和F1值上分別達到0.8777、0.8800和0.8789,較好地實現(xiàn)了對古籍文本的命名實體識別研究。其中,Bert預(yù)訓(xùn)練層較好地實現(xiàn)了古籍文本的表征,Bi-LSTM模型精確捕獲了字符上下文的語義信息,MHA篩選了重要的語義信息,進一步提升了模型整體的準(zhǔn)確性,為后續(xù)提高“數(shù)字人文”研究提供了高質(zhì)量的語料支撐。