• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    數(shù)字人文視域下多粒度特征融合的古文命名實(shí)體識(shí)別

    2024-02-13 00:00:00孟佳娜許英傲趙丹丹李豐毅趙迪
    知識(shí)管理論壇 2024年6期
    關(guān)鍵詞:數(shù)字人文古文

    摘要:[目的/意義]利用命名實(shí)體識(shí)別技術(shù)深入挖掘古籍文獻(xiàn),推動(dòng)中文古籍?dāng)?shù)字化進(jìn)程,對(duì)于推動(dòng)歷史學(xué)習(xí)、增強(qiáng)文化自信以及弘揚(yáng)中國傳統(tǒng)文化具有重要意義。[方法/過程]提出多粒度特征融合的古文命名實(shí)體識(shí)別方法,以《左傳》為研究語料,構(gòu)建人名、地名、時(shí)間等命名實(shí)體識(shí)別任務(wù)。首先,將古文字信息、詞性信息及字形特征融合,提高輸入特征表示能力;然后,在加入預(yù)測實(shí)體頭尾輔助任務(wù)學(xué)習(xí)古句邊界信息的同時(shí)利用Transfer交互器啟發(fā)式學(xué)習(xí)古文實(shí)體構(gòu)詞規(guī)律,并用BiLSTM和IDCNN聯(lián)合抽取上下文信息;最后,將學(xué)習(xí)到的多種古文特征加權(quán)融合,輸入CRF中進(jìn)行實(shí)體預(yù)測。[結(jié)果/結(jié)論]實(shí)驗(yàn)結(jié)果表明,多粒度特征融合的古文命名實(shí)體識(shí)別方法,相比主流的BERT-BiLSTM-CRF模型,精確率、召回率和F1值分別提升5.09%、13.45%和9.87%。多粒度特征融合的古文命名實(shí)體識(shí)別方法能夠精準(zhǔn)地實(shí)現(xiàn)對(duì)古籍文本的命名實(shí)體識(shí)別。

    關(guān)鍵詞:數(shù)字人文;古文;實(shí)體識(shí)別;多粒度特征融合

    分類號(hào):TP391.1

    引用格式:孟佳娜, 許英傲, 趙丹丹, 等. 數(shù)字人文視域下多粒度特征融合的古文命名實(shí)體識(shí)別[J/OL]. 知識(shí)管理論壇, 2024, 9(6): 533-546 [引用日期]. http://www.kmf.ac.cn/p/411/. (Citation: Meng Jiana, Xu Yingao, Zhao Dandan, et al. Multi-Granularity Feature Fusion for Named Entity Recognition of Classical Chinese Texts from the Perspective of Digital Humanities[J/OL]. Knowledge Management Forum, 2024, 9(6): 533-546 [cite date]. http://www.kmf.ac.cn/p/411/.)

    1" 引言/Introduction

    中華文明悠久源遠(yuǎn),歷經(jīng)千年歲月,蘊(yùn)含著無數(shù)珍貴的智慧和經(jīng)驗(yàn)。千古典籍,如明珠般閃爍著歷史的光芒,描繪了一幅幅精彩紛呈的歷史畫卷。以人為鑒,能夠領(lǐng)悟得失之道;以史為鑒,能夠洞悉興衰之勢。汲取中華文明上下五千年的歷史智慧和經(jīng)驗(yàn),乃是實(shí)現(xiàn)人民幸福、國家興盛、中華民族偉大復(fù)興的重要法寶。近年來社會(huì)信息化的趨勢日益增強(qiáng),數(shù)字人文研究悄然興起,為傳統(tǒng)人文與社會(huì)科學(xué)研究提供了新的研究范式[1]。中共中央辦公廳、國務(wù)院辦公廳印發(fā)的《關(guān)于推進(jìn)新時(shí)代古籍工作的意見》給數(shù)字人文下的古籍智能信息處理研究指明了方向并提供了重要的機(jī)遇。從研究的精細(xì)程度來看,古籍智能信息處理主要分為詞匯級(jí)、句子級(jí)、篇章級(jí)。古文詞匯級(jí)研究主要包括自動(dòng)分詞、詞性標(biāo)注、關(guān)系抽取與命名實(shí)體識(shí)別[2]。其中,命名實(shí)體識(shí)別是自然語言處理領(lǐng)域的重要任務(wù)之一,旨在從文本數(shù)據(jù)中識(shí)別出具有特定意義的實(shí)體,并對(duì)其進(jìn)行分類和抽取。以《左傳》為例,利用筆者提出的命名實(shí)體識(shí)別模型結(jié)合前端技術(shù),實(shí)現(xiàn)命名實(shí)體識(shí)別任務(wù)案例可視化(見圖1)。由于命名實(shí)體通常表示現(xiàn)實(shí)中具體的人、地點(diǎn)、組織機(jī)構(gòu)、時(shí)間或事件等,因此命名實(shí)體識(shí)別在信息提取、機(jī)器翻譯、自動(dòng)問答、情感分析、知識(shí)圖譜構(gòu)建等應(yīng)用場景中具有廣泛的應(yīng)用。

    近年來,隨著古籍?dāng)?shù)字化進(jìn)程不斷加快,古文的命名實(shí)體識(shí)別任務(wù)變得尤為重要。古文命名實(shí)體識(shí)別有助于深入挖掘古文本身的語言、歷史、文化等價(jià)值。通過識(shí)別古文中的人名、地名、時(shí)間等實(shí)體,能夠?yàn)楣糯?、?jīng)濟(jì)、社會(huì)等方面的研究提供更加準(zhǔn)確和全面的資料信息。但由于古文語料其語法、結(jié)構(gòu)及字意的特殊性,從古文中提取實(shí)體難度極大。命名實(shí)體識(shí)別模型在提取實(shí)體前,需要準(zhǔn)確理解字、詞及語句的內(nèi)容才能更加準(zhǔn)確判定實(shí)體。古文存在很多一詞多意的現(xiàn)象,模型理解古文語義十分困難。例如,古文中“策之不以其道”“執(zhí)策而臨之”“策勛十二傳”中的“策”分別代表“驅(qū)使”“馬鞭”“記錄”的意思。其次,長度適中的語料便于命名實(shí)體識(shí)別模型記憶重要信息,遺忘非重要內(nèi)容,推斷實(shí)體可能存在的概率及判定實(shí)體的邊界,而古文句式短小,簡明扼要,模型推斷實(shí)體存在的概率、捕捉文本邊界信息或特征十分困難。例如,“知者不惑,仁者不憂,勇者不懼?!弊詈?,嵌入字、詞或詞性等特征的輸入表示隱含了實(shí)體構(gòu)詞規(guī)律和詞邊界等重要信息,面向古文領(lǐng)域的命名實(shí)體識(shí)別,現(xiàn)有的模型對(duì)于如何整合多粒度特征信息以及學(xué)習(xí)古文實(shí)體構(gòu)詞規(guī)則研究較少。針對(duì)上述問題,筆者提出多粒度特征融合的古文命名實(shí)體識(shí)別方法以提高實(shí)體識(shí)別的精度,以《左傳》數(shù)據(jù)集為實(shí)驗(yàn)對(duì)象,構(gòu)建時(shí)間、地名、人名等命名實(shí)體識(shí)別任務(wù)。實(shí)驗(yàn)結(jié)果證明了多粒度特征融合的古文命名實(shí)體識(shí)別方法的優(yōu)異性。相較于傳統(tǒng)模型,主要貢獻(xiàn)如下:①提出一種融合字、詞性、字形結(jié)構(gòu)并顯示學(xué)習(xí)邊界信息的多粒度特征融合古文命名實(shí)體識(shí)別模型架構(gòu)(以下簡稱MG-NER)。②設(shè)計(jì)了一種用于共享實(shí)體邊界信息并啟發(fā)式學(xué)習(xí)實(shí)體構(gòu)詞規(guī)律的Transfer交互器。

    2" 相關(guān)研究/Related research

    2.1" 早期命名實(shí)體識(shí)別技術(shù)發(fā)展研究

    命名實(shí)體識(shí)別技術(shù)歷史悠久,針對(duì)其特定任務(wù)的深度學(xué)習(xí)技術(shù)已經(jīng)被廣泛提出。較早解決命名實(shí)體識(shí)別任務(wù)的神經(jīng)網(wǎng)絡(luò)由J. Hammerton[3]提出,該模型采用的是LSTM(Long Short-Term Memory)神經(jīng)網(wǎng)絡(luò)。R. Collobert等[4]提出了CNN-CRF(Convolutional Neural Network-Conditional Random Field)的模型架構(gòu),取得了優(yōu)于統(tǒng)計(jì)模型的效果。相較于單向LSTM僅使用過去時(shí)刻信息來預(yù)測當(dāng)前的結(jié)果,Z. Huang等[5]提出BiLSTM-CRF(Bidirectional Long Short Term Memory-Conditional Random Field)作為命名實(shí)體識(shí)別任務(wù)的神經(jīng)網(wǎng)絡(luò)模型,取得了比單向LSTM神經(jīng)網(wǎng)絡(luò)更優(yōu)異的結(jié)果。J. P. C. Chiu等[6]使用BiLSTM-CNNs(Bidirectional Long Short Term Memory-Convolutional Neural Networks)進(jìn)行命名實(shí)體識(shí)別,進(jìn)一步推動(dòng)了該領(lǐng)域的發(fā)展。而A. Akbik等[7]則探討用于序列標(biāo)注的上下文字符串嵌入方法,為命名實(shí)體識(shí)別的研究提供了另一種視角。

    2.2" 基于預(yù)訓(xùn)練語言模型的命名實(shí)體識(shí)別技術(shù)

    通過研究領(lǐng)域命名實(shí)體識(shí)別下游任務(wù)特點(diǎn)設(shè)計(jì)模型,并結(jié)合微調(diào)上游預(yù)訓(xùn)練語言模型的方法,可以有效提升領(lǐng)域化的命名實(shí)體識(shí)別精度。2018年10月谷歌AI團(tuán)隊(duì)發(fā)布新的預(yù)訓(xùn)練語言模型BERT(Bidirectional Encoder Representation from Transformers)[8]刷新包括命名實(shí)體識(shí)別等11項(xiàng)自然語言處理任務(wù)記錄。預(yù)訓(xùn)練語言模型作為編碼層并結(jié)合下游任務(wù)微調(diào)逐漸成為主流的文本挖掘方法。其后,一系列基于BERT改進(jìn)的預(yù)訓(xùn)練語言模型出現(xiàn)。Z. Lan等[9]提出一種基于BERT的輕量級(jí)自監(jiān)督學(xué)習(xí)模型ALBERT,通過分解詞嵌入和跨層參數(shù)共享技術(shù)解決了BERT模型參數(shù)規(guī)模過大和訓(xùn)練下游任務(wù)時(shí)間長的問題。Y. Liu等[10]則使用更大規(guī)模的數(shù)據(jù)文本及參數(shù)量訓(xùn)練出性能優(yōu)秀的預(yù)訓(xùn)練語言模型RoBERTa。中文預(yù)訓(xùn)練語言模型普適性雖強(qiáng),但在面對(duì)特定領(lǐng)域文本的自然語言處理任務(wù)時(shí),其功能的發(fā)揮容易受限。由于古文命名實(shí)體識(shí)別技術(shù)發(fā)展較晚,因此對(duì)于古文命名實(shí)體識(shí)別任務(wù),領(lǐng)域化的深度預(yù)訓(xùn)練語言模型成為提高古文文本實(shí)體識(shí)別效果的關(guān)鍵技術(shù)。2022年劉江峰等[11]基于《四庫全書》繁體語料在BERT和RoBERTa上進(jìn)行繼續(xù)訓(xùn)練得到SikuBERT和SikuRoBERTa預(yù)訓(xùn)練語言模型,其設(shè)計(jì)面向《左傳》語料的命名實(shí)體識(shí)別等任務(wù),驗(yàn)證了SikuBERT和SikuRoBERTa在古文詞法、句法和語境學(xué)習(xí)以及泛化能力方面具有較強(qiáng)的能力。此外SikuBERT和SikuRoBERTa被第一個(gè)古漢語領(lǐng)域NLP工具評(píng)估比賽EvaHan 2022[12]作為封閉環(huán)境下的預(yù)訓(xùn)練模型。P. Wang等[12]在BERT預(yù)訓(xùn)練模型的基礎(chǔ)上,使用了較SikuBERT和SikuRoBERTa更大規(guī)模的古文數(shù)據(jù)集訓(xùn)練得到了Bert-Ancient-Chinese模型,進(jìn)一步豐富了古文領(lǐng)域化的深度預(yù)訓(xùn)練語言模型。

    2.3" 基于融合字詞信息的命名實(shí)體識(shí)別技術(shù)

    早期的命名實(shí)體識(shí)別模型通常以一個(gè)字或一個(gè)單詞作為特征輸入的單位。但通常一個(gè)中文詞語是由多個(gè)中文符號(hào)構(gòu)成,中文語句又由多個(gè)具有實(shí)際含義的字或詞構(gòu)成,僅僅以字作為輸入單位會(huì)損失詞語特征信息。因此,在模型輸入階段如何同時(shí)有效利用字和詞信息成為提高中文命名實(shí)體識(shí)別模型性能的關(guān)鍵。許多學(xué)者和專家探究了不同的字信息和詞信息融合方法。Y. Zhang等[13]提出了Lattice-LSTM模型,該模型同時(shí)對(duì)輸入的字序列以及該字在詞典中匹配得到的所有詞序列進(jìn)行編碼,并將潛在的詞匯信息融合進(jìn)字信息當(dāng)中,從而使得模型在獲得字信息的同時(shí),也可以有效地利用詞的先驗(yàn)信息。但由于Lattice-LSTM模型擁有特定的復(fù)雜格子結(jié)構(gòu),很難完全利用GPU的并行計(jì)算能力,導(dǎo)致有著比較低的推理速度。隨后,X. Li等[14]提出了面向中文的FLAT(Flat-lattice Transformer)模型,其針對(duì)Lattice結(jié)構(gòu)設(shè)計(jì)了一種巧妙的編碼方式,將Lattice轉(zhuǎn)為平面結(jié)構(gòu),以此提高模型的推理速度。FLAT模型在古文命名實(shí)體識(shí)別中的優(yōu)越性也被證實(shí)。謝靖等[15]以《黃帝內(nèi)經(jīng)·素問》為研究對(duì)象、以FLAT結(jié)構(gòu)為微調(diào)模型,構(gòu)建了中醫(yī)文獻(xiàn)中病癥、病理等命名實(shí)體識(shí)別任務(wù)。實(shí)驗(yàn)結(jié)果證明,該微調(diào)模型可以同時(shí)有效利用字和詞信息,提高古代中醫(yī)命名實(shí)體的識(shí)別效率。M. Peng等[16]根據(jù)字符在其所有匹配詞的位置劃分4種集合,并將其整合對(duì)應(yīng)到字符中,也有效降低了Lattice-LSTM方法的復(fù)雜程度。雖然,在特征輸入階段有效融合了字詞信息,但大多方法忽略了如何利用模型充分提取、學(xué)習(xí)這些有效信息。

    2.4" 基于特征抽取的命名實(shí)體識(shí)別技術(shù)

    中文或古文字符本身存在著一些實(shí)際含義,其字形結(jié)構(gòu)、拼音信息、偏旁部首等的特定規(guī)律特征可以被模型學(xué)習(xí),以此提高命名實(shí)體識(shí)別模型的效果。Z. Sun等[17]將每個(gè)字符的仿宋、行楷和隸書3種字形信息與拼音信息融合,在大規(guī)模語料上訓(xùn)練出中文預(yù)訓(xùn)練模型ChineseBERT,在命名實(shí)體識(shí)別任務(wù)中取得了優(yōu)異的結(jié)果。尹成龍等[18]提出一種將詞嵌入、字嵌入和部首嵌入相融合的新方法,該方法充分利用不同粒度的語義信息,提高了模型的識(shí)別效果。孫紅等[19]提出了MF-NER方法,通過編碼漢字中每個(gè)字部件,并使用注意力機(jī)制使得文本序列中的字啟發(fā)式地融合細(xì)粒度信息,賦予模型獲取中文字形特征的能力。上述方法均從漢字本身特點(diǎn)出發(fā),賦予模型更多可學(xué)習(xí)的規(guī)律和特征。此后,基于聯(lián)合輔助任務(wù)的命名實(shí)體識(shí)別技術(shù)也被廣泛提出。C. Chen等[20]利用圖注意力網(wǎng)絡(luò)層捕捉句子中詞間關(guān)系,并將實(shí)體首尾詞匯的預(yù)測看作是兩個(gè)獨(dú)立的二分類問題,作為輔助任務(wù)加入訓(xùn)練,緩解了詞邊界沖突的問題。Y. Gu等[21]在加入預(yù)測實(shí)體頭尾輔助任務(wù)的同時(shí),進(jìn)一步利用注意力機(jī)制讓模型學(xué)習(xí)實(shí)體內(nèi)字與字間的關(guān)聯(lián)關(guān)系,并探索實(shí)體的命名規(guī)律性,在多個(gè)數(shù)據(jù)集取得了當(dāng)年最好的結(jié)果。

    目前,現(xiàn)有的古文命名實(shí)體識(shí)別研究在模型輸入表征層未能有效融合字形信息、詞性信息及字信息的特征表示。模型特征提取設(shè)計(jì)較為單一,未能有效探究實(shí)體邊界及實(shí)體構(gòu)詞規(guī)律。針對(duì)以上問題,筆者將融合多重粒度的嵌入表示,并聯(lián)合輔助任務(wù)預(yù)測實(shí)體頭尾的同時(shí)使用注意力機(jī)制啟發(fā)式學(xué)習(xí)實(shí)體構(gòu)成規(guī)律,從而有效地提高古文命名實(shí)體識(shí)別任務(wù)的性能。

    3" 理論與模型/Theory and model

    筆者提出了適用于古文命名實(shí)體識(shí)別任務(wù)的MG-NER模型。MG-NER模型由嵌入層、邊界感知層、特征感知層、CRF[22]4個(gè)部分組成,模型結(jié)構(gòu)見圖2。首先,它直接將BERT作為編碼器得到文本當(dāng)中每個(gè)字的向量表示。MG-NER模型將字向量、詞性向量和3種字體的字形結(jié)構(gòu)特征向量融合作為最終的模型輸入表示。其次,將多粒度特征融合向量表示分別送入邊界感知層和特征感知層。邊界感知層在預(yù)測實(shí)體頭與實(shí)體尾的同時(shí),利用Transfer交互器共享實(shí)體邊界信息并啟發(fā)式學(xué)習(xí)實(shí)體構(gòu)詞規(guī)律。特征感知層一方面使用BiLSTM[23]抽取序列的依賴關(guān)系和時(shí)序關(guān)系,另一方面使用IDCNN[24]擴(kuò)張卷積視野,捕獲長遠(yuǎn)距離特征信息,學(xué)習(xí)語句內(nèi)部規(guī)律特征。最后,通過CRF層預(yù)測結(jié)果。接下來詳細(xì)介紹模型。

    3.1" "嵌入設(shè)計(jì)

    3.1.1" 向量

    向量是一種在計(jì)算機(jī)科學(xué)和數(shù)學(xué)領(lǐng)域廣泛使用的數(shù)據(jù)結(jié)構(gòu),向量可以用來表示各種信息和數(shù)據(jù),是計(jì)算機(jī)理解人類語言和信息的一種數(shù)據(jù)媒介。通常,在自然語言處理各類任務(wù)中,通過預(yù)訓(xùn)練語言模型將字或詞等對(duì)象映射成向量形式。預(yù)訓(xùn)練語言模型旨在通過在大量無監(jiān)督語料上進(jìn)行預(yù)訓(xùn)練,以學(xué)習(xí)豐富的上下文信息,獲得比較好的語言表示,再將其應(yīng)用到特定的自然語言處理的下游任務(wù)。在具體實(shí)驗(yàn)中,由于古文數(shù)據(jù)文本與通用領(lǐng)域數(shù)據(jù)文本有較大差異,因此使用Bert-ancient-Chinese[12]作為預(yù)訓(xùn)練語言模型。Bert-ancient-Chinese模型使用雙向注意力機(jī)制在詩部、史部、醫(yī)部等大規(guī)模的無監(jiān)督古文語料庫上進(jìn)行預(yù)訓(xùn)練從而獲得預(yù)訓(xùn)練語言模型。相比SikuBERT和SikuRoBERTa[25]等古文預(yù)訓(xùn)練語言模型Bert-ancient-Chinese擁有更大的詞表,收錄了更多的生僻字,因此更有利于提升模型在下游任務(wù)的表現(xiàn)性能。

    3.1.2" 字嵌入

    MG-NER模型通過已有的BERT預(yù)訓(xùn)練模型在命名實(shí)體識(shí)別任務(wù)上進(jìn)行微調(diào)(Fine-tune)操作,從而優(yōu)化句子中每個(gè)字的上下文表示信息。給定一個(gè)輸入序列,每一個(gè)字符的向量表示如公式(1)所示:

    公式(1)

    3.1.3" 詞性嵌入

    已有的研究表明,結(jié)合詞性的字特征作為模型的輸入表示可以有效提高模型的學(xué)習(xí)能力。為了提高輸入特征表示,強(qiáng)化模型對(duì)實(shí)體邊界信息的識(shí)別能力,將詞性向量拼接到字向量之后。一個(gè)詞由一個(gè)字符或多個(gè)字符組成,為了對(duì)齊詞與詞性的粒度,筆者根據(jù)一個(gè)詞包含字的個(gè)數(shù)復(fù)制詞性。例如,“長安君”由“長”“安”和“君”3個(gè)字組成?!伴L安君”的詞性為“NR”,因此將“NR”分別嵌入到“長”“安”和“君”3個(gè)字中,詞性嵌入過程見圖3。給定一個(gè)字級(jí)別向量序列和一個(gè)詞性向量序列 ,對(duì)于融合后的向量表示如公式(2)所示:

    公式(2)

    3.1.4" 字形結(jié)構(gòu)嵌入

    漢語是一種符號(hào)語言,很多字符屬于象形字,字符的符號(hào)蘊(yùn)含著豐富的語義信息和學(xué)習(xí)價(jià)值,例如,“液”“河”和“湖”都有“氵”,表示這些字符都與“水”的語義相關(guān)。因此,將字形結(jié)構(gòu)融合模型中可以增強(qiáng)漢語自然語言模型的表現(xiàn)力。

    受ChineseBERT啟發(fā),筆者采用仿宋、行楷和隸書3種字體。通過3種不同的字體對(duì)比和學(xué)習(xí),可以使模型更好地從圖像角度理解

    字符表達(dá)的含義。在特征輸入階段,通過多角度學(xué)習(xí)語句特征,有助于提高模型對(duì)于語料內(nèi)容理解和學(xué)習(xí)的能力。分別將每個(gè)漢字進(jìn)行20×20的圖形向量化,然后將其分別拉平成1 200維向量,拼接后輸入全連接層,最終得到融合3種字體的字形結(jié)構(gòu)向量。仿宋、行楷、隸書3種字形結(jié)構(gòu)嵌入的流程見圖4。給定字與詞性融合向量序列和融合3種字體的字形結(jié)構(gòu)向量序列,對(duì)于嵌入后的向量表示如公式(3)所示:

    公式(3)

    3.2" "網(wǎng)絡(luò)層

    3.2.1" 雙向長短時(shí)記憶網(wǎng)絡(luò)

    BiLSTM是由雙向LSTM網(wǎng)絡(luò)組合而成,通過對(duì)輸入的文本序列做順序和逆序的計(jì)算,提取序列中的上下文信息[26],得到向量序列。實(shí)現(xiàn)其功能的主要單元為LSTM,LSTM通過選擇性遺忘上一時(shí)刻的細(xì)胞狀態(tài)中的信息以及記憶下一時(shí)刻新的信息得以傳遞,而無用的信息被釋放丟棄,并在每個(gè)時(shí)間步都會(huì)輸出隱層狀態(tài),其中遺忘、記憶與輸出由通過上個(gè)時(shí)刻的隱層狀態(tài)和當(dāng)前輸入計(jì)算出的遺忘門、記憶門、輸出門來控制。

    3.2.2" Transfer交互器

    實(shí)體頭與實(shí)體尾的預(yù)測可以有效挖掘嵌入特征的語義和實(shí)體邊界等潛在信息。此外,實(shí)體構(gòu)詞也存在著一定規(guī)律性,這一規(guī)律性代表了某一類型的實(shí)體。例如,“籃球隊(duì)”“足球隊(duì)”都是以“隊(duì)”字結(jié)尾,其都代表了組織團(tuán)隊(duì)這一類實(shí)體,“夏四月”“正月”“初月”都是以“月”字結(jié)尾,其都代表了時(shí)間這一類實(shí)體。預(yù)測實(shí)體頭與實(shí)體尾的同時(shí),啟發(fā)式地學(xué)習(xí)這些字間規(guī)律特征,可以提升模型的整體性能。通過兩個(gè)獨(dú)立的BiLSTM網(wǎng)絡(luò)及深度全連接網(wǎng)絡(luò)層提取實(shí)體頭尾特征信息,通過這種方式可以利用模型有效學(xué)習(xí)實(shí)體首尾的構(gòu)詞規(guī)律。此外,在學(xué)習(xí)實(shí)體首尾構(gòu)詞規(guī)律的同時(shí),通過特征交互矩陣計(jì)算句內(nèi)字與字間的得分可以啟發(fā)式學(xué)習(xí)句內(nèi)的規(guī)律特征。為了對(duì)齊字間規(guī)律得分及原始語句向量矩陣維度,將得到的字間規(guī)律特征矩陣與特征降維矩陣相互運(yùn)算,最終得到包含語義信息及字間規(guī)律信息的信息矩陣。啟發(fā)式學(xué)習(xí)字間規(guī)律特征流程如圖5所示:

    筆者提出將Transfer交互器用于交互共享實(shí)體頭與實(shí)體尾特征信息并啟發(fā)式學(xué)習(xí)實(shí)體構(gòu)詞規(guī)律。Transfer交互器結(jié)構(gòu)包括特征交互矩陣W、特征降維矩陣V、信息矩陣Head_information和Tail_information、激活函數(shù)tanh,輸出矩陣Head_out和Tail_out,其結(jié)構(gòu)如圖6所示:

    Transfer交互器核心思想為分別將用于預(yù)測實(shí)體開頭與實(shí)體結(jié)尾的兩個(gè)獨(dú)立BiLSTM的輸出與特征交互矩陣W相乘并使用tanh函數(shù)激活,充分交互實(shí)體頭與實(shí)體尾的特征信息。通過特征降維矩陣V,進(jìn)一步優(yōu)化特征空間,挖掘潛在特征信息。

    hi、hj為兩個(gè)獨(dú)立BILSTM的輸出,將其分別與特征交互矩陣W相乘并用雙曲正切函數(shù)激活,得到包含實(shí)體頭與實(shí)體尾關(guān)聯(lián)特征信息的矩陣Ip、Iq。計(jì)算方法如公式(4)、公式(5)所示:

    公式(4)

    公式(5)

    將關(guān)聯(lián)特征信息的矩陣Ip、Iq分別與特征降維矩陣V相乘,進(jìn)一步優(yōu)化特征空間,并對(duì)其歸一化得到信息矩陣Qp、Qq。計(jì)算方法如公式(6)、公式(7)所示:

    公式(6)

    公式(7)

    hi、hj分別與信息矩陣Qp、Qq相乘,得到包含了實(shí)體頭與實(shí)體尾特征關(guān)聯(lián)關(guān)系的輸出矩陣Head_out和Tail_out。計(jì)算方法如公式(8)、公式(9)所示:

    公式(8)

    公式(9)

    3.2.3" 輸出層和損失函數(shù)

    筆者將邊界感知層學(xué)習(xí)到的邊界信息與特征感知層學(xué)習(xí)到的特征信息融合,最終送入CRF進(jìn)行預(yù)測。

    邊界信息與特征信息融合計(jì)算方式見公式(10)。式中W1、W2、W3分別為可學(xué)習(xí)參數(shù),可以更好地平衡不同模塊對(duì)于模型的貢獻(xiàn)程度。和分別為預(yù)測實(shí)體頭與實(shí)體尾的輸出矩陣,為學(xué)習(xí)到的特征融合矩陣。

    公式(10)

    MG-NER最終損失值采用損失合策略,邊界感知層和特征感知層相互學(xué)習(xí)、相互作用,最終提高模型的準(zhǔn)確性。損失合計(jì)算方法如公式(11)所示:

    公式(11)

    4" 實(shí)驗(yàn)/Experiment

    4.1" 實(shí)驗(yàn)數(shù)據(jù)集

    古文實(shí)體語料資源稀缺,獲取難度較大,筆者采用古文數(shù)據(jù)集《左傳》進(jìn)行實(shí)驗(yàn)分析。《左傳》是第一屆古漢語分詞與詞性標(biāo)注評(píng)測EvaHan2022所使用的數(shù)據(jù)集,包含訓(xùn)練集8 900條句子,驗(yàn)證集1 200條句子,測試集1 000條句子,每條句子中包含的實(shí)體類型和數(shù)量不等,總計(jì)分為三大實(shí)體類型,包括人名(Name)、地名(Loc)、時(shí)間(Time)。相較于詩歌、散文等其他古文數(shù)據(jù)集,《左傳》語料內(nèi)容豐富,句法復(fù)雜,實(shí)驗(yàn)結(jié)果具有一定的參考價(jià)值和意義。針對(duì)經(jīng)典的文言文的命名實(shí)體識(shí)別任務(wù),有利于研究目前學(xué)界已有古代漢語命名實(shí)體識(shí)別研究成果,更有利于發(fā)現(xiàn)、探討當(dāng)前研究進(jìn)展的問題和不足,一同推動(dòng)古代漢語命名實(shí)體識(shí)別技術(shù)的研究。表1和表2分別展示了《左傳》語句規(guī)模統(tǒng)計(jì)情況、實(shí)體分布情況。

    《左傳》數(shù)據(jù)集使用BIOES標(biāo)注體系進(jìn)行序列標(biāo)注。在BIOES序列標(biāo)注體系中,B代表實(shí)體的起始位置,I代表實(shí)體的中間位置,O代表非實(shí)體部分,E代表實(shí)體終止位置,S代表單獨(dú)字為一個(gè)實(shí)體。序列標(biāo)注情況如表3所示:

    實(shí)驗(yàn)通過常用的命名實(shí)體識(shí)別評(píng)估指標(biāo)對(duì)構(gòu)建的模型進(jìn)行性能評(píng)估,分別為精準(zhǔn)率(Precision,P)、召回率(Recall,R)和F1值(F1)3個(gè)指標(biāo)衡量模型的精準(zhǔn)性。計(jì)算公式如下:

    公式(12)

    公式(13)

    公式(14)

    4.2" 分詞及詞性標(biāo)注

    實(shí)驗(yàn)選取HanLP2.x工具對(duì)《左傳》數(shù)據(jù)集進(jìn)行分詞及詞性標(biāo)注,HanLP2.x使用了大規(guī)模語料上預(yù)訓(xùn)練的語言模型,這些語料已經(jīng)包括互聯(lián)網(wǎng)上絕大部分的古代漢語和現(xiàn)代漢語。為了進(jìn)一步提高分詞及詞性標(biāo)注的準(zhǔn)確率,降低由于分詞及詞性標(biāo)注錯(cuò)誤導(dǎo)致模型性能下降的風(fēng)險(xiǎn),筆者對(duì)文本人工檢查5 000余字。表4展示了HanLP2.x對(duì)《左傳》數(shù)據(jù)集的分詞及詞性標(biāo)注效果。

    4.3" 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)參數(shù)設(shè)置

    實(shí)驗(yàn)環(huán)境為Window11操作系統(tǒng)、CPU Intel Core i7-10700 2.90G Hz、16 GB RAM以及NVIDIA GeForce GTX 1660 SUPER 圖形處理器。模型框架為Python3.9、torch1.13。為了更好地調(diào)整學(xué)習(xí)率策略,筆者采用等間隔調(diào)整的有序調(diào)整方法,即在每經(jīng)過10輪迭代后,對(duì)學(xué)習(xí)率進(jìn)行相應(yīng)的衰減。其他參數(shù)詳如表5所示:

    4.4" 實(shí)驗(yàn)結(jié)果與分析

    4.4.1" 預(yù)訓(xùn)練模型對(duì)比實(shí)驗(yàn)

    繼2018年基于Transformer架構(gòu)的預(yù)訓(xùn)練自然語言處理模型BERT出現(xiàn)后,針對(duì)各個(gè)特定領(lǐng)域的預(yù)訓(xùn)練自然語言模型相繼出現(xiàn)。為得到對(duì)古文字編碼效果更優(yōu)的古文預(yù)訓(xùn)練自然語言模型,筆者以《左傳》為研究語料,選取Bert-base-Chinese、Bert-ancient-Chinese、SikuBERT、SikuRoBERTa、GuwenBERT 5種預(yù)訓(xùn)練語言模型進(jìn)行實(shí)驗(yàn)對(duì)比。此外,預(yù)訓(xùn)練語言模型與BiLSTM-CRF結(jié)合已成為命名實(shí)體識(shí)別任務(wù)基礎(chǔ)研究模型,筆者在此基線模型基礎(chǔ)上繼續(xù)研究。實(shí)驗(yàn)結(jié)果如表6所示:

    由表6可知,Bert-base-Chinese預(yù)訓(xùn)練模型F1值較Bert-ancient-Chinese預(yù)訓(xùn)練模型下降5.14%。古文和現(xiàn)代漢語在詞義、語法規(guī)則等方面存在顯著差異,因此現(xiàn)有的中文預(yù)訓(xùn)練模型并不適用于古文命名實(shí)體識(shí)別任務(wù)。使用雙向注意力機(jī)制在詩部、史部、醫(yī)部等大規(guī)模的無監(jiān)督古文語料庫上進(jìn)行預(yù)訓(xùn)練,因而獲得的Bert-ancient-Chinese預(yù)訓(xùn)練語言模型的準(zhǔn)確率、F1值明顯高于其他預(yù)訓(xùn)練模型。筆者進(jìn)行了多種基線模型對(duì)比實(shí)驗(yàn),確定Bert-ancient-Chinese + BiLSTM + CRF為最優(yōu)的基線模型組合方式。

    4.4.2" 詞性嵌入對(duì)比實(shí)驗(yàn)

    在基線模型的基礎(chǔ)上,筆者選取jieba、HanLP2.x、HanLP2.x+人工重構(gòu)3種方式對(duì)《左傳》數(shù)據(jù)集進(jìn)行詞性標(biāo)注。得到標(biāo)注后的詞性結(jié)果分別與靜態(tài)詞性向量文件匹配,得到50維的詞性特征向量,并將詞性特征向量拼接到字向量之后,進(jìn)行命名實(shí)體識(shí)別任務(wù)。此外,由于一個(gè)詞由一個(gè)或多個(gè)字符組成,為了對(duì)齊詞與詞性的粒度,筆者根據(jù)一個(gè)詞包含字的個(gè)數(shù)復(fù)制詞性。實(shí)驗(yàn)結(jié)果如表7所示:

    由表7可知,由于jieba分詞針對(duì)古漢語分詞及詞性標(biāo)注效果不佳,錯(cuò)誤的詞性特征傳播會(huì)導(dǎo)致模型學(xué)習(xí)到錯(cuò)誤的特征,其效果不佳。HanLP2.x+人工重構(gòu)的詞性標(biāo)方式在《左傳》數(shù)據(jù)集的精確率方面不如HanLP2.x,但其召回率較HanLP2.x提升了4.11%,具有顯著的優(yōu)勢。

    4.4.3" 實(shí)驗(yàn)對(duì)比

    在《左傳》數(shù)據(jù)集上,筆者提出的MG-NER模型與已有的多種模型進(jìn)行對(duì)比,實(shí)驗(yàn)證明了提出的MG-NER命名實(shí)體識(shí)別模型的有效性,實(shí)驗(yàn)結(jié)果如表8所示:

    (1)FLAT。X. Li等[14]將Lattice結(jié)構(gòu)轉(zhuǎn)化為由多個(gè)跨度組成的平面結(jié)構(gòu),每個(gè)跨度對(duì)應(yīng)一個(gè)字或詞以及其相對(duì)應(yīng)的原始位置。此外,為了對(duì)不同跨度產(chǎn)生交互,筆者提出了跨度的相對(duì)位置編碼。該模型解決了模型性能效率低下、引入外部詞匯信息不全或錯(cuò)誤的問題。

    (2)SIMP。M. Peng等[16]提出一種將每個(gè)字符的所有匹配詞合并到字符級(jí)別NER模型的方法。該方法解決了分詞帶來的錯(cuò)誤傳播及模型無法完全利用詞信息的問題。通過實(shí)驗(yàn)驗(yàn)證了所提出方法的有效性。

    (3)MECT。S. Wu等[27]利用漢字的結(jié)構(gòu)信息來加強(qiáng)漢字的特征表達(dá),在FLAT基礎(chǔ)上提出使用多元數(shù)據(jù)嵌入來集成漢字特征和部首級(jí)嵌入的方法。MECT能夠更好地捕捉漢字的語義信息,為模型提供更多的特征信息。實(shí)驗(yàn)結(jié)果證明了該方法的優(yōu)越性。

    (4)HGN。J. Hu等[28]提出一種使用滑動(dòng)窗口機(jī)制提取局部特征和位置信息的方法。該模型將全局信息和局部信息進(jìn)行融合預(yù)測實(shí)體標(biāo)簽,解決了Transformer忽略局部特征信息的問題。

    由表8可知,筆者提出的MG-NER模型在《左傳》數(shù)據(jù)集展示出了優(yōu)秀的性能。在不嵌入3種字形特征時(shí),其F1值達(dá)到了88.59%,MG-NER在捕捉實(shí)體邊界的同時(shí),啟發(fā)式地學(xué)習(xí)實(shí)體字間規(guī)律,有效學(xué)習(xí)利用了輸入階段的特征信息。加入字形圖像特征時(shí),由于對(duì)圖像采用全連接層進(jìn)行特征提取,雖然提高了一定時(shí)間效率,但特征信息相對(duì)粗糙,存在一些噪音問題導(dǎo)致精確率下降,提取到了很多非實(shí)體片段。加入圖像特征的同時(shí),模型學(xué)習(xí)到了那些能用字形結(jié)構(gòu)表達(dá)字符本身含義的規(guī)律,捕捉到了更多的實(shí)體片段,因此召回率有所提升,達(dá)到84.32%。FLAT模型提升了詞匯信息質(zhì)量,SIMP模型充分提高了字詞的特征表示能力,MECT模型和MF-NER模型根據(jù)漢字特點(diǎn)引入結(jié)構(gòu)特征,HGN有效捕捉了局部特征,但以上對(duì)比模型都沒有充分挖掘潛在特征對(duì)于模型的正向反饋以及實(shí)體構(gòu)詞規(guī)律的學(xué)習(xí),因此其效果不如筆者提出的MG-NER模型。此外,由于古文語料實(shí)體分布特殊,一大部分實(shí)體均由一個(gè)字符構(gòu)成,模型學(xué)習(xí)其特征規(guī)律較為困難,因此實(shí)驗(yàn)結(jié)果普遍不如通用領(lǐng)域命名實(shí)體識(shí)別實(shí)驗(yàn)結(jié)果。

    4.4.4" 消融實(shí)驗(yàn)

    為進(jìn)一步驗(yàn)證MG-NER模型各個(gè)模塊的有效性,在《左傳》數(shù)據(jù)集中進(jìn)行不同子模塊消融實(shí)驗(yàn)。其中,對(duì)整體模型的6個(gè)子模塊消融包括:①在特征輸入階段去掉字形特征;②在特征輸入階段加入字形特征;③保留預(yù)測實(shí)體頭尾輔助任務(wù),在特征抽取階段去掉IDCNN網(wǎng)絡(luò),僅用BiLSTM網(wǎng)絡(luò)對(duì)特征進(jìn)行抽??;④去掉用于啟發(fā)式學(xué)習(xí)字間規(guī)律的Transfer交互器;⑤在特征輸入階段去掉拼接的詞性特征向量;⑥去掉預(yù)測實(shí)體頭尾的輔助模塊以及用于啟發(fā)式學(xué)習(xí)字間規(guī)律的Transfer交互器。實(shí)驗(yàn)結(jié)果如表9所示:

    由表9可知,在嵌入層加入字形特征時(shí),由于模型獲取了更多有效特征信息,充分學(xué)習(xí)了一些可以由字形結(jié)構(gòu)體現(xiàn)字符所表達(dá)的含義,捕捉到了更多的實(shí)體片段,召回率提升0.75%,但在圖像特征提取時(shí),使用全連接層將圖片結(jié)構(gòu)拉平進(jìn)行特征提取,提取特征粒度相對(duì)粗糙,捕捉到了一些非實(shí)體片段,具有一定的噪音導(dǎo)致精確率有所下降。因此,在特征輸入階段加入圖像模態(tài)的特征信息具有一定的積極因素和消極因素。其中去掉IDCNN網(wǎng)絡(luò),在《左傳》數(shù)據(jù)集的F1下降5%。IDCNN網(wǎng)絡(luò)采用卷積層和池化層,通過局部感受視野提取特征,更多關(guān)注于相鄰字符間的關(guān)系,而BiLSTM網(wǎng)絡(luò)具有前向和后向兩個(gè)LSTM層,更多關(guān)注于上下文信息。在特征提取階段,IDCNN網(wǎng)絡(luò)與BiLSTM呈現(xiàn)出了互補(bǔ)結(jié)構(gòu),若去掉某一網(wǎng)絡(luò),精確率、召回率和F1值均有明顯的下降趨勢。其中去掉Transfer交互器,在《左傳》數(shù)據(jù)集的F1下降1.52%。Transfer交互器通過特征交互矩陣啟發(fā)式的學(xué)習(xí)到了實(shí)體字間的規(guī)律特征。古文語句的句法結(jié)構(gòu)復(fù)雜,字間存在很多值得學(xué)習(xí)的規(guī)律特征,僅通過預(yù)測實(shí)體頭尾輔助任務(wù)學(xué)習(xí)實(shí)體首尾規(guī)律而忽略實(shí)體內(nèi)的字間規(guī)律導(dǎo)致實(shí)驗(yàn)結(jié)果F1值明顯下降。其中去掉詞性特征,在《左傳》數(shù)據(jù)集的精確率、召回率和F1值分別下降2.36%、4.15%、3.68%。一個(gè)詞由一個(gè)字符或多個(gè)字符組成,為了對(duì)齊詞與詞性的粒度,在MG-NER模型中,根據(jù)一個(gè)詞包含字的個(gè)數(shù)復(fù)制詞性,并拼接在字向量之后。因此,詞性特征包含了詞語的邊界信息,可以讓模型充分學(xué)習(xí)詞邊界特征信息。在劃分詞性時(shí)對(duì)比不同詞性標(biāo)注工具,選取較為精準(zhǔn)的HanLP2.x工具,并人工校驗(yàn)了5 000余字,因此詞性特征對(duì)于MG-NER在各指標(biāo)的影響十分顯著。其中去掉邊界感知層,在《左傳》數(shù)據(jù)集的F1下降2.73%。邊界感知層旨在顯示識(shí)別實(shí)體頭尾部分,充分學(xué)習(xí)詞性特征潛在的邊界信息,邊界感知層與詞性嵌入特征二者相得益彰。實(shí)驗(yàn)結(jié)果證明了本方法的有效性。

    5" 結(jié)語/Conclusions

    筆者提出了數(shù)字人文視域下多粒度特征融合的古文命名實(shí)體識(shí)別MG-NER模型。MG-NER模型將字特征、詞性特征、字形特征相互融合,提高模型輸入階段的特征表達(dá)。實(shí)驗(yàn)證明,通過多角度學(xué)習(xí)字詞及字結(jié)構(gòu)特征可以有效提高模型預(yù)測實(shí)體的性能。雖然通過提高特征輸入方法使得模型性能得到一定提升,但同時(shí)需要明確特征種類及特點(diǎn),調(diào)整模型網(wǎng)絡(luò)層的架構(gòu)才能令模型更好地捕捉、學(xué)習(xí)、掌握這些規(guī)律特征。研究發(fā)現(xiàn),特征輸入階段在加入詞性信息后,其特征向量包含了詞邊界信息,通過加入預(yù)測實(shí)體頭尾輔助任務(wù)讓模型進(jìn)一步學(xué)習(xí)實(shí)體邊界特征規(guī)律,以此讓模型發(fā)揮最大學(xué)習(xí)效能。除實(shí)體頭尾外,實(shí)體內(nèi)的字間也存在一定規(guī)律性,在加入預(yù)測實(shí)體頭尾輔助任務(wù)學(xué)習(xí)邊界信息的同時(shí),通過Transfer交互器啟發(fā)式學(xué)習(xí)字間規(guī)律特征,實(shí)驗(yàn)證明了Transfer交互器可以有效計(jì)算字間規(guī)律得分,幫助模型掌握字間規(guī)律,提高判別實(shí)體段的能力。面向古文領(lǐng)域的語料,一個(gè)字代表一類地名實(shí)體、時(shí)間實(shí)體、人名實(shí)體較為常見,并且這些字大多由表及意。從字形結(jié)構(gòu)的角度輸入特征,利用BiLSTM網(wǎng)絡(luò)和IDCNN網(wǎng)絡(luò)聯(lián)合抽取學(xué)習(xí)文字及圖像多元特征。在加入字形結(jié)構(gòu)特征后,其精確率和F1值下降,但召回率有所升高,說明MG-NER模型學(xué)習(xí)到了一些有用信息,但由于提取圖像特征粗糙存在一些噪聲,導(dǎo)致了一定的錯(cuò)誤傳播。因此,可以根據(jù)實(shí)際需要選取是否加入字形特征。通過對(duì)比實(shí)驗(yàn)及消融實(shí)驗(yàn),均證明了MG-NER模型的優(yōu)秀性能。

    未來筆者將結(jié)合大模型外部知識(shí)、大模型數(shù)據(jù)增強(qiáng)等方法繼續(xù)優(yōu)化MG-NER模型以提高古文命名實(shí)體識(shí)別的性能,并構(gòu)建以MG-NER模型為核心的古文數(shù)據(jù)集實(shí)體自動(dòng)標(biāo)注可視化系統(tǒng)。

    參考文獻(xiàn)/References:

    [1] 王東波. SikuBERT:數(shù)字人文下的古籍智能信息處理(專題前言)[J]. 圖書館論壇, 2022, 42(6): 30. (WANG D B. SikuBERT: intelligent information processing of ancient texts in digital humanities(special introduction)[J]. Library tribune, 2022, 42(6): 30.)

    [2] GRISHMAN R, SUNDHEIM B. Message understanding conference 6: a brief history[C]// Proceedings of the 16th conference on computational linguistics. Stroudsburg: Association for Computational Linguistics, 1996.

    [3] HAMMERTON J. Named entity recognition with long short-term memory[C]// Proceedings of Conference on natural language learning at HLT-NAACL. Stroudsburg: Association for Computational Linguistics, 2003.

    [4] COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. Journal of machine learning research, 2011, 12(1): 2493-2537.

    [5] HUANG Z, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging: computer science[EB/OL]. [2024-06-20]. https://arxiv.org/abs/1508.01991.

    [6] CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs: computer science[EB/OL]. [2024-06-20]. https://aclanthology.org/Q16-1026.

    [7] AKBIK A, BLYTHE D, VOLLGRAF R. Contextual string embeddings for sequence labeling[C]// Proceedings of International conference on computational linguistics. Stroudsburg: Association for Computational Linguistics, 2018.

    [8] DEVLIN J, CHANG M W, LEE K, et al. Bert: pre-training of deep bidirectional transformers for language understanding: computer science[EB/OL]. [2024-06-20]. https://arxiv.org/abs/1810.04805.

    [9] LAN Z, CHEN M, GOODMAN S, et al. ALBERT: a lite BERT for self-supervised learning of language representations: computer science[EB/OL]. [2024-07-15]. https://arxiv.org/abs/1909.11942.

    [10] LIU Y, OTT M, GOYAL N, et al. RoBERTa: a robustly optimized BERT pretraining approach: computer science[EB/OL]. [2024-07-15]. https://arxiv.org/abs/1907.11692.

    [11] 劉江峰, 馮鈺童, 王東波, 等. 數(shù)字人文視域下SikuBERT增強(qiáng)的史籍實(shí)體識(shí)別研究[J]. 圖書館論壇, 2022, 42(10): 61-72. (LIU J F, FENG Y T, WANG D B. Research on historical entity recognition enhanced by SikuBERT under the perspective of digital humanities[J]. Library tribune, 2022, 42(10): 61-72.)

    [12] WANG P, REN Z. The uncertainty-based retrieval framework for ancient Chinese CWS and POS: computer science[EB/OL]. [2024-07-20]. https://arxiv.org/abs/2310.08496.

    [13] ZHANG Y, YANG J. Chinese NER using Lattice LSTM: computer science[EB/OL]. [2024-07-20]. https://arxiv.org/abs/1805.02023.

    [14] LI X, YAN H, QIU X, et al. FLAT: Chinese NER using Flat-Lattice Transformer: computer science[EB/OL]. [2024-07-20]. https://arxiv.org/abs/2004.11795.

    [15] 謝靖, 劉江峰, 王東波.古代中國醫(yī)學(xué)文獻(xiàn)的命名實(shí)體識(shí)別研究——以Flat-lattice增強(qiáng)的SikuBERT預(yù)訓(xùn)練模型為例[J]. 圖書館論壇, 2022, 42(10): 51-60. (XIE J, LIU J F, WANG D B. Research on named entity recognition of ancient Chinese medical literature: a case study of flat-lattice enhanced SikuBERT pre-trained model[J]. Library tribune, 2022, 42(10): 51-60.)

    [16] PENG M, MA R, ZHANG Q, et al. Simplify the usage of lexicon in Chinese NER: computer science[EB/OL]. [2024-07-20]. https://arxiv.org/abs/1908.05969.

    [17] SUN Z, LI X, SUN X, et al. Chinesebert: Chinese pretraining enhanced by glyph and pinyin information: computer science[EB/OL]. [2024-07-26]. https://arxiv.org/abs/2106.16038.

    [18] 尹成龍, 陳愛國. 融合多重嵌入的中文命名實(shí)體識(shí)別[J]. 中文信息學(xué)報(bào), 2023, 37(4): 63-71. (YIN C L, CHEN A G. Chinese Named entity recognition with integrated multiple embeddings[J]. Journal of Chinese information processing, 2023, 37(4): 63-71.)

    [19] 孫紅, 王哲. 多粒度融合的命名實(shí)體識(shí)別[J]. 中文信息學(xué)報(bào), 2023, 37(3): 123-134. (SUN H, WANG Z. Named entity recognition with multi-granularity fusion[J]. Journal of Chinese information processing, 2023, 37(3): 123-134.)

    [20] CHEN C, KONG F. Enhancing entity boundary detection for better Chinese named entity recognition[C]//Proceedings of the 59th annual meeting of the Association for Computational Linguistics and the 11th International joint conference on natural language processing. Stroudsburg: Association for Computational Linguistics, 2021: 20-25.

    [21] GU Y, QU X, WANG Z, et al. Delving deep into regularity: a simple but effective method for Chinese named entity recognition[J]. arxiv:2204.05544, 2022.

    [22] LAFFERTY J, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Proceedings of International conference on machine learning. San Francisco: Morgan Kaufmann Publishers, 2002.

    [23] ZHOU P, SHI W, TIAN J, et al. Attention-based bidirectional long short-term memory networks for relation classification[C]//Proceedings of the 54th annual meeting of the Association for Computational Linguistics. Berlin: Association for Computational Linguistics, 2016.

    [24] STRUBELL E, VERGA P, BELANGER D, et al. Fast and accurate entity recognition with iterated dilated convolutions: computer science[EB/OL]. [2024-07-26]. https://arxiv.org/abs/1702.02098.

    [25] 王東波, 劉暢, 朱子赫, 等. SikuBERT與SikuRoBERTa: 面向數(shù)字人文的《四庫全書》預(yù)訓(xùn)練模型構(gòu)建及應(yīng)用研究[J]. 圖書館論壇, 2022, 42(6): 31-43. (WANG D B, LIU C, ZHU Z H. SikuBERT and SikuRoBERTa: research on the construction and application of pre-trained models for the Siku Quanshu (Complete Library of the Four Treasuries)in the Context of Digital Humanities[J]. Library tribune, 2022, 42(6): 31-43.)

    [26] 李正輝, 廖光忠.基于多層次特征提取的中文醫(yī)療實(shí)體識(shí)別[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2023, 33(9): 119-125. (LI Z H, LIAO G Z. Chinese medical entity recognition based on multi-level feature extraction[J]. Computer technology and development, 2023, 33(9): 119-125.)

    [27] WU S, SONG X, FENG Z. MECT: multi-metadata embedding based cross-transformer for Chinese named entity recogtion[EB/OL]. https://aclanthology.org/2021.acl-long.121.pdf.

    [28] HU J, SHEN Y, LIU Y, et al. Hero-gang neural model for named entity recognition[C]//Proceedings of the 2022 conference of the North American Chapter of the Association for Computational Linguistics: human language technologies. Seattle: Association for Computational Linguistics, 2022: 1924-1936.

    作者貢獻(xiàn)說明/Author contributions:

    孟佳娜:設(shè)計(jì)研究方案,修改論文;

    許英傲:提出研究思路,撰寫論文;

    趙丹丹:采集、清洗和分析數(shù)據(jù);

    李豐毅:設(shè)計(jì)實(shí)驗(yàn),處理數(shù)據(jù);

    趙" 迪:修訂論文與定稿。

    Multi-Granularity Feature Fusion for Named Entity Recognition of Classical Chinese Texts from the Perspective of Digital Humanities

    Meng Jiana" Xu Yingao" Zhao Dandan" Li Fengyi" Zhao Di

    School of Computer Science and Engineering, Danlian Minzu University, Dalian 116600

    Abstract:[Purpose/Significance] Leveraging Named Entity Recognition (NER) techniques for the thorough exploration of ancient literary documents not only drives forward the digitization of ancient Chinese texts, including the vital process of Ancient text digitization, which is crucial for historical studies, bolstering cultural confidence, promoting traditional Chinese culture, and advancing Named Entity Recognition (NER) as a foundational task in NLP.[Method/Process] A method for named entity recognition in classical Chinese texts with multi-granularity feature fusion was proposed, Leveraging “Zuo Zhuan” as the research corpus and formulating named entity recognition tasks for personal names, geographical names, temporal entities, etc. Initially, ancient character information, part-of-speech (POS) information, and glyph features were integrated to enhance input feature representation. Subsequently, auxiliary tasks for predicting entity boundaries were introduced, alongside the utilization of a Transfer Interactor heuristic to learn classical Chinese entity formation rules. This was complemented by joint contextual information extraction using BiLSTM and IDCNN (Iterated Dilated Convolutional Neural Network). Finally, learned features were weighted and merged into a CRF (Conditional Random Field) for entity prediction. [Result/Conclusion] Experimental results demonstrate that the proposed method of multi-granularity feature fusion for named entity recognition in classical Chinese texts enhances precision, recall, and F1 score by 5.09%, 13.45%, and 9.87%, respectively, compared to the mainstream BERT-BiLSTM-CRF method. Multi-granularity feature fusion for named entity recognition in classical Chinese texts is crucial for accurately identifying named entities in ancient texts.

    Keywords: digital humanities" " classical Chinese" " entity recognition" " multi-granularity feature fusion

    Fund project(s): This work is supported by the Humanities and Social Sciences Research Planning Fund project titled “The Research on the Internet Smart Dissemination of Chinese Culture Based on Knowledge Graphs” (Grant No. 23YJA860010) and the Fundamental Research Funds for the Central Universities project titled “Research on Sentiment Analysis Based on Large Models and Knowledge-Driven Approaches” (Grant No. 140250).

    Author(s): Meng Jiana, professor, PhD, master supervisor; Xu Ying’ao, master candidate; Zhao Dandan, associate professor, PhD, master supervisor, corresponding author, E-mail: 86313700@qq.com; Li Fengyi, master candidate; Zhao Di, lecturer, PhD.

    Received: 2024-07-22" " Published: 2024-12-17

    猜你喜歡
    數(shù)字人文古文
    綠豆發(fā)芽(小古文版)
    中古文學(xué)劄叢之二(五題)
    國學(xué)(2021年0期)2022-01-18 05:58:20
    古文中走出的“超能力者”
    稱象
    衛(wèi)靈鶴之古文篆額考
    讀《隸定古文疏證》札記
    數(shù)字人文時(shí)代公共圖書館經(jīng)典閱讀推廣研究
    數(shù)字人文目標(biāo)下圖書館信息服務(wù)模式研究
    數(shù)字學(xué)術(shù)與公眾科學(xué):數(shù)字圖書館新生態(tài)
    跨界與融合:全球視野下的數(shù)字人文
    男女高潮啪啪啪动态图| 午夜福利视频在线观看免费| 日本-黄色视频高清免费观看| 亚洲人与动物交配视频| av免费在线看不卡| 久久国产精品大桥未久av| 三上悠亚av全集在线观看| 成人国语在线视频| 中文字幕另类日韩欧美亚洲嫩草| 极品少妇高潮喷水抽搐| 丰满乱子伦码专区| 国产免费又黄又爽又色| 国内精品宾馆在线| 国产精品三级大全| 如何舔出高潮| 国产极品粉嫩免费观看在线| 有码 亚洲区| 亚洲精品视频女| 99热全是精品| 一边亲一边摸免费视频| 日韩av在线免费看完整版不卡| videos熟女内射| 少妇 在线观看| 一区二区三区四区激情视频| 亚洲美女视频黄频| 日本91视频免费播放| 人人妻人人添人人爽欧美一区卜| 国产极品粉嫩免费观看在线| 精品亚洲乱码少妇综合久久| 国产高清国产精品国产三级| 亚洲av中文av极速乱| 男女无遮挡免费网站观看| 热99国产精品久久久久久7| 中国三级夫妇交换| 亚洲经典国产精华液单| 亚洲第一av免费看| 在线观看美女被高潮喷水网站| 天天躁夜夜躁狠狠久久av| 亚洲少妇的诱惑av| videossex国产| 黑人高潮一二区| freevideosex欧美| 色5月婷婷丁香| 人妻系列 视频| 两个人看的免费小视频| 日韩不卡一区二区三区视频在线| 精品视频人人做人人爽| 成人无遮挡网站| 69精品国产乱码久久久| 亚洲欧美一区二区三区黑人 | videosex国产| 捣出白浆h1v1| 亚洲在久久综合| 日韩成人伦理影院| 日韩制服丝袜自拍偷拍| 亚洲av福利一区| 亚洲一码二码三码区别大吗| 在线天堂最新版资源| 国产有黄有色有爽视频| 黄色配什么色好看| 熟女人妻精品中文字幕| 嫩草影院入口| 免费不卡的大黄色大毛片视频在线观看| 另类亚洲欧美激情| 亚洲图色成人| 自拍欧美九色日韩亚洲蝌蚪91| 少妇被粗大的猛进出69影院 | 国产男女内射视频| av网站免费在线观看视频| 国产精品欧美亚洲77777| 欧美日韩成人在线一区二区| 国产在线视频一区二区| 成年人午夜在线观看视频| 久久久久久伊人网av| 亚洲成人av在线免费| 久久精品国产a三级三级三级| xxxhd国产人妻xxx| 国产极品粉嫩免费观看在线| 国产又色又爽无遮挡免| 国产深夜福利视频在线观看| 久久久精品94久久精品| 母亲3免费完整高清在线观看 | 国产又爽黄色视频| 99久久综合免费| 少妇人妻久久综合中文| 超色免费av| 在线观看免费视频网站a站| 国产 精品1| 精品一区在线观看国产| 日韩一本色道免费dvd| 久久av网站| 最近中文字幕高清免费大全6| 街头女战士在线观看网站| 亚洲经典国产精华液单| 欧美激情 高清一区二区三区| 成年女人在线观看亚洲视频| 啦啦啦啦在线视频资源| 男人操女人黄网站| 亚洲成av片中文字幕在线观看 | 久久婷婷青草| 2021少妇久久久久久久久久久| 国产国拍精品亚洲av在线观看| 五月开心婷婷网| 国产日韩欧美亚洲二区| 免费久久久久久久精品成人欧美视频 | av网站免费在线观看视频| 伦理电影大哥的女人| 青春草视频在线免费观看| 国产xxxxx性猛交| 在线观看免费视频网站a站| 日韩电影二区| 在线观看美女被高潮喷水网站| 女人被躁到高潮嗷嗷叫费观| 国精品久久久久久国模美| 日韩精品有码人妻一区| 亚洲精品aⅴ在线观看| 亚洲性久久影院| 一区二区日韩欧美中文字幕 | 国产成人精品久久久久久| 亚洲国产毛片av蜜桃av| 日韩 亚洲 欧美在线| 久久ye,这里只有精品| 久久99蜜桃精品久久| 成年人免费黄色播放视频| 午夜精品国产一区二区电影| av电影中文网址| 国产成人精品无人区| 少妇的逼水好多| 99热6这里只有精品| 久久影院123| 如日韩欧美国产精品一区二区三区| 国产白丝娇喘喷水9色精品| tube8黄色片| www日本在线高清视频| 国产熟女午夜一区二区三区| 极品少妇高潮喷水抽搐| 久久 成人 亚洲| 少妇人妻 视频| 性高湖久久久久久久久免费观看| 春色校园在线视频观看| 亚洲内射少妇av| 国产一区二区三区av在线| 视频在线观看一区二区三区| 成年美女黄网站色视频大全免费| 亚洲成av片中文字幕在线观看 | 五月天丁香电影| 国产成人免费无遮挡视频| 亚洲精品乱久久久久久| 免费女性裸体啪啪无遮挡网站| 亚洲精品久久成人aⅴ小说| 久久狼人影院| 免费黄网站久久成人精品| 人妻系列 视频| 国产男女内射视频| 永久网站在线| 亚洲图色成人| 国产精品一区www在线观看| 免费大片18禁| 久久午夜综合久久蜜桃| 满18在线观看网站| 97在线视频观看| 久久久久久伊人网av| 哪个播放器可以免费观看大片| 性高湖久久久久久久久免费观看| 在线天堂中文资源库| 欧美激情极品国产一区二区三区 | 99热国产这里只有精品6| 日韩不卡一区二区三区视频在线| 五月玫瑰六月丁香| 爱豆传媒免费全集在线观看| 搡女人真爽免费视频火全软件| 如日韩欧美国产精品一区二区三区| 天天操日日干夜夜撸| 男女啪啪激烈高潮av片| 五月开心婷婷网| 久久久久精品人妻al黑| 寂寞人妻少妇视频99o| 国产极品天堂在线| 亚洲国产精品专区欧美| 一级,二级,三级黄色视频| 日韩人妻精品一区2区三区| 久久久久久久久久久久大奶| 观看av在线不卡| 亚洲精品乱久久久久久| 青春草亚洲视频在线观看| 青春草亚洲视频在线观看| 久久人人爽av亚洲精品天堂| 日日爽夜夜爽网站| videossex国产| 久久国内精品自在自线图片| 一区二区三区乱码不卡18| √禁漫天堂资源中文www| 国产高清国产精品国产三级| 国产1区2区3区精品| a 毛片基地| 欧美 日韩 精品 国产| 精品一区二区三卡| 国产成人一区二区在线| 午夜福利乱码中文字幕| 人妻一区二区av| 亚洲av电影在线进入| 国产一区二区三区综合在线观看 | 一本色道久久久久久精品综合| 婷婷色综合大香蕉| 亚洲美女视频黄频| 免费久久久久久久精品成人欧美视频 | 国产一区二区在线观看日韩| 日本与韩国留学比较| 国产精品无大码| 亚洲国产av影院在线观看| 国产高清国产精品国产三级| 咕卡用的链子| 欧美 亚洲 国产 日韩一| 午夜91福利影院| 春色校园在线视频观看| 男人爽女人下面视频在线观看| 老司机亚洲免费影院| 侵犯人妻中文字幕一二三四区| 国产日韩欧美视频二区| 飞空精品影院首页| 久久久国产欧美日韩av| 久久av网站| 国产一区二区激情短视频 | 亚洲熟女精品中文字幕| 免费在线观看黄色视频的| 国产国语露脸激情在线看| 久久精品久久久久久噜噜老黄| 国产 一区精品| 日韩av免费高清视频| 久久午夜福利片| 秋霞在线观看毛片| 午夜影院在线不卡| 日韩视频在线欧美| 欧美+日韩+精品| 亚洲,欧美,日韩| 亚洲国产精品一区二区三区在线| 亚洲欧美成人综合另类久久久| 激情五月婷婷亚洲| 一本大道久久a久久精品| a级毛色黄片| videos熟女内射| 90打野战视频偷拍视频| 91aial.com中文字幕在线观看| 大片电影免费在线观看免费| 高清不卡的av网站| 一二三四中文在线观看免费高清| 欧美少妇被猛烈插入视频| 十分钟在线观看高清视频www| 中文字幕最新亚洲高清| 51国产日韩欧美| 国产日韩欧美在线精品| 香蕉丝袜av| av在线观看视频网站免费| 午夜日本视频在线| 免费播放大片免费观看视频在线观看| 精品久久久久久电影网| 日本av免费视频播放| 精品久久久久久电影网| 五月伊人婷婷丁香| 色婷婷av一区二区三区视频| 丰满乱子伦码专区| 国产精品嫩草影院av在线观看| 热re99久久精品国产66热6| 老女人水多毛片| 18禁国产床啪视频网站| 久久99一区二区三区| 波多野结衣一区麻豆| 99香蕉大伊视频| 成人国语在线视频| 综合色丁香网| 另类精品久久| 美女中出高潮动态图| 精品国产一区二区三区久久久樱花| 视频在线观看一区二区三区| av福利片在线| 激情五月婷婷亚洲| av电影中文网址| 蜜桃国产av成人99| 成年女人在线观看亚洲视频| 人人妻人人澡人人爽人人夜夜| 国产极品天堂在线| 日韩大片免费观看网站| 久久久久久久精品精品| 黄色视频在线播放观看不卡| 男女午夜视频在线观看 | 欧美 日韩 精品 国产| 亚洲欧美日韩另类电影网站| 韩国高清视频一区二区三区| 黄色 视频免费看| 日韩视频在线欧美| 精品国产一区二区三区四区第35| 欧美 日韩 精品 国产| 巨乳人妻的诱惑在线观看| 91精品三级在线观看| 久久女婷五月综合色啪小说| 你懂的网址亚洲精品在线观看| 人成视频在线观看免费观看| 国产极品天堂在线| 各种免费的搞黄视频| 久久ye,这里只有精品| 国产 精品1| 亚洲欧美中文字幕日韩二区| 妹子高潮喷水视频| 日韩一区二区三区影片| 日韩熟女老妇一区二区性免费视频| 久热久热在线精品观看| 午夜福利,免费看| 捣出白浆h1v1| 大香蕉久久成人网| 26uuu在线亚洲综合色| 久久久精品94久久精品| 亚洲色图综合在线观看| 最近的中文字幕免费完整| 极品少妇高潮喷水抽搐| 久久久久久久久久久免费av| 大香蕉久久成人网| 久久久国产一区二区| 亚洲成国产人片在线观看| 视频中文字幕在线观看| 女性被躁到高潮视频| 伊人久久国产一区二区| av视频免费观看在线观看| 亚洲成色77777| 1024视频免费在线观看| 久久久亚洲精品成人影院| 欧美bdsm另类| 男女国产视频网站| 欧美精品亚洲一区二区| av黄色大香蕉| 亚洲第一av免费看| 精品国产一区二区三区四区第35| 如何舔出高潮| 深夜精品福利| 成人亚洲精品一区在线观看| 精品少妇黑人巨大在线播放| 精品酒店卫生间| 老司机影院毛片| 看十八女毛片水多多多| 蜜臀久久99精品久久宅男| 欧美日韩视频精品一区| 久久这里只有精品19| 亚洲精品aⅴ在线观看| 看非洲黑人一级黄片| 国产男女内射视频| 欧美日韩国产mv在线观看视频| 国产黄色视频一区二区在线观看| 日本91视频免费播放| 宅男免费午夜| 久久99精品国语久久久| 各种免费的搞黄视频| 国产亚洲精品久久久com| 少妇熟女欧美另类| 纯流量卡能插随身wifi吗| 18+在线观看网站| 久久鲁丝午夜福利片| 永久网站在线| 精品一区二区免费观看| 国产国拍精品亚洲av在线观看| 亚洲精品av麻豆狂野| 久久精品国产综合久久久 | 亚洲国产最新在线播放| 97在线人人人人妻| 新久久久久国产一级毛片| www.av在线官网国产| videosex国产| 色5月婷婷丁香| 欧美日韩视频精品一区| 国国产精品蜜臀av免费| a级毛色黄片| 三上悠亚av全集在线观看| 成年人免费黄色播放视频| 天天躁夜夜躁狠狠久久av| 亚洲国产精品一区三区| 五月天丁香电影| 国产午夜精品一二区理论片| 精品国产一区二区三区四区第35| 国产在线视频一区二区| 国产成人精品无人区| 最近最新中文字幕免费大全7| 人人妻人人添人人爽欧美一区卜| 女人被躁到高潮嗷嗷叫费观| 国产午夜精品一二区理论片| 久久99精品国语久久久| 国产激情久久老熟女| 18禁在线无遮挡免费观看视频| 麻豆乱淫一区二区| 男女无遮挡免费网站观看| 亚洲国产日韩一区二区| 久久99蜜桃精品久久| 国产亚洲午夜精品一区二区久久| 精品一区二区三区视频在线| 新久久久久国产一级毛片| 十八禁网站网址无遮挡| 日韩一本色道免费dvd| 成人18禁高潮啪啪吃奶动态图| 亚洲精品日本国产第一区| 热99久久久久精品小说推荐| 中文字幕人妻丝袜制服| 一本—道久久a久久精品蜜桃钙片| 国产精品女同一区二区软件| 国产一级毛片在线| 国产不卡av网站在线观看| 国产一区二区在线观看日韩| 91在线精品国自产拍蜜月| 免费黄频网站在线观看国产| 欧美精品高潮呻吟av久久| 亚洲国产精品一区二区三区在线| 26uuu在线亚洲综合色| 精品少妇内射三级| 欧美日韩亚洲高清精品| videosex国产| 日本色播在线视频| 久久韩国三级中文字幕| 国产 精品1| 亚洲在久久综合| 亚洲精品自拍成人| 国精品久久久久久国模美| 九九爱精品视频在线观看| 80岁老熟妇乱子伦牲交| 深夜精品福利| 永久免费av网站大全| 国产极品天堂在线| 五月玫瑰六月丁香| 男女边吃奶边做爰视频| 亚洲五月色婷婷综合| 精品亚洲成国产av| 欧美激情国产日韩精品一区| 久久精品人人爽人人爽视色| 免费高清在线观看视频在线观看| 亚洲精品,欧美精品| 桃花免费在线播放| 99久久综合免费| 老熟女久久久| 大话2 男鬼变身卡| 国产精品无大码| 国产av国产精品国产| 人妻少妇偷人精品九色| 亚洲精华国产精华液的使用体验| 99国产综合亚洲精品| www.熟女人妻精品国产 | 色5月婷婷丁香| 最黄视频免费看| 九色成人免费人妻av| 最近的中文字幕免费完整| 亚洲欧美成人精品一区二区| 制服诱惑二区| 男女边吃奶边做爰视频| 亚洲精品国产av蜜桃| 久久婷婷青草| 超色免费av| 男女高潮啪啪啪动态图| 婷婷成人精品国产| 99国产精品免费福利视频| av免费在线看不卡| 久久人人爽人人片av| 欧美精品国产亚洲| av电影中文网址| 亚洲欧美成人精品一区二区| 日本与韩国留学比较| 美女福利国产在线| tube8黄色片| 国产精品成人在线| 欧美精品av麻豆av| 亚洲国产成人一精品久久久| 不卡视频在线观看欧美| 草草在线视频免费看| 一级a做视频免费观看| 亚洲五月色婷婷综合| 青春草视频在线免费观看| 蜜臀久久99精品久久宅男| 精品国产一区二区久久| 国产免费一区二区三区四区乱码| 国产又爽黄色视频| 视频在线观看一区二区三区| 18禁在线无遮挡免费观看视频| 中文字幕免费在线视频6| 久久久国产精品麻豆| 亚洲国产欧美在线一区| 性色avwww在线观看| 伊人久久国产一区二区| a级毛片在线看网站| 日日爽夜夜爽网站| 精品国产一区二区三区四区第35| 婷婷色麻豆天堂久久| 91精品国产国语对白视频| 免费少妇av软件| 久久99一区二区三区| 久久久久久久精品精品| 国产一区有黄有色的免费视频| 美女大奶头黄色视频| 精品少妇久久久久久888优播| 亚洲国产毛片av蜜桃av| 国产精品不卡视频一区二区| 久久久久久久久久久久大奶| 久久久久久伊人网av| 黄色 视频免费看| 交换朋友夫妻互换小说| 国产日韩一区二区三区精品不卡| 亚洲国产精品国产精品| 18禁国产床啪视频网站| 精品久久久久久电影网| av国产久精品久网站免费入址| 九九爱精品视频在线观看| 美女脱内裤让男人舔精品视频| 国产成人免费观看mmmm| 高清欧美精品videossex| 女人被躁到高潮嗷嗷叫费观| 亚洲一码二码三码区别大吗| 777米奇影视久久| av女优亚洲男人天堂| 免费看不卡的av| 七月丁香在线播放| 人妻少妇偷人精品九色| 久热这里只有精品99| 国产精品 国内视频| 好男人视频免费观看在线| 狠狠精品人妻久久久久久综合| 国产在线免费精品| 最近最新中文字幕免费大全7| 亚洲欧美日韩另类电影网站| 捣出白浆h1v1| 久久这里只有精品19| 国产69精品久久久久777片| 国产在线免费精品| 精品一区二区三区四区五区乱码 | av福利片在线| 91在线精品国自产拍蜜月| 久久久久久久亚洲中文字幕| 久久99一区二区三区| 亚洲av福利一区| 麻豆乱淫一区二区| videosex国产| 国产精品免费大片| 91成人精品电影| 国产永久视频网站| 成人漫画全彩无遮挡| 国产高清三级在线| 亚洲av电影在线进入| 极品人妻少妇av视频| 99热这里只有是精品在线观看| 五月开心婷婷网| av又黄又爽大尺度在线免费看| 久久久久国产精品人妻一区二区| 人妻一区二区av| 成年动漫av网址| 大香蕉久久网| 国产精品人妻久久久影院| 如何舔出高潮| 视频在线观看一区二区三区| 女性被躁到高潮视频| 欧美+日韩+精品| 男女边摸边吃奶| 亚洲欧洲日产国产| 大香蕉97超碰在线| 亚洲丝袜综合中文字幕| 国产精品久久久久久久电影| 在线观看美女被高潮喷水网站| 中文字幕制服av| 国产白丝娇喘喷水9色精品| 99久久中文字幕三级久久日本| 欧美成人精品欧美一级黄| av有码第一页| 一本色道久久久久久精品综合| 国产老妇伦熟女老妇高清| 亚洲av电影在线进入| 自拍欧美九色日韩亚洲蝌蚪91| 欧美xxxx性猛交bbbb| 免费观看av网站的网址| 国国产精品蜜臀av免费| 亚洲国产成人一精品久久久| kizo精华| 免费播放大片免费观看视频在线观看| 国产在视频线精品| av黄色大香蕉| 免费观看a级毛片全部| 在线 av 中文字幕| 在线看a的网站| 亚洲欧洲精品一区二区精品久久久 | 香蕉精品网在线| av网站免费在线观看视频| 国产精品三级大全| 香蕉精品网在线| 国产女主播在线喷水免费视频网站| 国语对白做爰xxxⅹ性视频网站| 久久精品aⅴ一区二区三区四区 | 一二三四在线观看免费中文在 | 天天影视国产精品| av.在线天堂| 看免费av毛片| 精品人妻熟女毛片av久久网站| 十分钟在线观看高清视频www| 晚上一个人看的免费电影| 在线天堂最新版资源| 男女国产视频网站| 午夜福利视频在线观看免费| 亚洲精品自拍成人| 精品久久久精品久久久| 精品国产一区二区三区久久久樱花| 精品一区在线观看国产| 侵犯人妻中文字幕一二三四区| 人成视频在线观看免费观看| 亚洲色图综合在线观看| 老熟女久久久| 中文欧美无线码| 日本欧美国产在线视频| 日韩成人伦理影院| 国产精品一区二区在线不卡| 高清在线视频一区二区三区| 又大又黄又爽视频免费| 少妇 在线观看| 国产av精品麻豆| 午夜91福利影院| 赤兔流量卡办理| 欧美日韩视频精品一区| 免费看av在线观看网站|