崔鑫,王琰,侯小剛,周月
(1.北京郵電大學(xué)計(jì)算機(jī)學(xué)院,北京 100876;2.北京郵電大學(xué)人工智能學(xué)院,北京 100876;3.北京郵電大學(xué)電子工程學(xué)院,北京 100876)
文物是中華文化的重要組成部分,對(duì)于保護(hù)和傳承中華文化具有不可替代的作用。本文選取可移動(dòng)文物中的三類(lèi)典型文物石刻、陶瓷、青銅器作為研究對(duì)象,這些文物是中國(guó)文化遺產(chǎn)中較為珍貴且受到廣泛關(guān)注的部分,對(duì)于研究中國(guó)古代科技、美學(xué)和文化歷史等方面具有極為重要的價(jià)值。文物數(shù)據(jù)是指文物各種屬性和信息的數(shù)字化記錄和存儲(chǔ),例如文物的名稱(chēng)、年代、類(lèi)別、材質(zhì)、尺寸、形態(tài)、寓意、保存狀況、歷史背景等各方面的信息。通過(guò)對(duì)文物數(shù)據(jù)的采集、整理和分析,可以更好地了解和挖掘文物的歷史文化價(jià)值,同時(shí)也為文物的保護(hù)和傳承提供了基礎(chǔ)數(shù)據(jù)支持。通過(guò)命名實(shí)體識(shí)別技術(shù)可以從非結(jié)構(gòu)化文本數(shù)據(jù)中得到實(shí)體位置以及實(shí)體類(lèi)型信息,減輕博物館工作人員人工標(biāo)注的壓力,促進(jìn)三元組數(shù)據(jù)的構(gòu)建。
典型文物數(shù)據(jù)具有構(gòu)詞的特殊性,比如“四子折桂”表達(dá)了石刻的寓意,使用現(xiàn)有的命名實(shí)體識(shí)別算法很難將“四子折桂”識(shí)別為相應(yīng)的寓意。為了解決該問(wèn)題,本文提出了一種基于詞匯增強(qiáng)的典型文物命名實(shí)體識(shí)別算法,算法在輸入表示層和上下文編碼層都引入詞匯信息,提高了詞語(yǔ)領(lǐng)域?qū)I(yè)性。算法通過(guò)構(gòu)建文物領(lǐng)域詞庫(kù),將其作為基于詞匯增強(qiáng)的典型文物命名實(shí)體識(shí)別算法詞典,最終較好地解決了詞邊界判斷錯(cuò)誤問(wèn)題,在典型文物數(shù)據(jù)集上取得了較好的效果。
命名實(shí)體識(shí)別是從句子中提取特定的實(shí)體并將其分為對(duì)應(yīng)的類(lèi)別,比如人名、地名、組織名等,是知識(shí)圖譜構(gòu)建的關(guān)鍵步驟,影響之后的關(guān)系抽取和知識(shí)圖譜構(gòu)建?;谏疃葘W(xué)習(xí)的命名實(shí)體識(shí)別方法占據(jù)著支配性作用,深度學(xué)習(xí)采用多層次的處理結(jié)構(gòu),每一層都會(huì)從前一層中抽取部分特征信息,并抽象化表示出更高層次的特征,從而增強(qiáng)數(shù)據(jù)的表征能力。
基于深度學(xué)習(xí)的命名實(shí)體識(shí)別模型主要用到了三類(lèi)輸入表示:?jiǎn)卧~級(jí)別的輸入表示、字符級(jí)別的輸入表示以及混合表示。對(duì)于單詞級(jí)別的輸入表示,經(jīng)過(guò)訓(xùn)練,每個(gè)單詞可以用一個(gè)低維度的實(shí)值向量表示,Zheng 等人[1]采用Word2Vec 模型,對(duì)于字符級(jí)別的輸入表示,可以更有效地利用詞級(jí)別的信息,能夠很好的處理詞匯溢出(Out-of-vocabulary,OOV)問(wèn)題,可以對(duì)沒(méi)有見(jiàn)過(guò)的單詞進(jìn)行表示,并在語(yǔ)素層面上共享、處理信息。Peters 等人提出了ELMo[2]表示,利用深度雙向語(yǔ)言模型對(duì)大規(guī)模語(yǔ)料進(jìn)行預(yù)訓(xùn)練,經(jīng)原始任務(wù)數(shù)據(jù)集微調(diào),產(chǎn)生適用于命名實(shí)體識(shí)別等任務(wù)的詞向量表示。Kuru 等人[3]提出了CharNER,將句子視為字符序列,并利用LSTM 提取字符級(jí)別的表示。除上述兩種輸入表示,一些研究將附加信息納入到單詞的最終表示中,然后再輸入上下文編碼層,附加信息包括地名錄[4]、詞匯相似性[5]、語(yǔ)言依賴(lài)性[6]和視覺(jué)特征[7]。Devlin 等人[8]提出了預(yù)訓(xùn)練語(yǔ)言模型BERT,通過(guò)無(wú)監(jiān)督的預(yù)訓(xùn)練方式學(xué)習(xí)文本中的雙向上下文信息,從而能夠更好地理解單詞和文本之間的關(guān)系。
中文命名實(shí)體識(shí)別方法通常先使用中文分詞工具進(jìn)行分詞,再進(jìn)行詞級(jí)別的序列標(biāo)注,中文分詞工具不可避免地會(huì)錯(cuò)誤地分割句子。一些方法[9,10]使用基于BERT 的方法進(jìn)行命名實(shí)體識(shí)別,借助預(yù)訓(xùn)練語(yǔ)言模型BERT 提取通用的包含上下文的文本信息,但是BERT 在垂直領(lǐng)域的表現(xiàn)一般,特別是在文物類(lèi)的文本中表現(xiàn)不佳,BERT提取的信息更加全局,而命名實(shí)體識(shí)別任務(wù)更需要局部信息,因此依然會(huì)有詞邊界判斷錯(cuò)誤的問(wèn)題。Zhang 和Yang[11]提出了Lattice LSTM,Ma 等人[12]提出了SoftLexicon,在基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法的基礎(chǔ)上,引入詞匯信息,較好地解決了詞邊界識(shí)別錯(cuò)誤的問(wèn)題。SoftLexicon 在輸入表示層引入詞匯信息,Lattice LSTM 修改了原有LSTM的結(jié)構(gòu),在上下文編碼層引入了詞匯信息。
本文提出了一種結(jié)合SoftLexicon與Lattice LSTM的基于詞匯增強(qiáng)的典型文物命名實(shí)體識(shí)別算法,在輸入表示層采用SoftLexicon 特征進(jìn)行編碼,在上下文編碼層采用Lattice LSTM 獲取上下文語(yǔ)義信息,在輸入表示層跟上下文編碼層都引入詞匯信息,并且構(gòu)建了文物領(lǐng)域詞庫(kù),將其作為詞典引入基于詞匯增強(qiáng)的典型文物命名實(shí)體識(shí)別算法,較好地解決了詞邊界判斷錯(cuò)誤的問(wèn)題。
典型文物數(shù)據(jù)集選取了石刻、陶瓷、青銅器三類(lèi)典型文物,主要數(shù)據(jù)來(lái)源于各地博物館的官網(wǎng)(比如故宮博物院、山東博物館),從博物館官網(wǎng)上爬取到文物的名稱(chēng)、對(duì)應(yīng)圖片、對(duì)應(yīng)的文字描述以及來(lái)源,具體如表1所示。
表1 典型文物數(shù)據(jù)集示例
在命名實(shí)體識(shí)別數(shù)據(jù)集構(gòu)建中,主要對(duì)非結(jié)構(gòu)化的文字描述進(jìn)行標(biāo)注??傆?jì)收集3128條數(shù)據(jù),經(jīng)過(guò)清洗之后的有效數(shù)據(jù)為3000 條,將其劃分為訓(xùn)練集2400 條、驗(yàn)證集300 條以及測(cè)試集300 條。根據(jù)文博專(zhuān)家的指導(dǎo)意見(jiàn),制定了如表2所示的實(shí)體類(lèi)型。
表2 典型文物數(shù)據(jù)集的8種實(shí)體類(lèi)型
序列標(biāo)注的主要方法有BIO、BIOES以及BMES。BMES 常用于分詞標(biāo)注,BIO 標(biāo)注缺少顯式的單詞結(jié)尾信息,在Lattice LSTM 跟SoftLexicon 模型中,需要用到單詞結(jié)尾的信息,因此在數(shù)據(jù)集的標(biāo)注階段采用BIOES標(biāo)注法。
典型文物數(shù)據(jù)集中的文本有很多文物領(lǐng)域的專(zhuān)有名詞和領(lǐng)域詞匯,比如:“四子折桂”、“北方七宿”、“磁山文化”等。使用常見(jiàn)的中文分詞工具對(duì)文物語(yǔ)料進(jìn)行分詞,往往無(wú)法進(jìn)行準(zhǔn)確地切分,影響語(yǔ)義信息的提取。文物領(lǐng)域詞庫(kù)的豐富性和準(zhǔn)確性影響著命名實(shí)體識(shí)別以及之后的關(guān)系抽取,因此,非常有必要制作文物領(lǐng)域的領(lǐng)域詞庫(kù)。
本文主要研究的是文物領(lǐng)域的知識(shí)圖譜構(gòu)建,因此主要關(guān)注與文物名稱(chēng)、朝代、出土地點(diǎn)、博物館、紋樣、寓意等有關(guān)的細(xì)分領(lǐng)域詞庫(kù)。通過(guò)收集輸入法詞庫(kù)、百科類(lèi)詞庫(kù)、以及一些細(xì)分領(lǐng)域的詞庫(kù),再加入人工篩選,以及領(lǐng)域?qū)<姨峁┎糠址N子詞語(yǔ),得到種子領(lǐng)域詞庫(kù)。在構(gòu)建種子領(lǐng)域詞庫(kù)的過(guò)程中,主要參考了THUOCL 詞庫(kù)、搜狗輸入法詞庫(kù)以及DomainWords‐Dict詞庫(kù)中一些細(xì)分領(lǐng)域詞庫(kù),具體如表3所示。
表3 構(gòu)建種子詞庫(kù)所需的領(lǐng)域詞庫(kù)
本文利用詞向量技術(shù)擴(kuò)充領(lǐng)域詞庫(kù),采用騰訊AI Lab 提供的包含800 萬(wàn)詞匯的中文詞向量,對(duì)種子領(lǐng)域詞庫(kù)中的紋樣、朝代、寓意等詞語(yǔ),計(jì)算語(yǔ)義相似的前10 個(gè)詞,具體示例如表4 所示。以“龍紋”為例,可以通過(guò)詞向量技術(shù)獲得相似詞“風(fēng)紋”、“云紋”以及“龍風(fēng)紋”,但是也會(huì)出現(xiàn)一些噪聲詞,比如“紋飾”、“夔龍”,所以還需要進(jìn)行人工篩選。
表4 詞向量相似詞擴(kuò)展示例
借助已有領(lǐng)域詞庫(kù)構(gòu)建種子詞庫(kù)以及通過(guò)詞向量技術(shù)對(duì)種子詞庫(kù)進(jìn)行擴(kuò)充,最終得到15000 個(gè)文物領(lǐng)域的詞語(yǔ),部分例子如表5所示。
表5 文物領(lǐng)域詞庫(kù)示例
如圖1 所示,基于詞匯增強(qiáng)的典型文物命名實(shí)體識(shí)別算法可以分為輸入表示層、上下文編碼層以及標(biāo)簽解碼層。輸入表示層采用SoftLexicon,上下文編碼層采用Lattice LSTM,標(biāo)簽解碼層采用CRF,輸入表示層跟上下文編碼層都引入了詞匯信息,以增強(qiáng)命名實(shí)體識(shí)別模型鑒別詞邊界的能力。
圖1 基于詞匯增強(qiáng)的典型文物命名實(shí)體識(shí)別算法框架
本文分別對(duì)比了BERT+BiLSTM+CRF 模型、BERT+CRF 模型、Lattice LSTM 模型、SoftLexicon 模型以及SoftLexicon+Lattice LSTM+CRF 模型(本文方法)。實(shí)驗(yàn)結(jié)果如表6所示。
表6 實(shí)驗(yàn)結(jié)果
對(duì)于Lattice LSTM 方法、SoftLexicon 方法以及本文算法,本文使用兩種詞典分別進(jìn)行實(shí)驗(yàn),無(wú)‘*’標(biāo)記符表示使用Lattice LSTM 提出的詞庫(kù),‘*’標(biāo)記符表示使用本文制作的文物領(lǐng)域詞庫(kù)。實(shí)驗(yàn)結(jié)果表明,BERT+CRF 模型與BERT+BiLSTM+CRF 的效果差別不大,這是由于BERT 強(qiáng)大的上下文編碼能力可以提取出需要的信息,BiLSTM 只是在BERT 的基礎(chǔ)上選擇有效的信息進(jìn)行處理。引入詞匯信息的方法有明顯的提升。輸入表示層SoftLexicon 和上下文編碼層Lattice LSTM 都引入詞匯信息優(yōu)于分別在兩層單獨(dú)引入詞匯信息的效果。
為了解決文物領(lǐng)域數(shù)據(jù)構(gòu)詞特殊性導(dǎo)致實(shí)體邊界識(shí)別錯(cuò)誤的問(wèn)題,本文構(gòu)建了文物領(lǐng)域詞庫(kù),并提出了一種基于詞匯增強(qiáng)的典型文物命名實(shí)體識(shí)別算法。首先,在輸入表示層采用SoftLexicon,引入詞匯信息;其次,在上下文編碼層采用Lattice LSTM,在輸入表示層的基礎(chǔ)上再次引入詞匯信息;最后,在標(biāo)簽解碼層采用CRF解碼,獲取最終的標(biāo)簽。實(shí)驗(yàn)結(jié)果表明,使用本文構(gòu)建的文物領(lǐng)域詞庫(kù),基于詞匯增強(qiáng)的命名實(shí)體識(shí)別方法在典型文物數(shù)據(jù)集上有較好的表現(xiàn)。
本文在構(gòu)建典型文物數(shù)據(jù)集時(shí),主要數(shù)據(jù)來(lái)源于相關(guān)博物館官網(wǎng)的圖文對(duì)數(shù)據(jù),只對(duì)文本數(shù)據(jù)進(jìn)行了算法處理。目前并沒(méi)有高精度的文物多模態(tài)命名實(shí)體識(shí)別數(shù)據(jù)集,未來(lái)會(huì)考慮在領(lǐng)域?qū)<业闹笇?dǎo)下對(duì)圖文數(shù)據(jù)進(jìn)行多模態(tài)標(biāo)注,融合圖像文本信息,進(jìn)行命名實(shí)體識(shí)別。