彭博
關(guān)鍵詞:知識(shí)圖譜;深度學(xué)習(xí);文物信息;關(guān)系抽取;BERT;BiLSTM;知識(shí)發(fā)現(xiàn)
中華文化上下五千年傳承,誕生了無數(shù)璀璨的文化瑰寶,文物作為其中重要的產(chǎn)物之一,有著巨大的研究?jī)r(jià)值。同時(shí),文物研究工作中產(chǎn)生的大量信息資源蘊(yùn)含了無數(shù)的文化知識(shí).但是這些信息資源多以非結(jié)構(gòu)化數(shù)據(jù)為主,知識(shí)往往隱含在眾多非結(jié)構(gòu)化語料之中。如何全面與精確地挖掘及發(fā)現(xiàn)文物信息資源中的知識(shí),成為了傳承和推廣中華文化所面臨的首要問題。
同時(shí),隨著人工智能的迅速發(fā)展,自然語言處理技術(shù)的相關(guān)研究也取得了顯著進(jìn)展。在以數(shù)字人文為導(dǎo)向進(jìn)行人文及歷史研究的今天,文物信息資源中的結(jié)構(gòu)化數(shù)據(jù)已無法滿足學(xué)者們進(jìn)行文物知識(shí)挖掘、關(guān)聯(lián)與利用的研究需要。如何從非結(jié)構(gòu)化的古籍文本、現(xiàn)代研究論文、各類型百科詞條中發(fā)現(xiàn)、挖掘、關(guān)聯(lián)并進(jìn)行知識(shí)的深度利用,成為了數(shù)字人文相關(guān)學(xué)科亟待解決的重要問題。實(shí)體之間的關(guān)系作為知識(shí)的基本載體,成為進(jìn)行知識(shí)開發(fā)與利用的源數(shù)據(jù).如何抽取信息資源中的文物實(shí)體關(guān)系,成為了進(jìn)行數(shù)字人文有關(guān)研究的基礎(chǔ)。文章以文物信息資源為研究對(duì)象.使用知識(shí)庫(kù)數(shù)據(jù)構(gòu)建文物知識(shí)圖譜進(jìn)行實(shí)體及實(shí)體關(guān)系的自動(dòng)標(biāo)注,通過BERT-BiLSTM-ATF模型進(jìn)行實(shí)體關(guān)系抽取,在實(shí)體關(guān)系抽取與發(fā)現(xiàn)的實(shí)驗(yàn)中取得了較好的效果,為文物信息資源中知識(shí)的利用提供了數(shù)據(jù)基礎(chǔ)。
1相關(guān)研究
1.1文物信息資源國(guó)內(nèi)外研究現(xiàn)狀
目前國(guó)內(nèi)外有關(guān)文物信息資源的研究以結(jié)構(gòu)化數(shù)據(jù)的發(fā)布、存儲(chǔ)與開發(fā)利用為主,主要集中在文物元數(shù)據(jù)標(biāo)準(zhǔn)的制定、領(lǐng)域本體的構(gòu)建以及結(jié)構(gòu)化數(shù)據(jù)中文物知識(shí)關(guān)聯(lián)關(guān)系的挖掘與利用。文物元數(shù)據(jù)的有關(guān)研究由概括性質(zhì)的元數(shù)據(jù)標(biāo)準(zhǔn)細(xì)化而來,如針對(duì)網(wǎng)絡(luò)資源的都柏林核心(Dublin Core)元數(shù)據(jù)標(biāo)準(zhǔn)成為后來眾多標(biāo)準(zhǔn)制定及復(fù)用的基礎(chǔ)。還有如蓋蒂研究所發(fā)布的藝術(shù)品描述類目(CDWA)成為了眾多文物元數(shù)據(jù)標(biāo)準(zhǔn)制定時(shí)的參考。國(guó)內(nèi)學(xué)者龔花萍等融合以上多種元數(shù)據(jù)標(biāo)準(zhǔn),提出了針對(duì)文物信息資源元數(shù)據(jù)的著錄標(biāo)準(zhǔn),構(gòu)建了針對(duì)文物信息資源的元數(shù)據(jù)模型。艾雪松等則進(jìn)一步細(xì)化,使用標(biāo)準(zhǔn)復(fù)用等手段,依據(jù)博物館文物信息資源的特點(diǎn)構(gòu)建了針對(duì)博物館文物信息資源元數(shù)據(jù)模型。文物領(lǐng)域本體構(gòu)建則是針對(duì)某一個(gè)或者某幾種特征較強(qiáng).難以復(fù)用某一類文物元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行的文物信息共享標(biāo)準(zhǔn)制定。如張華等針對(duì)湖北唐崖土司城遺址中的“荊南雄鎮(zhèn)”石牌坊結(jié)合文物元數(shù)據(jù)標(biāo)準(zhǔn)與文物特征構(gòu)建了文物信息本體,實(shí)現(xiàn)了文物要素之間的語義關(guān)聯(lián)。Hyvionen使用關(guān)聯(lián)數(shù)據(jù)有關(guān)技術(shù)構(gòu)建與整合了文化遺產(chǎn)領(lǐng)域本體.為進(jìn)行文物信息資源語義的相關(guān)研究提供了數(shù)據(jù)基礎(chǔ)。文物語義相關(guān)的研究中,Tsai C M等使用情境感知等方法試圖將非結(jié)構(gòu)化文物信息資源轉(zhuǎn)換為文物元數(shù)據(jù)的著錄格式。也有Boer VD等以阿姆斯特丹博物館為例,將博物館中文化信息資源通過關(guān)聯(lián)數(shù)據(jù)有關(guān)技術(shù)轉(zhuǎn)化為具有語義的結(jié)構(gòu)化數(shù)據(jù)。曾子明等從數(shù)字人文角度針對(duì)文化遺產(chǎn)的多媒體資源、視頻資源中的潛在語義關(guān)聯(lián)進(jìn)行了文物知識(shí)組織研究。
從以上的國(guó)內(nèi)外研究現(xiàn)狀不難發(fā)現(xiàn),目前文物信息資源中結(jié)構(gòu)化數(shù)據(jù)的有關(guān)研究已取得豐碩成果,但受自然語言處理、實(shí)體識(shí)別、關(guān)系抽取等研究發(fā)展的限制,針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的研究較少。如何將非結(jié)構(gòu)化數(shù)據(jù)的研究成果應(yīng)用到非結(jié)構(gòu)化數(shù)據(jù)中將會(huì)成為文物信息資源研究的發(fā)展趨勢(shì)。
1.2深度學(xué)習(xí)與關(guān)系抽取的國(guó)內(nèi)外研究現(xiàn)狀
關(guān)系抽取的主要目的是從非結(jié)構(gòu)化數(shù)據(jù)中提取具有語義關(guān)系的實(shí)體與實(shí)體間關(guān)系,目前主流的關(guān)系抽取方法分為有監(jiān)督的學(xué)習(xí)方法、半監(jiān)督的學(xué)習(xí)方法與無監(jiān)督的學(xué)習(xí)方法。與其他兩種方法相比,有監(jiān)督的學(xué)習(xí)方法能夠更有效地進(jìn)行特征抽取,其準(zhǔn)確率和召回率更高。深度學(xué)習(xí)是有監(jiān)督學(xué)習(xí)的關(guān)系抽取研究中的關(guān)鍵技術(shù),Miller S等采用增強(qiáng)解析樹聯(lián)合訓(xùn)練訶性識(shí)別、實(shí)體識(shí)別、句法分析、語義解析4個(gè)步驟抽取句子級(jí)別中的實(shí)體關(guān)系。Mooney R J等基于核方法通過一個(gè)實(shí)體將一個(gè)句子分為前、中、后3部分進(jìn)行訓(xùn)練,更加精細(xì)地得到實(shí)體特征,提高了關(guān)系抽取的準(zhǔn)確率。Mintz M等開創(chuàng)性的將遠(yuǎn)程監(jiān)督運(yùn)用于關(guān)系抽取,該方法假設(shè)兩個(gè)實(shí)體在知識(shí)庫(kù)中存在關(guān)聯(lián)關(guān)系,當(dāng)這兩個(gè)實(shí)體在同一個(gè)句子中時(shí),該句也在表達(dá)這種關(guān)系,這種方法解決了有監(jiān)督學(xué)習(xí)方法中語料標(biāo)注的問題,但同時(shí)也會(huì)制造一定噪音。Zeng D等使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系抽取.采用詞向量作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,通過卷積層、池化層和非線性層得到句子表示,依據(jù)實(shí)體的位置向量和詞匯特征進(jìn)行關(guān)系抽取。Xu Y等使用LSTM進(jìn)行關(guān)系抽取,通過找到兩個(gè)實(shí)體在依存樹中的最短路徑可以有效提取關(guān)鍵信息.對(duì)這兩條路徑進(jìn)行特征提取得到關(guān)系分類的結(jié)果進(jìn)行實(shí)體關(guān)系抽取。預(yù)訓(xùn)練模型的出現(xiàn)為深度學(xué)習(xí)與實(shí)體關(guān)系抽取提供了新的思路.即通過預(yù)訓(xùn)練模型使用更少的數(shù)據(jù)進(jìn)行學(xué)習(xí),通過引入自注意力機(jī)制在泛化的應(yīng)用場(chǎng)景中進(jìn)行高效的實(shí)體關(guān)系抽取。
將深度學(xué)習(xí)用于實(shí)體關(guān)系抽取可以從文本中識(shí)別實(shí)體并抽取實(shí)體之間的語義關(guān)系,所得結(jié)果能夠?qū)⒎墙Y(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),為后續(xù)的語義挖掘以知識(shí)利用提供數(shù)據(jù)基礎(chǔ)。但同時(shí)可以看到,針對(duì)文物信息資源中實(shí)體關(guān)系抽取的研究較少,文物元數(shù)據(jù)所具有的標(biāo)準(zhǔn)化、唯一性、關(guān)聯(lián)性特征能夠?yàn)閷?shí)體標(biāo)注、關(guān)系標(biāo)引提供良好的數(shù)據(jù)支撐,文物領(lǐng)域能夠成為深度學(xué)習(xí)及關(guān)系抽取的一個(gè)較好的研究方向。
2基于深度學(xué)習(xí)的文物實(shí)體關(guān)系抽取模型
2.1文物知識(shí)圖譜的構(gòu)建
使用深度學(xué)習(xí)進(jìn)行文物實(shí)體關(guān)系抽取的首要問題就是實(shí)體與實(shí)體關(guān)系標(biāo)注,要標(biāo)注句中存在的實(shí)體及其關(guān)系首先需要從事實(shí)中獲得實(shí)體名稱及實(shí)體間的關(guān)聯(lián)關(guān)系。知識(shí)圖譜的出現(xiàn)為實(shí)體及其關(guān)系的獲取提供了解決方法.“實(shí)體1一關(guān)系一實(shí)體2”的三元組表示形式能夠自動(dòng)標(biāo)注句中存在的實(shí)體,并為關(guān)系標(biāo)注提供額外信息。文章從兩方面數(shù)據(jù)來源構(gòu)建面向研究對(duì)象的文物知識(shí)圖譜,其一是利用網(wǎng)絡(luò)知識(shí)庫(kù)如維基數(shù)據(jù)(Wikidata)、中文通用百科知識(shí)圖譜(CN-DBpedia)以文物信息資源描述對(duì)象為檢索人口,通過SPARQL查詢得到與研究對(duì)象有關(guān)的實(shí)體的三元組集合轉(zhuǎn)換為RDF中的(S,P,O)三元組。
在得到三元組集合后,使用數(shù)據(jù)清洗、去重等手段通過圖模型將三元組中的實(shí)體及屬性映射為節(jié)點(diǎn)和邊,,邊E的標(biāo)簽表示為P,構(gòu)建面向研究對(duì)象的文物知識(shí)圖譜。
2.2信息資源中文物實(shí)體及關(guān)系標(biāo)注
實(shí)體及關(guān)系標(biāo)注是進(jìn)行深度學(xué)習(xí)關(guān)系抽取的前提.由于僅依靠實(shí)體名稱進(jìn)行實(shí)體標(biāo)注存在的重名等問題會(huì)導(dǎo)致標(biāo)注錯(cuò)誤.使用兩個(gè)或兩個(gè)以上具有關(guān)聯(lián)關(guān)系的實(shí)體名稱進(jìn)行聯(lián)合標(biāo)注則可以降低錯(cuò)誤概率。因此文章以句為單位,若句中存在兩個(gè)字或詞與知識(shí)圖譜中的實(shí)體名稱一致,則相應(yīng)將其對(duì)應(yīng)知識(shí)圖譜中的節(jié)點(diǎn)名稱標(biāo)注為(E1,E2),實(shí)體關(guān)系標(biāo)注為V若句中存在兩個(gè)以上字或詞與知識(shí)圖譜中的實(shí)體名稱一致時(shí),則依次選取在知識(shí)圖譜中節(jié)點(diǎn)距離為1的節(jié)點(diǎn)名稱進(jìn)行標(biāo)注,標(biāo)注為(E1,E2)、…、(E,E),實(shí)體關(guān)系對(duì)應(yīng)標(biāo)注為、而當(dāng)知識(shí)圖譜中部分節(jié)點(diǎn)間屬性為“別名”“字”“號(hào)”等表示兩節(jié)點(diǎn)指代同一實(shí)體時(shí),則在實(shí)體及關(guān)系標(biāo)注時(shí)認(rèn)為這些節(jié)點(diǎn)距離為0進(jìn)行標(biāo)注以增加對(duì)同一實(shí)體的標(biāo)注精度。為了避免出現(xiàn)實(shí)體與名稱不符的情況,文章控制知識(shí)庫(kù)中進(jìn)行實(shí)體再檢索的次數(shù).這樣一方面能夠保留與文物實(shí)體關(guān)系緊密的實(shí)體;另一方面通過控制知識(shí)圖譜的網(wǎng)絡(luò)規(guī)模降低重名實(shí)體出現(xiàn)的概率。
2.3關(guān)系抽取模型構(gòu)建
關(guān)系抽取實(shí)際上可以被看作是一個(gè)分類問題,即給定兩個(gè)實(shí)體及其共同出現(xiàn)的句子,根據(jù)給定的屬性將實(shí)體關(guān)系進(jìn)行分類。進(jìn)行關(guān)系抽取需要經(jīng)過字、句向量生成提取文本特征和使用神經(jīng)網(wǎng)絡(luò)提取語義兩個(gè)步驟。在文本特征的提取中文章使用預(yù)訓(xùn)練模型BERT其利用Transformer Encoder與Self-attention機(jī)制,可以更好地描述上下文的語義特征。BERT相較于Word2Vec等僅通過詞及窗口范圍進(jìn)行訓(xùn)練獲取詞向量的方法,加入了NextSentence Prediction與Masked-LM進(jìn)行聯(lián)合訓(xùn)練,從而能夠獲取句子級(jí)別的語義特征。該模型是一種基于百科語料預(yù)訓(xùn)練的具有泛化應(yīng)用場(chǎng)景的語言模型.無需進(jìn)行二次訓(xùn)練便可以直接使用,輸入是語料中字或者詞,輸出的是文本中各個(gè)字或詞融合句子語義特征后的向量表示,由此形成的預(yù)訓(xùn)練向量在許多自然語言處理任務(wù)中表現(xiàn)出了良好的性能,尤其針對(duì)小樣本環(huán)境下的自然語言處理任務(wù)。
在高層語義特征的提取上文章選擇長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)模型(LSTM)進(jìn)行,該模型既能更好地處理序列數(shù)據(jù),又能夠處理循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)中序列過長(zhǎng)引發(fā)的梯度消失問題。LSTM每個(gè)隱藏層中包含了遺忘門、輸入門及輸出門。文章加入由單向的、方向相反的兩個(gè)LSTM的狀態(tài)組成神經(jīng)網(wǎng)絡(luò).輸入經(jīng)過兩個(gè)方向相反的LSTM,而輸出則由這兩個(gè)LSTM共同決定雙向門控循環(huán)單元(BiL.STM)來進(jìn)行文本深層次特征的提取。而為了減小文物信息資源中長(zhǎng)輸入序列對(duì)神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)效果的影響,文章加入注意力機(jī)制(ATT)擇性地篩選輸入中的對(duì)應(yīng)的有關(guān)信息,并將輸出序列與之關(guān)聯(lián)以提高輸出序列的準(zhǔn)確性。最終如圖1所示,神經(jīng)網(wǎng)絡(luò)關(guān)系抽取模型分為5層,分別是輸入層、用于文本特征提取的BERT層、進(jìn)行深度學(xué)習(xí)的雙向LSTM層、注意力層及輸出層。
3實(shí)驗(yàn)
為了驗(yàn)證知識(shí)圖譜與深度學(xué)習(xí)融合方法在文物信息資源實(shí)體關(guān)系抽取中的效果以及進(jìn)行未標(biāo)注實(shí)體關(guān)系發(fā)現(xiàn)的能力,文章以中國(guó)十大傳世名畫之一的北宋風(fēng)俗畫《清明上河圖》的百科類型文物信息資源為例進(jìn)行實(shí)體關(guān)系抽取研究。
3.1數(shù)據(jù)采集與預(yù)處理
文章以文物信息資源文本的來源分類,選定《清明上河圖》有關(guān)的百科類型文本為數(shù)據(jù)來源,包括百度百科、維基百科、搜狗百科等關(guān)于“清明上河圖”的介紹以及網(wǎng)絡(luò)問答社區(qū)“知乎中關(guān)于“清明上河圖”話題的回答共50篇文本為研究對(duì)象。
在文物知識(shí)圖譜構(gòu)建方面,文章在Wikidata知識(shí)庫(kù)中以“清明上河圖”(編號(hào)Q714802)進(jìn)行檢索.隨后檢索結(jié)果中的實(shí)體為人口進(jìn)行了3次再檢索共得到RDF三元組380對(duì)。隨后,在中文知識(shí)庫(kù)CN-Dbpedia中以“Named-Entity Disambigu.ation:清明上河圖(北宋張擇端風(fēng)俗畫)”同樣對(duì)檢索結(jié)果中的實(shí)體進(jìn)行了3次再檢索得到RDF三元組108對(duì),經(jīng)去重得到含有401個(gè)節(jié)點(diǎn)、409條邊的“清明上河圖”知識(shí)圖譜,結(jié)果如圖2所示。
3.2文物實(shí)體與關(guān)系標(biāo)注
不同知識(shí)庫(kù)對(duì)實(shí)體間關(guān)系標(biāo)注的名稱不盡相同,在進(jìn)行文物實(shí)體關(guān)系標(biāo)注前需針對(duì)這些關(guān)系依照統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行對(duì)齊,否則會(huì)造成同一關(guān)系因?yàn)椴煌Q的標(biāo)注而出現(xiàn)歧義。同時(shí)依據(jù)已有的元數(shù)據(jù)標(biāo)準(zhǔn)對(duì)類似的實(shí)體關(guān)系進(jìn)行歸并能夠減少小樣本數(shù)據(jù)中實(shí)體關(guān)系種數(shù),增加同類關(guān)系在語料中的集中度,提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)效果。
因此,文章根據(jù)知識(shí)圖譜中節(jié)點(diǎn)及節(jié)點(diǎn)關(guān)系以句為單位依照前文中的方法進(jìn)行標(biāo)注,參考都柏林核心(DC)、藝術(shù)品描述類目(CDWA)、地名本體(GeoNames)元數(shù)據(jù)標(biāo)準(zhǔn)中的一級(jí)元數(shù)據(jù)元素對(duì)知識(shí)庫(kù)中提取的實(shí)體關(guān)系進(jìn)行歸類合并,將知識(shí)庫(kù)提供的25種實(shí)體關(guān)系歸并為6大類,歸并結(jié)果如表1所示。以句為單位,依照“實(shí)體1”“實(shí)體2”“關(guān)系”及關(guān)系所在句子的格式,共自動(dòng)標(biāo)注實(shí)體關(guān)系508條.其中時(shí)間關(guān)系141條,作者關(guān)系121條,位置關(guān)系81條,屬性關(guān)系58條,內(nèi)容關(guān)系57條,收藏關(guān)系50條。
為了研究文章模型在百科類型信息資源中文物實(shí)體關(guān)系抽取的效果,文章通過人工標(biāo)注的方式對(duì)實(shí)驗(yàn)語料的50篇文本中的實(shí)體關(guān)系進(jìn)行標(biāo)注以加入測(cè)試集,經(jīng)過對(duì)比在原有508條自動(dòng)標(biāo)注的實(shí)體關(guān)系,人工標(biāo)注增加了77條經(jīng)知識(shí)庫(kù)中未收錄的實(shí)體關(guān)聯(lián)關(guān)系.其中時(shí)間關(guān)系14條,作者關(guān)系11條,位置關(guān)系11條,收藏關(guān)系11條,內(nèi)容關(guān)系5條,屬性關(guān)系25條。
3.3實(shí)驗(yàn)結(jié)果及分析
文章實(shí)驗(yàn)平臺(tái)為CPU:17-9750H,內(nèi)存:16GB,顯卡:GTX-1660Ti,顯存:6G,實(shí)驗(yàn)環(huán)境為Python3.6、TensorFlowl.13.1、Keras2.4,BERT預(yù)訓(xùn)練模型選取BERT-base-Chinese,共110M個(gè)參數(shù),768個(gè)維度。訓(xùn)練時(shí),最大序列長(zhǎng)度采用樣本中句子的最大長(zhǎng)度278.train_batch_size為16,droup_out_rate為0.2,learning_rate為0.02,BiL-STM隱藏層維數(shù)為128,Epochs設(shè)置為30,但由于實(shí)驗(yàn)為小樣本,為了防止過擬合,文章加入Ear-ly Stopping機(jī)制,連續(xù)5個(gè)Epoch未達(dá)到最佳精度則停止。
為檢驗(yàn)?zāi)P驮趯?shí)體關(guān)系抽取中的效果,文章采用精確度(Precision,P)、召回率(Recall,R)和F1(F1-score)值作為度量指標(biāo)。精確度代表被預(yù)測(cè)為正樣本的正確率.召回率代表實(shí)際為正樣本被正確預(yù)測(cè)的比例,F(xiàn)1值為兩種指標(biāo)的調(diào)和平均值,模型的綜合抽取效果與其值正相關(guān)。
文章首先將自動(dòng)標(biāo)注的實(shí)體關(guān)系按8:2的比例隨機(jī)劃分為訓(xùn)練集與測(cè)試集,再將人工標(biāo)注中知識(shí)庫(kù)未收錄的實(shí)體關(guān)系隨機(jī)選取20%加入測(cè)試集中,最終訓(xùn)練集中實(shí)體關(guān)系為406,測(cè)試集中實(shí)體關(guān)系為118.將文章方法與另外4種實(shí)體關(guān)系抽取方法進(jìn)行對(duì)比,探究模型對(duì)于文物實(shí)體關(guān)系的抽取能力,其結(jié)果如圖3所示,“時(shí)間”關(guān)系與“位置”關(guān)系F1值相對(duì)較高,這一方面是由于時(shí)間與位置信息的名稱相對(duì)標(biāo)準(zhǔn),關(guān)系特征明顯;另一方面也說明文物信息資源中有關(guān)“時(shí)間”與“位置”關(guān)系所描述的內(nèi)容較為一致,使用深度學(xué)習(xí)的方法能夠較為準(zhǔn)確地識(shí)別和抽取該類型關(guān)系。同時(shí)“內(nèi)容”關(guān)系是與《清明上河圖》有關(guān)內(nèi)容的描述,其承載信息有限,使得“內(nèi)容”關(guān)系的抽取也取得了較好的效果。為了對(duì)比實(shí)驗(yàn)結(jié)果,文章加入雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BiRNN)、雙向門控循環(huán)單元(BiG.RU)、深度金字塔卷積神經(jīng)網(wǎng)絡(luò)(DPCNN)進(jìn)行對(duì)比。BiRNN使用Keras中的SimpleRNN函數(shù)進(jìn)行實(shí)現(xiàn),BiRNN和BiGRU參數(shù)與BiLSTM一致。同時(shí)為了研究BERT預(yù)訓(xùn)練模型在提取字符級(jí)別特征中的效果,文章選擇整合了百科及新聞?wù)Z料的中文詞向量進(jìn)行對(duì)比,采用Skip-gram進(jìn)行訓(xùn)練,詞向量維度為300,窗口長(zhǎng)度為5。從結(jié)果上看,BERT-BiLSTM-ATT方法抽取效果最好,但其與使用循環(huán)神經(jīng)網(wǎng)絡(luò)有關(guān)方法抽取結(jié)果間差距不大.BiLSTM、BiGRU、BiRNN 3種方法獲得的加權(quán)平均F1值分別為0.91、0.9、0.88。BERT預(yù)訓(xùn)練語言模型相較于Word2vec詞向量在字符特征的提取上具有一定的優(yōu)勢(shì).使用BERT預(yù)訓(xùn)練模型與Word2vec詞向量搭配BiLSTM-ATF深度學(xué)習(xí)取得的加權(quán)平均F1值分別為0.91和0.88。相較于循環(huán)神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)在同樣的預(yù)訓(xùn)練語言模型下取得的加權(quán)平均F1值為0.67,結(jié)果相對(duì)較低。
為了更進(jìn)一步研究文章使用的實(shí)體關(guān)系抽取方法在文物信息資源實(shí)體關(guān)系挖掘中的效果,文章將自動(dòng)標(biāo)注的508條實(shí)體關(guān)系作為訓(xùn)練集.人工標(biāo)注中知識(shí)庫(kù)未收錄的77條實(shí)體關(guān)系作為測(cè)試集,與另外兩種實(shí)體關(guān)系抽取方法進(jìn)行對(duì)比,探究模型對(duì)于未根據(jù)知識(shí)庫(kù)數(shù)據(jù)規(guī)則進(jìn)行標(biāo)注的文物實(shí)體關(guān)系的發(fā)現(xiàn)能力,實(shí)驗(yàn)結(jié)果如表2所示。
從表2的結(jié)果可以發(fā)現(xiàn),精確度要明顯高于召回率,這說明經(jīng)過自動(dòng)標(biāo)注后的關(guān)系抽取模型在發(fā)現(xiàn)實(shí)體關(guān)系的準(zhǔn)確率上要高于發(fā)現(xiàn)關(guān)系的能力。在分類關(guān)系的抽取上,對(duì)比前文中“時(shí)間”關(guān)系的抽取,關(guān)系抽取模型對(duì)于自動(dòng)標(biāo)準(zhǔn)之外的“時(shí)間”關(guān)系抽取效果有所降低.通過結(jié)合自動(dòng)標(biāo)注與人工標(biāo)注在“時(shí)間”關(guān)系上的差異發(fā)現(xiàn),《清明上河圖》創(chuàng)作于北宋時(shí)期,從知識(shí)庫(kù)中提取的時(shí)間有關(guān)信息大多描述該畫在北宋以及北宋后一定跨度時(shí)間內(nèi)的流轉(zhuǎn)情況,而隨著時(shí)間的推移,后續(xù)信息逐漸減少.人工標(biāo)注中新增部分多以該畫在清朝以及近現(xiàn)代流轉(zhuǎn)情況為主,深度學(xué)習(xí)方法無法獲取到近現(xiàn)代時(shí)間描述的有關(guān)特征,導(dǎo)致“時(shí)間”關(guān)系提取效果下降?!拔恢谩焙汀白髡摺睂?shí)體關(guān)系的提取在發(fā)現(xiàn)實(shí)驗(yàn)中降低比例較為一致,這說明知識(shí)庫(kù)存有的實(shí)體關(guān)聯(lián)關(guān)系在經(jīng)過神經(jīng)網(wǎng)絡(luò)提取特征后對(duì)上述兩種關(guān)系具有一定的預(yù)測(cè)能力?!皟?nèi)容”實(shí)體關(guān)系由于文物信息資源中對(duì)于內(nèi)容有關(guān)信息的描述較少且難以通過標(biāo)準(zhǔn)化數(shù)據(jù)手段收集,致使與內(nèi)容有關(guān)的實(shí)體關(guān)聯(lián)關(guān)系抽取效率變化不明顯。“屬性”與“收藏”兩種實(shí)體關(guān)系抽取效果較差.說明如要提升這兩種關(guān)系的抽取效率需要在知識(shí)庫(kù)關(guān)聯(lián)關(guān)系以后通過其他方法添加外部信息,擴(kuò)充這兩種實(shí)體關(guān)系的相關(guān)特征。
而在模型對(duì)比上BERT-BiLSTM-ATT效果最好.這說明BiGRU相對(duì)簡(jiǎn)單的結(jié)構(gòu)一定程度上忽略了文物實(shí)體關(guān)系具有的特征,導(dǎo)致實(shí)體關(guān)系發(fā)現(xiàn)效率下降。BiRNN相較于BiLSTM忽略掉了部分長(zhǎng)序列中存在的實(shí)體關(guān)聯(lián)關(guān)系,導(dǎo)致抽取效率降低。
綜合圖3與表2的關(guān)系抽取與關(guān)系發(fā)現(xiàn)結(jié)果可以得到如下結(jié)論:①關(guān)系抽取模型經(jīng)過自動(dòng)標(biāo)注以及訓(xùn)練后能夠在隨機(jī)環(huán)境中抽取到文物信息資源中大部分的實(shí)體關(guān)系,精確度與召回率較好,說明百科類型文物信息資源實(shí)體關(guān)系較為集中與重復(fù),適合使用預(yù)訓(xùn)練語言模型提取字符特征后利用深度學(xué)習(xí)方法進(jìn)行關(guān)系抽取。②相對(duì)于其他深度學(xué)習(xí)方法.循環(huán)神經(jīng)網(wǎng)絡(luò)及其改進(jìn)方法能夠在實(shí)體抽取中取得較好的效果,長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)模型實(shí)體關(guān)系抽取效率稍高于現(xiàn)有的其他循環(huán)神經(jīng)網(wǎng)絡(luò)方法.這一特征在實(shí)體關(guān)系的發(fā)現(xiàn)實(shí)驗(yàn)中更為明顯。這說明長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)對(duì)于未標(biāo)記實(shí)體關(guān)系的預(yù)測(cè)能力更為優(yōu)秀。③在小樣本數(shù)據(jù)中,BERT預(yù)訓(xùn)練語言模型由于在字符語義特征之外還能夠提取句子級(jí)別語義特征,使得其得到的序列數(shù)據(jù)特征相較于Word2vec能夠更好的被深度學(xué)習(xí)模型提取,提高實(shí)體關(guān)系抽取效率。④在隨機(jī)環(huán)境下的6種不同類別文物實(shí)體關(guān)系的抽取中,“時(shí)間”與“位置”關(guān)系抽取效果最好,這與文物信息資源中“時(shí)間”與“位置”信息具有較為標(biāo)準(zhǔn)化的描述以及明確的表達(dá)規(guī)范有關(guān),使其具有強(qiáng)烈與一致的語義特征.利用深度學(xué)習(xí)有關(guān)方法對(duì)文物信息資源中的時(shí)間與位置信息進(jìn)行分析有著較高的效率。⑤在知識(shí)庫(kù)未收錄文物實(shí)體關(guān)系的發(fā)現(xiàn)實(shí)驗(yàn)中.方法在“時(shí)間”關(guān)系的發(fā)現(xiàn)中效果最好,但由于時(shí)間具有演進(jìn)特征.新的時(shí)間稱為與表述方法不斷出現(xiàn),“時(shí)間”關(guān)系受知識(shí)庫(kù)更新延遲的影響較大。受制于知識(shí)庫(kù)實(shí)體關(guān)系存儲(chǔ)數(shù)量.其他幾類文物信息資源實(shí)體關(guān)系則需要通過補(bǔ)充外部信息來提高實(shí)體關(guān)系抽取效率。
4總結(jié)
為解決文物信息資源中實(shí)體關(guān)系的抽取問題,文章提出了融合知識(shí)圖譜與深度學(xué)習(xí)的文物信息資源實(shí)體關(guān)系抽取方法.構(gòu)建了基于深度學(xué)習(xí)的文物實(shí)體關(guān)系抽取模型.進(jìn)行了實(shí)體關(guān)系抽取與發(fā)現(xiàn)的有關(guān)實(shí)驗(yàn)。結(jié)果顯示,該方法對(duì)于小樣本語料的關(guān)系抽取與發(fā)現(xiàn)有著較好的應(yīng)用前景。BERT-BiL.STM-ATT在與另外兩種方法以及循環(huán)神經(jīng)網(wǎng)絡(luò)有關(guān)衍生方法的兩次對(duì)比實(shí)驗(yàn)中精確度與召回率均最高,取得了不錯(cuò)的效果。
文章的主要貢獻(xiàn)與創(chuàng)新之處有以下幾點(diǎn):首先,依據(jù)文物信息資源中研究對(duì)象實(shí)體的特點(diǎn),利用知識(shí)庫(kù)檢索提取關(guān)聯(lián)實(shí)體及關(guān)聯(lián)關(guān)系集合并構(gòu)建知識(shí)圖譜,通過規(guī)則進(jìn)行針對(duì)百科類文物信息資源文本中文物實(shí)體關(guān)系的自動(dòng)標(biāo)注。其次,文章通過BERT-BiLSTM-ATT模型進(jìn)行實(shí)體關(guān)系抽取,利用預(yù)訓(xùn)練模型提取字符語義特征,為小樣本數(shù)據(jù)進(jìn)行實(shí)體關(guān)系發(fā)現(xiàn)提供了一種切實(shí)可行的方法。此外,文章方法對(duì)于文物信息資源中的時(shí)間以及空間特征具有較好的提取與發(fā)現(xiàn)效果,為文物信息資源的時(shí)空數(shù)據(jù)研究提供新的視野。
未來的研究中,文章將模型與其他的神經(jīng)網(wǎng)絡(luò)進(jìn)行性能比較.擴(kuò)大數(shù)據(jù)集規(guī)模,進(jìn)行更廣泛領(lǐng)域的文物信息資源實(shí)體關(guān)系抽取研究。