熊晶,焦清局,劉運通
(1.安陽師范學(xué)院計算機(jī)與信息工程學(xué)院,河南安陽 455000; 2.甲骨文信息處理教育部重點實驗室,河南安陽455000)
甲骨文(oracle bone inscriptions, OBI)是現(xiàn)今已發(fā)現(xiàn)的成體系的最早文字,是中華民族傳統(tǒng)文化的瑰寶。甲骨文內(nèi)容繁復(fù),涉及3 000 年前殷商時期的政治、王室、社會、經(jīng)濟(jì)、天文、生態(tài)、交通、地理、戰(zhàn)爭、宗教、文化等方面,具有極高的文物、史料和研究價值。從1899 年甲骨文被發(fā)現(xiàn)以來,經(jīng)海內(nèi)外學(xué)者120 年來的研究和探索,現(xiàn)已成為一門舉世矚目的國際性顯學(xué)——甲骨學(xué)(oracle bone studies,OBS)[1]。近年來,從事甲骨文研究的學(xué)者逐漸增多,尤其是2017 年11 月甲骨文成功入選《世界記憶名錄》后,甲骨文研究迎來了新發(fā)展。 隨著甲骨學(xué)研究的不斷推進(jìn),甲骨文數(shù)據(jù)日益豐富,并逐漸體現(xiàn)出多源異構(gòu)的特性。如圖1 所示。
圖1 甲骨文多源異構(gòu)數(shù)據(jù)Fig.1 OBI multi-source heterogeneous data
日益豐富的研究數(shù)據(jù)在帶來便利的同時也引發(fā)了新的問題,如數(shù)據(jù)格式不統(tǒng)一、數(shù)據(jù)孤島林立、數(shù)據(jù)檢索困難、數(shù)據(jù)共享程度低等。同時,甲骨學(xué)研究存在學(xué)習(xí)難度大、學(xué)習(xí)周期長、知識關(guān)聯(lián)性弱、認(rèn)知理解要求高等問題。在此背景下,迫切需要一種有效的甲骨學(xué)知識表示和組織方式。由于知識圖譜可為認(rèn)知智能提供豐富的背景知識,因此,構(gòu)建甲骨學(xué)知識圖譜可有效解決上述問題。
甲骨學(xué)研究需借助相關(guān)輔助學(xué)科[2],如借助考古學(xué),解決甲骨出土問題;借助文獻(xiàn)學(xué),解決甲骨學(xué)中的殷商歷史問題;借助語言學(xué)理論,解決甲骨學(xué)的語言文字問題;借助自然科學(xué)中的天文學(xué)、地理學(xué)、物理學(xué)和數(shù)學(xué),解決甲骨學(xué)中的諸多問題[3]。因此,甲骨學(xué)研究涉及龐大的學(xué)科體系和知識群落。鑒于甲骨文的古籍特性,甲骨學(xué)研究必須依賴大量文獻(xiàn)資料,并基于文獻(xiàn)進(jìn)行一系列的知識關(guān)聯(lián)分析。如學(xué)者與文獻(xiàn)的關(guān)系、學(xué)者及其合作關(guān)系、研究機(jī)構(gòu)及其合作關(guān)系、文獻(xiàn)之間引用與被引用關(guān)系,這些都屬于科學(xué)知識圖譜[4](mapping knowledge domains,簡稱MKD)的研究范疇。MKD 研究均以文獻(xiàn)計量為主,側(cè)重分析學(xué)科的知識結(jié)構(gòu)及知識群落,研究熱點及研究趨勢,研究機(jī)構(gòu)、學(xué)者及其合作關(guān)系等宏觀知識,較少涉及領(lǐng)域微觀知識;MKD 的分析關(guān)系大多是直接或間接的淺層關(guān)系,且在語義解釋方面尚有不足[5],無法表達(dá)甲骨學(xué)領(lǐng)域中深層次的語義關(guān)聯(lián)關(guān)系,如甲骨文著錄與甲骨片的關(guān)系、甲骨片與甲骨片的關(guān)系、甲骨文異體字之間的關(guān)系、商王世系的關(guān)系、貞人與商王及卜辭的關(guān)系、祭祀、戰(zhàn)爭事件等。因此,僅僅依靠MKD 無法較好地表示甲骨學(xué)的領(lǐng)域知識[2]。
Knowledge graph[6](簡稱KG)可用統(tǒng)一的方式體現(xiàn)知識定義和知識實體兩個層次共同構(gòu)成的知識系統(tǒng)[7]。KG 通過關(guān)系連接實體后,根據(jù)連接的路徑,將相關(guān)實體聯(lián)系起來獲取知識。KG 的構(gòu)建大多基于大數(shù)據(jù),綜合維基百科等百科類數(shù)據(jù)、網(wǎng)絡(luò)知識庫、搜索日志、開放鏈接數(shù)據(jù)、社會網(wǎng)絡(luò)、眾包等資源實現(xiàn)實體抽取和實體鏈接,通常利用本體進(jìn)行知識映射或知識融合。目前網(wǎng)絡(luò)上有關(guān)甲骨學(xué)數(shù)據(jù)及知識描述的資源極少,絕大多數(shù)甲骨學(xué)數(shù)據(jù)均以不同的形式存儲在各研究機(jī)構(gòu),因此,甲骨學(xué)領(lǐng)域需要重新考慮知識實體的發(fā)現(xiàn)及關(guān)系挖掘方法[2]。
綜上所述,構(gòu)建甲骨學(xué)知識圖譜面臨以下挑戰(zhàn):(1) MKD 在表達(dá)微觀層面的甲骨學(xué)知識關(guān)聯(lián)方面存在不足,需要KG 來彌補;(2)從多源異構(gòu)的數(shù)據(jù)源中進(jìn)行知識抽取尚無通用方法,需要結(jié)合甲骨學(xué)數(shù)據(jù)特征進(jìn)行;(3) 利用MKD 研究甲骨文文獻(xiàn)是必由之路,同時,在為構(gòu)建甲骨學(xué)知識圖譜而引入新的數(shù)據(jù)模式時需考慮圖譜的融合問題;(4)研究甲骨學(xué)知識圖譜的文獻(xiàn)非常少,可用的開放鏈接資源稀缺,無法直接套用通用知識圖譜或其他領(lǐng)域知識圖譜的構(gòu)建方法,需要專門研究面向甲骨學(xué)的知識圖譜構(gòu)建方法。因此,本文融合MKD 和KG 兩類知識圖譜來構(gòu)建甲骨學(xué)知識圖譜,以期解決甲骨學(xué)研究中存在的知識獲取、管理和共享問題。
知識圖譜的研究主要有兩種類型[2]:以文獻(xiàn)計量為主的科學(xué)知識圖譜(MKD)和以Google 知識圖譜為代表的KG。
MKD 是一種融合數(shù)學(xué)、信息科學(xué)、計算機(jī)圖形學(xué)等多學(xué)科理論和技術(shù)進(jìn)行科技文獻(xiàn)計量和分析的可視化研究方法,可運用圖譜展示學(xué)科知識分布、發(fā)展趨勢和研究熱點等[8]。MKD 從最初的文獻(xiàn)計量學(xué)及情報學(xué)迅速擴(kuò)展到其他學(xué)科,在社會科學(xué)、自然科學(xué)領(lǐng)域有著越來越廣泛的應(yīng)用[9]。研究表明,MKD 既可以通過縱向比較來分析學(xué)科領(lǐng)域不同子領(lǐng)域的相互關(guān)系和演化歷程;也可以通過橫向比較來分析學(xué)科領(lǐng)域的研究熱點和發(fā)展趨勢[5]。劉則淵等[10]研究指出,德萊克斯大學(xué)、布魯內(nèi)爾大學(xué)、圣蒂亞國家實驗室、伊拉茲馬斯大學(xué)等是國外MKD 較有影響力的研究機(jī)構(gòu)。值得一提的是德萊克斯大學(xué)的陳超美教授,其開發(fā)的知識圖譜分析軟件CiteSpace[11-12]已被廣泛應(yīng)用。湯建民等[13]認(rèn)為,大連理工大學(xué)、武漢大學(xué)、中國科學(xué)院、浙江樹人大學(xué)、南京大學(xué)等機(jī)構(gòu)在MKD 研究方面表現(xiàn)突出,其中,大連理工大學(xué)[4]最早從科學(xué)計量學(xué)的視角引進(jìn)科學(xué)知識圖譜方法,極大地推動了國內(nèi)MKD 的研究和發(fā)展[13]。
KG 自2012 年由Google 提出以來,迅速成為人工智能的研究熱點,并涌現(xiàn)出一大批令人矚目的成果。如YAGO[14]、NELL[15]、DBpedia[16]、Freebase[17]、Knowledge Vault[18]、Zhishi.me[19]、XLore[20]、OpenKG.CN[21]等。
KG 是一個多關(guān)系圖,其結(jié)點表示實體或概念,連接結(jié)點的邊表示實體與概念之間的關(guān)系。因此,構(gòu)建KG 的關(guān)鍵是實體抽取和關(guān)系抽取。目前,大量的知識圖譜研究是利用網(wǎng)絡(luò)資源尤其是Wiki 類資源和鏈接開放數(shù)據(jù)(linked open data, LOD)實現(xiàn)實體抽取和關(guān)系抽取。 ABHISHEK 等[22]基于Wikipedia 實現(xiàn)了社交媒體的實體抽取、鏈接、分類及標(biāo)注。DESHPANDE 等[23]利用Wikipedia 進(jìn)行知識概念、實體及關(guān)系的抽取。DONG 等[18]構(gòu)建了網(wǎng)絡(luò)級的概率知識庫knowledge vault,其實現(xiàn)方法是融合網(wǎng)頁文本、表格數(shù)據(jù)、網(wǎng)頁結(jié)構(gòu)和人工標(biāo)注信息。中文通用知識圖譜Zhishi.me 是通過從百度百科、互動百科、維基百科等開放百科數(shù)據(jù)中抽取結(jié)構(gòu)化數(shù)據(jù)后進(jìn)行知識融合實現(xiàn)的;WANG 等[20]構(gòu)建的跨語言知識圖譜XLore 是基于百度百科、互動百科和中英文維基百科實現(xiàn)的;XU 等[24]研究了維基百科中實體間缺失語義關(guān)系的發(fā)現(xiàn)算法;WANG 等[25]基于跨語言知識庫,實現(xiàn)了知識圖譜的擴(kuò)展;LIN 等[26]提出了一種新的KG 構(gòu)建模型TransR,分別在實體空間和關(guān)系空間進(jìn)行實體的學(xué)習(xí)和關(guān)系的建立;復(fù)旦大學(xué)研發(fā)的CN-DBpedia[27]開放百科中文知識圖譜,涵蓋數(shù)千萬實體和數(shù)億級的關(guān)系,相關(guān)知識服務(wù)API 累計調(diào)用量已達(dá)6 億次。清華大學(xué)和微軟在KDD 上 聯(lián) 合 發(fā) 布 的Open Academic Graph[28],包 含Microsoft Academic Graph (MAG)的1.6 億篇論文和AMiner[29]的1.55 億篇論文,生成了2 個學(xué)術(shù)圖譜的6 463 萬個鏈接關(guān)系。中國科學(xué)院自動化所研發(fā)的Belief Engine[30]是一個中英文雙語的跨領(lǐng)域知識圖譜,在百度、互動、維基百科的陳述性知識基礎(chǔ)上通過概念化產(chǎn)生概念層面的常識性知識,并為每一條常識性知識賦予一個信念值(belief value)。北京大學(xué)中文百科知識圖譜PKU-PIE[31]是從維基百科、DBpedia、百度百科等處自動收集而成的知識庫,有自己的類別體系和謂詞體系,并且和DBpedia 等常用的知識庫進(jìn)行關(guān)聯(lián)。
馮新翎等[32]從理論淵源、知識管理視角、適用研究領(lǐng)域等方面研究了MKD 和KG 的區(qū)別和聯(lián)系,指出,MKD 和KG 都屬于知識管理范疇,在知識管理過程中不同階段扮演不同角色,完成各自功能。兩者之間既有區(qū)別又緊密聯(lián)系,在知識創(chuàng)新方面的融合和發(fā)展將帶來知識管理領(lǐng)域科學(xué)范式的變革。MKD 和KG 都是以圖為基礎(chǔ)構(gòu)建的網(wǎng)絡(luò)模型,在網(wǎng)絡(luò)分析的基礎(chǔ)上服務(wù)于知識管理,所有網(wǎng)絡(luò)分析的理論和方法都可應(yīng)用于MKD 和KG 知識圖譜的分析。大數(shù)據(jù)時代,MKD 和KG 可相互借鑒、相互促進(jìn),通過融合可以完成特定領(lǐng)域的知識圖譜構(gòu)建。一方面,MKD 可以集成機(jī)器學(xué)習(xí)中的聚類和關(guān)聯(lián)挖掘等方法,提高算法和工具分析性能;另一方面,KG 可以借鑒MKD 中的可視化算法和工具展現(xiàn)大規(guī)模語義網(wǎng)絡(luò),清晰顯示海量知識實體之間的復(fù)雜關(guān)系。
甲骨學(xué)知識圖譜的構(gòu)建基于海量的多源異構(gòu)甲骨文研究數(shù)據(jù),通過融合MKD 和KG 兩類知識圖譜實現(xiàn)。其中MKD 以甲骨學(xué)文獻(xiàn)為主要數(shù)據(jù)來源,KG 以甲骨文文本、語料庫和數(shù)據(jù)庫為主要數(shù)據(jù)來源。甲骨學(xué)知識圖譜的構(gòu)建流程如圖2 所示。
圖2 甲骨學(xué)知識圖譜構(gòu)建框架Fig.2 The construction framework of OBS knowledge graph
由圖2 可知,構(gòu)建甲骨學(xué)知識圖譜的數(shù)據(jù)源包括甲骨文文獻(xiàn)、數(shù)據(jù)庫、文本、語料庫等。首先,基于甲骨文文獻(xiàn),利用MKD 表示甲骨學(xué)知識關(guān)聯(lián)、知識演化及知識群結(jié)構(gòu)。同時,MKD 可作為一種新生成的數(shù)據(jù)來源,利用共引、共詞、聚類分析等方法從MKD 中提取實體(如研究機(jī)構(gòu)、學(xué)者、地點、人物、事件等)和實體之間的關(guān)系(如合作、被引、共現(xiàn)、為…提供依據(jù)、主題、分期、類組、材質(zhì)、祭祀對象、繼承等)。
甲骨文本體可為知識圖譜提供概念模型和邏輯基礎(chǔ)?;谝褬?gòu)建的甲骨文文獻(xiàn)本體、甲骨文內(nèi)容本體和甲骨文常識本體3 個本體[33],可以實現(xiàn)實體抽取和關(guān)系抽取。其中,甲骨文文獻(xiàn)本體是依據(jù)甲骨文研究論文及專著建立的資源本體;甲骨文內(nèi)容本體是描述經(jīng)甲骨文專家及歷史學(xué)家考釋得到,描述了商代社會的家庭關(guān)系、生活、農(nóng)作、天氣、戰(zhàn)爭、狩獵等事件及其相互關(guān)系;甲骨文常識本體描述的是甲骨文的基本知識,如甲骨文的材料選擇、占卜祭祀過程,以及甲骨文的發(fā)現(xiàn)歷史、專家名錄、考古記錄、文字特征、語法知識等。
分別從MKD 和甲骨學(xué)數(shù)據(jù)源獲取實體和關(guān)系后,需要將兩者進(jìn)行融合,構(gòu)建MKD-KG 融合圖譜。融合時考慮實體對齊和關(guān)系融合,而且本體有助于實現(xiàn)實體對齊和關(guān)系融合。同時,利用本體的語義關(guān)系和本體推理,可發(fā)現(xiàn)潛在的實體和隱含的語義關(guān)系,從而擴(kuò)展和豐富MKD-KG 融合圖譜。由于甲骨學(xué)領(lǐng)域?qū)I(yè)程度高,因此,需要在甲骨文專家的指導(dǎo)下書寫相應(yīng)的規(guī)則,實現(xiàn)基于規(guī)則的知識推理。
MKD 構(gòu)建方法較多,有共引分析法、共詞分析法、聚類分析法、社會網(wǎng)絡(luò)分析法,以及融合了其他文獻(xiàn)特征的綜合分析方法等[5]。其中,共詞分析方法是通過分析同一個文本主體中的關(guān)鍵詞,由其共同出現(xiàn)的形式來挖掘?qū)W科領(lǐng)域中主題間的關(guān)系,從而分析該領(lǐng)域的學(xué)科發(fā)展[34]。詞作為知識繼承與發(fā)展的最小功能單元,有利于明確分析知識之間的關(guān)聯(lián)關(guān)系[5]。因此,本文選擇共詞分析法描述知識之間的聯(lián)系。
共詞分析,即分析詞和詞之間的知識關(guān)聯(lián)。由于詞代表著領(lǐng)域的知識概念,相較共引分析方法,共詞分析更有利于揭示領(lǐng)域微觀知識之間的聯(lián)系。共詞分析的功能大致分為[5]:從學(xué)科內(nèi)部角度看,可以區(qū)分學(xué)科子領(lǐng)域,確定學(xué)科知識結(jié)構(gòu);從學(xué)科之間角度看,可以揭示研究主題之間的關(guān)聯(lián)、特點和差異;從時間維度看,可以揭示學(xué)科領(lǐng)域中,不同子領(lǐng)域的研究發(fā)展、演化規(guī)律和相互作用關(guān)系;從橫向的主題比較角度看,可以揭示學(xué)科研究主題與研究熱點的接近程度,從而對知識發(fā)展趨勢進(jìn)行合理預(yù)測。
本文選擇Cosine 函數(shù)法作為共詞關(guān)系計算方法。設(shè)存在關(guān)鍵詞Di=(d1i,d2i,…,dni)T和Dj=(d1j,,d2j,,…,dnj)T,則Di,Dj的Cosine 函 數(shù) 計 算 公式為
以CNKI 為數(shù)據(jù)來源,用“甲骨文”作為主題詞檢索1927 年5 月至2019 年1 月的文獻(xiàn),共篩選到5 971 篇。由于文獻(xiàn)的標(biāo)題、關(guān)鍵詞和摘要已經(jīng)能反映甲骨文知識的大部分內(nèi)容,因此,構(gòu)建過程中,只取文獻(xiàn)的標(biāo)題、關(guān)鍵詞和摘要進(jìn)行共詞分析。利用CiteSpace 工具,采用余弦函數(shù)進(jìn)行共詞分析,得到的甲骨學(xué)MKD 圖譜片段如圖3 所示。
圖3 甲骨學(xué)MKD 片段Fig.3 The fragment of OBS MKD
從圖3 中可看出,甲骨學(xué)MKD 可以顯示其知識結(jié)構(gòu)及其分布。節(jié)點類型涵蓋了人物、機(jī)構(gòu)、時間、事件等實體,節(jié)點和字體的相對大小體現(xiàn)了詞頻,連線表明了知識節(jié)點之間的關(guān)系,顏色對應(yīng)文獻(xiàn)發(fā)表年份。圖3 顯示結(jié)果存在的最大問題是未考慮語義關(guān)系對實體的優(yōu)化,如“高端論壇”“字符”“字頻”等對甲骨文知識的意義不大,應(yīng)該剔除;相反,有助于表示甲骨文知識的同義詞、上位詞、下位詞等關(guān)系則沒有體現(xiàn)??梢?,單用MKD 無法較好地表示甲骨學(xué)知識體系。
構(gòu)建甲骨學(xué)KG 的關(guān)鍵是實體發(fā)現(xiàn)和關(guān)系抽取。甲骨學(xué)基礎(chǔ)數(shù)據(jù)是多源異構(gòu)的,這些數(shù)據(jù)中存在各種各樣的實體,由圖2 所示的甲骨學(xué)知識圖譜構(gòu)建框架可知,實體可以從甲骨學(xué)MKD、甲骨學(xué)數(shù)據(jù)庫、甲骨文文本、甲骨學(xué)圖文資料庫等多源數(shù)據(jù)集中獲取。而且,甲骨文本體中已經(jīng)創(chuàng)建了大量較高質(zhì)量的實例,這些實例可以直接作為甲骨學(xué)知識圖譜中的實體。
2.2.1 基于甲骨學(xué)MKD 的實體發(fā)現(xiàn)與關(guān)系抽取
利用CiteSpace 構(gòu)建了甲骨學(xué)MKD,其存儲格式為*.graphml 文件,通過該文件中的〈node〉標(biāo)記可以直接獲取實體,文件中的〈edge〉標(biāo)記可以直接獲取實體及實體間的關(guān)系。在圖3 所示的甲骨學(xué)MKD 中,〈node〉及〈edge〉對應(yīng)的節(jié)點及關(guān)系如圖4 所示。
圖4 基于MKD 的實體和關(guān)系抽取Fig.4 Entity and relation extraction based on MKD
2.2.2 基于甲骨學(xué)數(shù)據(jù)庫的實體發(fā)現(xiàn)與關(guān)系抽取
甲骨學(xué)研究過程中建立了多種類型的數(shù)據(jù)庫,如甲骨文詞典數(shù)據(jù)庫、甲骨文著錄數(shù)據(jù)庫、甲骨文文獻(xiàn)數(shù)據(jù)庫、甲骨語法庫等。實際上,在構(gòu)建數(shù)據(jù)庫時就已經(jīng)對數(shù)據(jù)對象進(jìn)行了分析和設(shè)計,并定義了數(shù)據(jù)庫模式。
定義1數(shù)據(jù)庫的關(guān)系模式可以定義為一個五元 組R(U, D, DOM, F)[35],其 中R 為 關(guān) 系 名,U 為組成該關(guān)系的屬性名集合,D 為U 中屬性來自的域,DOM 為屬性向域的映像集合,F(xiàn) 為屬性間數(shù)據(jù)的依賴關(guān)系集合。
定義2本體可定義為一個五元組O = {C,A, R, I, Ao}[36],其 中C 是 概 念 集 合,A 是 屬 性 集 合,R 表示概念間的相互關(guān)系,I 是實例集合,Ao是利用某種邏輯語言表示的公理集合。
由定義1 和定義2 知,數(shù)據(jù)庫模式已成為本體開發(fā)中知識獲取的重要方法。數(shù)據(jù)庫模式中的關(guān)系、關(guān)系屬性、屬性的原子數(shù)據(jù)類型、屬性約束、主鍵/外鍵等為本體構(gòu)建提供了概念或類及其關(guān)系的描述[37]。所以,基于數(shù)據(jù)庫可以實現(xiàn)實體發(fā)現(xiàn)和關(guān)系抽取。本文采用直接映射的方法,將關(guān)系數(shù)據(jù)庫的表結(jié)構(gòu)和數(shù)據(jù)轉(zhuǎn)化為RDF 形式,具體操作如圖5所示。
圖5 數(shù)據(jù)庫到RDF 的映射Fig.5 DB2RDF mapping
基于圖5 的映射思路,以甲骨文著錄數(shù)據(jù)庫為例,獲取的實體和關(guān)系如圖6 所示。
圖6 基于數(shù)據(jù)庫的實體和關(guān)系抽取Fig.6 Entity and relation extraction based on database
圖6 中,綠色節(jié)點表示甲骨文專家(若有專家頭像,則以頭像方式顯示),藍(lán)色節(jié)點表示甲骨文著錄,粉色節(jié)點表示出版機(jī)構(gòu),節(jié)點之間的連線表示關(guān)系??梢钥闯?,該圖譜可以完整地展示著錄數(shù)據(jù)庫所描述的信息。通過數(shù)據(jù)庫模式,可得到實體和實體之間的關(guān)系,如〈專家,編纂,著錄〉〈研究機(jī)構(gòu),編纂,著錄〉〈出版社,出版,著錄〉〈專家,合作,專家〉等。而且,相較針對關(guān)聯(lián)關(guān)系復(fù)雜的查詢,基于知識圖譜的查詢效率要遠(yuǎn)高于關(guān)系數(shù)據(jù)庫查詢。
2.2.3 基于文本的實體發(fā)現(xiàn)與關(guān)系抽取
這里的甲骨文文本是指除甲骨文文獻(xiàn)、甲骨文語料庫之外的涉及甲骨文知識的文本,如網(wǎng)頁文本、電子版筆記等。從這些非結(jié)構(gòu)化文本中抽取關(guān)系具有極大的挑戰(zhàn)性。目前,基于深度學(xué)習(xí)的實體關(guān)系抽取技術(shù)超過了傳統(tǒng)的基于特征和核函數(shù)的方法[38],并涌現(xiàn)出一批重要成果。如基于遞歸神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取[39]、基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取[40-42]、基于端到端神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取[43]、基于注意力機(jī)制的關(guān)系抽取[44-45]、弱監(jiān)督殘差網(wǎng)絡(luò)關(guān)系抽取[46]等。但是,目前甲骨學(xué)研究尚需強(qiáng)依賴于專家知識,且缺乏可行的標(biāo)注語料或數(shù)據(jù)集,深度學(xué)習(xí)的優(yōu)勢無法凸顯。因此,利用依存句法分析結(jié)合甲骨學(xué)領(lǐng)域知識實現(xiàn)基于文本的實體發(fā)現(xiàn)和關(guān)系抽取,并采用哈工大社會計算與信息檢索研究中心研制的語言技術(shù)平臺(LTP[47])作為依存句法分析工具,將依存句法分析與甲骨學(xué)領(lǐng)域知識相結(jié)合,抽取出三元組。例如,由文本“對商代甲骨的分期斷代研究,有多種說法,如今主要采用的是董作賓依據(jù)世系、稱謂、貞人等十項標(biāo)準(zhǔn)劃分的五期說,即第一期:盤庚、小辛、小乙、武丁,第二期:祖庚、祖甲,第三期:廩辛、康丁,第四期:武乙、文丁,第五期:帝乙、帝辛?!钡玫降囊来婢浞淦渭俺槿〉膶嶓w和關(guān)系如圖7所示。
圖7 基于依存句法和領(lǐng)域知識的實體和關(guān)系抽取Fig.7 Entity and relation extraction based on dependency syntax and domain knowledge
2.2.4 基于語料庫的實體發(fā)現(xiàn)與關(guān)系抽取
甲骨學(xué)的研究對象以甲骨文為主,因此分析甲骨文語料庫相關(guān)元素之間的關(guān)系顯得尤為重要。本文從甲骨文的研究需求角度進(jìn)行分析,基于甲骨文語料庫實現(xiàn)甲骨學(xué)KG 的實體發(fā)現(xiàn)與關(guān)系抽取。
甲骨學(xué)研究的基本要求是釋讀甲骨片,因此,甲骨學(xué)著錄是第一手資料。甲骨片的著錄形式一般有照片、拓片、摹本,其中以甲骨拓片為主要形式,而且,同一張甲骨片可能會在不同的著錄中收錄,其收錄編號也不一致。所以,明確某一張拓片出自何種著錄至關(guān)重要。于是,甲骨片與著錄之間的關(guān)系可以表示為〈甲骨片,收錄于,著錄〉,見圖8(a)。
構(gòu)建甲骨字網(wǎng)絡(luò)可以為甲骨學(xué)中的語義挖掘及考釋線索找尋提供有益的幫助,因此,需要將甲骨片上的單個甲骨字分離出來,從而獲得甲骨字和甲骨片的關(guān)系,表示為〈甲骨字,出現(xiàn)于,甲骨片〉。見圖8(b)。
異體字多是甲骨文的一個突出的特點。異體字對甲骨文字識別、考釋、分期斷代、字庫建設(shè)、圖像檢索、數(shù)字化出版等有較大影響。從眾多的異體字中找出一個代表字(作為“字頭”)可以方便后續(xù)的甲骨學(xué)研究。因此,甲骨字之間存在異體字關(guān)系,表示為〈甲骨字(字頭),異體字,甲骨字〉,見圖8(c)。
可見,甲骨字(字頭)與甲骨字之間存在異體字關(guān)系,而該關(guān)系指向的甲骨字節(jié)點又是截取自某一甲骨片,因此,該甲骨字與甲骨片間必然存在“出現(xiàn)于”關(guān)系。多方結(jié)合可得到“甲骨字-甲骨片-著錄綜合圖譜”,見圖8(d)。
圖8 基于語料庫的實體和關(guān)系抽取Fig.8 Entity and relation extraction based on corpus
從8(d)中可以看出,同一片甲骨上某個甲骨字可能以異體字形式出現(xiàn)多次,這也體現(xiàn)了甲骨文異體字繁多、出現(xiàn)頻率高的特點。因此,知識圖譜可以很好地表示甲骨學(xué)領(lǐng)域知識。
基于語料庫進(jìn)行實體和關(guān)系抽取的一個關(guān)鍵問題是如何從海量的甲骨圖片中自動檢測出甲骨字。筆者利用深度學(xué)習(xí)方法,基于9 500 張定位標(biāo)注的甲骨片,參考YOLOv3 方法實現(xiàn)了甲骨片上甲骨字的自動檢測,其準(zhǔn)確率、召回率和F 值分別為77.6%,78.4%,78%,檢測效果如圖9 所示。
圖9 甲骨字的自動檢測Fig.9 Automatic detection of OBI characters
構(gòu)建甲骨學(xué)MKD 和KG 時,分別從異構(gòu)數(shù)據(jù)源中獲取了大量實體和關(guān)系,將這兩種知識圖譜進(jìn)行融合,需要考慮實體對齊和關(guān)系融合兩個關(guān)鍵問題。
2.3.1 實體對齊
實體對齊也稱為實體匹配或?qū)嶓w解析,是判斷相同或不同數(shù)據(jù)集中的兩個實體是否指向真實世界同一對象的過程[48]。甲骨學(xué)中存在各類等價實體。如“文武丁”和“文丁”指的是同一位商王;“艾蘭”和“Sarah Allan”指的是同一學(xué)者;當(dāng)某一甲骨片被收錄進(jìn)不同的著錄時,其甲骨片編號往往是不同的,如《甲骨文合集補編》中第b00008 片與《東京大學(xué)東洋文化研究所藏甲骨文字》中第d00123 片是同一片甲骨;“Oracle Bone Collections in the United States”與“美國所藏甲骨錄”指的是同一著錄。
由于甲骨學(xué)的專業(yè)性很強(qiáng),甲骨學(xué)知識圖譜中等價實體大部分需要利用甲骨學(xué)知識進(jìn)行判定。如果實體對〈e1,e2〉在甲骨文文本中被記錄為“=”(如圖10(a)所示[49]),或在數(shù)據(jù)庫中有相應(yīng)字段(如圖10(b)所示),或在本體中標(biāo)記為“isSame”關(guān)系(如圖10(c)所示),則這些實體對在相同或不同數(shù)據(jù)集中出現(xiàn)時,直接判定為等價實體。
對無法直接判定為等價實體的,需要通過實體相似度計算來判定。本文采用文獻(xiàn)[50]的方法,通過綜合HowNet 與同義詞詞林的詞語語義相似度計算方法實現(xiàn)等價實體的判定。針對甲骨學(xué)領(lǐng)域的專業(yè)知識,還需要基于“甲骨文知網(wǎng)(OBIHowNet)[33]”進(jìn)行語義相似度計算。
圖10 各類數(shù)據(jù)源中的等價實體Fig.10 Equivalent entities in various data sources
2.3.2 關(guān)系融合
關(guān)系融合的關(guān)鍵在于確定兩個實體是否表達(dá)同一種關(guān)系,是否是包含關(guān)系等[51]。甲骨學(xué)知識圖譜的關(guān)系融合主要考慮等價類關(guān)系和subClassOf 關(guān)系。關(guān)系融合示例如表1 所示。
同時,也要優(yōu)化投入要素的比例,根據(jù)城市的具體狀況、旅游資源、適當(dāng)?shù)恼{(diào)整資金、勞動力、基礎(chǔ)建設(shè)、交通建設(shè)等要素的投入比例,進(jìn)而實現(xiàn)城市旅游的高效發(fā)展、協(xié)調(diào)發(fā)展以及可持續(xù)發(fā)展。
表1 關(guān)系融合示例Table 1 Examples of relation fusion
經(jīng)過實體對齊和關(guān)系融合后,得到的甲骨學(xué)融合知識圖譜如圖11 所示。該融合知識圖譜包括甲骨文專家學(xué)者、著錄、研究機(jī)構(gòu)、出版機(jī)構(gòu)、甲骨片、甲骨字、甲骨文常識等知識實體和關(guān)聯(lián)關(guān)系。
將MKD 和KG 兩類知識圖譜進(jìn)行融合得到的MKD-KG 融合圖譜包含大量實體和關(guān)系,已經(jīng)構(gòu)成一個龐大的知識網(wǎng)絡(luò)。但這些實體和關(guān)系均是從各種知識源中直接獲取的顯式元素,無法較好地滿足甲骨學(xué)研究的知識推理需求。因此,挖掘顯式的實體和關(guān)系背后隱藏的潛在實體和關(guān)系,對甲骨學(xué)知識圖譜進(jìn)行擴(kuò)展是一項重要工作。本文從本體推理和規(guī)則推理兩方面實現(xiàn)隱含語義關(guān)系的挖掘,從而豐富甲骨學(xué)知識圖譜。
圖11 甲骨學(xué)MKD-KG 融合圖譜Fig.11 OBS fusion knowledge graph based on MKD and KG
利用甲骨文本體中已定義的關(guān)系(既有kindof,instance-of,property-of,part-of,equivalence 等通用關(guān)系,也有甲骨學(xué)領(lǐng)域涉及的商王世系、占卜事件、地理位置、時間空間等復(fù)雜的語義關(guān)系)和公理進(jìn)行推理,還可充分利用關(guān)系的傳遞性、自反性等進(jìn)行推理[2]?;诒倔w關(guān)系的推理可參見文獻(xiàn)[52]。將本體關(guān)系與甲骨學(xué)MKD 共詞關(guān)系進(jìn)行融合,可發(fā)現(xiàn)新的實體和關(guān)系,相關(guān)內(nèi)容可參見文獻(xiàn)[2]。
基于規(guī)則的推理需要在甲骨文專家的指導(dǎo)下書寫相應(yīng)的規(guī)則來彌補本體無法直接完成的推理,如甲骨學(xué)領(lǐng)域涉及的因果關(guān)系、甲骨字考釋、甲骨文分期斷代、殘辭擬補等?,F(xiàn)以一則簡單示例說明基于規(guī)則的推理。
定義以下2 條規(guī)則:
規(guī)則1貞人為商王占卜(用divinateFor 表示占卜關(guān)系),因此是商王的臣子(用serveFor 表示臣子關(guān)系)。
上述規(guī)則形式化表示為:
Rule1:OBI:serveFor(X,Y) :- OBI:divinateFor(X,Y)。
Rule2:OBI:colleague(X,Z) :- OBI:serveFor(X,Y), OBI:serveFor(Z,Y)。
假設(shè)存在3 條事實:“內(nèi)”是商王“武丁”的貞人;“師般”是商王“武丁”的近臣;“禽”是商王“武丁”的大將?;谏鲜鲆?guī)則可以推理出更多的事實,如“內(nèi)”與“師般”“禽”是同僚關(guān)系等。其推理前后統(tǒng)計對比如圖12 所示。
圖12 推理前后統(tǒng)計對比Fig.12 Comparison of rule-based knowledge reasoning
推理前后的關(guān)系對比如圖13 所示(圖中去除了節(jié)點的自身關(guān)聯(lián),即只保留圖12 中所述的有效邊)。
圖13 推理前后的關(guān)系對比Fig.13 The relation comparison before and after knowledge reasoning
經(jīng)過知識推理獲取的隱含的語義關(guān)系以及新發(fā)現(xiàn)的實體,可以擴(kuò)充和豐富MKD-KG 融合圖譜,從而形成最終的甲骨學(xué)知識圖譜。目前構(gòu)建的甲骨學(xué)知識圖譜規(guī)模包含實體148 305 個,關(guān)系434 032條,可滿足甲骨學(xué)研究的基本要求。
為驗證上述實體及關(guān)系抽取方法,筆者進(jìn)行了相關(guān)實驗。實驗分別針對各類甲骨文數(shù)據(jù)源,采取準(zhǔn)確率(precision)、召回率(recall)、F 值(f-measure)進(jìn)行評價。由于缺乏甲骨文領(lǐng)域的評價數(shù)據(jù)集,因此,實體抽取及關(guān)系抽取的正確性由人工確定,實驗結(jié)果如表2 所示。
表2 中,基于甲骨語料的關(guān)系抽取達(dá)到最高評價值,其原因是在該關(guān)系抽取過程中必須依賴甲骨文專家人工干預(yù),如異體字的識別與歸類、異體字與字頭的關(guān)系等。實驗分析如下:
(1)關(guān)系抽取的難度大于實體抽?。?/p>
(2)基于結(jié)構(gòu)化數(shù)據(jù)的實體抽取和關(guān)系抽取質(zhì)量明顯高于非結(jié)構(gòu)化數(shù)據(jù);
(3)基于文本的甲骨文實體抽取和關(guān)系抽取依賴于依存句法的分析質(zhì)量。因此,有必要開展針對甲骨文領(lǐng)域的依存句法分析的專門研究;
(4)甲骨文字的檢測與識別效果直接影響甲骨語料的信息抽取質(zhì)量。
表2 實驗結(jié)果Table 2 The experimental results
甲骨學(xué)知識圖譜是由MKD 和KG 兩類圖譜融合而成的。在分別介紹甲骨學(xué)MKD 和甲骨學(xué)KG的構(gòu)建方法基礎(chǔ)上,通過實體對齊、關(guān)系融合和知識推理得到最終的甲骨學(xué)知識圖譜。盡管目前構(gòu)建的甲骨學(xué)知識圖譜已初具規(guī)模,但仍面臨一些問題。如甲骨學(xué)MKD 是基于文獻(xiàn)元數(shù)據(jù)信息構(gòu)建的,并沒有考慮文獻(xiàn)全文,因此,文本中的大量實體和關(guān)系并沒有抽取出來;甲骨學(xué)文獻(xiàn)中存在較多圖文混編情況,目前還無法實現(xiàn)甲骨字的有效圖像檢索;甲骨學(xué)文獻(xiàn)還存在大量的手寫版本,對這些手寫文獻(xiàn)尚缺乏準(zhǔn)確率高的識別方法。這些均影響實體的抽取和關(guān)系的挖掘。針對甲骨學(xué)KG,目前僅關(guān)注與甲骨文字有關(guān)的知識實體和實體關(guān)系,尚未對金文、戰(zhàn)國文字、簡帛文字等相關(guān)古文字進(jìn)行較大規(guī)模的知識圖譜構(gòu)建;另外,甲骨文考古知識和甲骨文綴合方面的知識也未系統(tǒng)加入目前的知識圖譜中;甲骨文依存句法分析工作也有待研究。下一步,將針對這些問題進(jìn)行更加深入的研究。