彭 博 童兆莉
(1.華中科技大學(xué)建筑與城市規(guī)劃學(xué)院,湖北 武漢 430074;2.華中師范大學(xué)信息管理學(xué)院,湖北 武漢 430079;3.湖北省城鎮(zhèn)化工程技術(shù)研究中心,湖北 武漢 430074)
網(wǎng)絡(luò)的開(kāi)放性、交互性以及共享性特征使信息資源數(shù)量達(dá)到了前所未有的豐富程度,但其中大部分以非結(jié)構(gòu)化數(shù)據(jù)的形式出現(xiàn),如要對(duì)該類信息資源進(jìn)行深度利用,就需要通過(guò)信息抽取將其轉(zhuǎn)換為結(jié)構(gòu)化、半結(jié)構(gòu)化的信息以待進(jìn)一步的分析。實(shí)體關(guān)系抽取作為信息抽取的重要組成部分,可以從信息資源中獲取描述實(shí)體關(guān)系及屬性的三元組,為知識(shí)圖譜構(gòu)建、語(yǔ)義分析等研究提供基礎(chǔ)數(shù)據(jù)。但是網(wǎng)絡(luò)信息資源數(shù)量龐大、復(fù)雜多樣、更新頻繁,人工方法標(biāo)注全部數(shù)據(jù)需要進(jìn)行大量工作,亟需一種自動(dòng)進(jìn)行的高效方法完成實(shí)體關(guān)系抽取,才能滿足網(wǎng)絡(luò)信息資源數(shù)據(jù)處理的需要,充分利用網(wǎng)絡(luò)中的海量數(shù)據(jù)。
自動(dòng)進(jìn)行信息資源實(shí)體關(guān)系抽取的一個(gè)前提是該領(lǐng)域中具有大量標(biāo)準(zhǔn)統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù)作為參考,而文物領(lǐng)域中的數(shù)據(jù)正好符合這一特征。該領(lǐng)域具有數(shù)字化程度高、數(shù)據(jù)標(biāo)準(zhǔn)清晰、實(shí)體關(guān)系明晰的特點(diǎn),在開(kāi)展實(shí)體關(guān)系自動(dòng)抽取時(shí)擁有良好的數(shù)據(jù)基礎(chǔ)?;诖耍恼戮劢咕W(wǎng)絡(luò)中由非結(jié)構(gòu)化數(shù)據(jù)組成文物信息資源,面向網(wǎng)絡(luò)文物信息資源提出了一種將信息資源關(guān)鍵詞與遠(yuǎn)程監(jiān)督方法結(jié)合,融合多知識(shí)庫(kù)數(shù)據(jù)的實(shí)體關(guān)系自動(dòng)抽取方法。
實(shí)體關(guān)系抽取是指將非結(jié)構(gòu)化數(shù)據(jù)構(gòu)成的信息資源轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)并進(jìn)行存儲(chǔ)[1],現(xiàn)有的實(shí)體關(guān)系抽取有關(guān)研究主要圍繞無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、全監(jiān)督學(xué)習(xí)以及遠(yuǎn)程監(jiān)督方式進(jìn)行。
無(wú)監(jiān)督學(xué)習(xí)根據(jù)實(shí)體的上下文特征進(jìn)行,利用每個(gè)實(shí)體關(guān)系對(duì)在句中的固定特征進(jìn)行聚類,通過(guò)聚類后的結(jié)果進(jìn)行實(shí)體關(guān)系抽取。Hasegawa T等[2]通過(guò)命名實(shí)體的上下文特征進(jìn)行聚類,根據(jù)實(shí)體間的相似性打上對(duì)應(yīng)標(biāo)簽,完成實(shí)體關(guān)系抽取。Miller S等[3]通過(guò)統(tǒng)計(jì)方法設(shè)計(jì)匹配規(guī)則,經(jīng)過(guò)詞性識(shí)別、實(shí)體識(shí)別、句法分析、語(yǔ)義解析4個(gè)步驟進(jìn)行實(shí)體關(guān)系抽取。Kambhatla N[4]采用最大熵模型來(lái)整合文本中的詞、句的語(yǔ)義特征,使用邏輯回歸的方法進(jìn)行實(shí)體關(guān)系的分類,實(shí)現(xiàn)實(shí)體關(guān)系抽取。Zhao S等[5]使用核函數(shù)模型,將分詞、句子解析、深度依存分析分別進(jìn)行核函數(shù)表示,綜合3種維度進(jìn)行預(yù)定義關(guān)系下的實(shí)體關(guān)系抽取。無(wú)監(jiān)督方法不需要訓(xùn)練數(shù)據(jù),能夠?qū)Ω鞣N類型信息資源進(jìn)行實(shí)體關(guān)系抽取,適應(yīng)性強(qiáng),但由于其多基于聚類結(jié)果抽取,所獲取結(jié)果準(zhǔn)確率通常較低。
半監(jiān)督學(xué)習(xí)只需通過(guò)少量的種子標(biāo)記樣本與大量無(wú)標(biāo)記樣本進(jìn)行迭代訓(xùn)練就可以得到分類模型[6],常見(jiàn)方法有Bootstrapping[7]、協(xié)同訓(xùn)練[8]和標(biāo)注傳播[9]。半監(jiān)督實(shí)體關(guān)系抽取的最大特點(diǎn)是通過(guò)對(duì)領(lǐng)域語(yǔ)料進(jìn)行分析后制定一定的規(guī)則,利用小規(guī)模數(shù)據(jù)實(shí)現(xiàn)關(guān)系抽取,抽取結(jié)果精度較高,但該方法存在語(yǔ)義漂移等問(wèn)題,而且樣本數(shù)據(jù)中的錯(cuò)誤會(huì)隨算法迭代進(jìn)一步放大。
全監(jiān)督學(xué)習(xí)方法有基于規(guī)則、基于特征和基于核函數(shù)等。隨著深度學(xué)習(xí)的出現(xiàn),全監(jiān)督學(xué)習(xí)擺脫了傳統(tǒng)機(jī)器學(xué)習(xí)算法需要進(jìn)行特征設(shè)計(jì)的缺點(diǎn),可以自動(dòng)提取實(shí)體關(guān)系的特征。Socher R等[10]使用Word2Vec與遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)體關(guān)系抽取,其首先學(xué)習(xí)實(shí)體在句子中的向量表示,然后通過(guò)遞歸神經(jīng)網(wǎng)絡(luò)得到句子的向量表示進(jìn)行關(guān)系分類,開(kāi)創(chuàng)了深度學(xué)習(xí)在實(shí)體關(guān)系抽取中的應(yīng)用。Zeng D等[11]利用卷積神經(jīng)網(wǎng)絡(luò)提取詞匯和句子級(jí)特征,將這兩個(gè)級(jí)別的特征連接以形成最終提取的特征向量,而后輸入到Softmax分類器中,從而預(yù)測(cè)兩個(gè)標(biāo)記實(shí)體之間的關(guān)系進(jìn)行實(shí)體關(guān)系抽取。Nguyen T H等[12]使用多個(gè)尺度的窗口過(guò)濾預(yù)訓(xùn)練詞向量,得到了一種基于卷積神經(jīng)網(wǎng)絡(luò)的泛化實(shí)體關(guān)系提取方法。由于卷積神經(jīng)網(wǎng)絡(luò)在處理長(zhǎng)句時(shí)會(huì)由于過(guò)長(zhǎng)的輸入增加導(dǎo)致精度下降,Xu Y等[13]提出,使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)進(jìn)行關(guān)系抽取,在句子級(jí)別實(shí)體關(guān)系抽取中,找到兩個(gè)實(shí)體在依存樹(shù)中的最短路徑以去除無(wú)關(guān)信息,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)較以往的卷積神經(jīng)網(wǎng)絡(luò)關(guān)系抽取,使用最短依賴路徑保留相關(guān)信息的同時(shí)消除了句子中不相關(guān)的詞,多通道長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)允許通過(guò)依賴路徑從異構(gòu)源進(jìn)行有效的信息集成,還可以減輕神經(jīng)網(wǎng)絡(luò)過(guò)擬合的情況。
全監(jiān)督學(xué)習(xí)方法體現(xiàn)出了較高的實(shí)體關(guān)系抽取效率,但其面臨的一個(gè)關(guān)鍵問(wèn)題就是標(biāo)記資源的稀缺,對(duì)大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù)的需求導(dǎo)致其進(jìn)行關(guān)系抽取時(shí)需要付出較高的成本。遠(yuǎn)程監(jiān)督[14]方法的提出為數(shù)據(jù)的自動(dòng)標(biāo)注提供了一個(gè)可行的路徑,即通過(guò)假設(shè)“如果兩個(gè)實(shí)體在知識(shí)庫(kù)中具有關(guān)聯(lián)關(guān)系,那么其所在的句子則能夠提取出相應(yīng)的關(guān)系”利用外部知識(shí)庫(kù)中預(yù)先儲(chǔ)存的關(guān)系信息對(duì)句子中實(shí)體關(guān)系進(jìn)行標(biāo)注,能夠滿足大數(shù)據(jù)環(huán)境下大量樣本標(biāo)記的需求,降低標(biāo)注成本,解決大規(guī)模語(yǔ)料人工標(biāo)注耗時(shí)費(fèi)力的問(wèn)題。知識(shí)庫(kù)的不斷更新也能保證實(shí)體關(guān)系標(biāo)注的即時(shí)性,是面向網(wǎng)絡(luò)環(huán)境進(jìn)行信息資源實(shí)體關(guān)系抽取的一種可行方法。隨后,學(xué)者們利用多示例學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法[15],降低遠(yuǎn)程監(jiān)督由于過(guò)于絕對(duì)的假設(shè)帶來(lái)的標(biāo)注噪音問(wèn)題,進(jìn)一步提高實(shí)體關(guān)系抽取效率。深度學(xué)習(xí)中注意力機(jī)制的出現(xiàn)進(jìn)一步提升了遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取的性能,注意力機(jī)制能從大量文本序列信息中篩選出重要的特征,提高遠(yuǎn)程監(jiān)督標(biāo)注中正樣本的重要性,樣本中的關(guān)鍵詞的權(quán)重得以進(jìn)一步放大,使得深度學(xué)習(xí)模型能夠更好捕捉正樣本的特征[16]。隨著外部知識(shí)庫(kù)的不斷發(fā)展,有學(xué)者將知識(shí)庫(kù)中已有的先驗(yàn)知識(shí)融入神經(jīng)網(wǎng)絡(luò)模型中,作為獲取語(yǔ)義特征的預(yù)訓(xùn)練模型,加入遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取的工作中,進(jìn)一步提升了抽取效率[17]。在遠(yuǎn)程監(jiān)督的有關(guān)研究中,學(xué)者們著重解決的問(wèn)題主要圍繞如何更好地利用現(xiàn)有標(biāo)注數(shù)據(jù),通過(guò)捕獲正樣本特征來(lái)提高實(shí)體關(guān)系抽取的正確率上,較少有利用領(lǐng)域內(nèi)容特征提升數(shù)據(jù)標(biāo)注質(zhì)量降低遠(yuǎn)程監(jiān)督噪音的研究。目前,信息資源內(nèi)容的提取主要依靠關(guān)鍵詞抽取方法進(jìn)行[18],內(nèi)容有關(guān)關(guān)鍵詞提取在關(guān)鍵詞頻率較高的子集中計(jì)算得來(lái),重復(fù)出現(xiàn)的內(nèi)容一定程度上代表了其在信息資源中的重要性,也意味著其作為主要內(nèi)容代表的概率越高,因此這些關(guān)鍵詞能提供與主要內(nèi)容有關(guān)的信息。以文本為例,當(dāng)前關(guān)鍵詞提取方法可以分為統(tǒng)計(jì)學(xué)方法、語(yǔ)言學(xué)方法、監(jiān)督學(xué)習(xí)方法、主題模型方法4種[19],不同方法對(duì)文物信息資源中與主要內(nèi)容有關(guān)關(guān)鍵詞提取的效率不盡相同[20],但是通過(guò)抽取關(guān)鍵詞能夠精煉外部知識(shí)庫(kù)中與信息資源內(nèi)容有關(guān)的實(shí)體關(guān)系集合,對(duì)于降低遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取中的噪音問(wèn)題有顯著的效果。
文章按照結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)對(duì)網(wǎng)絡(luò)中的文物信息資源進(jìn)行分類分析[21]。結(jié)構(gòu)化數(shù)據(jù)多以專業(yè)數(shù)據(jù)庫(kù)的形式存在,如全國(guó)館藏文物信息數(shù)據(jù)庫(kù)、各博物館自建數(shù)據(jù)庫(kù)等,該類信息資源由于系統(tǒng)限制、數(shù)據(jù)標(biāo)準(zhǔn)不一等問(wèn)題,致使收集和整理難度較大,因此,可以進(jìn)行直接利用的內(nèi)容較少。半結(jié)構(gòu)化數(shù)據(jù)多以網(wǎng)頁(yè)、鏈接等形式存在,如各博物館有關(guān)的介紹頁(yè)面、百度百科中的詞條等,這類信息資源具有針對(duì)文物的分類信息介紹,需要通過(guò)包裝器或者有針對(duì)性的數(shù)據(jù)抽取方法將其轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是互聯(lián)網(wǎng)中主要的信息資源,由于閱讀過(guò)程更符合人類習(xí)慣,這類數(shù)據(jù)也成為了數(shù)量最多、應(yīng)用最為廣泛、受眾最易理解的信息資源[22]。如對(duì)這類信息資源進(jìn)行利用,首要問(wèn)題就變成了從中抽取結(jié)構(gòu)化數(shù)據(jù),也就是進(jìn)行實(shí)體關(guān)系抽取。
總的來(lái)看,網(wǎng)絡(luò)中的文物信息資源具有以下特點(diǎn):①信息量大,傳播廣泛;②內(nèi)容豐富,質(zhì)量不一;③時(shí)效性強(qiáng),動(dòng)態(tài)更新;④信息使用成本低,共享程度高;⑤重復(fù)度高,用戶獲取文物知識(shí)的效率較低;⑥缺乏系統(tǒng)性的數(shù)據(jù)采集與分析方法。上述特點(diǎn)說(shuō)明了,進(jìn)行文物信息資源的開(kāi)發(fā)與利用需要選擇有針對(duì)性的方法進(jìn)行實(shí)體關(guān)系抽取以獲取蘊(yùn)含其中的知識(shí),這其中的核心是將結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)所構(gòu)成的信息資源進(jìn)行深度融合,利用結(jié)構(gòu)化數(shù)據(jù)抽取非結(jié)構(gòu)化數(shù)據(jù)信息資源中的實(shí)體關(guān)系,引導(dǎo)用戶更充分地了解文物知識(shí),提升網(wǎng)絡(luò)中文物信息資源的利用效率。
基于以上分析,文章首先從非結(jié)構(gòu)化的文物信息資源中抽取關(guān)鍵詞,以獲取文本的主要內(nèi)容,限定外部知識(shí)庫(kù)的檢索范圍,以便更為集中地獲取文物實(shí)體間的關(guān)聯(lián)關(guān)系。然后將關(guān)鍵詞通過(guò)SPARQL語(yǔ)言在多個(gè)外部知識(shí)庫(kù)中查詢候選實(shí)體并獲取實(shí)體關(guān)系后基于語(yǔ)義進(jìn)行對(duì)齊,最后依據(jù)遠(yuǎn)程監(jiān)督有關(guān)假設(shè)進(jìn)行網(wǎng)絡(luò)文物信息資源的實(shí)體關(guān)系抽取。該方法從關(guān)鍵詞角度入手獲取外部知識(shí)庫(kù)中與信息資源主題有關(guān)的實(shí)體關(guān)系,能夠顯著降低遠(yuǎn)程監(jiān)督方法進(jìn)行實(shí)體關(guān)系抽取時(shí)的噪音,同時(shí)基于語(yǔ)義對(duì)實(shí)體關(guān)系進(jìn)行合并可以解決關(guān)系標(biāo)注中的長(zhǎng)尾問(wèn)題,方法所構(gòu)建的自動(dòng)化抽取過(guò)程能夠在大數(shù)據(jù)環(huán)境下面向網(wǎng)絡(luò)信息資源進(jìn)行高效的實(shí)體關(guān)系抽取。
文章實(shí)體關(guān)系抽取的對(duì)象為廣義信息資源的概念下的文物信息資源,來(lái)源豐富、形式多樣與文物有關(guān)的文本、圖像、視頻等資源都可以被視為文物信息資源。實(shí)體關(guān)系抽取過(guò)程分三步進(jìn)行,首先依據(jù)信息資源的特征抽取與主要內(nèi)容有關(guān)的關(guān)鍵詞作為外部知識(shí)庫(kù)檢索詞,這是由于知識(shí)庫(kù)中的實(shí)體記錄數(shù)以億計(jì),實(shí)體關(guān)系幾十億計(jì),直接使用信息資源文本進(jìn)行檢索會(huì)獲取大量與文物無(wú)關(guān)的數(shù)據(jù),因此,抽取與信息資源主題密切相關(guān)的關(guān)鍵詞作為檢索詞,可以增加從知識(shí)庫(kù)獲取文物實(shí)體及關(guān)系數(shù)據(jù)的精度,減少無(wú)關(guān)實(shí)體帶來(lái)的噪音。然后將檢索到的實(shí)體兩兩組合,在知識(shí)庫(kù)中進(jìn)行實(shí)體關(guān)系遍歷檢索,構(gòu)建實(shí)體關(guān)系集合。由于不同知識(shí)庫(kù)對(duì)同種實(shí)體關(guān)系的描述存在差異,需要根據(jù)語(yǔ)義相似度按統(tǒng)一標(biāo)準(zhǔn)進(jìn)行對(duì)齊,最后利用對(duì)齊后實(shí)體關(guān)系集合,選擇遠(yuǎn)程監(jiān)督方法從信息資源中抽取實(shí)體關(guān)系三元組,抽取模型如圖1所示。
圖1 基于關(guān)鍵詞與遠(yuǎn)程監(jiān)督的信息資源實(shí)體關(guān)系抽取模型
針對(duì)遠(yuǎn)程監(jiān)督方法在實(shí)體關(guān)系抽取中出現(xiàn)的噪音、關(guān)系標(biāo)注的長(zhǎng)尾現(xiàn)象及多知識(shí)庫(kù)關(guān)系描述存在差異等問(wèn)題,文章的創(chuàng)新之處在于從信息資源內(nèi)容角度出發(fā),利用主題關(guān)鍵詞對(duì)知識(shí)庫(kù)實(shí)體關(guān)系進(jìn)行篩選,以達(dá)到減少無(wú)關(guān)實(shí)體關(guān)系標(biāo)注帶來(lái)的噪音問(wèn)題。同時(shí)通過(guò)基于語(yǔ)義的詞匯相似度計(jì)算對(duì)多知識(shí)庫(kù)實(shí)體關(guān)系進(jìn)行對(duì)齊,解決關(guān)系標(biāo)注的長(zhǎng)尾現(xiàn)象。多知識(shí)庫(kù)實(shí)體關(guān)系的融合能進(jìn)一步擴(kuò)充數(shù)據(jù)來(lái)源,提高關(guān)系抽取效果。
遠(yuǎn)程監(jiān)督方法進(jìn)行實(shí)體關(guān)系抽取,其核心思想是基于一種強(qiáng)關(guān)系假設(shè),即對(duì)于一個(gè)已知的實(shí)體關(guān)系三元組
因此,文章提出從信息資源內(nèi)容角度對(duì)遠(yuǎn)程監(jiān)督方法進(jìn)行改進(jìn),通過(guò)提取信息資源中與主題有關(guān)的關(guān)鍵詞,對(duì)外部知識(shí)庫(kù)實(shí)體關(guān)系進(jìn)行過(guò)濾,構(gòu)建與信息資源主題內(nèi)容有關(guān)的三元組集合,利用精煉后的三元組集合替代知識(shí)庫(kù)進(jìn)行基于遠(yuǎn)程監(jiān)督的實(shí)體關(guān)系抽取。網(wǎng)絡(luò)中文物信息資源主要有兩方面的來(lái)源:
一是對(duì)文物進(jìn)行科普性質(zhì)描述的信息資源,該類資源一般是針對(duì)文物主要特征的概括性介紹,主題集中且內(nèi)容重復(fù)度較高。對(duì)于這部分內(nèi)容,文章提出使用主題模型方法[23]進(jìn)行,LDA是一種三層貝葉斯概率模型,通過(guò)分析文檔、主題、詞項(xiàng),將關(guān)鍵詞向量約減為關(guān)鍵詞集合的降維表達(dá)。LDA首先假設(shè)所有的文檔均存在一定數(shù)量的隱含主題,先以一定概率抽取主題,然后再選定主題,抽取特征詞,通過(guò)設(shè)定的迭代次數(shù)獲取足夠的特征詞。每個(gè)特征詞在文檔中出現(xiàn)的概率為:
p(特征詞|文檔)=Σ主題p(特征詞|主題)×p(主題|文檔)
(1)
二是對(duì)文物進(jìn)行研究的論文、報(bào)告等,主要針對(duì)文物知識(shí)的深入解讀,主題分散且由于存在論文查重機(jī)制重復(fù)率較低。文章提出使用基于統(tǒng)計(jì)學(xué)的TF-IDF[24]算法進(jìn)行關(guān)鍵詞抽取,該算法可以發(fā)現(xiàn)在一篇文檔中出現(xiàn)頻率較高而在文檔集合中出現(xiàn)頻率較低的詞,能夠有效區(qū)分文本內(nèi)容間的不同。如式(2)所示。G代表文檔總數(shù),nt為包含特定詞語(yǔ)t的文檔數(shù),TF代表詞頻,IDF是包含詞語(yǔ)文檔數(shù)與總文檔數(shù)的對(duì)數(shù),一個(gè)詞語(yǔ)的重要性隨其在文檔中出現(xiàn)的頻率而增加,但隨其在文檔集中出現(xiàn)的總頻率而減小。
(2)
兩類文物信息資源依照統(tǒng)計(jì)學(xué)方法提取詞語(yǔ)分布特征后進(jìn)行分類,可以發(fā)現(xiàn),分類結(jié)果存在明顯差異,科普性質(zhì)信息資源間關(guān)聯(lián)度緊密,而研究性質(zhì)信息資源間關(guān)系離散。針對(duì)上述差異,文章提出將某一領(lǐng)域或主題的信息資源依據(jù)內(nèi)容進(jìn)行聚類,而后根據(jù)科普類和科研類信息資源在文章主題結(jié)構(gòu)上的差異,分別采用基于主題模型以及基于統(tǒng)計(jì)學(xué)的關(guān)鍵詞抽取方法進(jìn)行主題關(guān)鍵詞的抽取,可以更加準(zhǔn)確地獲取代表不同類型信息資源主題的關(guān)鍵詞,從而提升知識(shí)庫(kù)檢索精度,獲取過(guò)程如圖2所示。
圖2 面向信息資源內(nèi)容與結(jié)構(gòu)特征的知識(shí)庫(kù)檢索詞獲取過(guò)程
圖3 知識(shí)庫(kù)實(shí)體關(guān)系的SPARQL檢索式
在得到查詢結(jié)果后,使用圖模型將三元組中的實(shí)體及屬性映射為節(jié)點(diǎn)和邊,映射過(guò)程可以表示為(S,P,O)→Gi=(Vn,Em),其中V={S,O}、E={(S→O)},邊E的標(biāo)簽表示為P,通過(guò)映射方法構(gòu)建文物信息資源實(shí)體關(guān)系集合。
由于各知識(shí)庫(kù)實(shí)體關(guān)系的描述詞不盡相同,獲取到多個(gè)知識(shí)庫(kù)中的實(shí)體關(guān)系及實(shí)體鏈之后,需要對(duì)實(shí)體關(guān)系集合中的邊進(jìn)行統(tǒng)一,合并具有相同意義的關(guān)系。文章選擇基于知網(wǎng)(HowNet)[25]與《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》[26]融合的詞匯語(yǔ)義相似度計(jì)算方法進(jìn)行實(shí)體關(guān)系描述詞的對(duì)齊。首先進(jìn)行基于知網(wǎng)的詞匯相似度計(jì)算,通過(guò)比較義原間的相似度判斷詞匯間的相似度。義項(xiàng)間相似度計(jì)算如式(3)所示,其中,參數(shù)βi是可調(diào)節(jié)的,β1+β2+β3=1,其取值分別為0.7、0.17、0.13,如果兩種詞匯之間可能存在多種義項(xiàng)關(guān)系,則取所有計(jì)算結(jié)果的最大值。
(3)
然后進(jìn)行基于同義詞詞林的詞匯相似度計(jì)算,由于同義詞詞林的五層樹(shù)形構(gòu)造,詞匯間的相關(guān)性可以按照層次之間的連接性進(jìn)行計(jì)算,不同第一層大類間的初始距離設(shè)置為18,按照層次順序依次賦予詞匯權(quán)重wi,其中0.5≤w5≤w4≤w3≤w2≤5,w5+w4+w3+w2≤10。詞林中決定詞匯相似度的因素還有樹(shù)形結(jié)構(gòu)的層數(shù)n和兩個(gè)詞匯之間層數(shù)的距離k,因此最終的計(jì)算公式為式(4)。
(4)
其中,dis(C1,C2)是詞匯代號(hào)C1、C2在樹(shù)狀結(jié)構(gòu)中的距離函數(shù),等于詞匯連接路徑中各級(jí)層數(shù)權(quán)重處理之后的加總。最后文章將兩種詞匯相似度進(jìn)行融合計(jì)算,得到總相似度s,λ取值分別為0.5,計(jì)算如式(5)所示。
s=λ1S1+λ2S2
(5)
在知識(shí)庫(kù)實(shí)體關(guān)系對(duì)齊的實(shí)踐中,文章以WikiData知識(shí)庫(kù)中定義的8 440種實(shí)體關(guān)系類別[27]為對(duì)齊目標(biāo),其他知識(shí)庫(kù)實(shí)體關(guān)系描述詞匯與WikiData知識(shí)庫(kù)中定義的實(shí)體關(guān)系描述詞匯進(jìn)行遍歷相似度計(jì)算,以相似度最高的目標(biāo)作為實(shí)體關(guān)系對(duì)齊的依據(jù),對(duì)齊過(guò)程如圖4所示。
圖4 多知識(shí)庫(kù)實(shí)體關(guān)系對(duì)齊過(guò)程
最后將多知識(shí)庫(kù)融合的實(shí)體關(guān)系集合{
為了驗(yàn)證文章方法的可行性以及對(duì)抽取方法進(jìn)行評(píng)價(jià),文章以“中國(guó)十大傳世名畫”中各名畫的名稱進(jìn)行檢索,從互聯(lián)網(wǎng)中獲取與之有關(guān)的信息資源文本468篇,共41 855句。
由于聚類算法無(wú)法直接對(duì)自然語(yǔ)言進(jìn)行解析,因此需要通過(guò)將自然語(yǔ)言中的詞匯進(jìn)行分解,在使用Jieba分詞工具進(jìn)行分詞后,用詞匯出現(xiàn)次數(shù)的稀疏矩陣來(lái)表示文本的特征。文章采用Doc2Vec[28]模型,該模型是一種無(wú)監(jiān)督算法,可以獲得句子、段落、文檔間的向量表達(dá)。在聚類方法的選擇上,使用K-Means[29]算法進(jìn)行,該算法源于信號(hào)處理中的一種向量量化方法,現(xiàn)在則作為一種聚類分析方法流行于數(shù)據(jù)挖掘領(lǐng)域。K-Means聚類的目的是:樣本中的n個(gè)點(diǎn)劃分到k個(gè)聚類中,使每個(gè)點(diǎn)都和每個(gè)聚類中心點(diǎn)最為接近,以此作為聚類的標(biāo)準(zhǔn)。聚類個(gè)數(shù)由3個(gè)參數(shù)共同決定,分別是組內(nèi)平方誤差和(Sum of Squared Error,SSE)[30]、輪廓系數(shù)(Average Silhouette Method)[31]、困惑度(Perplexity)[32],如圖5所示,最終聚類個(gè)數(shù)為8。
圖5 信息資源聚類個(gè)數(shù)確定過(guò)程
隨后文章對(duì)這8個(gè)聚類使用TF-IDF提取文檔向量,K-Means算法進(jìn)行二分類,分類結(jié)果中相對(duì)聚集的類團(tuán)使用LDA主題模型抽取關(guān)鍵詞,相對(duì)離散的類團(tuán)使用TF-IDF模型抽取關(guān)鍵詞,為了觀察文章方法的實(shí)體關(guān)系抽取效果,關(guān)鍵詞閾值分別選擇10、30、50。
從表1可以發(fā)現(xiàn),文章方法所抽取的關(guān)鍵詞個(gè)數(shù)和其他單一方法相比在3種閾值下均最多,這說(shuō)明該方法可以最大限度地抽取信息資源中主要內(nèi)容有關(guān)的關(guān)鍵詞。在通過(guò)關(guān)鍵詞檢索獲取實(shí)體的數(shù)量方面,該方法與其他單一方法比較所獲取到的實(shí)體數(shù)量最多,關(guān)鍵詞與實(shí)體的匹配率上處于中間水平,關(guān)鍵詞與所獲取實(shí)體數(shù)量的比值并未隨閾值的增加而明顯下降,這說(shuō)明文章方法能夠隨著閾值的增加穩(wěn)定地進(jìn)行命名實(shí)體識(shí)別工作。
表1 “中國(guó)十大傳世名畫”信息資源的關(guān)鍵詞抽取與實(shí)體獲取結(jié)果
從外部知識(shí)庫(kù)中獲取到的實(shí)體關(guān)系是根據(jù)信息資源的主題內(nèi)容對(duì)外部知識(shí)庫(kù)中眾多實(shí)體關(guān)系的一次篩選,隨后需要對(duì)這些實(shí)體關(guān)系進(jìn)行對(duì)齊,才能夠使用遠(yuǎn)程監(jiān)督方法進(jìn)行信息資源中實(shí)體關(guān)系的抽取。文章根據(jù)前述方法選擇WikiData知識(shí)庫(kù)中的8 440種已定義的實(shí)體關(guān)系作為對(duì)齊目標(biāo),由于這些關(guān)系依舊具有極強(qiáng)的長(zhǎng)尾特征,出現(xiàn)次數(shù)最高的關(guān)系約為平均數(shù)的500倍,故文章在實(shí)體關(guān)系對(duì)齊時(shí)選擇了出現(xiàn)次數(shù)超過(guò)平均值的關(guān)系,即全部關(guān)系前5%[34]作為最終對(duì)齊目標(biāo),根據(jù)前文中的方法進(jìn)行實(shí)體關(guān)系對(duì)齊。
根據(jù)對(duì)齊后的實(shí)體關(guān)系集合在“中國(guó)十大傳世名畫”信息資源文本的41 855句中使用遠(yuǎn)程監(jiān)督的方法進(jìn)行實(shí)體關(guān)系抽取,即假設(shè)實(shí)體關(guān)系集合中的任意兩個(gè)具有關(guān)聯(lián)關(guān)系的實(shí)體出現(xiàn)在同一句話中,則該句中的兩個(gè)實(shí)體具有相應(yīng)的關(guān)聯(lián)關(guān)系,從而進(jìn)行信息資源中的實(shí)體關(guān)系抽取,最終抽取結(jié)果如表2所示。
從表2可以發(fā)現(xiàn),文章方法在閾值較低時(shí)從信息資源中抽取到的實(shí)體關(guān)系較少,但隨著閾值的增加,抽取數(shù)量不斷增加,且實(shí)體關(guān)系抽取的增量也較其他方法多,這說(shuō)明隨著關(guān)鍵詞閾值的增加,文章方法能夠較為全面地抽取信息資源中的實(shí)體關(guān)系。
為了進(jìn)行信息資源實(shí)體關(guān)系抽取質(zhì)量評(píng)價(jià),文章選擇從網(wǎng)絡(luò)視角和實(shí)際抽取效果兩方面進(jìn)行分析,首先利用社會(huì)網(wǎng)絡(luò)分析中常用的點(diǎn)度中心度對(duì)從信息資源文本中抽取的實(shí)體關(guān)系集合進(jìn)行評(píng)價(jià),以考量所抽取實(shí)體關(guān)系間的緊密程度,網(wǎng)絡(luò)的平均點(diǎn)度中心度如圖6所示。
圖6 實(shí)體關(guān)系集合的網(wǎng)絡(luò)平均中心度指標(biāo)
從網(wǎng)絡(luò)的角度看,文章方法從信息資源中抽取實(shí)體關(guān)系構(gòu)成的網(wǎng)絡(luò)中節(jié)點(diǎn)的平均度僅次于LSI方法,但實(shí)體關(guān)系抽取數(shù)量顯著高于該方法,說(shuō)明所抽取實(shí)體關(guān)系間的聯(lián)系較為緊密,且平均中心度隨閾值增加而穩(wěn)定上升,在數(shù)據(jù)量較小時(shí)能夠準(zhǔn)確地抽取與信息資源內(nèi)容有關(guān)的實(shí)體關(guān)系,在數(shù)據(jù)量較大時(shí)能夠穩(wěn)定剔除無(wú)關(guān)關(guān)系帶來(lái)的噪音。
為了進(jìn)一步檢驗(yàn)該方法相較其他方法在實(shí)體關(guān)系抽取中的提升,文章以樣本中未收錄的故宮博物院《五牛圖》介紹頁(yè)面進(jìn)行實(shí)體關(guān)系抽取實(shí)驗(yàn)。
從圖7可以發(fā)現(xiàn),遠(yuǎn)程監(jiān)督抽取的實(shí)體關(guān)系數(shù)量最多,但有部分關(guān)系與文物無(wú)關(guān),而文章方法則較好地解決了噪音問(wèn)題,同時(shí)也能夠獲取到相當(dāng)數(shù)量與文物有關(guān)的實(shí)體關(guān)系,而且隨著外部知識(shí)庫(kù)的不斷更新,方法抽取到的實(shí)體關(guān)系也在未來(lái)會(huì)繼續(xù)增加。
圖7 《五牛圖》頁(yè)面實(shí)體關(guān)系抽取結(jié)果
消融實(shí)驗(yàn)基于依存句法分析進(jìn)行關(guān)鍵詞抽取方法下的實(shí)體關(guān)系抽取,使用全知識(shí)庫(kù)進(jìn)行遠(yuǎn)程監(jiān)督的實(shí)體關(guān)系抽取,同文章方法進(jìn)行對(duì)比,結(jié)果如表3所示。
表3 《五牛圖》頁(yè)面實(shí)體關(guān)系抽取消融實(shí)驗(yàn)結(jié)果
文章方法抽取到了6條實(shí)體關(guān)系三元組,人工方法抽取到了9條實(shí)體關(guān)系三元組,遠(yuǎn)程監(jiān)督方法抽取到了15條實(shí)體關(guān)系三元組,關(guān)鍵詞抽取方法獲得了21條實(shí)體關(guān)系。但后兩種方法蘊(yùn)含了大量的噪音,對(duì)抽取結(jié)果的質(zhì)量有著較大影響,而文章方法則較好地解決了文物領(lǐng)域內(nèi)進(jìn)行遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取的噪音問(wèn)題。
從實(shí)體關(guān)系抽取應(yīng)用的角度來(lái)看,文章進(jìn)行的“中國(guó)十大傳世名畫”信息資源的實(shí)體關(guān)系抽取也為文物知識(shí)的分析提供了獨(dú)特的視角,比如挖掘清朝第六位皇帝乾隆與十大傳世名畫間隱含的關(guān)聯(lián)關(guān)系。具體分析方法是以乾隆皇帝為實(shí)體節(jié)點(diǎn),抽取關(guān)系集合中與其有關(guān)的節(jié)點(diǎn)并進(jìn)行分析,關(guān)系抽取結(jié)果如圖8所示。
圖8 乾隆帝實(shí)體關(guān)系抽取結(jié)果
從圖8可以發(fā)現(xiàn),“中國(guó)十大傳世名畫”曾經(jīng)均為乾隆皇帝的收藏,可見(jiàn)其在文物研究上的造詣以及對(duì)文物藏品的興趣,更從另外一個(gè)側(cè)面顯示了清王朝在乾隆皇帝時(shí)代國(guó)力的強(qiáng)盛,能夠收集歷朝歷代的著名文物。同時(shí)根據(jù)圖中內(nèi)容也可以發(fā)現(xiàn),隨著時(shí)間的推移,仍留存在紫禁城中的文物只剩下6件,反映出清朝后期國(guó)力衰退、時(shí)局混亂,致使諸多文物流落海外,分析結(jié)果與歷史的發(fā)展特征相吻合,從時(shí)空數(shù)據(jù)的角度為歷史文物的分析提供了新的視角。由于文章進(jìn)行的實(shí)體關(guān)系抽取是基于外部知識(shí)庫(kù)的,所有實(shí)體均可以外部鏈接形式進(jìn)行注解,實(shí)體關(guān)系則可以根據(jù)外部知識(shí)庫(kù)的更新而實(shí)時(shí)調(diào)整,兼具擴(kuò)展性與靈活性。
上述抽取結(jié)果說(shuō)明,文章方法能夠抽取與信息資源主要內(nèi)容有關(guān)的實(shí)體關(guān)系,可以圍繞文物實(shí)體構(gòu)建關(guān)聯(lián)緊密的實(shí)體關(guān)系集合,抽取到的實(shí)體關(guān)系集合通過(guò)重新組織,可以為文物的分析與研究工作提供多種新的分析視角,能夠面向網(wǎng)絡(luò)文物信息資源完成實(shí)體關(guān)系的自動(dòng)抽取。
從網(wǎng)絡(luò)視角對(duì)融合關(guān)鍵詞提取與遠(yuǎn)程監(jiān)督的實(shí)體關(guān)系抽取結(jié)果進(jìn)行分析后可以發(fā)現(xiàn),LSI、LDA這類基于主題模型的關(guān)鍵詞抽取方法獲取的檢索詞與文物實(shí)體關(guān)聯(lián)較為密切,但實(shí)體關(guān)系抽取數(shù)量隨著關(guān)鍵詞閾值的增長(zhǎng)較為緩慢,這說(shuō)明網(wǎng)絡(luò)文物信息資源文本的主題較為集中,通常能夠圍繞文物的主要特征展開(kāi),如文物的基本情況、主要特點(diǎn)、著名典故等,但對(duì)于其他與文物承載內(nèi)容、背景知識(shí)等有關(guān)的關(guān)鍵詞,由于分布較為零散、提取效果較差,導(dǎo)致構(gòu)建的實(shí)體關(guān)系網(wǎng)絡(luò)范圍較小,較難涵蓋文物特征的全貌。相對(duì)的,TF-IDF這類基于統(tǒng)計(jì)學(xué)的關(guān)鍵詞抽取方法構(gòu)建的實(shí)體關(guān)系網(wǎng)絡(luò)點(diǎn)度中心度較低,實(shí)體關(guān)系間的關(guān)聯(lián)較為松散。同時(shí)隨著關(guān)鍵詞閾值k的增加,TF-IDF方法構(gòu)建的實(shí)體關(guān)系網(wǎng)絡(luò)規(guī)模出現(xiàn)較大幅度增長(zhǎng),這說(shuō)明該類方法能夠獲取到大量與實(shí)體有關(guān)的檢索詞,但其中部分與文物實(shí)體關(guān)聯(lián)程度較低,增加了關(guān)系抽取中的噪音。還有TextRank和Word2Vec這類基于語(yǔ)言學(xué)的關(guān)鍵詞抽取方法,實(shí)體關(guān)系抽取的效果介于上述兩類方法之間,未能體現(xiàn)出方法特點(diǎn)。
綜合來(lái)看,文章提出的依據(jù)內(nèi)容聚類后根據(jù)文本結(jié)構(gòu)特征對(duì)信息資源進(jìn)行分類關(guān)鍵詞抽取作為外部知識(shí)庫(kù)檢索詞的方法,可以在兼顧信息資源主要內(nèi)容的同時(shí),盡可能擴(kuò)大從外部知識(shí)庫(kù)中獲取實(shí)體關(guān)系的范圍,充分融合不同關(guān)鍵詞抽取方法的特點(diǎn)進(jìn)行互補(bǔ),最后依照遠(yuǎn)程監(jiān)督方法自動(dòng)抽取信息資源中的實(shí)體關(guān)系。結(jié)果顯示,文章方法能夠較為充分地抽取文物信息資源中的實(shí)體關(guān)系,進(jìn)行命名實(shí)體識(shí)別、實(shí)體鏈接、關(guān)系鏈接,還能夠利用抽取到的實(shí)體關(guān)系集合為文物知識(shí)的分析提供獨(dú)特視角。
網(wǎng)絡(luò)環(huán)境下,海量信息資源不斷涌現(xiàn),文物作為中華文明發(fā)展過(guò)程的見(jiàn)證,任何有關(guān)結(jié)論都需要經(jīng)過(guò)嚴(yán)謹(jǐn)?shù)目甲C與推理,因此,面對(duì)網(wǎng)絡(luò)中的文物信息資源,需要由一種可靠、標(biāo)準(zhǔn)化的自動(dòng)處理方法進(jìn)行實(shí)體關(guān)系抽取,以便得到更好的利用。
文章提出了一種利用信息資源中與內(nèi)容有關(guān)的關(guān)鍵詞進(jìn)行檢索,從外部知識(shí)庫(kù)中獲取實(shí)體關(guān)系后,使用遠(yuǎn)程監(jiān)督進(jìn)行自動(dòng)實(shí)體關(guān)系抽取的方法?;谛畔①Y源內(nèi)容與結(jié)構(gòu)特征進(jìn)行關(guān)鍵詞抽取作為外部知識(shí)庫(kù)檢索詞,能夠有效地減少傳統(tǒng)遠(yuǎn)程監(jiān)督方法使用全知識(shí)庫(kù)進(jìn)行實(shí)體關(guān)系抽取時(shí)帶來(lái)的噪音問(wèn)題?;谡Z(yǔ)義進(jìn)行的多知識(shí)庫(kù)實(shí)體關(guān)系對(duì)齊則能夠在融合多知識(shí)庫(kù)數(shù)據(jù)源的同時(shí),減少外部知識(shí)庫(kù)實(shí)體關(guān)系長(zhǎng)尾現(xiàn)象帶來(lái)的抽取關(guān)系稀疏的問(wèn)題。在與單一關(guān)鍵詞抽取方法進(jìn)行的關(guān)系抽取對(duì)比試驗(yàn)中,文章方法在多個(gè)關(guān)鍵詞閾值下取得了較好的效果,融合了多種關(guān)鍵詞抽取方法在獲取信息資源主要內(nèi)容中的優(yōu)勢(shì)特點(diǎn),在大數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)較多的網(wǎng)絡(luò)環(huán)境中,提供了一種自動(dòng)進(jìn)行實(shí)體關(guān)系抽取的方法。但是文章方法容易受到分詞結(jié)果正確率的影響,下一步研究還需要就多知識(shí)庫(kù)實(shí)體關(guān)系對(duì)齊的規(guī)則進(jìn)行進(jìn)一步優(yōu)化。