解天揚,陳 明,席曉桃
1.上海海洋大學 信息學院,上海 201306
2.農(nóng)業(yè)部漁業(yè)信息重點實驗室,上海 201306
谷歌公司2012 年推出知識圖譜(knowledge graph)[1-3],用可視化技術描述知識以及知識之間的關系,以(實體,關系,實體)或(實體,屬性,屬性值)的三元組形式保存在圖數(shù)據(jù)庫中。按照知識庫數(shù)據(jù)來源可將知識圖譜劃分為通用知識圖譜和領域知識圖譜。通用知識圖譜的數(shù)據(jù)來源于各大百科類網(wǎng)站,主要的應用場景為搜索引擎、個性化推薦以及知識問答。領域知識圖譜的數(shù)據(jù)多為多源異構(gòu)數(shù)據(jù),數(shù)據(jù)模式無法預測,規(guī)模化擴展要求更迅速,知識結(jié)構(gòu)更復雜,知識質(zhì)量要求更高。Wfabc等[4]將計算機視覺算法與本體模型相結(jié)合,構(gòu)建了工地危險檢測知識圖譜,對施工場所的高處墜落、溝渠和腳手架倒塌等危險進行防范,Zhao等[5]利用知識圖譜對氣候的時間分布、空間分布和研究熱點進行可視化,探究了氣候變化對人類健康的影響,Xiu等[6]利用中文電子病歷構(gòu)建了消化系統(tǒng)腫瘤知識圖譜,確定了診斷與治療的潛在的有效關系,Chun 等[7]構(gòu)建了能源知識圖譜作為能源系統(tǒng)知識資源整合的上層模式,解決了相關知識不能有效利用的問題,Tao等[8]從國家健康與營養(yǎng)調(diào)查(NHANES)的海量數(shù)據(jù)中抽取出醫(yī)學領域知識,構(gòu)建了醫(yī)學知識圖譜,通過發(fā)現(xiàn)人們潛在的疾病,對患者的健康風險進行分類,Li 等[9]利用膝骨關節(jié)炎患者電子病歷文本構(gòu)建了醫(yī)學知識圖譜,用于知識檢索、決策支持等智能醫(yī)療應用,促進醫(yī)療資源共享。
新聞作為記錄社會、傳播信息、反應時代的一種文本,描述了新聞事件、熱點話題、人物動態(tài)、產(chǎn)品資訊的最新進展。通過網(wǎng)頁獲取的新聞主要屬性包括新聞標題、新聞摘要、URL地址、發(fā)布地區(qū)、媒體類型、媒體名稱等。本文基于新聞的主要屬性,將2019—2020 年長江大保護相關新聞作為數(shù)據(jù)源抽取實體對象,將新聞的URL地址作為實體,新聞屬性作為邊,新聞對應屬性值作為實體屬性的屬性值,在此基礎上構(gòu)建了長江大保護新聞知識圖譜。
在知識圖譜構(gòu)建的知識獲取環(huán)節(jié),由于知識源的數(shù)據(jù)誤差或規(guī)范化表示時的疏忽,會對知識庫的一致性和完備性產(chǎn)生影響,所以需要對當前的知識圖譜進行知識融合及檢驗。在新聞知識圖譜的構(gòu)建中,由于新聞數(shù)據(jù)來源廣泛,不同媒體發(fā)布的新聞存在標題不同內(nèi)容相似的問題,導致知識庫中的知識和規(guī)則存在冗余。因此在新聞知識圖譜的構(gòu)建過程中,需要對多源異構(gòu)的新聞實體進行上下文關系識別以及實體對齊。
由于新聞數(shù)據(jù)噪聲較大,現(xiàn)存的實體融合檢驗度方法大多是人工或半人工檢驗,通過句法檢查和實例檢驗判斷知識或規(guī)則之間否有沖突。對于數(shù)據(jù)量龐大的新聞知識圖譜,現(xiàn)存融合度檢驗方法不具說服力,為此,本文提出了一種基于知識融合冪律分布的檢驗方法,對于同主題新聞的融合度檢驗具有較好的參考性。
知識圖譜中實體包含了大量的事實和數(shù)據(jù),但是由于知識獲取環(huán)節(jié)可能存在數(shù)據(jù)支撐不足或表達不全面的問題,導致知識圖譜中實體存在異?;蛉哂喱F(xiàn)象,這些實體在描述內(nèi)容上往往有重疊或關聯(lián),同名實例可能指代相同的實體,不同名實例也可能指向同一實體,因此在知識圖譜的應用中,需要利用知識融合解決數(shù)據(jù)層的異構(gòu)問題。
由于知識表示方法的多樣性,無法對所有異?;蛉哂嗟膶嶓w給出知識異常表現(xiàn)形式,所以需要對融合后的知識圖譜進行融合度檢驗,確認當前圖譜的一致性和準確性,知識驗證方法主要分為靜態(tài)驗證方法和動態(tài)驗證方法。靜態(tài)驗證方法主要依據(jù)領域?qū)<抑贫ǖ闹R圖譜本體框架,人工從知識庫中抽取知識進行驗證,但是由于領域?qū)<业暮芏嘀R都是經(jīng)驗性的,且不同的專家對于同一問題的見解可能存在差異,所以基于人工驗證的靜態(tài)方法對融合度的驗證存在很大困難。動態(tài)驗證方法包括基于決策表的方法、基于Petri 網(wǎng)的方法[10]、基于貝葉斯的方法[11]、基于馬爾可夫邏輯網(wǎng)絡的方法[12]、基于概率軟邏輯法的方法等[13],這些動態(tài)驗證方法大多基于邏輯構(gòu)建相應規(guī)則,對知識庫中的矛盾和冗余進行檢測,主要檢測內(nèi)容包括多余規(guī)則、沖突、循環(huán)、多余條件、不可達目標以及死終結(jié)。
現(xiàn)階段對于知識圖譜融合度的檢驗對象一般為通用知識圖譜,其知識數(shù)據(jù)源結(jié)構(gòu)規(guī)整、覆蓋面廣且具有權威性,可以根據(jù)數(shù)據(jù)來源對知識和規(guī)則賦予權重。然而對于新聞而言,由于沒有統(tǒng)一格式,定義規(guī)則的難度較大,尤其是時政新聞中存在大量時政相關謂詞,如貫徹落實、戰(zhàn)略、建設等,制定規(guī)則并賦予權重時沒有明顯差距,導致運用邏輯和權重進行融合度檢驗不具有說服力。
將圖論的基本概念映射到新聞知識圖譜中,知識圖譜中的實體對應圖中的節(jié)點,關系對應圖中的邊,節(jié)點相關聯(lián)邊的條數(shù)對應節(jié)點度,其中邊的兩倍等于節(jié)點度的和,例如對于(長江禁捕湖北在行動,媒體名稱,荊楚網(wǎng))三元組,“長江禁捕湖北在行動”和“荊楚網(wǎng)”為節(jié)點,“媒體名稱”為邊,節(jié)點度為2。對此本文提出以下定理:
定理1 新聞領域知識圖譜經(jīng)過知識融合后,節(jié)點的分布符合冪律分布定律。
證明 當兩條新聞內(nèi)容相關時,存在以下兩種情況:(1)標題和摘要均相似或相同;(2)標題不同,摘要相似或相同。因此,當新聞摘要的內(nèi)容相似或相同時,兩條新聞可以進行節(jié)點的融合。
上述兩種情況可以被具體抽象成以下規(guī)則:根據(jù)語義相似度對知識圖譜進行知識融合時,節(jié)點之間的語義相似度越高,節(jié)點的融合度越高,融合后相似的節(jié)點數(shù)越少,融合后的節(jié)點數(shù)符合冪律分布定律。如圖1所示為知識融合前的新聞圖譜,其中新聞A 為《泰州召開長江重點水域禁捕工作推進》,新聞B為《泰州長江重點水域禁捕工作推進會召開》,新聞A、B的摘要節(jié)點內(nèi)容相似,語義相似度高。圖2所示為新聞A和新聞B融合后的知識圖譜。
知識圖譜對兩個相似節(jié)點進行知識融合后,相比融合前的圖譜,在新生成的知識圖譜中節(jié)點數(shù)目減少1,度增加1,邊增加1。故設圖譜的節(jié)點為i,邊為e,節(jié)點度為ki,由于節(jié)點度之和等于邊數(shù)和的兩倍,對節(jié)點i進行歸一化處理,將數(shù)據(jù)映射到(0,1)之間進行處理,使當前圖中所有節(jié)點度概率之和為1,得出以下關系:
當新聞知識圖譜B融合到新聞知識圖譜A時,根據(jù)語義相似度對節(jié)點進行知識融合,融合后的節(jié)點度k增加1,節(jié)點i減少1,導致p( )i發(fā)生變化,新聞A、B 的節(jié)點和邊的分布情況如圖2所示。因此,融合后的節(jié)點度概率滿足以下關系:
對公式(2)進行遞推,等式兩邊同時進行求和運算,得到公式(3),簡化后得到公式(4):
根據(jù)辛欽大數(shù)定律,在n→∞時,每次添加相關新聞后,該節(jié)點度的概率隨之發(fā)生變化,取其算數(shù)平均值后得到:
此時節(jié)點i的節(jié)點度概率趨近于算數(shù)平均值,即節(jié)點i的節(jié)點度真實概率趨近于kˉ,即公式(6):
上文得到公式(8)與冪律定律公式f(x)=αx-3相似,即在知識圖譜進行知識融合后,圖譜中的節(jié)點分布滿足冪律分布定律,融合后的節(jié)點概率與度的數(shù)量成反比,其物理意義是,在新聞領域知識圖譜中,摘要之間的語義相似度越高,則兩個圖譜對應節(jié)點的融合度越高,融合后的節(jié)點數(shù)越少。在新聞領域知識圖譜融合度檢驗中,通過觀察模型的擬合度是否符合冪律分布定律,可以確定當前圖譜是否需要進一步進行節(jié)點融合。
新聞作為記錄社會、傳播信息、反應時代的一種文本,描述了新聞事件、熱點話題、人物動態(tài)的最新進展。通過網(wǎng)頁獲取的新聞主要屬性包括新聞標題、新聞摘要、URL地址、發(fā)布時間、發(fā)布地區(qū)、媒體類型、媒體名稱等。由于新聞存在被廣泛轉(zhuǎn)發(fā)的可能性,新聞標題不能明確具體到某條新聞,但是URL 地址作為確定互聯(lián)網(wǎng)上信息位置的標準資源地址的唯一標識,可以為每篇新聞提供不同的URL 地址,因此本文基于新聞的主要屬性,使用URL 地址作為本體的父節(jié)點,確定了如圖3 所示本體結(jié)構(gòu),將2019—2020 年長江大保護相關新聞作為數(shù)據(jù)源抽取實體對象,將新聞URL地址作為實體,新聞屬性作為邊,新聞對應屬性值作為實體屬性的屬性值,在此基礎上構(gòu)建了長江大保護新聞知識圖譜。
網(wǎng)絡新聞的屬性中,URL 地址、發(fā)布地區(qū)、媒體類型、媒體名稱作為屬性不能體現(xiàn)新聞本身的內(nèi)容,且相關性較低,例如對于發(fā)布地區(qū)這一屬性,位于北京的媒體可以發(fā)布關于上海的新聞,若在圖譜融合時針對地域和媒體進行知識融合,得到的圖譜不能體現(xiàn)長江大保護的關注熱點和具體政策,所以本文對新聞摘要進行關鍵詞提取,通過計算摘要關鍵詞之間的語義關系,對知識圖譜進行融合,為后續(xù)知識圖譜融合量化評估提供便利。
無監(jiān)督學習方法中主要包括基于統(tǒng)計特征的關鍵詞提取,如TF 和TF-IDF[14-15],基于詞圖模型的關鍵詞提取,如PageRank[16]和TextRank[17],基于主題模型的關鍵詞提取,如隱含狄利克雷分布(latent Dirichlet allocation,LDA)[18],其中TF-IDF對于短文本的提取效果不理想且沒有考慮語義信息,對于關鍵詞的提取僅停留在表面信息;LDA的隨機向量各分量之間的弱相關性,導致潛在主題之間幾乎是不相關的,與本文主題均為長江大保護并不相符,且LDA不考慮詞與詞之間的順序,更偏向于提取一般關鍵詞,不能很好地代表文本主體;TextRank的關鍵詞提取方法可以考慮語料中的語義信息,對于主體類文本的提取能力較強,因此本文選用TextRank進行長江大保護新聞摘要關鍵詞提取。
TextRank 的思想來源于谷歌的PageRank 算法,用句子的相似度代替網(wǎng)頁的轉(zhuǎn)移概率,其主要任務是將新聞摘要T分割成若干個詞匯,即T=[S1,S2,…,Sm],過濾掉停用詞后,對于句子中的成分進行詞性標注,保留特定詞性的詞匯,例如在本文的關鍵詞提取中,保留的名詞包括江豚、自然等,動詞包括禁捕、退捕等。一般模型可以表示為一個有向有權圖G(V,E),其中V為節(jié)點集,表示分詞后的關鍵詞候選詞T=[S1,S2,…,Sm],對于圖G中的任意一個節(jié)點Vi存在分值WS的值如公式(9)所示:
其中,In(Vi)表示指向Vi的節(jié)點,Out(Vi)表示Vi指向的節(jié)點,wji表示Vi→Vj的邊的權重,根據(jù)公式對各節(jié)點的權重進行計算,迭代至算法收斂后利用投票機制對摘要成分的權重進行排序,從而得到新聞中最具有概括性的關鍵詞,將關鍵詞權重降序排列,取前30個詞作為本文的長江大保護新聞關鍵詞。
由于新聞關鍵詞可以體現(xiàn)新聞的內(nèi)容及特征,某些主題詞出現(xiàn)次數(shù)較多的新聞內(nèi)容相似,可以在新聞知識圖譜中對節(jié)點進行知識融合。若兩篇新聞摘要相似度較高,則其特征向量在某幾個維度的值較大,而在其他維度的值較?。环粗?,如果兩篇新聞不屬于同一類,由于關鍵詞不同,則特征向量中值較大的維度交集較少,因此通過比較特征向量的相似性可以得出文本內(nèi)容是否接近。目前計算文本相似度的主要方法包括Simhash算法和計算余弦距離,由于Simhash 算法[19]的主要思想是通過降維,將高維的特征向量映射成一個f-bit的指紋(Fingerprint),通過比較特征之間f-bit 指紋的Hamming Distance 來確定文本內(nèi)容是否重復或者高度近似,通常適用于計算長文本相似度以及網(wǎng)頁去重,對短文本的誤判率較高。本文的新聞摘要文本長度適中,進行分詞后的語序不基本影響新聞內(nèi)容,因此對于此類新聞摘要選擇計算余弦距離,余弦距離計算公式如公式(10)所示,相似度結(jié)果如表1所示。
對2019年至2020年的新聞摘要進行摘要關鍵詞提取和關鍵詞語義分析,以長江大保護中的代表政策“十年禁漁”為衡量標準,對抽取出的關鍵詞相似度進行標準化處理,若一篇摘要中同時包含兩個以上關鍵詞時,則將與“十年禁漁”相似度更高的候選詞作為新聞的關鍵詞,表1 所示為長江大保護新聞關鍵詞相關數(shù)據(jù),其中x(%)表示包含關鍵詞的新聞與“十年禁漁”新聞之間的語義相似度;w表示圖譜進行知識融合后,包含關鍵詞的新聞個數(shù);y(%)表示包含關鍵詞的新聞數(shù)量在新聞總數(shù)中的占比。
表1 長江大保護新聞關鍵詞相關數(shù)據(jù)Table 1 Related data of keywords in news of great conservation of Yangtze River
3.2.1 實驗過程
假設概率y和關鍵詞相似度x的常數(shù)冪存在簡單的比例關系:
由于模型II為非線性回歸模型,故對于隨機誤差不做如同如上所述的假設。
3.2.2 分析方法
本文運用線性最小二乘法和非線性迭代計算方法[20],利用R 軟件工具,選用調(diào)整決定系數(shù)R2來表示模型與樣本數(shù)據(jù)的擬合程度,實驗結(jié)果如表2所示。
表2 兩種模型分析結(jié)果及其檢驗Table 2 Two models analysis results and test
模型I:對概率值y和語義相似度x取對數(shù)變換,然后對線性方程lny=lnk+qlnx做回歸擬合,線性回歸采用最小二乘法。由結(jié)果可知,模型I擬合優(yōu)度良好,調(diào)整決定系數(shù)R2a=0.992 7;經(jīng)t檢驗,模型參數(shù)q和k顯著模型擬合可行,如表3所示。
表3 模型參數(shù)檢驗Table 3 Test of model parameters
模型II:利用概率值y,采取迭代計算的方法,對方程y=f(x)=kxq進行非線性回歸,經(jīng)過13次迭代,模型收斂,故模型穩(wěn)定。
如圖4所示為模型I的殘差圖,其中x軸為lnx,y軸為殘差值,由于lnx的分布不均勻,故lnx較小時圖中可見的數(shù)據(jù)點較少。除此之外,殘差分布較隨機,沒有明顯的圖案或趨勢。已知x的分布較為均勻,且x=elnx。
為了確保上述分析的可靠性,重新繪制殘差圖如圖5所示,其中x軸為語義相似度x,y軸為殘差值,由此可得,樣本數(shù)據(jù)正常,沒有明顯異常值,模型擬合良好。
Zipf 定律和Pareto 定律統(tǒng)稱為冪律分布規(guī)律,冪律定律廣泛存在于計算機科學、經(jīng)濟與金融學、地球與行星科學、人口統(tǒng)計學等眾多領域中,其分布共性是絕大多事件的規(guī)模都很小,只有少數(shù)事件的規(guī)模相當大[21]。冪律分布的累計函數(shù)在尾部其概率密度值衰減緩慢,呈現(xiàn)“長尾分布”的特征,如圖6所示為長江大保護新聞知識圖譜原始數(shù)據(jù),其中橫坐標x為新聞相似度,縱坐標y為概率。為使數(shù)據(jù)分布更加清晰,刪除概率y為65.89%和22.72%的極值點,得到結(jié)果如圖7所示。對通式公式兩邊取對數(shù),易得lny與lnx滿足線性關系,表現(xiàn)為圖像為一條斜率為冪指數(shù)的負數(shù)的直線,如圖8所示為融合后的新聞數(shù)據(jù)在雙對數(shù)坐標下與模型I和模型II的數(shù)據(jù)對比。
由此可以得出,長江大保護新聞知識圖譜融合度高,在知識融合時符合冪律分布規(guī)律,其物理意義是,知識融合后,相關度低的新聞的節(jié)點數(shù)多、規(guī)模大,隨著新聞相關度的升高,知識融合度增加,節(jié)點數(shù)快速減小,由f(λx)=k(λx)q=kλqxq=λq f(x) 得,當x增加λ倍時,f(x)下降λq倍。
本文提出了一種基于語義相似度的新聞知識圖譜中知識融合量化評估標準,新聞新聞知識圖譜中節(jié)點根據(jù)語義關系進行融合后,節(jié)點的分布符合冪律分布定律。本文用2019—2020年長江大保護相關新聞構(gòu)建了知識圖譜,對提出的定理進行了驗證,在對知識融合時發(fā)現(xiàn),隨著圖譜中節(jié)點相似度的提高,節(jié)點之間的融合度也隨之提高,節(jié)點數(shù)快速減少,此定理經(jīng)驗證正確。
本文的研究中還存在一些不足:一是在新聞提取中,僅選用了2019—2020 年的長江大保護相關時政新聞,且由于時政新聞的特殊性,大多是由官方新聞網(wǎng)站進行發(fā)布,其他平臺進行轉(zhuǎn)發(fā),存在大量新聞相似度高的情況,更換新聞數(shù)據(jù)源后的情況有待進一步深入分析;二是本文提取的關鍵詞數(shù)量不多,對于簡單的冪律現(xiàn)象可能存在普適性,對關鍵詞進行進一步提取和細分可能符合更復雜、更合適的冪律分布模型。