王瑞云 賈君枝
命名實體識別是人工智能自然語言處理領(lǐng)域的一項重要的基礎(chǔ)研究,主要任務(wù)是識別出文本中的人名、地名和機構(gòu)名[1,2]。而中文命名實體的識別比其他語言更為困難,近年有研究者利用最新的深度學(xué)習(xí)技術(shù)解決命名實體識別問題,采用深度學(xué)習(xí)框架和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)了命名實體特征的自動學(xué)習(xí)[3-5]。深度學(xué)習(xí)雖然能夠高效地學(xué)習(xí)多粒度語言單元間復(fù)雜的語義關(guān)聯(lián),但對自然語言的深度理解亟需復(fù)雜知識的支持,需要實現(xiàn)從字面意思到言外之意的躍遷。
命名實體對齊是把自然語言文本中識別出來的實體與現(xiàn)有知識庫的實體進行匹配,包括兩個方面:一是識別不同來源同一名稱的實體是否為實際語義上的同一個實體,二是識別有哪些不同的名稱實體實際指代同一實體。2014年開始在線運行的國際圖書館合作項目——虛擬國際規(guī)范檔(VIAF),在多個國家圖書館之間實現(xiàn)了上述兩方面的實體對齊工作。中國國家圖書館(NLC)和中國高等教育文獻保障系統(tǒng)(CALIS)管理中心開展的名稱規(guī)范檔項目,已經(jīng)實現(xiàn)在規(guī)范檔記錄內(nèi)部對同一實體不同名稱的聚集,但是還缺乏不同知識庫間同名規(guī)范記錄的實體對齊,且聚簇深層實體對齊需要領(lǐng)域知識的支持?;趯嶓w屬性關(guān)系構(gòu)建知識圖譜是當(dāng)前實體對齊中的重要解決方案,已有一些重要成果投入應(yīng)用,如維基百科(Wikipedia)、維基數(shù)據(jù)(Wikidata)和關(guān)聯(lián)開放數(shù)據(jù)云(LOD)等。國外研究者利用Wikipedia的海量數(shù)據(jù)構(gòu)建自動抽取的語料庫,并利用其中的多語言知識映射來提高跨語言命名實體識別效果[6,7]。實體對齊技術(shù)包括基于文本相似度的對齊和基于關(guān)聯(lián)數(shù)據(jù)語義的對齊,基于關(guān)聯(lián)數(shù)據(jù)語義的實體對齊包括實體模式對齊和實例對齊兩個層次。賈君枝等學(xué)者基于詞表映射方法研究知識庫間實體類和屬性的實體模式層的對齊[8,9]。劉曉娟等構(gòu)造基于DBPedia的中英文命名實體詞典,利用關(guān)聯(lián)數(shù)據(jù)的語義關(guān)系對候選命名實體進行對齊[10]。Qingheng Zhang等學(xué)者基于知識圖譜嵌入技術(shù)研究跨知識圖譜間的實體對齊,改進傳統(tǒng)知識圖譜嵌入框架,在典型數(shù)據(jù)集Dbpedia、Wikidata和Yago上進行實驗驗證[11]。賈君枝和Lingbing Guo等學(xué)者分別利用LOD中跨知識庫的OWL:Sameas關(guān)系研究跨知識庫的實體對齊[12,13]。上述跨知識庫間實體對齊研究都采用了100,000對以上的實體對進行對齊,但是研究的實體大部分是英文命名實體;而本文實體對齊研究的實體限制為中文學(xué)術(shù)命名實體這一實體子集,旨在建立和完善中文知識庫實體與外部知識庫實體的對齊。
對中文命名實體的跨知識庫實體對齊的研究還處于起步階段,很多中文權(quán)威網(wǎng)站(如中國科學(xué)院官網(wǎng)、國家自然科學(xué)基金委員會官網(wǎng)等)處于“孤島”的狀態(tài),關(guān)聯(lián)數(shù)據(jù)發(fā)布應(yīng)用還不充分,大量的實體語義知識掩藏在海量的異構(gòu)文本中。這不利于機器理解和自動抽取,不方便外部知識庫鏈入對齊。同時,中文網(wǎng)站也沒有主動與外部知識庫進行實體對齊,外文知識庫對中文知識庫的實體對齊占比極低,這些不足成為中文命名實體對齊研究的弱項。本文利用RDF自動查詢工具SPARQL從Wikidata抽取中國科學(xué)院院士(個人實體的子類——頂層學(xué)者)的語義信息,在院士實例的細粒度層次,利用Wikidata現(xiàn)有的中文學(xué)者的關(guān)系鏈,初步構(gòu)建中文院士實體到Wikidata的跨知識庫的實體對齊;然后利用Wikidata給出實體的外部ID,擴充構(gòu)建中文實體與外部ID所屬的知識庫間的實體對齊;最后重點利用實體的外部ID特征及其相關(guān)特征的關(guān)系,尤其是院士與VIAF中實體對齊的關(guān)系,構(gòu)建中文命名實體院士到VIAF的實體對齊,以期為中文學(xué)術(shù)領(lǐng)域命名實體知識庫的構(gòu)建以及中文命名實體跨知識庫實體對齊提供參考方法。
碼屬性引用了關(guān)系數(shù)據(jù)庫的相關(guān)概念,是能唯一地標(biāo)識一個實體的屬性集。很多知識庫為內(nèi)部的每個實體分配一個永久ID作為該實體的碼屬性,可以在知識庫內(nèi)部唯一地標(biāo)識這個實體,該ID稱為實體的內(nèi)部ID。在跨知識庫實體對齊時,該ID稱為引用知識庫實體的外部ID。
外部ID對應(yīng)知識庫中的內(nèi)部ID。內(nèi)部ID是知識庫為每個實例分配的內(nèi)部唯一標(biāo)識符,相當(dāng)于數(shù)據(jù)庫中能唯一區(qū)別實體的碼,在知識庫內(nèi)部能唯一地確定一個實體。內(nèi)部ID與知識庫的機構(gòu)域名、路徑一起定義該實體的統(tǒng)一資源識別符URI。例如,華羅庚院士在Wikidata的內(nèi)部ID 為Q590111,維基數(shù)據(jù)永久域名為https://www.wikidata.org,存放實體類資源的路徑entity,構(gòu)成維基數(shù)據(jù)華羅庚URI為https://www.wikidata.org/entity/Q590111。其他知識庫如VIAF等也采用同樣的URI定義實體資源。在此基礎(chǔ)上,跨知識庫實體對齊時,外部用戶和合作伙伴可以根據(jù)知識庫內(nèi)部ID自動構(gòu)建引用該實例資源的URI,方便外部知識庫的實體對齊和實體引用。
外部ID(維基數(shù)據(jù)中稱External-ID)是語義網(wǎng)關(guān)聯(lián)數(shù)據(jù)技術(shù)的應(yīng)用要求和發(fā)展成果。關(guān)聯(lián)數(shù)據(jù)最高級標(biāo)準要求,在RDF中盡可能提供到可用外部知識庫實體ID的鏈接[14]。外部ID是內(nèi)部ID經(jīng)過實體對齊函數(shù)的映射結(jié)果,是內(nèi)部ID代表的實體在外部知識庫中對應(yīng)實體的ID。實際的同一實體在對齊的兩個知識庫之間形成對應(yīng)的ID對(內(nèi)部ID、外部ID),相當(dāng)于RDF三元組(內(nèi)部ID TheSameAS 外部ID)。如果知識庫在每個實體RDF陳述三元組中給出該實體在外部知識庫中的ID(本文中的外部ID就是此種用法),以及外部知識庫固定的域名路徑,就可以自動構(gòu)造出外部知識庫中實體的URI。外部ID是知識庫的構(gòu)建者(或委托的第三方)根據(jù)知識庫內(nèi)部海量知識和底層的本體邏輯關(guān)系,實時運行實體對齊算法后提供的實體實例級對齊運算結(jié)果,實體外部ID是知識庫實體對齊的最重要信息。
基于內(nèi)部ID和外部ID的屬性應(yīng)用促進了知識庫間的實體對齊和互操作。首先,知識庫中基于ID的實例URI定義格式與傳統(tǒng)URI定義相比,更加持續(xù)和穩(wěn)定,同時使用固定域名路徑和ID的組合URI命名方式,更方便外部知識庫進行引用;其次,知識庫可以更好地參加知識庫間協(xié)作項目,進行實時的知識庫間實體對齊計算;最后,有利于采用RDF語法描述并發(fā)布實體實例與外部知識庫外部ID的實例對齊結(jié)果。目前提供外部ID實體對齊的知識庫主要有VIAF、Wikidata和LOD等。
關(guān)于本文研究的中國科學(xué)院院士數(shù)據(jù)的來源,國內(nèi)本地知識庫使用的是中國科學(xué)院官網(wǎng)、百度百科的中國科學(xué)院院士分類子集。這兩個國內(nèi)知識庫在院士資源的權(quán)威性、正確性和更新的及時性方面與國外知識庫相比有相當(dāng)大的優(yōu)勢,但是在基于語義網(wǎng)的知識表示方面與國外知識庫Wikidata存在一定的差距,具體如表1所示。
表1 國內(nèi)外三個知識庫語義表示的比較
中國科學(xué)院官網(wǎng)百度百科Wikidata權(quán)威性最高較高(源于官網(wǎng)+自有信息+用戶編輯貢獻)較高(源于集成的Wikipedia多種語言站點+用戶編輯貢獻)語言簡體中文簡體中文多語言,大部分包含簡體中文標(biāo)簽用戶應(yīng)用登錄,3—4層目錄超鏈接,不提供用戶服務(wù)的工具1.按實體名稱檢索2.中科院院士列表超鏈接1.按名稱檢索2.按ID檢索3.SPARQL檢索知識表示HTMLHTML以RDF 為基礎(chǔ)的多種數(shù)據(jù)表示結(jié)構(gòu)化無結(jié)構(gòu)化半結(jié)構(gòu)化結(jié)構(gòu)化實體識別文本,無實體識別多類型的實體識別,內(nèi)部ID基于本體層次類的實體識別,內(nèi)部全局實體ID實體對齊無內(nèi)部ID,無外部ID無對齊的外部實體ID有實體對齊的外部ID
中國科學(xué)院官網(wǎng)是院士信息的權(quán)威來源機構(gòu),在權(quán)威性、及時性方面有其他兩個來源數(shù)據(jù)不可比擬的優(yōu)勢,是其他來源數(shù)據(jù)的參考來源和最終的驗證標(biāo)準。但是其知識表示沒有采用先進的語義網(wǎng)技術(shù),有著“數(shù)據(jù)孤島”的局限。中國科學(xué)院官網(wǎng)中的院士信息訪問是逐層超鏈接的:首頁->院士->學(xué)部->院士列表->單個院士信息[15]。單個院士頁面包括URI、照片圖像、個人簡介文本三部分。個人簡介描述是全文本,沒有進行實體識別表示和實體對齊。
百度百科知識庫整體上采用維基技術(shù),提供兩種查詢應(yīng)用方式:一是查詢“中國科學(xué)院”機構(gòu)實體,在內(nèi)容網(wǎng)頁找到分學(xué)部的院士姓名列表并連接到個人實體資源;二是直接按院士個人姓名查詢個人主頁。每個個人實體資源以個人姓名作為內(nèi)部ID,增加域名路徑構(gòu)建。如百度百科華羅庚URI定義為https://baike.baidu.com/item/華羅庚;實體資源包含實體標(biāo)識和鏈接的超文本內(nèi)容[16],如下所示:
華羅庚(1910.11.12—1985.6.12),出生于江蘇常州金壇區(qū),祖籍江蘇丹陽。數(shù)學(xué)家,中國科學(xué)院院士,美國國家科學(xué)院外籍院士,第三世界科學(xué)院院士,聯(lián)邦德國巴伐利亞科學(xué)院院士。中國第一至第六屆全國人大常委會委員。
學(xué)術(shù)著作:《堆壘素數(shù)論》《優(yōu)選學(xué)》《高等數(shù)學(xué)引論》《從楊輝三角談起》
……
其中江蘇常州、金壇區(qū)、丹陽、數(shù)學(xué)家、中國科學(xué)院、美國國家科學(xué)院、第三世界科學(xué)院院士、第六屆全國人大常委會等文本標(biāo)注了百度百科知識庫的實體實例;《堆壘素數(shù)論》《優(yōu)選學(xué)》《高等數(shù)學(xué)引論》《從楊輝三角談起》等著作實體可以利用關(guān)聯(lián)數(shù)據(jù)技術(shù)與圖書館機構(gòu)知識庫中的著作實體關(guān)聯(lián)。上述標(biāo)注出的每個實體都關(guān)聯(lián)到百度知識庫內(nèi)部的一個實體條目,如“https://baike.baidu.com/item/堆壘素數(shù)論”是堆壘素數(shù)論的實體關(guān)聯(lián)的實體條目[17]。但這些關(guān)聯(lián)都是知識庫內(nèi)部的自鏈,沒有到外部知識庫的外部ID的跨知識庫對齊,甚至沒有列出到百度自己的“百度學(xué)術(shù)”知識庫的跨庫實體對齊。而國內(nèi)的CALIS知識庫中引用了到外部百度百科的實體URI對齊,國外的Wikidata中甚至有少量到百度學(xué)術(shù)的外部ID引用的實體對齊。由于得不到百度的回應(yīng),外部知識庫到百度知識庫的外部ID引用數(shù)量一直處于很低的水平。
Wikidata是基于維基百科的開放關(guān)聯(lián)數(shù)據(jù)項目,其中所有實體都分配唯一持久的以Q開頭的數(shù)字序列ID為內(nèi)部ID。每個實體內(nèi)部包含大量的RDF三元組(h實體,關(guān)系,t實體),其中h實體和t實體都采用Wikidata內(nèi)部實體ID,構(gòu)建Wikidata的內(nèi)部實體關(guān)系。Wikidata適應(yīng)關(guān)聯(lián)開放數(shù)據(jù)的發(fā)展要求,在Wikipedia的基礎(chǔ)上增加了外部ID映射,描述知識庫內(nèi)各實體與外部實體的對齊關(guān)系,尤其是到著名的規(guī)范控制知識庫的實體對齊。雙向促進作用下,這些外部著名知識庫也隨后給出自己知識庫的實體與Wikidata的ID對齊關(guān)系,極大地促進了跨知識庫的實體對齊。
中國科學(xué)院院士是中國科學(xué)研究水平最高的學(xué)術(shù)團體,在國內(nèi)外有很高的知名度和引用率,國內(nèi)外多個知識庫都包含大量的中國科學(xué)院院士實體。但國內(nèi)知識庫的院士實體表示缺少語義關(guān)系,無法進行語義推理。學(xué)術(shù)成果倉庫VIAF中的實體包含大量的學(xué)術(shù)實體對齊關(guān)系,但機構(gòu)實體數(shù)量和語義關(guān)系偏少,且又缺乏基于語義的查詢工具,所以本文選取Wikidata知識庫抽取研究數(shù)據(jù)。
Wikidata有基于本體的實體語義層次框架,其中“中國科學(xué)院”機構(gòu)語義信息豐富,機構(gòu)下有更細粒度實體為中國科學(xué)院的學(xué)部。學(xué)部通過部分屬性關(guān)聯(lián)到中國科學(xué)院,并與每個院士通過院士的會員屬性關(guān)聯(lián),形成語義關(guān)系鏈(實體—會員關(guān)系—學(xué)部會員,學(xué)部會員—部分關(guān)系—中國科學(xué)院院士),根據(jù)該關(guān)系鏈構(gòu)建Wikidata的中國科學(xué)院院士子圖。Wikidata為方便用戶使用提供了SPARQL查詢應(yīng)用,可以根據(jù)用戶的具體需求設(shè)計圖模式的查詢方案,定制用戶感興趣的個性化數(shù)據(jù)。所以本文選擇Wikidata的SPARQL應(yīng)用,研究中國科學(xué)院院士的外部ID信息,尤其是學(xué)術(shù)領(lǐng)域知識庫VIAF的外部ID。
經(jīng)過多次調(diào)試,本文精心設(shè)計對中國科學(xué)院院士的Wikidata的SPARQL查詢方案,包括匹配模式和結(jié)果顯示兩部分。匹配模式為三個條件的交集:a.實體類型屬于個人實例;b.實體的會員屬性為某個學(xué)術(shù)機構(gòu);c.該學(xué)術(shù)機構(gòu)是中國科學(xué)院的學(xué)科分部(而不是分支機構(gòu))。結(jié)果選取實體ID、實體標(biāo)簽、學(xué)部ID、學(xué)部標(biāo)簽、出生時間、去世時間、外部ID個數(shù)、鏈接維基百科站點個數(shù)、陳述個數(shù)、外部VIAF ID、博士生導(dǎo)師、受教育機構(gòu)等屬性和關(guān)系。具體的SPARQL查詢代碼如下,查詢結(jié)果得到了2235行12列的數(shù)據(jù)[18]。
PREFIX wd:
PREFIXwdt:
PREFIXwikibase:
PREFIXbd:
SELECT ?item ?itemLabel ?mem ?memLabel ?birthLabel ?deathLabel ?ids ?sites ?states ?VIAFIDLabel ?docLabel ?edu
WHERE
{?item wdt:P31 wd:Q5.
?item wdt:P463 ?mem.
?mem wdt:P749* wd:Q530471.
?item wikibase:identifiers ?ids.
?item wikibase:sitelinks ?sites.
?item wikibase:statements ?states.
optional {?item wdt:P569 ?birth.}
optional {?item wdt:P570 ?death.}
optional {?item wdt:P214 ?VIAFID.}
optional {?item wdt:P184 ?doc.}
optional {?item wdt:P69 ?edu.}
SERVICEwikibase:label { bd:serviceParam
wikibase:language "[AUTO_LANGUAGE],en" }
}order by ?mem desc(?VIAFID)?itemLabel
以上獲取的數(shù)據(jù)與中國科學(xué)院官網(wǎng)數(shù)據(jù)進行比較驗證,發(fā)現(xiàn)自動抽取的Wikidata存在以下細小的錯誤:院士的學(xué)部分類比官網(wǎng)多了中國工程院院士和中國哲學(xué)社會科學(xué)院院士兩個分類。這兩個分類在歷史上與中國科學(xué)院院士有很深的淵源,但將其與現(xiàn)在的中國工程院院士和中國社會科學(xué)院官網(wǎng)的院士信息對照,召回率R分別為23.8%和23.7%,召回率太低。而中國科學(xué)院其他六個學(xué)部數(shù)據(jù)的召回率R為88.1%,沒有覆蓋的院士基本上是2015年和2017年當(dāng)選,這些院士的信息沒有在Wikidata中及時更新院士屬性。但這也基本覆蓋了中國科學(xué)院院士,基本上可以接受該數(shù)據(jù)的可信性。本文對照中國科學(xué)院官網(wǎng)的所有院士,選取Wikidata查詢到的中國科學(xué)院六個學(xué)部的院士實例為研究對象數(shù)據(jù)集,投影消除與外部實體對齊關(guān)系較小的列,去除冗余后得到本文后續(xù)的研究數(shù)據(jù)為1307行10列的CSV數(shù)據(jù)集。
通過維基數(shù)據(jù)的實體標(biāo)簽和中文知識庫的實體姓名的文本相似性比較,本文初始階段構(gòu)建中文知識庫的1307位院士到Wikidata知識庫的外部ID對齊,初步對齊的院士占總體人數(shù)的88.1%。下面進一步以Wikidata為中介,分析Wikidata的關(guān)系子圖,建立到其他知識庫的外部ID對齊,再進一步重點構(gòu)建到VIAF的外部ID對齊。
上述獲取的院士信息包括三部分:第一部分是基本信息,包括實體編碼、名稱標(biāo)簽、學(xué)部編碼、學(xué)部標(biāo)簽、出生日期、去世日期;第二部分包括三個數(shù)量型特征:院士實體對齊的外部ID個數(shù)(ids)、不同語種的Wikipedia站點個數(shù)(sites)和實體的全部陳述個數(shù)(states),此部分數(shù)據(jù)是本文研究的重要內(nèi)容,其定義見下文2.3.1節(jié);第三部分是實體對齊到外部知識庫VIAF的外部ID,它本身是外部ID的一個特殊實例,是本文最重要的目標(biāo)分類變量數(shù)據(jù)。
VIAF知識庫中的實體資源實際上是一個實體對齊的聚簇信息,包括了眾多到國家圖書館的規(guī)范名稱的關(guān)聯(lián)映射,如圖1所示的著名院士華羅庚的VIAF圖書館實體ID聚簇信息[19]包含了20個到國家圖書館的外部ID實體對齊的關(guān)聯(lián)。VIAF與Wikidata實體的外部ID交集有10個,僅出現(xiàn)VIAF而不在Wikidata的有12個,只在Wikidata而不在VIAF聚簇的有14個,兩個知識庫的實體對齊具有很大的互補性。由于VIAF包含了大量的到圖書館知識庫的實體對齊關(guān)聯(lián),本文后續(xù)在Wikidata眾多外部ID個數(shù)(ids)中選取VIAF ID作為目標(biāo)分類研究院士信息的外部關(guān)聯(lián)實體對齊,不足之處在于本文初始的檢索結(jié)果中有VIAF關(guān)聯(lián)的只有226位比較知名的資深院士,占院士總數(shù)量的17.3%,占比偏低。后文將詳細分析有VIAF鏈接的院士的Wikidata特征,以及如何通過重定向推理計算構(gòu)建間接的VIAF實體對齊。
圖1 華羅庚院士的VIAF關(guān)聯(lián)數(shù)據(jù)
2.3.1 特征的定義與解釋
在全體數(shù)據(jù)集上,不考慮院士的基本屬性,分析三個數(shù)量型特征與目標(biāo)分類的相關(guān)關(guān)系,這三個數(shù)量型特征的定義和描述如下:
ids:Wikidata中的External-ID的個數(shù)。每個External-ID將實體對齊到一個外部知識庫的ID,相當(dāng)于一個實體基于owl:theSameAs的實體對齊RDF陳述。ids值越大,從Wikidata到外部知識庫同一實體對齊的個數(shù)(外部關(guān)聯(lián)數(shù))越大。例如已故院士華羅庚外鏈知識庫ID個數(shù)有26個,包括:VIAF ID,美國國會圖書館LC ID,德國GND ID,中國的Calis ID、NLC ID、ISNI,數(shù)學(xué)譜系項目編碼和Freebase數(shù)據(jù)庫編碼等26個規(guī)范名稱知識庫ID。上述外部ID都是國家級的規(guī)范名稱數(shù)據(jù)庫的編碼,具有相當(dāng)高的規(guī)范性和權(quán)威性,用戶可信度高。在跨知識庫的關(guān)聯(lián)中,有著較大的鏈入和鏈出數(shù),可以通過這些外部ID,間接計算得到與其他知識庫的實體對齊。
sites:不同語種的Wikipedia站點個數(shù),每個站點鏈接該實體條目不同語言的資源網(wǎng)頁,例如上述華羅庚院士的維基站點有14個,包括德語、英語、法語、西班牙語、日語、簡體中文等不同語種的華羅庚院士的維基百科實體關(guān)聯(lián)。
states:實體的全部陳述的個數(shù)。每一個陳述可以用RDF三元組表示實體的一個屬性或關(guān)系的事實。例如上述華羅庚院士實體的全部陳述個數(shù)為65個,包括如表2所示陳述。表2中每行表示一個陳述,每個元素都是一個URI,第二列“主體”表示華羅庚院士的Wikidata編碼,第三列“謂詞”是Wikidata的屬性或關(guān)系,第四列“值”大部分都是URI,表示與主體有關(guān)系的維基數(shù)據(jù)內(nèi)部實體ID或外部知識庫實體ID。為便于理解,第三、四列給出標(biāo)簽代替Wikidata屬性或?qū)嶓wID編碼。陳述個數(shù)越多,實體的屬性關(guān)系語義越豐富。
表2 華羅庚的陳述RDF三元組
序號主體謂詞值1Q590111(華羅庚)Instance of個人2Q590111member of中國科學(xué)院數(shù)學(xué)物理學(xué)部3Q590111educated at清華大學(xué)4Q590111educated at劍橋大學(xué)5?Q590111VIAF ID36979742…………
注:帶*的第5行第4列,RDF陳述的值36979742,即維基數(shù)據(jù)Q590111實體的外部ID
上述第5條RDF陳述描述一條謂詞為VIAF ID的三元組,等價于兩個知識庫Wikidata和VIAF的實體對齊三元組:
wd:Q590111 owl:theSamelAs VIAF:36979742
內(nèi)部ID冒號前面的字符串為實體對齊兩個知識庫域名URI中固定部分域名路徑的簡寫前綴,前綴為知識庫域名的簡短略寫,用戶可以參考維基數(shù)據(jù)SPARQL界面提供的標(biāo)準前綴。
2.3.2 特征的分布
對數(shù)據(jù)集中所有實體的上述三個數(shù)量型特征進行統(tǒng)計分析,結(jié)果可視化數(shù)據(jù)箱圖如圖2所示,并在圖3中給出三個數(shù)量特征概率分布的密度圖。
從圖2和圖3可以看出,這三個特征都是左偏分布的,均值都遠大于中位值,均值受到極端大值影響比較大。左偏最嚴重的為ids,最小值、下四分位甚至與中位數(shù)重合,都為極端小值0;上線異常值分界點(上四分位+1.5*四分位間距=1+1.5*1)為3,大于3的異常大的數(shù)據(jù)個數(shù)232,占17.8%,是具有高研究價值的數(shù)據(jù)。
從圖3可以看出,上述三個特征值大致服從指數(shù)分布,只有右端尾部少數(shù)節(jié)點的三個特征值較大,大多數(shù)節(jié)點的三個特征值都很小,分別為0、1、9。陳述個數(shù)states值9遠小于百度百科中的內(nèi)容,甚至下四分位以下的院士屬性個數(shù)少于中科院官網(wǎng)可以提取的陳述數(shù)。產(chǎn)生上述問題的原因在于我國當(dāng)前與國外知識庫的協(xié)作還處于初始階段,國外知識庫的中文個人名稱只能間接來自境外網(wǎng)站,而不是來自中國本地的知識庫,所以很多院士的陳述數(shù)屬性偏少,而跨知識庫的實體對齊的ids更少。但這種情況會隨著中文命名實體知識圖譜構(gòu)建的完善和中國對外交流的發(fā)展而逐步改善。
圖2中三個特征值處于異常大值的實體是擁有豐富外部ID的質(zhì)量高的實體,可以為建立中文學(xué)者命名實體對齊提供有參考價值的數(shù)據(jù)。表3給出了按照外部id個數(shù)排序前15名的中國科學(xué)院院士名單(包括官網(wǎng)中的已故院士,Wikidata中這些院士所屬學(xué)部為生前官網(wǎng)所屬的學(xué)部),可以看出前15位院士的三個特征值都同時處于異常大值部分,都擁有VIAF ID。根據(jù)基本屬性分析,這些院士都是學(xué)部委員級的資深院士,其中10名是已故院士,且排名大都靠前;一共只有5名(33%)健在院士,排名第一的楊振寧為外籍院士。上述分析說明Wikidata中著名資深院士的數(shù)據(jù)質(zhì)量遠高于新當(dāng)選的年青院士,中國科學(xué)院官網(wǎng)及國內(nèi)第三方機構(gòu)應(yīng)盡可能提供關(guān)聯(lián)數(shù)據(jù)格式,發(fā)布實時更新的本地數(shù)據(jù),以便更好地發(fā)布及時權(quán)威的本地信息,推動與國外知識庫的對齊和互操作。
圖3 外部關(guān)聯(lián)id個數(shù)、維基站點個數(shù)、陳述個數(shù)分布密度
表3 External-Id個數(shù)排名前15位的中國科學(xué)院院士信息
ID姓名學(xué)部ID出生日期去世日期idssitesstatesVIAF IDQ181369楊振寧Q461394951922/10/1326794222662938Q590111華羅庚Q461394951910/11/121985/6/1226146536979742Q71874梁思成Q461511671901/4/201972/1/924146282960963Q333500錢學(xué)森Q461394951911/12/112009/10/3122335579422641Q926125吳文俊Q461394951919/5/122017/5/719114246730008Q15916846郝柏林Q461394951934/6/262018/3/7153319004075Q534717吳征鎰Q461467091916/6/132013/6/201511378306343Q699428楊鐘健Q461487311897/6/11979/1/15151539307170346Q323594蘇步青Q461394951902/9/232003/3/171553915868981Q10884754任詠華Q461451151963/2/101342976632538Q2601552王元Q461394951930/4/291342761608445Q704575裴文中Q461487311904/12/31982/9/1813123553026642Q707276李四光Q461487311889/10/261971/4/291394439740861Q4843133白春禮Q461451151953/9/261253678620387Q552928路甬祥Q461511671942/4/281273578445914
2.4.1 基于VIAF ID分類的確定
由于VIAF是全球著名圖書館的名稱規(guī)范檔的關(guān)聯(lián)知識庫,是學(xué)術(shù)領(lǐng)域比較著名的知識庫,它對著名學(xué)者及其著作和代表作品進行名稱規(guī)范化關(guān)聯(lián)。VIAF本身關(guān)聯(lián)了全球200多個圖書館機構(gòu)的規(guī)范檔,所以與VIAF的同一實體對齊就意味著與多個著名圖書館的規(guī)范檔的實體對齊。所以本研究選取Wikidata中的VIAF ID同一實體對齊為目標(biāo)分類,根據(jù)每個實體包含的VIAF ID值是否為空分為兩類:如果VIAF ID有ID值,分類值為1,表示該實體可以關(guān)聯(lián)到圖書館規(guī)范名稱庫,獲取圖書館的作品信息;否則分類值為0,表示當(dāng)前沒有直接的VIAF ID的關(guān)聯(lián)。
2.4.2 目標(biāo)分類與數(shù)值特征的關(guān)系
本研究中目標(biāo)分類與上述2.3部分三個數(shù)量特征的關(guān)系,分別可視化為散點圖,如圖4所示。圖4中左圖為sites和ids平面分布散點圖,右圖為states和ids散點圖。這兩個散點圖都體現(xiàn)出有VIAF關(guān)聯(lián)的分類樣本居于分布圖的右上方,沒有VIAF關(guān)聯(lián)的處于左下方,中間有少量的交叉區(qū)域。
從圖4的兩個散點圖可以看出,y軸ids對目標(biāo)分類的正向相關(guān)作用明顯比x軸上的維基站點或陳述個數(shù)兩個特征要強,y軸上部數(shù)據(jù)更可能有VIAF同一實體鏈出。ids個數(shù)與其VIAF鏈出的關(guān)系,如表4所示。
從表4可以看出,ids值為0的區(qū)域,沒有到VIAF直接鏈接,也不具備推導(dǎo)計算的基礎(chǔ),這部分實體的對齊問題本文暫時不考慮;ids在8及以上,全部具有直接VIAF鏈接,不需要推導(dǎo)計算,可以直接利用VIAF的信息。中間ids值為1—7的分區(qū)出現(xiàn)兩個分類的混合,具體分析如下:ids值為1的分區(qū),直接VIAF鏈接數(shù)極小,這符合2.2中VIAF知識庫多個關(guān)聯(lián)聚簇特征;ids值為2—3的分區(qū),直接VIAF處于中間狀態(tài),具備聚簇關(guān)聯(lián)基礎(chǔ),預(yù)估有很大可能推導(dǎo)出VIAF間接關(guān)聯(lián);ids值為4到7的區(qū)間,大多數(shù)有直接VIAF鏈出,預(yù)估全部能直接或間接推導(dǎo)出VIAF關(guān)聯(lián)。
圖4 三個特征向量與VIAF關(guān)聯(lián)分類的分布關(guān)系
表4 ids與直接VIAF分類個數(shù)的關(guān)系
ids值分區(qū)樣本院士數(shù)直接VIAF個數(shù)直接VIAF占比070400%131510.3%2—31004040%4—7807492.5%大于等于87777100%匯總130722617.3%
2.4.3 基于重定向?qū)崿F(xiàn)與VIAF鏈接
VIAF知識庫為了照顧來源地用戶對本地圖書館的使用習(xí)慣,提供了利用來源知識庫ID重定向到相應(yīng)的VIAF聚簇的功能。如:Wikidata中,Q10897600劉敦楨院士只有一個External-ID為ISNI:0000 0004 5301 9688,通過VIAF數(shù)據(jù)源重定向構(gòu)造到VIAF的實體對齊URI:http://viaf.org/viaf/sourceID/ISNI|0000000453019688,重定向自動進入VIAF實體URI:https://viaf.org/viaf/19680591/,不僅能得到VIAF ID實體對齊,還可以得到VIAF中的17個來源知識庫的外部ID。這些關(guān)聯(lián)鏈接包括VIAF到Wikidata的反向?qū)嶓w對齊,另外還有到其他著名國家圖書館的實體對齊鏈接:美國LC-n81053811、德國DNB-135553784、法國BNF-11913144、日本NDL-00536020、挪威NTA-162467427等的個人實體對齊關(guān)聯(lián),同時還可以得到VIAF從上述17個來源知識庫動態(tài)實時收集的不同語言出版的35本著作的信息。
在上述2.2.2節(jié)中發(fā)現(xiàn)ids值在1—7的部分,有可能通過上述功能計算構(gòu)建間接的VIAF實體對齊。為了進一步探索外部ID情況,再次應(yīng)用SPARQL查詢其External-ID的具體情況。第二次檢索除了上述的VIAF ID外,又增加了兩個外部ID,分別為美國國會圖書館LC、國際標(biāo)準名稱索引ISNI。利用這些外部ID,就可以使用重定向構(gòu)建間接的VIAF實體對齊,其結(jié)果見表5。
表5 利用重定向構(gòu)建間接VIAF的統(tǒng)計
ids樣本院士數(shù)直接VIAF個數(shù)直接VIAF占比%構(gòu)建間接VIAF個數(shù)VIAF占比%131610.3%3210.5%2551323.6%2670.9%3452760%1184.4%4—7807492.5%6100%
表5將ids值分為4種情況,可以看出直接VIAF占比和總體VIAF占比都是ids值的增函數(shù);4個VIAF值的分區(qū)都通過重定向構(gòu)建了間接的VIAF關(guān)聯(lián),VIAF的個數(shù)有了顯著的增加,4個分區(qū)的VIAF間接關(guān)聯(lián)符合2.4.2節(jié)的預(yù)估:
ids在4以上的院士,100%都有VIAF的實體對齊。
ids在2、3部分,VIAF的實體對齊的占比也有很大提高,分別提高到70.9%和84.4%。
ids值為1部分,利用LC或ISNI重定向構(gòu)建了32個間接VIAF,占10.5%,另外有252個實體的外部ID是到中國名人錄CV的實體對齊,但是CV知識庫中的實體沒有與外部知識庫的關(guān)聯(lián)。該部分外部ID需要注意的還有到中國國家圖書館和百度學(xué)術(shù)知識庫的外部實體ID對齊14個,這兩個是本地中文數(shù)據(jù)庫,具有大量的本地權(quán)威規(guī)范信息,遺憾的是現(xiàn)階段本地知識庫沒有提供到外部知識庫的實體ID對齊。還有一些ids值為1,提供到專業(yè)知識庫的實體對齊,雖然這些專業(yè)知識庫不再提供進一步的實體對齊信息,但在建立中文實體對齊中也是非常有用的信息。
ids值為0的部分,沒有外部ID可供借鑒,但很多院士實體提供了到Wikipedia多語言站點的外部鏈接;602個院士只有一個到中文Wikipedia站點鏈接,該站點由國外機構(gòu)創(chuàng)建,本文獲取的可利用信息較少;擁有兩種語言站點鏈接的有95項,可以利用其中的英語Wikipedia站點鏈接構(gòu)建到其相關(guān)站點Dbpedia的外部ID鏈接。
總體來說,在本文院士數(shù)據(jù)集中,首先直接包含VIAF外部ID的有226個,在總體數(shù)據(jù)集中占比17.3%;再通過VIAF知識庫對來源知識庫重定位功能,另外計算出75個間接到VIAF的實體對齊關(guān)系,為這些實體增加了與VIAF的實體對齊。無論是直接還是重定向計算得到與間接VIAF的實體對齊,都可以構(gòu)建院士實體到這些國家圖書館的命名實體對齊關(guān)系,豐富與院士實體關(guān)聯(lián)的書目作品信息。
通過本文第1和2部分的分析,我們得到中國科學(xué)院院士的實體對齊總體可分三個層次:
第一層次,進行國內(nèi)知識庫間的實體對齊。在百度百科和中國科學(xué)院的院士知識庫進行高準確且覆蓋率為100%的院士實例層的一對一的實體對齊,其首要工作是中國科學(xué)院官方機構(gòu)(或委托的第三方)將每位院士資源的URI持續(xù)固定化,方便其他知識庫引用;然后對院士的文本信息進行結(jié)構(gòu)化和語義化轉(zhuǎn)變,方便其他知識庫的實體對齊;最后,百度百科需要利用自身資源完善與百度學(xué)術(shù)的顯式實體對齊,并與中國科學(xué)院官方網(wǎng)站進行一對一的實例層實體對齊。國內(nèi)其他知識庫對其收錄的每一位院士構(gòu)建到百度百科或中國科學(xué)院官方院士知識庫的實體對齊和實體引用。
第二層次,國內(nèi)知識庫可以利用2.1節(jié)語義查詢方法,構(gòu)建與Wikidada的一對一的實體對齊。本文中該實體對齊的準確率很高,依賴Wikidata的院士實體的member of屬性值的準確率,屬性值準確率可以通過Wikidata的用戶編輯和專家委員會審核得到保證;院士實體對齊的覆蓋率為88.9%,可以接受。覆蓋率的提高可以通過Wikidata中中國科學(xué)院院士信息的及時收錄更新和member of屬性的準確賦值實現(xiàn)。本層次的初步實體對齊以很高的準確率和較高的召回率實現(xiàn)了中文知識庫命名實體與第一個國外知識庫的實體對齊;更深層次可以Wikidata知識庫為中介,進行第三層次的與國外知識庫的對齊。
第三層次,利用本文重定向的外部ID對齊方法,在第二層次構(gòu)建中文知識庫院士實體與Wikidata實體的一對一對齊的基礎(chǔ)上,為603位院士增加了兩個以上跨知識庫實體對齊,更重要的是可以為301位院士構(gòu)建到VIAF的一對一的實體對齊,占總體院士數(shù)量的23%,這些實體對齊結(jié)果顯著地提高了中文知識庫的實體對齊成效。
然而當(dāng)前中國科學(xué)院院士與VIAF對齊的覆蓋率還遠低于國外同類實體,原因如下:一是國內(nèi)圖書館還沒有與VIAF協(xié)商完成正式加入VIAF,而且有些中國科學(xué)院院士沒有著作被國外圖書館收錄,這超出了本文研究的范圍;另一個原因,也是更重要的原因,雖然Wikidata中顯式的外部ID可以為跨知識庫的實體對齊提供重要的準確信息,但如同2.4節(jié)那些重定向推導(dǎo)得到的新的VIAF實體對齊,說明Wikidtata的外部ID并不完備,還缺失了某些隱含的VIAF外部ID,那么就可能存在某些院士實體缺失了更多隱含的外部ID所表示的實體對齊關(guān)系。分析這些缺失隱藏的VIAF實體對齊信息的院士,發(fā)現(xiàn)他們基本上在本文表4中ids值為3、2、1的分區(qū),論文下一步將對這部分院士按照ids值從大到小的順序,采用基于標(biāo)簽、出生日期和更多語義屬性對齊的方法構(gòu)建院士與VIAF中的個人實體對齊。
解決第三層次第二方面的問題是本文下一步的研究方向,著力提高國內(nèi)知識庫院士與VIAF實體對齊的覆蓋率,為更多院士實體構(gòu)建到VIAF的一對一的實體對齊;另外還需要逐步擴大研究學(xué)者實體的范圍到擁有高級獎項和榮譽等具有較高知名度的學(xué)者及其相關(guān)的機構(gòu)和成果。