王 偉
(東北財經(jīng)大學(xué)圖書館,遼寧 大連 116025)
在開放獲取的推動下,全球機構(gòu)知識庫(Institutional Repository,簡稱IR)的建設(shè)發(fā)展迅猛。截至2020年8月,在全球機構(gòu)知識庫注冊網(wǎng)站(The Directory of Open Access Repositories,OpenDOAR)注冊的機構(gòu)知識庫數(shù)量已從2005年的79個增長到5395個[1]。但在學(xué)術(shù)交流環(huán)境中,商業(yè)數(shù)據(jù)庫和商業(yè)出版依然是學(xué)術(shù)交流的主渠道。隨著大數(shù)據(jù)、云計算、人工智能等新技術(shù)的廣泛應(yīng)用,如何應(yīng)用新技術(shù)使機構(gòu)知識庫在新學(xué)術(shù)交流生態(tài)環(huán)境下發(fā)揮積極作用,成為機構(gòu)知識庫研究的發(fā)展趨勢。
2016年4月,開放獲取知識庫聯(lián)盟(The Confederation of Open Access Repositories,簡稱COAR)啟動了一個研究項目,即“下一代機構(gòu)知識庫”(Next Generation Repositories),并成立了新一代知識庫工作組,調(diào)研用戶需求,提出新功能和技術(shù)方案[2]。在COAR的引領(lǐng)下,對新一代機構(gòu)知識庫的功能、技術(shù)和發(fā)展的研究與應(yīng)用,逐漸成為IR領(lǐng)域的研究熱點。目前,通過對機構(gòu)知識庫內(nèi)部和各機構(gòu)知識庫間的資源進行有效關(guān)聯(lián)是新一代機構(gòu)知識庫實現(xiàn)個性化、知識化服務(wù)的重要手段。此種形勢下,將關(guān)聯(lián)數(shù)據(jù)技術(shù)應(yīng)用到機構(gòu)知識庫領(lǐng)域,深入挖掘機構(gòu)知識庫的內(nèi)在知識價值,探索機構(gòu)知識庫資源聚合與知識發(fā)現(xiàn)服務(wù)的新業(yè)態(tài),對新一代機構(gòu)知識庫的建設(shè)與發(fā)展具有重要意義。
新一代機構(gòu)知識庫的核心是將機構(gòu)知識庫作為一種分布式的、全球網(wǎng)絡(luò)基礎(chǔ)設(shè)施的學(xué)術(shù)交流平臺,其總體框架的最上一層可部署知識增值服務(wù),由此將系統(tǒng)提升為能面向研究、開放并有助于創(chuàng)新,同時便于學(xué)術(shù)群體集體管理的平臺[3]。在大數(shù)據(jù)和云計算等理論發(fā)展趨勢下,機構(gòu)知識庫逐漸從單一機構(gòu)的知識典藏向全球?qū)W術(shù)交流生態(tài)系統(tǒng)轉(zhuǎn)型。新一代機構(gòu)知識庫不同于傳統(tǒng)的機構(gòu)知識庫,其存儲的目的不是為了收藏,而是為了通過服務(wù)增加價值,包括學(xué)術(shù)評價、同行評審和學(xué)術(shù)社交等,使得資源能夠發(fā)揮更大的效用。同時,更加注重合作,不斷增強機構(gòu)知識庫之間的關(guān)聯(lián)度和協(xié)作能力。
新一代機構(gòu)知識庫中,通過集成云計算、大數(shù)據(jù)等全新技術(shù),為機構(gòu)知識庫的開發(fā)提供更多的服務(wù)支持。新一代機構(gòu)知識庫的系統(tǒng)架構(gòu)和具體功能見圖1所示。
圖1 新一代機構(gòu)知識庫的系統(tǒng)架構(gòu)及功能
新一代機構(gòu)知識庫的底層數(shù)據(jù)來源更加廣泛,包括WOS、SCOPUS、EI、Pubmed、學(xué)位論文庫以及機構(gòu)文庫。數(shù)據(jù)類型更加豐富,包括期刊論文、會議論文、學(xué)位論文、專著、專利、演示文稿等。在內(nèi)部功能上,依托完善的數(shù)據(jù)處理流程,可實現(xiàn)學(xué)術(shù)成果自動更新,消除學(xué)者姓名和機構(gòu)名稱等拼寫歧義,進行機構(gòu)甄別和學(xué)者甄別。同時,可以全面準(zhǔn)確地追蹤學(xué)者或機構(gòu)的學(xué)術(shù)產(chǎn)出,進行學(xué)術(shù)評價和同行評審,促進科研合作、知識傳播和共享。在外部功能上,通過標(biāo)準(zhǔn)數(shù)據(jù)接口,整合多方服務(wù),可對接機構(gòu)的人事管理系統(tǒng)、科研管理系統(tǒng)和教學(xué)管理系統(tǒng),從而使新一代機構(gòu)知識庫更好地支持機構(gòu)教學(xué)、科研以及管理等活動。在服務(wù)功能上,構(gòu)建面向復(fù)合與數(shù)據(jù)對象管理、內(nèi)容自動更新和機構(gòu)影響力評估等服務(wù)。
(1)數(shù)據(jù)及復(fù)合對象管理服務(wù)。隨著學(xué)術(shù)產(chǎn)出的內(nèi)容、形式不斷地演化豐富,越來越多其他形式的學(xué)術(shù)產(chǎn)出從科研背后走向前臺。這包括科學(xué)數(shù)據(jù)、圖像、視音頻、軟件和工作流等。對于結(jié)構(gòu)化的單一內(nèi)容對象類型,組織起來比較容易,而對于復(fù)合對象需采取關(guān)聯(lián)組織模式,因此,該功能提供了新一代機構(gòu)知識庫作為數(shù)據(jù)登記和發(fā)現(xiàn)系統(tǒng)的服務(wù)。
(2)內(nèi)容的自動更新服務(wù)。這項功能服務(wù)的實現(xiàn)有3種模式。第一種模式,支持出版商自動推送OA內(nèi)容到機構(gòu)知識庫,同時,出版商也支持作者選擇存繳。發(fā)表文章的作者可將成果的接受稿/最終稿自動推送至所屬機構(gòu)的機構(gòu)知識庫中。這種模式要求IR平臺應(yīng)支持SWORD協(xié)議,出版平臺也支持SWORD協(xié)議。第二種模式,機構(gòu)知識庫通過出版商的API(應(yīng)用程序編程接口)服務(wù)來主動采集授權(quán)內(nèi)容。從出版商獲取的數(shù)據(jù)主要是以元數(shù)據(jù)格式為主。在訪問權(quán)限上,OA論文可以直接訪問全文。授權(quán)用戶直接訪問最終發(fā)表版全文。非授權(quán)用戶可預(yù)覽論文全文的首頁等。目前,越來越多的出版商提供API(應(yīng)用程序編程接口)服務(wù),比如,Elsevier、Springer、PubMed、IEEE等。第三種模式,建立論文交換和分發(fā)中心解決出版商與機構(gòu)知識庫之間多對多推送關(guān)系。機構(gòu)知識庫接受出版商數(shù)據(jù)的推送,出版商可以按照論文作者機構(gòu),將論文推送到各個機構(gòu)知識庫中。
(3)影響力管理服務(wù)。機構(gòu)知識庫建設(shè)的一個重要目標(biāo)和作用就是展示和提升科研人員及所在機構(gòu)的影響力??蒲泻蛯W(xué)術(shù)交流評價趨向多元化和綜合性。傳統(tǒng)的學(xué)術(shù)影響力計量主要是指同行間的學(xué)術(shù)引用。日趨流行的綜合影響力要素除了引用還有使用下載以及社會公眾的評價等方面。新一代機構(gòu)知識庫將集成基于引用的計量,科研成果的引用頻次、來源出版物的影響因子、科研人員的H指數(shù),同時,還集成社群/社會影響力等指標(biāo)。
關(guān)聯(lián)數(shù)據(jù)(Linked Data)這一概念最早是由Web的發(fā)明人蒂姆伯納斯·李(Tim Berners-Lee)于2006年首次提出,目前成為被W3C推薦的一種用來發(fā)布和鏈接各類數(shù)據(jù)、信息和知識的規(guī)范。其采用資源描述框架RDF(Resource description framework)數(shù)據(jù)模型,利用統(tǒng)一資源標(biāo)識符URI(Uniform Resource Identifier)命名數(shù)據(jù)實體,來發(fā)布和部署實例數(shù)據(jù)和類數(shù)據(jù),從而可以通過HTTP協(xié)議揭示并獲取這些數(shù)據(jù),同時它強調(diào)數(shù)據(jù)的相互關(guān)聯(lián)、相互聯(lián)系和有益于人機理解的語境信息[4]。機構(gòu)知識庫中的各類型資源實體首先經(jīng)過詞表的復(fù)用與擴展,形成RDF形式的語義化元數(shù)據(jù),實現(xiàn)元數(shù)據(jù)的語義化互操作。然后,采用本體化的元數(shù)據(jù)模型,對資源進行語義化描述,再借助語義化的本體將RDF鏈接顯性的揭示出來[5]。
(1)將機構(gòu)知識庫中的資源實體描述得規(guī)范化。為滿足用戶快速、準(zhǔn)確地找到所需學(xué)術(shù)資源,新一代機構(gòu)知識庫將提供語義化的訪問服務(wù)。這就需要對資源實體進行規(guī)范化描述,而不是HTML格式的簡單描述。新一代機構(gòu)知識庫是圍繞研究主題或?qū)W科領(lǐng)域來進行知識組織的,每個研究主題或?qū)W科領(lǐng)域又可分為多個專題。專題可以根據(jù)文獻類型或其他的索引方法來進行組織。每個專題的內(nèi)容包含著期刊論文、會議論文、學(xué)位論文、專著、專利、演示文稿等多種類型數(shù)據(jù)集。
(2)將機構(gòu)知識庫中資源實體擴展到已有關(guān)聯(lián)詞表。關(guān)聯(lián)數(shù)據(jù)的基本原則之一就是盡可能提供相關(guān)的統(tǒng)一資源標(biāo)識符URI,以使用戶發(fā)現(xiàn)更多的資源。在數(shù)字圖書館領(lǐng)域,資源一般最常用的就是RDF schema和OWL提供的結(jié)構(gòu)描述,如DC、PROV-O、SKOS、VOAF、FRBR等語義關(guān)聯(lián)描述模型,它們均已經(jīng)實現(xiàn)了全面的關(guān)聯(lián)數(shù)據(jù)化。新一代機構(gòu)知識庫可以利用標(biāo)準(zhǔn)的關(guān)聯(lián)數(shù)據(jù)組織模式,對系統(tǒng)內(nèi)的知識組織體系進行規(guī)范。因此,可使用已有的類以及屬性選擇最合適的關(guān)聯(lián)詞表,如分類表、主題詞表等,明確的表示實體之間的映射關(guān)系,使機構(gòu)知識庫在關(guān)聯(lián)詞表的幫助下支持SPARQL模式的語義查詢[6]。
(3)將機構(gòu)知識庫中的實體進行語義化。關(guān)聯(lián)數(shù)據(jù)可以為機構(gòu)知識庫實體資源語義化提供基礎(chǔ)??衫脤嶓w對象之間的關(guān)系對機構(gòu)知識庫中的資源實體對象資源的核心概念進行確定,進一步對它們進行描述。這些核心概念包括相關(guān)概念、從屬概念、交叉概念等。首先要構(gòu)建機構(gòu)知識庫資源領(lǐng)域本體,其次抽取概念間的關(guān)系,擴展類的屬性,在本體之間形成語義關(guān)聯(lián)。同時,關(guān)聯(lián)數(shù)據(jù)允許機構(gòu)知識庫關(guān)聯(lián)到更廣泛的信息資源,并不局限于資源實體本身的信息。它可以擴充科研人員、所屬機構(gòu)、科研成果以及其所屬學(xué)科主題等其他信息,到其他任何一個存在該信息描述的數(shù)據(jù)源,并提供多個分布式異構(gòu)數(shù)據(jù)源整合的關(guān)聯(lián)訪問,從而為用戶提供整合的資源發(fā)現(xiàn)服務(wù)[7]。
(1)機構(gòu)知識庫實體對象的識別和實體關(guān)系的抽取。機構(gòu)知識庫中的實體對象很多,關(guān)系也很復(fù)雜。對同一實體對象和關(guān)系的識別和抽取是一個關(guān)鍵問題。不同的關(guān)聯(lián)數(shù)據(jù)源對同一個實體,如人名、地名等采用了不同的URI來標(biāo)識[8],會導(dǎo)致他們所標(biāo)示對象的標(biāo)簽和實質(zhì)的內(nèi)容并不是完全匹配的。為了解決這一個問題,可設(shè)計一個知識資產(chǎn)作者及作者排序確認程序,目的是借助人工的甄別,去實現(xiàn)作者和其成果的一一對應(yīng)關(guān)系。該程序會在作者向機構(gòu)知識庫所提交的條目內(nèi)容被接受和保存,并分配唯一的URI標(biāo)示符后,自動向作者發(fā)送認領(lǐng)郵件,由作者本人來確認是否是自己的作品以及選擇作者的排序。這種做法雖然效率可能會比較低,認領(lǐng)周期會有點長,但是對于目前的研究層次而言,是十分有效的,而且很大程度地提高了實體對象識別的準(zhǔn)確率。與此同時,機構(gòu)知識庫還可增加別名管理程序,為同一個人名實體添加多個形式的別名,解決人名實體多樣化的識別問題。有了這些前期的預(yù)處理工作,抽取機構(gòu)知識庫中自身的實體對象和關(guān)系可以按照機構(gòu)知識庫的元數(shù)據(jù)描述字段以及關(guān)系類型進行解析和拆分。
(2)機構(gòu)知識庫關(guān)聯(lián)數(shù)據(jù)源的選擇和不同詞表間的映射。機構(gòu)知識庫中的數(shù)據(jù)主要是期刊論文、會議論文、學(xué)位論文、教材、專著、專利、演示報告等資源,要將機構(gòu)知識庫中的元數(shù)據(jù)擴展到外部的關(guān)聯(lián)數(shù)據(jù)源,選擇合適的關(guān)聯(lián)數(shù)據(jù)源十分重要。目前互聯(lián)網(wǎng)上的關(guān)聯(lián)數(shù)據(jù)源有很多,但基本都是綜合性的社會公共性質(zhì)的數(shù)據(jù)集。而不同的關(guān)聯(lián)數(shù)據(jù)來源可能采用不同的關(guān)聯(lián)詞表,為了最大化、最有效地語義化機構(gòu)知識庫中的元數(shù)據(jù),從而為用戶提供整合的清晰的數(shù)據(jù)視圖,需要將不同的術(shù)語轉(zhuǎn)換成統(tǒng)一的目標(biāo)模式。轉(zhuǎn)換工作主要依據(jù)詞表將數(shù)據(jù)映射成本地的數(shù)據(jù)模式,另外,還需要依據(jù)人工產(chǎn)生或者經(jīng)過數(shù)據(jù)挖掘得到的映射規(guī)則進行轉(zhuǎn)換[9]。