康雨培,李重陽,周 杰(華中師范大學(xué)信息管理學(xué)院)
科技報告作為重要的戰(zhàn)略新興資源,蘊(yùn)涵著極大的科研價值,它詳細(xì)地記錄了科研活動的整個流程,以及失敗的教訓(xùn),因而獨(dú)具特色。在知識全球化背景下,具有開放和共享特色的科技報告的階段性成果更需要與科技和經(jīng)濟(jì)進(jìn)行快速、深度融合,對科技報告的集中管理與合理使用成為各國學(xué)術(shù)界的共識。國家科技報告服務(wù)系統(tǒng)(http://www.nstrs.cn/)于2014年3月正式上線,標(biāo)志著我國科技報告管理工作取得重大進(jìn)展。[1]
然而目前的科技報告資源組織粒度較大,用戶只能按照來源、學(xué)科、地域、類型這四種粗粒度的分類方式進(jìn)行瀏覽或檢索。與之形成鮮明對比的是,期刊論文等則允許用戶按照作者、機(jī)構(gòu)等多種方式來獲取資源。究其原因在于:粗粒度的資源組織與集成方式只做到了對科技報告的簡單分類,而沒有建立科技報告與這些科研實(shí)體間的關(guān)聯(lián)網(wǎng)絡(luò)??蒲袑?shí)體是科研活動中的重要組成部分,包括科研主體(科研人員、科研機(jī)構(gòu))、科研活動、科研條件(科研方法)、科研產(chǎn)出(科研成果)等,[2]而一份科技報告的形成過程中涉及許多科研實(shí)體,對這些科研實(shí)體間的關(guān)系進(jìn)行探討,對于科研管理者和用戶來說,都具有重大意義。
科技報告的生成涉及多個科研實(shí)體,主要包括科研人員、科研機(jī)構(gòu)和科研項(xiàng)目等,本研究主要探討這幾者間的關(guān)聯(lián)。① 基于科研人員建立的關(guān)聯(lián),有助于科學(xué)家共同體或群體了解彼此的工作,進(jìn)行借鑒和學(xué)習(xí);可以更好地保障作者的知識產(chǎn)權(quán);可以有效避免重復(fù)立項(xiàng)和重復(fù)申請的現(xiàn)象。② 基于科研機(jī)構(gòu)進(jìn)行關(guān)聯(lián),除了加強(qiáng)科技報告資源的統(tǒng)一管理外,更有助于管理人員、專業(yè)人員和社會公眾方便準(zhǔn)確地獲取相關(guān)資源。③ 基于科技項(xiàng)目建立關(guān)聯(lián),一方面有助于科研人員了解整個科研過程,另一方面有利于科研管理部門加強(qiáng)對科研項(xiàng)目的過程管理和實(shí)時監(jiān)測。此外,在科研項(xiàng)目的實(shí)施過程中可能會召開會議,因此一些事件資源也是關(guān)聯(lián)的一部分。分析這些實(shí)體間的聯(lián)系,并向用戶提供服務(wù),應(yīng)該成為科技報告制度建設(shè)的重要議題之一。
關(guān)聯(lián)數(shù)據(jù)(Linked Data)[3]作為萬維網(wǎng)推薦的最佳的語義網(wǎng)實(shí)現(xiàn)方式,為實(shí)現(xiàn)科技報告相關(guān)實(shí)體間的關(guān)聯(lián)提供了有效途徑。近幾年,一種關(guān)聯(lián)數(shù)據(jù)的最新實(shí)踐——書目框架格式(BibliographicFrameworkInitiative,BIBFRAME),[4]得到學(xué)界的普遍關(guān)注。BIBFRAME也指由美國國會圖書館于2011年5月發(fā)起的倡議行動,該行動旨在創(chuàng)建一套能夠全球統(tǒng)一使用,涵蓋所有文獻(xiàn)類型,并支持圖書館于其他信息系統(tǒng)進(jìn)行內(nèi)容整合的編目規(guī)則。[5]BIBFRAME書目框架既克服了MARC將圖書資源局限在圖書館系統(tǒng)內(nèi)部的不足,又適用于所有的文獻(xiàn)類型,同時使圖書館資源成為語義Web的一部分,因此具有強(qiáng)大的生命力。[6]
BIBFRAME是一個書目數(shù)據(jù)描述框架,更加側(cè)重于資源外部特征,因此,本研究試圖將基于關(guān)聯(lián)數(shù)據(jù)的BIBFRAME書目框架應(yīng)用于科技報告資源的描述與著錄,在此基礎(chǔ)上構(gòu)建一個基于科技報告資源外部特征的關(guān)聯(lián)整合框架。一方面,將知識單元從文獻(xiàn)單元拓展至實(shí)體單元,實(shí)現(xiàn)科技報告資源的多粒度語義揭示;另一方面,通過多維度、多層次的互聯(lián)關(guān)系實(shí)現(xiàn)科技報告資源與其他實(shí)體資源的深度聚合,最終助力知識發(fā)現(xiàn)和科研創(chuàng)新。
本研究與“科技報告資源的組織和整合”及關(guān)聯(lián)數(shù)據(jù)領(lǐng)域“BIBFRAME”兩個主題相關(guān)。
科技報告在二戰(zhàn)期間得到發(fā)展,因其能夠反映國家科技創(chuàng)新能力與科研實(shí)力,故而成為國家重要戰(zhàn)略資源。為了實(shí)現(xiàn)科技報告資源的高效共享與有效利用,前人在標(biāo)準(zhǔn)建設(shè)和技術(shù)實(shí)踐方面做了大量工作。美國國家技術(shù)情報服務(wù)局(National Technical and Information Service,NTIS)制定了科技報告信息質(zhì)量標(biāo)準(zhǔn)[7]、信息處理標(biāo)準(zhǔn)[8]等一系列標(biāo)準(zhǔn),以期更好地實(shí)現(xiàn)科技報告的共享和利用。此外,NTIS還專門針對科技報告的學(xué)科主題編制了CAST(Clearinghouse Announcements in Science and Technology) 分 類表[9]等。我國學(xué)者也強(qiáng)調(diào)要統(tǒng)一科技報告資源描述、揭示識別和信息組織的加工標(biāo)準(zhǔn),包括元數(shù)據(jù)規(guī)范、著錄規(guī)則、標(biāo)引規(guī)則、分類范疇等,以促進(jìn)我國科技報告體系的建設(shè)。[10]2014年5月,中國科學(xué)技術(shù)信息研究所等機(jī)構(gòu)正式發(fā)布了一系列標(biāo)準(zhǔn)規(guī)范,包括《科學(xué)技術(shù)報告編寫規(guī)則 (GB/T 7713.3-2014)》[11]、《科技報告元數(shù)據(jù)規(guī)范(GB/T 30535-2014)》[12]等,為科技報告相關(guān)工作提供了指導(dǎo)。除了標(biāo)準(zhǔn)建設(shè)方面的工作,NTIS還開通了國家科技報告數(shù)據(jù)庫(National TechnicalReportsLibrary,NTRL),為全球范圍內(nèi)的用戶提供科技報告查詢服務(wù)。[13]我國除了國家科技報告服務(wù)系統(tǒng)外,還專門建設(shè)了國家科技計劃項(xiàng)目科技報告呈交系統(tǒng)(http://program.most.gov.cn/)來規(guī)范科技報告的撰寫、呈交和審核工作。然而已有的工作更側(cè)重于對科技報告資源的管理,在深層次的整合與利用方面存在諸多不足之處,也未能充分揭示針對同一科研問題的多份科技報告之間的關(guān)聯(lián),未能充分揭示科技報告與科研實(shí)體(如科研人員、科研機(jī)構(gòu)、科研項(xiàng)目)的內(nèi)在關(guān)聯(lián)[14]等。雖然科研關(guān)系網(wǎng)絡(luò)作為科學(xué)知識網(wǎng)絡(luò)的重要擴(kuò)展,一直是學(xué)者們的研究熱點(diǎn),但目前的科研關(guān)系網(wǎng)絡(luò)主要集中在引文關(guān)系網(wǎng)絡(luò)[15]、科學(xué)合作網(wǎng)絡(luò)[16,17]和主題共現(xiàn)網(wǎng)絡(luò)[18]這幾個方面,并且都是單維度的。科技報告領(lǐng)域資源涉及的實(shí)體關(guān)系網(wǎng)絡(luò)是一個同時包含文獻(xiàn)單元和實(shí)體單元的多維度的網(wǎng)狀組織結(jié)構(gòu),從多維視角來構(gòu)建科研關(guān)系網(wǎng)絡(luò)的探討還很少,[19]專門針對科技報告資源的科研關(guān)系網(wǎng)絡(luò)構(gòu)建則更少。
關(guān)聯(lián)數(shù)據(jù)作為一種旨在提高網(wǎng)絡(luò)數(shù)據(jù)機(jī)器可讀性的技術(shù)框架,借助網(wǎng)絡(luò)環(huán)境下數(shù)據(jù)的引用和解引(reference/dereference)機(jī)制來建立數(shù)據(jù)間的關(guān)聯(lián),實(shí)現(xiàn)數(shù)據(jù)的分享與重用,[20]則為彌補(bǔ)上述不足提供了可能性。目前已有關(guān)聯(lián)數(shù)據(jù)在科技數(shù)據(jù)服務(wù)方面的一些研究和實(shí)踐,如Linked Life Data,包含100億條RDF語句,用戶可以通過單獨(dú)的SPARQL端點(diǎn)訪問25個公共生物醫(yī)學(xué)數(shù)據(jù)庫。[21]Linked Sensor Data,將大量氣象傳感數(shù)據(jù)上傳至Linked Open Data(LOD)云,通過構(gòu)建RDF數(shù)據(jù),實(shí)現(xiàn)與LOD上其他數(shù)據(jù)集的關(guān)聯(lián)。[22]沈志宏等以中國科學(xué)引文數(shù)據(jù)庫和中國生態(tài)系統(tǒng)研究網(wǎng)絡(luò)通量數(shù)據(jù)為例,探討了科學(xué)數(shù)據(jù)發(fā)布流程和關(guān)鍵問題。[23]鮮國建將農(nóng)業(yè)科學(xué)敘詞表向關(guān)聯(lián)數(shù)據(jù)進(jìn)行了轉(zhuǎn)化,并建立了書目資源主體類和科技文獻(xiàn)主體類(期刊文摘類、會議論文、文集匯編文摘類、作者類)及核心屬性的關(guān)聯(lián)數(shù)據(jù)等。[24]在專門的科技報告領(lǐng)域,也有少數(shù)學(xué)者進(jìn)行了研究與嘗試。賴院根[25]針對科技報告整合模式提出了元數(shù)據(jù)整合、關(guān)聯(lián)整合和知識整合3種管理體系,其中,在關(guān)聯(lián)整合中提出了基于科技報告文獻(xiàn)外部特征進(jìn)行關(guān)聯(lián)整合的3種方式,在知識整合中,提出了基于領(lǐng)域本體的著錄標(biāo)引、主題聚類、知識單元鏈接3種方式。該研究雖然包含了關(guān)聯(lián)數(shù)據(jù)的基本思想,但并未深入探討其實(shí)現(xiàn)細(xì)節(jié)。李成龍[26]研究了科技報告中粒度關(guān)聯(lián)數(shù)據(jù)的創(chuàng)建與發(fā)布,他將一篇科技報告作為根節(jié)點(diǎn)(即最粗粒度),將科技報告中某一具體知識點(diǎn)作為葉節(jié)點(diǎn)(即最細(xì)粒度),介于根節(jié)點(diǎn)和葉節(jié)點(diǎn)之間的節(jié)點(diǎn)即中粒度(比如前置部分、正文部分、結(jié)尾部分等),并對其進(jìn)行自動標(biāo)引和語義描述,從而實(shí)現(xiàn)關(guān)聯(lián)。夏立新[14]提出了基于關(guān)聯(lián)數(shù)據(jù)的科技報告語義組織與共享框架,將框架分為原始數(shù)據(jù)層、語義描述層、語義關(guān)聯(lián)層和語義服務(wù)層,在語義描述時復(fù)用了不同類別的規(guī)范詞匯或本體,如DC、BIBO、SWRC、FOAF等,在充分利用已有本體或詞表的基礎(chǔ)上,更好地整合了科技報告各類資源等。但是專門探討科技報告資源中涉及的各類實(shí)體間的關(guān)聯(lián)整合的較少。
隨著語義網(wǎng)和關(guān)聯(lián)數(shù)據(jù)的不斷發(fā)展,MARC已經(jīng)成為圖書館數(shù)據(jù)開放利用的最大障礙,圖書館界急需一種新的書目數(shù)據(jù)格式,BIBFRAME應(yīng)運(yùn)而生。BIBFRAME因其面向語義網(wǎng)的技術(shù)架構(gòu)和本體模型,可以使圖書館數(shù)據(jù)成為萬維網(wǎng)甚至是語義網(wǎng)的一部分,自被提出至現(xiàn)在,學(xué)者對其展開了激烈討論。[27-30]而BIBFRAME自身也在不斷得到完善和發(fā)展。2015年10月,美國國會圖書館發(fā)布了BIBFRAME 2.0草案,宣布將原始的作品、實(shí)例、規(guī)范、注釋四個核心類變?yōu)樽髌?、?shí)例、單件3個核心類;取消規(guī)范核心類,規(guī)范控制不再依賴于規(guī)范檢索點(diǎn);取消注釋核心類,可以復(fù)用成熟關(guān)聯(lián)詞表數(shù)據(jù);新增單件核心類,可以跨越書目和館藏格式;核心類的變化使得信息揭示更加靈活、輕便、準(zhǔn)確。[31]目前,國內(nèi)關(guān)于BIBFRAME的研究僅限于理論介紹[32-35]方面,僅上海圖書館開展了基于BIBFRAME的家譜本體設(shè)計,并取得了實(shí)質(zhì)性實(shí)踐成果。[36,37]
書目框架BIBFRAME作為下一代取代MARC的書目數(shù)據(jù)格式標(biāo)準(zhǔn),能夠?yàn)椤叭祟愇幕洃洐C(jī)構(gòu)”(如圖書館、檔案館、博物館等)共同使用,具有較好的包容性、可擴(kuò)展性和開放性,其詞匯也可以反映科技報告資源的文獻(xiàn)特征;同時,它也是一個基于關(guān)聯(lián)數(shù)據(jù)的書目數(shù)據(jù)模型,包含人、機(jī)構(gòu)等概念,適用于科技報告資源內(nèi)容相關(guān)實(shí)體的描述,滿足規(guī)范控制的需求。因此,利用BIBFRAME書目框架對科技報告資源進(jìn)行描述和組織,將科技報告之間、科技報告與其他實(shí)體資源之間進(jìn)行關(guān)聯(lián),能夠提高科技報告資源的利用程度,為改善國內(nèi)科技資源缺乏統(tǒng)籌協(xié)調(diào),呈現(xiàn)低效、重復(fù)、分散、封閉、碎片化的局面而提供建議與指導(dǎo)。
BIBFRAME應(yīng)用于科技報告資源相關(guān)實(shí)體間的關(guān)聯(lián)構(gòu)建方面,在理論上和技術(shù)上均具有可行性。在理論方面,基于BIBFRAME的科技報告描述可以將其中蘊(yùn)含的知識內(nèi)容與物理載體形式區(qū)分開來,并可以很好地識別信息實(shí)體,揭示和利用實(shí)體間的關(guān)聯(lián)的核心思想也與科技報告領(lǐng)域資源實(shí)體關(guān)系不謀而合。在技術(shù)方面,BIBFRAME采用關(guān)聯(lián)數(shù)據(jù)的規(guī)則來組織、展示和分享數(shù)據(jù),可實(shí)現(xiàn)資源的識別和定位。BIBFRAME采用知識本體對數(shù)據(jù)建模,其框架模型用OWL本體詞表發(fā)布,同時提供RDF文件以供下載。本體的核心概念是類與屬性,屬性可以表示類與類之間的關(guān)系??萍紙蟾骖I(lǐng)域核心概念如人員、項(xiàng)目、機(jī)構(gòu)等可以用類表示,而對象屬性則可以刻畫它們之間的聯(lián)系。在整個詞表體系下,科技報告相關(guān)數(shù)據(jù)成為類的實(shí)例,進(jìn)而成為嚴(yán)格規(guī)范的語義單元,數(shù)據(jù)之間的關(guān)系可以用規(guī)范謂詞來表達(dá),可以被機(jī)器理解與處理,從而具備了語義。
這里提出科技報告資源描述與組織框架的主要目的有兩個:一是實(shí)現(xiàn)對科技報告資源的語義化描述與組織;二是實(shí)現(xiàn)相關(guān)科研實(shí)體間的關(guān)聯(lián)構(gòu)建,并在此基礎(chǔ)上提供服務(wù)。因此本框架主要涉及的流程是元數(shù)據(jù)的抽取、元數(shù)據(jù)與BIBFRAME詞表的映射、關(guān)聯(lián)數(shù)據(jù)的發(fā)布和最終的語義服務(wù)4個層次步驟 (見圖 1)。
整個描述與組織框架面臨的資源主要是存儲在數(shù)據(jù)庫中的科技報告,而管理這些資源的基本手段是利用元數(shù)據(jù)對其進(jìn)行描述與組織。元數(shù)據(jù)是人為設(shè)計的、用來描述各種資源的規(guī)范標(biāo)準(zhǔn),如書目元數(shù)據(jù)MARC、DC等。由于資源種類的不斷增多,同一機(jī)構(gòu)的不同類資源、不同機(jī)構(gòu)同類型資源間都有可能采用不同的元數(shù)據(jù)標(biāo)準(zhǔn)。我國科技報告元數(shù)據(jù)規(guī)范包括13個核心元素,27個元素修飾詞,根據(jù)國家科技報告服務(wù)系統(tǒng)收錄信息對其進(jìn)行抽取,并歸納為描述性元數(shù)據(jù)(題目、交替題名、關(guān)鍵詞、摘要、報告類型、頁碼、科技報告編號、語種、報告密級、提交日期)、作者元數(shù)據(jù)(作者、作者單位)、項(xiàng)目元數(shù)據(jù)(項(xiàng)目/課題名稱、項(xiàng)目/課題承擔(dān)單位)、館藏元數(shù)據(jù)(館藏號、館藏機(jī)構(gòu))和機(jī)構(gòu)元數(shù)據(jù)五大類,此處可以將機(jī)構(gòu)定義為作者、館藏、項(xiàng)目/課題對象的屬性即可。普通的元數(shù)據(jù)標(biāo)準(zhǔn)雖然提供了資源描述的語義基礎(chǔ),但是不能完全解決語義異構(gòu)問題以及資源對象之間存在的復(fù)雜的關(guān)聯(lián)關(guān)系,[38]因此需要將其與BIBFRAME等元數(shù)據(jù)進(jìn)行映射。
圖1 科技報告資源描述與組織框架示意圖
BIBFRAME書目框架是圖書館領(lǐng)域一個最新的元數(shù)據(jù)本體模型,包含許多不同的實(shí)體類和屬性,并由專門的書目框架術(shù)語詞表進(jìn)行定義??萍紙蟾孀鳛橐环N文獻(xiàn)資源,其元數(shù)據(jù)規(guī)范在很大程度上和書目元數(shù)據(jù)規(guī)范是共通的,如都有題目、責(zé)任者、主題、館藏、語種、格式等描述項(xiàng),因此可以將書目框架模型作為基礎(chǔ),將科技報告元數(shù)據(jù)與書目框架元數(shù)據(jù)詞表建立映射。需要指出的是,這里的映射包含元數(shù)據(jù)項(xiàng)目本身的映射,也包括關(guān)系的映射,如人員是科技報告的作者或責(zé)任者,那么BIBFRAME中將會有bf:agent和bf:contributor等屬性與其對應(yīng)。對于無法利用書目框架建立映射的項(xiàng)目,考慮采用復(fù)用其他詞表的方法來解決。在整個關(guān)聯(lián)網(wǎng)絡(luò)中,還存在人員、機(jī)構(gòu)等其他科學(xué)數(shù)據(jù),主要利用現(xiàn)有本體詞表或者現(xiàn)有詞表的擴(kuò)展進(jìn)行描述。
通過元數(shù)據(jù)映射和關(guān)系映射,框架可以描述元數(shù)據(jù)信息和揭示它們之間的顯性語義關(guān)系,但無法揭示深層次的語義關(guān)系;而且元數(shù)據(jù)本體多是基于領(lǐng)域的,無法揭示資源與其他領(lǐng)域資源的關(guān)系。而關(guān)聯(lián)數(shù)據(jù)作為信息庫對外發(fā)布并提供數(shù)據(jù)訪問服務(wù)的形式,可以很好地解決這個問題。關(guān)聯(lián)數(shù)據(jù)借助HTTP URI的方式表示和存取“資源”,[33]此處“資源”既可以是信息資源,也可以是非信息資源,如果是前者,則通過傳統(tǒng)的Web方式獲取,后者則需要鏈接到一個以RDF/XML編碼的數(shù)據(jù)文件,該編碼文件包含了該“非信息資源”的元數(shù)據(jù)描述及其與其他實(shí)體對象的關(guān)系描述。借助關(guān)聯(lián)數(shù)據(jù)可以在不同領(lǐng)域本體間建立關(guān)聯(lián),從而將科技報告與科技報告、科技報告與其他實(shí)體資源關(guān)聯(lián)起來,更進(jìn)一步地講,還可以將科技報告與其他知識組織系統(tǒng)(如DBpedia等)關(guān)聯(lián)起來,從而使科技報告資源成為整個語義網(wǎng)的一部分。
在服務(wù)層/應(yīng)用層需要實(shí)現(xiàn)的是對關(guān)聯(lián)數(shù)據(jù)的統(tǒng)一瀏覽和檢索以及其他語義互操作。關(guān)聯(lián)數(shù)據(jù)層實(shí)現(xiàn)科技報告語義數(shù)據(jù)的構(gòu)建與關(guān)聯(lián),而服務(wù)層則要實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)的Web發(fā)布與查詢。在選擇合適的發(fā)布方式時,需要考慮待發(fā)布數(shù)據(jù)的數(shù)據(jù)量、存儲方式、更新頻率等因素。根據(jù)上述因素選擇發(fā)布靜態(tài)RDF文檔,或基于關(guān)系型數(shù)據(jù)庫的發(fā)布方式,或基于API封裝的發(fā)布方式等??萍紙蟾骊P(guān)聯(lián)數(shù)據(jù)的查詢目前有很多不同的RDF查詢語言,應(yīng)用最廣泛的是SPARQL查詢語言。更進(jìn)一層的是,可以提供界面更加友好的問答式檢索,并允許用戶以自然語言的方式表達(dá)需求并獲取結(jié)果。
書目框架BIBFRAME的核心數(shù)據(jù)模型為Work—Instance—Item,即作品—實(shí)例—單件。按照BIBFRAME的定義,作品—實(shí)例—單件之間的實(shí)體關(guān)系模型是1:n:n的關(guān)系,即1個作品對應(yīng)多個實(shí)例,1個實(shí)例對應(yīng)多個單件。同樣地,將一件科技報告作為一個“作品”,那么該科技報告的不同版本(電子版、紙質(zhì)版等)可以看成是不同的“實(shí)例”,每一次出版的情況,包括出版時間、地點(diǎn)等都有相關(guān)描述。國家科技報告服務(wù)系統(tǒng)的上線,以及我國科技報告呈繳開發(fā)系統(tǒng)的使用,表明未來科技報告的管理和服務(wù)將日趨網(wǎng)絡(luò)化、電子化。因此,本文將書目框架模型進(jìn)行適當(dāng)?shù)恼{(diào)整,在只考慮科技報告電子版的情況下,構(gòu)建了科技報告書目結(jié)構(gòu)模型(見圖2)。
圖2 科技報告書目結(jié)構(gòu)模型
以獲2013年度國家科學(xué)技術(shù)進(jìn)步獎的《超強(qiáng)化旋浮銅冶煉和無氧化還原精煉工藝研發(fā)及產(chǎn)業(yè)化應(yīng)用》報告為例,該報告有不同的收藏機(jī)構(gòu),包括中國國家科技報告服務(wù)系統(tǒng)、山東科技報告服務(wù)系統(tǒng)和國家科技圖書文獻(xiàn)中心等。對于某些國際合作科技項(xiàng)目來說,收藏者還包括其他國家或者國際機(jī)構(gòu)等。而館藏信息正是“單件”的顯著特征,因此將這些不同館藏地的電子版科技報告作為其“單件”。在單純考慮電子版的情況下,將BIBFRAME核心模型簡化為1:1:n的關(guān)系,即一件科技報告對應(yīng)一個實(shí)例(電子版),一個實(shí)例對應(yīng)多個單件(存儲在國家科技報告服務(wù)系統(tǒng)、地方科技報告服務(wù)系統(tǒng)等的版本)。
知識本體包含每一個術(shù)語的明確定義及其關(guān)系,術(shù)語包括類(Class)和屬性(Property),類是同一類實(shí)體對象的抽象,屬性是對類的各種特征的抽象,對象屬性(Object Property)用于表示類與類之間的關(guān)系,數(shù)值屬性(Data Property)用于表示實(shí)體的內(nèi)在屬性。BIBFRAME書目框架模型作為本體詞表發(fā)布,命名空間為http://bibframe.org/vocab/,前綴為bf。BIBFRAME書目框架除了定義核心類外,一些與資源相關(guān)的其他資源也被定義為資源類bf:Resource的子類??萍紙蟾孀鳛槊枋隹蒲谢顒舆^程、進(jìn)展與結(jié)果的科技文獻(xiàn),作為非正式出版物,與圖書、期刊論文、檔案等有著明顯的區(qū)別,因而將BIBFRAME引入科技報告元數(shù)據(jù)規(guī)范中需要考慮容納現(xiàn)有的數(shù)據(jù)項(xiàng),基于現(xiàn)有數(shù)據(jù)結(jié)構(gòu)來厘清數(shù)據(jù)之間的關(guān)系,根據(jù)元數(shù)據(jù)元素來決定需要哪些屬性??萍紙蟾嫖墨I(xiàn)資源中包含資源相關(guān)的特征如題名、作者、語種等均可以在書目框架中找到對應(yīng)的屬性來表達(dá)科技報告的特征。對于無法找到對應(yīng)的屬性來描述的項(xiàng)目,則復(fù)用已有本體中的屬性,如報告密級。本體是建立在元數(shù)據(jù)方案之上的,科技報告文獻(xiàn)資源核心元數(shù)據(jù)與BIBFRAME詞表映射關(guān)系見下表。
表 科技報告核心元數(shù)據(jù)與BIBFRAME2.0詞匯映射關(guān)系
我國目前的科技報告依據(jù)保密等級分為公開、限制、機(jī)密和絕密四個級別,而書目數(shù)據(jù)中并沒有合適字段來進(jìn)行描述,因此借用其他描述詞匯dc:access-Rights來進(jìn)行描述。屬性bf:date下有許多子屬性,包括bf:originDate、bf:legalDate、bf:copyrightDate等,每個屬性都代表不同的日期,可見BIBFRAME詞匯語義的豐富性和靈活性,選取bf:originDate來對完成日期進(jìn)行描述等。元數(shù)據(jù)與BIBFRAME 2.0詞表的映射不僅實(shí)現(xiàn)了從元數(shù)據(jù)向元數(shù)據(jù)本體的轉(zhuǎn)化,更將文獻(xiàn)資源與實(shí)體資源之間的關(guān)系包含在其中。
在書目框架中,很多在元數(shù)據(jù)記錄中取值范圍為字符串的屬性被作為實(shí)體對象屬性來處理,如作者項(xiàng)bf:agent,其屬性類別為Object Property,這說明作者是一個類,據(jù)此可以聯(lián)系科技報告與科研人員,揭示實(shí)體間的關(guān)聯(lián)。而有些元數(shù)據(jù)項(xiàng)既可以選擇為數(shù)值屬性(Data Property),也可以選擇為對象屬性(Object Property),根據(jù)實(shí)際情況選擇是否實(shí)現(xiàn)與其他類的聯(lián)系。
科技報告元數(shù)據(jù)與BIBFRAME詞表映射,解決了科技報告文獻(xiàn)資源的語義描述問題,對于整個關(guān)聯(lián)網(wǎng)絡(luò)中的其他資源,如人員、機(jī)構(gòu)、項(xiàng)目、會議等,BIBFRAME 2.0中也定義了相關(guān)實(shí)體類來對其進(jìn)行描述。BIBFRAME 2.0中的Agent類其上位類是FOAF本體中的 Agent類。FOAF (Friend of Friend)[39]本體是一個面向社會網(wǎng)絡(luò)關(guān)系的領(lǐng)域本體,其中foaf:Agent類下有foaf:Person、foaf:Group、foaf:Organization三個子類,屬性包括 foaf:gender、foaf:birthday、foaf:topic_interests等。BIBFRAME 2.0中,bf:Agent類即來源于foaf:Agent類,包括bf:Person、bf:Organization、bf:Family、bf:Meeting和bf:Jurisdiction五類。對于項(xiàng)目資源,復(fù)用foaf:Project,如上表中所示。此外,科學(xué)研究會議會產(chǎn)生一些事件等,不少應(yīng)用乃至本體中都有“事件”實(shí)體,比如BIBFRME中的Event類,很多時候復(fù)用“事件本體”。Event[40]本體由倫敦瑪麗皇后大學(xué)的數(shù)字音樂中心開發(fā),將圍繞事件的實(shí)體分為6類,事件/子事件、代理、因子、產(chǎn)品、時間、空間,其中“代理”是指起作用者,即人或計算機(jī),“因子”指除了代理外的其他參與因素。事件本體只提供一個簡單的框架,對象與類都沒有細(xì)化,由于其簡單性和可用性,事件本體已經(jīng)在廣泛語境下被證明有用。事件本體使用4個命名空間,除本身(http://purl.org/NET/c4dm/event.owl#)外,復(fù)用人物、時間、地理3個本體。因此會議事件既可以用Event本體來表示,也可以用Agent類中的bf:Meeting來表示。
科技報告資源關(guān)聯(lián)整合網(wǎng)絡(luò)作為包含文獻(xiàn)資源與其他實(shí)體資源的網(wǎng)絡(luò),文獻(xiàn)資源之間更多依賴主題特征建立關(guān)聯(lián),比如內(nèi)容上存在引用與被引用或部分與整體的關(guān)系等,而文獻(xiàn)資源與其他實(shí)體資源之間的關(guān)聯(lián)多依賴于外部特征?;谙嚓P(guān)本體的設(shè)計,作者構(gòu)建了科技報告領(lǐng)域語義關(guān)聯(lián)模型,該模型并不試圖容納揭示相關(guān)資源間的全部關(guān)聯(lián),而是形式化描述各種類與類間的關(guān)聯(lián)(見圖3)。
圖3 科技報告領(lǐng)域資源關(guān)聯(lián)示意圖
圖3中科技報告文獻(xiàn)資源用橢圓表示,其他實(shí)體資源用矩形表示,用帶箭頭的有向線條表示屬性,類及屬性的適用對象和期望值可從圖中的有向線條及其起止點(diǎn)看出。一個科研項(xiàng)目可能會產(chǎn)生多份科技報告,因此科技報告之間會存在bf:references與bf:referencedBy(引用與被引用)、bf:partOf和bf:hasPart(部分與整體)、bf:continues和bf:continuedBy(前后連續(xù)關(guān)系)等互逆關(guān)系,不同科技報告之間還可以借助bf:subject(主題)建立關(guān)聯(lián)。此外,科技報告與科研人員之間通過bf:agent和bf:contributor等建立關(guān)聯(lián);科技報告與機(jī)構(gòu)之間借助bf:heldBy和bf:provisionActivity等建立關(guān)聯(lián);項(xiàng)目/課題通過foaf:currentProject建立與科研人員之間的關(guān)聯(lián),借助bf:eventContentOf和bf:event-Content建立與科技報告間的關(guān)聯(lián)。此外科技報告與會議事件、機(jī)構(gòu)與事件等也存在關(guān)聯(lián)。科技報告領(lǐng)域各種資源間的聯(lián)系是復(fù)雜多樣的,BIBFRAME詞匯也是極其豐富的,也可以復(fù)用其他已有本體,根據(jù)實(shí)際資源關(guān)聯(lián)整合情況進(jìn)行擴(kuò)展。
實(shí)證研究部分主要是對框架中的關(guān)鍵步驟,即元數(shù)據(jù)抽取、映射和關(guān)聯(lián)數(shù)據(jù)發(fā)布進(jìn)行了實(shí)現(xiàn)。本研究選擇國家科技報告服務(wù)系統(tǒng)中國家科技重大專項(xiàng)“高檔數(shù)字機(jī)床與基礎(chǔ)制造技術(shù)”的134篇科技報告為研究對象,下載其題名、關(guān)鍵詞、作者等元數(shù)據(jù)記錄,其元數(shù)據(jù)與上表中類與屬性相對應(yīng),并保存在關(guān)系型數(shù)據(jù)庫中。通過其他數(shù)據(jù)庫,補(bǔ)充并完善科技報告中所含人員(姓名、工作單位等)、科研項(xiàng)目(項(xiàng)目名稱、參與人員、承擔(dān)單位等)和科研機(jī)構(gòu)(機(jī)構(gòu)名稱、通訊地址等)相關(guān)信息。根據(jù)實(shí)際情況和現(xiàn)有數(shù)據(jù),本實(shí)驗(yàn)選取的實(shí)體內(nèi)容包括報告(Paper)、人員(Person)、項(xiàng)目(Project)和承擔(dān)機(jī)構(gòu)(Organization)四類。為每個實(shí)體分配一個URI,形式為
本研究在充分考察科技報告領(lǐng)域資源特征、相關(guān)實(shí)體及聯(lián)系的基礎(chǔ)上,指出了BIBFRAME應(yīng)用于科技報告資源關(guān)聯(lián)整合的可行性,并據(jù)此提出了一個基于外部特征的科技報告資源描述與組織框架?;谡麄€框架,本文首先提出改進(jìn)的科技報告書目概念模型,接著將科技報告的元數(shù)據(jù)與BIBFRAME詞表進(jìn)行映射,實(shí)現(xiàn)科技報告資源的描述與著錄,并利用BIBFRAME相關(guān)屬性實(shí)現(xiàn)了科技報告領(lǐng)域相關(guān)實(shí)體間的關(guān)系描述。
書目框架作為基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的本體模型,既可以揭示科技報告文獻(xiàn)資源的特征,也可以揭示圍繞科技報告的各種實(shí)體,如科技人員、科研機(jī)構(gòu)和科技項(xiàng)目之間的關(guān)聯(lián)關(guān)系,能夠有效提高科技報告利用率和加強(qiáng)對科技活動的監(jiān)測和管理等,提升了科技報告領(lǐng)域的服務(wù)和管理水平。然而,目前書目框架項(xiàng)目尚在進(jìn)行之中,一些細(xì)節(jié)問題并未得到解決或者正處于討論階段,因此基于BIBFRAME書目框架的科技報告資源關(guān)聯(lián)整合研究主要以書目框架的核心模型為基礎(chǔ),之后可能需要進(jìn)一步完善和修訂,并要考慮書目框架和其他已成熟本體的關(guān)系,深入考慮基于內(nèi)容特征的科技報告資源與其他科技資源的關(guān)聯(lián)整合和知識發(fā)現(xiàn),是BIBFRAME書目框架需要解決的問題,也是本課題后續(xù)的研究方向。