施艷萍 李陽
摘要:[目的/意義]當(dāng)前人文社科專題數(shù)據(jù)庫之間存在資源分散獨(dú)立、難以互操作的問題,關(guān)聯(lián)數(shù)據(jù)模型的提出能夠建立人文社科專題數(shù)據(jù)庫之間的聯(lián)系,深度揭示資源實(shí)體的語義關(guān)系,促進(jìn)互操作。[方法/過程]構(gòu)建了面向人文社科專題數(shù)據(jù)庫的關(guān)聯(lián)數(shù)據(jù)模型,模型包括數(shù)據(jù)采集層、資源描述層、本體構(gòu)建層、關(guān)聯(lián)數(shù)據(jù)層以及綜合應(yīng)用層,并以相關(guān)文獻(xiàn)數(shù)據(jù)平臺(tái)為實(shí)例對(duì)該模型進(jìn)行了實(shí)證分析。[結(jié)果/結(jié)論]關(guān)聯(lián)數(shù)據(jù)模型是人文社科專題數(shù)據(jù)庫建設(shè)規(guī)范化管理的重要內(nèi)容,人文社科專題數(shù)據(jù)庫關(guān)聯(lián)數(shù)據(jù)模型的實(shí)踐與應(yīng)用可有效推進(jìn)相關(guān)資源整合、數(shù)據(jù)共享等工作的展開。
關(guān)鍵詞:人文社科;專題數(shù)據(jù)庫;關(guān)聯(lián)數(shù)據(jù)模型;元數(shù)據(jù)規(guī)范;本體
DOl: 10 .3969/j .issn .1008 -0821 .2019 .12 .003
[中圖分類號(hào)] G250. 74 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008-0821( 2019) 12-0019-09
專題數(shù)據(jù)庫是面向特定主題的數(shù)據(jù)資源集成平臺(tái),具有類型多樣、專業(yè)性強(qiáng)、內(nèi)容專深的特點(diǎn)。在人文社科領(lǐng)域,專題數(shù)據(jù)庫是人文社會(huì)科學(xué)數(shù)據(jù)資源開發(fā)與利用的創(chuàng)新手段和重要途徑,在學(xué)術(shù)資料提供、戰(zhàn)略決策支持、傳統(tǒng)文化傳承等方面發(fā)揮著重要作用。然而,由于建庫導(dǎo)向的差異,目前各級(jí)各類人文社科專題數(shù)據(jù)庫建設(shè)彼此之間相互割裂,形成了一個(gè)個(gè)知識(shí)孤島。一方面,現(xiàn)有的專題數(shù)據(jù)庫種類繁多,各類建庫主體彼此從各自的情況和需要出發(fā)構(gòu)建了內(nèi)部的數(shù)據(jù)模型和服務(wù)架構(gòu),缺乏統(tǒng)一公認(rèn)的規(guī)范標(biāo)準(zhǔn)體系;另一方面,專題數(shù)據(jù)庫本身作為一種系統(tǒng)性、“標(biāo)識(shí)性”的數(shù)據(jù)資源集成,其數(shù)據(jù)資源量多龐雜、異質(zhì)多元。因此,以傳統(tǒng)方式來進(jìn)行數(shù)據(jù)和信息組織并不能解釋資源之間的內(nèi)在邏輯關(guān)系,無法形成語義上的勾連,也不便于服務(wù)端用戶的檢索利用。
隨著開放科學(xué)、協(xié)同創(chuàng)新等理念的興起,傳統(tǒng)的以機(jī)構(gòu)、資源為導(dǎo)向的專題數(shù)據(jù)庫建設(shè)方式已經(jīng)不能滿足社會(huì)對(duì)資源共享互通的需求,特別是在大數(shù)據(jù)、智慧數(shù)據(jù)等理念的影響下,人文社科專題數(shù)據(jù)庫亟需序化組織建設(shè),以規(guī)避信息迷航等問題。關(guān)聯(lián)數(shù)據(jù)作為數(shù)據(jù)庫序化建設(shè)的基本技術(shù),能夠有效進(jìn)行信息組織,促進(jìn)數(shù)據(jù)的關(guān)聯(lián)共享。為此,需要應(yīng)用關(guān)聯(lián)數(shù)據(jù)及其相關(guān)技術(shù)將不同領(lǐng)域、不同類型的專題數(shù)據(jù)庫關(guān)聯(lián)起來,推動(dòng)其整合復(fù)用,實(shí)現(xiàn)知識(shí)的共享共建。具體來說,就是通過構(gòu)建人文社科專題數(shù)據(jù)庫關(guān)聯(lián)數(shù)據(jù)模型,整合碎片化信息資源,揭示資源實(shí)體的語義特征,建立資源間的深度互聯(lián),提高信息資源的利用、共享和管理效率。有鑒于此,本文擬構(gòu)建面向人文社科專題數(shù)據(jù)庫的關(guān)聯(lián)數(shù)據(jù)模型并對(duì)其進(jìn)行實(shí)證,以期為人文社科專題數(shù)據(jù)庫的關(guān)聯(lián)數(shù)據(jù)實(shí)踐提供示范參考。
1 相關(guān)文獻(xiàn)綜述
數(shù)據(jù)資源作為專題數(shù)據(jù)庫建設(shè)的基石,其組織聚合至關(guān)重要,在這一過程中關(guān)聯(lián)數(shù)據(jù)及其相關(guān)技術(shù)發(fā)揮著重要作用。關(guān)聯(lián)數(shù)據(jù)由語義網(wǎng)的創(chuàng)始人Berners-Lee T于2006年首次提出,是一種在語義網(wǎng)上發(fā)布、共享和聯(lián)接各類型數(shù)據(jù)資源的方式[1]。經(jīng)過十余年的發(fā)展,關(guān)聯(lián)數(shù)據(jù)已有較高的接受度與使用率,應(yīng)用領(lǐng)域也在不斷擴(kuò)大,相關(guān)研究從概念探討、技術(shù)介紹發(fā)展到實(shí)踐應(yīng)用層面。
在關(guān)聯(lián)數(shù)據(jù)技術(shù)介紹層面,沈志宏等在Bem-ers-Lee T制定的關(guān)于內(nèi)容描述的關(guān)聯(lián)數(shù)據(jù)發(fā)布的“四大基本原則”的基礎(chǔ)上,提出了關(guān)聯(lián)數(shù)據(jù)技術(shù)體系,包括關(guān)聯(lián)數(shù)據(jù)的數(shù)據(jù)內(nèi)容與組織技術(shù)、創(chuàng)建與發(fā)布技術(shù)、瀏覽與檢索技術(shù)、互聯(lián)與維護(hù)技術(shù)[2],該技術(shù)體系揭示了關(guān)聯(lián)數(shù)據(jù)技術(shù)的中心工作為生產(chǎn)數(shù)據(jù)和消費(fèi)數(shù)據(jù)。其中,關(guān)聯(lián)數(shù)據(jù)的創(chuàng)建與發(fā)布技術(shù)、瀏覽與檢索技術(shù)可視為核心,主要包含關(guān)聯(lián)數(shù)據(jù)互聯(lián)技術(shù)、發(fā)布技術(shù)、可視化技術(shù)與自動(dòng)化問答技術(shù)。研究者們?cè)诮榻B關(guān)聯(lián)數(shù)據(jù)技術(shù)的同時(shí),嘗試將這些技術(shù)融入相關(guān)數(shù)據(jù)資源、數(shù)據(jù)庫的建設(shè)之中,如沈志宏等指出,關(guān)聯(lián)數(shù)據(jù)互聯(lián)技術(shù)的基石是HTTP與RDF,瑞典聯(lián)合目錄(LIBRIS)作為全球第一個(gè)關(guān)聯(lián)數(shù)據(jù)化的聯(lián)合目錄,可被視為圖書館界關(guān)聯(lián)數(shù)據(jù)互聯(lián)的示范應(yīng)用[3]。夏翠娟等介紹了關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù)的支撐平臺(tái)Drupal,并通過該平臺(tái)將“中國歷史紀(jì)年和公元紀(jì)年對(duì)照表”發(fā)布為關(guān)聯(lián)數(shù)據(jù)[4]。歐石燕等提出了一種面向圖書館關(guān)聯(lián)數(shù)據(jù)的自動(dòng)問答新技術(shù)[5]。陳濤等以家譜知識(shí)庫為例,列舉了一些適用于關(guān)聯(lián)數(shù)據(jù)系統(tǒng)中不同形式數(shù)據(jù)資源的可視化技術(shù)和實(shí)現(xiàn)方法,如通過JSON數(shù)據(jù)格式進(jìn)行可視化等[6]。
在關(guān)聯(lián)數(shù)據(jù)實(shí)踐應(yīng)用層面,小范圍且較為表層的數(shù)據(jù)關(guān)聯(lián)實(shí)現(xiàn)依然是主流。研究者們主要以案例分析的方法展開相關(guān)研究,如大多基于關(guān)聯(lián)數(shù)據(jù)的基本規(guī)則,提出特定類型資源的關(guān)聯(lián)數(shù)據(jù)模型,或通過使用D2R、Drupal等知識(shí)組織平臺(tái)構(gòu)建并發(fā)布特定領(lǐng)域數(shù)據(jù)庫/知識(shí)庫資源的關(guān)聯(lián)數(shù)據(jù)集。如劉美杏等構(gòu)建了古道線性文化遺產(chǎn)的關(guān)聯(lián)數(shù)據(jù)模型[7];張樂等以民國建筑知識(shí)庫為例,設(shè)計(jì)了相關(guān)關(guān)聯(lián)數(shù)據(jù)本體,并通過Drupal平臺(tái)實(shí)現(xiàn)了民國建筑關(guān)聯(lián)數(shù)據(jù)的發(fā)布[8];董坤等構(gòu)建了MOOC資源本體描述模型,并借助D2RQ關(guān)聯(lián)數(shù)據(jù)發(fā)布平臺(tái)實(shí)現(xiàn)了MOOC資源主體及其之間關(guān)聯(lián)關(guān)系的語義化揭示[9];上海圖書館則發(fā)布了家譜關(guān)聯(lián)數(shù)據(jù)集[10]等等。以上研究中涉及資源所屬范圍或領(lǐng)域有一定程度的狹隘性,且這些關(guān)聯(lián)數(shù)據(jù)并沒有直接的聯(lián)系,處于分散獨(dú)立狀態(tài)。
綜上所述,現(xiàn)有文獻(xiàn)的關(guān)注點(diǎn)聚焦于關(guān)聯(lián)數(shù)據(jù)技術(shù)的開發(fā)與應(yīng)用,但是研究止步于對(duì)特定領(lǐng)域、特定資源類型關(guān)聯(lián)數(shù)據(jù)的探索,而鮮有面向整個(gè)人文社科領(lǐng)域的專題數(shù)據(jù)庫關(guān)聯(lián)數(shù)據(jù)的研究。作為知識(shí)資源的集散地,人文社科專題數(shù)據(jù)庫數(shù)據(jù)資源具有多種類、高價(jià)值的特征,然而目前人文社科專題數(shù)據(jù)庫內(nèi)的資源趨于分散、斷面,數(shù)據(jù)資源的關(guān)聯(lián)數(shù)據(jù)也聯(lián)系薄弱,同時(shí)庫與庫之間也是相互孤立的。此外,隨著數(shù)字人文、社會(huì)計(jì)算等領(lǐng)域的發(fā)展,數(shù)據(jù)資源在人文社科研究中的地位不斷提升,人文社科的研究范式和研究問題發(fā)生變革,科研工作者等主體對(duì)跨領(lǐng)域數(shù)據(jù)的需求增加,因而人文社科專題數(shù)據(jù)庫建設(shè)也應(yīng)該以相關(guān)主體對(duì)數(shù)據(jù)資源的融合需求為導(dǎo)向,與時(shí)俱進(jìn)。
有鑒于此,進(jìn)一步挖掘與關(guān)聯(lián)人文社科專題數(shù)據(jù)庫數(shù)據(jù)資源,構(gòu)建面向人文社科專題數(shù)據(jù)庫的關(guān)聯(lián)數(shù)據(jù)模型具有重要價(jià)值。在此背景下,如何打破各人文社科專題數(shù)據(jù)庫孤立、異構(gòu)且只將重點(diǎn)放在本庫數(shù)據(jù)關(guān)聯(lián)組織的局面,實(shí)現(xiàn)專題數(shù)據(jù)庫之間、專題數(shù)據(jù)庫與外部資源的互聯(lián)互通,成為一個(gè)值得關(guān)注的議題。
2 人文社科專題數(shù)據(jù)庫關(guān)聯(lián)數(shù)據(jù)模型框架
目前,人文社科專題數(shù)據(jù)庫數(shù)量眾多,政府部門、高校、研究機(jī)構(gòu)、企業(yè)單位、非政府組織(NGO)以及非營利組織(NPO)等不同主體在不同的需求導(dǎo)向下紛紛建立了各種專題網(wǎng)站和數(shù)據(jù)庫平臺(tái)。然而,不同領(lǐng)域、不同類型的專題數(shù)據(jù)庫的數(shù)據(jù)資源之間缺乏統(tǒng)一的描述與組織方法,整體之間缺乏知識(shí)的關(guān)聯(lián)和流動(dòng),因此亟需建立一種通用的、與領(lǐng)域無關(guān)的關(guān)聯(lián)數(shù)據(jù)框架,鏈接單庫或多庫的數(shù)據(jù)資源。
基于此,本研究擬構(gòu)建一個(gè)面向人文社科專題數(shù)據(jù)庫的關(guān)聯(lián)數(shù)據(jù)模型,該模型以元數(shù)據(jù)為基礎(chǔ),對(duì)采集到的數(shù)據(jù)資源進(jìn)行語義化描述,而后采用本體、關(guān)聯(lián)數(shù)據(jù)技術(shù)進(jìn)行知識(shí)組織,以實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)之間的共享互聯(lián)。如圖1所示,該關(guān)聯(lián)數(shù)據(jù)模型共有5個(gè)層次,分別為:
1)數(shù)據(jù)采集層,主要工作為專題數(shù)據(jù)庫基本數(shù)據(jù)資源實(shí)體及其屬性的采集與清洗;
2)資源描述層,基于數(shù)據(jù)采集層采集并清洗的數(shù)據(jù),選用合適的元數(shù)據(jù)規(guī)范描述各類資源實(shí)體的屬性特征,并借助資源描述框架( RDF)工具呈現(xiàn)資源實(shí)體的語義內(nèi)容;
3)本體構(gòu)建層,在元數(shù)據(jù)語義描述的基礎(chǔ)上,選擇適用的本體構(gòu)建方法構(gòu)建目標(biāo)資源本體,以實(shí)現(xiàn)各類元數(shù)據(jù)的語義互操作;
4)關(guān)聯(lián)數(shù)據(jù)層,本層將根據(jù)關(guān)聯(lián)數(shù)據(jù)的標(biāo)準(zhǔn)對(duì)上述元數(shù)據(jù)本體進(jìn)行關(guān)聯(lián),形成一個(gè)資源聚合網(wǎng)絡(luò),以揭示資源實(shí)體間的隱性關(guān)系;
5)綜合應(yīng)用層,主要工作為發(fā)布關(guān)聯(lián)數(shù)據(jù)并為用戶提供瀏覽、檢索、共享等服務(wù)。
以抗日戰(zhàn)爭與近代中日關(guān)系文獻(xiàn)數(shù)據(jù)平臺(tái)(以下簡稱案例平臺(tái))為參照實(shí)例對(duì)上述模型進(jìn)行實(shí)證,驗(yàn)證該模型的可行性。該案例平臺(tái)是一個(gè)對(duì)外開放使用的專題數(shù)據(jù)庫,擁有文獻(xiàn)、圖片、音頻等多類型資源,便于關(guān)聯(lián)數(shù)據(jù)的構(gòu)建。
3 數(shù)據(jù)采集層
如圖1,數(shù)據(jù)采集層為構(gòu)建人文社科專題數(shù)據(jù)庫關(guān)聯(lián)數(shù)據(jù)模型奠定了基礎(chǔ),成為推進(jìn)人文社科專題數(shù)據(jù)庫資源組織與利用的源動(dòng)力。在數(shù)據(jù)采集時(shí),在保證常見的數(shù)據(jù)資源實(shí)體及其基本屬性數(shù)據(jù)獲取的同時(shí),需要兼顧到人文社科專題數(shù)據(jù)庫資源異構(gòu)多元的特征,以便在基本人文社科專題數(shù)據(jù)庫資源架構(gòu)的基礎(chǔ)上,擴(kuò)充領(lǐng)域特色資源實(shí)體及其屬性數(shù)據(jù),為后續(xù)的特色化關(guān)聯(lián)數(shù)據(jù)構(gòu)建提供數(shù)據(jù)支撐。數(shù)據(jù)采集完成以后,還需要進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)分類、數(shù)據(jù)整合等數(shù)據(jù)處理步驟,為之后的元數(shù)據(jù)描述以及最終的關(guān)聯(lián)數(shù)據(jù)發(fā)布做基本數(shù)據(jù)準(zhǔn)備。表1為案例平臺(tái)資源實(shí)體類型及其屬性特征,關(guān)聯(lián)數(shù)據(jù)模型中其他環(huán)節(jié)工作的展開均依托于該表揭示的內(nèi)容。
4 資源描述層
資源描述層即元數(shù)據(jù)描述層,該層基于數(shù)據(jù)采集層中整合的資源實(shí)體屬性,通過運(yùn)用特定的元數(shù)據(jù)規(guī)范并結(jié)合RDF工具,來描述數(shù)據(jù)采集層中整合的資源實(shí)體,從而揭示其結(jié)構(gòu)特征和內(nèi)容特征,以便識(shí)別、追蹤、評(píng)價(jià)目標(biāo)數(shù)據(jù)資源,并達(dá)成高效管理的目的。
為了能夠?qū)Σ煌I(lǐng)域、不同類型、不同形式、不同時(shí)期的數(shù)據(jù)資源進(jìn)行充分描述和處理,來自不同領(lǐng)域的專業(yè)人員研究并制定了應(yīng)用于特定領(lǐng)域或特定場(chǎng)合的元數(shù)據(jù)規(guī)范。如表2所示,不同類型資源適用的元數(shù)據(jù)規(guī)范不同。通過閱讀和總結(jié)國內(nèi)外研究,篩選出表2中目前在國內(nèi)外應(yīng)用較為廣泛、較有影響力的8種元數(shù)據(jù)規(guī)范,分別為DC(都柏林核心元數(shù)據(jù))、MARC(機(jī)讀編目格式標(biāo)準(zhǔn))、VRA(視覺資料核心類目)、CDWA(藝術(shù)作品)、EAD(編碼檔案描述)、FGDC(地理空間元數(shù)據(jù)內(nèi)容標(biāo)準(zhǔn))、GILS(政府信息定位服務(wù))以及TEI(電子文本編碼與交換)[11],不同的元數(shù)據(jù)規(guī)范中有數(shù)量不等的描述元素以揭示資源實(shí)體的屬性。
以案例平臺(tái)中的音頻資源為例,使用XML語言結(jié)合RDF工具定義的通用三元組(資源一屬性一屬性值)對(duì)其屬性以及對(duì)應(yīng)的屬性值進(jìn)行描述,運(yùn)行結(jié)果如圖2所示。使用簡明、可擴(kuò)展的DC元數(shù)據(jù)規(guī)范(即Dublin Core,是目前全球應(yīng)用最廣泛、頻繁的一種元數(shù)據(jù)標(biāo)準(zhǔn))即可較為清晰完整地描述該音頻資源的各項(xiàng)屬性特征。
然而,人文社科專題數(shù)據(jù)庫內(nèi)的資源類型繁多、內(nèi)容屬性復(fù)雜,同時(shí)一種元數(shù)據(jù)規(guī)范中的元素可能不能詳盡描述一種資源實(shí)體的全部屬性,即元數(shù)據(jù)規(guī)范不可直接全盤復(fù)用,需要重新定義元素以描述最初選擇的元數(shù)據(jù)規(guī)范不可直接描述的屬性,因而面向人文社科專題數(shù)據(jù)庫資源的元數(shù)據(jù)語義化描述工作需要嚴(yán)格依照以下流程:
1)確定關(guān)系,即明確資源實(shí)體內(nèi)容及其屬性特征:
2)選擇規(guī)范,即根據(jù)資源實(shí)體內(nèi)容及其屬性特征,選擇適用的元數(shù)據(jù)規(guī)范;
3)基本描述,即使用已選元數(shù)據(jù)規(guī)范內(nèi)的基本元素對(duì)資源實(shí)體基本屬性進(jìn)行描述:
4)完善描述,即復(fù)用其他元數(shù)據(jù)規(guī)范元素或重新定義元素,以描述已選元數(shù)據(jù)規(guī)范不可描述的實(shí)體屬性,完善語義描述;
5)檢查核驗(yàn),即檢查在上述描述過程中是否有屬性遺漏未描述,同時(shí)核驗(yàn)描述語句是否有誤,若有誤,則進(jìn)一步修正完善。
綜上,同一人文社科專題數(shù)據(jù)庫內(nèi)一般采用多種元數(shù)據(jù)規(guī)范,且不同人文社科專題數(shù)據(jù)庫應(yīng)用的元數(shù)據(jù)規(guī)范更是大相徑庭,造成這些元數(shù)據(jù)規(guī)范即便擁有相同的核心元素,也無法完全兼容。此外,元數(shù)據(jù)規(guī)范是人為設(shè)計(jì)的,元素的語義內(nèi)涵缺乏統(tǒng)一明確的標(biāo)準(zhǔn),對(duì)其理解往往因人而異,所以即使依托計(jì)算機(jī)的強(qiáng)大功能也無法對(duì)元數(shù)據(jù)進(jìn)行直接處理。因此,使用元數(shù)據(jù)規(guī)范進(jìn)行資源描述雖然建立了人文社科專題數(shù)據(jù)庫的語義基礎(chǔ),但卻無從解決資源描述的異構(gòu)性與語義性的問題[12]。
5 本體構(gòu)建層與關(guān)聯(lián)數(shù)據(jù)層
由于本體構(gòu)建和關(guān)聯(lián)數(shù)據(jù)是知識(shí)組織過程的關(guān)鍵環(huán)節(jié),所以本體構(gòu)建層和關(guān)聯(lián)數(shù)據(jù)層可視為人文社科專題數(shù)據(jù)庫關(guān)聯(lián)數(shù)據(jù)模型的核心。
5.1 本體構(gòu)建層
所謂本體,即關(guān)于共享概念模型的明確、形式化的規(guī)范說明[13].此概念模型可理解為概念與概念之間的關(guān)系。本體構(gòu)建層便是彌補(bǔ)上述元數(shù)據(jù)描述局限性的關(guān)鍵環(huán)節(jié),該層基于元數(shù)據(jù)語義描述,主要任務(wù)是設(shè)計(jì)一種機(jī)制以實(shí)現(xiàn)不同元數(shù)據(jù)間的語義互操作。目前主流的本體構(gòu)建方法有二:一為多本體模式,一為混合型模式。前者的主要步驟為采用本體描述語言(一般為OWL語言)對(duì)每種元數(shù)據(jù)規(guī)范進(jìn)行本體化描述,且以構(gòu)建的元數(shù)據(jù)本體為基礎(chǔ),將目標(biāo)元數(shù)據(jù)轉(zhuǎn)變?yōu)镽DF形式,而后基于不同元數(shù)據(jù)本體之間的映射關(guān)系實(shí)現(xiàn)不同語義的RDF元數(shù)據(jù)之間的語義互操作。使用后者構(gòu)建本體,首先需要整合不同元數(shù)據(jù)規(guī)范中的概念和屬性:繼而采用本體描述語言構(gòu)建相應(yīng)的集成元數(shù)據(jù)本體,最后轉(zhuǎn)化成統(tǒng)一的具有相同語義的RDF形式,實(shí)現(xiàn)不同類型元數(shù)據(jù)的語義轉(zhuǎn)化[14]。二者的主要區(qū)別為構(gòu)建過程中使用的元數(shù)據(jù)規(guī)范是相互獨(dú)立或相互融合的。這兩種方法各有利弊,前者的靈活性較強(qiáng),語義互操作則較為復(fù)雜;而后者的語義互操作相對(duì)簡單,但靈活性較差。
考慮到人文社科專題數(shù)據(jù)庫內(nèi)的資源類型多樣、體系龐雜的特征以及本體建設(shè)對(duì)易用性、通用性的基本要求,本研究選取多本體模式來構(gòu)建一個(gè)各領(lǐng)域通用的、集成的核心元數(shù)據(jù)本體。由于DC元數(shù)據(jù)是資源描述的通用元數(shù)據(jù)規(guī)范,能夠比較全面地揭示數(shù)字資源的主要屬性特征,且應(yīng)用廣泛,因此本核心元數(shù)據(jù)本體構(gòu)建擬采用以DC元數(shù)據(jù)為主的元數(shù)據(jù)規(guī)范.DC元數(shù)據(jù)具有15個(gè)核心元素,可表示為“DCTERMS:元素名稱”的形式,并輔以FOAF等其他元數(shù)據(jù)本體。各領(lǐng)域、各類型人文社科專題數(shù)據(jù)庫一般擁有文檔、圖片、音頻和視頻4種組織形式的資源,因而在該核心元數(shù)據(jù)本體中,按照組織形式將數(shù)據(jù)資源分為文檔( Docu-ment)、圖片(Image)、音頻(Audio)和視頻(Video)4種類型。文檔(Document)部分?jǐn)M整合復(fù)用歐石燕構(gòu)建的數(shù)字圖書館文獻(xiàn)資源核心元數(shù)據(jù)本體[14]。一方面,現(xiàn)有領(lǐng)域本體較為成熟,可以提高語義的精確性:另一方面,復(fù)用已有領(lǐng)域本體可以在一定程度上降低人文社科專題數(shù)據(jù)庫資源本體的構(gòu)建難度,支撐之后的關(guān)聯(lián)數(shù)據(jù)構(gòu)建。對(duì)于人文社科專題數(shù)據(jù)庫資源涉及人員信息,本研究選擇復(fù)用現(xiàn)有本體FOAF中的Agent類及其相關(guān)屬性進(jìn)行描述,主要屬性有Name、Title、Gender等。因此,人文社科專題數(shù)據(jù)庫核心元數(shù)據(jù)本體中相關(guān)類和屬性如圖3所示。
5.2 關(guān)聯(lián)數(shù)據(jù)層
關(guān)聯(lián)數(shù)據(jù)層的主要目標(biāo)是構(gòu)建相關(guān)資源的關(guān)聯(lián)數(shù)據(jù)框架,在元數(shù)據(jù)語義描述和本體構(gòu)建環(huán)節(jié)初步實(shí)現(xiàn)人文社科專題數(shù)據(jù)庫資源語義層面上的描述和關(guān)聯(lián)關(guān)系的揭示的基礎(chǔ)上,更進(jìn)一步地揭示不同資源間的隱性語義關(guān)系,使得表面、單一、薄弱、狹窄的關(guān)聯(lián)關(guān)系能夠得到深化完善。因此,本層將以關(guān)聯(lián)數(shù)據(jù)形式將RDF語義元數(shù)據(jù)進(jìn)行相互關(guān)聯(lián),揭示不同資源間隱含的關(guān)系,使資源之間能通過RDF鏈接進(jìn)行相互訪問,將人文社科專題數(shù)據(jù)庫繁雜的資源集成一個(gè)相互關(guān)聯(lián)的有機(jī)聚合網(wǎng)絡(luò),以促進(jìn)資源的共享共建。
構(gòu)建關(guān)聯(lián)數(shù)據(jù)的基本步驟如下:
1)創(chuàng)建統(tǒng)一資源標(biāo)識(shí)符( URI),即給予每個(gè)資源實(shí)體一個(gè)永久的標(biāo)識(shí)符,使之得以被區(qū)別和精確檢索;
2)資源實(shí)體RDF化,即以RDF的格式去描述各個(gè)實(shí)體,從而為關(guān)聯(lián)數(shù)據(jù)的發(fā)布奠定基礎(chǔ);
3)資源實(shí)體關(guān)聯(lián)化,即使用RDFlink來描述各個(gè)實(shí)體之間的深層關(guān)系,這也是數(shù)據(jù)如何進(jìn)行關(guān)聯(lián)的依據(jù)。
同樣以第4節(jié)中案例平臺(tái)中的音頻資源——《志愿軍在友邦》為例,按照以上步驟構(gòu)建其相關(guān)本體語義關(guān)聯(lián)數(shù)據(jù)。首先,創(chuàng)建資源實(shí)體的URI,通用結(jié)構(gòu)為域名+實(shí)體類型+實(shí)體序號(hào)。平臺(tái)網(wǎng)址http://www. modernhistory. org.cn可以直接被確定為案例平臺(tái)資源管理的網(wǎng)址,即URl中的域名部分;資源實(shí)體類型包括文檔( Document)、圖片(Im-age)、音頻(Audio)和視頻(Video)4種類型。因此,案例音頻資源的URI便可假定為http://www. modernhistory. org. cn/Audio/20191105。其次,參考圖2中的元數(shù)據(jù)描述框架以及圖3的核心元數(shù)據(jù)本體,構(gòu)建該音頻資源本體間的語義關(guān)聯(lián)框架,具體內(nèi)容參見圖4。
根據(jù)案例平臺(tái)中各類資源實(shí)體之間的深度語義聯(lián)系,可以更進(jìn)一步地?cái)U(kuò)展上述語義關(guān)聯(lián)。例如,平臺(tái)內(nèi)以“陳田鶴”為主要責(zé)任者的資源類型,除了音頻,還有圖書,如《陳田鶴音樂作品選》和《陳田鶴音樂專輯手稿》等。同時(shí),以抗日戰(zhàn)爭為主題的資源,除陳田鶴的相關(guān)音頻之外,還有圖書、紅色文獻(xiàn)、期刊。按照URI的創(chuàng)建規(guī)則,依次賦予以上資源實(shí)體唯一的資源標(biāo)識(shí)符,則拓展的關(guān)聯(lián)數(shù)據(jù)示意圖如圖5所示。
需要注意的是,本研究雖然僅以單個(gè)案例平臺(tái)為實(shí)證對(duì)象,驗(yàn)證構(gòu)建的人文社科專題數(shù)據(jù)庫關(guān)聯(lián)數(shù)據(jù)模型的可行性,但是該模型是面向整個(gè)人文社科專題數(shù)據(jù)庫的,同樣適用于多個(gè)專題數(shù)據(jù)庫關(guān)聯(lián)數(shù)據(jù)的構(gòu)建。即多個(gè)專題數(shù)據(jù)庫在關(guān)聯(lián)數(shù)據(jù)構(gòu)建過程中嚴(yán)格遵循模型基本步驟,包括數(shù)據(jù)的采集與整合、元數(shù)據(jù)規(guī)范化語義描述、核心元數(shù)據(jù)本體的構(gòu)建以及關(guān)聯(lián)數(shù)據(jù)語義互聯(lián),最終可以以資源實(shí)體間的共同屬性特征為橋梁,建立關(guān)聯(lián)關(guān)系,形成關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò),最終實(shí)現(xiàn)多庫資源間的語義互操作。
6 綜合應(yīng)用層
在對(duì)人文社科專題數(shù)據(jù)庫資源序化組織并構(gòu)建了相應(yīng)的關(guān)聯(lián)數(shù)據(jù)后,需要發(fā)布關(guān)聯(lián)數(shù)據(jù),以便后續(xù)的消費(fèi)。在發(fā)布關(guān)聯(lián)數(shù)據(jù)時(shí),需要同時(shí)將數(shù)據(jù)的體量、儲(chǔ)存方式以及更新頻率納入考慮范圍,根據(jù)不同的實(shí)際情況選擇不同的發(fā)布方式以及發(fā)布平臺(tái)。目前,應(yīng)用較為廣泛的關(guān)聯(lián)數(shù)據(jù)發(fā)布工具主要有Pubby、D2R、Linked Media Framework、LinkedData API、Virtuoso和OAI2LOD Server等6種,各有優(yōu)劣。由于人文社科專題數(shù)據(jù)庫資源體量大、種類多,同時(shí)需要實(shí)時(shí)定期更新,因而選擇能夠?qū)⑷蚍秶鷥?nèi)的關(guān)系型數(shù)據(jù)庫快速發(fā)布成關(guān)聯(lián)數(shù)據(jù)的D2R平臺(tái)作為最終關(guān)聯(lián)數(shù)據(jù)的發(fā)布平臺(tái)恰如其分。
在關(guān)聯(lián)數(shù)據(jù)發(fā)布之后,后續(xù)還需要依托相關(guān)技術(shù)為用戶提供相應(yīng)的瀏覽、檢索和共享服務(wù),以體現(xiàn)其價(jià)值與意義。同時(shí),將關(guān)聯(lián)數(shù)據(jù)投入消費(fèi)和應(yīng)用,有助于發(fā)現(xiàn)問題,及時(shí)矯正與完善。提升關(guān)聯(lián)數(shù)據(jù)相關(guān)服務(wù)質(zhì)量可以從兩個(gè)方面人手:其一,根據(jù)資源實(shí)體之間的關(guān)系特征,為用戶智能推送個(gè)性化資源,提高資源的利用率;其二,基于資源實(shí)體的屬性特征,加強(qiáng)資源實(shí)體的語義分析與推理,以提高資源關(guān)鍵詞與檢索詞之間的文本相似度,優(yōu)化檢索結(jié)果。
7 總結(jié)與展望
人文社科專題數(shù)據(jù)庫資源類型多元,內(nèi)容豐富,但存在異構(gòu)、無序、斷聯(lián)等問題。因此,本研究構(gòu)建了一個(gè)面向人文社科專題數(shù)據(jù)庫的關(guān)聯(lián)數(shù)據(jù)模型,該模型共有5個(gè)層次,分別為:數(shù)據(jù)采集層、資源描述層、本體構(gòu)建層、關(guān)聯(lián)數(shù)據(jù)層以及綜合應(yīng)用層,模型的核心是知識(shí)組織層面的本體構(gòu)建層和關(guān)聯(lián)數(shù)據(jù)層。同時(shí),本研究以抗日戰(zhàn)爭與近代中日關(guān)系文獻(xiàn)數(shù)據(jù)平臺(tái)為例,對(duì)構(gòu)建的關(guān)聯(lián)數(shù)據(jù)模型進(jìn)行了實(shí)證。
未來,人文社科專題數(shù)據(jù)庫關(guān)聯(lián)數(shù)據(jù)模型的相關(guān)研究與實(shí)踐需要深入思考以下問題:
1)關(guān)聯(lián)數(shù)據(jù)模型的普適性。關(guān)聯(lián)數(shù)據(jù)模型中的關(guān)鍵——核心元數(shù)據(jù)本體雖然能保證使用的靈活性、共享性,便于后續(xù)關(guān)聯(lián)數(shù)據(jù)的構(gòu)建,但核心元數(shù)據(jù)本體一般不能容納各種元數(shù)據(jù)規(guī)范的所有元素,對(duì)于一些特定的資源實(shí)體類型,需要自主添加屬性元素到核心元數(shù)據(jù)本體中。除了特殊資源實(shí)體類型之外,其他普通資源實(shí)體中的屬性元素也有更多的展開空間,在注重核心屬性元素的同時(shí)也要兼顧這些屬性元素。后續(xù)的研究應(yīng)該根據(jù)資源實(shí)體特征,完善核心元數(shù)據(jù)本體,提升關(guān)聯(lián)數(shù)據(jù)模型的普適性。
2)關(guān)聯(lián)數(shù)據(jù)模型的客觀性。關(guān)聯(lián)數(shù)據(jù)構(gòu)建工作中不可避免地存在著一些主觀環(huán)節(jié),如資源實(shí)體的分類、屬性的自定義、URI的構(gòu)建等,這些工作還有諸多可商榷之處,需要在扎實(shí)的調(diào)研分析中查檢核驗(yàn),以提升關(guān)聯(lián)數(shù)據(jù)模型的科學(xué)性與客觀性。
3)關(guān)聯(lián)數(shù)據(jù)模型的時(shí)效性。人文社科專題數(shù)據(jù)庫是一個(gè)持續(xù)生長的有機(jī)體,存在實(shí)時(shí)動(dòng)態(tài)更新的特征,且關(guān)聯(lián)數(shù)據(jù)的相關(guān)技術(shù)也是不斷發(fā)展進(jìn)步的,因此關(guān)聯(lián)數(shù)據(jù)模型的時(shí)效性也需要深入探討。由于在實(shí)踐中,不能實(shí)時(shí)展開跟進(jìn)、更新工作,因而更新的周期、頻率以及技術(shù)的選擇將是后續(xù)探討的方向。
綜上所述,后續(xù)的研究應(yīng)圍繞提升人文社科專題數(shù)據(jù)庫關(guān)聯(lián)數(shù)據(jù)模型的普適性、客觀性和時(shí)效性展開,以完善相關(guān)標(biāo)準(zhǔn)、提升相關(guān)技術(shù),推進(jìn)人文社科專題數(shù)據(jù)庫建設(shè)規(guī)范化管理。
參考文獻(xiàn)
[1] Berners-Lee T.Linked Data Personal Notes on Design Issues forthe World Wide Web[ EB/OL]. https://www. w3. orqDesignls-sues/.2019- 10-24.
[2]沈志宏,張曉林.關(guān)聯(lián)數(shù)據(jù)及其應(yīng)用現(xiàn)狀綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2010,(11):1-9.
[3]沈志宏,黎建輝,張曉林,關(guān)聯(lián)數(shù)據(jù)互聯(lián)技術(shù)研究綜述:應(yīng)用、方法與框架[J].圖書情報(bào)工作,2013,57( 14):125- 133.
[4]夏翠娟,劉煒,趙亮,等.關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù)及其實(shí)現(xiàn)——以Drupal為例[J].中國圖書館學(xué)報(bào),2012,38(1):49-57.
[5]歐石燕,唐振貴,面向圖書館關(guān)聯(lián)數(shù)據(jù)的自動(dòng)問答技術(shù)研究[J].中國圖書館學(xué)報(bào),2015,41 (6):44-60.
[6]陳濤,夏翠娟,劉煒,等.關(guān)聯(lián)數(shù)據(jù)的可視化技術(shù)研究與實(shí)現(xiàn)[J].圖書情報(bào)工作,2015,59( 17):113-119.
[7]劉美杏,徐芳.古道線性文化遺產(chǎn)信息資源關(guān)聯(lián)數(shù)據(jù)模型構(gòu)建及其實(shí)證研究[J].圖書館學(xué)研究,2019,(14):40-50.
[8]張樂,常娥.基于Drupal的民國建筑知識(shí)庫關(guān)聯(lián)數(shù)據(jù)的組織與發(fā)布研究[J].圖書館學(xué)研究,2018,(19):66-72.
[9]董坤,謝守美.基于關(guān)聯(lián)數(shù)據(jù)的MOOC資源語義化組織與聚合研究[J].情報(bào)雜志,2016,35 (6):177-182.
[10]夏翠娟,劉煒,陳濤,等,家譜關(guān)聯(lián)數(shù)據(jù)服務(wù)平臺(tái)的開發(fā)實(shí)踐[J].中國圖書館學(xué)報(bào),2016,42 (3):27-38.
[11]許鑫,張悅悅.非遺數(shù)字資源的元數(shù)據(jù)規(guī)范與應(yīng)用研究[J].圖書情報(bào)工作,2014,58 (21):13-20,34.
[12]劉煒,李大玲,夏翠娟.元數(shù)據(jù)與知識(shí)本體[J].圖書館雜志,2004,(6):50-54,49.
[13] Studer B, Benjamins V R, Fensel D.Knowledge Engineering:Principles and Methods[J].Data and Knowledge Engineering,1998, 25 (1/2): 161-197.
[14]歐石燕.面向關(guān)聯(lián)數(shù)據(jù)的語義數(shù)字圖書館資源描述與組織框架設(shè)計(jì)與實(shí)現(xiàn)[J]中國圖書館學(xué)報(bào),2012,38( 6):58- 71.
(責(zé)任編輯:陳媛)
收稿日期:2019-10-14
基金項(xiàng)目:國家社會(huì)科學(xué)基金重大項(xiàng)目“人文社科專題數(shù)據(jù)庫建設(shè)規(guī)范化管理研究”(項(xiàng)目編號(hào):18ZDA326)。
作者簡介:施艷萍(1993-),女,博士研究生,研究方向:知識(shí)管理與學(xué)術(shù)評(píng)價(jià)。李陽(1989-),男,助理研究員,研究方向:競(jìng)爭情報(bào)與信息資源管理。