陳海玉 向前 趙冉 何劍鋒
摘要:數(shù)字環(huán)境下,館藏紅色文獻(xiàn)的知識(shí)存儲(chǔ)、服務(wù)利用和傳播效能問(wèn)題亟待解決。知識(shí)庫(kù)在知識(shí)聚合以及為用戶提供個(gè)性化、知識(shí)化、專(zhuān)精化服務(wù)方面具有優(yōu)勢(shì)。本文以紅色基因傳承為導(dǎo)向,探索館藏紅色文獻(xiàn)知識(shí)庫(kù)在數(shù)據(jù)獲取與處理、元數(shù)據(jù)設(shè)計(jì)、知識(shí)關(guān)聯(lián)與知識(shí)服務(wù)方面的問(wèn)題,為今后構(gòu)建文獻(xiàn)知識(shí)庫(kù)提供參考。
關(guān)鍵詞:紅色文獻(xiàn) 知識(shí)庫(kù) 知識(shí)服務(wù)
目前我們提出“把紅色資源利用好、把紅色傳統(tǒng)發(fā)揚(yáng)好、把紅色基因傳承好”的紅色文化觀,極大激發(fā)了紅色資源新活力。紅色文獻(xiàn)是紅色資源的重要組成部分,理應(yīng)在紅色資源發(fā)掘利用中發(fā)揮重要作用。隨著新時(shí)期信息技術(shù)與經(jīng)濟(jì)社會(huì)的廣泛融合應(yīng)用,各地館藏紅色文獻(xiàn)數(shù)字資源和數(shù)據(jù)資源持續(xù)增長(zhǎng),海量集聚的特點(diǎn)凸顯,社會(huì)各界對(duì)紅色資源的利用需求也呈現(xiàn)多樣化、個(gè)性化和智慧化發(fā)展趨勢(shì),加強(qiáng)紅色文獻(xiàn)資源的深度建設(shè)、服務(wù)創(chuàng)新與開(kāi)放共享利用已成為社會(huì)的廣泛共識(shí)。
現(xiàn)有紅色文獻(xiàn)數(shù)據(jù)庫(kù)的利用率不高,存在“信息需求的集結(jié)、有序、專(zhuān)精與信息資源的海量、無(wú)序、異分的矛盾”[1],制約著紅色文獻(xiàn)資源社會(huì)效能的充分發(fā)揮。因此,當(dāng)前迫切需要加強(qiáng)紅色文獻(xiàn)資源建設(shè),通過(guò)推進(jìn)文獻(xiàn)數(shù)字化和數(shù)據(jù)化,促進(jìn)信息資源的有效整合、深度挖掘與知識(shí)關(guān)聯(lián),提升管理及利用效益。本文從紅色基因傳承的視角,探索館藏紅色文獻(xiàn)知識(shí)庫(kù)在數(shù)據(jù)獲取與處理、元數(shù)據(jù)設(shè)計(jì)、知識(shí)關(guān)聯(lián)與知識(shí)服務(wù)方面的問(wèn)題,為今后文獻(xiàn)知識(shí)庫(kù)的建設(shè)與應(yīng)用提供參考。
(一)有利于推進(jìn)紅色文獻(xiàn)資源的集成化管理
紅色文獻(xiàn)知識(shí)庫(kù)構(gòu)建的目的是成為公眾新型紅色文獻(xiàn)資源共享、紅色精神傳承和各地區(qū)紅色學(xué)術(shù)交流平臺(tái)的重要基礎(chǔ)設(shè)施,能夠保存與管理類(lèi)型異構(gòu)和數(shù)量眾多的紅色文獻(xiàn)資源,既包括各種革命歷史檔案資料、報(bào)刊、手稿、文件、日記、書(shū)信、年譜、傳單、宣傳標(biāo)語(yǔ)、票據(jù)、圖片、縮微膠片、音視頻資料、軟件、工具等,還包括該領(lǐng)域?qū)<摇W(xué)者的研究成果和學(xué)術(shù)報(bào)告等,繼而成為全社會(huì)不同類(lèi)型用戶利用紅色資源的文獻(xiàn)資源中心。
(二)有利于實(shí)現(xiàn)紅色文獻(xiàn)資源的深度加工與挖掘
館藏紅色文獻(xiàn)知識(shí)庫(kù)可以有效解決紅色文獻(xiàn)資源關(guān)聯(lián)性問(wèn)題,借助新技術(shù)、新媒介的多樣性,通過(guò)分析、統(tǒng)計(jì)、計(jì)算等方式重構(gòu)和創(chuàng)新人文知識(shí),為研究者提供更多視角的研究可能和線索,從而能夠拓寬學(xué)術(shù)邊界,實(shí)現(xiàn)學(xué)術(shù)領(lǐng)域疆域的重繪。它可以實(shí)現(xiàn)新興理念與傳統(tǒng)人文知識(shí)的對(duì)話,包括突破既定學(xué)科邊界的對(duì)話,跨越理論與實(shí)踐、定性與定量的對(duì)話等,其創(chuàng)新性主要體現(xiàn)在加大資源整合力度、細(xì)化知識(shí)粒度、實(shí)現(xiàn)知識(shí)聚合與關(guān)聯(lián)等方面。
(三)有利于滿足社會(huì)各界用戶的多樣化利用需求
館藏紅色文獻(xiàn)知識(shí)庫(kù)是具備異構(gòu)數(shù)據(jù)互用性的開(kāi)放性網(wǎng)絡(luò)資源知識(shí)庫(kù),是友好型、個(gè)性化的人機(jī)交互知識(shí)庫(kù),能夠?yàn)槊總€(gè)用戶、組織和機(jī)構(gòu)提供設(shè)施、知識(shí)和服務(wù)的紅色文獻(xiàn)資源共享基礎(chǔ)。同時(shí),紅色文獻(xiàn)知識(shí)庫(kù)為學(xué)者創(chuàng)造開(kāi)放的、學(xué)術(shù)性的生態(tài)環(huán)境,成為具有時(shí)代特征和創(chuàng)新性的學(xué)術(shù)體,并能參與到世界記憶工程構(gòu)建中,成為緬懷歷史、傳承紅色基因的新型載體。
在紅色文獻(xiàn)知識(shí)庫(kù)構(gòu)建中,結(jié)合檔案文獻(xiàn)知識(shí)內(nèi)容和領(lǐng)域特征,知識(shí)庫(kù)架構(gòu)分為數(shù)據(jù)存儲(chǔ)層、知識(shí)組織層和知識(shí)服務(wù)層(見(jiàn)圖1)。
數(shù)據(jù)存儲(chǔ)層是紅色文獻(xiàn)知識(shí)庫(kù)的基礎(chǔ),通過(guò)數(shù)據(jù)的有序化和知識(shí)化形成粗粒度知識(shí),為知識(shí)組織層提供數(shù)據(jù)來(lái)源,是構(gòu)建知識(shí)組織的底層數(shù)據(jù)。數(shù)據(jù)存儲(chǔ)層承擔(dān)著紅色文獻(xiàn)數(shù)據(jù)整合、保存和管理的任務(wù),是整個(gè)知識(shí)庫(kù)架構(gòu)的基礎(chǔ)以及用戶需求服務(wù)的保障。
知識(shí)組織層是知識(shí)庫(kù)的核心層,主要是實(shí)現(xiàn)知識(shí)有序化和知識(shí)創(chuàng)新,完成數(shù)據(jù)存儲(chǔ)層的數(shù)據(jù)關(guān)聯(lián),將數(shù)據(jù)資源細(xì)化升格為知識(shí)資源。在知識(shí)組織層,我們將借助一些知識(shí)組織工具,建立知識(shí)間的語(yǔ)義關(guān)系,形成中國(guó)革命歷史領(lǐng)域本體、數(shù)據(jù)鏈、知識(shí)鏈、用戶需求和用戶行為等關(guān)系鏈,并建立紅色文獻(xiàn)知識(shí)倉(cāng)儲(chǔ)。
知識(shí)服務(wù)層是實(shí)現(xiàn)用戶需求和知識(shí)組織聯(lián)系的接口層。該層雖然不承擔(dān)知識(shí)組織的具體任務(wù),但它是用戶和知識(shí)組織系統(tǒng)之間的紐帶,一方面根據(jù)用戶的需求,運(yùn)用檢索技術(shù)、推理技術(shù)、關(guān)聯(lián)分析技術(shù)等對(duì)知識(shí)關(guān)系鏈或知識(shí)倉(cāng)儲(chǔ)進(jìn)行運(yùn)算,從而實(shí)現(xiàn)知識(shí)服務(wù);另一方面采集用戶需求信息和使用系統(tǒng)信息,并將這些信息傳遞給知識(shí)組織層,為建立用戶行為分析知識(shí)關(guān)系鏈提供客觀數(shù)據(jù)。[2]
在實(shí)際知識(shí)庫(kù)構(gòu)建中,我們既要考慮到紅色文獻(xiàn)資源對(duì)社會(huì)大眾的愛(ài)國(guó)宣傳作用,也要考慮到紅色文獻(xiàn)資源研究領(lǐng)域?qū)<覍W(xué)術(shù)成果的應(yīng)用。[3]同時(shí),紅色文獻(xiàn)知識(shí)庫(kù)的構(gòu)建還需打破現(xiàn)有知識(shí)庫(kù)由單個(gè)學(xué)科機(jī)構(gòu)承擔(dān)的窘境,才有利于紅色文獻(xiàn)、科研成果、學(xué)術(shù)報(bào)告等資源的開(kāi)放。因此,紅色文獻(xiàn)知識(shí)庫(kù)的構(gòu)建需要由體制內(nèi)大型機(jī)構(gòu)牽頭,聯(lián)合各地紅色文獻(xiàn)保存主體,打破館際壁壘和地理隔離。
(一)知識(shí)庫(kù)的數(shù)據(jù)準(zhǔn)備
知識(shí)庫(kù)的數(shù)據(jù)準(zhǔn)備是知識(shí)庫(kù)數(shù)據(jù)存儲(chǔ)層構(gòu)建的關(guān)鍵步驟,同時(shí)也是為了實(shí)現(xiàn)數(shù)據(jù)知識(shí)化、知識(shí)有序化以及知識(shí)服務(wù)的前期工作。在知識(shí)庫(kù)的數(shù)據(jù)準(zhǔn)備中,知識(shí)表示是十分重要的前期工作,它是知識(shí)庫(kù)知識(shí)組織工作的基礎(chǔ)和保證。在知識(shí)表示的前期構(gòu)建中,我們要重視獲取和選擇相關(guān)的知識(shí)資源、工具和方法。紅色文獻(xiàn)知識(shí)庫(kù)的數(shù)據(jù)準(zhǔn)備主要包括知識(shí)資源準(zhǔn)備和知識(shí)組織工具的選取等方面的工作。
紅色文獻(xiàn)知識(shí)資源的形式多樣,既有保存于檔案館、博物館、圖書(shū)館等機(jī)構(gòu)的尚未正式出版的原始資料和正式出版的一次文獻(xiàn)(如期刊論文、著作等),也有經(jīng)過(guò)整理生成的索引文摘之類(lèi)的二次文獻(xiàn)和綜合分析產(chǎn)生的綜述、述評(píng)類(lèi)三次文獻(xiàn)。之后,我們?cè)俑鶕?jù)用戶需求準(zhǔn)備知識(shí)資源的形式,根據(jù)需求類(lèi)型設(shè)計(jì)知識(shí)組織的邏輯結(jié)構(gòu)。
選擇合適的知識(shí)組織工具是知識(shí)組織的關(guān)鍵。紅色文獻(xiàn)知識(shí)庫(kù)可選用本體構(gòu)建工具進(jìn)行知識(shí)組織,本體構(gòu)建工具是知識(shí)處理及可視化類(lèi)工具,可建立知識(shí)之間的深層次關(guān)聯(lián),形成知識(shí)網(wǎng)絡(luò),并通過(guò)合適的方式展現(xiàn)給用戶。除此之外,還有自然語(yǔ)言處理工具、引文處理及可視化工具等知識(shí)組織工具。
(二)知識(shí)庫(kù)元數(shù)據(jù)規(guī)范制定
知識(shí)庫(kù)元數(shù)據(jù)規(guī)范制定是構(gòu)建知識(shí)組織層的核心內(nèi)容,對(duì)知識(shí)庫(kù)元數(shù)據(jù)標(biāo)引的質(zhì)量有較大影響。元數(shù)據(jù)規(guī)范制定大致遵循以下流程:一是選擇知識(shí)庫(kù)系統(tǒng)平臺(tái),同時(shí)確定基礎(chǔ)元數(shù)據(jù)規(guī)范;二是分析知識(shí)庫(kù)的功能;三是根據(jù)知識(shí)庫(kù)功能需求對(duì)基礎(chǔ)元數(shù)據(jù)進(jìn)行擴(kuò)展或本地化。[4]
如紅色文獻(xiàn)知識(shí)庫(kù)選用DSpace系統(tǒng)平臺(tái),并基于該平臺(tái)進(jìn)行擴(kuò)展開(kāi)發(fā),分析紅色文獻(xiàn)知識(shí)庫(kù)的功能,即知識(shí)服務(wù)層可提供的服務(wù),一是知識(shí)庫(kù)的基本功能,即存儲(chǔ)和展示參與共建機(jī)構(gòu)間的所有紅色文獻(xiàn);二是擴(kuò)展的知識(shí)庫(kù)功能,即基于語(yǔ)義的概念查詢、知識(shí)聚合和知識(shí)鏈展示,以及知識(shí)的創(chuàng)新。根據(jù)知識(shí)庫(kù)的功能,我們可以設(shè)計(jì)紅色文獻(xiàn)知識(shí)庫(kù)的元數(shù)據(jù),除了啟用DC元數(shù)據(jù)(即都柏林核心元數(shù)據(jù))字段,如Contributor(作者)、Date(出版時(shí)間)、Description(摘要)、Identifier(引文格式)等基礎(chǔ)DC元數(shù)據(jù)字段,還需要進(jìn)行一些擴(kuò)展。
紅色文獻(xiàn)知識(shí)庫(kù)根據(jù)其功能進(jìn)行DC元數(shù)據(jù)擴(kuò)展,主要是針對(duì)紅色文獻(xiàn)資源屬性和針對(duì)知識(shí)庫(kù)服務(wù)的擴(kuò)展。
(三)知識(shí)發(fā)現(xiàn)
知識(shí)發(fā)現(xiàn)是連接知識(shí)組織層和知識(shí)服務(wù)層的橋梁,主要由文獻(xiàn)概念提取、本體表示和知識(shí)揭示三部分組成,即通過(guò)對(duì)前期數(shù)據(jù)準(zhǔn)備形成的紅色文獻(xiàn)資源集合進(jìn)行文獻(xiàn)概念提取,構(gòu)建概念集合,之后在本體表示和知識(shí)揭示中形成語(yǔ)義本體集合(見(jiàn)圖2)。
紅色文獻(xiàn)資源概念的提取是指在不同數(shù)據(jù)源的結(jié)構(gòu)化和非結(jié)構(gòu)化資源中提取概念。知識(shí)的概念和領(lǐng)域,重在揭示信息的內(nèi)部特征和使知識(shí)顯性化,對(duì)信息的描述粒度可細(xì)化到最小知識(shí)單元級(jí)別,對(duì)異構(gòu)信息也能很好地處理,對(duì)知識(shí)的描述突破粒度、結(jié)構(gòu)、類(lèi)型的限制,可以描述文獻(xiàn)、信息資源,還可以描述其內(nèi)容中隱含的知識(shí),如人、機(jī)構(gòu)、地點(diǎn)、時(shí)間、事件、物體、主題詞、關(guān)鍵詞等實(shí)體或概念的特征及其相互之間的關(guān)系。紅色文獻(xiàn)資源涉及的知識(shí)領(lǐng)域?qū)儆谥袊?guó)革命歷史領(lǐng)域,歷史事件、組織、人物等是存在層級(jí)化的本體體系,上下層級(jí)之間通過(guò)概念類(lèi)定義進(jìn)行繼承,我們還可直接引入另一個(gè)概念類(lèi)聯(lián)系領(lǐng)域中的其他本體,實(shí)現(xiàn)知識(shí)關(guān)聯(lián)。[5]
本體表示是在紅色文獻(xiàn)資源概念提取形成概念集合的基礎(chǔ)上對(duì)紅色文獻(xiàn)資源進(jìn)行正式的語(yǔ)義表達(dá),其核心是利用現(xiàn)有的本體對(duì)從文獻(xiàn)資源中抽取到的詞匯進(jìn)行概念規(guī)范化并形成語(yǔ)義,包括選擇、利用與相互映射本體,從而利用本體對(duì)文獻(xiàn)資源進(jìn)行綜合全面的規(guī)范與聚合。本體表示可以實(shí)現(xiàn)異構(gòu)文獻(xiàn)資源的互用性,對(duì)不同數(shù)據(jù)源的概念實(shí)現(xiàn)規(guī)范化,以及促進(jìn)異構(gòu)資源的融合、互操作和共享等。
知識(shí)揭示即對(duì)不同數(shù)據(jù)源中的概念進(jìn)行研究,包括機(jī)器學(xué)習(xí)和數(shù)據(jù)關(guān)聯(lián),對(duì)規(guī)范后的資源概念和關(guān)系進(jìn)行挖掘,揭示知識(shí)和深層語(yǔ)義關(guān)系。在數(shù)據(jù)規(guī)范化后,我們基于本體的概念與關(guān)系加強(qiáng)領(lǐng)域知識(shí)之間的關(guān)聯(lián),將異構(gòu)數(shù)據(jù)規(guī)范以提高知識(shí)聚合的效果。
(四)知識(shí)服務(wù)
知識(shí)服務(wù)是知識(shí)服務(wù)層主要內(nèi)容。知識(shí)服務(wù)面向不同層次和不同工作特性的用戶,并根據(jù)用戶的需求提供不同特點(diǎn)的知識(shí)。知識(shí)服務(wù)具備面向用戶需求和導(dǎo)向提供服務(wù)的特點(diǎn)。要滿足多層次的知識(shí)需求,不僅需要知識(shí)庫(kù)的數(shù)據(jù)儲(chǔ)存層按照用戶需求劃分知識(shí)粒度,更需要在不同粒度知識(shí)間建立語(yǔ)義聯(lián)系,并將這種聯(lián)系建立在數(shù)據(jù)組織之中,使其能經(jīng)過(guò)推理來(lái)滿足更深度的知識(shí)需求?;诖耍^藏紅色文獻(xiàn)知識(shí)庫(kù)需要加強(qiáng)知識(shí)的語(yǔ)義標(biāo)注,更新領(lǐng)域?qū)嵗齺?lái)補(bǔ)充和豐富原知識(shí)庫(kù),并將中國(guó)革命歷史領(lǐng)域知識(shí)構(gòu)建成知識(shí)網(wǎng)絡(luò),形成領(lǐng)域知識(shí)地圖,以提高知識(shí)服務(wù)的質(zhì)量。
館藏紅色文獻(xiàn)知識(shí)庫(kù)的知識(shí)服務(wù)是以數(shù)據(jù)存儲(chǔ)層的資源為基礎(chǔ),并結(jié)合中國(guó)革命歷史領(lǐng)域的專(zhuān)家、學(xué)者和其他主體的參與情況,在充分挖掘紅色文獻(xiàn)資源的前提下,以用戶需求為服務(wù)導(dǎo)向提供開(kāi)放式的服務(wù),允許認(rèn)證用戶不受限制地進(jìn)行檢索、瀏覽和下載。
圖3為紅色文獻(xiàn)知識(shí)庫(kù)知識(shí)服務(wù)圖。我們通過(guò)知識(shí)庫(kù)服務(wù)使知識(shí)的利用延伸和輻射開(kāi)來(lái),可以提高知識(shí)服務(wù)多功能和智能多樣化水平,同時(shí)精細(xì)化知識(shí)庫(kù)服務(wù)體系,保障多個(gè)節(jié)點(diǎn)使用環(huán)境下的用戶需求。最后,我們還可以借助信息技術(shù)的個(gè)性化定制服務(wù)來(lái)實(shí)時(shí)更新用戶的“需求與興趣”,以此保證檔案文獻(xiàn)知識(shí)庫(kù)可持續(xù)的知識(shí)服務(wù)。
多個(gè)平臺(tái)、數(shù)據(jù)異構(gòu)、元數(shù)據(jù)不統(tǒng)一、館際壁壘等現(xiàn)象一直是制約著紅色文獻(xiàn)資源知識(shí)服務(wù)效率的因素。紅色文獻(xiàn)知識(shí)庫(kù)構(gòu)建了一個(gè)知識(shí)聚合的統(tǒng)一平臺(tái),打破傳統(tǒng)以單館或單個(gè)機(jī)構(gòu)為主體自建數(shù)字資源的模式,實(shí)現(xiàn)整體集群效應(yīng),大大提升紅色資源的利用效率。一是在開(kāi)放環(huán)境下嵌入并優(yōu)化技術(shù)環(huán)境和管理環(huán)境,實(shí)現(xiàn)知識(shí)庫(kù)知識(shí)服務(wù)多功能化。多功能主要包括知識(shí)庫(kù)領(lǐng)域知識(shí)概念的檢索、知識(shí)關(guān)聯(lián)形成的知識(shí)圖譜服務(wù)和知識(shí)導(dǎo)航服務(wù)等。二是實(shí)現(xiàn)知識(shí)庫(kù)知識(shí)服務(wù)機(jī)制的創(chuàng)新,促進(jìn)知識(shí)庫(kù)服務(wù)智能多樣化。紅色文獻(xiàn)知識(shí)庫(kù)服務(wù)的多樣化是服務(wù)維度的拓寬,主要包括知識(shí)分析、知識(shí)網(wǎng)絡(luò)構(gòu)建、完整知識(shí)本體響應(yīng)時(shí)長(zhǎng)等。三是借助新興數(shù)字技術(shù),為知識(shí)庫(kù)知識(shí)服務(wù)架上“時(shí)代翅膀”。紅色文獻(xiàn)知識(shí)庫(kù)開(kāi)源的特征為新興數(shù)據(jù)技術(shù)的引入帶來(lái)了可能,能夠借助技術(shù)的優(yōu)勢(shì)不斷優(yōu)化知識(shí)庫(kù)知識(shí)服務(wù)的效度和質(zhì)量。
紅色文獻(xiàn)承載著中國(guó)共產(chǎn)黨的初心與使命,理應(yīng)在紅色基因傳承中貢獻(xiàn)“文獻(xiàn)智慧”,彰顯“文獻(xiàn)作為”。新技術(shù)環(huán)境下的紅色文獻(xiàn)建設(shè)與利用,追求形式多樣、受眾廣泛、存取便捷、利用高效的目標(biāo),將海量、異構(gòu)的紅色資源組織成為有序的知識(shí)資源,并向社會(huì)各界提供高效的知識(shí)服務(wù),是解決離散且獨(dú)立的紅色文獻(xiàn)資源系統(tǒng)化整合問(wèn)題,充分發(fā)揮紅色文獻(xiàn)資源資政育人作用的重要舉措。因此,各地紅色文獻(xiàn)資源挖掘的深入和服務(wù)利用水平的不斷提升,將極大推進(jìn)相關(guān)知識(shí)庫(kù)的建設(shè)與應(yīng)用,并為各地紅色文化傳播和革命歷史教育發(fā)揮數(shù)據(jù)中心的作用。
注釋及參考文獻(xiàn):
[1]徐艷芳,曹高輝,王學(xué)東.基于知識(shí)構(gòu)建的老莊研究知識(shí)庫(kù)知識(shí)服務(wù)實(shí)現(xiàn)探析[J].情報(bào)資料工作,2014(1):83-86.
[2]徐緒堪.面向知識(shí)服務(wù)的知識(shí)組織框架體系構(gòu)建[J].情報(bào)學(xué)報(bào),2013(12):1278-1287.
[3]陳晶晶,覃芳,董小熔.數(shù)字人文背景下檔案館知識(shí)服務(wù):價(jià)值闡釋與運(yùn)行邏輯[J].北京檔案,2021(12):23-27.
[4]崔海媛.機(jī)構(gòu)知識(shí)庫(kù)構(gòu)建指南[M].北京:海洋出版社,2019:205-206.
[5]夏翠娟.文化記憶資源的知識(shí)融通:從異構(gòu)資源元數(shù)據(jù)應(yīng)用綱要到一體化本體設(shè)計(jì)[J].圖書(shū)情報(bào)知識(shí),2021(1):53-65.
作者單位:云南大學(xué)歷史與檔案學(xué)院