鄭麗珺
(赤峰學院圖書館,內(nèi)蒙古 赤峰 024000)
在大數(shù)據(jù)時代,圖書館對數(shù)字資源進行整理、轉(zhuǎn)化、搜集與輸出是其核心業(yè)務之一,應用大數(shù)據(jù)技術(shù)和網(wǎng)絡平臺對館藏資源進行跨媒體的整合,能夠滿足讀者日益增加的資源需求,促進圖書館知識服務由單一的檢索向復合式跨媒體方向延伸發(fā)展。實際上,早在上個世紀90年代,美國等西方國家就嘗試過將不同類型和載體的資源進行整合共享,提出“互助異構(gòu)”的概念,建設(shè)起大數(shù)據(jù)的資源交換平臺,增強了館藏數(shù)據(jù)資源的統(tǒng)一性[1]。結(jié)合大數(shù)據(jù)時代的環(huán)境,圖書館對館藏資源進行跨媒體建設(shè)成為一種必然趨勢,通過搭建集成資源檢索、資源整合與資源輸出為一體的數(shù)據(jù)平臺,能夠為讀者提供一站式的知識服務,提高圖書館館藏資源的使用效率,優(yōu)化圖書館的知識服務質(zhì)量。
從館藏資源跨媒體知識服務的流程來看,圖書館的知識服務可分為3大模塊,即跨媒體本體模塊、跨媒體檢索技術(shù)模塊與用戶檢索模塊。
圖書館館藏資源跨媒體建設(shè)需要規(guī)范語義數(shù)據(jù)庫,使來自不同平臺和數(shù)據(jù)庫的資源能夠被挖掘和利用,這也是實現(xiàn)館藏資源跨媒體構(gòu)建的基礎(chǔ)。具體來說,跨媒體本體模塊旨在規(guī)范資源本體的信息,并經(jīng)過數(shù)據(jù)轉(zhuǎn)換技術(shù)組建起跨媒體跨平臺的數(shù)據(jù)庫,資源本體作為跨媒體知識服務的物質(zhì)基礎(chǔ),規(guī)范的本體語義能夠為跨媒體的資源庫構(gòu)建提供全局的視圖,從資源本體方面格式化并規(guī)范化數(shù)據(jù)模型。
在圖書館進行館藏資源的跨媒體知識服務過程中,檢索技術(shù)起關(guān)鍵作用,檢索技術(shù)模塊是圖書館進行高質(zhì)量知識服務的保障,也是館藏資源跨媒體構(gòu)建的基本載體[2]。一般來說,大數(shù)據(jù)時代應用于跨媒體檢索方面的技術(shù)更側(cè)重于數(shù)據(jù)間的關(guān)聯(lián)與整合,重在挖掘數(shù)據(jù)間的隱藏知識和內(nèi)在關(guān)聯(lián)規(guī)律,目的在于保障資源檢索成果的全面性和完整性。對比傳統(tǒng)的單一檢索算法,跨媒體的檢索技術(shù)模塊將不同數(shù)據(jù)庫間館藏資源進行有效整合,例如美國國家圖書館實現(xiàn)了資源庫的跨媒體鏈接,將50 個州和華盛頓哥倫比亞特區(qū)的數(shù)字資源庫、專題庫、法院檔案等整合起來,形成了集成的檢索系統(tǒng),實現(xiàn)了跨媒體檢索的有效輸出。
用戶檢索模塊是圖書館知識服務的終端模塊,跨媒體的館藏資源建設(shè)與知識服務的成效需要經(jīng)過用戶檢索模塊的檢驗。用戶檢索模塊主要包括3個功能。第一,用戶請求功能。用戶通過輸入關(guān)鍵詞,向圖書館檢索平臺發(fā)送請求,圖書館在制定的檢索算法運轉(zhuǎn)下,實現(xiàn)跨媒體檢索和本體映射;第二,檢索成果輸出。即圖書館完成跨媒體檢索后,將與關(guān)鍵詞存在關(guān)聯(lián)的結(jié)果呈現(xiàn)出來,輸出給讀者;第三,相關(guān)資源推薦。基于跨媒體館藏資源的知識服務優(yōu)勢在于能夠根據(jù)讀者的需求,將其他數(shù)據(jù)庫中與之相關(guān)的內(nèi)容進行推送,縱向深化面向讀者的知識服務[3],優(yōu)化讀者的檢索體驗。
大數(shù)據(jù)時代圖書館館藏資源的跨媒體知識服務系統(tǒng)的構(gòu)建要以數(shù)據(jù)關(guān)聯(lián)為重點,統(tǒng)一不同資源庫中知識數(shù)據(jù)的語義描述,揭示數(shù)據(jù)間的內(nèi)在聯(lián)系,并依據(jù)資源的關(guān)聯(lián)實現(xiàn)聚合,為規(guī)范資源互通平臺提供基礎(chǔ)與保障。筆者從資源提供層與規(guī)范層、知識粒度層、語義描述層與關(guān)聯(lián)實現(xiàn)層等維度,構(gòu)建了圖書館館藏資源的跨媒體知識服務系統(tǒng),突出館藏資源跨媒體整合的語義統(tǒng)一性處理規(guī)范[4]。
圖1 大數(shù)據(jù)時代圖書館館藏資源的跨媒體知識服務系統(tǒng)的構(gòu)建示意圖
資源提供層是圖書館跨媒體知識服務的基礎(chǔ),主要指館藏資源和其他形式知識庫的資源供給,是實現(xiàn)跨媒體語義關(guān)聯(lián)與數(shù)據(jù)聚合的第一步,也是滿足用戶多元化知識需求的源泉。資源規(guī)范層在接收到來自各個平臺的館藏資源后,需要對資源進行規(guī)范化和統(tǒng)一化整理,具體來說,在這個層級,圖書館需要利用數(shù)字資源統(tǒng)一描述技術(shù)對跨媒體的數(shù)據(jù)來源進行統(tǒng)一表達格式的處理,實現(xiàn)跨媒體異構(gòu)數(shù)據(jù)源描述結(jié)構(gòu)的統(tǒng)一。目前,哈佛大學圖書館率先引入了數(shù)據(jù)資源跨媒體服務的方式,將圖書館大數(shù)據(jù)通過媒體平臺公之于眾,在資源提供層綜合了廣泛的數(shù)據(jù)庫,豐富了其知識服務內(nèi)容與基礎(chǔ)。
在資源規(guī)范層對異構(gòu)知識資源進行規(guī)范化語義描述的基礎(chǔ)上,知識粒度層按照知識級別對其進行重要級別排序,并對關(guān)鍵內(nèi)容進行細化處理,在館藏資源本體的作用之下,形成獨立的概念知識單元,可以說,每一個跨媒體館藏知識元繼承了上一級關(guān)鍵內(nèi)容的特性,并對應了下一個知識元的特性。通過知識粒度層對關(guān)鍵內(nèi)容的處理,使跨媒體的規(guī)范性資源元數(shù)據(jù)形成了相互關(guān)聯(lián)的整體[5]。設(shè)計知識粒度層的目的在于簡化復雜的跨媒體館藏資源,提取關(guān)鍵數(shù)據(jù)的特征,提升圖書館基于跨媒體館藏資源的知識服務的靈活性和即時性。
語義描述層是大數(shù)據(jù)時代圖書館館藏資源的跨媒體知識服務系統(tǒng)構(gòu)建體系的核心環(huán)節(jié),其目的是將跨媒體的館藏資源轉(zhuǎn)換為可被識別和整合的RDF 文件,形成能夠被計算機運算系統(tǒng)理解的元數(shù)據(jù)集。在語義描述層,圖書館對資源知識元和相關(guān)信息進行RDF形式描述,生成命名圖,并給每一命名圖分配URI,便于跨媒體資源整合平臺的識別。在具體的語義描述過程中,URI的賓語既可以是館藏資源的所屬機構(gòu)或原始鏈接,也可以是精準到資源的生成者??傊Z義描述層負責RDF 文件的生成與URI 的描述,為館藏資源跨媒體關(guān)聯(lián)的實現(xiàn)奠定基礎(chǔ)。
在關(guān)聯(lián)實現(xiàn)層,圖書館利用跨媒體的資源語義描述,將異構(gòu)的知識數(shù)據(jù)源進行有規(guī)律的關(guān)聯(lián)和整合,形成一種立體的、語義化的跨媒體館藏資源體系,應用RDF 鏈接機制保障跨媒體知識資源的有效流通與交互,降低不同館藏資源在平臺內(nèi)共享的難度,以保障圖書館知識服務的延續(xù)性。
結(jié)合上述對跨媒體館藏資源知識服務系統(tǒng)構(gòu)建的分析,筆者著重論述海量知識資源的內(nèi)在聯(lián)系,將重點放在跨媒體知識服務過程中知識聚合的環(huán)節(jié),這就涉及到跨媒體知識檢索技術(shù)方法的創(chuàng)新與應用。因此,筆者對大數(shù)據(jù)時代圖書館館藏資源跨媒體知識服務的方法進行論述,這對于提高跨媒體資源檢索與整合效率、提高知識服務精準性和針對性具有積極作用。大數(shù)據(jù)時代圖書館館藏資源跨媒體知識服務的方法主要有館藏資源采集與維護、知識特征提取與語義關(guān)聯(lián)、跨媒體本體構(gòu)建與自學習3方面(見圖2)。
圖2 大數(shù)據(jù)時代圖書館館藏資源跨媒體知識服務的檢索框架
大數(shù)據(jù)時代,圖書館要強化館藏資源的采集與維護能力,一方面,圖書館可以對傳統(tǒng)紙質(zhì)資源進行數(shù)字化轉(zhuǎn)化,豐富數(shù)據(jù)庫館藏;另一方面,圖書館也可以借助代理軟件,抓取捕捉網(wǎng)頁上的知識資源,完善數(shù)據(jù)庫中知識資源的類別與格式,為跨媒體的知識服務提供豐富全面的資源基礎(chǔ)??缑襟w館藏資源數(shù)據(jù)庫再進一步對采集來的數(shù)據(jù)進行分類儲存與統(tǒng)一性處理,便于后續(xù)的數(shù)據(jù)維護,例如數(shù)據(jù)自動更新、剔除陳舊資源等,從而保障館藏數(shù)據(jù)資源庫的性能[6]??傊?,在大數(shù)據(jù)時代,數(shù)據(jù)信息呈爆炸式增長,圖書館建設(shè)跨媒體的館藏資源庫,要著重強調(diào)數(shù)據(jù)的全面采集和維護,加強學科知識的更新與維護力度。
大數(shù)據(jù)時代圖書館館藏資源跨媒體知識服務的方法還表現(xiàn)在知識特征提取與語義關(guān)聯(lián),通過對跨媒體異構(gòu)知識資源的采集,圖書館要從語義層面進行分析和統(tǒng)計,結(jié)合本體庫對元數(shù)據(jù)進行標注、識別,抽取知識特征與核心概念,發(fā)現(xiàn)數(shù)據(jù)間的聯(lián)系,并將其納入語義庫中?;谥R特征的提取與語義關(guān)聯(lián),可以有效打破跨媒體帶來的資源整合瓶頸,將知識數(shù)據(jù)重新進行分配和組合,實現(xiàn)數(shù)據(jù)資源的增值,消除語義鴻溝,進一步將底層的特征向語義層面上映射,挖掘出知識資源隱含的價值,從而提高語義表述的精確度,提高知識服務的效率。
清華大學圖書館致力于打造大數(shù)據(jù)時代的數(shù)字圖書館知識服務,對館藏數(shù)據(jù)的知識特征提取與語義關(guān)聯(lián)方面進行探索和實踐,嘗試從大數(shù)據(jù)環(huán)境中提取關(guān)鍵詞,并應用先進的數(shù)據(jù)挖掘技術(shù),揭示媒體特征的語義關(guān)聯(lián)分析關(guān)鍵詞走向,獲取更深層次更全面的關(guān)聯(lián)信息。
在圖書館館藏跨媒體知識服務過程中,資源的檢索十分重要,直接影響到知識服務成果輸出,決定了圖書館知識服務的質(zhì)量。跨媒體的語義檢索涉及到來自不同媒體和數(shù)據(jù)庫的多樣類型知識資源,因此很容易產(chǎn)生語義的歧義或重復問題,為了提高檢索效率、優(yōu)化檢索結(jié)果,圖書館需要構(gòu)建起跨媒體的本體體系,讓低層的語義特征能夠向高層進行轉(zhuǎn)化,并結(jié)合參考的本體庫進行完善和校正,然后以提取的語義數(shù)據(jù)和數(shù)據(jù)關(guān)聯(lián)為基礎(chǔ),自動構(gòu)建本體知識庫,實現(xiàn)跨媒體本體的自學習功能,進而為跨媒體知識檢索提供全局的視圖??缑襟w本體構(gòu)建與自學習有利于圖書館可視化知識服務檢索結(jié)果,提高知識服務的準確性和有效率,是大數(shù)據(jù)時代圖書館館藏資源跨媒體知識服務的重要方法。
在大數(shù)據(jù)環(huán)境下,圖書館館藏跨媒體知識服務需要人才、技術(shù)和平臺3方面的保障。
英國圖書館與信息學專家認為智慧圖書館員能夠推動圖書館建設(shè)的發(fā)展,能夠致力于終身學習和服務系統(tǒng)創(chuàng)新。大數(shù)據(jù)時代賦予了圖書館跨媒體資源整合的重要任務,它的實現(xiàn)需要信息技術(shù)的突破和理論的創(chuàng)新,因此,圖書館要推進館藏資源跨媒體語義關(guān)聯(lián)聚合技術(shù)更新?lián)Q代,主動建立學習型組織,保障跨媒體資源整合的持續(xù)開展,深化知識服務的全面改革。通過建立學習型組織,培養(yǎng)圖書館工作人員的終身學習理念,在跨媒體資源整合和語義關(guān)聯(lián)方面始終發(fā)揮主觀能動性,激活圖書館人員的創(chuàng)新能力,發(fā)揮其專業(yè)素養(yǎng)優(yōu)勢,推動知識服務的技術(shù)創(chuàng)新??傊?,高素質(zhì)圖書館人員因其專業(yè)性強被認為是圖書館的優(yōu)勢所在,無論在跨媒體館藏資源整合方面還在具體的知識服務過程中,圖書館員都發(fā)揮著重要作用,建設(shè)學習型圖書館人才隊伍能夠為大數(shù)據(jù)時代圖書館館藏資源跨媒體知識服務模式的構(gòu)建提供良好的人才基礎(chǔ)。
在大數(shù)據(jù)時代圖書館館藏資源跨媒體知識服務過程中,對數(shù)據(jù)關(guān)聯(lián)的挖掘和語義描述至關(guān)重要,因此,圖書館需要提升潛在語義關(guān)聯(lián)挖掘技術(shù)水平。一般來說,多層次樹結(jié)構(gòu)的語義關(guān)聯(lián)技術(shù)被得到廣泛應用,其優(yōu)勢在于可以運用本體知識,在修復語義重復節(jié)點與集成淺層次節(jié)點基礎(chǔ)上,實現(xiàn)元數(shù)據(jù)上下類關(guān)系、同位關(guān)系等多種類型數(shù)據(jù)的多元關(guān)聯(lián)[7]。總之,樹結(jié)構(gòu)技術(shù)能夠充分挖掘數(shù)據(jù)的規(guī)律,提升跨媒體多特征異構(gòu)資源間的語義關(guān)聯(lián)知識質(zhì)量,為大數(shù)據(jù)時代圖書館館藏資源跨媒體知識服務模式的構(gòu)建提供充分的技術(shù)保障。
經(jīng)過規(guī)范化的語義處理,跨媒體的館藏資源形成了標準化的數(shù)據(jù)格式,便于圖書館資源存檔、分類、檢索等工作的有序開展。為了實現(xiàn)館藏資源跨媒體的無障礙流通,圖書館知識服務需要建立起廣泛的交流渠道,促進圖書館內(nèi)部外部的經(jīng)驗交流,使圖書館的知識服務盡快實現(xiàn)向?qū)嵺`的轉(zhuǎn)化。總之,集成式一體化知識服務平臺能夠縮短資源流通的周期,降低資源獲取的成本,更好地提升讀者用戶的使用體驗。
在大數(shù)據(jù)時代,開放關(guān)聯(lián)成為跨媒體館藏資源建設(shè)的實現(xiàn)方式,也是新一代語義互聯(lián)網(wǎng)的發(fā)展趨勢,應用開放的語義關(guān)聯(lián)能夠?qū)崿F(xiàn)不同類型不同結(jié)構(gòu)數(shù)據(jù)之間的規(guī)范化處理,進一步挖掘數(shù)據(jù)間的關(guān)聯(lián),建設(shè)超文本型、圖像型等多種數(shù)字館藏資源一體化管理與服務的數(shù)據(jù)庫模型,滿足讀者用戶日趨多樣的知識需求,再通過建立廣泛的交流渠道,實現(xiàn)面向讀者用戶的知識服務。目前,在圖書館館藏資源跨媒體建設(shè)知識鏈接方面,要著重突出館藏資源質(zhì)量問題,圖書館應該結(jié)合自身資源特色,使跨媒體的知識服務優(yōu)勢得到彰顯,同時要重視資源標準的統(tǒng)一問題,避免資源流通不暢等狀況。