章珞佳
(山西大學(xué)文學(xué)院,太原,030006)
隨著信息和通信技術(shù)的發(fā)展,人類社會(huì)生產(chǎn)的數(shù)據(jù)資源越來(lái)越多,且呈現(xiàn)出密集化的態(tài)勢(shì),愈加復(fù)雜的信息環(huán)境使人們獲取知識(shí)時(shí)感到困難。然而,以圖書(shū)館為代表的信息服務(wù)行業(yè)在數(shù)據(jù)密集環(huán)境下利用包括大數(shù)據(jù)在內(nèi)的高新技術(shù)進(jìn)行知識(shí)生產(chǎn)和導(dǎo)航可以化被動(dòng)為主動(dòng),化挑戰(zhàn)為機(jī)遇。基于這樣的理念,國(guó)際圖書(shū)館協(xié)會(huì)聯(lián)合會(huì)(International Federation of Library Associations and Institutions,IFLA)在其趨勢(shì)報(bào)告(Trend Report)中指出以英特爾為代表的密集數(shù)據(jù)計(jì)算是革新信息科學(xué)行業(yè)服務(wù)的一把“尖刀”[1];IEEE 計(jì)算機(jī)學(xué)會(huì)主辦的2015年大數(shù)據(jù)服務(wù)專題會(huì)議列出七大大數(shù)據(jù)應(yīng)用,其中圖書(shū)館的信息服務(wù)是其中重要的一個(gè)領(lǐng)域[2]。在圖書(shū)館應(yīng)用方面,美國(guó)國(guó)會(huì)圖書(shū)館(Library of Congress)將“美國(guó)記憶工程”、歷史文獻(xiàn)部、印刷圖像部等部門和項(xiàng)目的元數(shù)據(jù)進(jìn)行整合,以提供更好地密集數(shù)據(jù)集成服務(wù);哈佛大學(xué)圖書(shū)館(Harvard University Library)宣布使用Hadoop分布式計(jì)算管理書(shū)目海量數(shù)據(jù);歐洲數(shù)字圖書(shū)館(Europeana)將其超過(guò)2000萬(wàn)的圖片、文獻(xiàn)、檔案等記錄利用大數(shù)據(jù)技術(shù)進(jìn)行重制,并開(kāi)放地提供給各國(guó)研究者。因此,數(shù)據(jù)密集環(huán)境下的圖書(shū)館服務(wù)無(wú)論從理念、手段還是內(nèi)容上都將迎來(lái)一場(chǎng)革新。
海量數(shù)據(jù)的概念早在21世紀(jì)初就已被提出,隨著摩爾定律持續(xù)產(chǎn)生作用,人類社會(huì)所擁有的計(jì)算機(jī)硬件與數(shù)據(jù)資源在持續(xù)不斷地快速增長(zhǎng)。麥肯錫在2011年的研究報(bào)告《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》[3]中首次定義了“大數(shù)據(jù)”,并指出“數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素”。而微軟研究院經(jīng)過(guò)對(duì)信息環(huán)境的研究,提出了基于數(shù)據(jù)密集型的科學(xué)研究“第四范式”,數(shù)據(jù)密集型環(huán)境也成為國(guó)內(nèi)外圖書(shū)情報(bào)領(lǐng)域研究的一個(gè)熱點(diǎn)。目前國(guó)內(nèi)外對(duì)數(shù)據(jù)密集型環(huán)境的研究主要有兩個(gè)層面:①應(yīng)用層面:Google公司開(kāi)發(fā)的MapReduce分布式編程模式和因特爾開(kāi)發(fā)的Hadoop系統(tǒng)已經(jīng)成為密集數(shù)據(jù)處理的重要工具,IBM、浪潮等公司加強(qiáng)對(duì)分布式數(shù)據(jù)管理技術(shù)的研發(fā)投入,工業(yè)界已經(jīng)生產(chǎn)出一系列解決數(shù)據(jù)密集環(huán)境知識(shí)管理的工具和產(chǎn)品;②研究層面:關(guān)于密集數(shù)據(jù)的期刊論文、會(huì)議論文和最新的科研成果層出不窮。從2013年開(kāi)始,國(guó)家自然科學(xué)基金和國(guó)家社會(huì)科學(xué)基金都在相關(guān)學(xué)科的申報(bào)指引中將數(shù)據(jù)密集型計(jì)算相關(guān)研究列入其中,已有相當(dāng)數(shù)量的立項(xiàng)項(xiàng)目是以該領(lǐng)域的研究為主題的。國(guó)際頂級(jí)期刊Nature、Science,IEEE頂級(jí)的學(xué)術(shù)會(huì)議和CODATA等國(guó)際知名的數(shù)據(jù)管理組織都將數(shù)據(jù)密集環(huán)境下的知識(shí)管理作為重要的研究對(duì)象。
一直以來(lái),圖書(shū)館所占有的數(shù)據(jù)資源相當(dāng)豐富,圖書(shū)情報(bào)學(xué)科也是以此類信息資源為研究對(duì)象的,借助數(shù)據(jù)密集型環(huán)境下的新技術(shù)能夠大大提升圖書(shū)情報(bào)領(lǐng)域的知識(shí)服務(wù)效率和質(zhì)量。圖書(shū)館是知識(shí)信息服務(wù)的中介機(jī)構(gòu),高校和科研機(jī)構(gòu)、不同類型的智庫(kù)以及政府管理機(jī)構(gòu)等都對(duì)知識(shí)服務(wù)有很高的要求。因此,圖書(shū)館迫切需要利用密集數(shù)據(jù)處理技術(shù)開(kāi)發(fā)新形式的學(xué)科評(píng)價(jià)、知識(shí)導(dǎo)航、數(shù)據(jù)分析等增值服務(wù)。隨著圖書(shū)館安裝使用越來(lái)越多的智能化設(shè)備和與用戶交互能力的提升,其開(kāi)始產(chǎn)生大量的非結(jié)構(gòu)化程序,如用戶記錄、用戶評(píng)價(jià)、傳感器數(shù)據(jù)等。如能利用新技術(shù)從這部分密集數(shù)據(jù)中尋找讀者用戶、科研工作者的隱形需求并透析借閱、科研的熱點(diǎn),那么將在很大程度上改善個(gè)性化薦讀、學(xué)科評(píng)價(jià)與導(dǎo)航、科研熱點(diǎn)預(yù)測(cè)等服務(wù)。
目前密集數(shù)據(jù)的最大特點(diǎn)是數(shù)據(jù)量非常大,需要占用大量的物理和網(wǎng)絡(luò)存儲(chǔ)空間。另一方面,數(shù)字資源的長(zhǎng)期保存是圖書(shū)情報(bào)領(lǐng)域?qū)?shù)據(jù)管理研究的一個(gè)重點(diǎn),密集數(shù)據(jù)的長(zhǎng)期保存問(wèn)題成為一個(gè)新的研究點(diǎn)?;诿芗瘮?shù)據(jù)的特點(diǎn),本文認(rèn)為其存儲(chǔ)應(yīng)從四個(gè)方面考慮:在空間上應(yīng)保障服務(wù)器部署的擴(kuò)展空間;在硬件上采用動(dòng)態(tài)虛擬存儲(chǔ)和虛擬路由技術(shù)來(lái)提高存儲(chǔ)效率;在構(gòu)架上與軟件配置上使用基于MapReduce和Hadoop的分布式數(shù)據(jù)管理技術(shù),提供密集數(shù)據(jù)的查詢效率;在人才培養(yǎng)上應(yīng)重視引進(jìn)數(shù)據(jù)管理型人才,設(shè)置相應(yīng)的數(shù)據(jù)管理館員等職位。
3.2.1 語(yǔ)義化處理
近年來(lái),以本體為代表的語(yǔ)義化技術(shù)在圖書(shū)情報(bào)領(lǐng)域得到廣泛而深入的研究,并產(chǎn)生了一批質(zhì)量較高的本體模型,例如“中文敘詞表本體”、“漢語(yǔ)主題詞表本體”、“情感詞匯本體”等,推動(dòng)了知識(shí)共享工程和語(yǔ)義化信息資源的建設(shè)。對(duì)密集數(shù)據(jù)進(jìn)行語(yǔ)義化處理有許多好處:一方面能夠使不相關(guān)的數(shù)據(jù)集合統(tǒng)一為一個(gè)整體同時(shí)將傳統(tǒng)網(wǎng)絡(luò)資源語(yǔ)義化;另一方面語(yǔ)義化能夠提高這部分資源的使用率。目前,大規(guī)模數(shù)據(jù)的語(yǔ)義化處理主要有以下三種方法:一是“詞表—本體”的自動(dòng)轉(zhuǎn)化,即通過(guò)構(gòu)造詞表上下位類的邏輯關(guān)系和詞匯級(jí)別來(lái)實(shí)現(xiàn)本體化;二是以本體映射來(lái)實(shí)現(xiàn)模型的構(gòu)建,常見(jiàn)的有基于RDA/ONIX框架的書(shū)目本體映射數(shù)據(jù)庫(kù);三是通過(guò)自動(dòng)抽詞技術(shù)實(shí)現(xiàn)的領(lǐng)域本體的構(gòu)建,即通過(guò)提前設(shè)定一系列本體內(nèi)所需要的父類、子類、實(shí)例等關(guān)系來(lái)對(duì)某一領(lǐng)域的詞匯進(jìn)行抽取和本體構(gòu)建。數(shù)字資源的語(yǔ)義化處理為密集數(shù)據(jù)環(huán)境下的知識(shí)咨詢開(kāi)發(fā)提供了底層資源池的準(zhǔn)備。
3.2.2 開(kāi)放關(guān)聯(lián)
與語(yǔ)義化相對(duì)應(yīng)的是利用開(kāi)放關(guān)聯(lián)技術(shù)來(lái)使大規(guī)模數(shù)據(jù)資源實(shí)現(xiàn)關(guān)聯(lián)、分類和聚類等應(yīng)用。2011年,W3C圖書(shū)館關(guān)聯(lián)數(shù)據(jù)(Library Linked Data)孵化小組發(fā)表了系列研究報(bào)告[4],定義其使命為“通過(guò)帶動(dòng)更多的人參與語(yǔ)義網(wǎng)活動(dòng)——特別是關(guān)注圖書(shū)館及相關(guān)領(lǐng)域關(guān)聯(lián)數(shù)據(jù)活動(dòng),應(yīng)用現(xiàn)有的先導(dǎo)活動(dòng),確定未來(lái)合作發(fā)展的軌跡,以此促進(jìn)圖書(shū)館數(shù)據(jù)在萬(wàn)維網(wǎng)上的互操作”,其實(shí)質(zhì)是圖書(shū)館利用關(guān)聯(lián)數(shù)據(jù)技術(shù)對(duì)其內(nèi)部廣泛存在的數(shù)據(jù)集、元數(shù)據(jù)元素集和取值詞匯集等資源進(jìn)行描述和組織,以提高圖書(shū)館數(shù)據(jù)的檢索和利用效率。此外,圖書(shū)館的關(guān)聯(lián)數(shù)據(jù)應(yīng)用已經(jīng)從書(shū)目數(shù)據(jù)擴(kuò)展到了更多的數(shù)據(jù)源。在數(shù)據(jù)密集型環(huán)境下,關(guān)聯(lián)數(shù)據(jù)技術(shù)使多數(shù)據(jù)源實(shí)現(xiàn)聚合能夠優(yōu)化圖書(shū)館的業(yè)務(wù)流程、提高其服務(wù)質(zhì)量并擴(kuò)展服務(wù)內(nèi)容。
3.3.1 人工分析
參考咨詢和數(shù)據(jù)分析是圖書(shū)館人的核心能力和專業(yè)所長(zhǎng)。事實(shí)上,圖書(shū)館工作人員的能力和素養(yǎng)是隨著知識(shí)資源的擴(kuò)充而不停增長(zhǎng)的,兩者呈正相關(guān)的關(guān)系。隨著數(shù)據(jù)量變得越來(lái)越大、數(shù)據(jù)類型變得越來(lái)越多,圖書(shū)館人在新的數(shù)據(jù)密集型環(huán)境中所掌握的技能和知識(shí)也隨之增長(zhǎng)。數(shù)據(jù)分析能力的核心是從規(guī)模龐大的數(shù)據(jù)資源中獲取科研熱點(diǎn)的能力,是從紛繁復(fù)雜的數(shù)據(jù)類型中獲取有效知識(shí)的能力,是從信息爆炸的環(huán)境中提供知識(shí)咨詢的能力。
3.3.2 可視化展現(xiàn)
SPSS、CiteSpace、Google Fusion Tables等流行的可視化分析軟件能夠很好地對(duì)密集數(shù)據(jù)進(jìn)行分析展現(xiàn),針對(duì)密集數(shù)據(jù)的可視化分析能夠打破海量數(shù)據(jù)所帶來(lái)的知識(shí)藩籬,將粒度更小的知識(shí)傳遞給用戶。知識(shí)網(wǎng)絡(luò)地圖,就是以分析軟件為工具,對(duì)從密集數(shù)據(jù)中提取出來(lái)的用戶所需求的專業(yè)知識(shí)進(jìn)行分析總結(jié),按照科研發(fā)展脈絡(luò)、科研熱點(diǎn)、科研低中高層次分析等方面進(jìn)行地圖式的分析,給科研用戶帶來(lái)前所未有的清晰的知識(shí)咨詢體驗(yàn)。在繁雜的科學(xué)數(shù)據(jù)管理工作中,知識(shí)網(wǎng)絡(luò)地圖能夠有效避免重復(fù)勞動(dòng),減少數(shù)據(jù)重復(fù)和數(shù)據(jù)沖突,為科研團(tuán)隊(duì)的工作助力。
數(shù)據(jù)密集型知識(shí)生產(chǎn)技術(shù)就是將泛在于網(wǎng)絡(luò)空間和圖書(shū)館實(shí)體中的信息逐步提煉為情報(bào)和知識(shí)的過(guò)程,一般表現(xiàn)為知識(shí)庫(kù)的建立和應(yīng)用。知識(shí)庫(kù)的建立一般按照需求分析、技術(shù)準(zhǔn)備、知識(shí)組織等流程來(lái)進(jìn)行,以實(shí)現(xiàn)用戶需求與從密集數(shù)據(jù)中提煉出來(lái)的知識(shí)的雙向?qū)印?傮w來(lái)說(shuō),知識(shí)庫(kù)的構(gòu)建可以分為以下幾個(gè)步驟:
(1)信息獲取:采用基于分布式計(jì)算的密集數(shù)據(jù)處理技術(shù)來(lái)從密集數(shù)據(jù)中按照一定的關(guān)系模型提煉出所需要的信息,保障知識(shí)生產(chǎn)。
(2)知識(shí)組織:將提取出來(lái)的知識(shí)以科學(xué)的分類法加以組織,增強(qiáng)元數(shù)據(jù)描述的厚度,制作索引、目錄以方便檢索,目的是更方便用戶使用和檢索;
(3)構(gòu)建知識(shí)庫(kù):將經(jīng)過(guò)組織的知識(shí)資源進(jìn)行存儲(chǔ),使用語(yǔ)義化技術(shù)構(gòu)建知識(shí)庫(kù)檢索系統(tǒng),同時(shí)進(jìn)行必要的備份策略;
(4)更新與維護(hù):在知識(shí)爆炸環(huán)境中,知識(shí)是不斷更新的,因此圖書(shū)館工作者也必須跟上知識(shí)更新的腳步,不斷更新“知識(shí)庫(kù)”,并進(jìn)行維護(hù)工作。
利用密集數(shù)據(jù)進(jìn)行知識(shí)咨詢服務(wù),就是在保障圖書(shū)館大數(shù)據(jù)安全儲(chǔ)存的基礎(chǔ)上,使用科學(xué)方法采集與學(xué)科服務(wù)相關(guān)的大數(shù)據(jù),挖掘、分析和展現(xiàn),然后通過(guò)學(xué)科導(dǎo)航平臺(tái)將通過(guò)密集數(shù)據(jù)獲得的科研熱點(diǎn)、科研趨勢(shì)、情報(bào)計(jì)量等學(xué)科服務(wù)信息精確推送到相應(yīng)的用戶面前。最終使學(xué)科服務(wù)實(shí)現(xiàn)從被動(dòng)服務(wù)到主動(dòng)服務(wù)的轉(zhuǎn)變、從傳統(tǒng)參考咨詢服務(wù)到現(xiàn)代知識(shí)服務(wù)的轉(zhuǎn)變、從低效耗散服務(wù)到高效集中服務(wù)的轉(zhuǎn)變。
在Web2.0的環(huán)境下,圖書(shū)館與用戶的知識(shí)交流模式發(fā)生了變革,以微博、微信為代表的社交媒體逐漸被圖書(shū)館所應(yīng)用,這些工具打破了圖書(shū)館與用戶在時(shí)間與空間上的界限,擴(kuò)展了圖書(shū)館的形態(tài),提升了服務(wù)質(zhì)量。因此,在知識(shí)導(dǎo)航過(guò)程中應(yīng)當(dāng)采用基于新媒體的主動(dòng)服務(wù)模式,又可以細(xì)分為以下幾種類型:
4.3.1 傳統(tǒng)咨詢模式的革新
即知識(shí)導(dǎo)航和咨詢是基于圖書(shū)館傳統(tǒng)的參考咨詢服務(wù)的,但其工作流程和服務(wù)內(nèi)容發(fā)生了質(zhì)的變化。其不僅僅為讀者和科研用戶提供文獻(xiàn)的檢索和全文傳遞,更提供了貫穿知識(shí)管理全部生命周期的服務(wù)。首先由用戶提出需求,然后館員可以根據(jù)需求從密集數(shù)據(jù)中提煉知識(shí),形成知識(shí)庫(kù),通過(guò)知識(shí)導(dǎo)航遞送給用戶并提供持續(xù)服務(wù)。一旦某些知識(shí)內(nèi)容形成專題,那么將會(huì)使更多的用戶關(guān)注這些知識(shí)熱點(diǎn)。
4.3.2 基于 Web2.0的知識(shí)咨詢
即依托于微博、微信、博客、RSS、WIKI寫(xiě)作等Web2.0技術(shù)的知識(shí)咨詢。圖書(shū)館定期更新知識(shí)庫(kù)并通過(guò)Web2.0工具進(jìn)行推送,在用戶參與知識(shí)共享的過(guò)程中,可以進(jìn)一步使用大數(shù)據(jù)技術(shù)分析用戶的個(gè)性化需求,利用反饋信息優(yōu)化知識(shí)庫(kù)。同時(shí),重視Web2.0所帶來(lái)的交互性,使用戶在使用過(guò)程中產(chǎn)生身臨其境的感覺(jué)。
4.3.3 基于人工智能的知識(shí)導(dǎo)航
人工智能(Artificial Intelligence,AI)隨著近年來(lái)計(jì)算機(jī)軟硬件技術(shù)的革新發(fā)展較快。圖書(shū)館所能利用的人工智能目前還有限,但可以預(yù)見(jiàn)的是AI會(huì)成為智慧城市和智慧型圖書(shū)館建設(shè)的核心環(huán)節(jié)。人工智能的核心是機(jī)器學(xué)習(xí)、模式識(shí)別和專家系統(tǒng)等技術(shù),而這些技術(shù)同樣適用于大規(guī)模數(shù)據(jù)處理。數(shù)據(jù)密集型環(huán)境下,應(yīng)用人工智能可以協(xié)調(diào)圖書(shū)館內(nèi)傳感器、數(shù)據(jù)庫(kù)、用戶記錄等不同類型的數(shù)據(jù)資源,從而實(shí)現(xiàn)智慧化的知識(shí)導(dǎo)航服務(wù)。目前,清華大學(xué)圖書(shū)館“小圖”機(jī)器人程序已經(jīng)開(kāi)始為用戶提供全新模式的咨詢服務(wù);蘋(píng)果公司的Siri能夠?qū)⒅悄苁謾C(jī)變身為帶有AI的機(jī)器人??梢灶A(yù)見(jiàn),未來(lái)AI能夠更好地提升圖書(shū)館的文獻(xiàn)檢索、圖書(shū)分類和知識(shí)導(dǎo)航等業(yè)務(wù)。
隨著數(shù)據(jù)密集型環(huán)境的不斷發(fā)展,圖書(shū)館的業(yè)務(wù)在不斷擴(kuò)展,以數(shù)據(jù)為核心的服務(wù)將為圖書(shū)館帶來(lái)機(jī)遇和挑戰(zhàn)。面對(duì)越來(lái)越強(qiáng)大的搜索引擎和商業(yè)數(shù)字圖書(shū)館的雙重威脅,圖書(shū)館在信息交流和知識(shí)共享領(lǐng)域的核心地位遭遇了前所未有的挑戰(zhàn)。然而,圖書(shū)館軟硬件水平不斷提高,其數(shù)據(jù)存儲(chǔ)能力、情報(bào)計(jì)量水平、知識(shí)咨詢服務(wù)等都在持續(xù)進(jìn)步,同時(shí)越來(lái)越多的接受過(guò)專業(yè)圖書(shū)館教育的館員正在走進(jìn)這個(gè)行業(yè)。因此,圖書(shū)館有能力抓住數(shù)據(jù)密集環(huán)境下的機(jī)遇,大力提升其知識(shí)咨詢水平,為用戶帶來(lái)福音。
新媒體、物聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)等一系列技術(shù)不斷地被應(yīng)用在圖書(shū)館中,并提高了圖書(shū)館的服務(wù)能力和效率,傳統(tǒng)的圖書(shū)館正在朝著智慧型圖書(shū)館的方向升級(jí)。在這個(gè)大趨勢(shì)中,圖書(shū)館的知識(shí)咨詢服務(wù)勢(shì)必將成為核心內(nèi)容,在數(shù)據(jù)爆炸時(shí)代增強(qiáng)圖書(shū)館的核心競(jìng)爭(zhēng)力。
[1]Vision Paper-Distributed Data Mining and Big Data:Intel’s Perspective on Data at the Edge[EB/OL].[2015-04-08].http://trends.ifla.org/node/99
[2]IEEE Big Data Service 2015[EB/OL].[2015-04-08].http://www.big-dataservice.net
[3]Bia Data:The next frontier for innovation,competition,and productivity[EB/OL].[2014-04-08].http://www.mckinsey.com/Insights/MGI/Research/Technologu_and_Innovation/Big_data_the_next_frontier for innovation
[4]Library Linked Data Incubator Group:Use Cases[EB/OL].[2015-04-08].http://www.w3.org/2005/Incubator/lld/XGR-lld-usecase-20111025/