高琳
(內(nèi)蒙古農(nóng)業(yè)大學(xué)圖書(shū)館 內(nèi)蒙古呼和浩特 010018)
大數(shù)據(jù)思維與圖書(shū)館知識(shí)資源發(fā)現(xiàn)
高琳
(內(nèi)蒙古農(nóng)業(yè)大學(xué)圖書(shū)館 內(nèi)蒙古呼和浩特 010018)
大數(shù)據(jù)時(shí)代的到來(lái)引發(fā)了人們對(duì)數(shù)據(jù)價(jià)值的重新認(rèn)識(shí),也使得對(duì)解決問(wèn)題思維從追求因果關(guān)系向更看重關(guān)聯(lián)關(guān)系方向轉(zhuǎn)移。受大數(shù)據(jù)思維影響,傳統(tǒng)的圖書(shū)館知識(shí)資源發(fā)現(xiàn)服務(wù)需在實(shí)現(xiàn)步驟、營(yíng)銷策略方面做出改變。
大數(shù)據(jù)思維;小數(shù)據(jù);圖書(shū)館;知識(shí)資源;發(fā)現(xiàn)服務(wù)
隨著大數(shù)據(jù)在人們認(rèn)識(shí)中的概念加深和在社會(huì)發(fā)展中的拓展應(yīng)用,對(duì)于公眾特別是從事數(shù)據(jù)生產(chǎn)、處理與應(yīng)用工作的信息工作從業(yè)者來(lái)說(shuō),大數(shù)據(jù)已不陌生,它在一些政務(wù)管理、市場(chǎng)營(yíng)銷、智能交通、智慧城市等領(lǐng)域的經(jīng)典案例也被廣為傳播,大數(shù)據(jù)成為當(dāng)代繼Web、云計(jì)算之后的又一熱門詞。然而,對(duì)于以信息為生存基礎(chǔ)的圖書(shū)館和圖書(shū)館員來(lái)說(shuō),大數(shù)據(jù)究竟對(duì)我們的工作意味著什么?
目前,圖情界已經(jīng)對(duì)大數(shù)據(jù)及其在圖書(shū)館的應(yīng)用實(shí)踐、障礙困難、發(fā)展前景等展開(kāi)了廣泛的研究與討論,筆者僅在中國(guó)知網(wǎng)以“圖書(shū)館”&“大數(shù)據(jù)”為主題詞進(jìn)行檢索(檢索時(shí)間:2015年2月10日),就發(fā)現(xiàn)有532條相關(guān)文獻(xiàn),且這些文獻(xiàn)的發(fā)表時(shí)間主要集中在過(guò)去兩年(2013年和2014年),由此可知我國(guó)圖情界過(guò)去兩年對(duì)大數(shù)據(jù)注入了巨大的研究熱情。對(duì)這些文獻(xiàn)進(jìn)行簡(jiǎn)單梳理,發(fā)現(xiàn)它們主要從大數(shù)據(jù)對(duì)圖書(shū)館的影響、圖書(shū)館如何應(yīng)對(duì)、圖書(shū)館大數(shù)據(jù)的收集與管理等角度進(jìn)行推理研究,對(duì)于應(yīng)用的案例則主要集中在大數(shù)據(jù)在營(yíng)銷、社會(huì)管理等領(lǐng)域的應(yīng)用方面,缺少?gòu)膱D書(shū)館價(jià)值體現(xiàn)的信息角度去討論大數(shù)據(jù)時(shí)代的圖書(shū)館信息管理和服務(wù),如知識(shí)組織與資源發(fā)現(xiàn)等,而這恰恰是筆者認(rèn)為在大數(shù)據(jù)語(yǔ)境下,大數(shù)據(jù)思維能最早也最直接作用于圖書(shū)館的價(jià)值之所在?;诖?,本文在概述大數(shù)據(jù)和大數(shù)據(jù)思維的基礎(chǔ)上,著重從傳統(tǒng)思維下的圖書(shū)館知識(shí)資源發(fā)現(xiàn)和大數(shù)據(jù)思維驅(qū)動(dòng)下的圖書(shū)館知識(shí)資源發(fā)現(xiàn)比較入手,進(jìn)而去研究大數(shù)據(jù)思維驅(qū)動(dòng)的圖書(shū)館知識(shí)資源發(fā)現(xiàn)途徑與策略。
2.1 大數(shù)據(jù)概述
2011年5月,全球知名咨詢公司麥肯錫(Mckinsey and Company)發(fā)布了《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》報(bào)告,首次提出了“大數(shù)據(jù)”的概念,并在報(bào)告中指出“數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素;而人們對(duì)于海量數(shù)據(jù)的運(yùn)用將預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)”。之后,《紐約時(shí)報(bào)》、《華爾街日?qǐng)?bào)》、《自然》等對(duì)大數(shù)據(jù)進(jìn)行了專欄介紹,但時(shí)至今日,業(yè)界對(duì)大數(shù)據(jù)的概念并無(wú)統(tǒng)一認(rèn)識(shí),且不同的研究領(lǐng)域和價(jià)值判斷視角使其的內(nèi)涵變得更為寬泛,如從“Big data”字面所引申的概念來(lái)看,大數(shù)據(jù)無(wú)疑就是“大”數(shù)據(jù),其“大”既體現(xiàn)在數(shù)量上,也體現(xiàn)在其組成分布、數(shù)據(jù)結(jié)構(gòu)上;而從大數(shù)據(jù)的挖掘和應(yīng)用來(lái)看,大數(shù)據(jù)則更可能是價(jià)值巨大的體現(xiàn)和概括。但無(wú)論其在具體的表達(dá)中如何界定和描述,我們都認(rèn)為大數(shù)據(jù)既是豐富的數(shù)據(jù)組織機(jī)構(gòu)、分布形態(tài)屬性描述,也是巨大的應(yīng)用價(jià)值屬性描述。為此,業(yè)界總結(jié)了大數(shù)據(jù)的價(jià)值之所在,如IBM和IDC認(rèn)為大數(shù)據(jù)具有多“V”特征,即種類(Variety)多、速度(Velocity)快、容量(Volume)大、價(jià)值(Value)高,NetApp認(rèn)為大數(shù)據(jù)具有"A、B、C"(分析〈Analytic〉、帶寬〈Bandwidth〉和內(nèi)容〈Content〉)三大要素特征。
2.2 大數(shù)據(jù)思維
在傳統(tǒng)的思維模式下,發(fā)現(xiàn)問(wèn)題——分析問(wèn)題——解決問(wèn)題是永恒的因果思維模式,即使有一些防患于未然的預(yù)防、預(yù)警措施,但問(wèn)題的解決往往主要集中于事后而不是事前,因果關(guān)系成了傳統(tǒng)思維的主要推理與演繹思維。但隨著美國(guó)信息高速公路計(jì)劃的推出和現(xiàn)代互聯(lián)網(wǎng)環(huán)境的出現(xiàn),使得人們的思考與解決問(wèn)題方式有了質(zhì)的改變,以網(wǎng)絡(luò)體驗(yàn)——話題傳播——問(wèn)題發(fā)現(xiàn)——新的體驗(yàn)為循環(huán)思維的互聯(lián)網(wǎng)思維隨之出現(xiàn)。大數(shù)據(jù)的出現(xiàn)則又使得人們的思維方式發(fā)生了質(zhì)的變化,其變化正如維克托·邁爾·舍恩伯格在《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》中最具洞見(jiàn)的觀點(diǎn)描述的一樣,即大數(shù)據(jù)時(shí)代最大的轉(zhuǎn)變就是放棄對(duì)因果關(guān)系的渴求,取而代之關(guān)注相關(guān)關(guān)系。也就是說(shuō)只要知道“是什么”,而不需要知道“為什么”。
復(fù)旦大學(xué)陳宇新教授認(rèn)為從營(yíng)銷學(xué)的角度來(lái)看,大數(shù)據(jù)其實(shí)也是營(yíng)銷科學(xué)導(dǎo)向的自然演化,其主要包含了定量思維、相關(guān)思維和實(shí)驗(yàn)思維等三個(gè)緯度。第一,定量思維,即提供更多描述性的信息,其原則是一切皆可測(cè)。不僅銷售數(shù)據(jù)、價(jià)格這些客觀標(biāo)準(zhǔn)可以形成大數(shù)據(jù),甚至連顧客情緒(如對(duì)色彩、空間的感知等)都可以測(cè)得,大數(shù)據(jù)包含了與消費(fèi)行為有關(guān)的方方面面;第二,相關(guān)思維,一切皆可連,消費(fèi)者行為的不同數(shù)據(jù)都有內(nèi)在聯(lián)系。這可以用來(lái)預(yù)測(cè)消費(fèi)者的行為偏好;第三,實(shí)驗(yàn)思維,一切皆可試,大數(shù)據(jù)所帶來(lái)的信息可以幫助制定營(yíng)銷策略。沃爾瑪?shù)摹捌【?尿布”典型案例則很好的體現(xiàn)出了這三個(gè)維度特征。
3.1 圖書(shū)館和大數(shù)據(jù):認(rèn)識(shí)與應(yīng)用
綜上,我們可以認(rèn)為大數(shù)據(jù)既是一種技術(shù),也是一種豐富數(shù)據(jù)的概括,更是一種發(fā)現(xiàn)事物發(fā)展本質(zhì)的思維。對(duì)社會(huì)信息中心和知識(shí)存儲(chǔ)中心的圖書(shū)館來(lái)說(shuō),這種思維范式改變的不僅將是圖書(shū)館用戶的信息利用、知識(shí)顯現(xiàn)和潛在需求,也要求圖書(shū)館借助大數(shù)據(jù)技術(shù)和思維,從信息的視域去發(fā)現(xiàn)滿足用戶的服務(wù)途徑和方式。圖書(shū)館學(xué)術(shù)界也意識(shí)到了這一視角,但從已有的研究文獻(xiàn)來(lái)看,業(yè)界對(duì)圖書(shū)館大數(shù)據(jù)的認(rèn)識(shí)存在一定局限,這或許將為圖書(shū)館未來(lái)的應(yīng)用形成障礙。如有學(xué)者將具有數(shù)量大屬性的圖書(shū)館文獻(xiàn)數(shù)據(jù)認(rèn)為是圖書(shū)館大數(shù)據(jù),這說(shuō)明業(yè)界對(duì)大數(shù)據(jù)的認(rèn)識(shí)還并不深刻和統(tǒng)一。
筆者以為對(duì)圖書(shū)館來(lái)說(shuō),大數(shù)據(jù)既包含了現(xiàn)有的數(shù)據(jù)庫(kù)、MARC等結(jié)構(gòu)化數(shù)據(jù),也包含了能夠反映用戶借閱習(xí)慣的RFID、Cooki等網(wǎng)絡(luò)數(shù)據(jù),還包含了可以幫助圖書(shū)館挖掘用戶潛在需求的智能終端設(shè)備輸出等數(shù)據(jù),現(xiàn)有的海量數(shù)據(jù)和澳大利亞“圖書(shū)館立方”項(xiàng)目的成功應(yīng)用,說(shuō)明圖書(shū)館不僅具備了收集大數(shù)據(jù)的基礎(chǔ),也有了應(yīng)用大數(shù)據(jù)的成功經(jīng)驗(yàn)積累。
3.2 互聯(lián)網(wǎng)時(shí)代的圖書(shū)館知識(shí)資源發(fā)現(xiàn):方式與不足
圖書(shū)館的資源發(fā)現(xiàn)隨著社會(huì)發(fā)展而不斷變化,在互聯(lián)網(wǎng)時(shí)代,隨著語(yǔ)義化等現(xiàn)代信息技術(shù)的發(fā)展和圖書(shū)館服務(wù)平臺(tái)的建設(shè),圖書(shū)館的知識(shí)資源發(fā)現(xiàn)服務(wù)早已不再是數(shù)目卡片查找、口口相傳等方式,以服務(wù)平臺(tái)和現(xiàn)代信息技術(shù)推動(dòng)著這一服務(wù)的發(fā)展,其中以基于語(yǔ)義聚焦爬蟲(chóng)、領(lǐng)域本體、RDF查詢語(yǔ)言和關(guān)聯(lián)數(shù)據(jù)的語(yǔ)義化知識(shí)資源發(fā)現(xiàn)與以Summon、Primo、EDS、Worldcat Local和Encore為代表的資源發(fā)現(xiàn)系統(tǒng)是其實(shí)現(xiàn)的主要方法與途徑。
王思麗等在對(duì)比語(yǔ)義化知識(shí)資源發(fā)現(xiàn)方法后,認(rèn)為以上幾種典型的語(yǔ)義化知識(shí)資源發(fā)現(xiàn)方法盡管特點(diǎn)不一,應(yīng)用都較為廣泛,但也各自存在這一定的局限,如基于領(lǐng)域本體的知識(shí)資源發(fā)現(xiàn)方法一直以來(lái)都是知識(shí)發(fā)現(xiàn)領(lǐng)域的研究重點(diǎn),并隨著本體開(kāi)發(fā)工具和技術(shù)以及語(yǔ)義標(biāo)注工具和技術(shù)的不斷改進(jìn)而逐漸完善和優(yōu)化。但由于構(gòu)建領(lǐng)域本體需要巨大的領(lǐng)域知識(shí)庫(kù)和具有相關(guān)領(lǐng)域?qū)W科知識(shí)背景的支持,而復(fù)用領(lǐng)域本體也需要有相關(guān)本體技術(shù)知識(shí)的支持,一般用戶很難將基于領(lǐng)域本體的方法運(yùn)用自如,一般都是圖書(shū)館或相關(guān)學(xué)術(shù)研究機(jī)構(gòu)的資源建設(shè)團(tuán)隊(duì)在整體運(yùn)作。而對(duì)圖書(shū)館知識(shí)資源發(fā)現(xiàn)系統(tǒng)來(lái)說(shuō),也是由于各個(gè)發(fā)現(xiàn)系統(tǒng)的依賴資源都有一定的局限,故資源的關(guān)聯(lián)和發(fā)現(xiàn)都只是在其可以獲取的資源范圍內(nèi),同時(shí)如接口與標(biāo)準(zhǔn)化差異、需求場(chǎng)景不同導(dǎo)致各個(gè)系統(tǒng)都存在一定的進(jìn)一步發(fā)展障礙。
3.3 大數(shù)據(jù)時(shí)代的圖書(shū)館知識(shí)資源發(fā)現(xiàn):思維與范式3.3.1大數(shù)據(jù)思維影響下的圖書(shū)館知識(shí)資源發(fā)現(xiàn)
《大數(shù)據(jù)時(shí)代》作者、大數(shù)據(jù)研究專家舍恩伯格指出,人們?cè)诖髷?shù)據(jù)時(shí)代對(duì)待數(shù)據(jù)的思維方式會(huì)發(fā)生三個(gè)變化:第一,人們處理的數(shù)據(jù)從樣本數(shù)據(jù)變成全部數(shù)據(jù);第二,由于是全樣本數(shù)據(jù),人們不得不接受數(shù)據(jù)的混雜性,而放棄對(duì)精確性的追求;第三,人類通過(guò)對(duì)大數(shù)據(jù)的處理,放棄對(duì)因果關(guān)系的渴求,轉(zhuǎn)而關(guān)注相關(guān)關(guān)系。在上述思維轉(zhuǎn)變的基礎(chǔ)上,有學(xué)者還認(rèn)為大數(shù)據(jù)思維其最關(guān)鍵的轉(zhuǎn)變?cè)谟趶淖匀凰季S轉(zhuǎn)向智能思維,甚至智慧思維。這些思維方式的轉(zhuǎn)變對(duì)圖書(shū)館的知識(shí)資源發(fā)現(xiàn)服務(wù)來(lái)說(shuō),其將體現(xiàn)在如下三個(gè)方面:
首先,對(duì)原有圖書(shū)館物理服務(wù)空間環(huán)境下的借閱發(fā)現(xiàn)、網(wǎng)絡(luò)環(huán)境下的語(yǔ)義檢索發(fā)現(xiàn)等途徑,將向?qū)D書(shū)館用戶和資源全關(guān)聯(lián)后的知識(shí)發(fā)現(xiàn)轉(zhuǎn)變,且對(duì)圖書(shū)館用戶和資源的關(guān)聯(lián)挖掘,其數(shù)據(jù)不僅是對(duì)用戶身份、學(xué)歷、借閱需求的小數(shù)據(jù)分析,更可能是對(duì)用戶借閱習(xí)慣、閱讀領(lǐng)域、信息行為等多種數(shù)據(jù)的挖掘和分析;
其次,由于基于用戶信息行為乃至生活行為的分析和挖掘,以致圖書(shū)館的知識(shí)資源發(fā)現(xiàn)服務(wù)可能并不滿足于用戶最需的科研文獻(xiàn)推送等服務(wù),而可能是概括了其可能感興趣的生活如旅游、音樂(lè)等知識(shí),使其不得不從這些服務(wù)中去挑選自己所需知識(shí),服務(wù)的精準(zhǔn)性有所降低,需用戶不斷的閾值設(shè)置與校正;
再次,圖書(shū)館知識(shí)資源的關(guān)聯(lián)性增強(qiáng),使得用戶雖所需要的知識(shí)資源發(fā)現(xiàn)可能性增加,而這些文獻(xiàn)可能需要特別的途徑和代價(jià)獲得,這就可能需要圖書(shū)館通過(guò)館際互借等途徑獲得,以致圖書(shū)館不得不面臨著諸多的挑戰(zhàn),如服務(wù)成本的增加、版權(quán)爭(zhēng)議的風(fēng)險(xiǎn)、用戶滿意度的降低等。3.3.2大數(shù)據(jù)時(shí)代的圖書(shū)館知識(shí)資源發(fā)現(xiàn)實(shí)現(xiàn)階段
從營(yíng)銷學(xué)的角度來(lái)看,運(yùn)用大數(shù)據(jù)的遞進(jìn)層次為描述、預(yù)測(cè)和產(chǎn)生攻略。這就啟發(fā)對(duì)大數(shù)據(jù)時(shí)代的圖書(shū)館知識(shí)資源發(fā)現(xiàn)服務(wù)策略來(lái)說(shuō),也需要經(jīng)歷這三個(gè)階段和層次:
第一階段:基于數(shù)據(jù)的行為描述。結(jié)合圖書(shū)館用戶進(jìn)行用戶興趣、研究凌領(lǐng)域的分析與需求挖掘,就必須依賴于海量的描述用戶行為數(shù)據(jù),如用戶的借閱歷史、科研記錄、學(xué)習(xí)網(wǎng)站的訪問(wèn)頻率與種類等。掌握和采集可描述用戶特征的異構(gòu)數(shù)據(jù),則可借助一定的儀器和設(shè)備,如美國(guó)迪斯尼公司最近投資了10億美元開(kāi)發(fā)出了MagicBand手環(huán)進(jìn)行線下顧客的跟蹤和數(shù)據(jù)采集,游客在入園時(shí)佩戴上帶有位置采集功能的手環(huán),園方可以通過(guò)其來(lái)采集游客信息行為數(shù)據(jù),還可通過(guò)定位系統(tǒng)了解不同區(qū)域游客的分布情況,并將這一信息告訴游客,方便游客選擇最佳游玩路線。
第二階段:基于描述數(shù)據(jù)的預(yù)測(cè)?;诿枋鰯?shù)據(jù)的預(yù)測(cè),其實(shí)就是基于海量有用數(shù)據(jù)的分析和挖掘利用過(guò)程,是圖書(shū)館應(yīng)用應(yīng)用大數(shù)據(jù)的關(guān)鍵階段。在這個(gè)階段,圖書(shū)館通過(guò)大數(shù)據(jù)分析平臺(tái)如Hadoop來(lái)實(shí)現(xiàn)從對(duì)數(shù)據(jù)量的擁有到價(jià)值體現(xiàn)的過(guò)程,沃爾瑪超市的“啤酒+尿布”就是從海量的用戶購(gòu)物數(shù)據(jù)中得出的經(jīng)典營(yíng)銷策略案例。目前的社交網(wǎng)絡(luò)在這一方面也進(jìn)行了有益嘗試,其通過(guò)社交網(wǎng)絡(luò)分析與跟蹤,將消費(fèi)者社交網(wǎng)絡(luò)上的關(guān)鍵詞頻率轉(zhuǎn)化為可視化表達(dá),對(duì)消費(fèi)者進(jìn)行分類,進(jìn)而預(yù)測(cè)目標(biāo)客群的消費(fèi)水平、人際圈子、行為習(xí)慣等,實(shí)現(xiàn)從數(shù)據(jù)的描述想預(yù)測(cè)階段發(fā)展。
第三階段:基于預(yù)測(cè)結(jié)果的服務(wù)策略制定。通過(guò)預(yù)測(cè)結(jié)果,圖書(shū)館可以制定對(duì)應(yīng)不同用戶群體的服務(wù)策略,如對(duì)在校學(xué)生,其可能更需要可以幫助其提升學(xué)習(xí)效果的學(xué)習(xí)技巧類知識(shí)資源,而對(duì)于中老年用戶其可能更需要養(yǎng)生保健知識(shí)資源。將這些用戶群體的顯著特征與預(yù)測(cè)模型相融合,圖書(shū)館就可以制定出科學(xué)的發(fā)現(xiàn)服務(wù)的實(shí)現(xiàn)策略,即營(yíng)銷理論的攻略制定。
[1]Big data:The next frontier for innovation,competition,and productivity[EB/OL].[2014-09-21].http://www.mck insey.com/Insights/MGI/Research/Technology_and_Innov ation/Big_data_The_next_frontier_for_innovation.
[2]MapR and Informatica Combine to Conquer Volume,Variety and Velocity of Big Data[EB/OL].[2014-09-21].http://www.dbta.com/Articles/Editorial/News-Flashes/-MapR-and-Informatica-Join-Forces-to-Tackle-Volume-Variety-and-Velocity-of-Big-Data-81231.aspx.
[3]IBM公司在大數(shù)據(jù)領(lǐng)域占有先機(jī)[EB/OL].[2014-09-01]. http://it.hilizi.com/server/275232/372589013274b.shtml.
[4]NetApp.Big Data Solutions for Government[EB/OL].[2014-09-01].http://www.netapp.com/us/solutions/indust ry/government/bigdata.html.
[5](美)維克托·邁爾·舍恩伯格.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013.
[6]陳宇新.互聯(lián)網(wǎng)思維PK大數(shù)據(jù)思維[EB/OL].[2015-02 -03 ].http://mt.sohu.com/20140819/n403586440.shtml.
[7]王思麗,劉巍,祝忠明,等.語(yǔ)義化的知識(shí)資源發(fā)現(xiàn)方法探析[J].圖書(shū)館學(xué)研究,2014(9):2-6.
[8]大數(shù)據(jù)帶來(lái)的四種思維[EB/OL].[2015-02-03].http://www.techxue.com/techxue-12814-1.html.
Big Data Thinking and the Discovery of Knowledge Resources in Library
Big data times make people rethink of the value of data and the pursuit of causalty shifts to the pursuit of relevance in problem solving.The traditional services of libraries in the discovery of knowledge need changes in implementation steps and karketing strategies.
big data thinking;small data;library;knowledge resources;discovery service
G250
A
10.11968/tsyqb.1003-6938.2015022
高琳(1970-),女,內(nèi)蒙古農(nóng)業(yè)大學(xué)圖書(shū)館館員。
2015-02-15;責(zé)任編輯:魏志鵬