趙嘉文,楊九龍
隨著研究范式的轉變和第四范式數據密集型科學時代[1]的到來,大數據科學逐漸成為科學研究的重要手段。研究者可以利用數據分析平臺來對圖書館及圖書館學的有關問題進行研究。數字圖書館是學界持續(xù)研究的熱點[2],通過大數據分析,可以從整體性認知方面了解公眾對數字圖書館的關注度和利用情況,以指導數字圖書館的創(chuàng)新管理。
百度指數(Baidu Index)是以百度海量網民行為數據為基礎的數據分享平臺,能夠提供體現我國網民搜索行為的社會調查大數據。本研究在此基礎上進行數據挖掘、分析及可視化應用,它包含四個子模塊:(1)趨勢研究,用以表現“數字圖書館”這一關鍵詞的搜索變化情況,可根據自定義時間段和自定義地域,查詢該關鍵詞的搜索指數和媒體指數;可按搜索來源分開查看整體/移動端趨勢;(2)需求圖譜,用來了解網民對數字圖書館的需求分布信息和關鍵詞熱度情況;(3)輿情洞察,用以體現一段時間內的數字圖書館媒體關注度以及該時段內關注度最高的十大熱門新聞;(4)人群畫像,用以顯示搜索數字圖書館的人群在各地的分布及其性別、年齡分布情況。
谷歌趨勢(Google Trends)是Google推出的基于搜索日志分析的應用產品,可以分析網民的Google海量搜索結果。在本文中,可用來反映“數字圖書館”這一關鍵詞各個時期在Google被搜索的頻率和相關統(tǒng)計數據。在谷歌趨勢中可以看到“數字圖書館”搜索量和新聞引用量兩部分的趨勢記錄圖形,并直觀看到其在Google全球的搜索量和相關新聞的引用情況變化走勢,有詳細的城市、國家/地區(qū)、語言柱狀圖顯示。
可用于小樣本數據處理的灰生成方法被廣泛運用于科學研究。張凱等[3]提出一種灰生成計算方法,用于了解“圖書館”一詞搜索熱度的總體趨勢。鑒于其方法是將數據分為兩組,再運用灰生成方法求得均值來進行大數據的數據比較,運用bootstrap對其進行改良,過程如下:
有一組數據x1,…,xn,…,x2n之前的方法,分成兩組x1,…,xn;xn+1…,x2n;求均值
y2-y1=…
y2/y1=… =>變化趨勢
用bootstrap重抽樣來估算均值y1和y2考慮對x1,…,xn(xn+1,…,x2n同理);隨機選擇整數i1,…,in(1≤i1,…,in≤n)并進行等概率抽取,為所得bootstrap樣本為如此進行B次,即i=1,2,…,B;
根據百度指數界定的搜索時間范圍,本文數據包括2011年1月1日至2017年5月7日間“數字圖書館”主題的大數據。
該時段關注“數字圖書館”的人群中,男性占80%,女性占20%,男性是女性的4倍(注:該比例可能是百度賬號默認性別為“男”等因素引起)。在年齡分布中,19歲及以下的占1%,20-29歲的占17%,30-39歲的占56%,40-49歲的占24%,50歲及以上的占2%。分析發(fā)現,關注數字圖書館的人群中男性占比遠大于女性,這與關注圖書館的人群比例相吻合[3];年齡分布呈現出“兩頭小,中間大”趨勢,30-39歲的中青年是最主要群體。
圖1-3顯示使用百度搜索的人群的地域分布及排名。其中,區(qū)域排名依次為西南、華東、華北、華中、華南、東北和西北;省份排名依次為重慶、北京、廣東、浙江、江蘇、貴州、上海、湖北、河南、山東;城市排名依次為重慶、北京、上海、貴陽、武漢、廣州、深圳、天津、南京和鄭州,重慶的搜索量約為第二名北京的2倍,后五個城市差別不大。研究發(fā)現,搜索熱度區(qū)域集中在西南和華東;搜索省份及城市熱度排名第一的均為重慶,這與重慶推出“重慶市數字圖書館”“重慶中小學數字圖書館”密不可分[4-8]。重慶利用“互聯(lián)網+閱讀”模式,建成43個數字圖書館和586個數字農家書屋,重慶圖書館數字資源達118TB。豐富的數字資源和濃厚的閱讀氛圍提升了公眾對數字圖書館的關注度和利用率,從而在區(qū)域及城市搜索排名中遙遙領先。
以谷歌的搜索量為數據基礎,分析2011-2017年同一時段國際網民以“digital library”為關鍵詞在谷歌的搜索情況,以了解公眾對數字圖書館的關注度。從圖4和表1可以看出,全球公眾對數字圖書館的關注度總體不高,巴基斯坦、尼日利亞、馬來西亞分別位居世界地域搜索指數排名的前三名,發(fā)達國家并不如人們想象中那樣,對數字圖書館的關注度更高。這和聯(lián)合國教科文組織致力于鼓勵移動閱讀,以此幫助欠發(fā)達地區(qū)的人們縮小馬太效應帶來的信息劣勢密切相關[9]。巴基斯坦推出數字圖書館服務,其中HEC國家數字圖書館(HEC NationalDigitalLibrary)向巴基斯坦公立和私立大學研究人員和非營利性機構提供研發(fā)幫助,使其可以訪問基于電子(在線)支付的國際學術文獻,提高了該國人員的科研水平。這是該國“數字圖書館”搜索量高的主要原因。
圖1 搜索區(qū)域熱圖
圖2 搜索省份熱圖
圖3 搜索城市熱圖
圖4 世界地域搜索指數排名
表1 世界地域搜索指數排名
將圖5-6一一對應后發(fā)現,媒體指數和新聞熱點報道密切相關。沒有新聞報道“數字圖書館”時,媒體指數持續(xù)為零,這在2015年中至2016年尤為明顯。沒有新聞報道意味著數字圖書館在該時間段內處于消費以往影響力的階段,這是數字圖書館推出后,后繼創(chuàng)新不足,導致社會關注度不高,不足以形成新聞影響的局面。由此可見,要讓更多的人知曉數字圖書館并利用其服務,新聞媒體宣傳必不可少。這也從側面反映出,在實際工作中,數字圖書館缺乏手段去吸引大眾注意力,媒體宣傳工作不盡如人意。沒有新聞影響還反映了數字圖書館的社會關注度不高,工作創(chuàng)新力度不足。圖6尤為明顯地反映了:只有圖書館有實際作為,產生了實際價值,才有新聞報道的必要性。因此,需要拓廣邊界,使圖書館產生與其他組織的聯(lián)系,提高關注度,從而提高公眾對數字圖書館資源及服務的利用率。
圖5 數字圖書館新聞監(jiān)測趨勢圖
圖6 數字圖書館輿情新聞關聯(lián)圖
以我國網民的百度搜索量為數據基礎,以關鍵詞“數字圖書館”為統(tǒng)計對象,以2011年1月1日至2017年5月7日為時間段,計算百度網頁搜索中相關搜索頻次的加權,圖7-圖9反映了用戶對“數字圖書館”搜索的關注度及其持續(xù)變化情況。2013年前搜索量呈低迷走勢,從2013年開始搜索量明顯增長,這與2013年公共圖書館宣傳和普及數字圖書館有關。2016年開始搜索量迅猛增長,移動終端增長尤甚,反映了隨著智能手機的普及和網絡費用的降低,公眾可以便利地使用數字圖書館及其提供的免費資源。值得注意的是,在趨勢圖中,每當臨近春節(jié),搜索量有明顯的波峰下降。究其原因,人們的搜索習慣和閱讀習慣深受“春節(jié)效應”影響:一方面人們主要進行拜年、娛樂等活動,減少了搜索;另一方面,許多人回到比較偏遠的家鄉(xiāng),網絡不太發(fā)達,也導致搜索量有所下降。
圖7 全國整體趨勢(2011-01-01至2017-05-07)
圖8 全國PC端趨勢(2011-01-01至2017-05-07)
圖9 全國移動終端趨勢(2011-01-01至2017-05-07)
以國際網民的谷歌搜索量為數據基礎,以關鍵詞“digitallibrary”為統(tǒng)計對象,時間段設為2011年1月1日至2017年5月7日,分析世界所有區(qū)域的網民對數字圖書館的關注度及其波動趨勢。從圖10可以看出,近7年全球公眾對數字圖書館的關注度總體呈平穩(wěn)趨勢,波動緩和。
圖11為2013年11月1日至2017年5月7日間“百度知道”中關于“數字圖書館”的搜索熱度排名。其中,和“數字圖書館”有關的前10條提問均有9個回答,搜索內容涉及數字圖書館的特點、個人數字圖書館的使用、數字圖書館的訪問權限、下載資源權限等。這說明公眾希望通過問答式網絡提問或搜索,獲取各類數字圖書館免費資料,以滿足自己的信息需求。
圖10 谷歌數字圖書館關鍵詞熱度趨勢
圖11“百度知道”中數字圖書館的搜索熱度排名
圖12顯示“數字圖書館”與相關詞的相關度,從圓心由內向外依次表示相關度的強弱關系。最靠近圓心關鍵詞“數字圖書館”的4個詞“超星”“重慶市中小學數字圖書館”“數字圖書館系統(tǒng)”“重慶”為強相關;“重慶數字圖書館”“超星移動圖書館”“中國數字圖書館”“數字圖書館平臺”“中小學數字圖書館”“中小學生數字圖書館”“中國數字圖書館網站”“超星數字圖書館”“在線圖書館”9個詞為相關;“電子圖書館”等10個詞為弱相關。相關性分析發(fā)現,公眾對超星數字圖書館和重慶中小學數字圖書館抱有強烈的興趣,這與二者的廣泛宣傳和自身豐富的功能密不可分。
圖12 詞匯熱圖及相關性
表2是通過爬蟲軟件從百度指數曲線上抓取的網民對“數字圖書館”的周平均搜索指數分布。抓取時長共334周,按照第一行第一列、第二列……,第二行第一列、第二列……,的順序依次分布,直到表格結束。利用公式(1)計算表2中的數據,可得到y(tǒng)1=153.1,y2=364.4。比較發(fā)現y1<y2,且y2-y1=211.3,說明網民每周搜索指數上漲較為猛烈,這與數字時代的進步密不可分。y2/y1=2.38意味著搜索量在近7年內上升238%。研究發(fā)現,公眾對數字圖書館從基本不關注不了解逐漸轉變?yōu)椴糠至私?,在特殊時間節(jié)點關注度更有較明顯的上升。這一結論與2.4中的熱詞變化趨勢分析結果較為一致。
鑒于公眾知識和認知水平的影響因素差異,選取“數字圖書館”的相關詞“電子圖書館”,收集相同時間段內的數據進行對比分析。其中,“電子圖書館”搜索人群年齡分布比例為:19歲及以下占4%,20-29歲占28%,30-39歲占46%,40-49歲17%,50歲及以上占5%;性別上,男:女為81:19,與“數字圖書館”的男女比例(80:20)基本持平。由此可見,搜索“數字圖書館”和“電子圖書館”的網民總體相同。圖13可見,2012年前,公眾主要通過搜索“電子圖書館”來獲取有關數字圖書館的信息,隨著圖書館宣傳的加強和公眾認知水平的提高,“數字圖書館”概念逐漸取代“電子圖書館”概念,公眾逐漸接受數字圖書館這一說法。這與超星數字圖書館等機構的宣傳有一定的關聯(lián)。
(1)利用移動平臺延伸數字圖書館服務。移動平臺的出現使獲取信息資源的成本大幅降低。近7年的調查數據表明:公眾通過網絡特別是在移動終端上搜索數字圖書館相關信息并利用其資源與服務的趨勢顯著增長。因此,圖書館要加強公眾信息素養(yǎng)教育,尤其是移動環(huán)境下數字圖書館資源的檢索、利用、保存、分享等技能。比如,微信推出的“小程序”不需要下載安裝,只需要在微信內嵌入就可以使用的移動終端應用。數字圖書館可以借助這個平臺不斷推廣優(yōu)質服務,將用戶與服務無縫對接,使用戶方便快捷地使用圖書館資源。
表2 每周搜索次數(2011-01-01至2017-05-07)
圖13 整體趨勢分析對比
(2)注重數字圖書館的宣傳報道。調查表明數字圖書館的公眾知曉度不夠高,影響力不強,利用普及性偏低。比如,國內外公眾對關鍵詞“數字圖書館”“digitallibrary”的搜索量均不高;而我國公眾對關鍵詞“數字圖書館”的搜索量雖然不斷提高,但周平均搜索次數仍未達到1000次。研究發(fā)現,在有數字圖書館宣傳報道的時間里,搜索量顯著增長,這表明宣傳報道是推廣數字圖書館的有效手段。此外,要注意宣傳內容和方法,并推出創(chuàng)新服務。2010年重慶推出重慶市中小學數字圖書館(http://www.cqslib.org),2014年推出“抗戰(zhàn)大后方3D數字圖書館”,隨之而來的是網民搜索量和關注度的提升。再如,巴基斯坦推出“HEC National Digital Library”后,公眾可以在數字圖書館上閱讀烏爾都語小說和伊斯蘭宗教書籍,科研人員也可以查閱學科文獻,使巴基斯坦科研工作者的論文在7年內增加近10倍;在谷歌搜索中,“數字圖書館”這一關鍵詞的搜索量,巴基斯坦位居世界第一。這些數據表明,數字圖書館進行創(chuàng)新服務能得到公眾的認可和關注。
(3)數字圖書館的發(fā)展重心應是改變公眾對數字圖書館的“刻板印象”。長期以來,數字圖書館在公眾心中的形象主要是提供電子刊物這類信息資源,公眾對搜索引擎的信賴及其搜索慣性使他們并未養(yǎng)成利用數字圖書館獲取信息資源的習慣。圖書館提供的數字資源相較于一般的搜索引擎更具準確性、專業(yè)性、科學性,數字圖書館是甄別有用信息、避免垃圾信息和有害信息的重要途徑?!拔簞t西事件”爆發(fā)后,百度等搜索引擎因競價排名而提供虛假、錯誤信息,導致其社會信任度下降[10-11]。圖書館應積極承擔社會責任,改變公眾的認知和信息尋求習慣,使數字圖書館資源更有效地為公眾利用。
本文主要通過百度指數、谷歌趨勢的可視化圖形結果及相關數據,展示國內外對“數字圖書館”的網絡搜索情況,并通過對其中關鍵數據的挖掘分析,提出數字圖書館發(fā)展的針對性建議。不過,文章對國外大數據挖掘和調查不夠深入,僅僅進行了世界地域搜索指數排名和關鍵詞熱度趨勢分析,筆者將在下一步研究中深化國內外熱詞變化趨勢的對比。
[1]HeyT,TansleyS,TolleK.Thefourthparadigm[M].Redmond,Wash.:MicrosoftPress,2009.
[2]蘇新寧.大數據時代數字圖書館面臨的機遇和挑戰(zhàn)[J].中國圖書館學報,2015(6):4-12.
[3]張凱,郭健棲.圖書館主題大數據調查及前瞻性構想——基于百度指數的分析[J].中國圖書館學報,2016(6):51-66.
[4]黃勇.重慶圖書館特色館藏建設項目分析——以抗戰(zhàn)大后方歷史全景數字虛擬化圖書館項目為例[J].內蒙古科技與經濟,2016(22):110-111.
[5]周怡悅.數字圖書館推廣工程背景下數字資源的共建共享探析——以重慶圖書館為例[J].農業(yè)網絡信息,2016(10):95-97.
[6]譚瑋.新媒體環(huán)境下地市級數字圖書館在區(qū)域數字文化服務中的探索與實踐——以重慶市北碚區(qū)數字圖書館為例[C]//中國西部公共圖書館聯(lián)合會.中國西部公共圖書館聯(lián)合會第二屆(2015)年會暨學術討論會會議論文集(三).[S.l.]:中國西部公共圖書館聯(lián)合會,2015:8.
[7]楊勇,張必蘭.重慶市高校數字圖書館建設實踐[J].重慶工商大學學報(自然科學版),2009(6):571-574.
[8]重慶數字圖書館開通[J].圖書館理論與實踐,2009(11):77.
[9]Mark West,Han Ei Chen.移動時代的閱讀——發(fā)展中國家移動閱讀研究[J].沈浠琳,薛玉貞,王晨宇,譯.圖書館論壇,2015(9):4-52.
[10]方超,張園.從媒介批評視角看“魏則西”事件中的“百度”[J].傳播與版權,2016(8):90-92.
[11]尹丹丹.論網絡環(huán)境下的媒介批評——以魏則西事件中的百度為例[J].傳播與版權,2016(8):104-106.