杜文龍,馮現(xiàn)永
(西安航空學(xué)院 圖書館,陜西 西安 710077)
近年來,科學(xué)研究逐漸從“假設(shè)驅(qū)動”向“基于探索”模式轉(zhuǎn)變?!凹僭O(shè)驅(qū)動”可以描述為,科研人員首先提出一個科學(xué)假設(shè),然后通過實(shí)驗(yàn)來驗(yàn)證這個假設(shè)是否成立,而“基于探索”模式可以表述為科研人員借助分析工具,通過對海量數(shù)據(jù)的深度分析能得到何種啟發(fā)。因此“基于探索”的科研模式也可以稱為“數(shù)據(jù)密集型”研究模式。
1.“戰(zhàn)略性閱讀”的由來
計(jì)算機(jī)和網(wǎng)絡(luò)的出現(xiàn)使數(shù)據(jù)信息呈“爆炸式”增長,通信技術(shù)的革新以及基于P2P技術(shù)的網(wǎng)絡(luò)應(yīng)用逐步增多,用戶擁有了信息利用者和提供者的雙重身份,科技期刊的數(shù)字化使得科技論文的出版周期大大縮減,科學(xué)交流的新模式OA的出現(xiàn)使用戶利用科技論文更加方便。置身于無處不在的數(shù)據(jù)環(huán)境,面對海量數(shù)據(jù)信息,科技期刊的數(shù)字化出版以及科學(xué)交流模式的新變化都使用戶產(chǎn)生了如何對海量數(shù)據(jù)進(jìn)行知識關(guān)聯(lián)和深度分析以快速、準(zhǔn)確、動態(tài)地把握一個學(xué)科或主題領(lǐng)域的發(fā)展脈絡(luò)的“戰(zhàn)略性閱讀”需求。
2.“戰(zhàn)略性閱讀”的含義
在面對重大復(fù)雜問題和自主創(chuàng)新的挑戰(zhàn)時,科研人員和科技決策者越來越依賴“戰(zhàn)略性閱讀”[1]來幫助他們理清某學(xué)科的發(fā)展軌跡及學(xué)科結(jié)構(gòu),某領(lǐng)域的研究熱點(diǎn)、研究現(xiàn)狀以及發(fā)展趨勢,為他們進(jìn)行項(xiàng)目選擇和科技決策提供支持。傳統(tǒng)閱讀是針對某篇具體的文獻(xiàn),文獻(xiàn)之間的關(guān)聯(lián)無從揭示,而“戰(zhàn)略性閱讀”則是借助軟件或工具,同時對多篇文獻(xiàn)進(jìn)行聚合、歸類和圖形化表達(dá),能以知識地圖的方式展示各文獻(xiàn)之間的語義關(guān)聯(lián)?!皯?zhàn)略性閱讀”通常不是為了解決某個具體問題,而是建立宏知識( Meta Knowledge)[2]。宏知識是更為重要、更高層次的需求,即以戰(zhàn)略性的高度對科技發(fā)展進(jìn)行宏觀把握。
為了支持“戰(zhàn)略性閱讀”,許多公司已經(jīng)開發(fā)了多種工具,支持科研用戶對海量數(shù)據(jù)的深度分析[3],例如Thomson Reuters的 HistCite,美國 Drex-el 大學(xué)的CiteSpace,Thomson 公司和ominiviz 公司合作開發(fā)的refviz等。本文以HistCite為例,以 “數(shù)字圖書館”主題領(lǐng)域?yàn)楹曛R來源,展示如何運(yùn)用專業(yè)分析工具來滿足科研用戶的“戰(zhàn)略性閱讀”需求。
本文以Web of Science平臺中的SCI-EXPANDED, SSCI和A&HCI為來源數(shù)據(jù)庫。檢索式為:“TS=digital library”,時間跨度為所有年份,檢索返回1542條數(shù)據(jù),經(jīng)過學(xué)科精煉,屬于信息科學(xué)和圖書館學(xué)科的數(shù)據(jù)有535條。將文獻(xiàn)記錄的題錄信息以“TXT”格式下載并另存,檢索時間為2012年2月1日。
1.數(shù)字圖書館研究文獻(xiàn)的量化分析
(1)數(shù)字圖書館研究文獻(xiàn)的時間分布。535條文獻(xiàn)記錄的時間分布如圖1所示。
圖1 數(shù)字圖書館研究文獻(xiàn)的時間分布
從圖1可以看出,在所采集的數(shù)據(jù)范圍內(nèi),最早的數(shù)字圖書館研究論文出現(xiàn)在2002年,從2002年至2008年文獻(xiàn)發(fā)表數(shù)量的變化表現(xiàn)為迂回式增長,從2003年起,文獻(xiàn)發(fā)表量大幅增長,除了2004、2010和2011這三年之外,其他各年度的文獻(xiàn)發(fā)表量都在55篇以上,并于2005和2008年出現(xiàn)了兩次文獻(xiàn)增長高峰時期,發(fā)文量分別高達(dá)81篇和68篇。由此可見,數(shù)字圖書館研究歷程大致上可分為:初創(chuàng)(2002)、穩(wěn)定發(fā)展(2003-2004)、蓬勃興起(2005-2008)、衰落(2009-2011)四個階段。
(2)數(shù)字圖書館研究文獻(xiàn)的國家(地區(qū))分布。通過國家(地區(qū))分布圖,可以獲悉數(shù)字圖書館研究的活躍地區(qū)。535篇文獻(xiàn)分布于世界上42個國家(地區(qū)),排名前12位的國家(地區(qū))如表1所示。
表1 數(shù)字圖書館研究文獻(xiàn)的國家(地區(qū))分布(前12位)
由表1可以看出,美國是數(shù)字圖書館研究最為活躍的國家,發(fā)文量最多,達(dá)160篇,占世界文章總數(shù)的29.91%,大大超出其他國家;其次為UK,雖載文量遠(yuǎn)遜于美國,但是相對其他國家來說它的發(fā)文量很大,高達(dá)56篇,位居第二,百分比為10.46%;加拿大、澳大利亞、西班牙等國家和地區(qū)發(fā)文量比較接近,對數(shù)字圖書館研究有一定的影響力。而我國排名第11,載文量為9篇,所占比例僅1.68%,這在一定程度上反應(yīng)了我國于該領(lǐng)域的研究在國際上的影響力還有待于提高。
(3)數(shù)字圖書館研究的重要作者分布。在HistCite主界面,可將這些文獻(xiàn)記錄按照作者、期刊、出版年等字段進(jìn)行排序,這樣就可以獲悉數(shù)字圖書館研究領(lǐng)域的重要作者以及該領(lǐng)域的文章主要被刊載到哪些期刊上,如想了解該領(lǐng)域的核心作者,該軟件提供三個指標(biāo)可對作者字段進(jìn)行排序,分別為Recs、TLCS和TGCS,Recs為作者發(fā)文量,TLCS為作者在當(dāng)前數(shù)據(jù)庫中總的被引頻次,TGCS為作者在SCI-EXPANDED, SSCI和A&HCI來源數(shù)據(jù)庫中總的被引頻次。綜合Recs和TLCS這兩項(xiàng)指標(biāo),可以確定數(shù)字圖書館研究領(lǐng)域的重要作者,如表2所示。
表2 數(shù)字圖書館領(lǐng)域重要作者分布
2.數(shù)字圖書館研究文獻(xiàn)的引文編年
HistCite主界面的Tools工具欄提供Graphs Maker功能,可以依據(jù)LCS或者GSC制圖。利用LCS制圖可以確定某領(lǐng)域的經(jīng)典文獻(xiàn),為了優(yōu)化可視化圖譜,可利用count和value參數(shù)對節(jié)點(diǎn)的數(shù)量和最低閾值進(jìn)行限制。節(jié)點(diǎn)過多會影響視圖的顯示效果,不易辨認(rèn)經(jīng)典文獻(xiàn),節(jié)點(diǎn)過少節(jié)點(diǎn)之間的引用和繼承關(guān)系就不能很好地展現(xiàn)出來。筆者根據(jù)所下載數(shù)字圖書館領(lǐng)域文獻(xiàn)記錄的實(shí)際情況,將LCS的count數(shù)量限制為30,即形成后的圖譜只顯示被引頻次(降序)在前30位條文獻(xiàn)記錄。LCS模式下count=30時生成的引文編年圖如圖2所示。
圖2 數(shù)字圖書館研究文獻(xiàn)的引文編年圖
圖2中每一個圓圈節(jié)點(diǎn)代表一篇文獻(xiàn),節(jié)點(diǎn)的大小與文獻(xiàn)的被引頻次成正比,節(jié)點(diǎn)越大,文獻(xiàn)的被引頻次越高。圓圈之間的連線表明節(jié)點(diǎn)之間存在引用關(guān)系,箭頭所示方向?yàn)楸灰玫奈墨I(xiàn)節(jié)點(diǎn)。圖2中節(jié)點(diǎn)由上及下的空間順序反映了文獻(xiàn)發(fā)表的時間先后順序,按文獻(xiàn)發(fā)表的年份給文獻(xiàn)賦予順序號并排放在圖中相應(yīng)位置上[4]。通過引文編年圖可以觀察數(shù)字圖書館研究的歷史淵源、文獻(xiàn)之間的引用和繼承關(guān)系以及數(shù)字圖書館研究的發(fā)展脈絡(luò)。
圖2中,2002年以前的沒有相應(yīng)的文獻(xiàn)節(jié)點(diǎn),說明了2002年以前國際上數(shù)字圖書館領(lǐng)域沒有較高影響力的經(jīng)典文獻(xiàn)。
早期形成的經(jīng)典文獻(xiàn)有發(fā)表于2002年的節(jié)點(diǎn)7、6和13。文獻(xiàn)7為Miller RG發(fā)表在《JOURNAL OF ACADEMIC LIBRARIANSHIP 》28卷第3期上的文章“Shaping digital library content”;文獻(xiàn)6是Bates MJ發(fā)表在《INFORMATION PROCESSING & MANAGEMENT》38卷第3期的文章“The cascade of interactions in the digital library interface”。其中文獻(xiàn)7主要討論了數(shù)字圖書館的數(shù)字資源建設(shè)及數(shù)字資源管理方面的問題,作者提出在數(shù)字資源建設(shè)方面應(yīng)該協(xié)調(diào)好自建與從數(shù)據(jù)庫商購買的關(guān)系[5]。使得數(shù)字圖書館數(shù)字資源的建設(shè)和管理問題成為該領(lǐng)域的研究熱點(diǎn)之一。文獻(xiàn)6探討了數(shù)字圖書館系統(tǒng)設(shè)計(jì)、信息檢索系統(tǒng)設(shè)計(jì)、用戶界面設(shè)計(jì)以及在線信息系統(tǒng)等相關(guān)問題[6]。在文章13中作者提出了“大眾性數(shù)字圖書館”的概念。作者認(rèn)為大眾性數(shù)字圖書館提供了這樣一種檢索環(huán)境,即將基于數(shù)據(jù)庫商提供的書目數(shù)據(jù)檢索與基于互聯(lián)網(wǎng)的搜索引擎式檢索有機(jī)結(jié)合[7]。最后作者探討了大眾性數(shù)字圖書館的發(fā)展前景以及在實(shí)現(xiàn)用戶信息期望方面所起的作用。由此可知,2002年形成的經(jīng)典文獻(xiàn)的研究側(cè)重點(diǎn)為數(shù)字圖書館的數(shù)字資源建設(shè)、系統(tǒng)設(shè)計(jì)、檢索機(jī)制、用戶界面設(shè)計(jì)等方面。
2003年出現(xiàn)的比較大的文獻(xiàn)節(jié)點(diǎn)有36,54,30和35,其中文獻(xiàn)54和35對后續(xù)的研究有較深遠(yuǎn)的影響,文章54為Tuominen, K等的文章“Multiperspective digital libraries: The implications of constructionism for the development of digital libraries”,該文章在Web of Science中被引頻次達(dá)17次。作者首先強(qiáng)調(diào)了數(shù)字圖書館信息檢索系統(tǒng)的設(shè)計(jì)理念和理論工作的重要性。此后作者在社會知識傳遞和社會知識生產(chǎn)兩種視角下探討了數(shù)字圖書館的知識組織方式和原則、數(shù)字圖書館的知識結(jié)構(gòu)等問題。文章35為Kassim, ARC和Kochtanek, TR發(fā)表在期刊《Online Information Review》上的文章“Designing, implementing, and evaluating an educational digital library resource”,該文側(cè)重于教育型數(shù)字圖書館的設(shè)計(jì)以及教育型數(shù)字圖書館的資源評價體系研究。作者設(shè)計(jì)了教育類數(shù)字資源基于用戶的5個評價指標(biāo),分別為集體評論、網(wǎng)絡(luò)日志分析、數(shù)據(jù)庫事務(wù)日志、網(wǎng)絡(luò)調(diào)查和可用性評估。這就使得數(shù)字圖書館數(shù)字資源的評價機(jī)制研究成為一個比較熱門的主題。
由于越來越多的經(jīng)典文獻(xiàn)逐年形成,數(shù)字圖書館研究從2005年開始進(jìn)入了興盛時期。體現(xiàn)為從2005年開始,關(guān)于數(shù)字圖書館方面的論文劇增,從2004年的43篇增至2005年的81篇,文獻(xiàn)之間的聯(lián)系也更加緊密,而且研究的主題更加寬泛,增加了對數(shù)據(jù)庫管理系統(tǒng)、數(shù)據(jù)處理、用戶群體研究、可用性評價等方面的研究。
本文主要探討了如何用專業(yè)的數(shù)據(jù)分析軟件來幫助用戶實(shí)現(xiàn)“戰(zhàn)略性閱讀”的愿景,本文的分析工具為引文編年圖軟件HistCite,以“數(shù)字圖書館”為例,用戶可以通過HistCite對該領(lǐng)域的題錄數(shù)據(jù)做更深層次的分析。通過“戰(zhàn)略性閱讀”,用戶可以不必閱讀每一篇文獻(xiàn)就可以獲得數(shù)字圖書館領(lǐng)域的相關(guān)宏知識,比如用戶可以快速鎖定數(shù)字圖書館領(lǐng)域的經(jīng)典文獻(xiàn)、重要的科學(xué)家和研究活躍地帶。
利用HistCite繪制的引文編年圖是從時間上反映某領(lǐng)域歷年來重要文獻(xiàn)的引用和繼承關(guān)系,節(jié)點(diǎn)之間的共被引關(guān)系以及聯(lián)系程度的強(qiáng)弱無從體現(xiàn), 但是HistCite在考察一個學(xué)科或者主題的歷史淵源、繼承關(guān)系以及發(fā)展的主要路徑方面有著獨(dú)特的優(yōu)勢。筆者認(rèn)為如果將HistCite、Refviz和CiteSpace等分析工具結(jié)合起來,集各工具之所長,可以克服各個工具自身的缺陷,也能更好地滿足用戶對海量科研數(shù)據(jù)的可視化分析,最大程度地滿足用戶的“戰(zhàn)略性閱讀”的需求。
隨著e-science機(jī)制的形成,科學(xué)研究逐漸從“假設(shè)式導(dǎo)向”模式向“數(shù)據(jù)密集式”模式轉(zhuǎn)變,科研人員為了提高科研的效率和產(chǎn)出,更趨向于 “戰(zhàn)略性閱讀”來幫助他們理清研究思路和進(jìn)行項(xiàng)目規(guī)劃?!皯?zhàn)略性閱讀”的適用范圍不僅僅是科研人員,普通的圖書館用戶以及政府決策人員都應(yīng)該通過“戰(zhàn)略性閱讀”來更好地?cái)U(kuò)充自身的宏知識。
[1] A H Renear,C L Palmer.Strategic Reading,Ontologies,and the Future of Scientific Publishing[J]. Science,2009,325( 5942):828-832.
[2] J A Evans,J G Foster. Metaknowledge[J].Science,2011,331( 6018):721-725.
[3] 張曉林.顛覆數(shù)字圖書館的大趨勢[J].中國圖書館學(xué)報,2011(9):4-12.
[4] 張國海. 電子政務(wù)研究文獻(xiàn)的量化可視分析[J].情報雜志,2011(6):82-86.
[5] Miller,RG.Shaping digital library content[J].Journal of Academic Librarianship,2002(3):97-103.
[6] Bates MJ.The cascade of interactions in the digital library interface[J].Information Processing & Managemnet ,2002 (3):381-400.
[7] Wolfram D,Xie HI. Traditional IR for web users: a context for general audience digital libraries RID A-2449-2008[J]. Information Processing & Managemnet 2002(5):627-648.