李雪原,張潔
研究論文
大數(shù)據(jù)環(huán)境下典型文獻(xiàn)資源發(fā)現(xiàn)系統(tǒng)評測與建議
李雪原1,張潔2 *
1.中國農(nóng)業(yè)大學(xué)圖書館,北京 100193,中國;2.中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081,中國
以Primo、Summon、EDS、百度學(xué)術(shù)、超星發(fā)現(xiàn)5種較為常用的發(fā)現(xiàn)系統(tǒng)為樣本,梳理歸納發(fā)現(xiàn)系統(tǒng)的功能特點(diǎn),研發(fā)、測試文獻(xiàn)資源發(fā)現(xiàn)系統(tǒng)的評測指標(biāo)體系并進(jìn)行具體評測,調(diào)研分析用戶在使用發(fā)現(xiàn)系統(tǒng)中獲取信息的影響因素、系統(tǒng)易用性的影響因素、以及用戶忠誠度的影響因素,同時結(jié)合大數(shù)據(jù)的發(fā)展與影響,提出6點(diǎn)發(fā)展建議:加強(qiáng)元數(shù)據(jù)的規(guī)范建設(shè)、提升文獻(xiàn)信息的揭示度與獲取途徑、優(yōu)化相關(guān)性排序、提升個性化服務(wù)、利用衍生數(shù)據(jù)推動精準(zhǔn)服務(wù)、加強(qiáng)頂層規(guī)劃,建立協(xié)同合作機(jī)制。
資源發(fā)現(xiàn)系統(tǒng);知識發(fā)現(xiàn)系統(tǒng);Primo;Summon;EDS;百度學(xué)術(shù);超星發(fā)現(xiàn)系統(tǒng)
隨著文獻(xiàn)資源總量的持續(xù)快速增加,文獻(xiàn)發(fā)現(xiàn)在規(guī)模體量和技術(shù)體系上已進(jìn)入大數(shù)據(jù)時代,在海量資源中準(zhǔn)確且高效地發(fā)現(xiàn)、定位用戶需求的文獻(xiàn)資源,已經(jīng)成為文獻(xiàn)管理與服務(wù)的核心挑戰(zhàn)。用戶的需求從簡單的搜索轉(zhuǎn)變?yōu)橹R發(fā)現(xiàn),文獻(xiàn)發(fā)現(xiàn)技術(shù)的范式也從數(shù)據(jù)庫資源導(dǎo)航、聯(lián)邦搜索演進(jìn)至資源發(fā)現(xiàn)階段。文獻(xiàn)發(fā)現(xiàn)系統(tǒng)是在元數(shù)據(jù)的發(fā)展基礎(chǔ)之上,不斷地與爬蟲采集技術(shù)、預(yù)處理技術(shù)、存儲挖掘技術(shù)、可視化展示技術(shù)等大數(shù)據(jù)技術(shù)相結(jié)合的產(chǎn)物,是一種新的信息資源整合系統(tǒng),可以理解為圖書館的Google[1]。它具有很強(qiáng)的顛覆性,不僅可以整合圖書館各種類型的文獻(xiàn)資源,包括商家電子資源、自建數(shù)據(jù)庫、館藏紙本資源、以及網(wǎng)絡(luò)開放獲取資源,實現(xiàn)統(tǒng)一檢索,還可以滿足用戶篩選、排序、多渠道獲取全文、以及評論與交流的需求,是一個集資源與服務(wù)于一體的搜索平臺[2]。截至2022年1月,國內(nèi)市場上僅Summon一家發(fā)現(xiàn)系統(tǒng)就已經(jīng)達(dá)到70家圖書館以上,國內(nèi)39所“985”院校的圖書館已全部配置資源發(fā)現(xiàn)系統(tǒng),有的圖書館甚至配置了中外文兩套發(fā)現(xiàn)系統(tǒng)[3]。
國外發(fā)現(xiàn)系統(tǒng)的起步與發(fā)展比國內(nèi)早很多,發(fā)現(xiàn)系統(tǒng)的類型也較多:商業(yè)研發(fā)的主要有AquaBrowser、BiblioCore、EDS、Encore、Enterprise、Primo、Summon、WorldCat Local;使用開源技術(shù)的主要有Blacklight、eXtensible Catalog、VuFind這三種[4-6]。國內(nèi)的發(fā)現(xiàn)系統(tǒng)以商業(yè)研發(fā)為主,主要有超星發(fā)現(xiàn)系統(tǒng)、中國學(xué)術(shù)搜索、智立方發(fā)現(xiàn)系統(tǒng)、學(xué)知搜索,百度學(xué)術(shù)搜索等,自主研發(fā)的有國家圖書館的“文津”搜索系統(tǒng)[7]。國外發(fā)現(xiàn)系統(tǒng)不僅數(shù)量較多,在功能上也起到了引領(lǐng)作用。如AquaBrowser提供的是一種基于主題詞云圖的分面導(dǎo)航檢索方式。它可以將圖書館的MARC數(shù)據(jù)自動轉(zhuǎn)成XML記錄,系統(tǒng)對每個XML記錄進(jìn)行特征抽取和共線性分析,從而將每個信息對象與關(guān)鍵詞進(jìn)行可視化鏈接,形成云圖。用戶的檢索行為由圖示引導(dǎo),可以視為一種可視化搜索方式。BiblioCore在2014年時推出了館員薦讀功能,這一新功能可以幫助圖書館員在書目頁面上發(fā)表推薦評論,可以導(dǎo)入來自任何第三方的博客內(nèi)容,并可以優(yōu)先標(biāo)識或標(biāo)注這些內(nèi)容。Blacklight具有添加社會化標(biāo)簽的功能,以實現(xiàn)用戶信息的共享。與Blacklight類似,VuFind允許用戶給書目記錄添加Tag,讓用戶建立自己的分類模式,使用戶在一定程度上免去傳統(tǒng)受控詞表帶來的困擾[4-6]。
以Primo、Summon、EDS、超星發(fā)現(xiàn)、百度學(xué)術(shù)等為主體的國內(nèi)外文獻(xiàn)發(fā)現(xiàn)系統(tǒng),已經(jīng)成為用戶發(fā)現(xiàn)、定位文獻(xiàn)資源的主要工具。目前學(xué)者對發(fā)現(xiàn)系統(tǒng)的研究大多集中在發(fā)現(xiàn)系統(tǒng)的檢索功能和使用性能方面,是基于系統(tǒng)自身的總結(jié)性梳理和比較,缺少與用戶體驗的結(jié)合。在此意義上,筆者以用戶調(diào)查為手段,以Primo、Summon、EDS、超星發(fā)現(xiàn)、百度學(xué)術(shù)為樣本,研發(fā)、測試了文獻(xiàn)資源發(fā)現(xiàn)系統(tǒng)的評測指標(biāo)體系并進(jìn)行了具體評測,這對文獻(xiàn)發(fā)現(xiàn)技術(shù)與系統(tǒng)的研發(fā)與持續(xù)改進(jìn)具有積極意義。
外文發(fā)現(xiàn)系統(tǒng)在中國推廣較好的有Primo、Summon、EDS和OCLC的WorldCat四大發(fā)現(xiàn)系統(tǒng),為更好地分析比較發(fā)現(xiàn)系統(tǒng)的功能與特點(diǎn),在這四大外文發(fā)現(xiàn)系統(tǒng)中選取Primo、Summon、EDS三個作為典型案例;中文發(fā)現(xiàn)系統(tǒng)選取百度學(xué)術(shù)搜索與超星發(fā)現(xiàn)系統(tǒng)作為典型案例。為了深入了解各個發(fā)現(xiàn)系統(tǒng)平臺的特點(diǎn),對選取的五家發(fā)現(xiàn)系統(tǒng)進(jìn)行了檢索測試,測試的版本選取:Summon選取了北京大學(xué)的未名學(xué)術(shù)搜索、Primo選取了清華大學(xué)的水木學(xué)術(shù)搜索、EDS選取了武漢大學(xué)的珞珈學(xué)術(shù)搜索、超星發(fā)現(xiàn)系統(tǒng)選取了中國農(nóng)業(yè)大學(xué)的試用版本;考察內(nèi)容主要圍繞以下四方面:1)系統(tǒng)質(zhì)量;2)信息質(zhì)量與獲取方式;3)服務(wù)與反饋;4)整合的外部數(shù)據(jù)源。分析結(jié)果如表1所示。為了更好地了解用戶對這五家發(fā)現(xiàn)系統(tǒng)的使用感受,以問卷的方式進(jìn)行用戶使用測試。
資源發(fā)現(xiàn)系統(tǒng)是一種典型的信息系統(tǒng),參考陳穎[8]、趙釗[9]、Sabeh[10]、DeLone[11]等人的信息系統(tǒng)評價模型,同時考慮資源發(fā)現(xiàn)系統(tǒng)的特點(diǎn),將信息質(zhì)量、系統(tǒng)質(zhì)量、服務(wù)質(zhì)量、用戶滿意度、用戶使用意愿作為主要測評方向;結(jié)合Lundrigan[12]、Stubley[13]、Kronenfeld[14]等人的研究,共設(shè)置了17個測評指標(biāo),見表2。與圖情專業(yè)人員、教師、研究生進(jìn)行商榷與訪談后,增加了三道排序題,最后形成問卷。問卷主要包括三部分:第一部分主要收集樣本的人口統(tǒng)計學(xué)特征以及查找信息的入口習(xí)慣;第二部分采用Likert5分制考察用戶在體驗資源發(fā)現(xiàn)系統(tǒng)時對信息質(zhì)量、系統(tǒng)質(zhì)量、服務(wù)質(zhì)量、用戶滿意度、用戶使用意愿的感受;第三部分則是略帶開放性的排序題,詢問用戶在檢索時最看重哪一部分因素,并進(jìn)行優(yōu)先排序[15]。
問卷先是采用了在線問卷的形式,進(jìn)行一周預(yù)測試后,效果反響不佳,預(yù)測試問卷回收結(jié)果顯示,不少用戶對資源發(fā)現(xiàn)系統(tǒng)不很了解,這與平時對資源發(fā)現(xiàn)系統(tǒng)的推廣不夠有關(guān)。為了保證用戶在測試時遇到的問題能夠得到及時解答,后采取了線下問卷調(diào)研的形式,分別選取了中國農(nóng)業(yè)大學(xué)、青島大學(xué)、北京師范大學(xué)三所高校進(jìn)行調(diào)研,主要調(diào)研對象為本科生、研究生與教師,最終回收問卷379份,剔除作答不完整與無效問卷后,實際統(tǒng)計分析問卷數(shù)量為338份,詳見表3。
問卷調(diào)查樣本的性別、身份及查找文獻(xiàn)優(yōu)先選擇的檢索入口特征,如表4所示。從被調(diào)查者的人口數(shù)據(jù)可看出:男女比例較均衡,占比分別為46.45%與53.55%。樣本身份主要以研究生為主,占比為 58.28%,其次是本科生,占比為33.43%,最后是教師,僅占8.28%,說明在該調(diào)查中研究生與本科生的參與積極性較高,教師的參與度欠缺。當(dāng)詢問查找資料優(yōu)先使用哪個檢索入口時,占比最高的是“知網(wǎng)、SCI等數(shù)據(jù)庫”,占比為50.59%,其次是“百度學(xué)術(shù)”,占比為20.12%,而“圖書館書目查詢系統(tǒng)”的占比為15.09%,“圖書館提供的發(fā)現(xiàn)平臺”的占比為14.20%。由此可以看出,大部分研究人員在選擇文獻(xiàn)查找渠道時,并沒有選擇圖書館提供的檢索入口,而是直接選擇經(jīng)常使用的數(shù)據(jù)庫或百度學(xué)術(shù)。
數(shù)據(jù)收集整理后,利用Spssau數(shù)據(jù)處理平臺,對數(shù)據(jù)的信度、效度進(jìn)行檢驗,得到表5??偭勘鞢ronbach’a系數(shù)為0.915,17個潛變量的Cronbach’a系數(shù)均大于0.8,KMO值為0.731,P<0.001。根據(jù)統(tǒng)計學(xué)研究觀點(diǎn),Cronbach’a系數(shù)在0.8 以上說明樣本數(shù)據(jù)信度良好,KMO值大于0.7說明效度良好。此外,因子載荷與CR值均大于0.7,AVE 值大于0.5,說明聚合效度良好。
3.2.1 各指標(biāo)平均值比較
從圖1平均值對比圖可以看出,SERQ1、SERQ2、SERQ3、USQ1、USQ2項分值較低,在4分以下,其他分值均在4分以上。最低的分值是3.48,對應(yīng)的指標(biāo)是“個性化功能(檢索歷史自動保存/訂閱推送服務(wù)/可視化分析、社交分享等)”,倒數(shù)第二分值為3.81,對應(yīng)指標(biāo)是“實時咨詢服務(wù)”,第三低的分值為3.98,對應(yīng)指標(biāo)是“人工智能服務(wù)(拼寫檢查、檢索詞智能修正等)”。三項最低分值的指標(biāo)均是“服務(wù)質(zhì)量”指標(biāo),在測評的五家發(fā)現(xiàn)系統(tǒng)內(nèi),用戶對系統(tǒng)提供的服務(wù)滿意度都比較低。但對于五家發(fā)現(xiàn)系統(tǒng)的信息質(zhì)量、系統(tǒng)質(zhì)量的打分均在4分以上,用戶的使用意愿均值也在4分以上,這說明基于信息質(zhì)量、系統(tǒng)質(zhì)量,用戶的使用意愿還是蠻強(qiáng)烈的,只是服務(wù)質(zhì)量的欠缺,造成用戶的滿意度稍低。
表1 五家中外文發(fā)現(xiàn)系統(tǒng)功能特點(diǎn)梳理歸納
表2 17項測評指標(biāo)與指標(biāo)內(nèi)容描述
表3 測評問卷回收情況
表4 樣本人口學(xué)統(tǒng)計分析
表5 因子平均值、因子載荷、Cronbach’α系數(shù)、CR、AVE 值
圖1 各指標(biāo)平均值比較
3.2.2 獲取信息的影響因素分析
在詢問“獲取信息過程中哪個因素比較重要”時,調(diào)查對象給出的答案排在前三位最多的分別是:全文獲取容易、相關(guān)性排序合理、信息足夠豐富。由此可見,大部分科研用戶很看重最后的全文獲取這一步,如果最終不能獲得全文,用戶的前期檢索工作很大程度上將失去意義。所以,怎樣最大限度地實現(xiàn)這一功能,發(fā)揮平臺效益,是平臺未來發(fā)展的重點(diǎn)。信息的豐富程度和檢索結(jié)果的相關(guān)性也是用戶比較在意的,也有研究顯示,人們在檢索過程中往往只查看前20條檢索內(nèi)容[16],一些資源發(fā)現(xiàn)系統(tǒng)在文獻(xiàn)結(jié)果排序過程中,會側(cè)重于自己擁有的與商業(yè)有合作的資源,Boram[17]曾指出,同一條文獻(xiàn)在不同的發(fā)現(xiàn)平臺檢索結(jié)果中其排序位置差異很大,這種有傾向的排序難免造成用戶錯過一些資源。資源發(fā)現(xiàn)系統(tǒng)如何利用大數(shù)據(jù)技術(shù)提升排序的合理性、科學(xué)性是未來突破的重點(diǎn)。
3.2.3 系統(tǒng)易用性的影響因素分析
在詢問“最影響發(fā)現(xiàn)系統(tǒng)易用性的因素有哪些”時,排在前三的選項是:界面干凈明了,導(dǎo)航清晰;全文獲取鏈接設(shè)置明顯;有實時在線的參考咨詢服務(wù)。對于“界面干凈明了,導(dǎo)航清晰”的要求五家發(fā)現(xiàn)系統(tǒng)都做得較好。對于“全文鏈接設(shè)置明顯”,在測評的五家發(fā)現(xiàn)系統(tǒng)中,超星發(fā)現(xiàn)整合了全國高校館藏信息,并可以直接鏈接到BALIS參考服務(wù)平臺;艾利貝斯也已將旗下的Primo發(fā)現(xiàn)系統(tǒng)與館際互借系統(tǒng)RapidILL進(jìn)行技術(shù)上的對接整合,同樣的館際互借系統(tǒng)還有Borrow Direct,也是圖書館可以考慮嵌入的文獻(xiàn)傳遞系統(tǒng)[18-20];百度則是鏈接各大數(shù)據(jù)庫商,如果不在商家服務(wù)IP內(nèi),則需付費(fèi)獲取全文。對于排序第三的“有實時在線的參考咨詢服務(wù)”這一項,有用戶反映發(fā)現(xiàn)系統(tǒng)的宣傳推廣做得太少,用戶對發(fā)現(xiàn)系統(tǒng)的使用、認(rèn)知、熟練程度都很欠缺,在檢索過程中也確實遇到過“檢索失敗”“檢索到x條結(jié)果但并未顯示結(jié)果”“檢索方式不習(xí)慣”“系統(tǒng)無糾錯能力”等問題,這些問題的解決有賴于服務(wù)的加強(qiáng),如“在平臺中嵌入檢索技巧講解視頻”“平臺本身具備一定的智能糾錯(如拼寫檢查、檢索詞智能提示、修正、擴(kuò)展等)”以及設(shè)置“人工在線咨詢服務(wù)”等。在測試過程中,超星發(fā)現(xiàn)在這一項上做得較好,提供的“人工在線咨詢服務(wù)”可隨時解答問題。
3.2.4 忠誠度的影響因素分析
在詢問“五家資源發(fā)現(xiàn)系統(tǒng)中您優(yōu)先推薦哪個”時,排序前三的是:Summon發(fā)現(xiàn)系統(tǒng)、超星發(fā)現(xiàn)系統(tǒng)、百度學(xué)術(shù)搜索。從表6可以看出,在五家發(fā)現(xiàn)系統(tǒng)中,每家發(fā)現(xiàn)系統(tǒng)的側(cè)重點(diǎn)與優(yōu)勢各不相同。Summon發(fā)現(xiàn)系統(tǒng)在信息豐富度、相關(guān)性排序兩方面分值最高。Primo發(fā)現(xiàn)系統(tǒng)在信息描述與標(biāo)引、全文在線揭示度分值最高,學(xué)者武麗娜[21]在2018年“大學(xué)出版社學(xué)術(shù)資源在發(fā)現(xiàn)系統(tǒng)中的索引深度調(diào)查”中也曾指出,相同的學(xué)術(shù)文獻(xiàn)資源在Primo和Summmon兩種發(fā)現(xiàn)系統(tǒng)中的索引深度不一致,相比較而言,Primo的索引深度略高于Summon。超星發(fā)現(xiàn)系統(tǒng)在個性化功能上分值最高,是中文發(fā)現(xiàn)系統(tǒng)中的佼佼者,深受用戶好評。百度學(xué)術(shù)因為入口便捷,簡單易用,在“會繼續(xù)使用此系統(tǒng)”與“將系統(tǒng)作為檢索信息的首選”兩項上分值最高。
表6 五家發(fā)現(xiàn)系統(tǒng)測評指標(biāo)分值比較
3.2.5 國內(nèi)外發(fā)現(xiàn)系統(tǒng)比較
國外的發(fā)現(xiàn)系統(tǒng)發(fā)展較早,在數(shù)據(jù)資源與應(yīng)用技術(shù)上都略領(lǐng)先國內(nèi)的發(fā)現(xiàn)系統(tǒng)。Summon、Primo、EDS三家發(fā)現(xiàn)系統(tǒng)在信息的豐富程度、結(jié)果的相關(guān)性排序、以及全文獲取上發(fā)展得非常成熟;國內(nèi)以超星發(fā)現(xiàn)、百度學(xué)術(shù)為代表的發(fā)現(xiàn)系統(tǒng)由于受數(shù)據(jù)庫商的限制,在全文獲取方面有待提升,同時此次調(diào)研顯示,超星發(fā)現(xiàn)系統(tǒng)在可視化展示、在線服務(wù)、和個性化服務(wù)方面表現(xiàn)十分突出。學(xué)者覃燕梅[22]、王新才[23]、宋姍姍[24]都對超星發(fā)現(xiàn)與百度學(xué)術(shù)進(jìn)行過比較分析,認(rèn)為超星發(fā)現(xiàn)在元數(shù)據(jù)質(zhì)量、檢索結(jié)果排序以及數(shù)據(jù)挖掘服務(wù)上優(yōu)于百度學(xué)術(shù)。無論國內(nèi)還是國外的發(fā)現(xiàn)系統(tǒng),都有待開拓學(xué)術(shù)社區(qū)功能、用戶標(biāo)簽分類功能、可視化搜索功能、用戶與館員的交互功能,學(xué)者袁玉英也曾選取Summon、Primo、EDS和WorldCatLocal為案例進(jìn)行比較分析,分析結(jié)果顯示,這四大外文發(fā)現(xiàn)系統(tǒng)同樣缺少個性化和社群功能,需進(jìn)一步全面提升更智能化、可視化的檢索服務(wù)[25]。
在大數(shù)據(jù)時代,多渠道的文獻(xiàn)數(shù)據(jù)難免缺乏一致性、規(guī)范性,數(shù)據(jù)種類繁多、數(shù)據(jù)結(jié)構(gòu)混雜,對大數(shù)據(jù)的預(yù)處理技術(shù)(清洗、集成、轉(zhuǎn)換及數(shù)據(jù)規(guī)約)都提出了新的挑戰(zhàn),發(fā)現(xiàn)系統(tǒng)如何結(jié)合使用新技術(shù)使龐雜的數(shù)據(jù)更有序可查仍然是首要任務(wù)。在對五家發(fā)現(xiàn)系統(tǒng)的測評過程中深刻體會到,有些商家過于追求大而全,而忽略了元數(shù)據(jù)的規(guī)范與厚度,使得寬泛的資源得不到深層聚類,原本簡單的發(fā)現(xiàn)變得復(fù)雜,反而給用戶帶來了信息冗雜的困擾。在Primo資源發(fā)現(xiàn)系統(tǒng)中有一個用戶反饋機(jī)制,該機(jī)制允許用戶在檢索過程中對元數(shù)據(jù)進(jìn)行糾錯與反饋,是對元數(shù)據(jù)維護(hù)工作的一個補(bǔ)充,值得推廣與借鑒。
測評的五家發(fā)現(xiàn)系統(tǒng)多是以數(shù)據(jù)庫全文鏈接的形式來補(bǔ)充全文內(nèi)容。需要注意的是,全文獲取途徑的鏈接一定要醒目、維護(hù)要及時、確保能夠有效打開,在測試時出現(xiàn)過全文鏈接打不開、失效的情況。同時,圖書館還應(yīng)積極開拓其他全文獲取渠道,如在書目信息欄目下嵌入讀者薦購模塊,增加文獻(xiàn)獲取的途徑;或積極開展聯(lián)盟合作,嵌入類似RapidILL、Borrow Direct的館際互借文獻(xiàn)傳遞系統(tǒng)。圖書館應(yīng)積極促進(jìn)各方信息服務(wù)機(jī)構(gòu)在資源、技術(shù)、服務(wù)上進(jìn)行智能合作,將文獻(xiàn)傳遞的“內(nèi)容供應(yīng)鏈”打造好,為用戶提供更完整便捷的“發(fā)現(xiàn)—獲取”全程服務(wù)[26]。
檢索結(jié)果的相關(guān)性排序是非常復(fù)雜的內(nèi)容,算法很多且不好平衡。同時,相關(guān)性排序的算法是發(fā)現(xiàn)系統(tǒng)的核心競爭力,大多不對外公布,因此,資源發(fā)現(xiàn)系統(tǒng)一直在結(jié)果排序上無法取得階段性的進(jìn)步。在測評的五家發(fā)現(xiàn)系統(tǒng)中,百度學(xué)術(shù)在檢索結(jié)果上是按照文獻(xiàn)引文量進(jìn)行排序并呈現(xiàn)文獻(xiàn)的引文脈絡(luò),同時推介一些熱點(diǎn)文章。Primo系統(tǒng)是通過數(shù)據(jù)的引用和使用情況及用戶的個性需求情況來提升文獻(xiàn)的相關(guān)性排序,并申請了名為“ScholarRank”的技術(shù)專利。EDS系統(tǒng)的相關(guān)性排序是對主題、篇名、刊名、關(guān)鍵詞等索引數(shù)據(jù)賦予不同的權(quán)重,并以全文和摘要內(nèi)容為基礎(chǔ)進(jìn)行更深層的排序優(yōu)化,以此來提高檢索結(jié)果的相關(guān)性。Summon系統(tǒng)主要是依靠對元數(shù)據(jù)或全文詞頻的權(quán)重學(xué)習(xí)的方式計算相關(guān)性排序,該方法受不同資源類型的元數(shù)據(jù)分布影響,因此該系統(tǒng)比較偏向于優(yōu)先發(fā)現(xiàn)報紙類資源[27-29]。如何智能地識別出用戶的檢索初衷,需要計算機(jī)的深度學(xué)習(xí)。有向搜索的用戶在檢索過程中明確知道自己要查找的文獻(xiàn)內(nèi)容,即目標(biāo)清晰明確;而無向搜索的用戶在檢索過程中是查找某一主題或?qū)W科的文獻(xiàn),并無清晰的題錄信息,對無向搜索的用戶來說,資源發(fā)現(xiàn)系統(tǒng)的結(jié)果排序就起到至關(guān)重要的作用[17]。因此,資源發(fā)現(xiàn)系統(tǒng)怎樣從用戶角度出發(fā),提升排序算法的合理性、科學(xué)性,是值得思考的問題。研究者丁夢曉、汪瀅提出基于用戶日志分析和用戶興趣進(jìn)行相關(guān)性排序算法,即根據(jù)用戶的日志檢索數(shù)據(jù)與學(xué)術(shù)交流數(shù)據(jù),分析出用戶的學(xué)科、興趣、信息需求等信息,再根據(jù)該“數(shù)據(jù)”進(jìn)行信息推介與排序[30-31]。
在測評的五家發(fā)現(xiàn)系統(tǒng)中,超星發(fā)現(xiàn)可以將文獻(xiàn)分享到QQ、新浪微博、微信,百度學(xué)術(shù)除了分享到QQ、新浪微博、微信外,還可以鏈接到印象筆記與有道云筆記。像BiblioCore一樣,打造一個館員推薦與評論功能模塊的幾乎沒有,像Blacklight與VuFind那樣,允許用戶給書目添加Tag,建立用戶自己的分類體系更是少見。這樣的個性化功能有利于提升發(fā)現(xiàn)系統(tǒng)的服務(wù)功能,增強(qiáng)發(fā)現(xiàn)系統(tǒng)的作用與效益。BiblioCommons聯(lián)合創(chuàng)始人Beth Jefferson曾說:“隨著圖書零售渠道的逐漸減少,為讀者推薦有用而他們可能不知道的圖書變得越來越重要。圖書館員可以在書目中根據(jù)他們的專業(yè)知識做一些推薦,這樣能夠幫助讀者注意到更多他們可能感興趣但自己又可能發(fā)現(xiàn)不了的圖書”[32]。發(fā)現(xiàn)系統(tǒng)應(yīng)注重用戶的參與,利用大數(shù)據(jù)技術(shù)打造用戶對文獻(xiàn)分類及評論的社區(qū)模塊,實現(xiàn)用戶間的交流與分享,建立一個集文獻(xiàn)資源、用戶群體、專業(yè)館員共同范在的數(shù)字場域。
目前,中外文發(fā)現(xiàn)系統(tǒng)的聚合功能更多的是在同一載體、同一著者、同一概念間的聚合,在數(shù)據(jù)編織和知識發(fā)現(xiàn)上還遠(yuǎn)遠(yuǎn)不夠。百度學(xué)術(shù)是通過引文共引共現(xiàn)以及高被引文章向用戶進(jìn)行推送,而超星則是通過可視化圖譜聚合文獻(xiàn)。外文發(fā)現(xiàn)系統(tǒng)的文獻(xiàn)聚合功能對元數(shù)據(jù)過分依賴,使得分面檢索的聚合功能也大同小異,主要有學(xué)科、作者、主題詞等。發(fā)現(xiàn)系統(tǒng)應(yīng)挖掘利用在檢索過程中的衍生數(shù)據(jù),諸如用戶身份數(shù)據(jù)、檢索行為數(shù)據(jù)、文獻(xiàn)的聚合與傳播數(shù)據(jù),文獻(xiàn)被點(diǎn)評與使用的數(shù)據(jù),通過分析這些數(shù)據(jù)來帶動服務(wù),從而形成“用戶產(chǎn)生數(shù)據(jù)、數(shù)據(jù)推動服務(wù)”的良性迭代。
資源發(fā)現(xiàn)系統(tǒng)具有很強(qiáng)的顛覆性,它通過創(chuàng)新資源組織方式,提升異構(gòu)海量資源的揭示效果,通過整合服務(wù)模塊提升用戶服務(wù),這種集成開放的思維給出版商、內(nèi)容商、圖書館帶來開放協(xié)作的機(jī)會,在這樣的機(jī)遇與趨勢下,圖書館應(yīng)該加強(qiáng)頂層規(guī)劃,建立協(xié)同合作機(jī)制,促進(jìn)館內(nèi)和館外資源的整合流通。從數(shù)字出版數(shù)據(jù)到有足夠厚度的元數(shù)據(jù),再到全文獲取數(shù)據(jù),一系列的環(huán)節(jié)都需要圖書館跨界鏈接,與出版商、數(shù)據(jù)商、發(fā)行商、及可提供內(nèi)容的第三方進(jìn)行廣泛的合作,創(chuàng)新跨機(jī)構(gòu)資源的全文服務(wù)方式,發(fā)揮跨機(jī)構(gòu)服務(wù)協(xié)作的效益。同時,還需要樹立系統(tǒng)即服務(wù)的理念,在系統(tǒng)中嵌入各項服務(wù)功能,形成基于資源發(fā)現(xiàn)系統(tǒng)的綜合服務(wù)體系,這樣用戶才更愿意使用該系統(tǒng),依賴該系統(tǒng),從而提升圖書館在大數(shù)據(jù)環(huán)境下的服務(wù)能力與競爭能力。
[1] Bowen J. Metadata to Support Next-Generation Library Resource Discovery: Lessons from the eXtensible Catalog, Phase 1[J]. Information Technology and Libraries, 2008(27):6-19. https://doi.org/ 10.6017/ital.v27i2.3253
[2] 曾建勛.資源發(fā)現(xiàn)系統(tǒng)的顛覆性[J/OL].數(shù)字圖書館論壇,2016(2):1.
[3] 劉洋.我國高校圖書館資源發(fā)現(xiàn)系統(tǒng)現(xiàn)狀調(diào)查——以“985工程”院校為例[J].河北科技圖苑,2016,29(4):86-90+96. DOI:10.13897/j. cnki.hbkjty.2016.0113.
[4] Chickering F W, Yang S Q. Evaluation and Comparison of Discovery Tools: An Update[J]. Information Technology and Libraries, 2014, 33(2): 5-30. https://doi.org/10.6017/ital.v33i2.3471.
[5] Yang S Q, Wagner K. Evaluating and comparing discovery tools: how close are we towards next generation catalog[J]. Library Hi Tech, 2010,28(4): 90-709. https://doi.org/10.1108/07378831011096312.
[6] Marshall. The Future of Library Resource Discovery.2015t NISO White Papers[R/OL]. [2022-09-20].http://tefkos.comminfo.rutgers.edu/Courses/e553/Articles/Articles%20Sp15/NISO%20report%20future_library_resource_discovery%202015.pdf.
[7] 申曉娟,李丹,王秀香.略論圖書館資源整合與檢索系統(tǒng)的發(fā)展——以國家圖書館“文津”搜索系統(tǒng)為例[J].圖書情報工作,2013, 57(18):39-43+60.
[8] 成穎.基于相關(guān)性判據(jù)的學(xué)術(shù)信息檢索系統(tǒng)成功模型建構(gòu)[J].現(xiàn)代圖書情報技術(shù),2011(9):46-53.
[9] 趙釗,孫偉新,趙珊珊.基于D&M模型的信息系統(tǒng)成功評價研究[C]//國際信息系統(tǒng)協(xié)會中國分會.國際信息系統(tǒng)協(xié)會中國分會,2015.
[10] Hala Najwan Sabeh , Mohd Heikal Husin, Daisy Mui Hung Kee, et sl. A Systematic Review of the DeLone and McLean Model of Information Systems Success in an E-Learning Context (2010–2020) [J/OL]. IEEE Access, 2021: 81210-81235.DOI:10.1109/ACCESS. 2021.3084815.
[11] Petter S, DeLone W, McLean E. Measuring information systems success: models, dimensions, measures, and interrelationships[J]. European Journal of Information Systems,2008,17:236-263. https://doi. org/10.1057/ejis.2008.15.
[12] Lundrigan C, Manuel K, Yan M.“Pretty Rad”: Explorations in User Satisfaction with a Discovery Layer at Ryerson University[J]. College & Research Libraries, 2015, 76(1):43-62. https://doi.org/ 10.5860/ crl.76.1.43.
[13] Stubley P, Kidd T. Questionnaire surveys to discover academic staff and library staff perceptions of a National Union catalogue[J]. Journal of Documentation, 2002,58(6):611-648. https://doi.org/10.1108/ 00220410210448183.
[14] Kronenfeld M. Library resource discovery[J]. Journal of the Medical Library Association, 2015,103(4):210-213. https://doi.org/10.3163/ 1536-5050.103.4.011.
[15] Clough P, Goodale P. Selecting Success Criteria: Experiences with an Academic Library Catalogue. Information Access Evaluation. Conference and Labs of the Evaluation Forum,2013. https://doi.org/ 10.1007/978-3-642-40802-1_7.
[16] 鄧小昭.網(wǎng)絡(luò)用戶信息行為研究[M].北京:科學(xué)出版社,2010:148-177.
[17] Boram L, EunKyung Chung. An Analysis of Web-scale Discovery Services From the Perspective of User's Relevance Judgment[J]. The Journal of Academic Librarianship,2016, 42(5):529-534. https://doi. org/10.1016/j.acalib.2016.06.016.
[18] 楊薇,曾麗軍.從“快傳”(RapidILL)和“立借”(Borrow Direct)看館際互借與文獻(xiàn)傳遞服務(wù)體系的發(fā)展[J].大學(xué)圖書館學(xué)報,2018,36(4):18-23+44. https://doi.org/10.16603/j.issn1002-1027.2018.04.003.
[19] Delaney T G, Richins M. RapidILL: an enhanced, low cost and low impact solution to interlending[J]. Interlending & Document Supply, 2012, 40(1):12-18. https://doi.org/10.1108/02641611211214233.
[20] 黃靜.變革中的文獻(xiàn)傳遞服務(wù):案例剖析與路向管窺[J].圖書情報工作,2013,57(7):55-59.
[21] 武麗娜,左陽,竇天芳.基于發(fā)現(xiàn)系統(tǒng)的大學(xué)出版社開放學(xué)術(shù)資源現(xiàn)狀調(diào)研及分析[J].知識管理論壇,2018,3(1):12-18. DOI:10.13266/ j.issn.2095-5472.2018.002.
[22] 覃燕梅.百度學(xué)術(shù)搜索與超星發(fā)現(xiàn)系統(tǒng)比較分析及評價[J].現(xiàn)代情報,2016,36(3):48-52+60.
[23] 王新才,謝宇君.知識發(fā)現(xiàn)系統(tǒng)與通用學(xué)術(shù)搜索引擎文獻(xiàn)資源比較研究——以超星發(fā)現(xiàn)和百度學(xué)術(shù)為例[J].福建論壇(人文社會科學(xué)版),2018(4):164-172.
[24] 宋姍姍.發(fā)現(xiàn)系統(tǒng)在高校圖書館的應(yīng)用研究——以超星發(fā)現(xiàn)為例[J].產(chǎn)業(yè)與科技論壇,2020,19(12):69-71.
[25] 袁玉英.常用幾種資源發(fā)現(xiàn)系統(tǒng)對比分析研究[J].圖書館工作與研究,2015(9):38-41. DOI:10.16384/j.cnki.lwas.2015.09.009.
[26] 曾建勛.基于發(fā)現(xiàn)系統(tǒng)的資源調(diào)度知識庫研究[J].圖書情報知識,2019(6):12-18. DOI:10.13366/j.dik.2019.06.012.
[27] 王連喜.知識發(fā)現(xiàn)系統(tǒng)的相關(guān)性排序與主題聚類功能問題探析[J].圖書館工作與研究,2015(12):56- 60.https://doi.org/10.16384/j.cnki.lwas.2015.12.013.
[28] 相關(guān)性排序:為研究人員提供最需要的信息[EB/OL].[2022-11-08]. https://www.exlibris.com.cn/products/summon-library-discovery/relevance-ranking/.
[29] 相關(guān)性排序:提供最相關(guān)的檢索結(jié)果[EB/OL].[2022-11-08]. https://www.exlibris.com.cn/products/primo-discovery-service/relevance-ranking/.
[30] 丁夢曉,畢強(qiáng),許鵬程,等.基于用戶興趣度量的知識發(fā)現(xiàn)服務(wù)精準(zhǔn)推薦[J].圖書情報工作,2019,63(3):21-29. DOI:10.13266/j.issn. 0252- 3116.2019.03.003.
[31] 汪瀅.基于用戶日志分析的搜索引擎相關(guān)排序算法優(yōu)化[J].電腦知識與技術(shù),2020,16(18):99-101.https://doi.org/10.14004/j.cnki.ckt.2020.1878.
[32] Brandi Scardilli. Biblio Commons catalog-centric library operations[J]. Information Today, 2014, 31(7): 23.
Evaluation and Suggestion on Typical Literature Resource Discovery Systems in Big Data Environment
LI XueYuan1, ZHANG Jie2 *
1. China Agricultural University Library, Beijing 100193, China; 2. Agricultural Information Institute, Chinese Academy of Agricultural Sciences, Beijing 100081, China
Five commonly used discovery systems, Primo, Summon, EDS, Baidu Scholar and Chaoxing Discovery, are taken as samples to sort out and summarize the functional characteristics of the discovery system, develop and test the evaluation index system of the literature resource discovery system and conduct specific evaluation. The study investigates and analyzes the influencing factors of users' access to information in the use of the discovery system, the system usability, and user loyalty. Moreover, combined with the development and influence of big data, the study proposed six development suggestions: strengthen the normative construction of metadata, improve the disclosure and access of literature information, optimize the relevance ranking, improve personalized services, promote accurate services using derivative data, strengthen top-level planning and establish a mechanism for coordination and cooperation.
resource discovery system; knowledge discovery system; Primo; Summon; EDS; Baidu Scholar; Chaoxing Discovery
李雪原,張杰. 大數(shù)據(jù)環(huán)境下典型文獻(xiàn)資源發(fā)現(xiàn)系統(tǒng)評測與建議[J]. 農(nóng)業(yè)大數(shù)據(jù)學(xué)報, 2023, 5(3): 83-92.
LI XueYuan1, ZHANG Jie. Evaluation and Suggestion on Typical Literature Resource Discovery Systems in Big Data Environment[J]. Journal of Agricultural Big Data, 2023, 5(3): 83-92.
2023-06-01;
2023-09-04
國家新聞出版署農(nóng)業(yè)融合出版知識挖掘與知識服務(wù)重點(diǎn)實驗室開放基金項目“資源發(fā)現(xiàn)系統(tǒng)比較分析與評價”(項目編號:2021KMKS04)
李雪原,E-mail:lixueyuan @sina.com;通信作者張潔,E-mail:zhangjie07@caas.cn。
農(nóng)業(yè)大數(shù)據(jù)學(xué)報2023年3期