王俊 楊麗萍 韋曉瑩
摘 要 本文以西交利物浦大學(xué)為例,對(duì)發(fā)現(xiàn)系統(tǒng)中用戶的大量檢索式數(shù)據(jù)進(jìn)行分析,分別從檢索式的語(yǔ)種、主題、檢索字段、檢索策略、檢索效果和檢索事件來(lái)揭示用戶檢索式的一般行為特征。揭示的特征包括:(1)用戶采用的檢索式語(yǔ)種以英語(yǔ)為主;(2)用戶檢索式表達(dá)的主題傾向于人文社科領(lǐng)域;(3)用戶在發(fā)現(xiàn)系統(tǒng)中對(duì)檢索字段的選用和檢索策略的運(yùn)用高于搜索引擎。針對(duì)反映的特征和問(wèn)題,本文在資源整合、系統(tǒng)優(yōu)化、信息素養(yǎng)課程設(shè)置方面提出改進(jìn)建議。
關(guān)鍵詞 檢索詞 檢索式 檢索行為 發(fā)現(xiàn)系統(tǒng)
Abstract Taking Xian Jiaotong-Liverpool University as an example, this study investigates users search queries in discovery service including language, topics, search fields, search strategies, search results, and search events. It identifies the general characteristics of users queries behavior, including: (1) users prefer to build their search query in English; (2) search topics primarily focus on social science and/or arts & humanities; (3) users take more advantage of search options and search strategies in discovery system than in search engines. By analyzing the characteristics and problems revealed, we proposed several recommendations such as enhancing the integration of library resources, optimizing user interface of the discovery system, and redesigning instruction courses of information literacy.
Keywords Search term. Search query. Query behavior. Discovery system.
西交利物浦大學(xué)(簡(jiǎn)稱“西浦”)在2011年初開(kāi)始關(guān)注網(wǎng)絡(luò)級(jí)發(fā)現(xiàn)系統(tǒng)。2012年通過(guò)平臺(tái)部署、測(cè)試與評(píng)估,最終采用EBSCO Discovery Service(EDS)作為“一站式”資源發(fā)現(xiàn)平臺(tái),并命名為“Discover”。西浦圖書(shū)館從系統(tǒng)和服務(wù)整合的角度去思考和圖書(shū)館密切相關(guān)的用戶群體,不斷挖掘系統(tǒng)的新功能和新服務(wù);Discover逐漸成為西浦師生訪問(wèn)圖書(shū)館資源的主要工具[1]。本文以西浦Discover用戶為調(diào)查對(duì)象,通過(guò)前期在發(fā)現(xiàn)系統(tǒng)中配置谷歌分析工具(Google Analytics, GA)[2] ,持續(xù)收集用戶群體在信息活動(dòng)后留下的大量數(shù)據(jù),重點(diǎn)關(guān)注和分析用戶群體在檢索詞、檢索式和檢索流方面的特征。
1 研究方法與對(duì)象
1.1 信息檢索行為的概念界定
關(guān)于用戶信息行為的研究,特別是在網(wǎng)絡(luò)環(huán)境下對(duì)該命題的研究,受到不同學(xué)科領(lǐng)域研究人員的密切關(guān)注,他們從不同角度探索信息行為理論模型、研究方法及特定情景下信息行為。根據(jù)Wilson典型的信息行為嵌套模型(又稱“洋蔥模型”)可知,信息行為是一個(gè)涵蓋性的術(shù)語(yǔ),次層概念是信息覓食行為,信息檢索行為則是包含在信息覓食行為之中的[3]。信息檢索行為是指信息用戶在微觀層面與信息系統(tǒng)之間的交互行為,主要包括檢索平臺(tái)的選擇與切換、檢索前提問(wèn)式、檢索詞選擇、檢索式構(gòu)造、布爾操作符的使用與否、檢索結(jié)果瀏覽與選擇、鼠標(biāo)移動(dòng)軌跡、網(wǎng)頁(yè)翻閱頁(yè)數(shù)、檢索結(jié)果獲取等[4]。
檢索式是用戶搜索相關(guān)信息時(shí)所表達(dá)的一種語(yǔ)言。Wacholder提出從語(yǔ)言學(xué)的三個(gè)維度(詞匯、語(yǔ)法和語(yǔ)義)對(duì)檢索式的特點(diǎn)進(jìn)行分析,其中,對(duì)詞匯的研究主要針對(duì)檢索詞的來(lái)源、檢索詞的個(gè)數(shù)及其分布等情況,對(duì)語(yǔ)法的研究主要是考量檢索式中若干個(gè)檢索詞之間連接關(guān)系,語(yǔ)義的研究主要側(cè)重于理解檢索式的含義[5]。本文主要探討信息檢索行為中關(guān)于信息檢索式的一般行為,分別從檢索詞的選擇、檢索式的構(gòu)建、檢索式的質(zhì)量和效果進(jìn)行相關(guān)分析。
1.2 研究對(duì)象的界定
文章以西浦師生為對(duì)象開(kāi)展調(diào)查,研究分析他們?cè)趫D書(shū)館“一站式”發(fā)現(xiàn)系統(tǒng)中的檢索行為。西浦是一所中外合作大學(xué),學(xué)校專業(yè)課采用全英文教學(xué),接受中英兩國(guó)高等教育質(zhì)量保證體系的評(píng)估,多個(gè)學(xué)科獲得權(quán)威國(guó)際專業(yè)組織認(rèn)證。
1.3 研究方法
谷歌分析(GA)作為一個(gè)網(wǎng)絡(luò)分析工具,能夠?qū)崟r(shí)揭示網(wǎng)站上發(fā)生的用戶真實(shí)行為數(shù)據(jù),常被用于評(píng)估和優(yōu)化圖書(shū)館相關(guān)網(wǎng)站的功能和布局[6-7]。另外,由于GA工具配置在圖書(shū)館自建的網(wǎng)站上,數(shù)據(jù)統(tǒng)計(jì)和分析由圖書(shū)館員自己管理,在評(píng)估電子資源的使用方面,GA可以作為數(shù)據(jù)庫(kù)商提供的使用統(tǒng)計(jì)報(bào)告的補(bǔ)充,幫助圖書(shū)館更加全面地評(píng)估和決策[8-9]。西浦圖書(shū)館自2015年開(kāi)始就在其發(fā)現(xiàn)系統(tǒng)平臺(tái)(Discover)上部署了GA,用來(lái)獲取用戶訪問(wèn)該平臺(tái)的詳細(xì)行為數(shù)據(jù),以此分析平臺(tái)上用戶信息行為的一般特征,優(yōu)化平臺(tái)的用戶界面設(shè)置[2]。本文選取平臺(tái)上2019年4月1日至30日的訪問(wèn)記錄,重點(diǎn)考察用戶在平臺(tái)使用中的檢索式行為特征。
2 檢索式分析
在GA產(chǎn)生的行為報(bào)告中,網(wǎng)站搜索維度子報(bào)告提供了用戶在Discover的具體搜索行為信息,包括搜索字詞、網(wǎng)頁(yè)瀏覽頁(yè)數(shù)、搜索后停留的時(shí)間等。報(bào)告顯示,在選定期間內(nèi),用戶訪問(wèn)Discover共產(chǎn)生了25 700個(gè)會(huì)話,其中87.43%的訪問(wèn)使用了搜索功能,唯一身份搜索次數(shù)為55 351。進(jìn)行搜索的用戶,每次會(huì)話平均瀏覽的網(wǎng)頁(yè)數(shù)量為6.57,會(huì)話平均時(shí)長(zhǎng)為11分40秒,會(huì)話平均包含2.46個(gè)檢索式;沒(méi)有進(jìn)行搜索的用戶,每次會(huì)話平均瀏覽的網(wǎng)頁(yè)數(shù)量為1.54,會(huì)話平均時(shí)長(zhǎng)則為2分59秒,均大幅度小于進(jìn)行搜索的用戶。
2.1 檢索式語(yǔ)種分析
根據(jù)GA搜索字詞報(bào)告,在選定期間內(nèi)共出現(xiàn)檢索式記錄43987條。從檢索式的語(yǔ)種分布來(lái)看,如圖1所示,英文檢索式占總量的87.6%,中文檢索式(含中英混合檢索式)僅占7.1%。此外,5.3%的記錄為韓語(yǔ)、日語(yǔ)等小語(yǔ)種檢索式,以及含有DOI、ISBN、ISSN等特殊字符的檢索式。分析表明,發(fā)現(xiàn)系統(tǒng)用戶在檢索過(guò)程中呈現(xiàn)出英文檢索式占據(jù)絕對(duì)主導(dǎo)的現(xiàn)象。歸其原因,這與西浦的英語(yǔ)教學(xué)環(huán)境有著密切關(guān)系。與國(guó)內(nèi)傳統(tǒng)高校不同,學(xué)校從大一開(kāi)始便強(qiáng)化對(duì)學(xué)生的學(xué)術(shù)英語(yǔ)教學(xué),要求學(xué)生掌握英文資料的查找和引用的基本能力。英文學(xué)術(shù)資源不僅是教職人員的科研需求,也是學(xué)生所依賴的學(xué)習(xí)資源。
2.2 檢索式主題分析
檢索式又稱檢索提問(wèn)式或檢索表達(dá)式,是指在計(jì)算機(jī)檢索中表達(dá)用戶檢索提問(wèn)的邏輯表達(dá)式,由一個(gè)或多個(gè)檢索詞和各種布爾邏輯算符、位置算符及系統(tǒng)規(guī)定的其他連接組配符號(hào)組成。通過(guò)檢索式的主題分析,我們可以了解用戶關(guān)注哪些領(lǐng)域。
2.2.1 數(shù)據(jù)清洗原則
數(shù)據(jù)清洗是數(shù)據(jù)挖掘的第一步,也是非常關(guān)鍵的一步。在聚類之前,將檢索式中包含的所有布爾邏輯符(AND、OR、NOT)及用戶使用的搜索字段(AU、TI等)去除,只留下關(guān)鍵字。同時(shí)排除包含一些特殊內(nèi)容的檢索式,例如DOI、ISBN號(hào)、ISSN號(hào)等。由于算法限制,中英文搜索字詞是分開(kāi)聚類的,主要的區(qū)別在于英文是以單詞為單位,中文以詞語(yǔ)為單位。
2.2.2 K-均值算法
本文采用計(jì)算機(jī)文本聚類的方法對(duì)龐大的檢索式記錄進(jìn)行分類,并且采用數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)領(lǐng)域中最常用的K-均值(K-Means)算法。該算法由MacQueen最早在1967年提出,是一種基于劃分的經(jīng)典聚類方法[10]。K-均值算法的關(guān)鍵在于K值的選擇,這關(guān)系到聚類結(jié)果的準(zhǔn)確性。如果聚類得到的簇與簇之間的差異性明顯,而同一簇內(nèi)的關(guān)鍵字又相互緊密關(guān)聯(lián),那就表明聚類結(jié)果相對(duì)準(zhǔn)確。通過(guò)反復(fù)試驗(yàn),發(fā)現(xiàn)K值取28時(shí),得到的簇符合上述特征。
2.2.3 檢索式主題
基于K值聚類的結(jié)果如圖2所示。在選取的時(shí)間段內(nèi),西浦用戶的信息需求主要集中在以下主題:⑴大型上市公司的人力資源管理、員工獎(jiǎng)勵(lì)制度、企業(yè)社會(huì)責(zé)任等(Cluster 0, 7, 10, 12);(2)信息技術(shù)、人工智能與深度學(xué)習(xí)(Cluster 1, 11);(3)城市規(guī)劃與建筑美學(xué)(Cluster 2, 3, 4);(4)環(huán)境污染與可持續(xù)發(fā)展(Cluster 5, 20, 23);(5)中國(guó)經(jīng)濟(jì)、人口、城鎮(zhèn)化和房地產(chǎn)政策等(Cluster 8, 9, 15, 17, 27);(6)兩岸關(guān)系與中美貿(mào)易(Cluster 21, 25);(7)高等教育與畢業(yè)生職業(yè)發(fā)展(Cluster 6, 13, 19, 24);(8)外語(yǔ)教學(xué)方法與實(shí)踐(14, 22);(9)1997年與2008年金融危機(jī)(Cluster 16);(10)刻板印象與跨文化交流(Cluster 18);(11)國(guó)際新聞業(yè)與數(shù)字媒體(Cluster 26)。
此外,對(duì)中文檢索詞進(jìn)行聚類得到13個(gè)Cluster,如圖3所示。從得到的中文檢索詞聚類分析來(lái)看,中文的檢索主題更傾向于社會(huì)性和區(qū)域性課題的檢索,如社會(huì)主義、方言、蘇州工業(yè)園區(qū)、天津等。
2.3 檢索式字段分析
Discover默認(rèn)的檢索模式是關(guān)鍵字檢索,這也是用戶最常用的檢索模式。在處理分析所有獲取的檢索式記錄時(shí)發(fā)現(xiàn),部分用戶仍會(huì)主動(dòng)地選用高級(jí)檢索模式,按需求選擇不同的檢索字段,如作者(AU)、題名(TI)、主題詞(SU)、來(lái)源(SO)和刊名(JN)等。通過(guò)提取檢索式中所有包含來(lái)源(SO)和刊名(JN)的字段,可以整理出用戶關(guān)注的來(lái)源期刊列表,以及這些期刊在Discover中的收錄情況。這對(duì)于圖書(shū)館資源查漏補(bǔ)缺有重要參考價(jià)值。
通常,系統(tǒng)管理員可以在Discover后臺(tái)直接勾選由系統(tǒng)商提供的資源數(shù)據(jù)包,快速地將訂閱資源整合到Discover可訪問(wèn)館藏中。但是有調(diào)查指出,由于數(shù)據(jù)庫(kù)/出版商沒(méi)有及時(shí)向發(fā)現(xiàn)系統(tǒng)商提供更新的資源數(shù)據(jù)包,導(dǎo)致發(fā)現(xiàn)系統(tǒng)商持有的資源包與實(shí)際資源列表不一致的現(xiàn)象普遍存在[11]。以Springer Nature出版社為例,2019年DRAA組團(tuán)采購(gòu)的全學(xué)科期刊數(shù)量是1993種,而EBSCO的資源數(shù)據(jù)包Springer Journals (DRAA)只有1921種。對(duì)比后發(fā)現(xiàn),通過(guò)選定字段檢索的期刊Environmental Sustainability(ISSN: 2523-8922)被遺漏,并未包含在資源數(shù)據(jù)包內(nèi),這使得用戶無(wú)法從Discover獲取該期刊上的文章內(nèi)容。此外,提取檢索式中期刊信息,除了能夠幫助圖書(shū)館核對(duì)訂閱期刊是否有漏刊現(xiàn)象外,還能了解到用戶在平臺(tái)中檢索開(kāi)放獲取期刊的行為,對(duì)于那些元數(shù)據(jù)還未添加到Discover中的開(kāi)放獲取期刊,館員可以隨時(shí)登陸EBSCO管理員平臺(tái)進(jìn)行配置。
2.4 檢索式策略分析
為了達(dá)到理想的檢索效果,用戶要善于選擇使用各種檢索技術(shù),其中最常見(jiàn)的技術(shù)就是布爾邏輯檢索及截詞檢索。在Discover系統(tǒng)設(shè)置上,西浦圖書(shū)館將布爾邏輯符限定在按大寫拼寫開(kāi)啟,只有當(dāng)用戶輸入AND、OR及NOT,才能觸發(fā)布爾邏輯符的功能。在高級(jí)檢索模式下,系統(tǒng)提供了多個(gè)檢索字段的輸入框,字段之間配有布爾邏輯符供用戶選擇。此外,Discover 系統(tǒng)也支持截詞檢索,用戶可通過(guò)運(yùn)用符號(hào) *、#、?來(lái)構(gòu)建自己的檢索式。
2.4.1 布爾邏輯檢索分析
經(jīng)統(tǒng)計(jì),在選定的時(shí)間區(qū)段內(nèi),西浦用戶使用布爾邏輯的檢索式占比為12.2%,其中11.3%為英文檢索式,而中文檢索式僅為0.9%。相比于其它調(diào)查揭示的搜索引擎用戶使用布爾邏輯檢索的比例,發(fā)現(xiàn)系統(tǒng)用戶使用布爾邏輯檢索的比例要明顯高于搜索引擎用戶[12]。歸納原因,除了用戶群體本身信息檢索能力差異外,用戶信息需求差異和檢索系統(tǒng)差異也是極為重要的原因。相比搜索引擎的用戶,發(fā)現(xiàn)系統(tǒng)的用戶通常檢索學(xué)術(shù)資料,在檢索過(guò)程會(huì)考慮資料的查全率和查準(zhǔn)率,而搜索引擎的用戶一般搜索非學(xué)術(shù)性問(wèn)題,偏好于使用自然語(yǔ)言檢索,不太在意檢索式的構(gòu)造。在系統(tǒng)差異上,發(fā)現(xiàn)系統(tǒng)在用戶的初次檢索結(jié)果頁(yè)面提供了高級(jí)檢索框,可以快速地選擇使用布爾邏輯優(yōu)化檢索式。
2.4.2 截詞檢索分析
截詞檢索也稱通配符,就是把檢索詞截?cái)嗳∑渲械囊徊糠制?,加上截詞符號(hào)一起輸入檢索,系統(tǒng)按詞的片段匹配數(shù)據(jù)庫(kù)的索引詞,凡包含這些詞的片段的文獻(xiàn)均可檢出。在英語(yǔ)中,詞通常有多種形態(tài),這些不同的形態(tài)大多只具有語(yǔ)法上的意義,對(duì)于檢索而言意義是相同的。截詞檢索通常使用在英文檢索式,主要用于檢索詞的單復(fù)數(shù)、不同詞性的詞尾變化、詞根相同的一類詞,以及同一詞的不同拼法等。使用截詞檢索不僅能簡(jiǎn)化檢索式,還可以擴(kuò)大檢索范圍避免漏檢,但使用時(shí)要謹(jǐn)慎,如果使用不當(dāng),則會(huì)造成誤檢。例如,Discover中出現(xiàn)的下列檢索式(案例一,如圖4),polic*不但檢索出policy、policies的記錄,而且還檢索出police、policeman等,致使檢索結(jié)果偏差。
2.5 檢索結(jié)果偏差分析
觀察檢索式與執(zhí)行該檢索式后用戶相應(yīng)的網(wǎng)頁(yè)瀏覽情況,可以推斷出用戶信息需求和其得到的檢索結(jié)果之間是否存在偏差。如果用戶在運(yùn)行檢索式后對(duì)于返回結(jié)果的瀏覽量為零,甚至隨即跳出系統(tǒng),通??梢暈闄z索失敗,用戶未能滿足檢索期望。通過(guò)對(duì)于這些檢索失敗情況的深入分析,圖書(shū)館不僅可以在日常信息檢索課程上糾正學(xué)生信息檢索的不當(dāng)?shù)男袨楹土?xí)慣,也可以此為線索調(diào)整用戶平臺(tái)的設(shè)置,引導(dǎo)用戶正確使用資源和服務(wù)。
調(diào)查發(fā)現(xiàn),當(dāng)今大學(xué)生在信息檢索方面比以往任何時(shí)候都更加依賴搜索引擎,并且他們?nèi)菀装言谒阉饕嫔系氖褂昧?xí)慣應(yīng)用于圖書(shū)館提供的發(fā)現(xiàn)系統(tǒng)平臺(tái)檢索行為中,造成檢索結(jié)果與期望檢索到的結(jié)果大相徑庭。例如,從檢索式“建筑史 AND 期刊”可以推測(cè),用戶期望查找與建筑史相關(guān)的期刊,但用戶檢索后隨即跳出了Discover系統(tǒng),檢索結(jié)果的瀏覽量為零。檢索式“MAN016 AND past exam papers”則表明用戶期望搜索課程MAN016的往年試卷,檢索結(jié)果的瀏覽量顯示為零。另有不少用戶在Discover中檢索引文幫助信息,例如“如何引用中文資源”“哈佛引用格式指南”“如何引用中國(guó)法律條款”等(檢索式案例二,如圖5),同樣用戶在檢索結(jié)果的瀏覽量為零。顯然,用戶沒(méi)有在Discover檢索到想要的信息。
具體分析述檢索失敗的原因,不難發(fā)現(xiàn)很多用戶在發(fā)現(xiàn)系統(tǒng)中的使用習(xí)慣與其在搜索引擎的習(xí)慣基本一致。他們不會(huì)去主動(dòng)地判別所使用系統(tǒng)或平臺(tái)的類型,而是選擇方便、易用、熟悉的系統(tǒng),期望在該系統(tǒng)中查找囊括一切的資源和服務(wù)信息[13]。西浦圖書(shū)館將發(fā)現(xiàn)系統(tǒng)的主檢索框配置在網(wǎng)站首頁(yè)最醒目位置,自然也就成為了用戶嘗試搜索圖書(shū)資源與服務(wù)的首選。在發(fā)現(xiàn)系統(tǒng)的定位上,西浦圖書(shū)館將它規(guī)劃為學(xué)術(shù)資源的一站式整合系統(tǒng),已經(jīng)實(shí)現(xiàn)在元數(shù)據(jù)層面無(wú)縫地整合物理館藏目錄、訂購(gòu)的電子書(shū)、電子期刊、學(xué)位論文,以及經(jīng)學(xué)科館員甄選的開(kāi)放獲取資源。但是,資源與服務(wù)的整合是一個(gè)循序漸進(jìn)的過(guò)程,發(fā)現(xiàn)系統(tǒng)也有別于用戶習(xí)慣使用的公共搜索引擎,也就意味著并非所有的資源和服務(wù)都能通過(guò)其主平臺(tái)進(jìn)行有效檢索。
目前,Discover可檢索的文獻(xiàn)粒度主要為文章和書(shū)目層面。要查找建筑史期刊,用戶應(yīng)選取嵌入的電子期刊導(dǎo)航(E-Journals),按學(xué)科分類瀏覽或直接檢索期刊名。對(duì)于過(guò)往試卷,圖書(shū)館建立了獨(dú)立的存檔系統(tǒng),按照學(xué)校規(guī)定學(xué)生必須登陸個(gè)人賬戶才能在試卷存檔系統(tǒng)中搜索及瀏覽最近三年的試卷,尚不能通過(guò)Discover訪問(wèn)試卷的在線版。對(duì)于參考文獻(xiàn)的正確引用和標(biāo)注,按學(xué)校教學(xué)委員會(huì)的要求西浦圖書(shū)館編制了常用引用格式指南,發(fā)布在圖書(shū)館的LibGuides[14]。針對(duì)學(xué)生經(jīng)常咨詢的引文格式和引文工具,西浦館員在LibAnswers創(chuàng)建了此類問(wèn)題的解答[15]。這些咨詢類的信息分散在圖書(shū)館網(wǎng)站的各個(gè)版塊,不能通過(guò)Discover 檢索獲取。
2.6 檢索事件分析
據(jù)筆者前期發(fā)表的研究,用戶在Discover檢索結(jié)果頁(yè)面中進(jìn)行的分面點(diǎn)擊、下載全文、引用文獻(xiàn),可以通過(guò)GA自定義的事件追蹤來(lái)標(biāo)記。表1統(tǒng)計(jì)了在選定時(shí)間段內(nèi)主要檢索事件發(fā)生的數(shù)量及比例。從表格的數(shù)據(jù)可以看出,點(diǎn)擊搜索、啟用擴(kuò)展項(xiàng)和啟用限定條件的檢索事件數(shù)量基本相等。原因是Discover用戶在點(diǎn)擊檢索時(shí),系統(tǒng)將自動(dòng)啟用默認(rèn)設(shè)置——擴(kuò)展項(xiàng)和館藏條件限定。啟用館藏限定條件(Available in Library Collection)將檢索結(jié)果限定在本館可訪問(wèn)的記錄內(nèi)。當(dāng)然,用戶可以手動(dòng)移除這個(gè)限定條件,將檢索結(jié)果擴(kuò)大到本館館藏外的文獻(xiàn)記錄。調(diào)查數(shù)據(jù)顯示只有極少數(shù)用戶選擇取消此默認(rèn)的限定。在發(fā)現(xiàn)系統(tǒng)的數(shù)據(jù)處理上,只有添加為館藏的資源才能顯示全文訪問(wèn)的選項(xiàng);館藏外的數(shù)據(jù),則是配置了館際互借選項(xiàng)。需要特別指出的是,用戶點(diǎn)擊分面的事件數(shù)占比為8%,不及點(diǎn)擊搜索事件的三分之一,說(shuō)明多數(shù)用戶習(xí)慣于直接瀏覽檢索結(jié)果,不會(huì)利用結(jié)果頁(yè)面左側(cè)的分面功能精煉檢索結(jié)果。
無(wú)論用戶使用哪種檢索條件,信息搜索的最終目的是獲取相關(guān)的文獻(xiàn)全文,或是保存和引用信息等。一次有效的檢索,一般伴隨著全文下載、引用、導(dǎo)出等事件。表1統(tǒng)計(jì)顯示,在選定的時(shí)間內(nèi),用戶獲取全文共20 885次 (占總事件數(shù)的5.7%),包括PDF下載、HTML全文瀏覽及全文鏈接(跳轉(zhuǎn)到相應(yīng)數(shù)據(jù)庫(kù)平臺(tái)下載)等。Research Starter是Discover提供的研究主題綜述性介紹,幫助用戶快速了解該主題的發(fā)展背景、關(guān)鍵知識(shí)點(diǎn)和應(yīng)用案例。如果用戶的檢索式匹配到相關(guān)主題,Research Starter則會(huì)顯示在檢索結(jié)果的第一行。如表1所示,用戶點(diǎn)擊瀏覽Research Starter共計(jì)581次。另外,在檢索結(jié)果的詳細(xì)記錄頁(yè)面,系統(tǒng)提供了保存、引用、導(dǎo)出、永久鏈接等工具,便于用戶后續(xù)使用和引用。但是,這些事件數(shù)僅占總事件的2.96%。
3 結(jié)論和建議
用戶的檢索式行為是用戶表達(dá)信息需求的具體實(shí)施途徑,是信息搜索的核心過(guò)程。本文通過(guò)對(duì)發(fā)現(xiàn)系統(tǒng)用戶的檢索式的語(yǔ)種、主題分類、檢索字段、檢索策略、檢索事件等檢索行為進(jìn)行綜合分析,并對(duì)檢索式質(zhì)量和檢索效果進(jìn)行評(píng)估,總結(jié)發(fā)現(xiàn)系統(tǒng)用戶的檢索式行為的一般特征如下:(1)由于西浦英語(yǔ)教學(xué)環(huán)境的特性,用戶輸入的檢索式以英文表達(dá)為主;(2)用戶檢索式表達(dá)的主題傾向于人文社科領(lǐng)域,自然科學(xué)領(lǐng)域涉及很少,這反映了西浦圖書(shū)館的人文社科資源受到用戶更多的關(guān)注;(3)用戶在發(fā)現(xiàn)系統(tǒng)中對(duì)檢索字段功能的選用和檢索策略的運(yùn)用高于普通的搜索引擎,說(shuō)明發(fā)現(xiàn)系統(tǒng)提供的檢索字段和布爾邏輯等高級(jí)檢索功能成為用戶優(yōu)化檢索式表達(dá)的傾向性選擇;(4)造成用戶某些檢索結(jié)果偏差的原因一方面在于他們?cè)谛畔z索之前并未判別所使用的系統(tǒng)類型,另一方面是發(fā)現(xiàn)系統(tǒng)檢索范圍的局限性,使其無(wú)法完全覆蓋圖書(shū)館所有的服務(wù)項(xiàng)目和資源信息。本文分析結(jié)果借助大量用戶真實(shí)的行為數(shù)據(jù)得出,有較高的可信度和參考價(jià)值。針對(duì)上述特征和存在的問(wèn)題,圖書(shū)館可以從下幾個(gè)方面改進(jìn)工作,為用戶提供更優(yōu)質(zhì)的信息服務(wù)。
3.1 完善信息素養(yǎng)課程內(nèi)容
參照分析得到的檢索式行為特征,圖書(shū)館可以調(diào)整信息檢索課程的設(shè)置,有針對(duì)性地干預(yù)和調(diào)節(jié)用戶在檢索層面的焦慮。首先,圖書(shū)館在設(shè)計(jì)信息素養(yǎng)課程時(shí),要幫助用戶理清數(shù)字圖書(shū)館各個(gè)系統(tǒng)間的應(yīng)用范圍、核心功能及區(qū)別,避免用戶因系統(tǒng)選擇不當(dāng)而產(chǎn)生不能如期獲取信息的焦慮。其次,針對(duì)學(xué)生使用布爾邏輯、高級(jí)檢索的比例偏低,以及檢索技巧使用不夠熟練等問(wèn)題,在信息素養(yǎng)教學(xué)形式上,要突出檢索策略的制定和檢索技巧的上機(jī)訓(xùn)練。此外,依據(jù)用戶在發(fā)現(xiàn)系統(tǒng)的檢索詞主題聚類分析,圖書(shū)館可以在信息素養(yǎng)教學(xué)中選用用戶當(dāng)前關(guān)注的主題作為課堂素材或案例,使講解更有針對(duì)性,更加貼合用戶的需求。
3.2 優(yōu)化“一站式”發(fā)現(xiàn)系統(tǒng)功能
圖書(shū)館必須意識(shí)到,用戶需求和檢索結(jié)果之間存在較大偏差的檢索式,恰恰是改進(jìn)系統(tǒng)功能的重要依據(jù)。高校圖書(shū)館應(yīng)該優(yōu)化發(fā)現(xiàn)系統(tǒng)的用戶界面,調(diào)整功能設(shè)置,增加或突出用戶實(shí)際需求的功能,降低用戶界面中面向管理員操作的功能比重。例如,在發(fā)現(xiàn)系統(tǒng)中加入自定義詞條匹配功能(term match)以擴(kuò)充檢索范圍,提示用戶進(jìn)入正確的路徑。當(dāng)檢索式中出現(xiàn)檢索詞past exam paper或該詞的變體(past exam papers/past exampaper/exam paper/過(guò)往試卷/以往試卷)時(shí),可以返回自定義的提示語(yǔ),設(shè)問(wèn)用戶是否需要查找過(guò)往試卷,并提供正確的訪問(wèn)路徑。要在發(fā)現(xiàn)系統(tǒng)中增加可檢索的引文格式幫助,也可以參照設(shè)計(jì)匹配該資訊的詞條,加入到發(fā)現(xiàn)系統(tǒng)后臺(tái)數(shù)據(jù)庫(kù)中。這樣,不斷地在發(fā)現(xiàn)系統(tǒng)中積累和調(diào)整匹配詞條,引導(dǎo)用戶正確地使用圖書(shū)館資源與服務(wù)。
3.3 及時(shí)更新維護(hù)館藏資源列表
通過(guò)抽取大量檢索式中期刊信息,能夠幫助圖書(shū)館核對(duì)本館訂閱的期刊在Discover平臺(tái)是否有漏刊現(xiàn)象,督促出版社及時(shí)向系統(tǒng)商更新期刊列表,或者由館員手動(dòng)上傳適合本館訂閱范圍的期刊列表,完成數(shù)據(jù)精確匹配。此外,對(duì)于那些用戶有實(shí)際檢索需求,卻因圖書(shū)館沒(méi)有訂閱而拒訪的期刊文章,可以及時(shí)補(bǔ)充到圖書(shū)館訂購(gòu)計(jì)劃中。對(duì)于用戶實(shí)際檢索開(kāi)放獲取期刊文章的內(nèi)容,由于這些開(kāi)放獲取期刊的元數(shù)據(jù)未添加到系統(tǒng)而造成用戶無(wú)法訪問(wèn),也需要系統(tǒng)管理員及時(shí)更新和維護(hù)可訪問(wèn)資源列表。