顧恒軒 楊青飏
摘 要:隨著學(xué)術(shù)資源的大規(guī)模數(shù)字化與爆炸式增長(zhǎng),學(xué)術(shù)搜索引擎的價(jià)值已經(jīng)漸漸體現(xiàn)。但學(xué)術(shù)搜索引擎的更新?lián)Q代并未與其用戶(hù)數(shù)量的激增相對(duì)應(yīng)。學(xué)術(shù)搜索引擎用戶(hù)查詢(xún)意圖分類(lèi)體系不明確;PC端學(xué)術(shù)搜索引擎使用不便捷;學(xué)術(shù)搜索引擎未充分使用用戶(hù)個(gè)人檔案等問(wèn)題在阻礙學(xué)術(shù)搜索引擎的發(fā)展。本文重點(diǎn)介紹了學(xué)術(shù)搜索引擎的研究與應(yīng)用現(xiàn)狀,并針對(duì)目前的不足提出未來(lái)展望。
關(guān)鍵詞:學(xué)術(shù)搜索引擎;移動(dòng)化;用戶(hù)
1 引言
隨著學(xué)術(shù)資源的大規(guī)模數(shù)字化與爆炸式增長(zhǎng),學(xué)術(shù)搜索引擎的價(jià)值已經(jīng)漸漸體現(xiàn)。所謂學(xué)術(shù)搜索引擎,是指專(zhuān)門(mén)搜索學(xué)術(shù)資源的,具備簡(jiǎn)單搜索框的搜索引擎。相較于具有跨庫(kù)檢索功能的學(xué)術(shù)數(shù)據(jù)庫(kù)而言,學(xué)術(shù)搜索引擎不需要使用者進(jìn)行人工選擇數(shù)據(jù)庫(kù)或文章特征,操作簡(jiǎn)單。相較于綜合類(lèi)搜索引擎而言,學(xué)術(shù)搜索引擎在搜索對(duì)象特征、用戶(hù)行為特征、用戶(hù)查詢(xún)式特征上都與之不同,因此二者不能混為一談。在實(shí)踐操作中,由于學(xué)術(shù)研究者的時(shí)間與檢索技術(shù)水平有限,因此需要使用學(xué)術(shù)搜索引擎來(lái)降低學(xué)術(shù)信息搜尋成本,提高自己的工作和學(xué)習(xí)效率。實(shí)際上,越來(lái)越多的學(xué)者和公司已經(jīng)意識(shí)到了這一點(diǎn),構(gòu)建和上線(xiàn)了學(xué)術(shù)搜索引擎,如Google Scholar, Microsoft Academic,Aminer等。且各大公司和機(jī)構(gòu)在根據(jù)學(xué)術(shù)搜索引擎的上線(xiàn)效果不斷嘗試著優(yōu)化,如:微軟學(xué)術(shù)搜索在2012年由于檢索效果不佳而下線(xiàn),直到2017年下旬,經(jīng)過(guò)改善的“Microsoft Academic”才重新上線(xiàn);美國(guó)艾倫人工智能研究所也于2016年推出了使用深度學(xué)習(xí)技術(shù)進(jìn)行結(jié)果呈現(xiàn)優(yōu)化的學(xué)術(shù)搜索引擎Semantic Scholar等。這也印證了學(xué)術(shù)搜索引擎具備極高的使用價(jià)值。
2 學(xué)術(shù)搜索引擎現(xiàn)狀
由于目前關(guān)于學(xué)術(shù)搜索引擎理論層面的研究數(shù)量太少,且僅有的理論研究也不全面,因此本文從幾個(gè)常用、且有特點(diǎn)的學(xué)術(shù)搜索引擎出發(fā)介紹學(xué)術(shù)搜索引擎的研究現(xiàn)狀
目前比較常用的學(xué)術(shù)搜索引擎有Google于2004年推出的“Google Scholar”,Microsoft于2017年上線(xiàn)的“Microsoft Academic”,中文學(xué)術(shù)搜索引擎“百度學(xué)術(shù)”等。后文將對(duì)Google Scholar,Microsoft Academic,百度學(xué)術(shù)以及基于深度學(xué)習(xí)的學(xué)術(shù)搜素引擎Semantic Scholar的基本功能和特點(diǎn)做簡(jiǎn)單的介紹。
Google Scholar是較早推出的一款學(xué)術(shù)搜索引擎,支持多種語(yǔ)言檢索。Google未公開(kāi)發(fā)布其數(shù)據(jù)來(lái)源,但一般認(rèn)為其文獻(xiàn)信息來(lái)源包括:學(xué)術(shù)性商業(yè)數(shù)據(jù)庫(kù);出版社網(wǎng)站和來(lái)自“.gov”,“.org”,“.edu”的信息,即政府、社會(huì)機(jī)構(gòu)和高校網(wǎng)站的信息。Google Scholar的文獻(xiàn)檢索查全率非常高,是Microsoft Academic,百度學(xué)術(shù)等學(xué)術(shù)搜索引擎的數(shù)倍至數(shù)十倍?;谄潺嫶蟮奈墨I(xiàn)資源,它為用戶(hù)推出了個(gè)性化功能:引文分析和個(gè)人學(xué)術(shù)管理。用戶(hù)可以通過(guò)文獻(xiàn)記錄的錨文本查看該文獻(xiàn)的引文列表,作為判斷該文獻(xiàn)影響力的一個(gè)依據(jù);也可以使用個(gè)人學(xué)術(shù)管理功能,知曉自己文獻(xiàn)的引用情況,管理自己的文獻(xiàn),計(jì)算自己的學(xué)術(shù)影響力指數(shù)等。
Microsoft Academic是微軟公司推出的基于語(yǔ)義的學(xué)術(shù)搜索引擎,是為數(shù)不多的一款實(shí)現(xiàn)按領(lǐng)域檢索的學(xué)術(shù)搜索引擎,包括了15個(gè)領(lǐng)域,每個(gè)領(lǐng)域包含若干學(xué)科方向。它是上一個(gè)版本“Microsoft Academic Search”優(yōu)化后的成果。與Google Scholar類(lèi)似,Microsoft Academic也為用戶(hù)建立了個(gè)人檔案。以個(gè)人檔案為基礎(chǔ),Microsoft Academic提供了可視化服務(wù),個(gè)性化搜索等功能 。用戶(hù)可以查看學(xué)術(shù)地圖、作者關(guān)系圖、引文關(guān)系圖等。但由于Microsoft Academic未完全解決“重復(fù)文獻(xiàn)”“重復(fù)作者”的問(wèn)題,因此關(guān)系圖的準(zhǔn)確性還有待提升。值得一提的是,上一個(gè)版本的Microsoft Academic Search曾經(jīng)通過(guò)Windows Phone Client推出過(guò)移動(dòng)服務(wù)功能,用戶(hù)可以使用手機(jī)進(jìn)行學(xué)術(shù)文獻(xiàn)檢索。
百度學(xué)術(shù)作為目前國(guó)內(nèi)代表性的學(xué)術(shù)搜索引擎,在中文文獻(xiàn)檢索領(lǐng)域處于世界領(lǐng)先的地位。其UI設(shè)計(jì)與功能設(shè)計(jì)上很大程度借鑒了Google Scholar的思路,為用戶(hù)提供了個(gè)人學(xué)術(shù)管理和可視化功能,包括研究熱點(diǎn)分析可視化和學(xué)術(shù)成果可視化等。
Semantic Scholar是2016年推出的基于深度學(xué)習(xí)的學(xué)術(shù)搜索引擎。盡管目前它僅包含computer science和medicine兩個(gè)學(xué)科,且相較于成熟的學(xué)術(shù)搜索引擎,其在檢索模式上更為單一,但它提出了一套新的文獻(xiàn)影響力評(píng)價(jià)指標(biāo),也為學(xué)術(shù)搜索引擎的結(jié)果呈現(xiàn)提供了一種新思路。學(xué)術(shù)搜索引擎使用者渴望用盡可能少的檢索次數(shù)找到符合自己需求的學(xué)術(shù)文獻(xiàn),但僅根據(jù)被引量和下載量這兩個(gè)指標(biāo)難以全面地衡量一篇學(xué)術(shù)論文在某領(lǐng)域的重要性。鑒于此,Semantic Scholar使用深度學(xué)習(xí)技術(shù)為學(xué)術(shù)文獻(xiàn)設(shè)計(jì)了如高影響力引用次數(shù),引用加速度,年度引用趨勢(shì)圖等文獻(xiàn)、作者評(píng)價(jià)指標(biāo),并運(yùn)用深度學(xué)習(xí)技術(shù)優(yōu)化推薦排序,旨在用盡可能少的檢索次數(shù)檢索到更符合其信息需求的學(xué)術(shù)文獻(xiàn)。
3 現(xiàn)有學(xué)術(shù)搜索引擎的不足
盡管現(xiàn)有的學(xué)術(shù)搜索引擎正不斷地努力優(yōu)化改良,但它們依舊存在幾個(gè)共有的問(wèn)題:
1)學(xué)術(shù)搜索引擎用戶(hù)查詢(xún)意圖分類(lèi)體系不明確。對(duì)于搜索引擎而言,查詢(xún)意圖分類(lèi)體系可以指導(dǎo)工程師更好地設(shè)計(jì)整個(gè)搜索引擎的檢索策略。在綜合性搜索引擎研究中,當(dāng)下較為權(quán)威的搜索引擎用戶(hù)查詢(xún)意圖分類(lèi)體系有Broder和Rose提出的“信息類(lèi)、導(dǎo)航類(lèi)、事務(wù)類(lèi)”分類(lèi)體系??伤姆诸?lèi)對(duì)象是所有電子資源,而非學(xué)術(shù)資源,因此并不合適。在學(xué)術(shù)信息檢索領(lǐng)域尚未出現(xiàn)合適的、學(xué)界公認(rèn)的學(xué)術(shù)查詢(xún)意圖分類(lèi)體系,這一定程度上制約了學(xué)術(shù)搜索引擎相關(guān)研究的進(jìn)展,導(dǎo)致學(xué)術(shù)查詢(xún)意圖識(shí)別以及學(xué)術(shù)檢索的突破發(fā)展緩慢。
2)PC端學(xué)術(shù)搜索引擎使用不便捷。近些年,智能手機(jī)的高速普及帶動(dòng)了移動(dòng)設(shè)備用戶(hù)數(shù)量的增加,但學(xué)術(shù)搜索引擎的移動(dòng)化卻進(jìn)展緩慢。在第一代“Microsoft academic search”推出時(shí),曾為Windows Phone手機(jī)提供了移動(dòng)端學(xué)術(shù)信息檢索??呻S著Microsoft academic search的下架,移動(dòng)端學(xué)術(shù)搜索引擎也隨之下架。因?yàn)閷W(xué)術(shù)搜索引擎具備“一站式”的優(yōu)勢(shì),絕大多數(shù)情況只需要一個(gè)搜索框即可完成檢索,并不需要如學(xué)術(shù)數(shù)據(jù)庫(kù)的諸多選擇框,很適合在移動(dòng)設(shè)備上操作,所以如果學(xué)術(shù)搜索引擎實(shí)現(xiàn)移動(dòng)化,那將會(huì)提高學(xué)者的學(xué)術(shù)搜索便捷度,并同時(shí)增加學(xué)術(shù)搜索引擎的普及率和關(guān)注度。
3)學(xué)術(shù)搜索引擎未充分使用用戶(hù)個(gè)人檔案。用戶(hù)個(gè)人檔案包括了用戶(hù)個(gè)人基本信息、學(xué)術(shù)信息、檢索記錄等一系列可以反映用戶(hù)特征和用戶(hù)行為的數(shù)據(jù)。然而大多數(shù)建立個(gè)人檔案的學(xué)術(shù)搜索引擎都只對(duì)用戶(hù)的學(xué)術(shù)信息進(jìn)行開(kāi)發(fā)利用,推出了引文分析、學(xué)術(shù)管理等功能,并未合理利用檢索記錄優(yōu)化檢索結(jié)果呈現(xiàn)。根據(jù)Verberne等學(xué)者得出的研究結(jié)論:結(jié)合用戶(hù)的檢索記錄可以一定程度上優(yōu)化學(xué)術(shù)檢索的結(jié)果。但目前尚未出現(xiàn)合理利用個(gè)人檔案中的檢索記錄,為用戶(hù)提供個(gè)性化檢索的學(xué)術(shù)搜索引擎。
4 展望
作者認(rèn)為,對(duì)于學(xué)術(shù)搜索引擎而言,接下來(lái)的研究重點(diǎn)應(yīng)主要包括兩部分:學(xué)術(shù)搜索引擎的移動(dòng)化研究和學(xué)術(shù)搜索引擎理論的研究。前者包括移動(dòng)化學(xué)術(shù)搜索引擎的設(shè)計(jì),用戶(hù)行為研究,用戶(hù)心理研究,檢索結(jié)果呈現(xiàn)等;而后者主要包括學(xué)術(shù)搜索引擎用戶(hù)查詢(xún)意圖分類(lèi),查詢(xún)意圖識(shí)別,查詢(xún)策略及算法優(yōu)化等。移動(dòng)化,個(gè)性化,精準(zhǔn)化是學(xué)術(shù)搜索引擎發(fā)展的關(guān)鍵詞。
參考文獻(xiàn)
[1]趙蓉英,陳燁.學(xué)術(shù)搜索引擎Google Scholar和Microsoft Academic Search的比較研究[J].情報(bào)科學(xué),2014,32(02):3-6,15.
[2]Verberne S, Sappelli M, S?rensen D R, et al. Personalization in Professional Academic Search[C]// Proceedings of the Integrating IR Technologies for Professional Search Workshop. 2013:1–8.
[3]Khabsa M, Wu Z, Giles C L. Towards Better Understanding of Academic Search[C]// Proceedings of the 16th ACM/IEEE-CS on Joint Conference on Digital Libraries, 2016: 111-114.
[4]Li X, de Rijke M. Academic Search in Response to Major Scientific Events[C]//The 5th International Workshop on Bibliometric-enhanced Information Retrieval. 2017: 41-50.
[5]Li X, de Rijke M. Do Topic Shift and Query Reformulation Patterns Correlate in Academic Search?[C]//European Conference on Information Retrieval, 2017: 146-159.
[6]謝智敏,郭倩玲.基于深度學(xué)習(xí)的學(xué)術(shù)搜索引擎——Semantic Scholar[J].情報(bào)雜志,2017,36(08):175-182.
[7]WIKIPEDIA. Microsoft Academic Search[EB/OL].(2017-09-06)[2019-2-12]. https://en.wikipedia.org/wiki/Microsoft_Academic_Search#cite_note-Microsoft_Academic_Search_FAQ-1.
[8]Ortega J L, Aguillo I F. Microsoft Academic Search and Google Scholar Citations: Comparative Analysis of Author Profiles[J]. Journal of the Association for Information Science and Technology, 2014, 65(6): 1149-1156.
[9]劉敏.基于用戶(hù)體驗(yàn)的微軟學(xué)術(shù)搜索和百度學(xué)術(shù)搜索對(duì)比研究[J].情報(bào)探索,2018(07):55-63.