(徐州工程學(xué)院圖書館,江蘇徐州221008)
國內(nèi)三大中文發(fā)現(xiàn)系統(tǒng)比較分析及評(píng)價(jià)
趙功群,王 恒
(徐州工程學(xué)院圖書館,江蘇徐州221008)
從元數(shù)據(jù)資源整合、檢索功能、數(shù)據(jù)挖掘服務(wù)、全文獲取途徑等幾個(gè)方面,對(duì)中國知網(wǎng)學(xué)術(shù)搜索、超星發(fā)現(xiàn)系統(tǒng)、百度學(xué)術(shù)搜索三大中文發(fā)現(xiàn)系統(tǒng)的發(fā)現(xiàn)功能進(jìn)行實(shí)證比較分析。通過數(shù)據(jù)比對(duì),認(rèn)為超星發(fā)現(xiàn)系統(tǒng)無論在資源整合還是數(shù)據(jù)挖掘等方面都具有明顯的優(yōu)勢,其他的知識(shí)發(fā)現(xiàn)系統(tǒng)需要進(jìn)一步的完善和優(yōu)化,以提高知識(shí)發(fā)現(xiàn)系統(tǒng)的整體水平。
知識(shí)發(fā)現(xiàn);超星發(fā)現(xiàn)系統(tǒng);中國知網(wǎng)學(xué)術(shù)搜索;百度學(xué)術(shù)搜索
大數(shù)據(jù)給圖書館帶來豐富資源的同時(shí)也帶來了數(shù)據(jù)冗余和信息孤島效應(yīng)。為應(yīng)對(duì)大數(shù)據(jù)帶來的問題,圖書館積極探索數(shù)字資源整合的途徑和方法,但整合的結(jié)果較差。近年來,數(shù)據(jù)服務(wù)提供商與圖書館合作開發(fā)知識(shí)發(fā)現(xiàn)系統(tǒng),為用戶提供一個(gè)實(shí)現(xiàn)各類學(xué)術(shù)資源發(fā)現(xiàn)與獲取的一站式解決方案,以提升用戶利用資源的有效性與友好性。
知識(shí)發(fā)現(xiàn)系統(tǒng)是在日益增長的海量數(shù)字資源基礎(chǔ)之上建立的,其宗旨在于打破以往的書刊目錄、文獻(xiàn)索引和部分文獻(xiàn)全文利用的局限,為用戶提供具有完善、高效的知識(shí)挖掘與數(shù)據(jù)分析功能的知識(shí)發(fā)現(xiàn)系統(tǒng),從而實(shí)現(xiàn)從資源發(fā)現(xiàn)到知識(shí)發(fā)現(xiàn)的轉(zhuǎn)變[1]。知識(shí)發(fā)現(xiàn)系統(tǒng)內(nèi)建海量數(shù)據(jù)的元數(shù)據(jù)倉,整合各種圖書館資源,包括內(nèi)部的、外部的、紙質(zhì)的、電子的、自有的、許可的以及可自由獲取的數(shù)據(jù)源,使用統(tǒng)一標(biāo)引的數(shù)據(jù)格式,提供簡單、單一的檢索入口,通常是類似Google的“一框式”搜索,通過檢索預(yù)先設(shè)定的元數(shù)據(jù)倉來快速返回結(jié)果,通過鏈接解析器鏈接到全文,提供分面和高級(jí)檢索功能,在用戶體驗(yàn)層面全面超越了聯(lián)邦檢索[2]。
目前,國內(nèi)比較有代表性的知識(shí)發(fā)現(xiàn)系統(tǒng)主要有超星知識(shí)發(fā)現(xiàn)系統(tǒng)、中國知網(wǎng)學(xué)術(shù)搜索、百度學(xué)術(shù)搜索。通過在元數(shù)據(jù)整合、檢索功能、數(shù)據(jù)挖掘服務(wù)、全文獲取途徑等方面的比較分析,全面考量上述三大知識(shí)發(fā)現(xiàn)系統(tǒng)對(duì)數(shù)據(jù)挖掘技術(shù)、學(xué)術(shù)研究及評(píng)價(jià)的積極作用。
2.1 收錄數(shù)據(jù)
2.1.1 元數(shù)據(jù)資源整合
由于中國知網(wǎng)學(xué)術(shù)搜索和百度學(xué)術(shù)搜索不支持空檢索,所以系統(tǒng)元數(shù)據(jù)總量無法核實(shí)。為了相對(duì)直觀地進(jìn)行比較,筆者隨機(jī)選取“圖書館”“信息安全”“屠呦呦”作為檢索關(guān)鍵詞,語種限定為中文,檢索時(shí)間為2016年4月8日,利用三個(gè)發(fā)現(xiàn)系統(tǒng)分別檢索,并對(duì)檢索結(jié)果進(jìn)行比較,檢索結(jié)果見表1。
表1 關(guān)鍵詞抽查結(jié)果比較
從表1可看出,百度學(xué)術(shù)搜索收錄的期刊總量遠(yuǎn)遠(yuǎn)大于超星知識(shí)發(fā)現(xiàn)系統(tǒng)和中國知網(wǎng)學(xué)術(shù)搜索,在會(huì)議文獻(xiàn)和學(xué)位論文方面的收錄數(shù)量低于超星知識(shí)發(fā)現(xiàn)系統(tǒng)。但百度學(xué)術(shù)搜索的圖書檢索總量為整數(shù)零,檢索結(jié)果的準(zhǔn)確性有待提高。以“中國圖書館學(xué)報(bào)”為檢索詞,通過百度學(xué)術(shù)搜索檢索期刊結(jié)果顯示為21 900條,但是通過手工統(tǒng)計(jì)結(jié)果僅為760條,遠(yuǎn)遠(yuǎn)低于系統(tǒng)顯示條數(shù)。在商業(yè)數(shù)據(jù)庫方面,超星知識(shí)發(fā)現(xiàn)系統(tǒng)無論在圖書、期刊還是學(xué)位論文、會(huì)議論文,其數(shù)據(jù)量都遠(yuǎn)遠(yuǎn)大于中國知網(wǎng)學(xué)術(shù)搜索。中國知網(wǎng)學(xué)術(shù)搜索并沒有統(tǒng)計(jì)檢索數(shù)據(jù)所占每種類型的數(shù)量,需要手工統(tǒng)計(jì),耗費(fèi)時(shí)間。
2.1.2 元數(shù)據(jù)的類型
表2 元數(shù)據(jù)類型比較
如表2所示,三大發(fā)現(xiàn)系統(tǒng)都能保證期刊、學(xué)位論文和會(huì)議論文的收錄。但從資源揭示的類型來看,超星知識(shí)發(fā)現(xiàn)系統(tǒng)和中國知網(wǎng)學(xué)術(shù)搜索還收錄了報(bào)紙、專利、標(biāo)準(zhǔn)、科研項(xiàng)目等其他元數(shù)據(jù),具備較為完善的文獻(xiàn)資源類型,資源完備度高于百度學(xué)術(shù)搜索。另外,超星知識(shí)發(fā)現(xiàn)系統(tǒng)還收錄了視頻、科技成果等半結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)資源更加豐富。這與超星公司在圖書、視頻資源以及期刊數(shù)據(jù)資源整合上的積累是分不開的。
2.2 檢索功能
超星知識(shí)發(fā)現(xiàn)系統(tǒng)、中國知網(wǎng)學(xué)術(shù)搜索和百度學(xué)術(shù)搜索均能提供強(qiáng)大的檢索功能,檢索的交互性、個(gè)性化特點(diǎn)表明發(fā)現(xiàn)系統(tǒng)更加注重讀者檢索的愉悅性和可操作性。
表3 檢索功能對(duì)比表
如表3所示,三大發(fā)現(xiàn)系統(tǒng)均提供基本檢索功能,檢索界面如搜索引擎一樣簡單直觀,通過單一檢索框?qū)崿F(xiàn)關(guān)鍵詞的統(tǒng)一檢索。百度學(xué)術(shù)搜索不提供二次檢索。超星知識(shí)發(fā)現(xiàn)系統(tǒng)、中國知網(wǎng)學(xué)術(shù)搜索均提供二次檢索(在結(jié)果中檢索)功能。
百度學(xué)術(shù)搜索的高級(jí)檢索功能繼承了百度搜索的簡練界面,可以限定檢索詞為精確檢索詞、全部包含等,但是檢索詞的位置限定比較單一,只有全部和篇名。超星知識(shí)發(fā)現(xiàn)系統(tǒng)和中國知網(wǎng)學(xué)術(shù)搜索延續(xù)了商業(yè)數(shù)據(jù)庫注重檢索功能的多樣性傳統(tǒng),在高級(jí)檢索功能中提供布爾邏輯檢索和可擴(kuò)展的檢索框,方便讀者根據(jù)學(xué)術(shù)研究的需要增減檢索詞。另外,超星知識(shí)發(fā)現(xiàn)系統(tǒng)在保證題名、作者、關(guān)鍵詞等主要檢索途徑的同時(shí),還增加了ISBN號(hào)檢索,每頁顯示條目以及館藏紙質(zhì)圖書和電子圖書的歸類,極大地方便了讀者的個(gè)性化檢索。
聚類檢索是發(fā)現(xiàn)系統(tǒng)為方便讀者檢索而設(shè)計(jì)的個(gè)性化程度最高的檢索方式,以元數(shù)據(jù)資源為基礎(chǔ),以文獻(xiàn)計(jì)量學(xué)和數(shù)據(jù)挖掘技術(shù)為手段,較好地解決了復(fù)雜異構(gòu)數(shù)據(jù)的資源整合,通過分面聚類的方式實(shí)現(xiàn)高價(jià)值資源的發(fā)現(xiàn)。目前,百度學(xué)術(shù)搜索提供了期刊、學(xué)位論文、學(xué)術(shù)會(huì)議論文的聚類;中國知網(wǎng)學(xué)術(shù)搜索提供了期刊、學(xué)位論文、學(xué)術(shù)會(huì)議論文等10種資源的聚類檢索;超星知識(shí)發(fā)現(xiàn)系統(tǒng)則提供圖書、期刊、學(xué)位論文等9種資源的聚類檢索。百度學(xué)術(shù)搜索、中國知網(wǎng)學(xué)術(shù)搜索和超星知識(shí)發(fā)現(xiàn)系統(tǒng)均提供了基于學(xué)科(領(lǐng)域)的分面篩選,而超星知識(shí)發(fā)現(xiàn)系統(tǒng)更為嚴(yán)格的參照了《中國圖書館圖書分類法》的分類體系和標(biāo)準(zhǔn),同時(shí)支持二級(jí)分類[3]。
2.3 數(shù)據(jù)挖掘服務(wù)
2.3.1 引證分析
圖1 中國知網(wǎng)的引證關(guān)系
筆者以《圖書館2.0:構(gòu)建新的圖書館服務(wù)》這篇圖書館領(lǐng)域引用率較高的學(xué)術(shù)論文作為樣本,分別檢索百度學(xué)術(shù)搜索、中國知網(wǎng)學(xué)術(shù)搜索和超星知識(shí)發(fā)現(xiàn)系統(tǒng)。百度學(xué)術(shù)搜索在檢索出該文獻(xiàn)后可以查看其對(duì)應(yīng)的引證文獻(xiàn),包括全部文獻(xiàn)、期刊、學(xué)位論文和會(huì)議文獻(xiàn),同時(shí)能揭示引證文獻(xiàn)的所屬的學(xué)科領(lǐng)域。中國知網(wǎng)學(xué)術(shù)搜索揭示的引證關(guān)系需要跳轉(zhuǎn)到中國知網(wǎng)界面(見圖1),引證文獻(xiàn)顯示期刊、學(xué)位論文和會(huì)議文獻(xiàn),同時(shí)可以揭示節(jié)點(diǎn)文獻(xiàn)的共引文獻(xiàn)、同被引文獻(xiàn)等。超星知識(shí)發(fā)現(xiàn)系統(tǒng)的功能更加強(qiáng)大,除展示期刊、圖書、學(xué)位論文、會(huì)議論文外,也支持共引文獻(xiàn)、同被引文獻(xiàn)(見圖2),提供引證文獻(xiàn)的EXCEL格式導(dǎo)出功能。超星知識(shí)發(fā)現(xiàn)系統(tǒng)是目前唯一能對(duì)圖書的參考引證關(guān)系進(jìn)行對(duì)比分析的系統(tǒng)。另外,超星知識(shí)發(fā)現(xiàn)系統(tǒng)還對(duì)該文發(fā)表的期刊在不同時(shí)期的影響因子進(jìn)行了揭示(見圖3)。
圖2 超星知識(shí)發(fā)現(xiàn)系統(tǒng)的引證關(guān)系
圖3 超星知識(shí)發(fā)現(xiàn)系統(tǒng)文章發(fā)表期刊的歷年影響因子
2.3.2 圖書信息對(duì)比分析
在文獻(xiàn)信息源中,圖書、期刊和專利并列為三大信息源,所以知識(shí)發(fā)現(xiàn)系統(tǒng)中圖書信息的發(fā)現(xiàn)和揭示也是考量發(fā)現(xiàn)系統(tǒng)揭示的深度以及知識(shí)顆粒度細(xì)化的重要指標(biāo)。以“信息系統(tǒng)與數(shù)據(jù)庫技術(shù)”為例,百度學(xué)術(shù)搜索不提供圖書的檢索,中國知網(wǎng)學(xué)術(shù)搜索和超星知識(shí)發(fā)現(xiàn)系統(tǒng)的圖書發(fā)現(xiàn)見圖4和圖5。
圖4 中國知網(wǎng)學(xué)術(shù)搜索圖書發(fā)現(xiàn)圖
圖5 超星知識(shí)發(fā)現(xiàn)系統(tǒng)圖書發(fā)現(xiàn)圖
用戶不能每看一本圖書就需要購買。如果用戶只想看其中的一些章節(jié),或是買到手發(fā)現(xiàn)可用的并不多,直接購買圖書是很大的浪費(fèi),學(xué)術(shù)搜索平臺(tái)能起到多大的作用呢?在這點(diǎn)上超星知識(shí)發(fā)現(xiàn)系統(tǒng)就比中國知網(wǎng)學(xué)術(shù)搜索服務(wù)更加人性化,可以為用戶提供全文讀?。▓D書館已先期購置),如果用的內(nèi)容少則沒必要購買,超星知識(shí)發(fā)現(xiàn)系統(tǒng)提供圖書的全部目錄,用戶可以根據(jù)實(shí)際需求選擇試讀或者通過文獻(xiàn)傳遞方式獲取所需的內(nèi)容。
2.3.3 可視化對(duì)比分析
(1)相關(guān)性分析。百度學(xué)術(shù)搜索和中國知網(wǎng)學(xué)術(shù)搜索在每次搜索后都會(huì)推薦相關(guān)性搜索,包括相關(guān)性期刊、相關(guān)性作者等。超星知識(shí)發(fā)現(xiàn)系統(tǒng)提供可視化知識(shí)圖譜,用戶可以根據(jù)當(dāng)前的檢索詞的相關(guān)詞繼續(xù)篩選所需要的內(nèi)容,更精準(zhǔn)的定位到檢索內(nèi)容,主要是給用戶一個(gè)直接的提示作用,如知識(shí)點(diǎn)提示、作者提示、機(jī)構(gòu)提示等,避免用戶不知道精準(zhǔn)的檢索詞信息而檢索不出想要檢索的圖書期刊等(見圖6)。
圖6 相關(guān)性分析對(duì)比
(2)趨勢圖分析。學(xué)術(shù)趨勢分析(Academic-trend Analysis)方法是在海量文獻(xiàn)以及大量用戶使用記錄的基礎(chǔ)上,提煉某一主題或關(guān)鍵詞進(jìn)行的時(shí)間序列統(tǒng)計(jì)。它可以為研究者掌握學(xué)術(shù)方向、了解學(xué)術(shù)前沿動(dòng)態(tài)提供重要信息依據(jù),尤其適合新涉足某一研究領(lǐng)域或致力于開發(fā)交叉學(xué)科新興研究方向的研究人員。學(xué)術(shù)趨勢分析可以比較直觀地顯示搜索主題每年的發(fā)文量并提供部分重要信息,研究者可利用該項(xiàng)功能把握搜索主題的研究生命周期及其發(fā)展前途[4]。在三大發(fā)現(xiàn)系統(tǒng)中,百度學(xué)術(shù)搜索和中國知網(wǎng)學(xué)術(shù)搜索均沒有提供趨勢分析圖表,中國知網(wǎng)的平臺(tái)下提供了基于學(xué)術(shù)熱點(diǎn)的趨勢分析。超星知識(shí)發(fā)現(xiàn)系統(tǒng)提供強(qiáng)大的學(xué)術(shù)趨勢的深度分析,不僅對(duì)某個(gè)知識(shí)點(diǎn)的資源類型進(jìn)行單獨(dú)分析,還創(chuàng)建一個(gè)以時(shí)間為橫軸、發(fā)文量為縱軸的涵蓋圖書、期刊等各類文獻(xiàn)信息源的綜合對(duì)比分析圖(見圖7)。用戶可以查看檢索內(nèi)容近10年、20年或是30年各種內(nèi)容類型的發(fā)展趨勢,更直觀地了解檢索內(nèi)容,便于分析選擇。針對(duì)很多文獻(xiàn)分類都有其發(fā)展分析,這里也給用戶提供了一個(gè)很便捷的選擇方式,用戶只需點(diǎn)擊某個(gè)類型的某個(gè)年份就可以直接定位到其選擇內(nèi)容中,并且最多可支持五個(gè)關(guān)鍵字的對(duì)比分析,也就是用戶檢索一個(gè)關(guān)鍵字還可以檢索其他相關(guān)聯(lián)或是無關(guān)聯(lián)的關(guān)鍵字,一起展示它們之間的趨勢分析,更直觀地對(duì)比關(guān)鍵字之間的發(fā)展形勢。
圖7 超星知識(shí)發(fā)現(xiàn)系統(tǒng)各類型學(xué)術(shù)發(fā)展趨勢曲線
(3)統(tǒng)計(jì)圖分析。超星知識(shí)發(fā)現(xiàn)系統(tǒng)更直觀地展示了每一部分占總的比例,可以清楚地知道圖書檢索數(shù)量,并且知道占總量的百分比(見圖8)。從圖8也可知道超星知識(shí)發(fā)現(xiàn)系統(tǒng)對(duì)于文獻(xiàn)的分類是很全面的。
圖8 超星知識(shí)發(fā)現(xiàn)系統(tǒng)資源檢索量分布統(tǒng)計(jì)圖
如果用戶需要統(tǒng)計(jì)相關(guān)資料的分析,趨勢圖分析和統(tǒng)計(jì)圖分析還提供了“導(dǎo)出excel文件”,用戶可以直接使用,不需要再零散地找資料分析。而百度學(xué)術(shù)搜索和中國知網(wǎng)學(xué)術(shù)搜索則沒有這方面的功能。
2.4 全文獲取
百度學(xué)術(shù)搜索提供維普、萬方、知網(wǎng)的全文下載鏈接,如果讀者所在單位購買了相關(guān)資源,就可以直接下載。同時(shí)提供百度文庫、道客巴巴、豆丁網(wǎng)等下載鏈接和文獻(xiàn)互助。中國知網(wǎng)學(xué)術(shù)搜索依托中國知網(wǎng)對(duì)期刊資源強(qiáng)大的整合力,在平臺(tái)上直接提供PDF和CAJ格式的論文下載,外文資源一般提供開放獲取資源的鏈接。超星知識(shí)發(fā)現(xiàn)系統(tǒng)在“獲得途徑”處提供萬方、知網(wǎng)、維普等電子資源供應(yīng)商名稱,點(diǎn)鏈接直接進(jìn)入相應(yīng)的數(shù)據(jù)庫文摘頁面進(jìn)行在線閱讀全文或下載,提供“郵箱接收全文”的文獻(xiàn)傳遞獲取方式。
通過上述對(duì)元數(shù)據(jù)整合、檢索功能、數(shù)據(jù)挖掘、全文獲取等方面的對(duì)比分析,可以看出超星知識(shí)發(fā)現(xiàn)系統(tǒng)具備絕對(duì)的優(yōu)勢,超星知識(shí)發(fā)現(xiàn)系統(tǒng)以海量元數(shù)據(jù)為基礎(chǔ),利用數(shù)據(jù)倉儲(chǔ)、資源整合、知識(shí)挖掘、數(shù)據(jù)分析、文獻(xiàn)計(jì)量學(xué)模型等相關(guān)技術(shù),較好地解決了復(fù)雜異構(gòu)數(shù)據(jù)庫群的集成整合以及高效、精準(zhǔn)、統(tǒng)一的學(xué)術(shù)資源搜索,進(jìn)而通過分面聚類、引文分析、知識(shí)關(guān)聯(lián)分析等實(shí)現(xiàn)高價(jià)值學(xué)術(shù)文獻(xiàn)發(fā)現(xiàn)、縱橫結(jié)合的深度知識(shí)挖掘、可視化的全方位知識(shí)關(guān)聯(lián),幫助用戶快速實(shí)現(xiàn)對(duì)相關(guān)知識(shí)和信息的結(jié)構(gòu)性認(rèn)識(shí)。
[1]劉江玲.面向大數(shù)據(jù)的知識(shí)發(fā)現(xiàn)系統(tǒng)研究[J].情報(bào)科學(xué),2014(3):90-92,101.
[2]秦鴻,錢國富,鐘遠(yuǎn)薪.三種發(fā)現(xiàn)服務(wù)系統(tǒng)的比較研究[J].大學(xué)圖書館學(xué)報(bào),2012(5):5-11,17.
[3]覃燕梅.百度學(xué)術(shù)搜索與超星發(fā)現(xiàn)系統(tǒng)比較分析及評(píng)價(jià)[J].現(xiàn)代情報(bào),2016(3):48-60.
[4]黎子輝.CNKI與萬方的學(xué)術(shù)趨勢分析簡述與對(duì)比[J].現(xiàn)代情報(bào),2013(1):142-144.
(編發(fā):章忠平)
Comparative Analysis and Evaluation of the Three Major Domestic Chinese Discovery System
ZHAO Gong-qun,WANG Heng
(Library of Xuzhou Institute of Technology,Xuzhou 221008,China)
From the metadata resource integration,retrieval,data mining service,full text access method,this paper makes empirical comparative analysis on the discovery function of“CNKI SCHOALR”,“Superstar Discovery System”,“Baidu Academic Scholar”,considers that superstar discovery system has obvious advantages in terms of the integration of resources and data mining through data comparison,other knowledge discovery system need further improvement and optimization in order to improve the overall level of knowledge discovery systems.
knowledge discovery;Superstar Discovery System;CNKI Scholar;Baidu Academic Scholar
G252
G252
A
2095-5197(2016)06-0072-06
趙功群(1976-),男,副研究館員,本科,研究方向:學(xué)科服務(wù)、信息素質(zhì)教育;王恒(1983-),男,助理館員,本科,研究方向:數(shù)據(jù)挖掘、信息系統(tǒng)與管理。
2016-08-29