趙蓉英 程震霖
(1.武漢大學(xué)信息管理學(xué)院; 2.武漢大學(xué)中國科學(xué)評價研究中心; 3.武漢大學(xué)信息資源研究中心,武漢,430072)
國內(nèi)館藏數(shù)字資源語義化研究現(xiàn)狀
趙蓉英1,2,3程震霖1,2
(1.武漢大學(xué)信息管理學(xué)院;2.武漢大學(xué)中國科學(xué)評價研究中心;3.武漢大學(xué)信息資源研究中心,武漢,430072)
伴隨著數(shù)字資源的迅速增長,傳統(tǒng)館藏資源的展示方式已經(jīng)很難滿足用戶需求。館藏數(shù)字資源語義化的研究對于館藏數(shù)字資源建設(shè)以及館藏數(shù)字資源的有效利用有著非常重要的意義。本文采用文獻統(tǒng)計分析以及知識可視化的分析方法,對目前我國館藏數(shù)字資源語義化研究的現(xiàn)狀進行了分析,揭示了我國目前館藏數(shù)字資源語義化的現(xiàn)狀和今后的熱點與趨勢。
館藏數(shù)字資源語義化可視化
1.2研究工具
本文使用的工具為SATI[3]、Ucinet及CiteSpace。SATI是浙江大學(xué)信息資源管理系劉啟元開發(fā)的文獻題錄信息統(tǒng)計分析工具(Statistical Analysis Toolkit for Informetrics)。這款工具支持CNKI導(dǎo)出的EndNote格式,可實現(xiàn)三大功能:①字段信息抽??;②條目頻次統(tǒng)計;③共現(xiàn)矩陣構(gòu)建[4]。Ucinet是目前最為流行的社會網(wǎng)絡(luò)分析軟件之一。CiteSpace則是一款由美國Drexel大學(xué)的陳超美教授開發(fā)的用來分析和可視共現(xiàn)網(wǎng)絡(luò)的Java應(yīng)用程序,可以通過直觀的圖譜方式顯示某個學(xué)科或知識域在一定時期發(fā)展的趨勢。
1.3研究方法
通過關(guān)鍵詞共現(xiàn)分析法及社會網(wǎng)絡(luò)分析法能夠較直觀地反應(yīng)目前國內(nèi)的研究現(xiàn)狀。將從CNKI導(dǎo)出的EndNote格式文件導(dǎo)入SATI軟件進行分析,該軟件可以抽取作者、出版年、關(guān)鍵詞等字段信息,并統(tǒng)計其頻次。將RefWork格式文件導(dǎo)入CiteSpace繪制關(guān)鍵詞共現(xiàn)圖譜,對圖譜進行分析發(fā)現(xiàn)目前國內(nèi)的研究熱點。
2.1發(fā)文量分析
使用SATI的頻次統(tǒng)計功能,可以得到CNKI數(shù)據(jù)庫中有關(guān)該主題的年度發(fā)文量的統(tǒng)計數(shù)據(jù)(由于數(shù)據(jù)收集時間為2014年10月,所以2014年數(shù)據(jù)并不完整),并由此可以繪制出國內(nèi)館藏數(shù)字資源語義化研究論文年代分布圖,如圖1所示。
圖1 國內(nèi)館藏數(shù)字資源語義化研究論文年代分布圖
從圖1中可以大致地看出我國館藏數(shù)字資源語義化研究的發(fā)展速度和研究規(guī)模。從圖中可以看出我國關(guān)于館藏數(shù)字資源語義化的論文從2000年才開始出現(xiàn)??梢詫⑽覈鴮τ陴^藏數(shù)字資源語義化的研究分為三個階段:①初始階段(2001年之前):在這個階段國內(nèi)館藏數(shù)字資源語義化研究初露端倪,相關(guān)研究論文也比較少,2000~2001年兩年總共只有4篇,說明數(shù)字資源語義化在當(dāng)時仍是新事物,并未引起專家學(xué)者的廣泛關(guān)注。②快速增長階段(2002~2006年):這階段的發(fā)文量較之前有了較大提高,五年共發(fā)文74篇,年均接近15篇,說明學(xué)術(shù)界開始重視數(shù)字資源語義化的研究。③激增階段(2007~2014年):這八年的發(fā)文量達到了371篇,年均發(fā)文量超過46篇。較上一階段有著顯著的增長??偟膩碚f,雖然在該領(lǐng)域每年的論文總量相對來說并不算多,但是總體上還是呈現(xiàn)出快速增長的趨勢,并且增加幅度也在增大,可以預(yù)見在未來的數(shù)年內(nèi),館藏數(shù)字資源語義化研究會受到學(xué)術(shù)界越來越多人的關(guān)注,發(fā)文量也會進一步激增[5]。
2.2關(guān)鍵詞分析
在某一學(xué)科內(nèi),對關(guān)鍵詞的關(guān)注有助于發(fā)現(xiàn)該學(xué)科的研究熱點。利用SATI的統(tǒng)計數(shù)據(jù)發(fā)現(xiàn),在449篇文獻中共涉及了1231個關(guān)鍵詞,總詞頻達到了2150次,其中頻次大于等于5的關(guān)鍵詞共有54個,占總數(shù)的4%,而詞頻則達到了711次,約占總數(shù)的33%。筆者選取按頻次高低排名前20個關(guān)鍵詞作為高頻詞,如表1所示。并且可以通過STAI生成高頻關(guān)鍵詞的共現(xiàn)矩陣(見表2)。
表1 國內(nèi)館藏數(shù)字資源語義化研究關(guān)鍵詞列表(前20個)
表2 高頻關(guān)鍵詞共現(xiàn)矩陣(部分)
下面將利用CiteSpace繪制出關(guān)鍵詞共現(xiàn)圖譜。以上述449篇國內(nèi)館藏數(shù)字資源語義化論文為數(shù)據(jù)來源,在CiteSpace中的Data選項中將CNKI導(dǎo)出的RefWork格式轉(zhuǎn)換為CiteSpace可以識別的格式,在Node Types中選擇“Keyword”,分析的時間段選為2000~2014年,時間間隔為1年,運行后得到國內(nèi)館藏數(shù)字資源語義化領(lǐng)域的關(guān)鍵詞共現(xiàn)圖譜,如圖2所示。CiteSpace繪制的關(guān)鍵詞共現(xiàn)圖譜其特點的是生動鮮明,能直觀地展示出頻次較高的關(guān)鍵詞,但是也存在著不足,即各個關(guān)鍵詞相互重疊導(dǎo)致部分頻次相對較小的關(guān)鍵詞顯示不夠清晰,故筆者用Ucinet集成的一款繪制網(wǎng)絡(luò)圖譜的工具NetDraw繪制出關(guān)鍵詞共現(xiàn)圖譜,能夠更加清晰地展示各個關(guān)鍵詞之間的關(guān)系,如圖3所示。
在圖2中,我們可以明顯看到最大的節(jié)點是“數(shù)字圖書館”,同時這一關(guān)鍵詞的出現(xiàn)頻次也是排名第一,高達97次。這說明這一概念在館藏數(shù)字資源語義化研究中有著舉足輕重的作用,而事實上也的確如此。“數(shù)字圖書館”作為WEB2.0的產(chǎn)物是儲存數(shù)字資源并利用信息檢索獲取資源的場所[6],在館藏資源的數(shù)字化、語義化過程中都起到了重要作用。而在頻次排行中的第四位“語義網(wǎng)”和第五位“語義WEB”實際上是同一概念的不同寫法,二者頻次加在一起共出現(xiàn)48次,僅次于“數(shù)字圖書館”。劉柏嵩在2003年總結(jié)了語義網(wǎng)的概念及相關(guān)的幾種關(guān)鍵技術(shù)包括XML、RDF等,提出了語義網(wǎng)在未來發(fā)展可能存在的挑戰(zhàn)包括內(nèi)容的可獲取性和可擴展性,本體的開發(fā)及本體語言的標(biāo)準(zhǔn)化[7]。在技術(shù)的應(yīng)用方面,從圖表中可以看出與語義化實現(xiàn)方法相關(guān)的“本體”、“XML”、“RDF”、“元數(shù)據(jù)”、“關(guān)聯(lián)數(shù)據(jù)”等關(guān)鍵詞的頻次也很高。其中“關(guān)聯(lián)數(shù)據(jù)”是由W3C的LOD項目中最先提出的一種將開放的數(shù)據(jù)集進行關(guān)聯(lián)的新方法。歐石燕提出了一個具有四個層次(元數(shù)據(jù)層、本體層、關(guān)聯(lián)數(shù)據(jù)層和應(yīng)用層)面向關(guān)聯(lián)數(shù)據(jù)的語義數(shù)字圖書館資源描述與組織框架,該框架“本體”、“XML”、“RDF”則被公認為是實現(xiàn)語義化的底層核心技術(shù)要素,其中“RDF”是一種處理“元數(shù)據(jù)”的XML應(yīng)用。這些高頻詞表明目前國內(nèi)學(xué)者偏向于利用元數(shù)據(jù)、本體進行館藏資源的語義化或提出新的知識組織方法,也就是說這些學(xué)者將元數(shù)據(jù)、本體和關(guān)聯(lián)數(shù)據(jù)視為數(shù)字圖書館實踐中的關(guān)鍵技術(shù)[8]。本文的第三部分將分別對幾種館藏資源語義化的熱點技術(shù)——基于元數(shù)據(jù)的語義化、基于本體的語義化和基于計量分析的語義加以介紹。
圖2 國內(nèi)館藏數(shù)字資源語義化研究領(lǐng)域的關(guān)鍵詞共現(xiàn)圖譜(CiteSpace繪制)
圖3 國內(nèi)館藏數(shù)字資源語義化研究領(lǐng)域的關(guān)鍵詞共現(xiàn)圖譜(Ucinet繪制)
2.3作者與機構(gòu)分析
通過高頻作者(單位)的合著網(wǎng)絡(luò)分析的方法,再借助可視化軟件的展示,可以直觀地看到某一學(xué)科領(lǐng)域內(nèi)的科研合作關(guān)系。首先借助SATI軟件生成作者的共現(xiàn)矩陣,如圖4所示,再分別利用UCINET及Citespace軟件對數(shù)據(jù)進行處理,可以得到國內(nèi)館藏數(shù)字資源語義化作者合著網(wǎng)絡(luò)圖譜(見圖5),以及作者單位的合著網(wǎng)絡(luò)圖譜,如圖6所示。圖5中每個節(jié)點代表作者,方塊的大小代表了他們在網(wǎng)絡(luò)中的中心度,方塊越大代表頻次也越大。
圖4 國內(nèi)館藏數(shù)字資源語義化研究領(lǐng)域的作者共現(xiàn)矩陣
圖5 國內(nèi)館藏數(shù)字資源語義化研究領(lǐng)域的作者共現(xiàn)圖譜
根據(jù)軟件分析得出國內(nèi)館藏數(shù)字資源語義化研究的作者合著網(wǎng)絡(luò)密度為0.0019,表明節(jié)點之間的緊密度較低,從圖5中可以直觀地看到作者群之間的合作關(guān)系較為簡單,沒有復(fù)雜的節(jié)點和連線。絕大多數(shù)作者顯示在圖片中的左邊一排表明其合著度數(shù)為0,即沒有出現(xiàn)共現(xiàn)的作者群。而右側(cè)有連線的是相互有共現(xiàn)的作者群。其中最大的結(jié)點由牟冬梅、畢強、王麗偉、韓毅、黃麗麗等作者組成,其中牟冬梅的結(jié)點最大,表明在該團體中頻次最高,發(fā)文量最大。圖6中相對應(yīng)的作者機構(gòu)結(jié)點最大的是吉林大學(xué)公共衛(wèi)生學(xué)院,其中牟冬梅、畢強、王麗偉都是吉林大學(xué)教師,而韓毅、黃麗麗則是吉林大學(xué)學(xué)生,他們是由師生關(guān)系為基礎(chǔ)的合作關(guān)系,主要研究數(shù)字圖書館、語義網(wǎng)、以及本體在醫(yī)學(xué)數(shù)字資源領(lǐng)域的應(yīng)用。第二大結(jié)點是由武漢大學(xué)信息管理學(xué)院的邱均平、趙蓉英與樓雯、余凡、呂紅、王菲菲等作者構(gòu)成,他們之間也為師生關(guān)系,主要研究館藏資源的語義化,包括對于館藏資源的研究進展分析以及對于幾種語義化方法進行了論述。其他主要節(jié)點也大都是師生或同學(xué)關(guān)系,可見目前國內(nèi)關(guān)于館藏資源語義化的研究學(xué)者關(guān)系主要是由同一學(xué)校的師生之間構(gòu)成,不同研究機構(gòu)之間合作很少。
圖6 國內(nèi)館藏數(shù)字資源語義化研究領(lǐng)域的作者單位共現(xiàn)圖譜
3.1基于元數(shù)據(jù)的語義化
元數(shù)據(jù)最本質(zhì)的定義是關(guān)于數(shù)據(jù)的數(shù)據(jù),主要是描述數(shù)據(jù)屬性的信息。語義元數(shù)據(jù) (也稱作標(biāo)簽本體)提供數(shù)據(jù)的語義信息,是館藏數(shù)字資源語義化的一種重要工具,在將提供給人們閱讀的普通數(shù)據(jù)信息轉(zhuǎn)換為計算機可閱讀處理信息的過程中,有著舉足輕重的作用。近年來語義元數(shù)據(jù)相關(guān)的研究也得到了越來越多研究人員的關(guān)注[9,10]。
曾蕾等人從功能、形式、結(jié)構(gòu)、覆蓋面、表現(xiàn)方式五個方面概述了元數(shù)據(jù)標(biāo)準(zhǔn)的演變[11]。趙亮等按照一個完整元數(shù)據(jù)體系架構(gòu)的語義、結(jié)構(gòu)、句法三個層面詳細闡述了如何構(gòu)建一個完整的元數(shù)據(jù)應(yīng)用[12]。Miao Chen、崔曉莉等人設(shè)計了實驗來驗證一種元數(shù)據(jù)的生成方法,即以Flickr標(biāo)簽為例利用社會性語義資源來豐富主題元數(shù)據(jù)[13]。黎建輝等提出了基于元數(shù)據(jù)的關(guān)系數(shù)據(jù)庫語義集成方法,以語義元數(shù)據(jù)的形式表示和存儲語義映射信息,使關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)可以被機器理解并處理[14]。
3.2基于本體的語義化
本體是一種能在語義和知識層次上描述信息系統(tǒng)的概念模型建模工具,是用于對知識進行組織的詞匯表[15]。對于本體不同研究者有著不同的定義形式,但是對于本體內(nèi)涵的認識是一致的,都把本體當(dāng)作是領(lǐng)域內(nèi)部不同主體(人、應(yīng)用系統(tǒng)等)之間交互的一種語義基礎(chǔ)[9,16,17]。本體在數(shù)字資源的語義化中扮演著重要的角色,不僅可以對館藏書目、擴展的外部資源以及大眾標(biāo)注的標(biāo)簽等數(shù)字資源進行組織,也有利于解決數(shù)字資源整合中的組織、共享、集成、交換等問題[9]。
杜小勇等對本體的定義及創(chuàng)建方法等研究狀況以及主要的研究機構(gòu)進行了較為全面的介紹[18]。宋峻峰和張維明提出了一種基于本體的信息檢索模型,使用本體中定義的詞匯來標(biāo)記文檔,從而實現(xiàn)語義層次的信息檢索并使其檢索的性能得到了極大的改善[19]。王進研究了基于本體的檢索算法及其檢索結(jié)果的優(yōu)化,并提出了一套基于本體的新的語義檢索模型以及查詢語義擴展方法和文檔語義標(biāo)注及聚類方法,對語義檢索提供了新的思路[20]。吳健等提出了一種基于本體論和詞匯語義相似度的Web服務(wù)發(fā)現(xiàn)方法[21]。徐德智與王懷民闡述了語義距離與語義相似度之間的關(guān)系,并提出了一種基于本體的計算兩個概念之間的語義相似度的語義距離方法[22]。邱均平、呂紅等構(gòu)建了一種基于共現(xiàn)分析的語義信息檢索模型,該模型由規(guī)范器、分析器和本體構(gòu)建器三部分組成,配套的信息檢索流程對語義檢索方式進行細化,能對檢索結(jié)果的可視化展示提供結(jié)構(gòu)化數(shù)據(jù)[23]。常艷闡述了本體的形式化模型及本體與語義之間的關(guān)系;提出了一種基于本體的數(shù)字圖書館知識組織構(gòu)建模式;分析了本體在數(shù)字圖書館知識組織中的原理、作用,并將之與傳統(tǒng)的知識組織模式進行比較分析[9]。
3.3基于計量分析的語義化
信息計量學(xué)主要以元數(shù)據(jù)作為研究對象。信息計量學(xué)的定義是:應(yīng)用數(shù)學(xué)、統(tǒng)計學(xué)等方法從定量的角度分析和研究信息的動態(tài)特性,并找出其中的內(nèi)在規(guī)律。計量學(xué)與語義化的研究內(nèi)容存在著交叉部分,計量學(xué)的研究理論及方法可以應(yīng)用于語義化的領(lǐng)域[24]。
邱均平、余凡提出了一種新的館藏資源語義化方法——基于計量分析的館藏資源語義化方法,構(gòu)建了相關(guān)理論模型,并認為基于計量分析的語義化吸收了基于元數(shù)據(jù)及基于本體這兩種語義化技術(shù)方法的優(yōu)勢,其語義關(guān)系深度高于前者,而對于計算機自動處理的程度又高于后者[23]。
本文以CNKI收錄的館藏數(shù)字資源語義化文獻為研究對象,通過SATI、CiteSpace等軟件進行數(shù)據(jù)處理和可視化展示,以知識圖譜的形式展示了館藏數(shù)字資源語義化的高頻關(guān)鍵詞、作者以及作者單位的特征分布,結(jié)合內(nèi)容探析了目前國內(nèi)該研究的熱點。本文研究主要得出以下結(jié)論:第一,通過繪制國內(nèi)數(shù)字館藏資源語義化領(lǐng)域的關(guān)鍵詞聚類圖譜,得出近年來研究熱點是數(shù)字圖書館、本體、元數(shù)據(jù)、語義網(wǎng)等。第二,目前國內(nèi)數(shù)字館藏資源語義化的研究按對象和方法主要分為三種——基于元數(shù)據(jù)的語義化、基于本體的語義化和基于計量分析的語義化。其中,基于本體的語義化技術(shù)有效地解決了館藏數(shù)字資源的二義性和冗余等問題,極大地提高數(shù)字圖書館知識組織的效率,為館藏數(shù)字資源的語義化打下堅實的基礎(chǔ);基于計量分析的館藏數(shù)字資源語義化基于前兩種方法存在的問題做出了改進,同時也為館藏數(shù)字資源語義化提供了新的思路。
[1]王薇.基于關(guān)聯(lián)數(shù)據(jù)的圖書館數(shù)字資源語義融合研究[D].南京大學(xué),2013:1-11
[2]李勁,程秀峰,宋紅文.基于語義的館藏資源深度聚合方法研究[J].情報科學(xué),2013,31(11):100-103
[3]劉啟元,葉鷹.文獻題錄信息挖掘技術(shù)方法及其軟件SATI的實現(xiàn)——以中外圖書情報學(xué)為例[J].信息資源管理學(xué)報,2012,(1):50-58
[4]趙蓉英,李飛.基于社會網(wǎng)絡(luò)分析方法的國內(nèi)外信息計量比較研究[J].情報科學(xué),2013,31(2):7-9
[5]劉雪竹.數(shù)字資源整合研究綜述[J].現(xiàn)代情報,2008,28(2):4-6
[6]胡昌平,胡媛,嚴(yán)煒煒.高校數(shù)字圖書館服務(wù)的用戶滿意度實證研究[J].國家圖書館學(xué)刊,2013,90(6):23-31
[7]劉柏嵩.基于知識的語義網(wǎng):概念、技術(shù)及挑戰(zhàn)[J].中國圖書館學(xué)報,2003,(2):18-21
[8]樓雯.館藏資源語義化關(guān)鍵技術(shù)及實證研究[J].中國圖書館學(xué)報,2013,39(6):27-36
[9]常艷.基于本體的數(shù)字圖書館知識組織構(gòu)建模式研究[D].吉林大學(xué),2008:28-45
[10] 劉耀.基于內(nèi)容與形式交互的圖書館資源組織語義化方法研究[J].情報理論與實踐,2010,33(10):105-107
[11] 曾蕾,張甲,張曉林.元數(shù)據(jù)標(biāo)準(zhǔn)的演變[J].中國圖書館學(xué)報,2003,(4):10-14
[12] 趙亮.元數(shù)據(jù)應(yīng)用:語義、結(jié)構(gòu)與句法[J].圖書館雜志,2004,23(7):49-53
[13] 崔曉莉.從社會性標(biāo)簽中進行語義關(guān)系抽取——一種元數(shù)據(jù)生成方法[J].現(xiàn)代圖書情報技術(shù),2009,176(3):38-40
[14] 黎建輝,余懷化,閻保平.基于元數(shù)據(jù)的關(guān)系數(shù)據(jù)庫語義集成方法[J].計算機工程,2008,34(6):54-56
[15] 成瑜,何潔月.基于本體的生物信息數(shù)據(jù)源的發(fā)現(xiàn)[J].微機發(fā)展,2005,15(1):38-40
[16] 張麗.本體在組件描述和檢索中的應(yīng)用研究[D].哈爾濱工程大學(xué),2008:21-23
[17] 李健康,張春輝.本體研究及其應(yīng)用進展[J].圖書館論壇,2004,24(6):80-86
[18] 杜小勇,李曼,王大治.語義Web與本體研究綜述[J].計算機應(yīng)用,2004,24(10):14-18
[19] 宋峻峰,張維明,肖衛(wèi)東,等.基于本體的信息檢索模型研究[J].南京大學(xué)學(xué)報(自然科學(xué)),2005,41(2):189-195
[20] 王進.基于本體的語義信息檢索研究[D].中國科學(xué)技術(shù)大學(xué),2006:117-118
[21] 吳健,吳朝暉,李瑩,等.基于本體論和詞匯語義相似度的Web服務(wù)發(fā)現(xiàn)[J].計算機學(xué)報,2005,28(4):595-602
[22] 徐德智,王懷民.基于本體的概念間語義相似度計算方法研究[J].計算機工程與應(yīng)用,2007,43(8):154-156
[23] 呂紅,邱均平,李小濤,余厚強.國內(nèi)館藏資源可視化研究進展分析[J].情報資料工作,2014,35(1):20-24
[24] 邱均平,余凡.基于計量分析的館藏資源語義化理論研究[J].中國圖書館學(xué)報,2012,38(4):71-78
The Current Situation of Digital Library Resources Semantization in China
Zhao Rongying1,2,3Cheng Zhenlin1,2
(1.School of Information Management, Wuhan University;2.Research Center for China Science Evaluation,;3. Information Resource Research Center, Wuhan University, Wuhan 430072)
With the sharp growth of digital resources, the traditional display method of library resources could not satisfy the users’ needs. The research of digital library resources semantization is significant for the library resources construction and digital library resources effective use. And based on the characteristics of digital library resources semantization, using bibliometrics and visualization methods, this paper analyzes the present situation and the trends of digital library resources semantization in China.
Digital library resourceSemantizationVisualization
本文系教育部人文社科基金項目“館藏數(shù)字資源語義化深度聚合的理論與關(guān)鍵技術(shù)研究”(13YJA870023)、國家社科基金重大項目“基于語義的館藏資源深度聚合與可視化展示研究”(11&ZD152)子課題的研究成果之一。
趙蓉英,女,教授,博士生導(dǎo)師,研究方向為信息計量與科學(xué)評價,知識管理與競爭情報,Email:zhaorongying@126.com;程震霖,碩士研究生,研究方向為信息計量與科學(xué)評價。
G250.7
A
2095-2171(2015)02-0097-07
10.13365/j.jirm.2015.02.097
1數(shù)據(jù)來源與研究方法和工具
CNKI《中國學(xué)術(shù)文獻
總庫》作為數(shù)據(jù)來源,在CNKI數(shù)據(jù)庫的高級搜索中由于以主題作為檢索入口得到文獻記錄過少,可能會對結(jié)果造成影響,所以為了擴大范圍選擇了以摘要為檢索入口。用“館藏資源”并含“語義”或者“數(shù)字資源”并含“語義”為檢索字段,時間范圍選擇從1990年到2014年,進行檢索后共得到506條文獻記錄。由于選擇了摘要作為檢索入口,在擴大范圍的同時,其檢索結(jié)果也存在一些與主題不相關(guān)的數(shù)據(jù),對數(shù)據(jù)進行人工審查清洗,最終得到449條有效數(shù)據(jù)。由于不同工具對數(shù)據(jù)源格式的要求不同,故將CNKI中的數(shù)據(jù)源分別以EndNote及RefWork格式導(dǎo)出。
2014-12-05)
伴隨著計算機和互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,我國在數(shù)字圖書館建設(shè)及館藏資源數(shù)字化方面取得了巨大的進步。而目前館藏數(shù)字資源一方面存在著諸如操作系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、硬件系統(tǒng)等的多樣性和異構(gòu)性從而導(dǎo)致語義異構(gòu);另一方面由于館藏數(shù)字資源的數(shù)量巨大,并且其中存在著大量的內(nèi)容重復(fù)、冗余的資源,從而導(dǎo)致用戶難以準(zhǔn)確地查詢和獲取館藏數(shù)字資源。這兩方面原因同時也造成目前圖書館缺少個性化、專業(yè)化的知識挖掘和推送服務(wù)。為了解決這一難題,使圖書館能夠針對用戶的需求提供準(zhǔn)確、有效的知識服務(wù),圖書館界采取了一些措施,但其中大部分仍然無法解決語義異構(gòu)的難題。隨著語義化相關(guān)技術(shù)的不斷發(fā)展,一種新的方法被提出來——基于語義的館藏數(shù)字資源深度聚合,為解決此難題提供了新的途徑和思路,而館藏數(shù)字資源的語義化是進行深度聚合的基礎(chǔ)和前提[1,2]。本文將對國內(nèi)館藏數(shù)字資源語義化研究的情況進行分析。
1.1數(shù)據(jù)來源