洪瑾
摘 要:通過梳理關(guān)聯(lián)數(shù)據(jù)的概念與發(fā)布原則,采用文獻(xiàn)計(jì)量學(xué)分析方法,運(yùn)用引文網(wǎng)絡(luò)分析工具CiteSpace對關(guān)聯(lián)數(shù)據(jù)研究文獻(xiàn)數(shù)據(jù)進(jìn)行計(jì)量分析,客觀分析了關(guān)聯(lián)數(shù)據(jù)的國內(nèi)外研究現(xiàn)狀,以期為我國關(guān)聯(lián)數(shù)據(jù)研究提供參考。結(jié)果顯示:從時(shí)間上來看,關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的研究數(shù)量總體呈上升態(tài)勢;從空間上來看,國際上關(guān)聯(lián)數(shù)據(jù)研究主要集中于發(fā)達(dá)國家,而國內(nèi)呈現(xiàn)分散趨勢,多為獨(dú)立研究;從內(nèi)容上來看,關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的研究集中于圖情領(lǐng)域和計(jì)算機(jī)領(lǐng)域,但國內(nèi)主要側(cè)重于理論研究,實(shí)踐成果數(shù)量偏少。
關(guān)鍵詞:關(guān)聯(lián)數(shù)據(jù);關(guān)聯(lián)開放數(shù)據(jù);語義網(wǎng);文獻(xiàn)計(jì)量學(xué)
中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-5168(2021)28-0-03
Abstract: To introduce the concept and publishing principle of linked data. And it adopts bibliometrics analysis method and uses citation network analysis tool CiteSpace to make bibliometrics analysis on literature data of linked data research, and objectively analyzes the development status of linked data research, in order to provide reference for linked data research in China. From the perspective of time, the research in the field of linked data is on the rise. From the perspective of space, the international research on linked data is concentrated in countries, while the domestic research tends to be scattered and mostly independent. From the perspective of content, the research on linked data is concentrated in library and information science and computer science, but the domestic research mainly focuses on theoretical research, and the number of practical results is relatively small.
Keywords: linked data;linked open data;semantic web;bibliometrics
互聯(lián)網(wǎng)技術(shù)的發(fā)展加快了大數(shù)據(jù)時(shí)代的到來。中國互聯(lián)網(wǎng)絡(luò)信息中心(China Internet Network Information Center,CNNIC)發(fā)布的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2021年6月,我國互聯(lián)網(wǎng)普及率達(dá)71.6%,我國網(wǎng)民規(guī)模為10.11億人,其中我國手機(jī)網(wǎng)民規(guī)模達(dá)10.07億人[1]。由于網(wǎng)絡(luò)自身的開放性、自由性、交互性、方便性與快捷性等特質(zhì),網(wǎng)絡(luò)資源數(shù)量劇增,呈現(xiàn)異類、異構(gòu)和分布的特點(diǎn),推動信息服務(wù)逐步朝著語義服務(wù)方向發(fā)展。關(guān)聯(lián)數(shù)據(jù)因其框架簡潔、標(biāo)準(zhǔn)化、自助化、去中心化及低成本的特點(diǎn)成為語義網(wǎng)實(shí)現(xiàn)的途徑[2],為語義服務(wù)的發(fā)展提供了新的契機(jī)。
1 關(guān)聯(lián)數(shù)據(jù)概述
“Linked Data”概念由Tim Berners-Lee于2006年首次提出。TIM認(rèn)為,語義網(wǎng)不僅僅是把數(shù)據(jù)放到網(wǎng)絡(luò)上,而且與建立鏈接有關(guān),以便個人或機(jī)器瀏覽數(shù)據(jù)網(wǎng)絡(luò)。有了關(guān)聯(lián)數(shù)據(jù),當(dāng)擁有其中的一些數(shù)據(jù)時(shí),就可以找到其他相關(guān)的數(shù)據(jù)。與超文本網(wǎng)絡(luò)一樣,數(shù)據(jù)網(wǎng)絡(luò)也由網(wǎng)絡(luò)上的文檔構(gòu)成。與超文本網(wǎng)絡(luò)的區(qū)別是,關(guān)聯(lián)數(shù)據(jù)不是由超鏈接簡單鏈接而成,而是使用資源描述框架(Resource Description Framework,RDF)以統(tǒng)一資源標(biāo)識符(Uniform Resource Identifier,URI)標(biāo)識任何類型的對象或概念,形成鏈接世界上任何事物的網(wǎng)絡(luò),即數(shù)據(jù)網(wǎng)絡(luò)(Web of Data)[3]。TIM提出發(fā)布關(guān)聯(lián)數(shù)據(jù)的4條原則:①給所有事物賦予一個URI(名字);②用HTTP URI,以便于任何人都可以訪問這些標(biāo)識;③當(dāng)訪問某個標(biāo)識時(shí),使用(RDF,SPARQL)標(biāo)準(zhǔn)提供有價(jià)值的信息;④盡可能提供與其相關(guān)聯(lián)的URI,便于訪問者發(fā)現(xiàn)更多的事物。維基百科對關(guān)聯(lián)數(shù)據(jù)的定義是語義網(wǎng)的主題之一,描述了通過可鏈接的統(tǒng)一資源標(biāo)識符(URI)方式來發(fā)布、分享、鏈接網(wǎng)絡(luò)中各類資源的方法[4]。
2 國內(nèi)外研究現(xiàn)狀
2.1 研究方法
本部分采用文獻(xiàn)計(jì)量學(xué)分析方法,運(yùn)用引文網(wǎng)絡(luò)分析工具CiteSpace對關(guān)聯(lián)數(shù)據(jù)研究文獻(xiàn)數(shù)據(jù)進(jìn)行處理分析。CiteSpace是由美國德雷克塞爾大學(xué)(Drexel University)陳超美團(tuán)隊(duì)研發(fā)的基于Java編程語言運(yùn)行環(huán)境下的信息可視化分析軟件[5]。該軟件能夠繪制各學(xué)科領(lǐng)域的知識圖譜,揭示該學(xué)科一定時(shí)期內(nèi)的發(fā)展現(xiàn)狀與未來走向。
2.2 國外研究現(xiàn)狀
本研究以Web of Science(核心合集)數(shù)據(jù)庫為檢索來源,采用Web of Science高級檢索,時(shí)間跨度為2000—2021年,文獻(xiàn)檢索規(guī)則具體設(shè)置為TI=Linked Data。剔除書評、報(bào)道等,共檢索到5 207篇關(guān)聯(lián)數(shù)據(jù)方面的文獻(xiàn)。通過CiteSpace 5.6.R2分析工具對檢索結(jié)果中關(guān)聯(lián)數(shù)據(jù)文獻(xiàn)的數(shù)量年代分布、作者、研究機(jī)構(gòu)、國家地區(qū)合作網(wǎng)絡(luò)及主題關(guān)鍵詞進(jìn)行共現(xiàn)與聚類分析。
如圖1所示,Web of Science(核心合集)數(shù)據(jù)庫導(dǎo)出的文獻(xiàn)數(shù)據(jù)顯示,2006—2016年的11年間,關(guān)聯(lián)數(shù)據(jù)的相關(guān)論文發(fā)表數(shù)量呈逐年上升趨勢。值得關(guān)注的是,2015—2017年這3年間,年發(fā)文量均為550篇左右,為該領(lǐng)域發(fā)文量的峰值,說明國際上在這一階段對關(guān)聯(lián)數(shù)據(jù)領(lǐng)域給予了高度關(guān)注。此后,發(fā)文量呈下降趨勢,但年均總發(fā)文量仍保持在400篇以上,說明關(guān)聯(lián)數(shù)據(jù)的熱度雖有消減但仍屬于重要研究方向。
由國外關(guān)聯(lián)數(shù)據(jù)研究領(lǐng)域的作者共現(xiàn)分析可知,該領(lǐng)域的研究作者擅于開展合作研究,作者之間存在較多直接或間接的合作關(guān)系,且大多圍繞高產(chǎn)核心作者展開合作,但也存在部分作者進(jìn)行獨(dú)立研究。BIZER C憑借發(fā)表的26篇文章排在第一位,屬于關(guān)聯(lián)數(shù)據(jù)研究領(lǐng)域的高學(xué)術(shù)影響力作者。國家地區(qū)合作網(wǎng)絡(luò)共現(xiàn)分析顯示,大多數(shù)關(guān)聯(lián)數(shù)據(jù)研究集中于美國、英國、加拿大、西班牙及澳大利亞等西方發(fā)達(dá)國家,其他國家的研究機(jī)構(gòu)發(fā)文相對較少,表明西方發(fā)達(dá)國家成為關(guān)聯(lián)數(shù)據(jù)研究中心。由關(guān)聯(lián)數(shù)據(jù)研究文獻(xiàn)的機(jī)構(gòu)共現(xiàn)分析可知,國際上關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的主要研究機(jī)構(gòu)集中在高校,其中西澳大利亞大學(xué)(Univ Western Australia)為發(fā)文量最高的研究機(jī)構(gòu)。研究機(jī)構(gòu)間存在直接或間接的合作關(guān)系,以英國哥倫比亞大學(xué)節(jié)點(diǎn)為例,該節(jié)點(diǎn)與加拿大的多倫多大學(xué)和曼尼托巴大學(xué)等都具有合作關(guān)系。但整體來看,合作網(wǎng)絡(luò)仍局限于國內(nèi)合作,國家與國家之間尚未形成一個良好的合作系統(tǒng)。
文獻(xiàn)關(guān)鍵詞是對文獻(xiàn)全文內(nèi)容進(jìn)行的提煉和概括,是文獻(xiàn)的知識信息標(biāo)簽。通過對文獻(xiàn)關(guān)鍵詞的知識共現(xiàn)分析和聚類分析,可以更快、更深入地掌握關(guān)聯(lián)數(shù)據(jù)研究領(lǐng)域的整體現(xiàn)狀。關(guān)鍵詞共現(xiàn)分析導(dǎo)出8個關(guān)鍵詞聚類標(biāo)簽,即“cohort study”“open data”“open data approach”“single-cell RNA-seq data”“l(fā)inking electronic health record”“interactive workspace”“key information”“Multnomah country”,即關(guān)聯(lián)數(shù)據(jù)領(lǐng)域國際上的研究重點(diǎn)為“關(guān)聯(lián)數(shù)據(jù)”“語義網(wǎng)”“關(guān)聯(lián)開放數(shù)據(jù)”“本體”等。
2.3 國內(nèi)研究現(xiàn)狀
本研究選取國內(nèi)較權(quán)威的中文科技期刊數(shù)據(jù)庫中國知網(wǎng)(China National Knowledge Infrastructure,CNKI),檢索“關(guān)聯(lián)數(shù)據(jù)”方面的研究成果。為保證檢索的查準(zhǔn)率與查全率,檢索方式選擇專業(yè)檢索,構(gòu)建檢索式為“TI=關(guān)聯(lián)數(shù)據(jù)”。在上述所有檢索結(jié)果中刪除誤檢的文獻(xiàn)和與研究主題不符的文獻(xiàn),最終得到相關(guān)文獻(xiàn)417篇(檢索時(shí)間為2021年07月21日)。將標(biāo)題、作者、摘要、關(guān)鍵詞及文獻(xiàn)來源等題錄數(shù)據(jù)導(dǎo)出為Refworks格式的純文本文件,轉(zhuǎn)碼處理后形成樣本數(shù)據(jù)庫?;贑iteSpace 5.6.R2分析工具展開作者共現(xiàn)分析、研究機(jī)構(gòu)共現(xiàn)分析和主題關(guān)鍵詞共現(xiàn)聚類分析,得到該領(lǐng)域的重點(diǎn)研究學(xué)者、主要研究機(jī)構(gòu)及研究熱點(diǎn)等。
如圖2所示,CNKI全文數(shù)據(jù)庫導(dǎo)出的文獻(xiàn)數(shù)據(jù)顯示,2006—2010年的5年間,論文發(fā)表數(shù)量較少,說明這一階段國內(nèi)對關(guān)聯(lián)數(shù)據(jù)的關(guān)注度不高,該領(lǐng)域的研究處于萌芽狀態(tài);2011—2015年是關(guān)聯(lián)數(shù)據(jù)研究的快速上升期,2010年的發(fā)文量僅10余篇,2012年的發(fā)文量迅速攀升至將近70篇,2015年發(fā)文量達(dá)到了75篇,為該領(lǐng)域發(fā)文量的峰值,說明國內(nèi)在這一階段對關(guān)聯(lián)數(shù)據(jù)領(lǐng)域給予了高度關(guān)注;2016—2019年的4年間,發(fā)文量呈下降趨勢。
通過作者共現(xiàn)分析可知,國內(nèi)關(guān)聯(lián)數(shù)據(jù)研究領(lǐng)域作者之間合作不密切,大多數(shù)作者為獨(dú)立研究。國內(nèi)關(guān)聯(lián)數(shù)據(jù)研究文獻(xiàn)的機(jī)構(gòu)共現(xiàn)分析顯示,56個節(jié)點(diǎn)皆為發(fā)文頻次超過2次的研究機(jī)構(gòu)。華中師范大學(xué)信息管理學(xué)院發(fā)文數(shù)量達(dá)到19篇,為該領(lǐng)域發(fā)文量最多的國內(nèi)研究機(jī)構(gòu)。尤為明顯的是,發(fā)展過程中形成了以上海圖書館和中國科學(xué)院大學(xué)為中心的兩大合作區(qū)域:①上海圖書館、上海外國語大學(xué)圖書館、上海交通大學(xué)圖書館、上海財(cái)經(jīng)大學(xué)及華東師范大學(xué);②中國科學(xué)院大學(xué)、中國科學(xué)院國家科學(xué)圖書館、中國科學(xué)院國家科學(xué)圖書館蘭州分館、中國科學(xué)院文獻(xiàn)情報(bào)中心及中國科學(xué)院蘭州文獻(xiàn)情報(bào)中心。整體來看,關(guān)聯(lián)數(shù)據(jù)研究領(lǐng)域的主力為高校、研究所與圖書館,且已取得較豐碩的研究成果。
將CNKI數(shù)據(jù)庫中的文獻(xiàn)數(shù)據(jù)導(dǎo)入CiteSpace進(jìn)行轉(zhuǎn)換處理,關(guān)鍵詞共現(xiàn)分析導(dǎo)出10個關(guān)鍵詞聚類標(biāo)簽,即“鏈接構(gòu)建”“圖書館”“資源描述框架”“本體”“數(shù)字圖書館”“RDF”“SPARQL”“推薦系統(tǒng)”“查詢”和“數(shù)據(jù)關(guān)聯(lián)”。以上聚類標(biāo)簽同樣顯示了國內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域?qū)W者的研究重點(diǎn)。
2.4 總結(jié)歸納
2.4.1 從時(shí)間上來看,不論國際上還是國內(nèi),關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的研究總體呈上升態(tài)勢。雖然近兩年關(guān)聯(lián)數(shù)據(jù)的研究文獻(xiàn)發(fā)標(biāo)數(shù)量較2016年的峰值有所下降,但是總體發(fā)文數(shù)量仍保持在較高水平,可知關(guān)聯(lián)數(shù)據(jù)仍為研究熱點(diǎn)。
2.4.2 從空間上來看,國際上關(guān)聯(lián)數(shù)據(jù)研究集中于美國、英國、加拿大、西班牙及澳大利亞等西方發(fā)達(dá)國家;而國內(nèi)關(guān)聯(lián)數(shù)據(jù)研究集中于以上海圖書館和中國科學(xué)院為中心的兩大合作區(qū)域,分布在上海、北京等地。此外,空間分布還與致力于關(guān)聯(lián)數(shù)據(jù)研究的國內(nèi)高校所在地息息相關(guān),如湖北、江蘇等省份。與國外不同的是,國內(nèi)多為獨(dú)立研究,呈分散趨勢。
2.4.3 從內(nèi)容上來看,不論國際上還是國內(nèi)在關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的研究都集中于圖情和計(jì)算機(jī)方面。國外對關(guān)聯(lián)數(shù)據(jù)的研究和實(shí)踐力度更大,關(guān)聯(lián)數(shù)據(jù)的理論研究與應(yīng)用研究也進(jìn)行得較為徹底。反觀國內(nèi),學(xué)界對關(guān)聯(lián)數(shù)據(jù)的研究主要集中于關(guān)聯(lián)數(shù)據(jù)的概念、發(fā)布、構(gòu)建技術(shù)、技術(shù)工具介紹以及國外典型應(yīng)用實(shí)踐的經(jīng)驗(yàn)借鑒等方面,偏于理論研究,實(shí)踐成果數(shù)量偏少。
3 結(jié)語
以大數(shù)據(jù)時(shí)代為研究背景,在梳理關(guān)聯(lián)數(shù)據(jù)的概念與發(fā)布原則的基礎(chǔ)上,闡述了關(guān)聯(lián)數(shù)據(jù)研究的國內(nèi)外發(fā)展現(xiàn)狀。分析發(fā)現(xiàn),自2006年關(guān)聯(lián)數(shù)據(jù)的概念被提出后,11年間關(guān)聯(lián)數(shù)據(jù)的研究熱點(diǎn)呈直線上升趨勢,逐步成為國內(nèi)外的研究熱點(diǎn)。值得注意的是,雖然關(guān)聯(lián)數(shù)據(jù)的研究數(shù)量增長迅速,但是關(guān)聯(lián)數(shù)據(jù)的應(yīng)用跟不上數(shù)量的增長速度,這與關(guān)聯(lián)數(shù)據(jù)的研究質(zhì)量、有效性及商業(yè)化能力息息相關(guān)。因此,如何深度挖掘關(guān)聯(lián)數(shù)據(jù),提升關(guān)聯(lián)數(shù)據(jù)的可用性,從而實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)集的價(jià)值,成為當(dāng)前亟待解決的問題。
與國外數(shù)量多、規(guī)模大的應(yīng)用項(xiàng)目和實(shí)踐成果相比,我國的應(yīng)用成果并不多,且不夠深入和全面,存在較大差距,這與國內(nèi)數(shù)據(jù)開放環(huán)境和技術(shù)研發(fā)水平有關(guān)。要促進(jìn)我國關(guān)聯(lián)數(shù)據(jù)研究的深入發(fā)展,需要將理論研究與實(shí)踐應(yīng)用相結(jié)合,基于理論成果優(yōu)化應(yīng)用效果。因此,如何克服關(guān)聯(lián)數(shù)據(jù)面臨的困難,突破阻礙關(guān)聯(lián)數(shù)據(jù)發(fā)展的瓶頸,是目前研究的主要問題。
參考文獻(xiàn):
[1]中國互聯(lián)網(wǎng)絡(luò)信息中心.第48次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R/OL].(2021-08-27)[2021-09-03].https://cit.buct.edu.cn/2021/0925/c7951a157922/page.htm.
[2]白海燕.關(guān)聯(lián)數(shù)據(jù)及DBpedia實(shí)例分析[J].現(xiàn)代圖書情報(bào)技術(shù),2010(3):39-45.
[3]TIM B.Linked Data[EB/OL].(2021-06-29)[2021-08-21].https://www.w3.org/DesignIssues/ LinkedData.html.
[4]Wikipedia.Linked Data[EB/OL].(2021-05-16)[2021-08-30].http://en.wikipedia.org/wiki/Linked_data.
[5]CHEN C M.Citespace Ⅱ:Detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society For Information Science and Technology,2006(3):359-377.
3940500338290