劉 竟 孫 薇 袁 潤
(江蘇大學(xué)科技信息研究所鎮(zhèn)江212013)
國內(nèi)關(guān)聯(lián)數(shù)據(jù)研究現(xiàn)狀及趨勢的可視化分析*
劉 竟 孫 薇 袁 潤
(江蘇大學(xué)科技信息研究所鎮(zhèn)江212013)
選取CNKI數(shù)據(jù)庫收錄的關(guān)聯(lián)數(shù)據(jù)相關(guān)研究文獻(xiàn),利用社會(huì)網(wǎng)絡(luò)分析法、文獻(xiàn)計(jì)量法對(duì)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域作者共現(xiàn)和高頻關(guān)鍵詞共現(xiàn)進(jìn)行可視化,在此基礎(chǔ)上對(duì)高頻作者的合著網(wǎng)絡(luò)、中介中心性進(jìn)行分析,對(duì)高頻關(guān)鍵詞詞頻及圖譜、高頻關(guān)鍵詞共詞矩陣、高頻關(guān)鍵詞聚類情況進(jìn)行分析,呈現(xiàn)國內(nèi)關(guān)聯(lián)數(shù)據(jù)的研究現(xiàn)狀及熱點(diǎn),并基于技術(shù)生命周期理論,嘗試?yán)肔oglet Lab軟件估算國內(nèi)關(guān)聯(lián)數(shù)據(jù)各生命周期階段的時(shí)間點(diǎn),對(duì)該領(lǐng)域的發(fā)展趨勢進(jìn)行預(yù)測。
關(guān)聯(lián)數(shù)據(jù)社會(huì)網(wǎng)絡(luò)分析技術(shù)生命周期可視化
從圖書館自動(dòng)化發(fā)展史看,幾乎每一項(xiàng)新信息技術(shù)的出現(xiàn),都能引起圖書館界的極大關(guān)注并推動(dòng)圖書館的管理與服務(wù)升級(jí)。2006年,互聯(lián)網(wǎng)之父Berners-Lee在分析Web發(fā)展與演化的基礎(chǔ)上提出了發(fā)展數(shù)據(jù)網(wǎng)絡(luò)的思想,指出數(shù)據(jù)網(wǎng)絡(luò)的核心和關(guān)鍵是關(guān)聯(lián)數(shù)據(jù)[1]。自主、異類、異構(gòu)和分布的海量數(shù)據(jù)間的語義關(guān)聯(lián)一直是知識(shí)組織和知識(shí)發(fā)現(xiàn)的核心問題,關(guān)聯(lián)數(shù)據(jù)的出現(xiàn)為此提供一種輕型、漸增化、可伸縮和可擴(kuò)展的動(dòng)態(tài)機(jī)制,成為推動(dòng)語義網(wǎng)發(fā)展的重要力量之一[2]。2008年12月劉煒在上海召開的“數(shù)字環(huán)境下圖書館前沿問題研討班”上對(duì)關(guān)聯(lián)數(shù)據(jù)的概念、內(nèi)涵、技術(shù)實(shí)現(xiàn)做了引進(jìn)介紹[3],引起了國內(nèi)研究者對(duì)關(guān)聯(lián)數(shù)據(jù)的重視和興趣。從已發(fā)表文獻(xiàn)角度看,國內(nèi)已有一些對(duì)關(guān)聯(lián)數(shù)據(jù)相關(guān)文獻(xiàn)的定量分析,研究內(nèi)容主要集中在對(duì)年載文量、文獻(xiàn)來源、研究機(jī)構(gòu)及被引頻次的統(tǒng)計(jì),而對(duì)作者間合著關(guān)系及發(fā)展趨勢的定量研究相對(duì)較少。
本文主要利用社會(huì)網(wǎng)絡(luò)分析軟件Ucinet和社會(huì)科學(xué)統(tǒng)計(jì)軟件SPSS繪制知識(shí)圖譜和聚類樹狀圖,揭示國內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域作者合著關(guān)系及研究熱點(diǎn)。同時(shí),以Logistic模型為基礎(chǔ),構(gòu)建技術(shù)生命周期S曲線,嘗試對(duì)國內(nèi)關(guān)聯(lián)數(shù)據(jù)未來的發(fā)展進(jìn)行定量預(yù)測,以期為本領(lǐng)域后續(xù)研究提供參考。
圖1 高頻作者合著網(wǎng)絡(luò)圖譜
2.1 數(shù)據(jù)來源
本文的數(shù)據(jù)來源于中國知網(wǎng)文獻(xiàn)數(shù)據(jù)庫(簡稱CNKI,包括期刊論文、學(xué)位論文及會(huì)議論文),以“主題”作為“檢索項(xiàng)”,檢索式為:主題=“關(guān)聯(lián)數(shù)據(jù)”O(jiān)R主題=“Linked data”,檢索年限為2008~2014年(檢索時(shí)間為2015年04月15日)。為確保查準(zhǔn)率,將研究方向限定在:計(jì)算機(jī)軟件及計(jì)算機(jī)應(yīng)用、圖書情報(bào)與數(shù)字圖書館、自動(dòng)化技術(shù)、互聯(lián)網(wǎng)技術(shù)四個(gè)領(lǐng)域,在檢索結(jié)果中剔除重復(fù)和非相關(guān)文獻(xiàn)后得到有效文獻(xiàn)191篇,其中92篇被中文社會(huì)科學(xué)引文索引(CSSCI)收錄。
2.2 研究方法
本文運(yùn)用社會(huì)網(wǎng)絡(luò)分析法生成作者合著網(wǎng)絡(luò)圖譜來分析關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的作者合著關(guān)系,運(yùn)用文獻(xiàn)計(jì)量法、關(guān)鍵詞詞頻統(tǒng)計(jì)法、關(guān)鍵詞共詞分析法對(duì)國內(nèi)研究熱點(diǎn)進(jìn)行歸納,并結(jié)合技術(shù)生命周期S曲線對(duì)國內(nèi)關(guān)聯(lián)數(shù)據(jù)未來發(fā)展趨勢進(jìn)行預(yù)測。
3.1 高頻作者合著網(wǎng)絡(luò)分析
利用Ucinet軟件集成的可視化工具Netdraw,對(duì)作者共現(xiàn)矩陣進(jìn)行處理,得到國內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的高頻作者合著網(wǎng)絡(luò)圖譜,如圖1所示。圖中每個(gè)節(jié)點(diǎn)代表一個(gè)作者,節(jié)點(diǎn)大小代表了他們?cè)诰W(wǎng)絡(luò)中的中心度,節(jié)點(diǎn)之間的連線粗細(xì)可以表示作者兩兩之間的合作強(qiáng)度;另外,通過K-cores分析,可將所有節(jié)點(diǎn)進(jìn)行形狀的分類。由圖1可知:
(1)國內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域已經(jīng)形成了兩個(gè)相對(duì)穩(wěn)定的合著團(tuán)體,用圓形節(jié)點(diǎn)表示。上??茖W(xué)技術(shù)情報(bào)研究所的劉煒、夏翠娟、張春景對(duì)“大”關(guān)聯(lián)數(shù)據(jù)和“關(guān)聯(lián)”大數(shù)據(jù)兩類不同應(yīng)用進(jìn)行了區(qū)分,對(duì)目前采用大數(shù)據(jù)技術(shù)發(fā)布關(guān)聯(lián)數(shù)據(jù)的方法和路徑進(jìn)行了梳理[5],并與廣東外語外貿(mào)大學(xué)圖書館的趙亮、朱雯晶合作,詳細(xì)介紹了如何利用開源CMS平臺(tái)Drupal實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù)[6];中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所的方安、洪娜、王軍輝借用UMLS的語義網(wǎng)絡(luò)構(gòu)建頂層本體,通過細(xì)化語義關(guān)系將疾病與其相關(guān)的知識(shí)關(guān)聯(lián),構(gòu)建了疾病與癥狀、檢查、藥物、醫(yī)療器械之間的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)了疾病知識(shí)的整合[7],并與四川大學(xué)公共管理學(xué)院的范煒合作,對(duì)當(dāng)前RDF可視化工具進(jìn)行調(diào)研,利用RelFinder構(gòu)建了基于生物醫(yī)學(xué)關(guān)聯(lián)數(shù)據(jù)的發(fā)現(xiàn)關(guān)系系統(tǒng)[8]。其中范煒、劉煒、夏翠娟、張春景在團(tuán)體中節(jié)點(diǎn)最大,即網(wǎng)絡(luò)中心度最高。除了與團(tuán)隊(duì)內(nèi)部合作外,他們還分別連接了鄒慶和錢國富,是本領(lǐng)域位于結(jié)構(gòu)洞位置的人。
(2)國內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域多數(shù)合著團(tuán)體呈現(xiàn)小團(tuán)體分散分布,用方形節(jié)點(diǎn)表示。圖中4個(gè)三人合著團(tuán)體中,張艷俠節(jié)點(diǎn)最大,即網(wǎng)絡(luò)中心度最高。除了與團(tuán)隊(duì)內(nèi)部合作外,張艷俠起到了連接畢強(qiáng)和團(tuán)隊(duì)內(nèi)其他成員的作用,是團(tuán)隊(duì)內(nèi)的核心著者。
(3)國內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域缺乏團(tuán)隊(duì)間合作。利用Ucinet對(duì)上述合著網(wǎng)絡(luò)進(jìn)行定量分析,網(wǎng)絡(luò)密度為0.0 807,結(jié)合圖1可見,合著團(tuán)體間沒有連線,即合著團(tuán)隊(duì)間缺乏交流,不利于知識(shí)的深層次構(gòu)建。
3.2 高頻作者中介中心性分析
中介中心性是社會(huì)網(wǎng)絡(luò)分析中的重點(diǎn)之一,它反映了行動(dòng)者在其社會(huì)網(wǎng)絡(luò)中所處的地位及權(quán)力影響。中介中心性的測量根據(jù)的是該點(diǎn)在多大程度上位于圖中其它點(diǎn)的“中間”,這樣的節(jié)點(diǎn)具有“經(jīng)紀(jì)人”或“守門人”的作用[9]。因此,所測量出來的中心度可以揭示行動(dòng)者對(duì)資源控制的程度。利用Ucinet對(duì)高頻作者進(jìn)行中介中心性測度,得到排名前10的作者,如表1所示。由表1可知:
(1)中介中心性大于0的作者有7位,其中范煒、劉煒、夏翠娟、張春景為圖1中由圓形節(jié)點(diǎn)表示的合著團(tuán)體中的作者。由此可見,位于合著團(tuán)體中的作者中介中心性相對(duì)較高,即掌握更多的學(xué)術(shù)資源,是連接其他作者的關(guān)鍵人物。
(2)中介中心性大于0.1的作者僅有范煒、張春俠兩位。某作者中介中心性越高,說明該作者越多地占據(jù)資源和信息流通的關(guān)鍵位置,是本領(lǐng)域位于結(jié)構(gòu)洞位置的人。通過上述計(jì)算可知,國內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域位于結(jié)構(gòu)洞位置承擔(dān)橋梁作用的作者相對(duì)較少,不利于學(xué)科的均衡發(fā)展。
綜上,國內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域作者間尚未形成一支成熟的合作團(tuán)隊(duì),研究成果的共享僅局限于很小的范圍內(nèi)。在未來的發(fā)展中,2~3人的合著小團(tuán)體間應(yīng)加強(qiáng)團(tuán)隊(duì)間合作;處于中介位置的作者如范煒、張春俠應(yīng)進(jìn)一步發(fā)揮橋梁作用,推進(jìn)整個(gè)網(wǎng)絡(luò)的聯(lián)通,促進(jìn)作者間的交流與合作。
4.1 高頻關(guān)鍵詞詞頻及圖譜分析
關(guān)鍵詞是表達(dá)文獻(xiàn)主題概念的自然語言詞匯。某個(gè)學(xué)術(shù)研究領(lǐng)域內(nèi)學(xué)術(shù)研究成果關(guān)鍵詞的集合可以揭示研究成果的總體內(nèi)容特征、研究內(nèi)容之間的內(nèi)在聯(lián)系、學(xué)術(shù)研究的發(fā)展脈絡(luò)與發(fā)展方向等,利用詞頻進(jìn)行情報(bào)分析研究可以對(duì)某些問題進(jìn)行簡單、明了的分析預(yù)測,且結(jié)論較為可靠[10]。
本文對(duì)CNKI收錄的191篇相關(guān)論文的502個(gè)關(guān)鍵詞進(jìn)行歸納整理,去除不能表達(dá)論文主題概念的詞匯、合并同義詞以及下位詞,得到出現(xiàn)頻率大于等于4的23個(gè)高頻詞匯,如表2所示??梢钥闯?,關(guān)聯(lián)數(shù)據(jù)、語義網(wǎng)、圖書館、數(shù)據(jù)網(wǎng)絡(luò)、RDF、關(guān)聯(lián)數(shù)、知識(shí)組織等是關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的核心關(guān)鍵詞,是目前該領(lǐng)域的研究熱點(diǎn)。
表2 高頻關(guān)鍵詞詞頻統(tǒng)計(jì)
同時(shí)利用Ucinet繪制高頻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜,結(jié)果如圖2所示,從圖中可見,位于網(wǎng)絡(luò)核心位置且連線較粗的詞匯為:關(guān)聯(lián)數(shù)據(jù)、語義網(wǎng)、圖書館、數(shù)據(jù)網(wǎng)絡(luò)、知識(shí)組織、RDF等,其結(jié)果與詞頻統(tǒng)計(jì)結(jié)果大致相符,進(jìn)一步驗(yàn)證了上述關(guān)鍵詞是本領(lǐng)域現(xiàn)階段的研究熱點(diǎn)。
4.2 高頻關(guān)鍵詞共詞矩陣分析
關(guān)鍵詞共詞矩陣分析法主要是對(duì)同一篇文獻(xiàn)詞匯對(duì)或名詞短語共同出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì),揭示這些詞之間的親疏關(guān)系,進(jìn)而分析它們所代表的學(xué)科和主題的結(jié)構(gòu)變化[11]。一般認(rèn)為,詞匯對(duì)在同一篇文獻(xiàn)中出現(xiàn)的次數(shù)越多,則代表這兩個(gè)主題的關(guān)系越緊密。由此,統(tǒng)計(jì)一組文獻(xiàn)的關(guān)鍵詞兩兩之間在同一篇文獻(xiàn)出現(xiàn)的次數(shù),便可形成一個(gè)由這些詞匯對(duì)關(guān)聯(lián)所組成的共詞矩陣。
本文利用SATI構(gòu)建23*23的高頻關(guān)鍵詞共詞矩陣,表3為共詞矩陣的部分內(nèi)容。從表3中可以看出:關(guān)聯(lián)數(shù)據(jù)與語義網(wǎng)、圖書館、數(shù)據(jù)網(wǎng)絡(luò)、RDF、知識(shí)組織、本體、D2R、數(shù)字圖書館等的共現(xiàn)頻次較高;語義網(wǎng)與數(shù)據(jù)網(wǎng)絡(luò)、本體、圖書館、RDF、關(guān)聯(lián)數(shù)等的共現(xiàn)頻次較高;圖書館與數(shù)據(jù)網(wǎng)絡(luò)、知識(shí)組織之間也有較高的共現(xiàn)頻率。說明這些關(guān)鍵詞之間有較高的緊密度,也說明了其組合研究是關(guān)聯(lián)數(shù)據(jù)領(lǐng)域論文的選題重點(diǎn)和研究熱點(diǎn)。
4.3 高頻關(guān)鍵詞聚類分析
聚類分析是根據(jù)研究對(duì)象的特征,按照物以類聚的原則將其進(jìn)行歸類的一種分析方法。通過聚類分析,可以實(shí)現(xiàn)組內(nèi)的研究對(duì)象具有較高的相似性,而組間的數(shù)據(jù)之間具有較大的差異性,其基本思想是認(rèn)為研究對(duì)象之間存在程度不同的親疏關(guān)系[12]。
將高頻關(guān)鍵詞共現(xiàn)矩陣導(dǎo)入SPSS19.0進(jìn)行層次聚類分析得到高頻關(guān)鍵詞的聚類分析樹狀圖,如圖3所示。聚類結(jié)果顯示,國內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的研究熱點(diǎn)主要集中在下面五個(gè)部分:
圖2 高頻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜
表3 高頻關(guān)鍵詞共詞矩陣(部分)
圖3 高頻詞層次聚類樹狀圖譜
(1)本體與語義互聯(lián)。包括關(guān)鍵詞本體、語義互聯(lián),其研究主要集中在基于知識(shí)地圖的多領(lǐng)域本體語義互聯(lián)研究、數(shù)字資源語義互聯(lián)研究、本體系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。以數(shù)字信息資源組織的多領(lǐng)域本體語義互聯(lián)為切入點(diǎn),通過對(duì)國內(nèi)外本體映射的研究現(xiàn)狀及本體映射聚類的分析,構(gòu)建基于知識(shí)地圖的多領(lǐng)域本體語義互聯(lián)框架模型。
(2)數(shù)據(jù)網(wǎng)絡(luò)體系構(gòu)建與關(guān)聯(lián)開放數(shù)據(jù)。包括關(guān)鍵詞數(shù)據(jù)網(wǎng)絡(luò)、關(guān)聯(lián)開放數(shù)據(jù)、科學(xué)數(shù)據(jù)、知識(shí)組織、語義網(wǎng),其研究主要集中在圖書館數(shù)據(jù)網(wǎng)絡(luò)體系的構(gòu)建及安全保障、關(guān)聯(lián)開放數(shù)據(jù)關(guān)鍵技術(shù)、語義網(wǎng)環(huán)境下知識(shí)組織系統(tǒng)的研究與構(gòu)建。采用語義網(wǎng)技術(shù),對(duì)語義網(wǎng)知識(shí)組織系統(tǒng)進(jìn)行研究和分析,提出語義網(wǎng)知識(shí)組織系統(tǒng)的構(gòu)架,建立一個(gè)語義網(wǎng)知識(shí)組織系統(tǒng)原型,同時(shí)對(duì)現(xiàn)有關(guān)聯(lián)數(shù)據(jù)進(jìn)一步綠色化,用工程化方法來生產(chǎn)和維護(hù)綠色關(guān)聯(lián)數(shù)據(jù)。
(3)關(guān)聯(lián)數(shù)據(jù)的圖書館信息聚合研究。包括關(guān)鍵詞圖書館、信息聚合、關(guān)聯(lián)數(shù)據(jù),其研究主要集中在構(gòu)建基于關(guān)聯(lián)數(shù)據(jù)的圖書館信息聚合模型,從數(shù)據(jù)層、聚合層和應(yīng)用層進(jìn)行研究,實(shí)現(xiàn)圖書館的內(nèi)部資源和外部數(shù)據(jù)網(wǎng)絡(luò)鏈接,擴(kuò)展資源范圍,改進(jìn)用戶服務(wù)。
(4)網(wǎng)絡(luò)信息資源組織體系與高校學(xué)科知識(shí)發(fā)現(xiàn)系統(tǒng)的構(gòu)建。包括關(guān)鍵詞RDF、URI、FRBR、SPARQL、RDA、開放數(shù)據(jù)、元數(shù)據(jù)和知識(shí)發(fā)現(xiàn),其研究主要集中在探討FRBR理念應(yīng)用于網(wǎng)絡(luò)信息資源組織涉及的基本理論、規(guī)范控制、方法技術(shù)及應(yīng)用評(píng)價(jià),構(gòu)建基于FRBR的網(wǎng)絡(luò)信息資源組織體系,以及從學(xué)科知識(shí)規(guī)劃、學(xué)科知識(shí)元數(shù)據(jù)采集、學(xué)科知識(shí)組織與存儲(chǔ)、學(xué)科知識(shí)發(fā)現(xiàn)系統(tǒng)門戶四個(gè)方面,結(jié)合元數(shù)據(jù)倉儲(chǔ)技術(shù)詳細(xì)闡述高校學(xué)科知識(shí)發(fā)現(xiàn)系統(tǒng)的建設(shè)方案。
(5)關(guān)聯(lián)數(shù)據(jù)環(huán)境下數(shù)據(jù)溯源及DBpedia分析。包括關(guān)鍵詞語義Web、數(shù)據(jù)溯源、DBpedia,其研究主要集中在分析W3C數(shù)據(jù)溯源推薦標(biāo)準(zhǔn)PROV的基礎(chǔ)上,探討其在語義Web架構(gòu)中的作用和地位,以及在數(shù)據(jù)關(guān)聯(lián)使用和推廣上所面臨的挑戰(zhàn);在基于關(guān)聯(lián)數(shù)據(jù)的基本原則和發(fā)布方法上,分析介紹DBpedia的實(shí)現(xiàn)技術(shù),實(shí)現(xiàn)對(duì)自由文本進(jìn)行的結(jié)構(gòu)化數(shù)據(jù)抽取和RDF表達(dá),并基于URI參引、SPARQL查詢和RDF文件轉(zhuǎn)存等多種方法,實(shí)現(xiàn)多樣化的Web數(shù)據(jù)獲取以及和眾多數(shù)據(jù)集之間的關(guān)聯(lián)。
生命周期的概念起源于自然生態(tài)系統(tǒng),其基本內(nèi)涵可以概括為:任何事物都具有萌芽、生長、成熟、直到衰老的一個(gè)周期過程。Anderson和Tushman把生命周期理論應(yīng)用于技術(shù)領(lǐng)域,認(rèn)為新技術(shù)產(chǎn)生于技術(shù)非連續(xù)狀態(tài),經(jīng)過技術(shù)間的激烈競爭產(chǎn)生主導(dǎo)設(shè)計(jì)范式,并隨后進(jìn)入漸進(jìn)變革階段,直到一個(gè)新的非連續(xù)技術(shù)狀態(tài)的出現(xiàn)[13]。技術(shù)生命周期理論認(rèn)為,一項(xiàng)技術(shù)在其從進(jìn)入市場到退出市場的生命周期過程中,一般劃分為4個(gè)階段,即萌芽期、成長期、成熟期和衰退期。研究者了解所研究領(lǐng)域處于技術(shù)生命周期的何種階段,有助于把握該領(lǐng)域的整體發(fā)展趨勢。
圖4 關(guān)聯(lián)數(shù)據(jù)研究生命周期S曲線
以上述的推算為基礎(chǔ),利用Loglet Lab軟件預(yù)測估算關(guān)聯(lián)數(shù)據(jù)領(lǐng)域各生命周期階段的時(shí)間點(diǎn),并以相關(guān)論文數(shù)量為縱軸,年份為橫軸,繪制生成關(guān)聯(lián)數(shù)據(jù)研究的時(shí)間-論文數(shù)S曲線發(fā)展趨勢圖,如圖4所示。圖中星號(hào)點(diǎn)表示實(shí)際的發(fā)文數(shù)量,實(shí)線表示預(yù)測的發(fā)文數(shù)量。由圖4可知:
(1)國內(nèi)對(duì)關(guān)聯(lián)數(shù)據(jù)的研究始于2008年,2012年進(jìn)入成長期,發(fā)文量為54,即萌芽期與成長期的拐點(diǎn)坐標(biāo)為(2012,54)。
(2)國內(nèi)關(guān)聯(lián)數(shù)據(jù)研究預(yù)計(jì)于2018年開始步入成熟期,即反曲點(diǎn)坐標(biāo)為(2018,185)。2018年起,國內(nèi)關(guān)聯(lián)數(shù)據(jù)研究開始進(jìn)入高速發(fā)展階段,發(fā)展速率將達(dá)到最大。
(3)國內(nèi)關(guān)聯(lián)數(shù)據(jù)研究預(yù)計(jì)于2024年開始步入衰退期,拐點(diǎn)坐標(biāo)為(2024,310)。2028年發(fā)文量將達(dá)到峰值,即(2028,325)。從2008年引入期算起,國內(nèi)關(guān)聯(lián)數(shù)據(jù)研究生命周期預(yù)計(jì)約為20年。
通過上述分析,本文可以得出以下結(jié)論:
(1)通過高頻作者合著網(wǎng)絡(luò)圖可知,國內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域已經(jīng)形成少量較為穩(wěn)定的合著團(tuán)體,但多數(shù)合著小團(tuán)體呈現(xiàn)分散分布;從網(wǎng)絡(luò)密度分析可知,國內(nèi)在關(guān)聯(lián)數(shù)據(jù)領(lǐng)域還沒有形成一支成熟的研究隊(duì)伍,缺乏團(tuán)隊(duì)間合作;從作者合著中介中心性分析可知,國內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域位于結(jié)構(gòu)洞位置承擔(dān)橋梁作用的作者較少,不利于學(xué)科均衡發(fā)展。
(2)通過高頻關(guān)鍵詞詞頻分析、共詞分析、聚類分析可知,國內(nèi)關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的研究熱點(diǎn)主要集中在:本體與語義互聯(lián)、數(shù)據(jù)網(wǎng)絡(luò)體系構(gòu)建與關(guān)聯(lián)開放數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)的圖書館信息聚合研究、網(wǎng)絡(luò)信息資源組織體系與高校學(xué)科知識(shí)發(fā)現(xiàn)系統(tǒng)的構(gòu)建、關(guān)聯(lián)數(shù)據(jù)環(huán)境下數(shù)據(jù)溯源及DBpedia分析等方面。
(3)通過技術(shù)生命周期S曲線的預(yù)測結(jié)果可知,關(guān)聯(lián)數(shù)據(jù)在國內(nèi)的發(fā)展時(shí)間約為20年,2008年引入我國后,預(yù)計(jì)2018年步入成熟,拐點(diǎn)坐標(biāo)約為(2018,185),從2024年起,國內(nèi)關(guān)聯(lián)數(shù)據(jù)的研究將開始步入衰退,2028年達(dá)到峰值,坐標(biāo)約為(2028,325)。
本文對(duì)關(guān)聯(lián)數(shù)據(jù)研究的可視化,主要以國內(nèi)發(fā)表的各類研究論文為基礎(chǔ),討論該領(lǐng)域的研究團(tuán)體、研究現(xiàn)狀和研究熱點(diǎn),并大致估算其生命周期的各階段值,以期為今后的研究提供借鑒,并達(dá)到知識(shí)交流的目的。
[1]Berners-Lee T.Linked data[EB/OL].[2015-03-08].http:// www.w3.org/Designissues/LinkedData.html.
[2]沈志宏,張曉林.關(guān)聯(lián)數(shù)據(jù)及其應(yīng)用現(xiàn)狀綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2010(11):1-9.
[3]劉煒.關(guān)聯(lián)數(shù)據(jù)概念、技術(shù)及應(yīng)用展望[J].大學(xué)圖書館學(xué)報(bào),2011(2):5-12.
[4]劉啟元,葉鷹.文獻(xiàn)題錄信息挖掘技術(shù)方法及其軟件SATI的實(shí)現(xiàn)——以中外圖書情報(bào)學(xué)為例[J].信息資源管理學(xué)報(bào),2012(1):50-58.
[5]劉煒,夏翠娟,張春景.大數(shù)據(jù)與關(guān)聯(lián)數(shù)據(jù):正在到來的數(shù)據(jù)技術(shù)革命[J].現(xiàn)代圖書情報(bào)技術(shù),2013(4):2-9.
[6]夏翠娟,劉煒,趙亮,等.關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù)及其實(shí)現(xiàn)——以Drupal為例[J].中國圖書館學(xué)報(bào),2012(1):49-57.
[7]李亞子,錢慶,劉崢,等.基于UMLS的疾病知識(shí)整合框架研究[J].現(xiàn)代圖書情報(bào)技術(shù),2011(2):34-41.
[8]洪娜,錢慶,范煒,等.關(guān)聯(lián)數(shù)據(jù)中關(guān)系發(fā)現(xiàn)的可視化實(shí)踐[J].現(xiàn)代圖書情報(bào)技術(shù),2013(2):11-17.
[9]李亮,朱慶華.社會(huì)網(wǎng)絡(luò)分析方法在合著分析中的實(shí)證研究[J].情報(bào)科學(xué),2008(4):549-550.
[10]鞏永強(qiáng),劉莉.基于詞頻分析法的情報(bào)學(xué)研究熱點(diǎn)透析[J].圖書館學(xué)研究,2011(13):9-13.
[11]儲(chǔ)節(jié)旺,郭春俠.共詞分析法的基本原理及EXCEL實(shí)現(xiàn)[J].情報(bào)科學(xué),2011(6):931-934.
[12]儲(chǔ)節(jié)旺,閆土濤.知識(shí)管理學(xué)科體系研究(下)——聚類分析和多維尺度分析[J].情報(bào)理論與實(shí)踐,2012(3):5-9.
[13]Anderson P,Tushman M L.Technological discontinuities and dominant designs:A cyclical model of technological change[J].Administrative Science Quarterly,1990(4):604-633.
(責(zé)任編校駱雪松)
Visualization Analysis of the Progress and Trends in Linked Data Research in China
Liu Jing,Sun Wei,Yuan Run
Institute of Science and Technology Information,Jiangsu University,Zhenjiang 212013,China
Selecting research literature in the field of the linked data from the CNKI database,this study adopts social network analysis and the bibliometric method to analyze and visualize the co-occurrence authors and high-frequency key words.Based on these,this paper analyzes the co-authorship network and betweeness centrality of high-frequent authors, as well as the word frequency and map,matrix and clustering of high-frequent key words, presenting the research status and high points at home.Meanwhile,the study,with the aid of Loglet Lab,also attempts to estimate the timing of each phase of the life cycle to make a prediction of the developing trend in the field of linked data study.
linked data;social network analysis;technology life cycle;visualization
G250
劉竟,女,1980年生,博士,副教授,研究方向?yàn)樾畔⒔M織與管理,發(fā)表論文10余篇,出版專著1部;孫薇,女,1989年生,2013級(jí)圖書情報(bào)與檔案管理專業(yè)碩士研究生,研究方向?yàn)樾畔⒔M織與管理;袁潤,男,1965年生,博士,教授,研究方向?yàn)閿?shù)字圖書館、情報(bào)技術(shù),發(fā)表論文80余篇。
*本文系國家社會(huì)科學(xué)基金項(xiàng)目“歐美圖書館學(xué)博士學(xué)位研究課題分析”(項(xiàng)目編號(hào):09CTQ006)的研究成果之一