關(guān)鍵詞: 科學(xué)數(shù)據(jù); 數(shù)據(jù)引用; 網(wǎng)絡(luò)建模; 結(jié)構(gòu)特征
DOI:10.3969 / j.issn.1008-0821.2024.05.004
〔中圖分類號〕G203 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 05-0001-02
科學(xué)數(shù)據(jù)主要指在科研活動過程中加工產(chǎn)生或再利用的數(shù)據(jù)產(chǎn)品或數(shù)據(jù)資料, 通??梢园凑諄碓磩澐譃閷嶒灁?shù)據(jù)、觀測數(shù)據(jù)和計算數(shù)據(jù), 或者按照產(chǎn)生方式劃分為原始數(shù)據(jù)、驗證數(shù)據(jù)和衍生數(shù)據(jù)[1] 。隨著開放科學(xué)實踐受到越來越多的關(guān)注, 科學(xué)數(shù)據(jù)從共享、發(fā)布、重用到引用的各個環(huán)節(jié)都得到了大量研究, 尤其是科學(xué)數(shù)據(jù)引用作為數(shù)據(jù)評價和數(shù)據(jù)溯源的重要手段, 在科學(xué)數(shù)據(jù)相關(guān)研究中扮演著至關(guān)重要的角色。
數(shù)據(jù)引用通常指研究人員在文獻中以引用標注的方式, 表明其所使用數(shù)據(jù)來源出處的行為[2] 。近年來, 雖然科研人員已經(jīng)逐步意識到數(shù)據(jù)引用的重要性, 一些國際組織如OECD、ESIP、DCC 等也紛紛制定了科學(xué)數(shù)據(jù)引用規(guī)范[3] , 但由于數(shù)據(jù)隱私及版權(quán)保護機制不健全、不同學(xué)科領(lǐng)域數(shù)據(jù)形式差異較大等原因, 學(xué)術(shù)界和出版界在數(shù)據(jù)引用標準上尚未達成共識, 數(shù)據(jù)引用仍然缺乏廣泛適用的統(tǒng)一標準, 研究人員在數(shù)據(jù)引用方面依舊較為隨意, 這給依賴于數(shù)據(jù)引用的后續(xù)研究帶來了極大挑戰(zhàn)。此外,隨著科學(xué)數(shù)據(jù)數(shù)量的不斷增長, 數(shù)據(jù)之間的關(guān)系也變得錯綜復(fù)雜, 對于數(shù)據(jù)的挖掘和利用變得愈發(fā)困難。國際數(shù)據(jù)公司(IDC)在其白皮書“Data Age 2025”中指出, 截至2020 年, 全球信息化數(shù)據(jù)總量已經(jīng)超過47ZB, 并有望在2025 年達到175ZB, 但僅有3%左右的數(shù)據(jù)得到開發(fā)和利用[4] 。
隨著科學(xué)數(shù)據(jù)開放共享與重復(fù)利用的需求日益顯著, 科學(xué)數(shù)據(jù)之間形成了一個龐大的復(fù)雜網(wǎng)絡(luò),利用數(shù)學(xué)和統(tǒng)計學(xué)的理論方法進行科學(xué)數(shù)據(jù)的研究已無法全面反映科學(xué)數(shù)據(jù)的發(fā)展脈絡(luò)和全局特征。如何利用數(shù)據(jù)引用關(guān)系建立引用網(wǎng)絡(luò), 分析挖掘科學(xué)數(shù)據(jù)網(wǎng)絡(luò)的結(jié)構(gòu)特征和演化規(guī)律, 成為一個亟需研究的現(xiàn)實問題。因此, 本研究的開展一方面有利于細粒度挖掘科學(xué)數(shù)據(jù)之間的隱含聯(lián)系, 發(fā)現(xiàn)網(wǎng)絡(luò)中具有較高影響力的數(shù)據(jù)節(jié)點, 了解科研方向的發(fā)展史與知識鏈, 快速獲取研究課題所需的數(shù)據(jù)集合;另一方面對于加速數(shù)據(jù)資源的獲取和重用, 提升自身所共享數(shù)據(jù)的影響力和傳播效果, 加強科學(xué)數(shù)據(jù)的管理與評價等工作都具有十分重要的研究價值和現(xiàn)實意義。
1 相關(guān)研究
科學(xué)數(shù)據(jù)引用的研究最早可以追溯到20 世紀70 年代。1979 年, Dodd S A[5] 就提出了引用數(shù)值數(shù)據(jù)文件的指導(dǎo)性建議, 從而可以更容易確定數(shù)據(jù)文件的可用性。隨后, 著名學(xué)者White H[6] 也指出,社會科學(xué)學(xué)者們應(yīng)該在著作中引用所使用的數(shù)據(jù)文件, 并以區(qū)別于正文的規(guī)范化參考格式列出。然而科學(xué)數(shù)據(jù)引用實踐的開展并不順利, 相關(guān)研究也大多處于起步階段, 當(dāng)前圍繞科學(xué)數(shù)據(jù)引用的研究主要包括4 個方面的問題, 即科學(xué)數(shù)據(jù)引用的參與主體、標準規(guī)范、技術(shù)方法和行為特征[7] 。
1.1 科學(xué)數(shù)據(jù)引用的參與主體
科學(xué)數(shù)據(jù)的生命周期包括數(shù)據(jù)產(chǎn)生、共享到重用的多個階段, 這也注定了科學(xué)數(shù)據(jù)引用是一個由多主體共同參與的活動。當(dāng)前, 國內(nèi)外眾多學(xué)者從各種角度探討了科學(xué)數(shù)據(jù)引用的參與主體, 概括起來主要包括政府協(xié)會、研究(資助)機構(gòu)、數(shù)據(jù)機構(gòu)、出版機構(gòu)、圖書情報機構(gòu)和科學(xué)家等。具體來說, 政府協(xié)會是科學(xué)數(shù)據(jù)引用標準和政策的制定者,是科學(xué)數(shù)據(jù)引用發(fā)展規(guī)劃的頂層機構(gòu)[8] ; 研究(資助)機構(gòu)是科學(xué)數(shù)據(jù)引用發(fā)展的重要推動者, 王思明等[9] 從科學(xué)數(shù)據(jù)引用流程出發(fā), 指出并肯定了研究(資助)機構(gòu)在科學(xué)數(shù)據(jù)提交、引用評價等階段發(fā)揮的重要作用; 數(shù)據(jù)機構(gòu)主要包括數(shù)據(jù)中心和數(shù)據(jù)倉儲, 由于科學(xué)數(shù)據(jù)學(xué)科差異大的特點, 學(xué)科數(shù)據(jù)中心和特色數(shù)據(jù)倉儲成為了科學(xué)數(shù)據(jù)引用原則與規(guī)范制定的重要參與者[10] ; 出版機構(gòu)包括數(shù)據(jù)庫商和學(xué)術(shù)期刊, 隨著科學(xué)數(shù)據(jù)的重要程度越來越高,出版機構(gòu)成為科學(xué)數(shù)據(jù)引用實踐的開拓者; 圖書情報機構(gòu)作為文獻資料的核心管理者, 在科學(xué)數(shù)據(jù)管理和引用中也發(fā)揮著重要作用, 劉曉慧等[11] 提出,學(xué)術(shù)圖書館推動數(shù)據(jù)引用的4 種角色, 即數(shù)據(jù)引用規(guī)范的制定者、數(shù)據(jù)引用服務(wù)的提供者、數(shù)據(jù)引用意識的宣傳者和數(shù)據(jù)引用平臺的建設(shè)者; 最后, 科學(xué)家是科學(xué)數(shù)據(jù)引用的執(zhí)行者, 是科學(xué)數(shù)據(jù)生產(chǎn)與引用的關(guān)鍵主體。
1.2 科學(xué)數(shù)據(jù)引用的標準規(guī)范
科學(xué)數(shù)據(jù)引用的標準規(guī)范對于科學(xué)數(shù)據(jù)管理和評價極其重要。因此, 國外早在2007 年就開始了相關(guān)研究, Altman M 等[12] 發(fā)表研究論文, 對數(shù)據(jù)引用所需包含的最小元素集、可選元素等進行了詳細分析, 并提出了數(shù)據(jù)引用標準規(guī)范的早期建議。此后, 眾多致力于數(shù)據(jù)引用的國際標準化組織和主要數(shù)據(jù)中心等紛紛提出了自己的科學(xué)數(shù)據(jù)引用規(guī)范指南文件, 如DataCite、OECD、PANGAEA、DCC 等。2013 年, 數(shù)據(jù)引用綜合工作組成立, 并于2014 年1 月正式發(fā)布《科學(xué)數(shù)據(jù)引用原則聯(lián)合聲明》, 聲明中提出的8 項原則, 包括重要性、信用與屬性、證據(jù)性、唯一標識、訪問獲取、持續(xù)性、明確性與可驗證性、互操作性與靈活性, 該聲明得到眾多科學(xué)數(shù)據(jù)相關(guān)主體的支持, 成為當(dāng)前科學(xué)數(shù)據(jù)引用的基本原則。Starr J 等[13] 回顧了《科學(xué)數(shù)據(jù)引用原則聯(lián)合聲明》的主要內(nèi)容, 提出了具體可實施的數(shù)據(jù)引用框架和標識符方案。我國國家標準自2018 年7 月起正式實施, 與《科技資源標識》國家標準一起, 構(gòu)建了具備我國自主特色的科學(xué)數(shù)據(jù)引用標準和標識系統(tǒng)。朱艷華等[14] 對我國《科學(xué)數(shù)據(jù)引用》國家標準的內(nèi)容進行了解讀, 指出該國家標準的發(fā)布將為我國的科學(xué)數(shù)據(jù)共享和數(shù)據(jù)知識產(chǎn)權(quán)保護提供政策保障。
1.3 科學(xué)數(shù)據(jù)引用的技術(shù)方法
科學(xué)數(shù)據(jù)引用的技術(shù)研究主要集中在元數(shù)據(jù)和永久標識符兩個方面, 元數(shù)據(jù)主要包括數(shù)據(jù)引用的必備元素、推薦元素和可選元素, 黃如花等[15] 以DataCite 為例, 對其元數(shù)據(jù)內(nèi)容及引用規(guī)范中的元數(shù)據(jù)元素進行了詳細介紹與分析; 在引用標識符研究方面, 目前國際上較為通用的科學(xué)數(shù)據(jù)資源引用標識符包括基于數(shù)字化對象的標識符DOI、基于對象的標識符OID、基于科技資源的標識STRI、我國科技資源標識CSTR 等, 國際目前使用最廣泛的標識系統(tǒng)是DOI[16] 。而科學(xué)數(shù)據(jù)引用的方法研究主要集中在對科學(xué)數(shù)據(jù)引用的識別方面, 科學(xué)數(shù)據(jù)的引用方式一般可以分為通過參考文獻列出的正式引用和通過正文提及等方式列出的非正式引用。由于當(dāng)前科學(xué)數(shù)據(jù)引用規(guī)范問題還未得到很好地解決,科學(xué)數(shù)據(jù)還依賴于在文獻全文中進行數(shù)據(jù)引用的識別和抽取。因此, 當(dāng)前科學(xué)數(shù)據(jù)引用識別主要集中在數(shù)據(jù)引用識別和抽取技術(shù)方法的研究, 主要方法可以歸納為基于人工標注、術(shù)語搜索、特定規(guī)則和監(jiān)督學(xué)習(xí)4 類[17] 。周佳茵等[18] 對現(xiàn)有數(shù)據(jù)引用實踐中的引用特征和數(shù)據(jù)引用識別方法, 進行了總結(jié)分析, 并對存在的問題和未來發(fā)展方向進行了展望。
1.4 科學(xué)數(shù)據(jù)引用的行為特征
科學(xué)數(shù)據(jù)引用的行為特征研究涵蓋范圍較廣,既包括對于科學(xué)數(shù)據(jù)引用和重用行為特征規(guī)律的研究, 也包括科學(xué)數(shù)據(jù)引用和計量方面的研究。ParkH 等[19] 通過調(diào)研生物醫(yī)學(xué)領(lǐng)域科學(xué)數(shù)據(jù)引用現(xiàn)狀后發(fā)現(xiàn), 數(shù)據(jù)非正式引用比參考文獻中的數(shù)據(jù)正式引用更為常見, 這給數(shù)據(jù)引用計量和評價造成了極大誤差和困難。王雪等[20] 對生物信息學(xué)領(lǐng)域的數(shù)據(jù)引用行為特征進行分析, 構(gòu)建了基于文獻計量和網(wǎng)絡(luò)計量的數(shù)據(jù)引用行為評價模型。Henderson T等[21] 通過數(shù)據(jù)集名稱、下載地址、作者等信息,識別并分析了達特茅斯大學(xué)CRAWDAD 無線數(shù)據(jù)集的被引情況, 發(fā)現(xiàn)論文中的數(shù)據(jù)引用仍然存在諸多不規(guī)范的問題。焦紅等[22] 通過模式識別方法對生物醫(yī)學(xué)論文中提及的科學(xué)數(shù)據(jù)集, 進行識別和抽取, 并分析了該領(lǐng)域科學(xué)數(shù)據(jù)集的復(fù)用特征, 研究發(fā)現(xiàn)科學(xué)數(shù)據(jù)能夠在一定程度上擴大研究成果的影響力。沈婷婷[23] 通過內(nèi)容分析法分析了社會學(xué)領(lǐng)域數(shù)據(jù)重用及評估的實踐特點和發(fā)展趨勢, 并對圖書館科學(xué)數(shù)據(jù)情報服務(wù)提出參考建議。張瑩等[24]以管理學(xué)權(quán)威期刊論文為分析樣本, 揭示了國內(nèi)管理學(xué)領(lǐng)域科研人員的數(shù)據(jù)重用行為特征。
從當(dāng)前研究可以看出, 圍繞科學(xué)數(shù)據(jù)引用的各層面研究都還處于起步階段, 尤其是科學(xué)數(shù)據(jù)引用網(wǎng)絡(luò)的研究還鮮有開展。這是因為數(shù)據(jù)引用網(wǎng)絡(luò)的建立非常依賴于出版商或科學(xué)數(shù)據(jù)庫提供的數(shù)據(jù)引用信息, 而由于相關(guān)信息的缺失和難以獲取等問題,導(dǎo)致此類研究的數(shù)據(jù)規(guī)模和范圍都難以滿足研究需求。因此, 本研究將以生物醫(yī)學(xué)領(lǐng)域為研究對象,通過模式識別方法在大規(guī)模論文全文中抽取數(shù)據(jù)集的提及信息, 構(gòu)建論文與數(shù)據(jù)集間的引用關(guān)系, 并基于該引用關(guān)系構(gòu)建全領(lǐng)域科學(xué)數(shù)據(jù)引用網(wǎng)絡(luò), 再利用社會網(wǎng)絡(luò)分析方法, 從網(wǎng)絡(luò)結(jié)構(gòu)的角度分析生物醫(yī)學(xué)領(lǐng)域科學(xué)數(shù)據(jù)的引用特征和演化趨勢。
2 數(shù)據(jù)和方法
2.1 網(wǎng)絡(luò)建模
基于科學(xué)數(shù)據(jù)的元數(shù)據(jù)信息和論文與數(shù)據(jù)的引用信息可以分別構(gòu)建1-模網(wǎng)絡(luò)和2-模網(wǎng)絡(luò)。其中,利用科學(xué)數(shù)據(jù)的作者、機構(gòu)等元數(shù)據(jù)信息可以構(gòu)建作者合作網(wǎng)絡(luò)、機構(gòu)合作網(wǎng)絡(luò)等網(wǎng)絡(luò)模型, 進而分析個人、機構(gòu)、國家的合作網(wǎng)絡(luò)特征, 理解不同層面的科學(xué)數(shù)據(jù)共享合作模式, 反映出科學(xué)合作對科學(xué)數(shù)據(jù)共享與重用的加強效果。該網(wǎng)絡(luò)為1-模網(wǎng)絡(luò), 節(jié)點為科學(xué)數(shù)據(jù)的作者、機構(gòu)等實體, 邊為實體間的合作關(guān)系; 利用論文與數(shù)據(jù)的引用信息可以構(gòu)建數(shù)據(jù)引用網(wǎng)絡(luò), 進而從宏觀角度揭示科學(xué)數(shù)據(jù)在不同學(xué)科論文中的引用行為特征, 發(fā)現(xiàn)數(shù)據(jù)引用網(wǎng)絡(luò)的演化機制。該網(wǎng)絡(luò)不同于傳統(tǒng)引文網(wǎng)絡(luò), 是一個由論文和數(shù)據(jù)組成的2-模網(wǎng)絡(luò), 該網(wǎng)絡(luò)的節(jié)點為論文和數(shù)據(jù), 邊為論文與論文、論文與數(shù)據(jù)之間的引用關(guān)系; 利用數(shù)據(jù)與數(shù)據(jù)之間的共被引關(guān)系可以構(gòu)建數(shù)據(jù)共被引網(wǎng)絡(luò), 該網(wǎng)絡(luò)模型既能從宏觀角度揭示數(shù)據(jù)共被引網(wǎng)絡(luò)的拓撲結(jié)構(gòu)和演化特征,也可以從微觀視角觀察網(wǎng)絡(luò)中的核心與邊緣節(jié)點,發(fā)現(xiàn)并挖掘出有價值的科學(xué)數(shù)據(jù)。該網(wǎng)絡(luò)為1-模網(wǎng)絡(luò), 節(jié)點為科學(xué)數(shù)據(jù), 邊為數(shù)據(jù)與數(shù)據(jù)之間的共被引關(guān)系。3 種網(wǎng)絡(luò)模型如圖1 所示。
2.2 數(shù)據(jù)獲取
由于科學(xué)數(shù)據(jù)在論文中常以提及等非規(guī)范引用形式出現(xiàn), 為使本研究具備更強的普適性和魯棒性,避免現(xiàn)有數(shù)據(jù)引用庫信息滯后或不夠全面等問題,科學(xué)數(shù)據(jù)引用關(guān)系的識別和抽取將采用基于規(guī)則的識別方法, 從生物醫(yī)學(xué)領(lǐng)域科學(xué)文獻全文中進行獲取并構(gòu)建引用網(wǎng)絡(luò)。其中, 文獻數(shù)據(jù)來自NCBI 提供的免費生物醫(yī)學(xué)期刊文獻全文數(shù)據(jù)庫PubMedCentral(PMC), 通過其提供的FTP 服務(wù)共獲得3 219 908篇文獻??茖W(xué)數(shù)據(jù)集數(shù)據(jù)來自于全球性基因表達綜合數(shù)據(jù)庫( Gene Expression Omnibus,GEO), 該數(shù)據(jù)庫是由NCBI 創(chuàng)建并維護的全球性高通量分子豐度數(shù)據(jù)庫[25] , 同時也是當(dāng)前全球存儲規(guī)模最大、數(shù)據(jù)最全面的基因表達數(shù)據(jù)庫, 收錄了世界各國(地區(qū))研究者提交并共享的基因芯片數(shù)據(jù)和高通量測序數(shù)據(jù)。GEO 數(shù)據(jù)庫將用戶或科研人員遞呈和共享的數(shù)據(jù)進行分類存儲并為其分配一個唯一且永恒不變的登錄號(Accession Number), 并要求共享數(shù)據(jù)的研究文獻在公開發(fā)表后, 將數(shù)據(jù)進行公開便于其他科研人員利用該數(shù)據(jù)進行后續(xù)研究。
GEO 的原始數(shù)據(jù)分為平臺(Platform)、樣本(Sample)和系列(Series)。其中, 平臺包含用戶測定表達量所使用的芯片或測序平臺的描述信息和注釋信息, 通常包含多個樣本, 數(shù)據(jù)集名以“GPL”為前綴; 樣本用于記錄單樣本的基因表達測序信息,是原始實驗結(jié)果的基本單位, 數(shù)據(jù)集名以“GSM”為前綴; 系列是由多個樣本組成的一項完整研究的數(shù)據(jù), 還包括整個研究的描述和總結(jié)分析, 數(shù)據(jù)集名以“GSE” 為前綴。本研究采用正則表達式, 對文獻中的登錄號信息進行抽取, 規(guī)則為“G(?:PL|SM|SE) \d+”, 最終經(jīng)過抽取并清洗得到57 841個GEO 數(shù)據(jù)集被39 189篇文獻所引用, 引用次數(shù)合計294 517次, 存在GEO 數(shù)據(jù)集引用行為的文獻數(shù)量占全部文獻數(shù)量的1.22%。GEO 數(shù)據(jù)集的平均被引次數(shù)為5 次, 篇均引用數(shù)據(jù)集數(shù)量約為1.5 個。
因為本文關(guān)注和研究的重點在于科學(xué)數(shù)據(jù)本身, 所以采用只包含數(shù)據(jù)節(jié)點和關(guān)系的數(shù)據(jù)共被引網(wǎng)絡(luò)模型進行建模, 該網(wǎng)絡(luò)模型中節(jié)點為數(shù)據(jù)集,邊為數(shù)據(jù)共被引關(guān)系, 并從整體、個體和網(wǎng)絡(luò)社區(qū)3 個角度了解分析科學(xué)數(shù)據(jù)引用網(wǎng)絡(luò)的結(jié)構(gòu)和演化情況。網(wǎng)絡(luò)構(gòu)建過程如圖2 所示。
2.3 測度指標
社會網(wǎng)絡(luò)分析是研究社會復(fù)雜系統(tǒng)的有效定量分析方法, 可以了解網(wǎng)絡(luò)整體關(guān)系結(jié)構(gòu)以及網(wǎng)絡(luò)結(jié)構(gòu)對群體內(nèi)部個體的影響, 常用的分析指標包括節(jié)點和連邊數(shù)量、度和度分布、網(wǎng)絡(luò)密度、平均聚集系數(shù)、中心度、網(wǎng)絡(luò)社區(qū)等。
針對整體網(wǎng)絡(luò)結(jié)構(gòu)及演化情況, 本文分別從節(jié)點數(shù)、連邊數(shù)、度分布、網(wǎng)絡(luò)密度、平均聚集系數(shù)、平均路徑長度等維度進行分析。網(wǎng)絡(luò)密度表示整個網(wǎng)絡(luò)各個節(jié)點之間連接的緊密程度, 反映了各節(jié)點之間的合作緊密度以及網(wǎng)絡(luò)整體是向著“互鎖式網(wǎng)絡(luò)” 還是“輻射式網(wǎng)絡(luò)” 發(fā)展; 平均聚集系數(shù)表示局部節(jié)點之間的相互連接程度, 反映了相鄰節(jié)點間的緊密程度; 平均路徑長度與網(wǎng)絡(luò)的整體流動性相關(guān), 反映了網(wǎng)絡(luò)中信息傳播的效率。
針對網(wǎng)絡(luò)核心個體, 本文主要從節(jié)點中心性角度進行分析, 主要包括度數(shù)中心度、中介中心度和接近中心度3 個指標。其中, 度數(shù)中心度表示一個節(jié)點的直接影響力, 可以反映出與之直接相連節(jié)點數(shù)量的多少以及節(jié)點的中心性程度; 中介中心度表示網(wǎng)絡(luò)中一個節(jié)點對其他節(jié)點間交流起到的中轉(zhuǎn)功能, 反映了節(jié)點對資源的控制能力; 接近中心度表示網(wǎng)絡(luò)中一個節(jié)點到其他節(jié)點的效率高低, 反映了在傳遞信息方面對其他節(jié)點的依賴程度。
針對網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu), 本文采用Leiden 社區(qū)發(fā)現(xiàn)算法進行網(wǎng)絡(luò)社區(qū)劃分, 并針對模塊度最大的社區(qū)劃分結(jié)果, 從社區(qū)整體結(jié)構(gòu)、社區(qū)內(nèi)部結(jié)構(gòu)、社區(qū)機構(gòu)合作、社區(qū)研究主題等角度進行分析解讀。本文所使用的主要社會網(wǎng)絡(luò)分析指標及參數(shù)說明, 如表1 所示。
3 結(jié)果分析
3.1 整體網(wǎng)絡(luò)結(jié)構(gòu)及演化分析
在全部被引用的57 841個數(shù)據(jù)集中, 有50 005個數(shù)據(jù)集存在共被引情況, 占總數(shù)的86. 5%, 共被引次數(shù)2 739 214次。其中, 最早被共被引的數(shù)據(jù)集出現(xiàn)在2004 年, 研究人員使用了3 個數(shù)據(jù)集GPL205、GPL218、GPL356 進行微陣列數(shù)據(jù)分析工具校正問題的測試和研究。在此之后, 數(shù)據(jù)共被引網(wǎng)絡(luò)中節(jié)點和連邊數(shù)量呈顯著增加趨勢, 尤其在2014 年有了一次跨越式的增長, 節(jié)點和連邊數(shù)量分別由2013 年的8 319個和121 041條猛增至2014年的12 996個和1 319 215條, 數(shù)據(jù)集被共同引用的規(guī)模急劇增加。
度和度分布能夠體現(xiàn)網(wǎng)絡(luò)中數(shù)據(jù)節(jié)點之間的連接規(guī)模和特點。經(jīng)計算, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)中最大度為4 847, 該節(jié)點為昂飛(Affymetrix)公司提供的商業(yè)數(shù)據(jù)集GPL570。平均度由2004 年的2 增長至2014 年的203, 其后一直穩(wěn)定在100 以上, 即平均每個數(shù)據(jù)集與100 個以上的數(shù)據(jù)集被共同引用,網(wǎng)絡(luò)整體連接規(guī)模較好, 節(jié)點平均度的年度分布如圖4(a)所示。對數(shù)據(jù)共被引網(wǎng)絡(luò)節(jié)點度分布進行雙對數(shù)坐標表示, 如圖4(b)所示, 可以發(fā)現(xiàn)絕大部分節(jié)點度很小, 只有少數(shù)節(jié)點度很大, 即大多數(shù)節(jié)點和其他節(jié)點具有很少的聯(lián)系, 只有為數(shù)不多的一些節(jié)點和其他節(jié)點有較多的聯(lián)系。GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的度分布近似于冪律分布, 表明該網(wǎng)絡(luò)具備“無標度網(wǎng)絡(luò)” 特性。但與傳統(tǒng)BA 模型的冪律分布存在一定區(qū)別, 網(wǎng)絡(luò)中有一部分特殊節(jié)點的數(shù)量和度都較大, 這也導(dǎo)致網(wǎng)絡(luò)節(jié)點的平均度較大。
平均路徑長度可以衡量網(wǎng)絡(luò)的整體連通性和全局效率, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的平均路徑長度為4.7, 任意兩個數(shù)據(jù)集平均只需要經(jīng)過4 次連接就可以相互影響, 網(wǎng)絡(luò)的傳播效率較高, 具備“小世界” 特征。網(wǎng)絡(luò)密度反映的是共被引網(wǎng)絡(luò)整體節(jié)點間關(guān)聯(lián)的緊密程度, 網(wǎng)絡(luò)密度越大說明數(shù)據(jù)的某些維度越相似, 容易被共同使用來進行一項研究。由圖5 可以發(fā)現(xiàn), GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的整體密度隨時間逐步遞減, 隨著測序技術(shù)的更新?lián)Q代及研究物種的不斷豐富, GEO 的數(shù)據(jù)共被引網(wǎng)絡(luò)的節(jié)點不斷增加, 結(jié)構(gòu)呈現(xiàn)出輻射式網(wǎng)絡(luò)結(jié)構(gòu)發(fā)展態(tài)勢, 加之?dāng)?shù)據(jù)的類型不斷增多, 節(jié)點間的相似度不斷降低。聚集系數(shù)反映了網(wǎng)絡(luò)局部的聚集程度, 即如果某兩個數(shù)據(jù)集同時與第3 個數(shù)據(jù)集之間存在共被引關(guān)系, 則這兩個數(shù)據(jù)集之間存在共被引關(guān)系的概率。圖中可以發(fā)現(xiàn), GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的平均聚集系數(shù)一直穩(wěn)定在0.8 以上, 說明局部相同領(lǐng)域內(nèi)的數(shù)據(jù)集被共同引用的概率極大。
3.2 網(wǎng)絡(luò)核心個體分析
網(wǎng)絡(luò)的整體結(jié)構(gòu)特征無法觀察節(jié)點在網(wǎng)絡(luò)中位置的完整信息, 而利用中心度指標則可以進一步研究各節(jié)點在網(wǎng)絡(luò)中的重要程度, 具體包括度數(shù)中心度、中介中心度和接近中心度3 個指標。
度數(shù)中心度的概念來自于社會計量學(xué)中的“明星” 概念, 即該點與網(wǎng)絡(luò)中的其他點有較多的直接聯(lián)系, 擁有較多的連邊。在GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)中, 數(shù)據(jù)集的度數(shù)中心度就是與該數(shù)據(jù)集直接相連的其他數(shù)據(jù)集的個數(shù), 度數(shù)中心度高的數(shù)據(jù)集居于局部網(wǎng)絡(luò)的中心, 是其所在某個局部領(lǐng)域的核心數(shù)據(jù)集。GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的度數(shù)中心度前10 位的數(shù)據(jù)集信息, 如表2 所示。
由表2 可以看出, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的度數(shù)中心度前10 位的數(shù)據(jù)集公開時間分布于2002—2013 年。其中, 前4 位的數(shù)據(jù)集類型為平臺數(shù)據(jù),其余為系列數(shù)據(jù)。除美國生物芯片公司昂飛(Affy?metrix)、因美納(Illumina) 提供的商業(yè)數(shù)據(jù)集外,美國華盛頓大學(xué)共享的SARS 研究方面的數(shù)據(jù)集也得到了大量共被引, 體現(xiàn)出其在微生物及病毒研究方面的極強實力。
接近中心度是一種測度節(jié)點是否處于網(wǎng)絡(luò)核心位置的指標, 與度數(shù)中心度不同的是, 節(jié)點的連接數(shù)多少并不代表其是否處于整體網(wǎng)絡(luò)的核心位置。在GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)中, 數(shù)據(jù)集的接近中心度即數(shù)據(jù)集到網(wǎng)絡(luò)中所有其他數(shù)據(jù)集路徑長度之和的倒數(shù), 數(shù)據(jù)集的接近中心度越大, 該節(jié)點越接近網(wǎng)絡(luò)幾何結(jié)構(gòu)的中心位置。GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的接近中心度前10 位的數(shù)據(jù)集信息, 如表3 所示。
由表3 可以看出, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的接近中心度前10 位的數(shù)據(jù)集中, 公開時間分布于2002—2011 年, 共有4 個數(shù)據(jù)集也出現(xiàn)在度數(shù)中心度前10 位中, 包括GPL570、GPL96、GPL6244和GPL10558。其中, 平臺數(shù)據(jù)與系列數(shù)據(jù)各占5位, 除前文提到的兩個美國公司以外, 還出現(xiàn)了美國安捷倫(Agilent)、杰羅科(Gene Logic)等公司提供的商業(yè)數(shù)據(jù)集。其余發(fā)布機構(gòu)為科研機構(gòu)和大學(xué),包括荷蘭伊拉斯姆斯醫(yī)學(xué)中心、西奈山醫(yī)學(xué)院和臺灣大學(xué), 這些機構(gòu)和大學(xué)提供的肝癌、肺癌和腫瘤基因組數(shù)據(jù)集在各自的研究領(lǐng)域中都處于較為核心的位置, 對相關(guān)研究起到非常重要的關(guān)鍵作用。
中介中心度用于測量網(wǎng)絡(luò)個體對資源的控制程度, 即測量一個點在多大程度上位于圖中其他點對最短路徑的中間位置。在GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)中,如果一個數(shù)據(jù)集處于其他許多數(shù)據(jù)共被引對的捷徑上, 該數(shù)據(jù)集就具有較高的中介中心度。中介中心度與度數(shù)中心度沒有絕對的關(guān)聯(lián), 一個點度中心度相對較低的數(shù)據(jù)集也可能起到重要的“中介” 作用, 具有信息獲取優(yōu)勢和資源控制的重要地位。GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的中介中心度前10 位的數(shù)據(jù)集信息, 如表4 所示。
由表4 可以看出, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的中介中心度前10 位的數(shù)據(jù)集中, 公開時間分布于2002—2013 年, 這些數(shù)據(jù)集在GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)中的活躍度較高, 數(shù)據(jù)集之間的中轉(zhuǎn)較依賴于這些數(shù)據(jù)集。有39 486個數(shù)據(jù)集的中介中心度為0,表明近78 9%的數(shù)據(jù)集在網(wǎng)絡(luò)中極不活躍, 不承擔(dān)任何中介功能且對應(yīng)的度值也較低。除商業(yè)公司提供的平臺數(shù)據(jù)外, 由唐納德植物科學(xué)中心(Don?ald Danforth Plant Science Center)、北京大學(xué)、華盛頓大學(xué)、神經(jīng)分泌生物科學(xué)公司(Neurocrine Biosci?ences)共享的各類物種和病毒的基因組測序數(shù)據(jù)集在網(wǎng)絡(luò)中都具備較強的控制能力, 在跨物種的交叉研究中起到重要的中介作用。
3.3 網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)特征及演化分析
GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的最大連通子圖包含34 404個節(jié)點和2 135 286條邊, 對其進行社區(qū)劃分后共得到113 個社區(qū), 最優(yōu)模塊度Q = 0.683, 表明網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)顯著且劃分結(jié)果準確度高。113個社區(qū)中, 規(guī)模最大的社區(qū)包含7 970個數(shù)據(jù)集,規(guī)模最小的社區(qū)僅包含3 個數(shù)據(jù)集, 社區(qū)規(guī)模存在顯著異質(zhì)性, 社區(qū)的整體結(jié)構(gòu)分布如圖6 所示。
圖中節(jié)點大小與社區(qū)節(jié)點數(shù)量成正比, 由圖6可以發(fā)現(xiàn), 網(wǎng)絡(luò)中存在3 個大型社區(qū), 社區(qū)的節(jié)點數(shù)量均超過4000, 而排名前10 位的社區(qū)節(jié)點總數(shù)達到26 551, 約占網(wǎng)絡(luò)節(jié)點總數(shù)的77. 2%。以社區(qū)內(nèi)部節(jié)點間的共被引關(guān)系構(gòu)建獨立的社區(qū)共被引網(wǎng)絡(luò), 計算節(jié)點數(shù)量前10 位的社區(qū)網(wǎng)絡(luò)結(jié)構(gòu)指標,結(jié)果如表5 所示。
由表5 可知, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的社區(qū)內(nèi)部連通性和密度都好于整體網(wǎng)絡(luò), 規(guī)模較大的社區(qū)1和社區(qū)3 的平均聚集系數(shù)和網(wǎng)絡(luò)密度接近整體網(wǎng)絡(luò),但其他社區(qū)的網(wǎng)絡(luò)結(jié)構(gòu)指標均優(yōu)于整體網(wǎng)絡(luò)。尤其是社區(qū)4、社區(qū)8 和社區(qū)10 的平均度、網(wǎng)絡(luò)密度和平均聚集系數(shù)都較高, 表明這3 個社區(qū)內(nèi)部連接頻繁、聚集程度極高。10 個社區(qū)的平均路徑長度均值為3.077, 說明同一社區(qū)內(nèi)的兩個數(shù)據(jù)集只需經(jīng)過3 次連接就可以相互影響, 少于整體網(wǎng)絡(luò)的4次連接。網(wǎng)絡(luò)指標充分表明, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)穩(wěn)定, 內(nèi)部節(jié)點相互影響較深, 已經(jīng)形成多個數(shù)據(jù)共被引群體。
按照社區(qū)進行研究方向分析, 分別計算各個社區(qū)中數(shù)據(jù)集的樣本來源分布概率, 可得到GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)社區(qū)的樣本來源分布, 如表6 所示。
由表6 可知, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)社區(qū)的樣本來源呈現(xiàn)明顯的團體結(jié)構(gòu), 根據(jù)樣本來源可以較為清晰地分辨出各個社區(qū)的主要研究方向和研究內(nèi)容, 如社區(qū)3 的數(shù)據(jù)集主要用于淋巴細胞生物學(xué)相關(guān)的研究, 社區(qū)4 的數(shù)據(jù)集主要用于肺組織相關(guān)的癌癥及傳染疾病的研究, 社區(qū)5 的數(shù)據(jù)集主要用于植物方面的研究等, 社區(qū)分布具有較為明顯的研究領(lǐng)域集群特征。
按照社區(qū)進行研究機構(gòu)和科研合作分析, 分別計算各個社區(qū)中數(shù)據(jù)集貢獻機構(gòu)的分布概率, 可得到GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)社區(qū)的科研機構(gòu)分布, 如表7 所示。
由表7 可知, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)社區(qū)的科研機構(gòu)和科研合作呈現(xiàn)明顯的團體結(jié)構(gòu), 社區(qū)邊界清晰。除ENCODE 和布羅德研究所同屬于社區(qū)3和社區(qū)8 外, 各社區(qū)的科研機構(gòu)基本不存在重疊現(xiàn)象。如果某一個或幾個科研機構(gòu)在社區(qū)內(nèi)處于絕對的領(lǐng)先地位, 則代表該社區(qū)中的數(shù)據(jù)集基本來自于這些科研機構(gòu), 研究領(lǐng)域和科研方向具備高度集中性, 這也導(dǎo)致此類社區(qū)內(nèi)部的網(wǎng)絡(luò)密度和連通性極高, 數(shù)據(jù)集被共同引用情況頻繁, 如社區(qū)4 的華盛頓大學(xué)、社區(qū)8 的ENCODE 等。
按照社區(qū)進行測序平臺分析, 分別計算各個社區(qū)中數(shù)據(jù)集測序平臺的分布概率, 可得到GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)社區(qū)的測序平臺分布, 如表8 所示。
由表8 可知, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)社區(qū)的測序平臺也呈現(xiàn)較為明顯的團體結(jié)構(gòu), 除社區(qū)1 和社區(qū)2 使用GPL570 和GPL96 平臺較多外, 其他社區(qū)的數(shù)據(jù)集基本都來自于不同的測序平臺。對平臺數(shù)據(jù)進行進一步研究發(fā)現(xiàn), 同一社區(qū)內(nèi)部的平臺數(shù)據(jù)基本都來自于同一測序設(shè)備或設(shè)備制造公司。如社區(qū)3 的GPL11154、GPL13112、GPL9250 等平臺數(shù)據(jù)均出自因美納公司的Genome Analyzer、HiSeq 2000等基因測序設(shè)備, 社區(qū)4 的GPL6480、GPL7202、GPL4134 等平臺數(shù)據(jù)均出自安捷倫公司的測序產(chǎn)品。這種現(xiàn)象說明, 出自同一平臺或同一公司的數(shù)據(jù)進行處理與合并分析得到的效果更好, 可以避免前期數(shù)據(jù)處理的復(fù)雜問題, 因此常被用于同一項研究。
最后, 分別取2005 年、2010 年、2015 年、2020年為時間節(jié)點生成網(wǎng)絡(luò)的整體結(jié)構(gòu), 可以更加直觀看到網(wǎng)絡(luò)整體結(jié)構(gòu)的演化情況, 如圖7 所示。
根據(jù)圖7 可以看出, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)在2005 年初期發(fā)展階段, 由于數(shù)據(jù)的數(shù)量較少, 這些數(shù)據(jù)被共同引用的次數(shù)較多, 但總體結(jié)構(gòu)比較清晰, 甚至開始形成了兩個較大網(wǎng)絡(luò)社區(qū), 社區(qū)之間的界限也較為明顯。隨著數(shù)據(jù)的逐漸增多, 到2010年整個網(wǎng)絡(luò)的規(guī)模開始增大, 社區(qū)結(jié)構(gòu)仍然較為明顯, 各社區(qū)節(jié)點數(shù)量趨向均勻, 但社區(qū)之間的連接增多, 說明GEO 的數(shù)據(jù)的學(xué)科領(lǐng)域、物種、研究方向開始細分, 但不同領(lǐng)域的數(shù)據(jù)還存在關(guān)聯(lián), 因此常被共同使用和引用。到了2015 年, 網(wǎng)絡(luò)規(guī)模呈指數(shù)級增長, 但從整體來看, 網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)依然較為清晰, 社區(qū)與社區(qū)之間存在一定聯(lián)系, 但研究邊界依然存在。到2020 年, 網(wǎng)絡(luò)核心區(qū)域的社區(qū)已經(jīng)開始逐漸模糊, 各社區(qū)之間聯(lián)系明顯增強,網(wǎng)絡(luò)中也形成了幾個超大規(guī)模社區(qū), 占據(jù)了網(wǎng)絡(luò)的主要位置。
4結(jié)論
本研究以生物醫(yī)學(xué)領(lǐng)域著名基因表達數(shù)據(jù)庫GEO 中的科學(xué)數(shù)據(jù)集為研究對象, 以數(shù)據(jù)集為節(jié)點, 數(shù)據(jù)集之間的共被引關(guān)系為邊, 構(gòu)建了GEO數(shù)據(jù)共被引網(wǎng)絡(luò)。同時, 運用社會網(wǎng)絡(luò)分析方法對網(wǎng)絡(luò)的整體結(jié)構(gòu)演化和核心個體進行分析, 并在此基礎(chǔ)上運用Leiden 算法進行社區(qū)劃分, 進而分析其群體分布和結(jié)構(gòu)特征, 得到以下結(jié)論:
1) GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)的規(guī)模隨著時間增長迅速, 尤其是2014 年后隨著科學(xué)范式的發(fā)展轉(zhuǎn)變,網(wǎng)絡(luò)規(guī)模形成了指數(shù)級增長態(tài)勢。數(shù)據(jù)集的度和度分布差異明顯, 分布趨勢近似于冪律分布, 呈現(xiàn)出“無標度網(wǎng)絡(luò)” 特征。此外, GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)具有較短的平均路徑長度和較大的平均聚集系數(shù),網(wǎng)絡(luò)平均路徑長度僅為4.7, 意味著該網(wǎng)絡(luò)雖然規(guī)模龐大, 但大部分數(shù)據(jù)集之間都可以通過4 次中轉(zhuǎn)取得聯(lián)系, “小世界網(wǎng)絡(luò)” 特征明顯。
2) 知名生物技術(shù)公司提供的商業(yè)數(shù)據(jù)集在網(wǎng)絡(luò)中占據(jù)絕對的核心地位, GPL570、GPL96、GPL6244等平臺數(shù)據(jù)集均具備較大的接近中心度和中介中心度, 在網(wǎng)絡(luò)中處于幾何位置中心的同時也承擔(dān)了主要中介功能。另外, 78.9%的數(shù)據(jù)集在網(wǎng)絡(luò)中極不活躍, 不承擔(dān)任何中介功能且對應(yīng)的度值也較低,在網(wǎng)絡(luò)中處于邊緣的端點位置。
3) GEO 數(shù)據(jù)共被引網(wǎng)絡(luò)中的數(shù)據(jù)集可劃分為113 個社區(qū), 超過1 000個節(jié)點的社區(qū)有5 個, 100~1 000個節(jié)點的社區(qū)有29 個, 其余79 個社區(qū)包含的數(shù)據(jù)集節(jié)點在100 以內(nèi), 社區(qū)規(guī)模差異較大。社區(qū)內(nèi)部的網(wǎng)絡(luò)密度、平均聚集系數(shù)、平均路徑長度均優(yōu)于整體網(wǎng)絡(luò), 社區(qū)的結(jié)構(gòu)穩(wěn)定, 內(nèi)部節(jié)點相互影響程度深, 目前已經(jīng)形成了多個數(shù)據(jù)共被引群體。
4) 通過樣本來源、科研機構(gòu)和測序平臺的分布, 可以較為明顯地分析出社區(qū)形成的原因。首先,不同社區(qū)包含的樣本來源可以較為明顯地凸顯出社區(qū)所屬的研究領(lǐng)域; 其次, 不同社區(qū)的科研機構(gòu)也體現(xiàn)出了社區(qū)的研究領(lǐng)域和科研方向具備高度集中性, 與科研機構(gòu)的研究領(lǐng)域和合作方向有著緊密關(guān)聯(lián); 最后, 通過社區(qū)內(nèi)測序平臺的分布可以發(fā)現(xiàn),出自同一平臺或同一公司的數(shù)據(jù)進行處理與合并分析得到的效果更好, 因此常被科研人員用于同一項研究中。
5) 從網(wǎng)絡(luò)整體結(jié)構(gòu)演化趨勢看, GEO 數(shù)據(jù)知識擴散網(wǎng)絡(luò)的規(guī)模日益增大, 網(wǎng)絡(luò)中形成幾個超大規(guī)模社區(qū), 占據(jù)了主要的資源位置。網(wǎng)絡(luò)結(jié)構(gòu)變得日趨復(fù)雜, 社區(qū)與社區(qū)間的界限變得模糊, 信息交換變得更加頻繁, 不同領(lǐng)域、物種、平臺的數(shù)據(jù)被共同使用和引用的現(xiàn)象變得越來越多。
本文研究只針對GEO 數(shù)據(jù)庫中的科學(xué)數(shù)據(jù)集進行研究和建模, 研究范圍存在一定局限性。此外,對于數(shù)據(jù)引用網(wǎng)絡(luò)的研究目前還處于起步階段, 對于網(wǎng)絡(luò)的拓撲結(jié)構(gòu)特征以及網(wǎng)絡(luò)的演化過程關(guān)注較多。希望本文能夠為相關(guān)研究提供思路, 便于后續(xù)研究利用更深入的理論和技術(shù), 挖掘出科學(xué)數(shù)據(jù)引用更深層次的特征和規(guī)律。
(責(zé)任編輯: 郭沫含)