李成贊,黎建輝,王學志,沈志宏,杜一
(1.中國科學院計算機網(wǎng)絡(luò)信息中心,北京 100190;2.中國科學院大學,北京 100049)
科學數(shù)據(jù)是科研活動的輸入和產(chǎn)出,是科技創(chuàng)新的核心驅(qū)動要素。國際數(shù)據(jù)公司(International Data Corporation,IDC)最新報告“Data Age 2025”指出,全球信息化數(shù)據(jù)量以每兩年翻一番的速度快速增長,截至2020年,全球信息化數(shù)據(jù)存儲量達到47ZB。而全球僅有3%的潛在有價值的數(shù)據(jù)被開發(fā)利用,經(jīng)過深入分析和挖掘的數(shù)據(jù)則更少[1]。通過Data Citation Index(DCI)的統(tǒng)計分析數(shù)據(jù)進一步發(fā)現(xiàn),截至2018年年底,DCI中被引用過1次及以上的數(shù)據(jù)集僅占所收錄數(shù)據(jù)集的11.83%。
多項調(diào)查研究表明,數(shù)據(jù)用戶通過訪問存儲庫、機構(gòu)網(wǎng)站或者搜索引擎發(fā)現(xiàn)和獲取數(shù)據(jù)仍然是當前開放共享數(shù)據(jù)資源傳播的主要途徑[2-4]。在數(shù)據(jù)量激增、信息過載的大數(shù)據(jù)時代,被動地等待用戶檢索和發(fā)現(xiàn)數(shù)據(jù)的方式在一定程度上限制了數(shù)據(jù)的傳播和重用。
學術(shù)論文經(jīng)歷了超過350年的發(fā)展歷史[5],形成了超大規(guī)模的知識流動和信息傳播的復(fù)雜引文網(wǎng)絡(luò)。引文網(wǎng)絡(luò)中隱含了由文獻作者所組成的研究群體,該群體具有相似或相關(guān)的研究方向。通過復(fù)雜網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn),算法可以將引文網(wǎng)絡(luò)劃分成不同的研究群體[6-7]。
隨著科學數(shù)據(jù)愈加迫切的開放共享需求與數(shù)據(jù)出版物實際低下的傳播效率以及重復(fù)利用率之間的矛盾日益顯著,如何利用現(xiàn)有學術(shù)論文形成的復(fù)雜引文網(wǎng)絡(luò),向作為科學數(shù)據(jù)主要用戶的科研人員和學者進行數(shù)據(jù)資源的主動和精準推薦,以加速數(shù)據(jù)資源的傳播和重用,具有重要的研究價值和現(xiàn)實意義。
復(fù)雜網(wǎng)絡(luò)的研究工作起源已久。隨著計算機技術(shù)的發(fā)展,尤其是1998—1999年,Watts等[8]、Bar‐abási等[9]提出了小世界網(wǎng)絡(luò)模型和無標度網(wǎng)絡(luò)模型,開啟了復(fù)雜網(wǎng)絡(luò)研究的熱潮。眾多學者開始關(guān)注復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu)、特征、信息傳播機制、動力學原理等理論研究[10-12]。隨著復(fù)雜網(wǎng)絡(luò)理論研究的深入,越來越多的學者利用復(fù)雜網(wǎng)絡(luò)理論知識研究和探討政治選舉、疾病傳播預(yù)測、人口遷徙、碳排放、經(jīng)濟模式等現(xiàn)實問題[13-18]。
引文網(wǎng)絡(luò)作為一種典型的復(fù)雜網(wǎng)絡(luò),許多學者利用引文網(wǎng)絡(luò)開展中心性分析、路徑分析、聚類分析、知識傳播分析等研究工作[19-24]。在基于引文網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)研究方面,也已有相當長的一段歷史,1963年Kessler[25]提出了文獻耦合的概念;1973—1974年,Small等[26-27]提出了共引網(wǎng)絡(luò)的概念;1981年,White則首次提出作者共著的概念[28]。Huang等[29]學者利用引文網(wǎng)絡(luò)的共引和文獻耦合關(guān)系,開展領(lǐng)域前沿檢測研究。2004年,Newman[30]利用不同學科的論文作者信息,分析了作者之間協(xié)作關(guān)系的社區(qū)結(jié)構(gòu),并提出基于模塊度的層次社區(qū)結(jié)構(gòu)分類方法。2018年,韓青等[31]基于文獻共被引特征開展文獻相似度計算研究工作。此外,國內(nèi)外諸多學者還利用引文網(wǎng)絡(luò)開展學者、論文和期刊的影響力評價研究[32-34]。而在基于引文網(wǎng)絡(luò)的推薦研究方面,West等[35]基于論文引文網(wǎng)絡(luò)分層聚類方法,采用科學知識的層次結(jié)構(gòu),通過為不同的用戶建立多維關(guān)聯(lián)度進行論文推薦。Haruna等[36]通過研究基于共引關(guān)聯(lián)矩陣的相似性度量進行學術(shù)論文推薦。
總體來看,在復(fù)雜網(wǎng)絡(luò)的理論、模型、算法以及應(yīng)用等方面,已形成了蔚為可觀的研究成果,基于引文網(wǎng)絡(luò)的知識傳播、社區(qū)發(fā)現(xiàn)、影響力評價方面的研究同樣成效顯著。但是到目前為止,基于引文網(wǎng)絡(luò)利用社區(qū)發(fā)現(xiàn)方法進行數(shù)據(jù)資源推薦,改善開放共享數(shù)據(jù)資源傳播和重用現(xiàn)狀,并深入分析“合著、共引、耦合”不同關(guān)聯(lián)社區(qū)構(gòu)建方式,在數(shù)據(jù)推薦效果上的差異性方面,開展的深入研究和實踐工作則相對較少。
通過學術(shù)論文引文網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)算法,可以將引文網(wǎng)絡(luò)劃分成不同的社區(qū)網(wǎng)絡(luò)。每個社區(qū)網(wǎng)絡(luò)內(nèi)的研究群體具有相似或相關(guān)的研究方向。若能夠發(fā)現(xiàn)并驗證某數(shù)據(jù)資源對特定社區(qū)網(wǎng)絡(luò)中某個或某些學術(shù)論文具有研究或參考價值,則可以認為該社區(qū)網(wǎng)絡(luò)中的其他論文作者也可能會對該數(shù)據(jù)資源產(chǎn)生興趣,并據(jù)此向該社區(qū)網(wǎng)絡(luò)進行相應(yīng)數(shù)據(jù)資源的推薦,以充分利用引文網(wǎng)絡(luò)的知識傳播機制加速數(shù)據(jù)資源的傳播和重用。
如圖1所示,基于引文網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的數(shù)據(jù)推薦算法具體步驟為:
圖1 基于引文網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的數(shù)據(jù)推薦原理與步驟
(1)構(gòu)建引文網(wǎng)絡(luò)關(guān)聯(lián)模型,基于圖數(shù)據(jù)庫引擎建立學術(shù)論文的引文關(guān)聯(lián)網(wǎng)絡(luò);
(2)基于合著、共引、耦合關(guān)系,利用模塊度Louvain社區(qū)發(fā)現(xiàn)算法,發(fā)現(xiàn)具有相似或相關(guān)研究方向的社區(qū)網(wǎng)絡(luò);
(3)利用論文與數(shù)據(jù)集基于內(nèi)容相似性或引用等關(guān)系,分別建立數(shù)據(jù)集與3種引文社區(qū)網(wǎng)絡(luò)之間的關(guān)聯(lián);
(4)將與數(shù)據(jù)集建立起關(guān)聯(lián)的3種社區(qū)網(wǎng)絡(luò)中各論文節(jié)點,進行疊加去重后進行數(shù)據(jù)推薦。
如表1所示,為了開展研究,本文基于互聯(lián)網(wǎng)開放數(shù)據(jù)資源以及Web of Science核心數(shù)據(jù)庫獲得了以下測試數(shù)據(jù):
表1 待推薦測試數(shù)據(jù)集
(1)發(fā)布于PANGAEA、Dryad、美國國家海洋和大氣局NOAA(National Oceanic and Atmospheric Administration)等,并在Earth System Science Data(ESSD)數(shù)據(jù)期刊上以數(shù)據(jù)論文方式進行出版的8個數(shù)據(jù)集,用作待推薦測試數(shù)據(jù)集;
(2)8個數(shù)據(jù)集的施引學術(shù)論文共計1001篇,用于推薦算法效果的測試與驗證;
(3)ESSD期刊中論文的施引論文5037篇,以及此5037篇論文的施引論文53809篇和參考文獻337483篇,用于學術(shù)論文引文網(wǎng)絡(luò)模型構(gòu)建以及基于社區(qū)發(fā)現(xiàn)進行數(shù)據(jù)推薦測試。
針對數(shù)據(jù)集、論文、作者以及三者相互之間的引用、發(fā)表、合作等關(guān)系構(gòu)建關(guān)聯(lián)知識網(wǎng)絡(luò),將數(shù)據(jù)集、論文作者等實體以及實體間關(guān)聯(lián),表示為一個頂點集以及頂點集的鄰接鏈表,每個鄰接鏈表存儲一個頂點的所有邊,并采用標準化的圖結(jié)構(gòu)描述實體頂點及其關(guān)聯(lián)邊。具體引文關(guān)聯(lián)網(wǎng)絡(luò)模型設(shè)計如圖2所示。
圖2 引文關(guān)聯(lián)網(wǎng)絡(luò)模型
為了存儲引文網(wǎng)絡(luò)數(shù)據(jù)信息,并且方便基于引文網(wǎng)絡(luò)開展社區(qū)發(fā)現(xiàn)工作,本文選擇圖數(shù)據(jù)庫Neo4j作為引文網(wǎng)絡(luò)數(shù)據(jù)的存儲方案。圖數(shù)據(jù)庫善于處理大規(guī)模、復(fù)雜、互連接的數(shù)據(jù)。如圖3所示,相比采用傳統(tǒng)關(guān)系型數(shù)據(jù)庫,基于圖數(shù)據(jù)庫的關(guān)聯(lián)查詢時間復(fù)雜度可以保持在常數(shù)級別。此外,Neo4j還提供了高效的圖算法、推薦系統(tǒng)和OLAP(online analytical processing)風格的分析服務(wù)[37]。
圖3 關(guān)系型數(shù)據(jù)庫與圖數(shù)據(jù)庫算法復(fù)雜性對比
表2以數(shù)據(jù)集頂點為例,展示了引文關(guān)聯(lián)網(wǎng)絡(luò)模型中實體的形式化表達。表3給出了數(shù)據(jù)集與引文網(wǎng)絡(luò)關(guān)聯(lián)關(guān)系,即頂點間的關(guān)聯(lián)邊的形式化表達。
表2 數(shù)據(jù)集頂點實體模型
表3 數(shù)據(jù)集與引文網(wǎng)絡(luò)關(guān)聯(lián)關(guān)系模型
1)合著網(wǎng)絡(luò)
如圖4所示,基于合著關(guān)系的關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建原理為:如果兩名作者存在過論文合作關(guān)系,那么說明兩名作者存在一定的關(guān)聯(lián)性。兩名作者合作的論文數(shù)量越多,則說明這兩名作者關(guān)系越緊密。
圖4 基于合著關(guān)系構(gòu)建關(guān)聯(lián)
2)共引網(wǎng)絡(luò)
如圖5所示,基于共引關(guān)系的關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建原理為:如果兩篇論文同時被某篇論文所引用,那么說明這兩篇論文存在一定的關(guān)聯(lián)性。兩篇論文同被引次數(shù)越高,說明這兩篇論文的相似性或者關(guān)聯(lián)度越高。
圖5 基于共引關(guān)系構(gòu)建關(guān)聯(lián)
3)耦合網(wǎng)絡(luò)
如圖6所示,基于耦合關(guān)系的關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建原理為:如果兩篇論文有相同的參考文獻,那么說明這兩篇論文存在一定的關(guān)聯(lián)性。兩篇論文相同的參考文獻數(shù)量越多,則說明這兩篇論文的相似性或者關(guān)聯(lián)度越高。
圖6 基于耦合關(guān)系構(gòu)建關(guān)聯(lián)
目前,常用的社區(qū)發(fā)現(xiàn)算法包括:圖分割、層次聚類、劃分優(yōu)化以及標簽傳播等社區(qū)發(fā)現(xiàn)算法[38-39]。本文基于引文網(wǎng)絡(luò)所開展的社區(qū)發(fā)現(xiàn)工作,主要采用基于模塊度的Louvain算法實現(xiàn)。該算法的優(yōu)點是高效并且準確,被公認是性能最好的社區(qū)發(fā)現(xiàn)算法之一[40]。
模塊度和模塊度增量是Louvain算法中兩個最主要的參數(shù)。其中,模塊度Q用于描述劃分的社區(qū)內(nèi)部節(jié)點的緊密程度,是評價社區(qū)劃分效果的重要指標。其計算公式[41]為
其中,m表示網(wǎng)絡(luò)中邊的總數(shù);A表示節(jié)點間的重,若網(wǎng)絡(luò)中未引入權(quán)重,則Aij=1;ki表示節(jié)點k的度;σ(ci,cj)表示判斷社區(qū)ci與社區(qū)cj,如果是同一個社區(qū),則取值為1,否則,取值為0。
在利用Louvain算法進行社區(qū)劃分過程中,對每個節(jié)點i,依次嘗試把節(jié)點i分配到其每個鄰居節(jié)點所在的社區(qū),并計算分配前后的模塊度增量ΔQ,其簡化后的計算公式為
其中,ki,in表示社區(qū)c內(nèi)節(jié)點與節(jié)點i的邊權(quán)重之和;表示與社區(qū)c內(nèi)的節(jié)點相連的邊的權(quán)重之和。
數(shù)據(jù)集與社區(qū)網(wǎng)絡(luò)之間關(guān)聯(lián)的構(gòu)建,是在引文網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)工作完成之后,整個數(shù)據(jù)推薦算法至關(guān)重要的一環(huán)。能否通過關(guān)聯(lián)構(gòu)建將數(shù)據(jù)集引導到真正對其感興趣的社區(qū)網(wǎng)絡(luò)是決定數(shù)據(jù)推薦最終成效的關(guān)鍵。構(gòu)建數(shù)據(jù)集與引文社區(qū)網(wǎng)絡(luò)之間的關(guān)聯(lián)關(guān)系可以有引用、相似性度量等方式。由于引用關(guān)系存在時間滯后性和不確定性,在數(shù)據(jù)集發(fā)布的最初階段,主要采用相似性度量方式構(gòu)建關(guān)聯(lián);當數(shù)據(jù)集發(fā)表超過一定時間,并出現(xiàn)施引論文時,亦可采用引用關(guān)系進行關(guān)聯(lián)構(gòu)建。
本文主要采用相似性度量方式,構(gòu)建數(shù)據(jù)集與引文社區(qū)網(wǎng)絡(luò)之間的關(guān)聯(lián),具體構(gòu)建方法為:首先,基于向量空間模型對數(shù)據(jù)集和論文的標題與摘要信息進行矢量化與特征提取;其次,在特征提取過程中,利用TF-IDF算法進行詞向量權(quán)值計算;最后,利用余弦相似度計算數(shù)據(jù)集與引文網(wǎng)絡(luò)中論文的相似度。
向量空間模型(vector space model,VSM)是自然語言處理中一種常用的模型,該模型由Gerard Salto等于1969年提出[42]。向量空間模型VSM將文本內(nèi)容映射為一個特征向量V(d)=(t1,w1(d);…;tn,wn(d)),其 中ti(i=1,2,…,n)為 一 列 詞 條 項,wi(d)為ti在文檔d中的權(quán)值[42]。
TF-IDF(term frequency-inverse document fre‐quency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。字詞的重要性與其在單文本內(nèi)容中出現(xiàn)的次數(shù)成正比,同時也與其在整個語料庫中出現(xiàn)的頻率成反比[43]。TF-IDF的計算公式為
其中,ni,j是該詞ti在文檔dj中的出現(xiàn)次數(shù);是在文檔中所有字詞的出現(xiàn)次數(shù)之和;|D|表示語料庫中的文檔總數(shù);|{j:ti∈dj}|指包含詞語ti的文檔數(shù)目,為避免被除數(shù)為零,一般情況下使用1+|{j:ti∈dj}|。
在特征提取過程中,由于選取的測試數(shù)據(jù)集和論文均為英文格式,因此,直接選擇空格進行分詞操作。為了提高相似性度量的準確度,本文在進行特征提取時,需要對a、the、of等常用詞進行停用處理,同時,還需要對英文的標點符號和數(shù)字等通過正則表達式方式進行清除。
此外,數(shù)據(jù)集di與論文dj之間的相似性度量采用余弦相似性進行實現(xiàn),具體計算公式[44]為
其中,wk(di)表示數(shù)據(jù)集di描述信息中詞k的權(quán)重,該權(quán)重由公式(3)計算所得。
本文首先基于實驗數(shù)據(jù)進行了引文關(guān)聯(lián)網(wǎng)絡(luò)的構(gòu)建,然后分別從合著、共引和耦合三種網(wǎng)絡(luò)關(guān)聯(lián)方式利用基于模塊度的Louvain社區(qū)發(fā)現(xiàn)算法完成了社區(qū)發(fā)現(xiàn)工作。為了提高社區(qū)內(nèi)論文間的相關(guān)度、減少社區(qū)規(guī)模,本文選擇當兩篇論文出現(xiàn)共被引次數(shù)超過4次(含)以上時,構(gòu)建兩篇論文的共引關(guān)聯(lián);當兩篇論文相同的參考文獻超過5篇(含)時,構(gòu)建兩篇論文的耦合關(guān)系?;谌N關(guān)系的社區(qū)發(fā)現(xiàn)最終結(jié)果如圖7所示。此外,圖7還展示了待推薦數(shù)據(jù)集與社區(qū)網(wǎng)絡(luò)之間通過相似性度量或者引用關(guān)系構(gòu)建關(guān)聯(lián)的示例效果。
圖7 引文網(wǎng)絡(luò)三種社區(qū)發(fā)現(xiàn)效果與數(shù)據(jù)集推薦示例
利用引文網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn),對實驗數(shù)據(jù)進行推薦的效果如表4所示。本文在基于標題和摘要進行相似性度量以構(gòu)建數(shù)據(jù)集與引文社區(qū)網(wǎng)絡(luò)的關(guān)聯(lián)時,選擇關(guān)聯(lián)數(shù)據(jù)論文的條件為相似度>0.50,如果相似度>0.50的論文數(shù)量超過5個,那么選擇相似度最高的5個論文構(gòu)建關(guān)聯(lián)。由表4可知,在基于相似度的關(guān)聯(lián)構(gòu)建方式下,除了數(shù)據(jù)集4推薦效果較差外,其他7個數(shù)據(jù)集的推薦論文中,覆蓋真實施引論文的概率均超過60%,平均覆蓋率為80.02%。這說明了通過相似度進行數(shù)據(jù)集與引文社區(qū)網(wǎng)絡(luò)之間的關(guān)聯(lián)關(guān)系構(gòu)建,能夠有效的將待推薦數(shù)據(jù)集正確引導至可能對其感興趣的社區(qū)網(wǎng)絡(luò)中。針對推薦效果較差的數(shù)據(jù)集4,本文進一步通過選擇該數(shù)據(jù)集的第一篇施引論文,作為數(shù)據(jù)集與引文社區(qū)網(wǎng)絡(luò)的關(guān)聯(lián)構(gòu)建方式。在該關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建方式下,數(shù)據(jù)集4的真實施引論文被推薦到的覆蓋率達到了80.38%,這一定程度上說明了基于被引關(guān)系構(gòu)建數(shù)據(jù)集與引文社區(qū)網(wǎng)絡(luò)間關(guān)聯(lián)的方法同樣有效。本文未計算推薦算法的查準率,主要是由于目前尚無法確認數(shù)據(jù)集對推薦的未施引論文沒有價值。這些被推薦而未施引的論文也可能是這些數(shù)據(jù)集的潛在感興趣用戶,該推測尚有待做進一步驗證。
表4 基于引文網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的數(shù)據(jù)推薦效果
另外,通過合著、共引和耦合三種關(guān)聯(lián)網(wǎng)絡(luò),利用社區(qū)發(fā)現(xiàn)算法所構(gòu)建的社區(qū)網(wǎng)絡(luò)對最終推薦效果的影響程度來看,基于耦合關(guān)系構(gòu)建的社區(qū)網(wǎng)絡(luò)貢獻度最大,且最穩(wěn)定;合著關(guān)系次之。而基于共引關(guān)系構(gòu)建的社區(qū)網(wǎng)絡(luò),因受數(shù)據(jù)集發(fā)布時間長短和數(shù)據(jù)集真實被引用次數(shù)的影響而效果差異較大。
數(shù)據(jù)開放共享的目的是重用,而當前數(shù)據(jù)出版物的利用率和傳播效率整體偏低。為了加速科學數(shù)據(jù)的傳播和重用,提升科學數(shù)據(jù)開放共享成效,本文提出了一種基于引文網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的數(shù)據(jù)推薦方法。該方法首先通過構(gòu)建“數(shù)據(jù)集-論文-作者”之間的關(guān)聯(lián)網(wǎng)絡(luò),利用Louvain算法分別從合著、共引和耦合三種關(guān)聯(lián)方式進行社區(qū)發(fā)現(xiàn);然后,通過數(shù)據(jù)集與學術(shù)論文的標題及描述信息,基于TF-IDF算法與余弦相似性度量,構(gòu)建數(shù)據(jù)集與學術(shù)論文引文網(wǎng)絡(luò)社區(qū)間的關(guān)聯(lián),并以此進行數(shù)據(jù)推薦。從實驗結(jié)果可見,測試數(shù)據(jù)集所推薦的論文中,真實施引論文平均覆蓋率超過了80%,這說明了基于引文網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的數(shù)據(jù)推薦方法,能夠有效發(fā)現(xiàn)數(shù)據(jù)集潛在感興趣的論文或作者。同時,可以發(fā)現(xiàn)在數(shù)據(jù)推薦效果的貢獻度和穩(wěn)定性方面,基于耦合關(guān)系的社區(qū)發(fā)現(xiàn)表現(xiàn)最優(yōu),合著關(guān)系次之,而引用關(guān)系則受出版時間長短和被引次數(shù)的影響導致效果差異較大。
基于引文網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的數(shù)據(jù)推薦方法,在真實施引論文被成功推薦的查全率方面表現(xiàn)良好。但是,該方法仍然存在進一步研究和優(yōu)化的空間。首先,在數(shù)據(jù)推薦結(jié)果的查準率方面,對于進行了數(shù)據(jù)集推薦的未施引論文是否對推薦數(shù)據(jù)集感興趣,是否可以成為推薦數(shù)據(jù)集的潛在使用對象,亦或者推薦的數(shù)據(jù)集對未施引論文是否完全沒有價值,尚有待進一步研究和驗證。另外,在數(shù)據(jù)推薦算法中,可以進一步引入權(quán)重計算,并根據(jù)待推薦論文與數(shù)據(jù)集的關(guān)聯(lián)路徑距離以及論文在社區(qū)網(wǎng)絡(luò)中的重要程度優(yōu)化推薦策略。
最后,本文希望通過基于引文網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的數(shù)據(jù)推薦方法的研究和實踐工作,能夠充分利用現(xiàn)有學術(shù)論文經(jīng)過幾百年的發(fā)展歷史所形成的龐大引文網(wǎng)絡(luò)和完善的知識傳播機制,推動開放科學數(shù)據(jù)的傳播和重用,為提高科學數(shù)據(jù)開放共享水平,以及促進科技創(chuàng)新和經(jīng)濟社會發(fā)展做出貢獻。