劉家強 何 鈺 郭玉潔 張文博 吳 超 周英華 丁青艷
(1. 中國科學(xué)技術(shù)大學(xué)計算機科學(xué)與技術(shù)學(xué)院,安徽合肥 230026;2. 中國科學(xué)技術(shù)大學(xué)網(wǎng)絡(luò)信息中心,安徽合肥 230026;3. 山東省計算中心(國家超級計算濟南中心),山東濟南 250014)
隨著知識經(jīng)濟時代的到來,科技服務(wù)業(yè)蓬勃發(fā)展,為社會提供了高效的支持??萍挤?wù)的有效實施建立在豐富多元的科技資源[1-4]之上,科技資源共享有利于科技服務(wù)的普及,促進科技成果轉(zhuǎn)化,帶動科技的創(chuàng)新發(fā)展,且與經(jīng)濟發(fā)展具有強相關(guān)性[5-7]??萍挤?wù)資源是科技服務(wù)過程中的相關(guān)資源,是科技資源的重要組成部分[3],為科技服務(wù)中的供需雙方提供了溝通和合作的橋梁。然而,科技服務(wù)信息化平臺基礎(chǔ)建設(shè)還遠(yuǎn)未達(dá)到完善的地步。在信息技術(shù)日益發(fā)達(dá)的形勢下,各地的企業(yè)和機構(gòu)缺乏統(tǒng)一的信息系統(tǒng),這些分散的系統(tǒng)之間沒有統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,致使科技服務(wù)資源分散,資源集成化不高,用戶在尋求科技服務(wù)資源時操作成本較高,服務(wù)效率較低,甚至很難知曉目標(biāo)資源的存在與否,難以做到高效的科技服務(wù)資源共享。
為了更好地建立科技服務(wù)資源共建、共享、共用平臺,急需將分散異構(gòu)的科技服務(wù)資源進行抽取存儲,形成重點領(lǐng)域和產(chǎn)業(yè)集群的科技服務(wù)資源池。然而,科技服務(wù)資源分散在各個不同的地理位置,數(shù)量繁多且格式不統(tǒng)一,給科技服務(wù)資源池的構(gòu)建帶來了很大的難度。制訂良好的數(shù)據(jù)規(guī)范,不僅可以有效地描述科技服務(wù)資源,也可以保障高效集成科技服務(wù)資源。鑒于此,本文將選取知識產(chǎn)權(quán)和科技咨詢兩類科技服務(wù)資源進行元數(shù)據(jù)描述方案的設(shè)計,分析知識產(chǎn)權(quán)服務(wù)資源和科技咨詢服務(wù)資源的實體屬性和實體間聯(lián)系,進而設(shè)計元數(shù)據(jù)核心元素,以更高效地集成區(qū)域內(nèi)的科技服務(wù)資源,更好地服務(wù)于科技服務(wù)共享。
科技服務(wù)資源對科技活動具有十分廣泛的支撐作用,涉及領(lǐng)域廣泛,是科技服務(wù)業(yè)的重要組成部分。根據(jù)國務(wù)院科技服務(wù)業(yè)相關(guān)出臺的文件精神[8],科技服務(wù)資源可以分為研發(fā)設(shè)計、技術(shù)轉(zhuǎn)移、檢驗檢測認(rèn)證、知識產(chǎn)權(quán)、產(chǎn)業(yè)孵化、科技金融、軍民融合、科技咨詢服務(wù)資源,如圖1所示。其中,研發(fā)設(shè)計資源主要面向科研團隊,包含了科研項目申報政策、科研服務(wù)團隊信息和大型儀器設(shè)備信息;技術(shù)轉(zhuǎn)移資源集成了科技企業(yè)的技術(shù)需求和技術(shù)成果,旨在幫助用戶更好地實現(xiàn)技術(shù)成果的轉(zhuǎn)移和技術(shù)需求的對接;檢驗檢測認(rèn)證資源匯集了檢驗檢測機構(gòu)等信息;知識產(chǎn)權(quán)資源主要包含了專利資源、專利申請代理商信息和商標(biāo)申請代理商信息;產(chǎn)業(yè)孵化資源旨在更好地幫助創(chuàng)業(yè)項目提供更好的發(fā)展環(huán)境,能有效地幫助創(chuàng)業(yè)者和創(chuàng)業(yè)園區(qū)之間的對接,促進大眾創(chuàng)業(yè);科技金融資源旨在為用戶提供科技金融咨詢和數(shù)據(jù)服務(wù),主要包括科技金融機構(gòu)發(fā)布的融資信息,來自企業(yè)的帶寬需求等;軍民融合資源內(nèi)容主要包括民參軍自測服務(wù)、民參軍可行性分析服務(wù)、軍地需求對接服務(wù)、資質(zhì)輔導(dǎo)服務(wù)、軍地專家服務(wù)、項目申報咨詢等;科技咨詢服務(wù)資源包含了專家?guī)?、專家信息和專家的成果信息等?/p>
圖1 科技服務(wù)資源分類
我國科技產(chǎn)業(yè)眾多,科技服務(wù)資源類型多樣,存在形式復(fù)雜,并且學(xué)科領(lǐng)域涉及廣泛。隨著社會和科技的演進,各省市的科技服務(wù)產(chǎn)業(yè)自成體系,科技服務(wù)資源在各地各機構(gòu)以不同形式不同結(jié)構(gòu)存放,并且各區(qū)域的經(jīng)濟和科技發(fā)展程度不一,當(dāng)前我國的科技服務(wù)資源松散孤立、缺少有效的互通協(xié)作和同步管理、資源集成度不高、利用率較低,致使科技服務(wù)開展困難,科技成果轉(zhuǎn)化緩慢。目前,科技服務(wù)資源還不能全面滿足多樣化協(xié)同共享的需求,深入研究集成這些分散異構(gòu)、復(fù)雜多樣的科技服務(wù)資源,是高效科技服務(wù)資源共享的必要條件[9]。
設(shè)計元數(shù)據(jù)規(guī)范是實現(xiàn)科技服務(wù)資源集成的有效手段,在科技服務(wù)資源池接入整合科技服務(wù)資源中發(fā)揮了重要作用。如圖2所示,在中原城市群綜合科技服務(wù)資源池的構(gòu)建中,元數(shù)據(jù)規(guī)范在資源接入和整合的過程中發(fā)揮了重要作用。整體而言,面對多源異構(gòu)的科技服務(wù)資源,元數(shù)據(jù)規(guī)范為數(shù)據(jù)抽取提供了規(guī)范化的標(biāo)準(zhǔn),有效解決了數(shù)據(jù)之間描述不一致的問題。此外,根據(jù)領(lǐng)域特點和業(yè)務(wù)需要,選取合理的元數(shù)據(jù)分類將更加有利于科技服務(wù)資源的關(guān)聯(lián)聚合和上游業(yè)務(wù)開發(fā),如管理元數(shù)據(jù)、服務(wù)元數(shù)據(jù)及技術(shù)元數(shù)據(jù)。對于抽取到的科技服務(wù)資源,資源池對其進一步完成元數(shù)據(jù)識別、數(shù)據(jù)清洗等標(biāo)準(zhǔn)化過程,最終以持久化的方式存儲于數(shù)據(jù)庫中,為上層的科技資源服務(wù)提供有效的支撐。
圖2 中原城市群科技服務(wù)資源池資源集成框架
從上述中原城市群科技服務(wù)資源池的例子可以看出,良好的元數(shù)據(jù)規(guī)范設(shè)計是科技服務(wù)資源集成的保障。本文將以知識產(chǎn)權(quán)及科技咨詢科技服務(wù)資源為例,對其進行分析并設(shè)計元數(shù)據(jù)規(guī)范,為集成科技服務(wù)資源提供基礎(chǔ)依據(jù),推動實現(xiàn)科技服務(wù)資源的協(xié)同共享。
合理準(zhǔn)確的元數(shù)據(jù)規(guī)范設(shè)計是科技服務(wù)資源接入集成的高效保障,也是科技服務(wù)平臺為用戶提供科技服務(wù)的有力要素。簡而言之,科技服務(wù)可以理解為用戶與其感興趣的科技服務(wù)資源進行定位匹配的一個過程。然而,現(xiàn)有的科技服務(wù)資源數(shù)據(jù)往往規(guī)模龐大,尚未得到較好的分類整理,用戶難以快速準(zhǔn)確地對目標(biāo)科技服務(wù)資源進行定位和評估,科技服務(wù)效率較低。因此,科技服務(wù)資源元數(shù)據(jù)規(guī)范的設(shè)計原則為:使用簡潔易復(fù)用的描述抽取科技服務(wù)資源的關(guān)鍵信息,在數(shù)據(jù)集成的過程中消除冗余和解決數(shù)據(jù)規(guī)范不統(tǒng)一的問題,方便用戶能夠快速地檢索到所需科技服務(wù)資源。在此原則上,本節(jié)以知識產(chǎn)權(quán)服務(wù)資源和科技咨詢服務(wù)資源為例,對科技服務(wù)資源元數(shù)據(jù)規(guī)范的設(shè)計方法、流程及結(jié)果進行敘述。
在進行數(shù)據(jù)規(guī)范設(shè)計時,了解科技服務(wù)資源的有關(guān)實體及其屬性是十分必要的。本節(jié)將對知識產(chǎn)權(quán)服務(wù)資源和科技咨詢服務(wù)資源兩個領(lǐng)域進行調(diào)查分析,識別其中的實體和相關(guān)屬性及實體之間的關(guān)系,以幫助設(shè)計準(zhǔn)確的科技服務(wù)資源元數(shù)據(jù)規(guī)范。
(1)科技服務(wù)資源實體概況
和其他服務(wù)行業(yè)一樣,科技服務(wù)同樣由服務(wù)供給方和服務(wù)需求方組成。如針對知識產(chǎn)權(quán)和科技咨詢領(lǐng)域:專利/商標(biāo)代理商在自己的網(wǎng)站上發(fā)布信息,提供如服務(wù)類型、服務(wù)流程及機構(gòu)基本信息等;知網(wǎng)等信息平臺根據(jù)專家信息進行分類整理,為用戶提供檢索查詢?nèi)肟凇7?wù)需求方則根據(jù)自己的需求尋求匹配的服務(wù)提供方。根據(jù)對知識產(chǎn)權(quán)和科技咨詢服務(wù)的現(xiàn)狀,將其中的實體歸納為兩類:一是組織機構(gòu)實體,主要包括提供服務(wù)的機構(gòu)或?qū)<宜鶎賳挝?,比如專利代理商、商?biāo)代理商、科技咨詢平臺、專家在職單位等;二是知識產(chǎn)權(quán)成果實體,主要包括如專利、商標(biāo)、專家發(fā)表的文獻(xiàn)出版物等。
(2)科技服務(wù)資源實體詳細(xì)屬性
知識產(chǎn)權(quán)服務(wù)資源主要包括專利信息、軟件著作權(quán)信息、商標(biāo)信息及相關(guān)的申請代理商。在知識產(chǎn)權(quán)領(lǐng)域方面,國家知識產(chǎn)權(quán)局政務(wù)服務(wù)平臺[10]、中國知網(wǎng)[11]專利檢索板塊、萬方數(shù)據(jù)[12]專利檢索板塊、中國商標(biāo)網(wǎng)[13]等信息共享平臺覆蓋了主要的知識產(chǎn)權(quán)服務(wù)資源信息。這些信息共享平臺的運行模式大致相同:首先由知識產(chǎn)權(quán)申請者準(zhǔn)備申請材料,材料中包括對該知識產(chǎn)權(quán)的詳細(xì)描述;然后直接提交,或者轉(zhuǎn)交第三方代理,由代理提交給審核方;最后審核通過后將被展示在信息共享平臺,信息展示平臺將根據(jù)資源的類別和內(nèi)容進行整理,以方便快捷的方式供需求方檢索。
根據(jù)對知識產(chǎn)權(quán)領(lǐng)域相關(guān)信息共享平臺的分析歸納,相關(guān)實體、實體屬性及實體間聯(lián)系如圖3所示。
圖3 知識產(chǎn)權(quán)科技服務(wù)資源相關(guān)實體屬性及實體間聯(lián)系
在科技咨詢領(lǐng)域方面,常見的服務(wù)模式為咨詢請求方直接或者通過中間平臺聯(lián)系專家,向?qū)<颐枋銎渥稍冃枨?,而后專家給出咨詢意見??萍甲稍冾I(lǐng)域主要的信息資源為各領(lǐng)域的專家信息,常見的可以檢索到專家信息的平臺有:萬方數(shù)據(jù)的中國科技專家?guī)靃14]、中國知網(wǎng)的CNKI學(xué)者庫[15]、百度學(xué)術(shù)[16]的學(xué)者主頁及各高校教師信息板塊中或者專家自建的個人主頁等。對于這些平臺,主要有兩種方式運行:一是專家主動注冊,填寫個人信息并展示給外界;二是平臺通過智能算法提取出數(shù)據(jù)庫中相關(guān)成果的相關(guān)專家信息,使兩者相關(guān)聯(lián)。
在分析學(xué)者庫及專家主頁方面,專家信息主要可以分為4類:①個人基本信息,如姓名、年齡、聯(lián)系方式等;②工作信息,包括工作單位、職稱及其主要從事的領(lǐng)域;③履歷信息,如求學(xué)經(jīng)歷、項目研發(fā)經(jīng)歷;④獎勵榮譽經(jīng)歷,指該專家獲得過的各種獎項榮譽,表示其在領(lǐng)域內(nèi)的權(quán)威度。經(jīng)過分析歸納,科技咨詢服務(wù)資源相關(guān)實體屬性及實體間聯(lián)系如圖4所示。
圖4 科技咨詢服務(wù)資源相關(guān)實體屬性及實體間聯(lián)系
盡管有很多信息共享平臺提供了豐富的知識產(chǎn)權(quán)服務(wù)資源和科技咨詢服務(wù)資源,但是目前仍存在許多尚未被集成的相關(guān)資源。此外,這些信息共享平臺往往對資源的描述不盡一致,沒有統(tǒng)一的規(guī)范,彼此之間容易形成數(shù)據(jù)孤島。通過抽取這些信息共享平臺之間共同的實體及實體屬性和實體間聯(lián)系,有利于設(shè)計統(tǒng)一的數(shù)據(jù)規(guī)范,更好地幫助數(shù)據(jù)集成,從而實現(xiàn)資源共享。
元數(shù)據(jù)是關(guān)于數(shù)據(jù)的信息,是具有描述、解釋、定位信息資源功能的結(jié)構(gòu)化信息,是說明數(shù)據(jù)內(nèi)容、質(zhì)量、狀況及其他有關(guān)特征的描述信息[17]。元數(shù)據(jù)規(guī)范了資源數(shù)據(jù)的使用,為多源異構(gòu)數(shù)據(jù)的管理提供了便利。本節(jié)將結(jié)合上一小節(jié)對知識產(chǎn)權(quán)服務(wù)資源和科技咨詢服務(wù)資源的實體分析,設(shè)計出適用的元數(shù)據(jù)規(guī)范,為科技服務(wù)資源集成和共享提供更好的幫助。本文將實體的屬性轉(zhuǎn)化為3種元數(shù)據(jù),即管理元數(shù)據(jù)、服務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)。其中,管理元數(shù)據(jù)主要用于管理資源池中科技服務(wù)資源的基本屬性;服務(wù)元數(shù)據(jù)對科技服務(wù)資源的類別和概況進行規(guī)范描述,使得需求方可以快速匹配需求;技術(shù)元數(shù)據(jù)用于描述其他更為詳細(xì)的科技服務(wù)資源。
基于上一小節(jié)對實體信息的歸納和總結(jié),對知識產(chǎn)權(quán)元素集和專家基本信息元素集分級整理如圖5、圖6所示。在設(shè)計科技服務(wù)資源元數(shù)據(jù)規(guī)范時,已有的元數(shù)據(jù)標(biāo)準(zhǔn)可以作為參考標(biāo)準(zhǔn),如都柏林核心元數(shù)據(jù)標(biāo)準(zhǔn)[18]、FOAF[19]等元數(shù)據(jù)標(biāo)準(zhǔn)。盡管這些元數(shù)據(jù)標(biāo)準(zhǔn)簡單明了,具有通用性,但是這些通用的元數(shù)據(jù)標(biāo)準(zhǔn)對科技服務(wù)資源領(lǐng)域特性仍缺少完善的考慮。
圖5 知識產(chǎn)權(quán)元素集
圖6 專家基本信息元素集
除了這些通用的元數(shù)據(jù)標(biāo)準(zhǔn),也存在一些具有較強領(lǐng)域特性的元數(shù)據(jù)標(biāo)準(zhǔn),如FGDC、ISO/TC 211、Darwin Core、CF等,這些元數(shù)據(jù)標(biāo)準(zhǔn)在諸如地理、生物、氣象學(xué)等領(lǐng)域得到了廣泛應(yīng)用。針對科技服務(wù)資源領(lǐng)域,本文參考已有的元數(shù)據(jù)標(biāo)準(zhǔn),設(shè)計知識產(chǎn)權(quán)和科技咨詢服務(wù)資源元數(shù)據(jù)規(guī)范,如表1、表2所示。
表1 知識產(chǎn)權(quán)服務(wù)資源元數(shù)據(jù)規(guī)范
表2 科技咨詢服務(wù)資源元數(shù)據(jù)規(guī)范
元數(shù)據(jù)規(guī)范在科技服務(wù)共享平臺中發(fā)揮著重要的作用。本節(jié)以中原城市群綜合科技服務(wù)平臺[21]為例,簡要說明元數(shù)據(jù)規(guī)范在其中的應(yīng)用。
圖7展示了中原城市群綜合科技服務(wù)平臺整體的數(shù)據(jù)交互過程,根據(jù)資源特點和業(yè)務(wù)需求,平臺制定相應(yīng)的元數(shù)據(jù)規(guī)范,并將元數(shù)據(jù)存放于元數(shù)據(jù)庫,由元數(shù)據(jù)管理系統(tǒng)對其進行維護和更新,元數(shù)據(jù)管理系統(tǒng)支持著用戶對平臺的內(nèi)容檢索。合理的元數(shù)據(jù)規(guī)范對數(shù)據(jù)的高效集成與維護及對用戶檢索的快速響應(yīng)都起到了重要的支撐作用。
圖7 中原城市群綜合科技服務(wù)平臺數(shù)據(jù)交互過程
在科技服務(wù)的不同業(yè)務(wù)階段中,業(yè)務(wù)需求和實現(xiàn)的不同,對應(yīng)著使用不同類別的元數(shù)據(jù)規(guī)范。如圖8所示,中原城市群綜合科技服務(wù)平臺的業(yè)務(wù)流程可以劃分為以下4個階段:一是平臺注冊。在此階段,平臺進行注冊,并對集成的科技服務(wù)資源進行分類整理,對資源概況進行數(shù)字化和可視化展示。此階段會產(chǎn)生機構(gòu)基本信息、科技服務(wù)資源數(shù)量統(tǒng)計等管理元數(shù)據(jù)。二是服務(wù)發(fā)布。在此階段,平臺發(fā)布服務(wù)信息吸引用戶前來使用,包括服務(wù)的類型、以往的服務(wù)信息等供用戶參考。三是服務(wù)匹配。用戶在平臺找到了匹配的需求后,達(dá)成服務(wù)匹配,產(chǎn)生訂單管理信息,包括訂單編號、訂單狀態(tài)等服務(wù)元數(shù)據(jù)。四是服務(wù)實現(xiàn)。在此階段,需求方提供其科技服務(wù)需求,平臺幫助需求方和服務(wù)提供方/服務(wù)資源完成對接,促進實現(xiàn)后續(xù)的具體服務(wù)。
圖8 中原城市群綜合科技服務(wù)平臺業(yè)務(wù)流程
盡管科技服務(wù)資源豐富多樣,但是彼此間往往多源異構(gòu)且松散孤立,不利于科技服務(wù)資源協(xié)同共享的發(fā)展,通過設(shè)定良好準(zhǔn)確的元數(shù)據(jù)規(guī)范,可以更好地集成科技服務(wù)資源,并方便用戶高效快捷地檢索到需求的資源。本文以知識產(chǎn)權(quán)服務(wù)資源和科技咨詢服務(wù)資源兩個領(lǐng)域為例,分析已有的信息共享平臺,歸納總結(jié)出其中的實體、實體屬性及實體間聯(lián)系,而后設(shè)計出通用的元數(shù)據(jù)規(guī)范,以促進科技服務(wù)資源的集成和共享。本文提出的設(shè)計方法充分考慮了科技服務(wù)資源在不同平臺的存儲形式,設(shè)計的元數(shù)據(jù)規(guī)范可以有效規(guī)范化現(xiàn)有的資源數(shù)據(jù),并且本文提出的元數(shù)據(jù)規(guī)范設(shè)計方法已在中原城市群科技服務(wù)資源池的設(shè)計中得到了成功的應(yīng)用,為科技服務(wù)資源的集成接入提供有力的支撐。下一步的工作重點是擴展方法可以同時考慮更多類型的科技服務(wù)資源,并開發(fā)工具使得整個流程自動化、模塊化。