◎彭秀媛 王 楓 周國民
科學(xué)數(shù)據(jù)共享模式研究并不是一個新的研究主題,但在數(shù)據(jù)密集型科學(xué)研究范式和web2.0模式下,新的數(shù)據(jù)對象和科學(xué)數(shù)據(jù)共享需求的出現(xiàn),深刻影響著科學(xué)數(shù)據(jù)共享模式。農(nóng)業(yè)科學(xué)數(shù)據(jù)共享研究對象由國家科技計(jì)劃項(xiàng)目數(shù)據(jù)、政府部門長期采集的科學(xué)數(shù)據(jù)和管理的業(yè)務(wù)數(shù)據(jù),擴(kuò)展到了廣大農(nóng)業(yè)科研人員在研究工作中所產(chǎn)生的大量分布式科學(xué)數(shù)據(jù)。數(shù)據(jù)共享也需將依靠自上而下的任務(wù)推進(jìn)模式轉(zhuǎn)變?yōu)樽韵露系膽?yīng)用倒逼模式。因此基于農(nóng)業(yè)科學(xué)數(shù)據(jù)特點(diǎn)及需求,探索面向重用的農(nóng)業(yè)科學(xué)數(shù)據(jù)共享模式,對于推動農(nóng)業(yè)科學(xué)數(shù)據(jù)資源建設(shè),支撐國家及區(qū)域農(nóng)業(yè)科技創(chuàng)新有著重要意義。
隨著技術(shù)的進(jìn)步和需求的變更,共享模式研究的范圍不斷擴(kuò)大、研究重點(diǎn)也不斷轉(zhuǎn)移。學(xué)者們從不同范圍、不同層面、不同角度對共享模式進(jìn)行了研究和實(shí)踐,按照共享對象可歸納為文獻(xiàn)信息資源共享模式、政府信息資源共享模式、科學(xué)數(shù)據(jù)共享模式、知識共享模式四類。其中較多針對文獻(xiàn)信息資源共享模式進(jìn)行研究,科學(xué)數(shù)據(jù)共享模式的研究仍處于探索階段。上述共享模式的對象、目的和角度不盡相同,但都構(gòu)建了符合其需求的最佳模式。從發(fā)展趨勢來看,共享模式將呈現(xiàn)多種形式共存、全方位共享的局面。
在科學(xué)數(shù)據(jù)共享模式研究方面,不同研究角度帶給我們紛繁多樣的科學(xué)數(shù)據(jù)共享模式,總體來看,在抽象化共享模式研究方面,微觀層面上圍繞科學(xué)數(shù)據(jù)對象,中觀層面關(guān)注共享運(yùn)行組織,宏觀層面著眼于共享制度;在具體化共享模式研究方面,針對地球系統(tǒng)科學(xué)數(shù)據(jù)、國家人口和健康科學(xué)數(shù)據(jù)、基因和臨床數(shù)據(jù)等對象開展了實(shí)踐研究[1]。不同領(lǐng)域的科學(xué)數(shù)據(jù)需求和共享對象特質(zhì)決定了科學(xué)數(shù)據(jù)的共享模式,例如氣象學(xué)、遙感、水文等領(lǐng)域研究主要重用大型標(biāo)準(zhǔn)化數(shù)據(jù)集,其共享模式主要采用政府主導(dǎo)的共享模式;生態(tài)等領(lǐng)域研究則更需要一些小型分布式科學(xué)數(shù)據(jù),其共享模式主要采用個體間或基于數(shù)據(jù)社區(qū)等中間體形態(tài)的共享模式;農(nóng)業(yè)領(lǐng)域研究將組合涉農(nóng)多領(lǐng)域科學(xué)數(shù)據(jù)共同開展,因此其所需模式更為復(fù)雜多樣,實(shí)踐更具特色?,F(xiàn)有科學(xué)數(shù)據(jù)共享模式研究只著眼于抽象化共享模式或具體化共享模式展開,未見結(jié)合抽象化模式和具體化模式的共享模式研究思路。
前期以遼寧省為例對農(nóng)業(yè)科學(xué)數(shù)據(jù)的用戶情況、資源現(xiàn)狀、共享現(xiàn)狀、重用情況和需求情況進(jìn)行了調(diào)研[2]。通過對調(diào)研結(jié)果進(jìn)行深入分析,總結(jié)了農(nóng)業(yè)科學(xué)數(shù)據(jù)相關(guān)特點(diǎn):
1.農(nóng)業(yè)科學(xué)數(shù)據(jù)特點(diǎn):除具有來源復(fù)雜、內(nèi)容復(fù)雜、傳播復(fù)雜、地域性、季節(jié)性、多樣性、周期性等特點(diǎn)外,還具有以下特點(diǎn):數(shù)據(jù)存量大;數(shù)據(jù)呈現(xiàn)“小集中、大分散”的分布模式;數(shù)據(jù)類型多樣;數(shù)據(jù)標(biāo)準(zhǔn)化程度低;大部分?jǐn)?shù)據(jù)獲取方式原始。
2.農(nóng)業(yè)科學(xué)數(shù)據(jù)重用特點(diǎn):處理程度不高;數(shù)據(jù)重用行為較少;數(shù)據(jù)重用方式單一;論文附帶的證明數(shù)據(jù)應(yīng)用頻繁。
3.農(nóng)業(yè)科學(xué)數(shù)據(jù)共享特點(diǎn):數(shù)據(jù)共享意愿強(qiáng)烈;可共享的數(shù)據(jù)資源充足;共享方式單一;共享機(jī)制不完善。
科學(xué)數(shù)據(jù)重用模式可歸納為以下三類:1.數(shù)據(jù)層面的傳統(tǒng)科學(xué)數(shù)據(jù)重用模式(包括基于私有數(shù)據(jù)接口的數(shù)據(jù)重用、基于SOA等架構(gòu)接口服務(wù)的數(shù)據(jù)重用、基于數(shù)據(jù)交換代理的數(shù)據(jù)重用);2.組織層面的科學(xué)數(shù)據(jù)重用模式(包括科學(xué)數(shù)據(jù)集成檢索與服務(wù)、科學(xué)數(shù)據(jù)語義化組織與再利用等);3.應(yīng)用層面的科學(xué)數(shù)據(jù)重用模式(包括特定科學(xué)數(shù)據(jù)處理流程構(gòu)建、基于科學(xué)數(shù)據(jù)挖掘新知識等)。
1.農(nóng)業(yè)科學(xué)數(shù)據(jù)共享模式構(gòu)建思路
研究構(gòu)建的數(shù)據(jù)共享模式為抽象化和具體化相結(jié)合的共享模式,首先提出抽象化數(shù)據(jù)共享模式,基于此模式,在實(shí)際應(yīng)用中衍生出與應(yīng)用場景緊密聯(lián)系的多個具體化共享模式。抽象化數(shù)據(jù)共享模式研究路線為:綜合分析農(nóng)業(yè)科學(xué)數(shù)據(jù)特點(diǎn)和數(shù)據(jù)重用特點(diǎn),設(shè)計(jì)面向重用的農(nóng)業(yè)科學(xué)數(shù)據(jù)分類。綜合分析農(nóng)業(yè)科學(xué)數(shù)據(jù)特點(diǎn)、數(shù)據(jù)重用特點(diǎn)和數(shù)據(jù)共享特點(diǎn),基于農(nóng)業(yè)科學(xué)數(shù)據(jù)分類,在適應(yīng)需求、適度超前、因地制宜、漸進(jìn)發(fā)展、可持續(xù)等共享模式構(gòu)建原則下,開展農(nóng)業(yè)科學(xué)數(shù)據(jù)抽象化共享模式研究(圖1)。
圖1 農(nóng)業(yè)科學(xué)數(shù)據(jù)抽象化共享模式研究路線
2.面向重用的農(nóng)業(yè)科學(xué)數(shù)據(jù)分類
數(shù)據(jù)分類是數(shù)據(jù)共享和重用工作中不可或缺的環(huán)節(jié)。國內(nèi)外進(jìn)行科學(xué)數(shù)據(jù)共享建設(shè)的相關(guān)機(jī)構(gòu)也都建有自己的分類體系,但各自獨(dú)立、差異很大,且更多考慮檢索的需求,缺乏面向農(nóng)業(yè)科學(xué)數(shù)據(jù)重用,兼顧農(nóng)業(yè)科學(xué)數(shù)據(jù)特點(diǎn)的數(shù)據(jù)分類[3-5]。根據(jù)農(nóng)業(yè)科學(xué)數(shù)據(jù)重用特點(diǎn)和重用模式,結(jié)合文獻(xiàn)調(diào)研結(jié)果,研究認(rèn)為將農(nóng)業(yè)科學(xué)數(shù)據(jù)分為間證數(shù)據(jù)、基準(zhǔn)數(shù)據(jù)、一次數(shù)據(jù)、二次數(shù)據(jù)四類更為合理(圖2)。其中間證數(shù)據(jù)和基準(zhǔn)數(shù)據(jù)包含于一次數(shù)據(jù)和二次數(shù)據(jù),但根據(jù)科學(xué)數(shù)據(jù)重用的特點(diǎn),間證數(shù)據(jù)和基準(zhǔn)數(shù)據(jù)作為廣泛重用的數(shù)據(jù)類型,特將其從一次數(shù)據(jù)和二次數(shù)據(jù)中分離出來進(jìn)行考慮。
圖2 農(nóng)業(yè)科學(xué)數(shù)據(jù)分類及關(guān)系
(1)間證數(shù)據(jù)。間證數(shù)據(jù)是指支撐科技論文的科學(xué)數(shù)據(jù),也是形成論文結(jié)論和驗(yàn)證論文結(jié)果的必要數(shù)據(jù),NIH將此類數(shù)據(jù)定義為“最終數(shù)據(jù)(final data)”[6]。其主要作用是作為同行評審的參考依據(jù),以及論文發(fā)表后的研究再現(xiàn)。
間證數(shù)據(jù)目前主要有論文附件、論文補(bǔ)充數(shù)據(jù)和數(shù)據(jù)論文三種形式。其中論文附件是指使用的方法、圖表、公式等支撐論文主要內(nèi)容的數(shù)據(jù);論文補(bǔ)充數(shù)據(jù)是指原始與衍生數(shù)據(jù)集、軟件代碼、視頻與音頻文件等不適合印刷的有效電子文件數(shù)據(jù)[7]。數(shù)據(jù)論文可被認(rèn)為是按照學(xué)術(shù)規(guī)范出版的、能夠被檢索的、用來描述一個或多個可在線訪問數(shù)據(jù)集的數(shù)據(jù)元數(shù)據(jù)文件[8]。論文附件、論文補(bǔ)充形式早已有之,較為普遍,數(shù)據(jù)論文或許是未來的主要形式。
(2)基準(zhǔn)數(shù)據(jù)?;鶞?zhǔn)數(shù)據(jù)是指農(nóng)業(yè)統(tǒng)計(jì)數(shù)據(jù)、農(nóng)業(yè)常用參數(shù)和現(xiàn)代農(nóng)業(yè)基準(zhǔn)數(shù)據(jù)等。
農(nóng)業(yè)統(tǒng)計(jì)數(shù)據(jù)包括全國農(nóng)業(yè)普查數(shù)據(jù)、中國統(tǒng)計(jì)年鑒(農(nóng)業(yè)部分)、省級農(nóng)業(yè)統(tǒng)計(jì)年鑒等;在科學(xué)研究領(lǐng)域還涉及實(shí)驗(yàn)統(tǒng)計(jì)、氣象統(tǒng)計(jì)、論文統(tǒng)計(jì)等小門類統(tǒng)計(jì),統(tǒng)計(jì)類別及側(cè)重各有不同。其中2005年出版的《中國農(nóng)業(yè)統(tǒng)計(jì)資料匯編1949-2004》是目前較為全面、系統(tǒng)的農(nóng)業(yè)統(tǒng)計(jì)資料[9]。
農(nóng)業(yè)常用參數(shù)有農(nóng)業(yè)物料基本參數(shù)、農(nóng)業(yè)環(huán)境參數(shù)、動植物機(jī)理參數(shù)(形態(tài)結(jié)構(gòu)參數(shù)、農(nóng)林植物生物特性參數(shù)、農(nóng)田養(yǎng)分平衡和循環(huán)基本參數(shù)等)、農(nóng)業(yè)生產(chǎn)參數(shù)(品種參數(shù)、動植物營養(yǎng)參數(shù)、標(biāo)準(zhǔn)化生產(chǎn)技術(shù)參數(shù)等)、常用農(nóng)業(yè)機(jī)械和信息裝備技術(shù)參數(shù)、農(nóng)業(yè)科技成果經(jīng)濟(jì)效益評價指標(biāo)等??蓹z索到的描述農(nóng)業(yè)參數(shù)的相關(guān)書籍是羅慶成于1984年編寫的《常用農(nóng)業(yè)參數(shù),系統(tǒng)和定額》。
現(xiàn)代農(nóng)業(yè)背景下,中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所于2011年提出了現(xiàn)代農(nóng)業(yè)基準(zhǔn)數(shù)據(jù)這一新理念,是指以農(nóng)業(yè)信息規(guī)范和標(biāo)準(zhǔn)為基礎(chǔ),以現(xiàn)代信息技術(shù)為手段,收集和整理的產(chǎn)前、產(chǎn)中、產(chǎn)后各環(huán)節(jié)的基礎(chǔ)精準(zhǔn)數(shù)據(jù)。包括農(nóng)業(yè)自然資源環(huán)境基準(zhǔn)數(shù)據(jù)、現(xiàn)代農(nóng)業(yè)生產(chǎn)基準(zhǔn)數(shù)據(jù)、現(xiàn)代農(nóng)業(yè)生產(chǎn)基準(zhǔn)數(shù)據(jù)、現(xiàn)代農(nóng)業(yè)管理基準(zhǔn)數(shù)據(jù)四類[10]。
(3)一次數(shù)據(jù)。經(jīng)文獻(xiàn)和網(wǎng)絡(luò)調(diào)研確定,本研究中一次數(shù)據(jù)的概念與“一手?jǐn)?shù)據(jù)”和“原始數(shù)據(jù)”的概念相近。已有不同視角的概念界定:以統(tǒng)計(jì)視角來看,是指沒有經(jīng)過整理的數(shù)據(jù);以數(shù)據(jù)庫的視角來看,是指終端用戶存儲使用的各種數(shù)據(jù);以數(shù)據(jù)獲取方式來看,是指通過問卷、訪談、詢問等方式直接獲得的數(shù)據(jù)。本研究將科研活動中直接產(chǎn)生的觀察、調(diào)查、監(jiān)測、檢測和科學(xué)實(shí)驗(yàn)數(shù)據(jù)統(tǒng)稱為一次數(shù)據(jù)。具有時效性好、相關(guān)性好、可信度高等特點(diǎn),能夠解決待定問題,回答二次數(shù)據(jù)不能回答的具體問題。
(4)二次數(shù)據(jù)。經(jīng)文獻(xiàn)和網(wǎng)絡(luò)調(diào)研確定,本研究中二次數(shù)據(jù)的概念與“已有數(shù)據(jù)”和“二手?jǐn)?shù)據(jù)”的概念相近。已有的概念將其界定為來源于他人的一次數(shù)據(jù),包含發(fā)表及未發(fā)表數(shù)據(jù),也有將其界定為對一次數(shù)據(jù)進(jìn)行分析、整理和歸納形成的數(shù)據(jù)。本研究將按照不同需求系統(tǒng)加工、整理和分析獲得的數(shù)據(jù)產(chǎn)品和相關(guān)信息統(tǒng)稱為二次數(shù)據(jù)。
3.面向重用的農(nóng)業(yè)科學(xué)數(shù)據(jù)抽象化共享模式
為了能夠最大程度上發(fā)揮農(nóng)業(yè)科學(xué)數(shù)據(jù)的作用,同時保護(hù)數(shù)據(jù)擁有單位的利益,基于對已有共享模式的歸納分析,在科學(xué)數(shù)據(jù)共享模式構(gòu)建原則下,按照農(nóng)業(yè)科學(xué)數(shù)據(jù)共享模式構(gòu)建思路,提出了結(jié)合數(shù)據(jù)組織與數(shù)據(jù)分類的兩級抽象化共享模式(圖3)。
圖3 農(nóng)業(yè)科學(xué)數(shù)據(jù)共享模式
在組織層面,農(nóng)業(yè)科學(xué)數(shù)據(jù)組織工作需面向數(shù)據(jù)重用,滿足數(shù)據(jù)使用者的多元化需求,因此采用集中式與分布式結(jié)構(gòu)相結(jié)合的綜合組織模式。其中集中式共享模式具有數(shù)據(jù)集中、平臺集中、管理集中的特點(diǎn),適用于共性的、通用的、利用率高的農(nóng)業(yè)科學(xué)數(shù)據(jù)資源,便于統(tǒng)一組織協(xié)調(diào),最大限度減少資源重復(fù)建設(shè)。分布式共享模式中數(shù)據(jù)資源由多個數(shù)據(jù)資源站點(diǎn)(如省院各所、地市農(nóng)科院等所屬資源)的科研部門或人員單級或多級分布存儲,隸屬關(guān)系不同,各具特色;基于統(tǒng)一平臺提供數(shù)據(jù)檢索、目錄導(dǎo)航和互操作等應(yīng)用;基于較好的技術(shù)支撐和協(xié)作機(jī)制進(jìn)行組織和管理。綜合以上兩種模式,基于統(tǒng)一平臺支撐農(nóng)業(yè)科學(xué)數(shù)據(jù)資源的管理與服務(wù)。
在數(shù)據(jù)層面,不同數(shù)據(jù)分類采取相對應(yīng)的數(shù)據(jù)組織方式。其中間證數(shù)據(jù)和基準(zhǔn)數(shù)據(jù)均為已發(fā)表或?qū)⒁l(fā)表的數(shù)據(jù),且利用頻繁,因此采取集中式方式進(jìn)行共享更為合適;一次數(shù)據(jù)和二次數(shù)據(jù)一般分布在不同的地理位置,往往由不同的單位或個人擁有和管理,且部分只適合在一定條件下和一定范圍內(nèi)重用,需要留在科研團(tuán)隊(duì)或科研人員手中,因此采取分布式方式進(jìn)行共享更為合適。
4.共享模式的可行性分析
所提出的農(nóng)業(yè)科學(xué)數(shù)據(jù)共享模式從數(shù)據(jù)來源看,支持多單位聯(lián)合共建;從面向重用的數(shù)據(jù)分類看,適應(yīng)農(nóng)業(yè)科研活動規(guī)律;從數(shù)據(jù)類型看,既支持規(guī)模化數(shù)據(jù),也支持小眾化數(shù)據(jù);從數(shù)據(jù)權(quán)益性質(zhì)看,即支持公益性的開放共享,也支持商業(yè)性的數(shù)據(jù)交易;從共享意愿看,滿足科研人員對其數(shù)據(jù)知識產(chǎn)權(quán)的掌控需求;從共享路徑看,支持橫向和縱向的聯(lián)合;從共享形式看,支持多模式并舉,互動式共享;從共享活動看,能夠滿足數(shù)據(jù)提供者和數(shù)據(jù)使用者共享活動需求;從數(shù)據(jù)重用看,支持個體、組織等多對象的數(shù)據(jù)重用活動;支持地方數(shù)據(jù)的原始積累;一定程度上緩解數(shù)據(jù)共享存在的知識產(chǎn)權(quán)保護(hù)、運(yùn)行的可持續(xù)性、共享積極性方面的問題;有助于培養(yǎng)數(shù)據(jù)共享意愿,促進(jìn)共享文化形成。
科學(xué)數(shù)據(jù)本身具有的可復(fù)制性和科學(xué)數(shù)據(jù)的綜合應(yīng)用性,決定了科學(xué)數(shù)據(jù)資源的共享性。因此想要最大化地實(shí)現(xiàn)科學(xué)數(shù)據(jù)的價值,必須進(jìn)行數(shù)據(jù)的充分共享和重用。本研究設(shè)計(jì)了面向重用的農(nóng)業(yè)科學(xué)數(shù)據(jù)分類,在以下三方面支撐和促進(jìn)農(nóng)業(yè)科學(xué)數(shù)據(jù)共享與重用:面向數(shù)據(jù)擁有者,為其擁有的數(shù)據(jù)進(jìn)行定位提供參考;面向數(shù)據(jù)用戶,為明確其數(shù)據(jù)重用需求提供參考;面向數(shù)據(jù)管理者,通過數(shù)據(jù)分類梳理出數(shù)據(jù)資源體系,有助于整體部署科學(xué)數(shù)據(jù)集的生成及進(jìn)一步重用。提出了抽象化與具體化相結(jié)合的農(nóng)業(yè)科學(xué)數(shù)據(jù)共享模式構(gòu)建思路和技術(shù)路線,擴(kuò)展了農(nóng)業(yè)科學(xué)數(shù)據(jù)共享對象范圍,能夠較好的支撐農(nóng)業(yè)科學(xué)數(shù)據(jù)共享與重用。