黃筑斌,吳 雋,彭志良
(貴州省農(nóng)業(yè)科學(xué)院 科技信息研究所,貴州 貴陽 55000)
由于農(nóng)業(yè)集自然性、生產(chǎn)性和社會性于一體的特點,農(nóng)業(yè)領(lǐng)域的信息復(fù)雜多元,其需求對象同樣如此。雖然存在眾多農(nóng)業(yè)信息資源,但這些單一維度(空間區(qū)域、學(xué)科領(lǐng)域、信息載體)的信息系統(tǒng)無法很好地為解決一個復(fù)雜農(nóng)業(yè)問題提供支持,也難以更好地滿足農(nóng)業(yè)領(lǐng)域的從業(yè)者、研究者和決策者等不同群體對農(nóng)業(yè)信息的現(xiàn)實需求。農(nóng)業(yè)領(lǐng)域信息及其需求對象的復(fù)雜性決定了需要區(qū)域性甚至全球性的廣泛合作,才能整合分散的農(nóng)業(yè)信息資源,使其更容易被發(fā)現(xiàn),并且得到進(jìn)一步利用。21世紀(jì)伊始,國際上已有一些組織就此作出了有效實踐,如GFAR(Global Forum on Agricultural Research,全球農(nóng)業(yè)研究論壇)在2004年為促進(jìn)全球各區(qū)域性農(nóng)業(yè)信息體系協(xié)作倡導(dǎo)建設(shè)的GLOBAL.RAIS(The Global Alliance of the Regional Agricultural Information Systems,全球區(qū)域性農(nóng)業(yè)信息體系聯(lián)盟)項目[1]和2005年提出建設(shè)的IIAST(International Information System of Agricultural Science and Technology,國際農(nóng)業(yè)科學(xué)與技術(shù)信息體系)[2]等。我國也于2016年由中國農(nóng)科院海外研究中心牽頭成立了全球農(nóng)業(yè)大數(shù)據(jù)與信息服務(wù)聯(lián)盟,致力于構(gòu)建多種開放合作平臺和運行機(jī)制,實現(xiàn)全球農(nóng)業(yè)大數(shù)據(jù)和國家農(nóng)業(yè)文獻(xiàn)信息資源共知共享,以及海外農(nóng)業(yè)研究和國家農(nóng)業(yè)信息科技創(chuàng)新協(xié)作協(xié)同[3]。
對于在全球范圍內(nèi)實現(xiàn)農(nóng)業(yè)科研信息的開放共享,早在2008年8月舉行的世界農(nóng)業(yè)信息與信息技術(shù)大會上,GFAR和FAO(聯(lián)合國糧農(nóng)組織)就正式提出了建立CIARD(Coherence in Information for Agricultural Research for Development,以促發(fā)展為目標(biāo)的農(nóng)業(yè)研究信息匯聚共享)這一國際聯(lián)盟的倡議[4]。我國也在聯(lián)盟成立之初作出積極響應(yīng),并于2011年6月在北京舉辦了CIARD國際專家磋商會[5],還于當(dāng)月21日正式上線CIARD中文版網(wǎng)站(http://www.ciard.net/zh-hans/ciard-ring)[6]。根據(jù)CIARD RING網(wǎng)站的統(tǒng)計數(shù)據(jù)(http://ring.ciard.net/partners),截至2020年10月,全球已有873個組織機(jī)構(gòu)成為CIARD成員,其中我國有56個,筆者所在單位也于2016年12月成為其中一員。為促進(jìn)更多農(nóng)業(yè)領(lǐng)域的國內(nèi)研究者了解CIARD及其重點建設(shè)的RING網(wǎng)站,更好地通過其發(fā)現(xiàn)和利用全球范圍內(nèi)開放共享的農(nóng)業(yè)信息資源和信息服務(wù),對CIARD的理念、目標(biāo)和組織運作模式,以及RING網(wǎng)站的服務(wù)模式和服務(wù)內(nèi)容進(jìn)行介紹。
CIARD的理念(愿景)是使公共領(lǐng)域的農(nóng)業(yè)研究信息和知識能夠被所有人訪問,旨在使創(chuàng)建或處理公共農(nóng)業(yè)知識的組織和個人能夠更有效率地傳播這些知識[7]。為此,CIARD的主要目標(biāo)是,針對農(nóng)業(yè)領(lǐng)域構(gòu)建集成不同來源、學(xué)科領(lǐng)域和載體形式(書目、全文、多媒體和原始數(shù)據(jù)等)信息的體系,以提供多維度、多學(xué)科、多區(qū)域相關(guān)聯(lián)的綜合和定制的農(nóng)業(yè)信息,滿足更廣泛受眾對農(nóng)業(yè)信息的需求。更深層次地,CIARD計劃構(gòu)建的集成信息體系并不是簡單地將信息集中在一起,而是要進(jìn)一步通過將不同信息片段關(guān)聯(lián)起來實現(xiàn)對信息更好的認(rèn)知和理解,即實現(xiàn)已有信息的增值。同時,在構(gòu)建這樣一個體系的過程中,培養(yǎng)和增強(qiáng)組織和個人利用相關(guān)技術(shù)框架或工具集合建設(shè)和利用信息資源的能力。并且,引導(dǎo)和鼓勵不同體系或制度環(huán)境中的組織和個人在技術(shù)和機(jī)制模式層面開展協(xié)作,實現(xiàn)互補(bǔ)。由此解決構(gòu)建集成信息體系(integrated information system)面臨的主要問題,包括許多信息資源所有者不重視現(xiàn)有的資源和缺乏實現(xiàn)資源互操作性的技術(shù)和協(xié)調(diào)機(jī)制,以及因不能從中獲得顯著收益而缺乏參與的動力??傊?,CIARD不僅為實現(xiàn)全球農(nóng)業(yè)信息的開放共享提供多樣化和經(jīng)濟(jì)性的技術(shù)手段,還在此基礎(chǔ)上培養(yǎng)和發(fā)展組織和個人使用這些技術(shù),促進(jìn)開放性農(nóng)業(yè)信息資源和信息服務(wù)建設(shè)和應(yīng)用的能力,并探索農(nóng)業(yè)信息共享和深度開發(fā)利用的全球性合作模式。
CIARD目前按工作任務(wù)劃分有3個工作小組。其中,內(nèi)容管理(content management)工作小組著力于開放資源庫建設(shè)的理論方法和相關(guān)工具的研發(fā)和改善。能力建設(shè)(capacity building)工作小組關(guān)注愿意遵循CIARD綱領(lǐng)的組織和個人的能力發(fā)展,開展培訓(xùn)和開發(fā)培訓(xùn)資源。支持(advocacy)工作小組致力于增強(qiáng)CIARD的利益相關(guān)者對CIARD綱領(lǐng)的認(rèn)識,促進(jìn)CIARD在政策和組織層面獲得支持[7]。一般情況下,3個工作小組使用遠(yuǎn)程通訊工具進(jìn)行協(xié)作,在必要時支持工作小組會組織召開區(qū)域性專家磋商會,商議CIARD的相關(guān)工作,特別是修訂最佳實踐檢查表(checklist of good practices)。其在機(jī)制構(gòu)建和改善研究成果的有效性(availability)、可訪問性(accessibility)和可用性(applicability)方面列出了相應(yīng)的方向性指引,可看作是CIARD的行動指南。基于這些指引,CIARD進(jìn)一步制定了具體的行動措施,稱為CIARD Pathways[7]。
為實現(xiàn)CIARD的理念和目標(biāo),GFAR在2009年11月牽頭實施了名為RING(Routemap to Information Nodes and Gateways,信息節(jié)點與網(wǎng)關(guān)路線圖)的重要服務(wù)項目[8],并于2010年建立了RING網(wǎng)站(http://ring.ciard.net)。其旨在提供全球農(nóng)業(yè)領(lǐng)域現(xiàn)有信息源的地圖,使信息源提供的開放性信息資源和信息服務(wù)更加容易發(fā)現(xiàn)和再利用。為此,RING致力于實現(xiàn)不同信息資源和服務(wù)之間的互操作性(interoperability)。其是指信息資源和服務(wù)提供的數(shù)據(jù)可以容易地被其他信息系統(tǒng)處理,特別是能夠以多種形式實現(xiàn)機(jī)器訪問、獲取和轉(zhuǎn)換,而無需對不同類型的分散數(shù)據(jù)進(jìn)行集中控制和統(tǒng)一使用特定的標(biāo)準(zhǔn)化軟件[9],從而確??煞职l(fā)的數(shù)據(jù)能夠更好地實現(xiàn)交換和再利用。
按照建立RING的目標(biāo),RING自身并不直接提供農(nóng)業(yè)信息資源和信息服務(wù),而是提供分散信息資源和信息服務(wù)的綜合索引,成為訪問全球農(nóng)業(yè)信息資源和信息服務(wù)的統(tǒng)一入口,使RING的用戶能夠通過不同的手段和途徑,包括不同的瀏覽器、搜索引擎和數(shù)據(jù)處理軟件等,發(fā)現(xiàn)其需要的存在于廣泛分散信息源中的有效信息,或使用特定的信息服務(wù)。同時,RING提供如何實現(xiàn)信息互操作性和高效再利用的指導(dǎo),如由CIARD制定的信息管理規(guī)范和RING管理員、技術(shù)專家撰寫的有關(guān)信息互操作性的技術(shù)文檔,以及鼓勵信息所有者提供實現(xiàn)信息互操作性的指南等[8],以促進(jìn)信息的增值。由此,RING能夠成為增強(qiáng)信息互操作性以及支撐構(gòu)建新的集成信息體系的全球性技術(shù)平臺。
RING收錄的信息服務(wù)泛指在整體上能夠使信息具有更好的可訪問性和互操作性,進(jìn)而實現(xiàn)信息有效可用的方式[9]。任何通過網(wǎng)站,電子郵件服務(wù)器,web服務(wù)和XML(Extensible Markup Language,可擴(kuò)展標(biāo)記語言)文件等不同信息載體提供信息的手段和途徑,如RSS(Really Simple Syndication,簡易信息聚合)服務(wù),OAI(Open Archive Initiative,開放文獻(xiàn)倡議)數(shù)據(jù)的提供和收割(harvest,指采用特定的客戶端程序獲取這些數(shù)據(jù))[10],RDF(Resource Description Framework,資源描述框架)文件等都是信息服務(wù)。根據(jù)這一定義,通常意義上的信息資源,如原始數(shù)據(jù)集、數(shù)據(jù)庫和電子圖書文獻(xiàn)等,在RING中也是信息服務(wù),因此,下文中將信息資源和信息服務(wù)統(tǒng)稱為“信息服務(wù)”。
RING收錄的信息服務(wù)來自與信息服務(wù)相關(guān)的人員(信息服務(wù)的所有者、管理者和建設(shè)維護(hù)者)在網(wǎng)站上的注冊提交。為更好地對信息服務(wù)進(jìn)行索引,便于更好地檢索這些信息,注冊時需要按照信息服務(wù)的用途和互操作性提供詳細(xì)的描述和分類。RING為此制定了相應(yīng)的標(biāo)準(zhǔn),包括主題范圍、地理范圍、內(nèi)容類型、目標(biāo)受眾等內(nèi)容標(biāo)準(zhǔn),以及采用的元數(shù)據(jù)集、詞匯表、協(xié)議和軟件等技術(shù)標(biāo)準(zhǔn)[9]。另外,為確保信息服務(wù)歸屬的準(zhǔn)確和避免重復(fù)注冊,個人注冊的信息服務(wù)記錄必須與已經(jīng)注冊的組織相關(guān)聯(lián)。與信息服務(wù)相關(guān)的組織在注冊服務(wù)時,RING管理者(GFAR建立的一個聯(lián)合成員單位)會定期檢查,以確保數(shù)據(jù)的所有權(quán)和可靠性[11]?;谶@種模式,隨著所注冊信息服務(wù)數(shù)量的增長,RING將會成為一個綜合的信息服務(wù)資料庫和基礎(chǔ)體系架構(gòu),其中的優(yōu)秀服務(wù)還可作為實現(xiàn)信息互操作性有效實踐的典型案例,為構(gòu)建新服務(wù)提供借鑒。此外,通過對不同信息服務(wù)的數(shù)據(jù)進(jìn)行搜集和分析可能會挖掘出潛在的新發(fā)現(xiàn)。
2.3.1 數(shù)據(jù)集(dataset) RING收錄的數(shù)據(jù)集所提供的數(shù)據(jù)可以通過特定的協(xié)議和地址實現(xiàn)人機(jī)訪問,并且能以多種文件格式進(jìn)行下載(分發(fā))[9]。數(shù)據(jù)集在RING框架中屬于信息服務(wù)的類型之一,因此,RING收錄的數(shù)據(jù)集來自已經(jīng)注冊的一個信息服務(wù),但為和其他類型的信息服務(wù)有所區(qū)分,便于用戶檢索,數(shù)據(jù)集在RING網(wǎng)站中列為一個獨立的內(nèi)容欄目(http://ring.ciard.net/datasets)。按照RING為所注冊信息服務(wù)制定的索引標(biāo)準(zhǔn),數(shù)據(jù)集具有完備的詳細(xì)信息:1)基本屬性。包括數(shù)據(jù)類型、數(shù)據(jù)起始年、總記錄數(shù)及與農(nóng)業(yè)相關(guān)的記錄數(shù)百分比和更新狀態(tài)。2)內(nèi)容層面。包括數(shù)據(jù)使用的人類語言、數(shù)據(jù)涉及的空間范圍(以地圖形式體現(xiàn))、學(xué)科領(lǐng)域、按照AGROVOC詞匯表(FAO制定的農(nóng)業(yè)領(lǐng)域多語種詞匯表)[12]設(shè)置的主題詞和受眾。3)技術(shù)層面。包括數(shù)據(jù)集適用的互操作性技術(shù)、使用的KOS(Knowledge Organization System,知識組織系統(tǒng))、依托的軟件和匯聚數(shù)據(jù)的方式(數(shù)據(jù)導(dǎo)出的文件格式)。4)管理層面,包括訪問授權(quán)、責(zé)任主體和聯(lián)系人信息。上述這些信息是實現(xiàn)信息服務(wù)互操作性的重要基礎(chǔ)。
截止2020年10月14日,RING網(wǎng)站已收錄3 197個數(shù)據(jù)集,占所有已注冊的5 486個信息服務(wù)的58%。其中,全球性數(shù)據(jù)集和國家層面的數(shù)據(jù)集分別有741個和2 236個。在學(xué)科領(lǐng)域上涉及農(nóng)學(xué)、動物科學(xué)、林業(yè)科學(xué)、農(nóng)業(yè)經(jīng)濟(jì)、自然資源與環(huán)境等共計10大學(xué)科,服務(wù)于決策者、研究者、信息員、農(nóng)民、教師和業(yè)余學(xué)術(shù)愛好者等共計19個不同類型的受眾。提供信息服務(wù)的形式包括數(shù)據(jù)庫、RSS種子、文檔庫、博客、網(wǎng)站和電子期刊等。在信息的互操作性方面,具有XML、HTML、CSV(Comma-Separated Values,字符分隔值)、EXCEL文件和圖片等多種格式,并且可以利用RSS、OAI-PMH(實現(xiàn)電子文獻(xiàn)信息互操作性的技術(shù)協(xié)議)[13]、FTP、SPARQL(為RDF開發(fā)的一種查詢語言和數(shù)據(jù)獲取協(xié)議)[14]查詢和關(guān)聯(lián)數(shù)據(jù)編程接口等多種技術(shù)手段進(jìn)行訪問和處理。
2.3.2 軟件(Software) RING 近年來開始搜集能夠處理已注冊數(shù)據(jù)集的軟件服務(wù),并提供使用鏈接。由于軟件是RING新收錄的一種服務(wù)類型,目前數(shù)量較少,主要是agINFRA(歐盟委員會為改善農(nóng)業(yè)領(lǐng)域數(shù)據(jù)和信息共享實施的項目)[15]和 SemaGrow EC(歐盟委員會為提高對全球農(nóng)業(yè)數(shù)據(jù)的實時處理能力而啟動的技術(shù)研發(fā)項目)[16]中研發(fā)的軟件工具和應(yīng)用程序接口,如輔助網(wǎng)絡(luò)爬蟲程序處理農(nóng)業(yè)領(lǐng)域信息的AGROVOC Tagging(http://ring.ciard.net/applications/agrovoc-tagging),以及處理數(shù)據(jù)源描述的工具集SemaGrow stack(http://www.semagrow.eu/indexb482.html?q=tools)。隨著大數(shù)據(jù)技術(shù)的發(fā)展,有助于數(shù)據(jù)處理的軟件服務(wù)將會成為RING收錄的重要信息服務(wù)之一。
2.3.3 關(guān)聯(lián)數(shù)據(jù)(linked date) 為使已注冊的信息服務(wù)可以應(yīng)用關(guān)聯(lián)數(shù)據(jù)技術(shù)進(jìn)行處理,RING提供了描述所有已注冊信息服務(wù)的實體(數(shù)據(jù)集、數(shù)據(jù)服務(wù)和組織名稱等)和概念(信息服務(wù)的內(nèi)容主題、區(qū)域范圍和所用協(xié)議等)URI(Uniform Resource Identifier,統(tǒng)一資源標(biāo)識符)、RDF倉庫(RING中記錄所有已注冊信息服務(wù)詳細(xì)信息的數(shù)據(jù)庫)使用的詞匯表,以及使用SPARQL引擎訪問RDF倉庫的端點(endpoint)地址。此外,提供了運用SPARQL 查詢語言處理這些數(shù)據(jù)的代碼范例,如獲取特定數(shù)據(jù)類型、主題詞和組織名稱的數(shù)據(jù)集。
2.3.4 其他 RING收錄的信息服務(wù)還包括RSS種子、網(wǎng)站、Web服務(wù)、博客、電子期刊、搜索引擎、專家信息系統(tǒng)等共計25種類型。截止2020年10月14日,除數(shù)據(jù)集外,RING已收錄2 289個不同類型的信息服務(wù)。這些總體數(shù)量龐大且類型各異的分散信息,通過RING這樣的信息服務(wù)門戶,能夠更好地被其受眾所發(fā)現(xiàn)和利用。
CIARD成立至今已近13年,其建設(shè)的RING網(wǎng)站已運營10年。經(jīng)過多年發(fā)展,CIARD得到了全球眾多農(nóng)業(yè)領(lǐng)域相關(guān)組織的廣泛支持和積極參與,RING也成為了其構(gòu)建全球農(nóng)業(yè)科研領(lǐng)域集成信息體系,進(jìn)而推動全球農(nóng)業(yè)科研領(lǐng)域信息開放共享的有力探索和實踐成果。RING不僅是匯聚和共享農(nóng)業(yè)領(lǐng)域研究信息的服務(wù)平臺,更重要的是,其為挖掘和發(fā)揮這些信息的潛在應(yīng)用價值提供了重要基礎(chǔ)。此外,RING的建設(shè)發(fā)展很好地展現(xiàn)和傳播了CIARD的理念和目標(biāo),將促使更多農(nóng)業(yè)或非農(nóng)業(yè)領(lǐng)域的組織和個人加入CIARD。CIARD和RING的建立和發(fā)展進(jìn)一步傳遞出明確的時代信號:當(dāng)今的農(nóng)業(yè)不僅早已處于全球化的時代,更處在一個大數(shù)據(jù)的時代,需要全球農(nóng)業(yè)領(lǐng)域的研究者以更開放的視野和更積極的態(tài)度把握全球農(nóng)業(yè)信息開放共享的時代契機(jī),推動全球農(nóng)業(yè)科研事業(yè)的進(jìn)步,進(jìn)而助力農(nóng)業(yè)這一密切關(guān)系全人類生存和發(fā)展的基礎(chǔ)產(chǎn)業(yè)穩(wěn)步前進(jìn)。