陳寶鋼,司海平,虎曉紅,鄭光
(河南農(nóng)業(yè)大學(xué)信息與管理科學(xué)學(xué)院,河南鄭州450046)
農(nóng)村信息化是國家實現(xiàn)信息化發(fā)展戰(zhàn)略的重要組成部分.農(nóng)村信息服務(wù)涉及眾多信息資源領(lǐng)域,內(nèi)容豐富.如何將大量的、不同形式的、分散的信息資源進行整合,建立統(tǒng)一的農(nóng)村信息服務(wù)信息資源的描述規(guī)范,實現(xiàn)數(shù)據(jù)資源間的有效共享是農(nóng)村信息化建設(shè)過程中一個亟待解決的問題.目前已經(jīng)有許多研究利用元數(shù)據(jù)作為工具來解決各類農(nóng)業(yè)信息資源的共享和管理問題.劉彥花等[1]在分布式環(huán)境下將果業(yè)信息元數(shù)據(jù)內(nèi)容體系劃分為3個級別5個層次,給出了果業(yè)信息元數(shù)據(jù)的體系設(shè)計與模型表達.姚艷敏等[2]通過從地理信息和遙感數(shù)據(jù)元數(shù)據(jù)標準中抽取相關(guān)的元數(shù)據(jù)要素,同時增加特有的元數(shù)據(jù)內(nèi)容構(gòu)成草業(yè)資源信息元數(shù)據(jù).陳宏等[3]將蔬菜種植元數(shù)據(jù)模型劃分成7個一級信息描述分類及若干個二級分類,利用XML/XML Schema為技術(shù)手段,提出蔬菜種植元數(shù)據(jù)描述方案.謝惠芳等[4]提出了非文獻型網(wǎng)絡(luò)農(nóng)業(yè)科技信息資源組織模式與發(fā)展原則,建立了非文獻型網(wǎng)絡(luò)農(nóng)業(yè)科技信息分類標準體系和元數(shù)據(jù)標準體系.魏清鳳等[5]基于農(nóng)業(yè)網(wǎng)站的農(nóng)業(yè)信息欄目和信息內(nèi)容特征,編制了網(wǎng)絡(luò)農(nóng)業(yè)信息資源分類編碼體系,建立了元數(shù)據(jù)字典并開發(fā)了自動編碼著錄系統(tǒng).朱虹等[6]基于農(nóng)產(chǎn)品在各個流通環(huán)節(jié)的實際需求,給出農(nóng)產(chǎn)品流通信息元數(shù)據(jù)框架及其內(nèi)容.崔運鵬等根據(jù)農(nóng)業(yè)科技信息固有的特征,在繼承都柏林核心元數(shù)據(jù)(Dublin Core,簡稱DC)[7]及中國科學(xué)院科學(xué)數(shù)據(jù)庫核心元數(shù)據(jù)標準(SientificDataBase Core Metadata,簡稱SDBCM)[8]的基礎(chǔ)上,利用擴展原則建立了描述農(nóng)業(yè)科技信息資源的農(nóng)業(yè)科技信息核心元數(shù)據(jù)標準[9-11].從當(dāng)前來看,元數(shù)據(jù)技術(shù)已經(jīng)在農(nóng)業(yè)領(lǐng)域的許多信息資源開發(fā)和利用中進行了研究與應(yīng)用,一些研究在農(nóng)業(yè)信息資源分類和元數(shù)據(jù)描述方面也取得了進展.但是上述研究還沒有深入涉及在信息資源具有多源異構(gòu)特點的情況下,如何合理構(gòu)建涉農(nóng)信息資源的元數(shù)據(jù)描述規(guī)范問題.
信息資源的有效融合與共享是農(nóng)村信息服務(wù)的基石.本文基于元數(shù)據(jù)技術(shù)理論,提出了農(nóng)村信息服務(wù)信息資源描述元數(shù)據(jù)的制定方法和原則,規(guī)定了元數(shù)據(jù)標準的基本內(nèi)容,并運用XML/XML Schema技術(shù),實現(xiàn)了該元數(shù)據(jù)的描述方案,為推動農(nóng)村信息服務(wù)信息資源的整合和共享提供有益的幫助.
農(nóng)村信息服務(wù)涉及的信息種類繁多,內(nèi)容涉及面廣.只有將信息資源按一定的規(guī)律進行分類和編碼,才能對它們分類存儲,并按類別和代碼進行檢索,以滿足各種應(yīng)用需求.考慮到農(nóng)村信息服務(wù)信息資源的特性,通過分析現(xiàn)有的信息資源內(nèi)容,按照《中華人民共和國國家標準信息分類和編碼的基本原則與方法》[12]所描述的線分類法建立信息資源的分類體系.從構(gòu)建信息服務(wù)目錄、方便檢索應(yīng)用的角度出發(fā),通過對信息資源的系統(tǒng)梳理,參考《中國圖書分類法》[13],分類方案把農(nóng)村信息服務(wù)涉及的信息資源劃分為兩層,如表1所示.
表1 農(nóng)村信息服務(wù)信息資源分類及代碼Tab.1 Classification and code of information resources in rural information service
按照信息的共性特點來分類第一層,如政策法規(guī)是國家政府部門及相關(guān)農(nóng)業(yè)部門發(fā)布的農(nóng)業(yè)政策、法規(guī)信息以及與農(nóng)民切身利益相關(guān)的國家、地方政策.在第二層按照具體內(nèi)容的區(qū)別來劃分.如農(nóng)業(yè)技術(shù)可以細分為種植業(yè)技術(shù)、畜牧業(yè)技術(shù)、植物保護技術(shù)、動物醫(yī)學(xué)等.按照以上思路,農(nóng)村信息服務(wù)涉及的信息資源可初步區(qū)分為政策法規(guī)、新聞通知、農(nóng)業(yè)技術(shù)、科技教育、市場信息、農(nóng)業(yè)工程、防疫檢疫、質(zhì)量安全、氣象防災(zāi)、農(nóng)作物情況、鄉(xiāng)村旅游、農(nóng)業(yè)單位、農(nóng)業(yè)專家等13個一級分類,65個二級分類.
信息資源標識符是元數(shù)據(jù)中用來對信息資源進行唯一標識的元素.信息資源標識符的作用是在信息分類的基礎(chǔ)上,將信息對象賦予具有一定規(guī)律的、易于人機識別處理的符號,從而可以確定信息資源的位置[14].
在本研究中,農(nóng)村信息服務(wù)信息資源標識符編碼由前段碼(4位字母)和后段碼(19位字母或數(shù)字)兩部分組成.其中,前段碼是產(chǎn)生或提供農(nóng)村信息服務(wù)信息資源的單位代碼.后段碼是信息資源標識符中符號“/”之后的部分,用來對同一實體內(nèi)部所管理或擁有的信息資源進行唯一標識.后碼段由三部分構(gòu)成.按順序分別是8位的信息資源提交日期、1位的信息資源類型代碼和10位的流水號.不同存儲類型的信息資源編碼按照文本(Text)、圖形(Graph)、圖像(Image)、音頻(Audio)、視頻(Video)、數(shù)據(jù)庫(Database)及其他(Other),分別用代碼 T、G、I、A、V、D、O 來表示.
農(nóng)村信息服務(wù)信息資源標識符示例如下:HNND/20160816V0000000123.前段碼“HNND”表示信息資源的提交單位是河南農(nóng)業(yè)大學(xué),“20160816”指的是信息資源提交的日期代碼,“V”代表的是視頻類型,“0000000123”表示這是順序號為“0000000123”的數(shù)據(jù).
2.1.1 信息資源特點分析 經(jīng)過分析調(diào)研,發(fā)現(xiàn)農(nóng)村信息服務(wù)信息資源具有以下的特點:
(1)來源廣泛.農(nóng)村信息服務(wù)信息資源由多個不同部門的信息組成.各類信息存在技術(shù)接口、數(shù)據(jù)格式、輸出規(guī)范等方面的區(qū)別.
(2)內(nèi)容多樣.農(nóng)村信息服務(wù)信息資源涉及到農(nóng)業(yè)相關(guān)的多個領(lǐng)域,既有政策法規(guī)、新聞通知、市場信息等內(nèi)容,也有農(nóng)業(yè)技術(shù)、質(zhì)量安全等資源.信息資源內(nèi)容差異性很大.
(3)數(shù)據(jù)異構(gòu).農(nóng)村信息服務(wù)信息資源包含的數(shù)據(jù)具有多種的數(shù)據(jù)類型,包含文本、數(shù)據(jù)庫、圖像、視頻等格式.信息資源缺乏統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)和完善的數(shù)據(jù)庫結(jié)構(gòu)標準.
實現(xiàn)數(shù)據(jù)共享需要將多源、異構(gòu)和分散的農(nóng)村信息服務(wù)信息資源,利用統(tǒng)一技術(shù)管理手段進行數(shù)據(jù)庫的重組,采用元數(shù)據(jù)的規(guī)范化設(shè)定,才能達到可以通過網(wǎng)絡(luò)平臺提供查詢等服務(wù).而在一定意義上說,元數(shù)據(jù)標準抽象統(tǒng)一的程度與數(shù)據(jù)應(yīng)用的便利性是相反的[15].信息資源包含大量的異構(gòu)數(shù)據(jù),元數(shù)據(jù)標準如果過于專業(yè)化、細節(jié)化,并不利于信息快速查詢定位與便捷應(yīng)用.對多源異構(gòu)的農(nóng)村信息服務(wù)信息資源整合的目標是能夠提供信息服務(wù)和數(shù)據(jù)共享,因而為此所建立的信息資源描述元數(shù)據(jù)標準需要把信息對象的共性要素提取出來,從中選擇合適的要素來構(gòu)建符合通用標準要求的并且內(nèi)容可擴展的元數(shù)據(jù)描述標準.
2.1.2 相關(guān)元數(shù)據(jù)標準 通過對國內(nèi)外存在的信息資源描述相關(guān)的元數(shù)據(jù)標準體系的分析,有3種元數(shù)據(jù)標準對于本元數(shù)據(jù)方案的實現(xiàn)具有直接幫助作用.DCMI[16]推廣的都柏林核心是能夠最好滿足通用性的元數(shù)據(jù),而且其應(yīng)用范圍廣泛.FGDC[17]的地理空間元數(shù)據(jù)內(nèi)容標準[18]對科學(xué)數(shù)據(jù)集的描述最詳盡,不僅能應(yīng)用于地理數(shù)據(jù)的描述,而且也應(yīng)用在許多其他領(lǐng)域.中科院的科學(xué)數(shù)據(jù)庫核心元數(shù)據(jù)標準滿足了各類科學(xué)數(shù)據(jù)庫數(shù)據(jù)交互、資源整合、信息查詢等應(yīng)用功能的需求.
2.2.1 元數(shù)據(jù)元素屬性 元數(shù)據(jù)元素屬性指元數(shù)據(jù)元素采用的語義結(jié)構(gòu).對于農(nóng)村信息服務(wù)信息資源描述元數(shù)據(jù)標準中的元數(shù)據(jù)實體或元數(shù)據(jù)元素而言,在結(jié)構(gòu)特征上都具有一致性,可以通過9個屬性對其進行描述和限制.即:中文名稱,元數(shù)據(jù)元素或元數(shù)據(jù)實體的中文名稱;定義,信息資源某個屬性的解釋和說明;英文名稱,元素的英文名稱;數(shù)據(jù)類型,元素所屬數(shù)據(jù)類型,包括字符串、數(shù)值型、日期型、二進制型、布爾型等,元數(shù)據(jù)實體的類型為復(fù)合型;值域,元數(shù)據(jù)元素可以取值的范圍;縮寫名,元數(shù)據(jù)的英文縮寫名稱;約束/條件,說明一個元數(shù)據(jù)是否應(yīng)當(dāng)總是在元數(shù)據(jù)中選用或有時選用,包括必選、一定條件下必選和可選三種;最大出現(xiàn)次數(shù),元數(shù)據(jù)在實際使用時可能重復(fù)出現(xiàn)的最大次數(shù);備注,元數(shù)據(jù)進一步的補充說明.
2.2.2 元數(shù)據(jù)元素集 由于信息資源涉及的范疇非常廣泛,所以元數(shù)據(jù)元素的選擇必須考慮多樣性的特點,選擇信息資源的共性要素作為元數(shù)據(jù)標準中的元素集.元數(shù)據(jù)元素的選擇和確定參考了不同的元數(shù)據(jù)標準進行,選取與特定類型事件無關(guān)的要素作為元數(shù)據(jù)元素的候選對象.在本文中元數(shù)據(jù)元素集中的信息資源標識符、信息資源名稱、日期、語種參考了都柏林核心集的標識符、題名、日期、語種,而關(guān)鍵字、摘要、類別、格式、信息資源鏈接地址參考了科學(xué)數(shù)據(jù)庫核心元數(shù)據(jù)標準定義的關(guān)鍵詞、簡介、數(shù)據(jù)分類、數(shù)據(jù)格式、URL.元數(shù)據(jù)元素集的具體構(gòu)成見表2.
表2 農(nóng)村信息服務(wù)信息資源描述元數(shù)據(jù)元素集Tab.2 Metadata element set of information resources description in rural information service
農(nóng)村信息服務(wù)信息資源描述元數(shù)據(jù)由8個元數(shù)據(jù)元素和4個元數(shù)據(jù)實體構(gòu)成,共12個元數(shù)據(jù)元素或?qū)嶓w.其中有9個元數(shù)據(jù)項用“M”標明,3個元數(shù)據(jù)項用“O”標明.“M”,“O”分別代表約束/條件中的Mandatory(必選的),Optional(可選的).
2.3.1 基于XML Schema的元數(shù)據(jù)模式 XML是Web上表示結(jié)構(gòu)化信息的一種標準文本格式.XML格式文件便于網(wǎng)絡(luò)傳輸、交互與跨系統(tǒng)、跨平臺數(shù)據(jù)共享,是組織元數(shù)據(jù)內(nèi)容信息的最佳選擇.XML Schema用于定義XML文檔中使用的元素、屬性和數(shù)據(jù)類型,是XML環(huán)境下首選的數(shù)據(jù)建模工具.使用XML和XML Schema著錄元數(shù)據(jù)信息首先用XML Schema規(guī)定好元數(shù)據(jù)模式,然后根據(jù)此模式生成對應(yīng)的XSD文件,根據(jù)XSD文件定義的規(guī)則填寫元數(shù)據(jù)元素和屬性對應(yīng)的具體數(shù)據(jù),生成XML文檔.
XML和XML Schema的組合運用,能很好地適應(yīng)元數(shù)據(jù)的類別劃分,可以準確地對其完成歸類和描述.本文采用XMLSpy軟件來實現(xiàn)農(nóng)村信息服務(wù)信息資源描述元數(shù)據(jù)的XML schema模式并生成其XSD文件.圖1描述了農(nóng)村信息服務(wù)信息資源描述元數(shù)據(jù)的XML Schema模式.圖中顯示了農(nóng)村信息服務(wù)信息資源描述元數(shù)據(jù)的樹形結(jié)構(gòu),以實線框表示此元數(shù)據(jù)項是必需的,以虛線框表示此元數(shù)據(jù)項是可選的.若實線框下方標有1..|,表示該元數(shù)據(jù)項可出現(xiàn)任意多次,但至少出現(xiàn)一次.
圖1 農(nóng)村信息服務(wù)信息資源描述元數(shù)據(jù)的XML Schema描述模型Fig.1 XML schema model of information resources description metadata in rural information service
2.3.2 元數(shù)據(jù)描述實例 在XML Schema產(chǎn)生的元數(shù)據(jù)模式的基礎(chǔ)上,可以生成包含具體信息資源元數(shù)據(jù)內(nèi)容的XML數(shù)據(jù)文件.下面是根據(jù)已建立的元數(shù)據(jù)模式的信息描述規(guī)則,以河南省1960—2010年自然災(zāi)害數(shù)據(jù)為例生成的XML元數(shù)據(jù)描述信息文件.資源具體內(nèi)容見圖2.
圖2 基于XML的元數(shù)據(jù)描述實例Fig.2 Metadata description instance based on XML
該資源的內(nèi)容如下:信息資源標識符(resId)為“HNND/20150326D0000001758”的信息資源名稱(resTitle)是“河南省 1960-2010年自然災(zāi)害數(shù)據(jù)”,關(guān)鍵字(keyword)是“自然災(zāi)害數(shù)據(jù)”,摘要(abstract)是“1960年到2010年間河南省內(nèi)各種自然災(zāi)害的具體情況和損失情況.”信息資源類別(ResCat)的類別名稱(catName)是“災(zāi)害歷史數(shù)據(jù)”,類別代碼(catCode)是“0905”,從屬平臺(platfName)“無”,責(zé)任者(RespParty)的責(zé)任者名稱(respName)是“河南農(nóng)業(yè)大學(xué)”,責(zé)任者聯(lián)系地址(respAdd)是“鄭州市金水區(qū)文化路 95 號”,責(zé)任者聯(lián)系電話(respPhone)是“0371-56990030”,責(zé)任者電子郵件(respEmail)是“xg56990030@163.com”,訪問限制(accessConst)是“1”,語種(lanName)是“zh”,日期(Date)中發(fā)布日期(pubDate)是“2015-5-10”,最新修改日期(upDate)是“2015-5-10”,信息資源鏈接地址(phyAdd)是“http://xxx.xxx.xxx.xx”,格式(Format)中的格式類型(forType)是“數(shù)據(jù)庫”,格式描述(forDesp)是“MDB”,文件大?。╢ileSize)是“182MB”.下劃線標注的文字是元數(shù)據(jù)元素的中文名稱和英文縮寫,雙引號內(nèi)的內(nèi)容為各元數(shù)據(jù)元素對應(yīng)的屬性取值.
為提高多源異構(gòu)農(nóng)村信息服務(wù)信息資源的利用率和共享程度,本文基于元數(shù)據(jù)理論,提出了農(nóng)村信息服務(wù)信息資源描述元數(shù)據(jù)標準的制定方法與原則,完成了農(nóng)村信息服務(wù)信息資源的分類和信息資源標識符的定義,規(guī)定了元數(shù)據(jù)標準的元素屬性、元素來源和基本結(jié)構(gòu),并利用XML和XML Schema技術(shù)實現(xiàn)農(nóng)村信息服務(wù)信息資源描述元數(shù)據(jù)規(guī)范的XML信息描述.該標準的建立能夠從以下幾個方面為目前農(nóng)村信息服務(wù)的信息資源建設(shè)和整合提供支持:
(1)資源描述.對農(nóng)村信息服務(wù)包含的信息資源的內(nèi)容、屬性、位置進行詳細、全面地描述,便于信息對象的存取與利用.
(2)資源管理.能夠提供數(shù)據(jù)分類、數(shù)據(jù)標識、數(shù)據(jù)內(nèi)容等方面的信息,便于數(shù)據(jù)的組織和管理.
(3)交換共享.通過分布式網(wǎng)絡(luò)系統(tǒng),實現(xiàn)數(shù)據(jù)的高效連接,幫助用戶快速地找到特定應(yīng)用數(shù)據(jù),也可以為元數(shù)據(jù)或數(shù)據(jù)集的實時更新提供高效的方式與途徑.
提升農(nóng)村信息服務(wù)水平,加快推進農(nóng)村信息化是實現(xiàn)農(nóng)業(yè)現(xiàn)代化的必由之路.多源異構(gòu)農(nóng)村信息服務(wù)信息資源的整合和共享是一項復(fù)雜的系統(tǒng)工程,為使元數(shù)據(jù)能夠真正實現(xiàn)信息資源的深層次共享和互操作,還需要在應(yīng)用實踐中進一步檢驗農(nóng)村信息服務(wù)信息資源描述元數(shù)據(jù)標準的可適應(yīng)性和可擴展性,建立完善的元數(shù)據(jù)標準體系,并解決元數(shù)據(jù)的自動提取、元數(shù)據(jù)與數(shù)據(jù)庫一致性維護等問題.