宋 坤,周 雪
(1.國家海洋技術中心 天津 300112;2.國家海洋信息中心 天津 300171)
元數(shù)據(jù)技術在海洋觀測數(shù)據(jù)集成中的應用研究*
宋 坤1,周 雪2
(1.國家海洋技術中心 天津 300112;2.國家海洋信息中心 天津 300171)
文章分析、研究了元數(shù)據(jù)技術及其發(fā)展情況和元數(shù)據(jù)在數(shù)據(jù)管理、交換中的應用,并對國際上幾種海洋元數(shù)據(jù)的特點進行了歸納、分析和比較。并在此基礎上針對海洋環(huán)境觀測數(shù)據(jù)的多源性、多態(tài)性、多樣性以及其分散性等特點,依托重大項目 “赤潮監(jiān)測與預警系統(tǒng)集成與示范”對數(shù)據(jù)通信與集成的需求,分析了元數(shù)據(jù)在海洋環(huán)境觀測數(shù)據(jù)集成中的應用,以實現(xiàn)對海洋觀測數(shù)據(jù)有效的、合理的集成管理及共享。
元數(shù)據(jù);數(shù)據(jù)集成;核心元數(shù)據(jù);海洋觀測數(shù)據(jù)
當代海洋科學技術的發(fā)展明顯呈現(xiàn)出大科學、定量化、重過程研究等特點,越來越依賴于系統(tǒng)的、高可信度的、長時間序列的基本科學數(shù)據(jù)及其衍生的數(shù)據(jù)產品。海洋科學的基本科學數(shù)據(jù)來源于海洋科學調查及海洋觀測,獲取數(shù)據(jù)的背后是艱苦的工作和高昂的成本,非常珍貴。海洋觀測數(shù)據(jù)作為國家基礎性公益科學數(shù)據(jù)資源的重要組成部分,是國家海洋維權、國民經濟建設、海洋生態(tài)保護和防災減災等領域的科研、規(guī)劃的基礎依據(jù)。
海洋觀測數(shù)據(jù)和相關信息包括海洋水文、海洋表面氣象、海洋生物、海洋化學、海洋環(huán)境質量、海洋地質、海洋地球物理、海洋基礎物理、海洋航空與遙感、海洋經濟、海洋資源等,數(shù)據(jù)總量大、涉及范圍廣。由于數(shù)據(jù)觀測、獲取的手段不同,以及其在精度、格式、表述形式、數(shù)據(jù)結構等方面的差異,海洋觀測數(shù)據(jù)及資料與其他的數(shù)據(jù)資料相比呈現(xiàn)出了多源性、多態(tài)性和多樣性等特點。
元數(shù)據(jù)是對信息資源的規(guī)范化描述,是按照一定標準,從信息資源中抽取出相應的特征,組成的一個特征元素集合。這種規(guī)范化描述可以準確和完備地說明信息資源的各項特征??紤]到海洋觀測數(shù)據(jù)包含的數(shù)據(jù)結構復雜,觀測要素種類繁多,涉及不同的時間尺度、空間參照系統(tǒng)、坐標系統(tǒng)等特殊性,為有效、合理地實現(xiàn)對數(shù)據(jù)的集成與管理,引入元數(shù)據(jù)技術是需求的必然。
元數(shù)據(jù)(metadata)是用于描述要素、數(shù)據(jù)集或數(shù)據(jù)集系列的內容、覆蓋范圍、質量、管理方式、數(shù)據(jù)的所有者、數(shù)據(jù)的提供方式等有關的信息[1]。其最本質、最抽象的定義是關于數(shù)據(jù)的數(shù)據(jù)(data about data)。元數(shù)據(jù)為各種形態(tài)的數(shù)字化信息單元和資源集合提供規(guī)范、普遍的描述方法和檢索工具;為分布的、由多種數(shù)字化資源有機構成的信息體系提供整合的工具和紐帶,實現(xiàn)簡單高效地管理大量網絡化數(shù)據(jù)。其主要功能有如下幾方面。
(1)元數(shù)據(jù)是對信息資源的描述,能比較完整地反映出資源的全貌,并為數(shù)字化信息資源建立一種機器可理解框架。
(2)元數(shù)據(jù)能夠很好地組織信息資源,建立各信息資源間的關系,為用戶提供多層次、多途徑的檢索體系。
(3)元數(shù)據(jù)能讓用戶在不必瀏覽信息資源本身的情況下,對信息資源有基本的了解和認識,從而決定信息的取舍。
國際上已經有一些專門用于海洋領域的元數(shù)據(jù),如國際海洋資料和信息交換IODE的MEDI(海洋環(huán)境數(shù)據(jù)目錄),歐洲的EDIOS (歐洲海洋觀測系統(tǒng)數(shù)據(jù)目錄)以及ODAS(海洋數(shù)據(jù)獲取系統(tǒng))元數(shù)據(jù)等[2]。下面具體分析、比較一下這三種海洋元數(shù)據(jù)。
MEDI(Marine Enviromental Data Inventory)是IODE資料交換系統(tǒng)采用的元數(shù)據(jù)格式。其使用目錄交換格式(Directory InterChange Format),描述對象是數(shù)據(jù)集,共包括33項,其中目錄標識、目錄名稱、參數(shù)、數(shù)據(jù)中心以及數(shù)據(jù)集概要描述是必須提供的,其他都是可選項。在MEDI元數(shù)據(jù)項中,雖然有些是可選項,但是需要提供內容的要求比較高,覆蓋面廣而細。
ODAS(Ocean Data Acquisition System)元數(shù)據(jù)是由海洋氣候學小組(Commission of Marine Meteorology,CMM)為了建立數(shù)據(jù)獲取系統(tǒng)(包括系泊浮標、漂流浮標、海上平臺等)綜合元數(shù)據(jù)庫而開發(fā)的。其內容從結構上分為標題信息(對整個觀測平臺的描述,提供明確的平臺類型和浮標類型等)和數(shù)據(jù)描述信息 (對觀測平臺上不同測量參數(shù)所用的傳感器特征的描述)。ODAS元數(shù)據(jù)主要針對海洋觀測數(shù)據(jù)獲取系統(tǒng),以觀測平臺為描述對象,側重于觀測平臺的特征和一些技術參數(shù),缺少對應用元素的描述。
EDIOS(European Directory of the Initial Ocean-observing System)是在歐洲海洋觀測、測量和監(jiān)測系統(tǒng)中投入運行的元數(shù)據(jù),以描述原始資料為主,側重對觀測方法、觀測內容和使用儀器的精度相關信息的描述。其主要包括觀測平臺、地理位置、儀器、調查參數(shù)、觀測計劃信息和質量管理體系和有關數(shù)據(jù)的聯(lián)系信息等。EDIOS元數(shù)據(jù)側重描述調查資料、重視資料的質量,地理位置的描述也比較全面。
4.1 海洋核心元數(shù)據(jù)組成
元數(shù)據(jù)可以分為兩個層次,即全集元數(shù)據(jù)和核心元數(shù)據(jù)。全集元數(shù)據(jù)是對數(shù)據(jù)集進行的全面描述。核心元數(shù)據(jù)是表示唯一標識信息單元文檔所需要基本的最少數(shù)量的元數(shù)據(jù)元素和元數(shù)據(jù)實體。核心元數(shù)據(jù)在基本的最少元數(shù)據(jù)元素集合的基礎上,完整地描述數(shù)據(jù)集最重要的信息,滿足元數(shù)據(jù)的完整性。
本研究所設計的海洋觀測數(shù)據(jù)核心元數(shù)據(jù)模型主要根據(jù)國家海洋局發(fā)布的海洋行業(yè)標準《海洋信息元數(shù)據(jù)》并依托 “赤潮監(jiān)測與預警數(shù)據(jù)通信與集成系統(tǒng)”所需集成數(shù)據(jù)的特點以及后端赤潮預警預報應用系統(tǒng)及用戶對數(shù)據(jù)的需求設計的?!俺喑北O(jiān)測與預警數(shù)據(jù)通信與集成系統(tǒng)”是實時獲取并收集、集成船載現(xiàn)場監(jiān)測系統(tǒng)、浮標監(jiān)測系統(tǒng) (大型深海浮標、生態(tài)浮標、哈希浮標、光學浮標等)、岸基站監(jiān)測系統(tǒng)等海洋環(huán)境觀測數(shù)據(jù),對數(shù)據(jù)進行初步質量控制建立原始數(shù)據(jù)庫、實時數(shù)據(jù)庫,為赤潮預警預報系統(tǒng)提供實時數(shù)據(jù)并集成、管理赤潮預報產品、數(shù)據(jù)分析產品和遙感監(jiān)測產品等。最終實現(xiàn)對長江口區(qū)域的赤潮預警、監(jiān)控為赤潮災害應急處置提供有效的信息服務并豐富赤潮監(jiān)控區(qū)的監(jiān)測手段。
本研究設計的海洋觀測數(shù)據(jù)核心元數(shù)據(jù)打破了以數(shù)據(jù)的獲取手段及觀測平臺為基礎的習慣數(shù)據(jù)集成方式,針對赤潮監(jiān)測、預報的需求,該元數(shù)據(jù)以觀測站位為基礎粒度,所以該核心元數(shù)據(jù)主要由數(shù)據(jù)標識信息、數(shù)據(jù)內容信息、數(shù)據(jù)質量信息、數(shù)據(jù)發(fā)布信息和元數(shù)據(jù)信息等5個部分組成。此核心元數(shù)據(jù)能夠為后端數(shù)據(jù)應用、分析處理系統(tǒng)明確的提供數(shù)據(jù)集覆蓋的區(qū)域、時間范圍;數(shù)據(jù)集質量;數(shù)據(jù)集內容及數(shù)據(jù)集存在形式、獲取方法等主要信息。圖1為海洋核心元數(shù)據(jù)基本組成圖。
圖1 海洋核心元數(shù)據(jù)基本組成
4.2 海洋核心元數(shù)據(jù)描述
海洋核心元數(shù)據(jù)主要由數(shù)據(jù)標識信息、數(shù)據(jù)內容信息、數(shù)據(jù)質量信息、數(shù)據(jù)發(fā)布信息和元數(shù)據(jù)信息等5個元數(shù)據(jù)子集組成,既描述了數(shù)據(jù)集的主要信息、數(shù)據(jù)質量信息和發(fā)布信息,又提供了元數(shù)據(jù)的格式和創(chuàng)建時間等相關信息[3]。
4.2.1 數(shù)據(jù)標識信息
標識信息是唯一標識數(shù)據(jù)集的信息,包括數(shù)據(jù)集引用、摘要、關鍵字、數(shù)據(jù)集安全限制、數(shù)據(jù)分類和觀測站位等。引用、摘要和關鍵字等元素是顯示數(shù)據(jù)集內容的主要信息;數(shù)據(jù)分類是對數(shù)據(jù)所屬觀測要素類別的說明,如生態(tài)、動力、水文、氣象等;觀測站位明確了觀測數(shù)據(jù)獲取的站位信息由設定的站代碼表示,每個站位都對應著一個明確的地理位置;用途限制是對數(shù)據(jù)集適用性的說明;考慮海洋觀測數(shù)據(jù)的敏感性,安全限制用于描述數(shù)據(jù)集使用的限制,明確哪些用戶有權限使用該數(shù)據(jù)集及使用該數(shù)據(jù)集需要遵守的相關規(guī)定。數(shù)據(jù)標識信息描述了數(shù)據(jù)集的基本信息,是元數(shù)據(jù)的重要組成部分。圖2為數(shù)據(jù)標識信息UML類圖。
圖2 數(shù)據(jù)標識信息UML類圖
4.2.2 數(shù)據(jù)內容信息
數(shù)據(jù)內容信息是提供數(shù)據(jù)集內容特征的描述信息,關于數(shù)據(jù)要素的說明,如數(shù)據(jù)集包含海洋觀測要素的類型以及相應要素的名稱、單位、精確度等相關內容特征信息。圖3為數(shù)據(jù)內容信息UML類圖。
圖3 數(shù)據(jù)內容信息UML類圖
4.2.3 數(shù)據(jù)質量信息
數(shù)據(jù)質量信息是對數(shù)據(jù)集質量的總體評價,包括數(shù)據(jù)覆蓋范圍、數(shù)據(jù)質控方法、數(shù)據(jù)質控標識等。數(shù)據(jù)覆蓋范圍是對數(shù)據(jù)集的時間范圍和空間范圍的描述,由于連續(xù)、長期的海洋觀測數(shù)據(jù)才能被應用于海洋預報等數(shù)據(jù)分析中,所以需要明確數(shù)據(jù)集的時間序列及采樣頻率等;考慮到海洋觀測數(shù)據(jù)的地理空間分布性,空間范圍用于描述觀測數(shù)據(jù)的地理位置、采樣深度等。數(shù)據(jù)質控方法是為甄別異常數(shù)據(jù)所采用的數(shù)據(jù)質量控制方法;數(shù)據(jù)質控標識則是在該種質控方法下數(shù)據(jù)的質控結果的標識。圖4為數(shù)據(jù)質量信息UML類圖。
圖4 數(shù)據(jù)質量信息UML類圖
4.2.4 數(shù)據(jù)發(fā)布信息
數(shù)據(jù)發(fā)布信息主要描述數(shù)據(jù)的格式及獲取數(shù)據(jù)的渠道等,包括數(shù)據(jù)量、數(shù)據(jù)傳輸選項和發(fā)布單位。數(shù)據(jù)格式是對數(shù)據(jù)集文件格式及其所占存儲空間大小的說明;數(shù)據(jù)傳輸選項則是獲取數(shù)據(jù)的傳輸路徑及方式的說明;發(fā)布單位描述了該數(shù)據(jù)集發(fā)布單位及相關責任人的基本信息。圖5為數(shù)據(jù)發(fā)布信息UML類圖。
圖5 數(shù)據(jù)發(fā)布信息UML類圖
4.2.5 元數(shù)據(jù)信息
元數(shù)據(jù)信息主要用于描述元數(shù)據(jù)使用的語種、字符集、創(chuàng)建時間以及所依據(jù)的標準等關于元數(shù)據(jù)的主要信息。圖6為元數(shù)據(jù)信息UML類圖。
圖6 元數(shù)據(jù)信息UML類圖
4.3 海洋元數(shù)據(jù)應用
本研究的海洋環(huán)境數(shù)據(jù)核心元數(shù)據(jù)是在“赤潮監(jiān)測與預警數(shù)據(jù)通信與集成系統(tǒng)”的研發(fā)過程中設計的,并在該系統(tǒng)數(shù)據(jù)集成、管理、共享中得到了有效地應用。該系統(tǒng)涉及了船載現(xiàn)場監(jiān)測、岸基站監(jiān)測、浮標監(jiān)測等多種觀測平臺獲取的實時數(shù)據(jù),主要的觀測要素包括海洋動力環(huán)境觀測要素、生態(tài)觀測要素、水文氣象觀測要素等。根據(jù)后端赤潮預警、數(shù)據(jù)應用等對觀測數(shù)據(jù)的需求,本系統(tǒng)基于觀測站點為基礎粒度的核心元數(shù)據(jù)實現(xiàn)對海洋環(huán)境觀測數(shù)據(jù)的抽取。
在數(shù)據(jù)處理中心站建立實時數(shù)據(jù)庫服務器、元數(shù)據(jù)服務器以及數(shù)據(jù)共享服務器。后端應用系統(tǒng)首先根據(jù)數(shù)據(jù)集的站位代碼和數(shù)據(jù)分類,確定數(shù)據(jù)標識,進而明確數(shù)據(jù)集的時間和空間覆蓋范圍,數(shù)據(jù)質量信息等,并通過數(shù)據(jù)發(fā)表信息獲得可用數(shù)據(jù)[4]。圖7為海洋元數(shù)據(jù)應用流程。
圖7 海洋元數(shù)據(jù)應用流程
海洋核心元數(shù)據(jù)是海洋環(huán)境觀測數(shù)據(jù)集成、管理及應用、共享的基礎。本研究所設計的核心元數(shù)據(jù)是依據(jù)海洋行業(yè)標準 《海洋信息元數(shù)據(jù)》,主要為滿足 “赤潮監(jiān)測與預警數(shù)據(jù)通信與集成系統(tǒng)”的需求,作為一種精簡的海洋元數(shù)據(jù)模型,為元數(shù)據(jù)在海洋觀測數(shù)據(jù)集成、管理、共享等領域中的應用提供了一個框架。隨著項目的進展、信息產品等不斷的集成,還將不斷地完善、擴充該元數(shù)據(jù)以實現(xiàn)各種形式數(shù)據(jù)、信息產品的集成,并滿足更為廣泛的數(shù)據(jù)應用的需求。
[1] 趙文濤,郭曉利.元數(shù)據(jù)技術研究[J].船舶科學技術,2011,33(增刊):88-99.
[2] 薛惠芬.國際上幾種海洋元數(shù)據(jù)內容剖析[J].國外海洋信息技術,2004(3):25-28.
[3] 孟令奎,李三霞,張文,等.面向水文數(shù)據(jù)共享的水文核心元數(shù)據(jù)模型研究及應用[J].水文,2012,32 (1):1-12.
[4] 張英俊,謝斌紅,郭勇義.元數(shù)據(jù)技術在科學數(shù)據(jù)共享平臺中的應用[J].太原理工大學學報,2009, 40(4):341-344.
國家高技術研究發(fā)展技術(“863”計劃)“赤潮監(jiān)測與預警系統(tǒng)集成與示范”項目(2007AA092004).