李翔翔
為了低耗高效的充分開發(fā)高分專項的數(shù)據(jù)應用價值,為領域用戶提供一套規(guī)范化、綜合性、一站式的數(shù)據(jù)服務系統(tǒng),研究高分專項元數(shù)據(jù)規(guī)范的設計框架、提出了一種基于元數(shù)據(jù)規(guī)范的應用主題數(shù)據(jù)字典模型,基于該模型設計了一套高分遙感時空大數(shù)據(jù)智能服務平臺系統(tǒng),通過實際項目的應用,初步驗證了高分專項元數(shù)據(jù)及字典規(guī)范合理性和本平臺系統(tǒng)設計的有效。
【關鍵詞】高分專項 元數(shù)據(jù)規(guī)范 主題數(shù)據(jù)字典 時空大數(shù)據(jù) 智能服務
1 概述
高分辨率對地觀測系統(tǒng)重大專項是《國家中長期科學與技術發(fā)展規(guī)劃綱要(2006-2020)》所部署的16個重大專項之一。該專項將統(tǒng)籌建設基于衛(wèi)星、平流層飛艇和飛機的高分辨率對地觀測系統(tǒng),完善地面資源,與其他觀測手段結合,形成全天候、全天時、全球覆蓋的對地觀測能力。
在此趨勢下,如何低耗高效的充分開發(fā)高分專項的應用價值成為行業(yè)內共同關注的熱點問題。低耗的數(shù)據(jù)傳輸、運轉、應用機制需要建立在強化統(tǒng)一的衛(wèi)星數(shù)據(jù)接收、生產、存儲、交換、服務標準規(guī)范基礎之上,從而推動遙感衛(wèi)星數(shù)據(jù)的開發(fā)和共享,形成長期、連續(xù)、高效的數(shù)據(jù)應用服務體系。高分元數(shù)據(jù)規(guī)范體系的建立可以用于許多方面,包括數(shù)據(jù)文檔建立、數(shù)據(jù)發(fā)布、數(shù)據(jù)瀏覽、數(shù)據(jù)轉換等。如圖1所示,其主要作用可以總結為以下幾點:
(1)幫助數(shù)據(jù)生產單位有效地管理和維護高分遙感影像數(shù)據(jù),建立詳細的數(shù)據(jù)文檔,即使工作人員變動,也可以根據(jù)元數(shù)據(jù)詳細地了解高分影像信息;
(2)為各級、各類高分數(shù)據(jù)中心、應用中心體系(如地理信息系統(tǒng))提供整合的工具與紐帶,元數(shù)據(jù)規(guī)范既是數(shù)據(jù)集成的核心技術,也是系統(tǒng)集成的有利工具;
(3)提供數(shù)據(jù)生產單位各方面的信息,便于用戶查詢檢索地理空間數(shù)據(jù),其中包括信息內容、存儲位置、數(shù)據(jù)分類、質量、交換網絡等;
(4)提供便于用戶轉換和處理有用數(shù)據(jù)的幫助說明信息;
(5)提供網絡查詢、檢索數(shù)據(jù)的方法及途徑以及與數(shù)據(jù)交換和傳輸相關的輔助信息標準。
2 需求分析
高分信息元數(shù)據(jù)規(guī)范需要按照國際、國內標準規(guī)范編制的框架和要求,科學規(guī)范的制定,并考慮與國際、國內已有標準的繼承性,保證數(shù)據(jù)共享和交換的快速和方便,具體需求內容包括以下幾個方面:
2.1 國內外標準兼容需求
在遵循國際主流遙感數(shù)據(jù)格式標準的基礎上,針對我國高分遙感器的特點,制定適合于我國的遙感數(shù)據(jù)格式標準,既有利于統(tǒng)一我國各部門、行業(yè)遙感數(shù)據(jù)格式,也有利于標準將來與國際接軌,甚至上升為國際標準。
2.2 跨平臺、異構環(huán)境兼容需求
我國正建立自己的遙感數(shù)據(jù)分發(fā)共享的高分數(shù)據(jù)服務體系,以實現(xiàn)不同部門、不同行業(yè)對不同遙感數(shù)據(jù)源的交換與共享。高分遙感元數(shù)據(jù)格式規(guī)范需要支持跨平臺、異構環(huán)境的應用需求,包括不同軟件平臺(操作系統(tǒng)和應用軟件)和不同硬件平臺的兼容能力。以操作系統(tǒng)為例,由于不同的操作系統(tǒng)(如Windows、Linux和Unix等)在文件編碼和數(shù)據(jù)存儲方面存在一定的差異。因此高分遙感元數(shù)據(jù)格式規(guī)范應能夠支持用戶在不同的操作系統(tǒng)上進行遙感數(shù)據(jù)的互操作。隨著我國對標準化工作的日益重視,特別是遙感數(shù)據(jù)的交換、共享的需求不斷增加,越來越要求有一個能夠統(tǒng)一各行業(yè)和部門的遙感數(shù)據(jù)格式標準,從而避免資源的不必要的浪費,節(jié)省人力、物力和財力。
2.3 元數(shù)據(jù)類別定義需求
為了最大化的提升高分數(shù)據(jù)的應用價值,拓寬并推廣行業(yè)、區(qū)域應用成果為公眾服務,解決產業(yè)鏈長、應用范圍廣、“數(shù)據(jù)-信息-知識”轉換帶來的信息集成與共享的問題,并最終推動高分數(shù)據(jù)進入行業(yè)、區(qū)域廣泛應用,高分元數(shù)據(jù)規(guī)范應按照數(shù)據(jù)的應用領域特性與產品數(shù)據(jù)固有特性分層、分類的定義基礎屬性類、擴展屬性類、應用特性類,從而滿足數(shù)據(jù)的共享服務、擴展性、應用融合管理的需求。
2.4 內容擴展需求
高分數(shù)據(jù)的特性包括應用領域特性與產品數(shù)據(jù)固有特性。應用領域包括氣象、林業(yè)、減災、國土、地震、測繪、水利、農業(yè)、衛(wèi)生、交通運輸?shù)?,各領域用戶管理的高分深加工產品具有特定的應用價值,元數(shù)據(jù)規(guī)范需要對各類應用定義具有唯一識別性的屬性擴展集合,方便用戶共享和獲取數(shù)據(jù)。高分產品數(shù)據(jù)的固有特性包括云量、觀測模式、幅寬、數(shù)據(jù)結構等,固有屬性數(shù)量多,屬性的定義域和值域變化較大,因此在元數(shù)據(jù)規(guī)范中應考慮屬性內容擴展能力。
2.5 時態(tài)版本關聯(lián)需求
高分數(shù)據(jù)最高時間分辨率將達到分鐘級,因此對海量多時相數(shù)據(jù)、多版本數(shù)據(jù)的管理需求將成為高分數(shù)據(jù)中心首要解決的問題。歷史數(shù)據(jù)的遷移、備份,如何通過自動化的手段幫助用戶準確獲取目標數(shù)據(jù)最終都將歸結到時態(tài)版本關聯(lián)這一核心問題上。
2.6 數(shù)據(jù)與應用的關聯(lián)需求
目前主流遙感數(shù)據(jù)管理系統(tǒng)都欠缺對應用的關注,導致影像數(shù)據(jù)檢索條件復雜,無法做到精確檢索。因此每個數(shù)據(jù)訂購需求必將大于用戶的實際需求,進一步導致數(shù)據(jù)管理系統(tǒng)共享數(shù)據(jù)的壓力過大。
2.7 共享服務需求
用戶對影像數(shù)據(jù)的需求是多種多樣的,一個影像數(shù)據(jù)提供者不可能同時滿足所有用戶的需求。但是,用戶總是希望一個共享體系能夠為他們提供所有的元數(shù)據(jù)信息,以便及時獲得所需要的影像數(shù)據(jù)。所以,一個部門單獨提供的數(shù)據(jù)共享服務對于用戶的需求是微不足道的,甚至沒有現(xiàn)實意義。因此,數(shù)據(jù)中心、應用技術中心和12個行業(yè)應用系統(tǒng)應該在數(shù)據(jù)共享層面上通過技術手段實現(xiàn)合作,以便建立廣泛適應用戶需求的影像數(shù)據(jù)共享體系。在高分地面應用體系中,各參與部門不僅是影像數(shù)據(jù)的提供者,同時也是共享體系的用戶。他們在為用戶提供影像共享服務的同時,也可以及時從其他科研機構獲取自己所需的影像數(shù)據(jù)或其他有價值的信息。這對于影像數(shù)據(jù)的重復生產,提高效益極其有力。
3 元數(shù)據(jù)及字典規(guī)范設計規(guī)范設計
通過前述需求分析,筆者將高分信息元數(shù)據(jù)分解為圖2的三大部分:核心元數(shù)據(jù)元素、擴展元數(shù)據(jù)元素和特殊元數(shù)據(jù)元素。核心元素定義高分影像的元數(shù)據(jù)最小集,包括影像特征信息、識別信息、數(shù)據(jù)質量信息、空間信息、參考系信息。特殊類元素包括專業(yè)元素和組織機構專用的元素。擴展類元素則定義描述高分影像包括了高分信息的進一步詳細特征和參考數(shù)據(jù)等信息。
傳統(tǒng)的信息系統(tǒng)模型通常是建立實體關系模型和數(shù)據(jù)庫信息模式,將信息數(shù)據(jù)按照建立好的模式輸入至一個數(shù)據(jù)庫中,這種信息系統(tǒng)的程序、數(shù)據(jù)以及編寫方式互相依賴,一旦系統(tǒng)投入使用,資源信息組織方式不能改變,該系統(tǒng)的不可擴展性較大的限制著資源更新?;谶@種情況,建立可擴展的數(shù)據(jù)字典體系對于高分遙感時空大數(shù)據(jù)智能服務平臺有著極為重要的意義,一方面可擴展的數(shù)據(jù)字典體系可實現(xiàn)數(shù)據(jù)一致性,另一方面能有效提高數(shù)據(jù)結構和系統(tǒng)功能的獨立性,最終增強系統(tǒng)通用性。因此,高分信息元數(shù)據(jù)規(guī)范設計了基于應用主題的數(shù)據(jù)字典規(guī)范,這部分結合了高分遙感信息本質特征和行業(yè)需求,以高分遙感衛(wèi)星應用領域主題為切入點進行元數(shù)據(jù)字典規(guī)范設計。如圖3所示,高分元數(shù)據(jù)字典主題構建可簡單描述為六個流程。
隨著高分辨率衛(wèi)星應用的發(fā)展,高分衛(wèi)星能夠全天候和全天時實現(xiàn)全球海洋和陸地信息的監(jiān)視監(jiān)測,可服務海洋、減災、水利及氣象等多個行業(yè)及業(yè)務部門。高分元數(shù)據(jù)內容涉及大氣、海洋、國土、氣象氣候、地震、林業(yè)、水利、災害、生態(tài)脆弱帶、全球變化等領域。高分遙感時空大數(shù)據(jù)智能服務平臺將結合高分遙感信息本質特征和行業(yè)需求,以高分遙感衛(wèi)星應用領域主題為切入點進行元數(shù)據(jù)字典目錄結構設計,數(shù)據(jù)字典目錄結構圖見圖4。
4 規(guī)范應用設計
研究高分信息數(shù)據(jù)字典目錄和應用流程的目標是建立一套更先進、更面向用戶的元數(shù)據(jù)規(guī)范服務模式,并從規(guī)范的角度提煉出一套基于語義級別上的應用主題查詢檢索策略目錄。通過建立關于遙感數(shù)據(jù)信息源的應用主題將所有已有的數(shù)據(jù)源高度整合,挖掘信息之間的內在聯(lián)系。圖5描述了高分遙感時空大數(shù)據(jù)智能服務平臺基于數(shù)據(jù)字典主題檢索的工作流程。
基于應用主題的高分遙感時空大數(shù)據(jù)智能服務平臺數(shù)據(jù)檢索工作流程設計目標是:即可以通過正向的在用戶查詢的過程中,基于數(shù)據(jù)字典主題分類進行高分信息的快速檢索獲取,也可以逆向的通過用戶的檢索,主動對熱點數(shù)據(jù)對應的查詢關鍵詞執(zhí)行加權處理。
5 平臺設計
基于元數(shù)據(jù)規(guī)范的高分遙感時空大數(shù)據(jù)智能服務平臺面向元數(shù)據(jù)規(guī)范化應用,實現(xiàn)空間數(shù)據(jù)、遙感數(shù)據(jù)、情報數(shù)據(jù)等多類數(shù)據(jù)及產品的一體化存儲管理。提供統(tǒng)一的面向應用主題的大數(shù)據(jù)關聯(lián)存取組織、檢索、展示和輔助研判功能,實現(xiàn)遙感時空數(shù)據(jù)的“即插即用”注冊、數(shù)據(jù)管理類別的動態(tài)擴展能力與安全控制等功能。將解決多星、多載荷、高分辨率海量數(shù)據(jù)接入、處理壓力與系統(tǒng)高效定制化服務的沖突,充分發(fā)揮遙感衛(wèi)星的大數(shù)據(jù)資源優(yōu)勢,作為綜合性的遙感時空大數(shù)據(jù)中心是構建天地一體化衛(wèi)星應用工程的數(shù)據(jù)服務基礎。其亮點主要有以下四個方面:
(1)面向簽約用戶的訂制化離線數(shù)據(jù)、應用服務;
(2)基于主題檢索的影像數(shù)據(jù)智能搜索引擎服務;
(3)精準時空數(shù)據(jù)檢索及熱點影像服務;
(4)基于影像數(shù)據(jù)特征和用戶熱點需求的PB級文件生命周期管理。
系統(tǒng)功能組成見圖6。
數(shù)據(jù)生命周期管理功能包括:數(shù)據(jù)存儲目錄維護、數(shù)據(jù)遷移恢復、冗余數(shù)據(jù)清理三項。數(shù)據(jù)存儲目錄維護功能實現(xiàn)文件存儲類數(shù)據(jù)目錄的深度和子文件數(shù)量平衡管理,數(shù)據(jù)遷移恢復功能實現(xiàn)冷數(shù)據(jù)降級、升級存儲和數(shù)據(jù)動態(tài)降級規(guī)則維護,動態(tài)降級規(guī)則因子包括數(shù)據(jù)質量、云蓋指數(shù)、用戶焦點度、時延等屬性。冗余數(shù)據(jù)清理功能實現(xiàn)對錯誤數(shù)據(jù)、低質量數(shù)據(jù)、重復數(shù)據(jù)、常規(guī)歷史日志文件的邏輯刪除和物理刪除功能。
系統(tǒng)資源安全監(jiān)控對象包括:數(shù)據(jù)庫、業(yè)務服務器、存儲、消息通道和平臺內核。能夠對這些資源對象的在線狀態(tài)、運行服務、關鍵目錄進行實時監(jiān)控,并在故障、惡意攻擊發(fā)生時及時報警,為用戶提供詳細故障日志,以便問題定位。
數(shù)據(jù)共享服務接口監(jiān)管功能包括數(shù)據(jù)規(guī)范維護、接入及共享推送、任務監(jiān)控三項功能。數(shù)據(jù)規(guī)范維護為針對遙感影像、矢量、專題地圖、文本對象特征進行識別策略建模和數(shù)據(jù)驗證。接入及共享推送功能實現(xiàn)遙感影像、矢量、專題地圖、文本數(shù)據(jù)的自動編目接入、數(shù)據(jù)批量共享推送、下載,任務監(jiān)控則具備對接入、共享推送任務實時監(jiān)控及圖形界面展示功能。
主題建模與應用領域知識庫維護包括規(guī)則驗證數(shù)據(jù)字典管理、行政區(qū)域及空間邏輯字典管理、主題模型創(chuàng)建及關聯(lián)管理。規(guī)則驗證數(shù)據(jù)字典管理包括各類數(shù)據(jù)屬性有效閾值定義及檢驗規(guī)則管理。行政區(qū)域及空間邏輯字典管理實現(xiàn)全球各級有效行政區(qū)域、空間關系目錄對象化及維護。主題模型創(chuàng)建及關聯(lián)管理包括主題詞庫管理、領域主題建模、領域知識樹型目錄管理。
精準時空數(shù)據(jù)檢索功能實現(xiàn)世界范圍的國家和省/州/郡兩級政區(qū)查詢、國內政區(qū)實現(xiàn)省區(qū)/市/縣三級查詢,支持多級政區(qū)組合查詢;具備經緯度點坐標范圍、矩形區(qū)域、多邊形區(qū)域和矢量文件為空間搜索模板的空間查詢;所有空間查詢支持“覆蓋”,“包含于”和“相交”空間位置二次篩選。針對所有類型空間搜索模板提供查詢歷史記憶和查詢歷史清理功能。針對文件型的空間搜索模板提供上傳功能。
熱點影像服務包括熱點權重規(guī)則維護、熱點數(shù)據(jù)升降級管理、熱點數(shù)據(jù)圖形化展示、時空對比及快捷下載服務功能。
影像時空數(shù)據(jù)庫主題搜索引擎包括數(shù)據(jù)索引存檔和查詢檢索兩個基本功能。數(shù)據(jù)索引歸檔是在數(shù)據(jù)接入過程中基于接入元信息內容進行語義分詞,并創(chuàng)建歸檔數(shù)據(jù)索引庫?;緳z索是指根據(jù)用戶輸入的關鍵詞序列,進行語義分解和關鍵詞智能提示,并能夠自動將關鍵詞與領域知識庫進行匹配,生成搜索命令輸出查詢結果。
系統(tǒng)配置包括系統(tǒng)初始化配置管理、用戶權限管理、數(shù)據(jù)權限管理、日志管理。
時空數(shù)據(jù)統(tǒng)計分析包括周期性熱點數(shù)據(jù)報表、在庫數(shù)據(jù)覆蓋統(tǒng)計、接收計劃完備性統(tǒng)計、數(shù)據(jù)生命周期管理報表、及數(shù)據(jù)周期維護計劃報表功能。
閃電下載及離線服務包括三個方面,首先是針對簽約客戶提供遠程高速數(shù)據(jù)下載服務,其次針對離線業(yè)務需求提供的主題數(shù)據(jù)服務包導出功能、離線瘦客戶端服務功能。
7 結論
基于元數(shù)據(jù)規(guī)范的高分遙感時空大數(shù)據(jù)智能服務平臺是一套面向領域用戶的規(guī)范化、綜合性、一站式的數(shù)據(jù)服務系統(tǒng),低耗高效的充分開發(fā)高分專項的數(shù)據(jù)應用價值是該平臺的立項初衷。本文從這幾項核心需求出發(fā),根據(jù)高分專項元數(shù)據(jù)及字典規(guī)范的設計思路、當前用戶需求特點和歷史項目研發(fā)經驗,設計并初步實現(xiàn)了平臺的核心功能,合并入系列產品的升級版本中,并且應用到同類的在研項目中,降低了目標用戶的專業(yè)技術門檻,提高了數(shù)據(jù)服務系統(tǒng)的用戶友好度和可靠性,初步驗證了高分專項元數(shù)據(jù)及字典規(guī)范合理性。平臺后續(xù)的優(yōu)化研究工作將主要集中在領域知識發(fā)現(xiàn)和主題目錄擴展驗證、海量時空數(shù)據(jù)查詢響應優(yōu)化三個方面。
作者單位
航天恒星科技有限公司 北京市 100000