宋曉,姜曉軼,韓璐遙,王漪
(1.國(guó)家海洋信息中心 天津 300171; 2.國(guó)家海洋局?jǐn)?shù)字海洋科學(xué)技術(shù)重點(diǎn)實(shí)驗(yàn)室 天津 300171)
?
海洋環(huán)境數(shù)據(jù)在線(xiàn)服務(wù)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
宋曉1,2,姜曉軼1,2,韓璐遙1,2,王漪1,2
(1.國(guó)家海洋信息中心 天津 300171; 2.國(guó)家海洋局?jǐn)?shù)字海洋科學(xué)技術(shù)重點(diǎn)實(shí)驗(yàn)室 天津 300171)
文章針對(duì)海洋數(shù)據(jù)信息孤島、服務(wù)對(duì)象單一等問(wèn)題,設(shè)計(jì)了海洋環(huán)境數(shù)據(jù)在線(xiàn)服務(wù)系統(tǒng)。采用并行數(shù)據(jù)庫(kù)技術(shù)實(shí)現(xiàn)數(shù)據(jù)的快速組織整理、查詢(xún)檢索,解決數(shù)據(jù)高耦合、高冗余等問(wèn)題,提高對(duì)數(shù)據(jù)的快速檢索能力。利用虛擬化技術(shù)完成存儲(chǔ)、服務(wù)器、網(wǎng)絡(luò)設(shè)備資源整合與集群建設(shè),解決物理設(shè)備分布散亂、利用率低的問(wèn)題,提高資源利用率,節(jié)約成本。利用域控管理機(jī)制,實(shí)現(xiàn)系統(tǒng)信息安全與數(shù)據(jù)在線(xiàn)服務(wù)。
虛擬技術(shù);并行數(shù)據(jù)庫(kù);海洋環(huán)境數(shù)據(jù)
海洋環(huán)境數(shù)據(jù)在線(xiàn)服務(wù)系統(tǒng)建設(shè)是集海洋科學(xué)、地理信息系統(tǒng)與計(jì)算機(jī)科學(xué)的綜合性技術(shù)。由于服務(wù)對(duì)象與服務(wù)目的不盡相同,各單位和科研院所建設(shè)了許多海洋環(huán)境數(shù)據(jù)和應(yīng)用系統(tǒng),這些系統(tǒng)之間不可避免地造成了數(shù)據(jù)冗余和資源浪費(fèi),同時(shí)也導(dǎo)致信息孤島和重復(fù)建設(shè)等問(wèn)題,不利于海洋數(shù)據(jù)的共享與服務(wù)[1-4]。
傳統(tǒng)的海洋數(shù)據(jù)服務(wù)一般是專(zhuān)項(xiàng)專(zhuān)建、專(zhuān)人專(zhuān)用,針對(duì)人群比較單一、數(shù)據(jù)類(lèi)型比較簡(jiǎn)單,而且在項(xiàng)目結(jié)束后通常建設(shè)的數(shù)據(jù)庫(kù)和應(yīng)用系統(tǒng)由于沒(méi)有后期的經(jīng)費(fèi)支撐而停用。本研究提出的海洋環(huán)境數(shù)據(jù)在線(xiàn)服務(wù)系統(tǒng)(以下簡(jiǎn)稱(chēng)系統(tǒng)),涵蓋了多專(zhuān)項(xiàng)、多學(xué)科的數(shù)據(jù),在原有數(shù)據(jù)庫(kù)、應(yīng)用系統(tǒng)、專(zhuān)網(wǎng)基礎(chǔ)上進(jìn)行系統(tǒng)集成、數(shù)據(jù)庫(kù)擴(kuò)建,為海洋局屬各單位提供共享服務(wù)。
系統(tǒng)是運(yùn)用面向服務(wù)架構(gòu)的設(shè)計(jì)思想搭建應(yīng)用系統(tǒng)。采用并行數(shù)據(jù)庫(kù)技術(shù)實(shí)現(xiàn)大數(shù)據(jù)量的存儲(chǔ)、加載、更新、查詢(xún)等操作,利用ETL調(diào)度工具實(shí)現(xiàn)源數(shù)據(jù)庫(kù)到并行數(shù)據(jù)庫(kù)的數(shù)據(jù)抽取、轉(zhuǎn)換和轉(zhuǎn)載,減少重新建庫(kù)的工作量。采用虛擬化技術(shù)整合存儲(chǔ)、服務(wù)器、網(wǎng)絡(luò)資源,建設(shè)數(shù)據(jù)中心集群,提高資源利用率,采用域控管理機(jī)制實(shí)現(xiàn)數(shù)據(jù)安全管理,權(quán)限管理。采用VPN認(rèn)證管理機(jī)制,保障系統(tǒng)安全正常運(yùn)轉(zhuǎn)。
系統(tǒng)通過(guò)面向服務(wù)的總體架構(gòu),以數(shù)據(jù)的匯集、處理、應(yīng)用為基礎(chǔ)主線(xiàn),采用高速并行技術(shù),結(jié)合虛擬化技術(shù)等先進(jìn)IT技術(shù),設(shè)計(jì)系統(tǒng)的邏輯架構(gòu)、功能架構(gòu)、物理架構(gòu)與技術(shù)架構(gòu)。
2.1 邏輯架構(gòu)
系統(tǒng)總體架框架由數(shù)據(jù)層、管理層和應(yīng)用層3部分構(gòu)成,數(shù)據(jù)層是指通過(guò)對(duì)歷史收集、專(zhuān)項(xiàng)調(diào)查、在線(xiàn)傳輸?shù)确绞绞占?,采用?shù)據(jù)集、數(shù)據(jù)庫(kù)方式進(jìn)行數(shù)據(jù)存儲(chǔ)與管理;管理層是指對(duì)使用系統(tǒng)的用戶(hù)進(jìn)行統(tǒng)一認(rèn)證、用戶(hù)管理、數(shù)據(jù)授權(quán)等實(shí)現(xiàn)用戶(hù)有效可控的管理;應(yīng)用層是指為用戶(hù)提供數(shù)據(jù)的在線(xiàn)查詢(xún)檢索、數(shù)據(jù)時(shí)空分布檢索、產(chǎn)品加工處理等應(yīng)用服務(wù),滿(mǎn)足用戶(hù)多樣化的需求。應(yīng)用層與管理層通過(guò)內(nèi)網(wǎng)和專(zhuān)網(wǎng)訪(fǎng)問(wèn)數(shù)據(jù)層,實(shí)現(xiàn)數(shù)據(jù)的管理、查詢(xún)、處理等服務(wù)。系統(tǒng)總體邏輯框架如圖1所示。
圖1 系統(tǒng)總體邏輯框結(jié)構(gòu)
(1)數(shù)據(jù)層。數(shù)據(jù)層主要由原始數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)和成果數(shù)據(jù)3部分組成。
原始數(shù)據(jù)是指海洋儀器現(xiàn)場(chǎng)采集的原始資料、現(xiàn)場(chǎng)匯交的紙質(zhì)或者電子資料等。原始數(shù)據(jù)采用文件方式存儲(chǔ),基于原始資料清單和數(shù)據(jù)庫(kù)文件目錄等方式進(jìn)行管理。類(lèi)型包括海洋觀測(cè)原始資料、海洋監(jiān)測(cè)原始資料、專(zhuān)項(xiàng)調(diào)查匯交資料等。
基礎(chǔ)數(shù)據(jù)是指對(duì)原始數(shù)據(jù)進(jìn)行整理、排重、質(zhì)量控制等處理之后形成的標(biāo)準(zhǔn)化數(shù)據(jù)。內(nèi)容主要包括專(zhuān)項(xiàng)調(diào)查數(shù)據(jù)、觀測(cè)實(shí)時(shí)資料數(shù)據(jù)與國(guó)際業(yè)務(wù)化數(shù)據(jù)等,專(zhuān)項(xiàng)調(diào)查數(shù)據(jù)包括水文、氣象等9個(gè)學(xué)科,觀測(cè)實(shí)時(shí)資料數(shù)據(jù)包括海洋站、雷達(dá)、浮標(biāo)等?;A(chǔ)數(shù)據(jù)采用數(shù)據(jù)庫(kù)存儲(chǔ)方式,根據(jù)基礎(chǔ)數(shù)據(jù)的資料類(lèi)型、資料格式、數(shù)據(jù)觀測(cè)頻率、數(shù)據(jù)傳輸頻率、數(shù)據(jù)量等設(shè)計(jì)數(shù)據(jù)庫(kù)結(jié)構(gòu)。
成果數(shù)據(jù)是指經(jīng)過(guò)信息提取、多源數(shù)據(jù)融合、數(shù)值模型分析、統(tǒng)計(jì)分析等手段處理后形成的數(shù)據(jù)。成果數(shù)據(jù)由要素?cái)?shù)據(jù)、成果專(zhuān)題數(shù)據(jù)、資料目錄數(shù)據(jù)組成,采用數(shù)據(jù)庫(kù)存儲(chǔ)方式。要素?cái)?shù)據(jù)是以基礎(chǔ)數(shù)據(jù)為基礎(chǔ),根據(jù)數(shù)據(jù)的專(zhuān)題應(yīng)用保障和服務(wù)需求,按照時(shí)間、空間、專(zhuān)題要素等進(jìn)行組織的數(shù)據(jù)。成果專(zhuān)題數(shù)據(jù)主要包括數(shù)值型產(chǎn)品和圖形產(chǎn)品,涵蓋海洋再分析產(chǎn)品、實(shí)況分析產(chǎn)品、潮汐預(yù)報(bào)產(chǎn)品和海洋專(zhuān)題產(chǎn)品等。資料目錄數(shù)據(jù)主要包括原始數(shù)據(jù)集目錄索引、標(biāo)準(zhǔn)數(shù)據(jù)集目錄索引、產(chǎn)品數(shù)據(jù)目錄索引等。
(2)管理層。管理層主要負(fù)責(zé)系統(tǒng)的用戶(hù)管理、資源管理、業(yè)務(wù)流程管理和運(yùn)行監(jiān)控管理等內(nèi)容。用戶(hù)管理包括用戶(hù)的創(chuàng)建、更改和刪除、角色管理、功能授權(quán)與數(shù)據(jù)授權(quán);資源管理包括目錄索引管理、數(shù)據(jù)導(dǎo)航管理、信息發(fā)布管理與信息資源管理;業(yè)務(wù)流程管理包括數(shù)據(jù)申請(qǐng)、虛擬機(jī)管理、數(shù)據(jù)審批管理等;運(yùn)行監(jiān)控管理包括運(yùn)行環(huán)境監(jiān)控、數(shù)據(jù)資源監(jiān)控與用戶(hù)行為監(jiān)控。
(3)應(yīng)用層。應(yīng)用層依托于中心內(nèi)網(wǎng)和海洋專(zhuān)網(wǎng),基于并行數(shù)據(jù)庫(kù)技術(shù)和虛擬化技術(shù),實(shí)現(xiàn)海洋局屬單位間的數(shù)據(jù)在線(xiàn)服務(wù)。應(yīng)用層主要包括:數(shù)據(jù)時(shí)空分布展示、數(shù)據(jù)查詢(xún)檢索服務(wù)、數(shù)據(jù)共享虛擬環(huán)境、產(chǎn)品制作與產(chǎn)品導(dǎo)出功能。
數(shù)據(jù)時(shí)空分布展示是利用數(shù)據(jù)的經(jīng)緯度、時(shí)間范圍、站次數(shù)等關(guān)鍵信息,通過(guò)統(tǒng)計(jì)計(jì)算數(shù)據(jù)量,依據(jù)色彩圖例,進(jìn)行時(shí)空分布展示。
數(shù)據(jù)查詢(xún)檢索服務(wù)包括數(shù)據(jù)庫(kù)查詢(xún)檢索和數(shù)據(jù)集查詢(xún)檢索。該服務(wù)可提供基于矢量地圖及影像地圖的地圖顯示控件的數(shù)據(jù)查詢(xún)服務(wù),以及使用關(guān)鍵字對(duì)數(shù)據(jù)進(jìn)行查詢(xún)。
產(chǎn)品制作是指對(duì)資料進(jìn)行整理、標(biāo)準(zhǔn)化處理,開(kāi)展數(shù)據(jù)識(shí)別、解碼等預(yù)處理操作,利用數(shù)據(jù)統(tǒng)計(jì)分析工具進(jìn)行產(chǎn)品的加工制作。
產(chǎn)品導(dǎo)出是指對(duì)用戶(hù)加工制作產(chǎn)生的產(chǎn)品成果提供數(shù)據(jù)的導(dǎo)出功能,實(shí)現(xiàn)數(shù)據(jù)從虛擬機(jī)到本機(jī)的導(dǎo)出服務(wù)。
2.2 物理架構(gòu)
按照系統(tǒng)設(shè)計(jì),對(duì)系統(tǒng)運(yùn)行硬件環(huán)境進(jìn)行搭建,硬件環(huán)境涵蓋原始數(shù)據(jù)文件存儲(chǔ)區(qū)、數(shù)據(jù)庫(kù)存儲(chǔ)區(qū)、數(shù)據(jù)處理區(qū)、數(shù)據(jù)服務(wù)區(qū)。按照網(wǎng)絡(luò)布局可化為中心內(nèi)網(wǎng)和海洋專(zhuān)網(wǎng),內(nèi)網(wǎng)為中心內(nèi)部用戶(hù)提供在線(xiàn)服務(wù)的入口,專(zhuān)網(wǎng)主要包括海洋觀測(cè)網(wǎng)、海洋監(jiān)測(cè)網(wǎng)、數(shù)字海洋網(wǎng);數(shù)字海洋網(wǎng)為海洋局屬單位提供在線(xiàn)服務(wù)的入口,用戶(hù)經(jīng)由內(nèi)網(wǎng)/數(shù)字海洋網(wǎng)通過(guò)VPN身份認(rèn)證后方可進(jìn)入用戶(hù)主頁(yè),通過(guò)登錄進(jìn)入個(gè)人虛擬工作環(huán)境(即用戶(hù)虛擬機(jī)),用戶(hù)可在虛擬機(jī)中對(duì)數(shù)據(jù)進(jìn)行查詢(xún)、處理和產(chǎn)品制作(圖2)。
圖2 系統(tǒng)物理結(jié)構(gòu)
系統(tǒng)經(jīng)由海洋觀測(cè)網(wǎng)和海洋監(jiān)測(cè)網(wǎng)接收實(shí)時(shí)、延時(shí)觀測(cè)和監(jiān)測(cè)的海洋數(shù)據(jù),并發(fā)送到系統(tǒng)的文件存儲(chǔ)區(qū)和處理資料臨時(shí)存儲(chǔ)區(qū),由存儲(chǔ)管理系統(tǒng)進(jìn)行數(shù)據(jù)的接收、存儲(chǔ)和管理。利用用戶(hù)授權(quán)管理將數(shù)據(jù)分發(fā)到數(shù)據(jù)處理用戶(hù)的虛擬機(jī)中。數(shù)據(jù)處理用戶(hù)通過(guò)中心內(nèi)網(wǎng)登錄到虛擬機(jī)后,開(kāi)展數(shù)據(jù)整理、標(biāo)準(zhǔn)化處理工作后,將處理結(jié)果按照指定的路徑存放。由數(shù)據(jù)傳輸系統(tǒng)同步傳輸?shù)疆a(chǎn)品制作用戶(hù)的虛擬機(jī)中,用戶(hù)可開(kāi)展產(chǎn)品加工制作并將成果按照指定的路徑存放。最終由數(shù)據(jù)交換系統(tǒng)存儲(chǔ)到統(tǒng)一的資料存儲(chǔ)管理區(qū)。ETL處理系統(tǒng)經(jīng)過(guò)數(shù)據(jù)抽取、清洗、轉(zhuǎn)換等處理,將數(shù)據(jù)處理結(jié)果和產(chǎn)品加載入庫(kù),最終經(jīng)由中心內(nèi)網(wǎng)和海洋專(zhuān)網(wǎng)為海洋局屬單位提供數(shù)據(jù)共享服務(wù)。
系統(tǒng)通過(guò)用戶(hù)唯一入口登錄,保證數(shù)據(jù)安全;開(kāi)發(fā)數(shù)據(jù)處理系統(tǒng),完成數(shù)據(jù)格式化轉(zhuǎn)換;利用ETL處理系統(tǒng),完成并行數(shù)據(jù)庫(kù)的數(shù)據(jù)處理與調(diào)度,包括數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換與清洗及數(shù)據(jù)加載;開(kāi)發(fā)數(shù)據(jù)庫(kù)檢索、數(shù)據(jù)集檢索、文件輸出審批和文件導(dǎo)出等應(yīng)用程序;開(kāi)發(fā)系統(tǒng)運(yùn)行監(jiān)控管理系統(tǒng),對(duì)系統(tǒng)的運(yùn)行環(huán)境、數(shù)據(jù)狀況和用戶(hù)行為進(jìn)行監(jiān)控和管理。系統(tǒng)主要功能模塊如圖3所示。
圖3 系統(tǒng)功能框圖
3.1 數(shù)據(jù)處理分系統(tǒng)
3.1.1 實(shí)時(shí)數(shù)據(jù)處理子系統(tǒng)
根據(jù)海洋環(huán)境數(shù)據(jù)觀測(cè)的采集規(guī)范和編碼規(guī)定,對(duì)接收、收集和整合的大量海洋調(diào)查、業(yè)務(wù)化觀測(cè)/監(jiān)測(cè)等資料,按照資料類(lèi)型、觀測(cè)儀器、觀測(cè)手段、要素內(nèi)容等特點(diǎn),開(kāi)展數(shù)據(jù)識(shí)別、解碼、數(shù)字化、數(shù)據(jù)項(xiàng)檢查、代碼檢查等預(yù)處理,按照時(shí)間、空間和觀測(cè)資料類(lèi)型進(jìn)行排重、排序和初步質(zhì)量控制,剔除異常數(shù)據(jù),依據(jù)數(shù)據(jù)來(lái)源、時(shí)間、地點(diǎn)等信息對(duì)數(shù)據(jù)文件進(jìn)行挑選、過(guò)濾、分類(lèi)存放,同時(shí)完善和新建相應(yīng)的海洋環(huán)境數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn),對(duì)資料進(jìn)行標(biāo)準(zhǔn)化格式轉(zhuǎn)換。
3.1.2 歷史數(shù)據(jù)處理子系統(tǒng)
系統(tǒng)根據(jù)海洋環(huán)境數(shù)據(jù)觀測(cè)設(shè)備性能、儀器訂正參數(shù)、資料種類(lèi)、觀測(cè)要素類(lèi)型、觀測(cè)方式、資料時(shí)空分布、要素?cái)?shù)據(jù)經(jīng)驗(yàn)范圍等特點(diǎn),配置質(zhì)量控制參數(shù),采用相應(yīng)的質(zhì)量控制方法,對(duì)各類(lèi)海洋環(huán)境數(shù)據(jù)進(jìn)行精細(xì)化的計(jì)算機(jī)自動(dòng)質(zhì)量控制和人工審核。質(zhì)量控制方法包括范圍檢驗(yàn)、非法碼檢驗(yàn)、相關(guān)檢驗(yàn)、季節(jié)性檢驗(yàn)、一致性檢驗(yàn)、著陸點(diǎn)檢驗(yàn)、梯度檢驗(yàn)、尖峰檢驗(yàn)、氣候?qū)W檢驗(yàn)和極值檢驗(yàn)等。
3.2 數(shù)據(jù)庫(kù)加載分系統(tǒng)
數(shù)據(jù)庫(kù)加載系統(tǒng)包括通用數(shù)據(jù)庫(kù)加載系統(tǒng)與并行數(shù)據(jù)庫(kù)加載系統(tǒng)。通用數(shù)據(jù)庫(kù)加載系統(tǒng)是通過(guò)加載文件清單的方式進(jìn)行數(shù)據(jù)管理,清單文件是對(duì)每類(lèi)數(shù)據(jù)的特征描述,包括文件類(lèi)型、文件名、調(diào)查機(jī)構(gòu)、絕對(duì)路徑、備注等信息,通過(guò)一條記錄就可以確認(rèn)數(shù)據(jù)類(lèi)型并找到數(shù)據(jù)存儲(chǔ)位置。清單文件的組織結(jié)構(gòu)與數(shù)據(jù)庫(kù)表結(jié)構(gòu)一致,且加載系統(tǒng)可實(shí)現(xiàn)清單列名與數(shù)據(jù)庫(kù)列名對(duì)應(yīng)關(guān)系的動(dòng)態(tài)調(diào)整,清單配置文件設(shè)置完成后,單擊上傳,將清單的記錄入庫(kù),加載過(guò)程中可通過(guò)狀態(tài)條查看加載進(jìn)度。
并行數(shù)據(jù)庫(kù)加載系統(tǒng)先按照數(shù)據(jù)庫(kù)結(jié)構(gòu)利用ETL處理系統(tǒng)通過(guò)抽取數(shù)據(jù)文件的相關(guān)信息形成庫(kù)文件,將庫(kù)文件存放在規(guī)定的目錄下,并查看庫(kù)文件的文件表結(jié)構(gòu),創(chuàng)建相應(yīng)的數(shù)據(jù)庫(kù)表,創(chuàng)建shell腳本并制定源文件和目標(biāo)文件,最后寫(xiě)入數(shù)據(jù)庫(kù)。
3.3 數(shù)據(jù)查詢(xún)檢索分系統(tǒng)
系統(tǒng)主要分為兩大模塊:關(guān)鍵字查詢(xún)和圖形化檢索。系統(tǒng)界面左側(cè)顯示海洋資料體系結(jié)構(gòu),右側(cè)用于經(jīng)緯度區(qū)域選擇地圖和查詢(xún)結(jié)果瀏覽。用戶(hù)首先在左側(cè)選擇相應(yīng)的航次,然后在右側(cè)地圖圈定需求的區(qū)域,再輸入關(guān)鍵字,查詢(xún)?cè)搮^(qū)域的特定信息,或查詢(xún)特定區(qū)域的所有信息,或查詢(xún)所有區(qū)域的特定信息,并能夠?qū)Σ樵?xún)結(jié)果進(jìn)行統(tǒng)計(jì)、排序、固定格式表格的導(dǎo)出。
3.4 運(yùn)行監(jiān)控管理分系統(tǒng)
通過(guò)建立運(yùn)行環(huán)境監(jiān)控信息數(shù)據(jù)庫(kù),確定數(shù)據(jù)庫(kù)中各類(lèi)監(jiān)控信息表、監(jiān)控要素字段、監(jiān)控狀態(tài)字段、表關(guān)系和數(shù)據(jù)字典等,實(shí)現(xiàn)運(yùn)行環(huán)境監(jiān)控、數(shù)據(jù)監(jiān)控與用戶(hù)行為監(jiān)控的實(shí)體建設(shè)。
3.4.1 運(yùn)行環(huán)境監(jiān)控與管理子系統(tǒng)
運(yùn)行環(huán)境監(jiān)控與管理子系統(tǒng)包括硬件環(huán)境監(jiān)控和軟件環(huán)境監(jiān)控兩部分。硬件環(huán)境監(jiān)控是通過(guò)對(duì)系統(tǒng)局域網(wǎng)硬件設(shè)備運(yùn)行的日志信息進(jìn)行提取、分析,實(shí)現(xiàn)對(duì)服務(wù)器、存儲(chǔ)陣列、交換機(jī)、路由器、防火墻等設(shè)備故障診斷、告警等功能。軟件環(huán)境監(jiān)控是通過(guò)研制各商業(yè)軟件(操作系統(tǒng)、數(shù)據(jù)庫(kù)軟件等)與各業(yè)務(wù)系統(tǒng)(數(shù)據(jù)處理軟件等)運(yùn)行日志讀取接口,實(shí)時(shí)讀取日志信息并加載運(yùn)行環(huán)境監(jiān)控信息數(shù)據(jù)庫(kù)。
3.4.2 數(shù)據(jù)資源監(jiān)控與管理子系統(tǒng)
數(shù)據(jù)資源監(jiān)控與管理子系統(tǒng)通過(guò)對(duì)數(shù)據(jù)匯集狀態(tài)實(shí)時(shí)監(jiān)控,實(shí)現(xiàn)信息反饋、到期告警、匯集情況季報(bào)與年報(bào)輸出等功能,實(shí)現(xiàn)對(duì)海洋數(shù)據(jù)處理和質(zhì)量情況的實(shí)時(shí)監(jiān)控和預(yù)警、數(shù)據(jù)處理任務(wù)。調(diào)度管理;通過(guò)提取用戶(hù)登錄日志、數(shù)據(jù)庫(kù)與數(shù)據(jù)集訪(fǎng)問(wèn)日志、數(shù)據(jù)申請(qǐng)信息進(jìn)行分析,實(shí)現(xiàn)數(shù)據(jù)的服務(wù)內(nèi)容、服務(wù)對(duì)象、應(yīng)用領(lǐng)域情況的實(shí)時(shí)監(jiān)控。
3.4.3 用戶(hù)行為監(jiān)控與管理子系統(tǒng)
用戶(hù)行為監(jiān)控與管理子分系統(tǒng)實(shí)時(shí)對(duì)用戶(hù)的登錄、數(shù)據(jù)資源訪(fǎng)問(wèn)、外部設(shè)備使用、軟件安裝預(yù)警和設(shè)備接入等行為進(jìn)行監(jiān)控,具有終止用戶(hù)操作、告警提示、季度分析報(bào)告輸出等功能,在提供用戶(hù)方便使用的前提下保障系統(tǒng)的穩(wěn)定運(yùn)行。
根據(jù)系統(tǒng)總體功能定位,在已有的工作基礎(chǔ)之上,以數(shù)據(jù)的匯集、處理、存儲(chǔ)、管理、服務(wù)過(guò)程為主線(xiàn),采用操作系統(tǒng)、數(shù)據(jù)庫(kù)、數(shù)據(jù)管理與共享3層軟件體系,集成各類(lèi)自主研發(fā)功能,構(gòu)建靈活、穩(wěn)定的架構(gòu)模式。架構(gòu)主要基于虛擬化技術(shù)、并行處理技術(shù)、數(shù)據(jù)檢索并行處理技術(shù)與J2EE技術(shù)等關(guān)鍵技術(shù)。
4.1 虛擬化技術(shù)
由于用戶(hù)對(duì)處理器、內(nèi)存等硬件和操作系統(tǒng)需求不同,用戶(hù)工作使用的數(shù)據(jù)處理軟件、資料質(zhì)量控制軟件和產(chǎn)品制作軟件不盡相同,為滿(mǎn)足用戶(hù)需求,同時(shí)提高服務(wù)器、存儲(chǔ)陣列等資源的利用率,采用服務(wù)器虛擬化技術(shù)實(shí)現(xiàn)滿(mǎn)足不同用戶(hù)需求的虛擬機(jī),同時(shí)消除服務(wù)器與存儲(chǔ)陣列對(duì)應(yīng)用系統(tǒng)的物理局限性。
服務(wù)器虛擬化技術(shù)是將一個(gè)物理服務(wù)器虛擬成若干個(gè)服務(wù)器使用,使得單個(gè)物理服務(wù)器上可以運(yùn)行多個(gè)虛擬服務(wù)器,并對(duì)虛擬服務(wù)器的硬件資源如處理器、內(nèi)存、I/O設(shè)備等進(jìn)行配置管理,提供統(tǒng)一的指令集和設(shè)備接口。系統(tǒng)利用服務(wù)器虛擬化技術(shù)可實(shí)現(xiàn)多客戶(hù)操作系統(tǒng),不同硬件配置與軟件環(huán)境的虛擬機(jī),根據(jù)用戶(hù)需求分配相應(yīng)的虛擬機(jī)資源,并可對(duì)服務(wù)器、存儲(chǔ)陣列、虛擬機(jī)進(jìn)行統(tǒng)一的配置和管理。
服務(wù)器虛擬化是通過(guò)虛擬化軟件向上提供對(duì)硬件設(shè)備的抽象和對(duì)虛擬服務(wù)器的管理,利用CPU虛擬化、內(nèi)存虛擬化、設(shè)備與I/O虛擬化技術(shù)對(duì)硬件資源進(jìn)行虛擬化,采用虛擬機(jī)實(shí)時(shí)遷移技術(shù)實(shí)現(xiàn)動(dòng)態(tài)資源整合。系統(tǒng)選用VMware ESX Server虛擬化軟件,實(shí)現(xiàn)對(duì)硬件的抽象,資源的分配、調(diào)度和管理[5-6]。
4.2 并行處理技術(shù)
利用高速并行處理引擎,完成多層次海洋數(shù)據(jù)體系動(dòng)態(tài)更新的ETL(抽取、轉(zhuǎn)換、加載)并行處理,實(shí)現(xiàn)整個(gè)系統(tǒng)的數(shù)據(jù)處理與調(diào)度,包括數(shù)據(jù)抽取、數(shù)據(jù)傳輸、數(shù)據(jù)轉(zhuǎn)換與清洗、數(shù)據(jù)加載以及調(diào)度監(jiān)控。
4.2.1 數(shù)據(jù)抽取
數(shù)據(jù)抽取的方式包括:全表刷新、時(shí)間戳增量、日志增量和時(shí)間戳比較。系統(tǒng)采用時(shí)間戳增量方式完成數(shù)據(jù)的抽取,時(shí)間戳增量方式是通過(guò)記錄時(shí)間將增量數(shù)據(jù)從源數(shù)據(jù)抽取出來(lái),以附加的方式加載到高速數(shù)據(jù)存儲(chǔ)中,完成源數(shù)據(jù)中的記錄定期更新。時(shí)間戳增量方式是在源系統(tǒng)需要抽取的數(shù)據(jù)表中增加時(shí)間戳字段,用以表示數(shù)據(jù)的修改或新增時(shí)間,在數(shù)據(jù)抽取時(shí)通過(guò)它來(lái)識(shí)別和抽取增量數(shù)據(jù)。
4.2.2 數(shù)據(jù)轉(zhuǎn)換
由于海洋數(shù)據(jù)通過(guò)調(diào)查、匯交、網(wǎng)載等多種手段獲取,每種手段來(lái)源的數(shù)據(jù)存在定義不規(guī)范、格式不統(tǒng)一等情況,導(dǎo)致系統(tǒng)的源數(shù)據(jù)存在重復(fù)、錯(cuò)誤、格式不一等情況。數(shù)據(jù)轉(zhuǎn)換是將多來(lái)源、多調(diào)查手段、多要素和多格式的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,形成格式統(tǒng)一、實(shí)用性強(qiáng)的數(shù)據(jù)存儲(chǔ)層。
4.2.3 數(shù)據(jù)加載
將業(yè)務(wù)系統(tǒng)和源數(shù)據(jù)庫(kù)層抽取、轉(zhuǎn)換后的數(shù)據(jù)加載、更新到目標(biāo)數(shù)據(jù)庫(kù)中。根據(jù)業(yè)務(wù)數(shù)據(jù)的實(shí)際情況,對(duì)不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采用不同的加載周期;根據(jù)數(shù)據(jù)的抽取策略以及業(yè)務(wù)規(guī)則確定,采用直接追加、全部覆蓋、更新追加等多種方式進(jìn)行處理。
4.2.4 高速并行調(diào)度
利用高速并行ETL調(diào)度,按照既定步驟完成數(shù)據(jù)抽取、轉(zhuǎn)換、加載的全部時(shí)間和流程的調(diào)度任務(wù)。調(diào)度的內(nèi)容包括:從各業(yè)務(wù)系統(tǒng)到數(shù)據(jù)層的調(diào)度,實(shí)現(xiàn)多來(lái)源數(shù)據(jù)的提取、轉(zhuǎn)換和加載;從數(shù)據(jù)層到數(shù)據(jù)存儲(chǔ)的調(diào)度,實(shí)現(xiàn)了原始數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)、產(chǎn)品數(shù)據(jù)的高速并行存儲(chǔ);從數(shù)據(jù)存儲(chǔ)到應(yīng)用層的調(diào)度,實(shí)現(xiàn)數(shù)據(jù)的并行查詢(xún)檢索[7-9]。
海洋環(huán)境數(shù)據(jù)在線(xiàn)服務(wù)系統(tǒng)實(shí)現(xiàn)了內(nèi)部資源整合和數(shù)據(jù)業(yè)務(wù)流程的規(guī)劃設(shè)計(jì),完成了海洋數(shù)據(jù)從接收、整理、標(biāo)準(zhǔn)化處理到產(chǎn)品加工的一體化管理與服務(wù)。但是系統(tǒng)仍存在很多不足,如數(shù)據(jù)加載程序中間過(guò)程仍需要人工干預(yù),數(shù)據(jù)三維可視化方面存在不足。因此其進(jìn)一步改進(jìn)目標(biāo)是實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)化加載,開(kāi)發(fā)信息可視化展示系統(tǒng)。
[1] 韓春花,張俊明,梁建峰,等.側(cè)掃聲吶探測(cè)數(shù)據(jù)管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].海洋通報(bào),2011,30(2):187-191.
[2] 傅世鋒,蔣金龍,李勝睿,等. 福建省海洋環(huán)境保護(hù)規(guī)劃信息系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 熱帶地理,2011,31(6):593-597.
[3] 楊勇,高金耀,楊春國(guó),等. 基于GIS的海洋地震數(shù)據(jù)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].海洋通報(bào),2011,30(4):414-418.
[4] 陳宏文,王剛龍,邵長(zhǎng)高,等. 基于C/S模式的海洋地質(zhì)調(diào)查數(shù)據(jù)保密框架設(shè)計(jì)與實(shí)現(xiàn)[J].海洋技術(shù),2010,29(3):131-133.
[5] 孫晨陽(yáng). 服務(wù)器虛擬化技術(shù)與應(yīng)用[J]. 科學(xué)大眾:科學(xué)教育,2014(3):169-170.
[6] 王博. 應(yīng)用虛擬化技術(shù)在海上平臺(tái)的應(yīng)用[J].網(wǎng)友世界,2014(2):24-25.
[7] 劉豹.一種分布式ETL工具的設(shè)計(jì)與實(shí)現(xiàn)[J].軟件,2013,34(10):73-77.
[8] 夏魏,邵清.ETL在超市大數(shù)據(jù)量中的應(yīng)用研究[J].信息技術(shù),2013(11):117-120.
[9] 李晨翔,何剛,孫莉.基于Hadoop平臺(tái)的分布式ETL系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].福建電腦,2013(11):111-114.
P717;TP391
A
1005-9857(2015)04-0019-05