胡坤霖,溫劍鋒,徐 剛,3,朱安峰,徐海燕
(1.中南大學(xué) 計(jì)算機(jī)學(xué)院,湖南 長(zhǎng)沙 410083;2.浙江安防職業(yè)技術(shù)學(xué)院 應(yīng)急管理學(xué)院,浙江 溫州 325016;3.中南大學(xué) 地球科學(xué)與信息物理學(xué)院,湖南 長(zhǎng)沙 410083)
當(dāng)前社會(huì)正處于“信息爆炸”時(shí)代,由于科技進(jìn)步,人們被海量數(shù)據(jù)包圍。其中空間數(shù)據(jù)是地理信息系統(tǒng)的關(guān)鍵組成部分,也是國(guó)家基礎(chǔ)建設(shè)的主體。通常將其當(dāng)作為與空間位置相關(guān)的、展示客觀世界的不同實(shí)體數(shù)據(jù)。其組成要素包括空間、屬性、拓?fù)湟约皶r(shí)間數(shù)據(jù)等。其中,空間數(shù)據(jù)表示位置、輪廓與形狀信息;屬性數(shù)據(jù)則代表地理要素屬性特點(diǎn),例如種類、等級(jí)等;拓?fù)鋽?shù)據(jù)反映要素之間具有的空間關(guān)系;時(shí)間指各類信息采集的時(shí)間特性。對(duì)于這些鋪天蓋地的地理空間數(shù)據(jù),首要問題就是如何從這些信息中提取有用信息。
文獻(xiàn)[1]提出基于平行坐標(biāo)軸動(dòng)態(tài)排列的空間數(shù)據(jù)可視化提取方法。結(jié)合信息屬性特征對(duì)地理空間位置進(jìn)行聚類分析,利用Voronoi圖與顏色明暗映射對(duì)空間中不同區(qū)域進(jìn)行標(biāo)注;通過平行坐標(biāo)呈現(xiàn)出地理空間的屬性信息。優(yōu)化數(shù)據(jù)線布局,改善地圖和坐標(biāo)系數(shù)據(jù)線分布的紊亂程度;至此,完成基于坐標(biāo)軸動(dòng)態(tài)排列的空間數(shù)據(jù)可視化提取系統(tǒng)設(shè)計(jì)。文獻(xiàn)[2]提出面向雙向、多變量的連續(xù)面域拓?fù)鋱D可視化提取方法。利用格網(wǎng)密度補(bǔ)償與積分補(bǔ)償試探方式對(duì)連續(xù)面域拓?fù)鋱D算法做優(yōu)化處理,實(shí)現(xiàn)基本變量表示。再使用空間內(nèi)插與符號(hào)擴(kuò)展對(duì)不同變量在連續(xù)面域拓?fù)鋱D中進(jìn)行描述,達(dá)到空間數(shù)據(jù)可視化提取目的。
上述兩種可視化提取系統(tǒng)連續(xù)性較差,在數(shù)據(jù)安全方面也存在一定缺陷。為此,本文在改進(jìn)鯨魚算法基礎(chǔ)上設(shè)計(jì)一種新的地理空間數(shù)據(jù)可視化提取系統(tǒng)[3-4]。
為了準(zhǔn)確提取出用戶需要的地理空間數(shù)據(jù),本文提出基于自組織神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)預(yù)處理方法[5-7]。神經(jīng)網(wǎng)絡(luò)可實(shí)現(xiàn)模式識(shí)別與分類,在海量數(shù)據(jù)中,有助于改善空間數(shù)據(jù)可視化提取質(zhì)量,可以在不理想狀況下實(shí)現(xiàn)噪聲數(shù)據(jù)過濾。SOM在地理空間數(shù)據(jù)中能夠進(jìn)行降維處理,構(gòu)建拓?fù)?,不但保留?shù)據(jù)初始關(guān)系,還能將數(shù)據(jù)的非線性關(guān)系變換為幾何關(guān)系[8-9],減少計(jì)算量。
SOM模型自組織性能較強(qiáng),通過對(duì)權(quán)系數(shù)Wi,j的不斷調(diào)節(jié),保證神經(jīng)網(wǎng)絡(luò)在相同形態(tài)中收斂。此時(shí),神經(jīng)元只針對(duì)某個(gè)輸入模式敏感。假設(shè)X={x1,xi,xn}代表輸入模式,W=(wi,j|1≤i≤n,1≤j≤c)表示輸入神經(jīng)元i與輸出神經(jīng)元j的權(quán)值矩陣,Y=(y1,y2,…,yc)描述輸入節(jié)點(diǎn)匹配響應(yīng)程度。則在t時(shí)間點(diǎn)有:
公式中,d表示歐式距離。輸出節(jié)點(diǎn)響應(yīng)程度體現(xiàn)出此節(jié)點(diǎn)有關(guān)輸入部分的匹配度。若需滿足最優(yōu)匹配,則必須符合如下條件:
在此節(jié)點(diǎn)的拓?fù)溧徲蛑袑?duì)權(quán)系數(shù)進(jìn)行調(diào)整:
公式中,a(t)代表學(xué)習(xí)參數(shù)。
下述為自組織學(xué)習(xí)方法的全部學(xué)習(xí)步驟:
對(duì)輸入與輸出層的全部鏈接權(quán)值wi,j任意賦予[0,1]區(qū)間的值。確定迭代次數(shù)T、初始化近鄰NE(t)。
步驟一:輸入新模式Xk,并獲取該模式和全部向量之間的空間距離。針對(duì)輸出神經(jīng)元j,利用dj,k表示其與輸入模式之間的距離,則有:
步驟二:將dj,k最小節(jié)點(diǎn)作為優(yōu)勝節(jié)點(diǎn)。其與輸入模式之間最小神經(jīng)元即為最佳輸出神經(jīng)元c。如果采用Wc描述神經(jīng)元存在的權(quán)系數(shù)矢量,則有:
步驟三:判定全部模式是否完全輸入,反之回到步驟一。在實(shí)際運(yùn)用過程中,一般結(jié)合經(jīng)驗(yàn)選取NE(t)的值。選擇原則為:使原始NE(t)值較大,再逐漸縮小至0,此時(shí)能夠快速獲取輸入矢量的概率結(jié)構(gòu),更加細(xì)致地調(diào)節(jié)權(quán)值,確保其滿足輸入空間概率分布要求。
SOM 模型能夠?qū)臻g數(shù)據(jù)起到聚類作用,可將聚類中心[8]當(dāng)做初始輸入,具有壓縮效果,確保拓?fù)溆行?。其非監(jiān)督學(xué)習(xí)原則可以有效去除冗余數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)降維,有助于改善可視化提取性能[10-11]。
在可視化提取系統(tǒng)中,視圖長(zhǎng)寬比是非常重要的性能。傳統(tǒng)的可視化系統(tǒng)隨著數(shù)據(jù)量的增加,長(zhǎng)寬比性能迅速下降,這是因?yàn)橄到y(tǒng)容量不夠?qū)е碌?。為解決這一問題,本文利用改進(jìn)鯨魚算法尋找可視化提取的最佳目標(biāo),同時(shí)能夠?qū)崿F(xiàn)系統(tǒng)擴(kuò)容。該方法模仿了鯨魚的狩獵行為,其優(yōu)勢(shì)在于操作簡(jiǎn)便,需調(diào)節(jié)的參數(shù)較少,能夠避免局部最優(yōu)。算法整個(gè)過程包括覓食、收縮包圍與捕食三個(gè)過程。
(1) 隨機(jī)覓食
公式中,X'表示個(gè)體所處位置,G表示現(xiàn)階段迭代次數(shù),代表目標(biāo)更新之前和其它目標(biāo)之間存在的距離,A與C均表示隨機(jī)參數(shù)。
(2) 縮小包圍
當(dāng)鯨魚在尋找到食物之后,會(huì)再次進(jìn)行位置更新,此時(shí)數(shù)學(xué)模型表示為:
(3) 捕食
為此,本文對(duì)鯨魚算法做出一定改進(jìn),當(dāng)完成每次迭代后,在現(xiàn)階段最佳解基礎(chǔ)上對(duì)差分算子做變異、交叉處理,以便獲得適應(yīng)性更強(qiáng)的最佳解,再對(duì)當(dāng)前最佳解進(jìn)行替換,反之執(zhí)行下一次迭代。差分進(jìn)化處理過程的主要目的為:利用隨機(jī)選取的方式使試驗(yàn)矢量中最少包括一個(gè)目標(biāo)做出的貢獻(xiàn),否則種群不會(huì)發(fā)生變化:
公式中,rand(j)[0,1]表示平均分布的隨機(jī)數(shù),rnb(i)[1,2,…,n]代表隨機(jī)整數(shù),CR[0,1]描述較差幾率,取值為0.1。
將完成交叉處理后的目標(biāo)與當(dāng)前目標(biāo)對(duì)比,令適應(yīng)度較小的值進(jìn)入到下次迭代種群中:
上述即為利用改進(jìn)的鯨魚算法構(gòu)建的系統(tǒng)容量變化模型。此方法經(jīng)過多次變異、交叉處理,豐富了種群類型,擴(kuò)大搜索空間,提高全局搜索性能,避免陷入局部最優(yōu),獲取最佳提取結(jié)果。此外系統(tǒng)容量得到擴(kuò)大,可視化提取的長(zhǎng)寬比性能也得到改善。
結(jié)合以上設(shè)計(jì)原則,將可視化提取系統(tǒng)分為表現(xiàn)層、服務(wù)層、支撐層、資源層與基礎(chǔ)平臺(tái)層。此種分層設(shè)置思想具有很多優(yōu)勢(shì),可將其中任意一層當(dāng)作整體理解,也能夠減少層次之間的依賴性,便于標(biāo)準(zhǔn)化服務(wù)。具體每層設(shè)計(jì)如下:
(1) 表現(xiàn)層
表現(xiàn)層就是用戶的可視化界面,是系統(tǒng)最頂層架構(gòu),方便信息交互。該可視化提取系統(tǒng)主要針對(duì)空間數(shù)據(jù)可視化領(lǐng)域,通過表現(xiàn)層讓用戶更加直觀感受到系統(tǒng)所提供的服務(wù)。
(2) 服務(wù)層
服務(wù)層在表現(xiàn)層下方,主要負(fù)責(zé)業(yè)務(wù)邏輯與基礎(chǔ)設(shè)備,執(zhí)行某些特殊功能,更好地服務(wù)于表現(xiàn)層。在服務(wù)層中主要定義了如下功能:數(shù)據(jù)導(dǎo)入接口:利用該接口,便于將地理空間數(shù)據(jù)導(dǎo)入到系統(tǒng)內(nèi)部;數(shù)據(jù)表示:便于用戶了解數(shù)據(jù)屬性與維度;算法編輯:為上述算法提供導(dǎo)入功能,并實(shí)現(xiàn)與支撐層的數(shù)據(jù)交互;此外,該層還可以提供可視化展示等服務(wù)。
(3) 支撐層
支撐層是為表現(xiàn)層與服務(wù)層提供支撐能力的,在該系統(tǒng)架構(gòu)中支撐層提供的服務(wù)如下:數(shù)據(jù)變換功能:將其他層次導(dǎo)入,利用該功能變換為符合系統(tǒng)要求的數(shù)據(jù)格式;數(shù)據(jù)和算法匹配:并不是所有算法都能夠?qū)崿F(xiàn)可視化展示,所以必須通過該功能對(duì)系統(tǒng)算法進(jìn)行合理映射,以此獲得最佳效果。
(4) 數(shù)據(jù)層
數(shù)據(jù)層可以為其他層次提供資源支持,在該系統(tǒng)中數(shù)據(jù)資源主要包括本地、外地?cái)?shù)據(jù)。其中本地?cái)?shù)據(jù)庫能夠?qū)?dǎo)入的信息進(jìn)行儲(chǔ)存。
(5) 基礎(chǔ)平臺(tái)層
此層能夠?yàn)橄到y(tǒng)提供軟、硬件等基礎(chǔ)設(shè)備,支持其他應(yīng)用運(yùn)行。其可分為服務(wù)器與開發(fā)環(huán)境等。
在所提可視化提取系統(tǒng)中,設(shè)計(jì)模式分為客戶端、邏輯端以及服務(wù)器端三個(gè)方面。
其中客戶端可以對(duì)用戶提交的數(shù)據(jù)進(jìn)行可視化顯示;邏輯端主要任務(wù)為處理業(yè)務(wù)規(guī)則;服務(wù)端則為客戶端提供各類數(shù)據(jù)處理功能,減少用戶等待時(shí)間。系統(tǒng)模式設(shè)計(jì)圖如圖1所示。
圖1 系統(tǒng)模式設(shè)計(jì)圖
為證明本文構(gòu)建的系統(tǒng)性能,利用Windows操作系統(tǒng),在Canvas環(huán)境下進(jìn)行仿真實(shí)驗(yàn)。在0至180數(shù)據(jù)量區(qū)間內(nèi),每次增多30個(gè)提取數(shù)據(jù),對(duì)本文系統(tǒng)、文獻(xiàn)[1]方法與文獻(xiàn)[2]方法進(jìn)行對(duì)比。
首先對(duì)三種方法的可視化長(zhǎng)寬比性能進(jìn)行仿真,結(jié)果如圖2所示。
圖2 可視化長(zhǎng)寬比性能仿真結(jié)果
由于長(zhǎng)寬比值越接近10,表明可視化提取效果越好,因此由圖2能夠看出,本文系統(tǒng)的可視化提取結(jié)果始終保持較高值,且隨著數(shù)據(jù)量的增加并沒有出現(xiàn)下降趨勢(shì)。這是因?yàn)楦倪M(jìn)的鯨魚算法自適應(yīng)性較強(qiáng),能夠有效擴(kuò)大系統(tǒng)容量,進(jìn)而改善可視化長(zhǎng)寬比。
其次,對(duì)三種不同方法的CPU占用率進(jìn)行對(duì)比,占用率越小表明可視化提取連續(xù)性越高。結(jié)果如圖3所示。
從圖3可知,本文設(shè)計(jì)的系統(tǒng)CPU占用率較低,進(jìn)而反映出數(shù)據(jù)提取的連續(xù)性較強(qiáng)。這是因?yàn)樵谙到y(tǒng)設(shè)計(jì)過程中,經(jīng)過一系列格式變換、數(shù)據(jù)排序等過程,提高系統(tǒng)處理數(shù)據(jù)的能力,使數(shù)據(jù)更加有序,獲取更好的提取效果。
圖3 空間數(shù)據(jù)CPU占用率對(duì)比圖
最后測(cè)試該系統(tǒng)的抗攻擊能力,向服務(wù)器中添加帶有惡意腳本的數(shù)據(jù),不同方法成功檢測(cè)惡意數(shù)據(jù)的總量如圖4所示。
圖4 不同方法下惡意數(shù)據(jù)檢出率對(duì)比
結(jié)合如圖4所示的檢測(cè)結(jié)果,本文系統(tǒng)對(duì)于惡意數(shù)據(jù)的檢出率最高。這是因?yàn)榛赟OM的數(shù)據(jù)預(yù)處理方法不但能實(shí)現(xiàn)數(shù)據(jù)降維,還能有效減少惡意數(shù)據(jù)攻擊,得到較為滿意的數(shù)據(jù)預(yù)處理效果。
地理空間數(shù)據(jù)屬于地理信息服務(wù)的基礎(chǔ),由于可視化效果不佳,影響了地理空間數(shù)據(jù)提取。為此,本文利用改進(jìn)鯨魚算法增強(qiáng)可視化效果,改善數(shù)據(jù)提取的連續(xù)性與安全性,進(jìn)而提高用戶使用效率。雖然該系統(tǒng)的仿真實(shí)驗(yàn)效果較好,但仍需做進(jìn)一步改進(jìn)。例如:系統(tǒng)中沒有分析角色管理機(jī)制,這會(huì)加大安全風(fēng)險(xiǎn)。因此需設(shè)置角色權(quán)限,確保不同用戶登錄系統(tǒng)后不能查看與其身份不對(duì)應(yīng)的內(nèi)容。