唐慧強(qiáng),李全月,劉鉦江
(南京信息工程大學(xué) 信息與控制學(xué)院,江蘇 南京210044)
地面氣象觀測資料主要通過自動氣象站采集獲得,由于受環(huán)境、通信等多種因素影響[1,2],實(shí)時氣象數(shù)據(jù)中常有要素值缺失,若不及時處理,會降低數(shù)據(jù)集連續(xù)性,影響資料的可用性。目前,氣象數(shù)據(jù)缺失采用的處理方法有線性插值、鄰近數(shù)據(jù)替補(bǔ)、人工補(bǔ)測、空間插補(bǔ)等[3,4]。這些方法在一定程度上實(shí)現(xiàn)了數(shù)據(jù)的處理,同時也存在一些不足:第一,數(shù)據(jù)連續(xù)缺測時,線性插值法不能很好的達(dá)到效果,鄰近數(shù)據(jù)替補(bǔ)和人工補(bǔ)測方法也不能保證數(shù)據(jù)的時效性;第二,空間插補(bǔ)方法需參考定時定區(qū)域內(nèi)各氣象要素?cái)?shù)據(jù),計(jì)算復(fù)雜,數(shù)據(jù)量大,在單個站點(diǎn)的實(shí)時數(shù)據(jù)處理中不能取得很好的實(shí)用性??紤]各氣象要素值之間存在非線性和相關(guān)性,本文以相對濕度缺失為例,建立徑向基神經(jīng)網(wǎng)絡(luò)模型進(jìn)行實(shí)時缺失數(shù)據(jù)插補(bǔ)方法研究。
徑向基神經(jīng)網(wǎng)絡(luò)較其它前饋型網(wǎng)絡(luò)具有學(xué)習(xí)速率快、逼近能力強(qiáng)等優(yōu)點(diǎn),但由于其使用的徑向基函數(shù)輸入空間區(qū)域很小,不可避免地導(dǎo)致在輸入空間較大時需要更多的徑向基神經(jīng)元,從而使網(wǎng)絡(luò)結(jié)構(gòu)變得復(fù)雜,大大降低了網(wǎng)絡(luò)性能[5]。針對這個不足,本文利用粗糙集理論對氣象要素進(jìn)行約簡,提取關(guān)鍵要素作為徑向基神經(jīng)網(wǎng)絡(luò)的輸入,從而簡化網(wǎng)絡(luò)結(jié)構(gòu)、提高收斂速度、增強(qiáng)網(wǎng)絡(luò)泛化性能,在氣象缺失數(shù)據(jù)插補(bǔ)中取得了較好的效果。
本文建立的氣象缺失數(shù)據(jù)插補(bǔ)模型工作原理如圖1所示,將粗糙集理論和徑向基神經(jīng)網(wǎng)絡(luò)相結(jié)合,先把粗糙集作為前置處理器,對氣象數(shù)據(jù)樣本進(jìn)行預(yù)處理,即通過知識約簡,刪除冗余屬性和相同的樣本;再把經(jīng)過粗糙集預(yù)處理后的數(shù)據(jù)送入徑向基神經(jīng)網(wǎng)絡(luò)中進(jìn)行樣本訓(xùn)練,最后通過此神經(jīng)網(wǎng)絡(luò)仿真系統(tǒng)對測試樣本進(jìn)行插補(bǔ),從而驗(yàn)證模型算法的可行性。
圖1 模型工作原理
粗糙集理論 (rough set,RS)是一種新的處理模糊和不確定性知識的數(shù)學(xué)工具,具有很強(qiáng)的定性分析能力,其優(yōu)勢在于能夠從數(shù)據(jù)中獲取知識,無需提供數(shù)據(jù)集合之外的任何先驗(yàn)信息,通過約簡即可消除知識中的冗余數(shù)據(jù),而原來的知識結(jié)構(gòu)與容量保持不變[6-8]。影響相對濕度的氣象要素與之存在不同程度的相關(guān)性,因素間取舍無特定標(biāo)準(zhǔn),應(yīng)用粗糙集理論則可以實(shí)現(xiàn)關(guān)鍵屬性的提取。本文將粗糙集數(shù)據(jù)分析技術(shù)作為徑向基神經(jīng)網(wǎng)絡(luò)的前置處理器,能夠有效實(shí)現(xiàn)氣象數(shù)據(jù)的預(yù)處理。粗糙集數(shù)據(jù)分析流程圖如圖2所示,具體實(shí)現(xiàn)步驟如下:
圖2 粗糙集數(shù)據(jù)分析流程
步驟1 將氣象數(shù)據(jù)訓(xùn)練樣本生成決策表,其中樣本輸入為決策表的條件屬性,樣本輸出為決策表的決策屬性。
步驟2 將連續(xù)型數(shù)據(jù)離散化處理。由于粗糙集理論只能對離散的符號化屬性進(jìn)行分析處理,而實(shí)時氣象數(shù)據(jù)均是連續(xù)型數(shù)據(jù),所以在進(jìn)行屬性約簡之前,要對系統(tǒng)訓(xùn)練樣本數(shù)據(jù)進(jìn)行離散化處理。本文選用自組織映射 (SOM)神經(jīng)網(wǎng)絡(luò)[9]進(jìn)行離散化處理。
步驟3 將離散化后的決策表生成可辨識矩陣。設(shè)決策信息系統(tǒng)為S=<U,C,D,V,F(xiàn)>,其中,U為有限非空的個體全集,C為條件屬性,D為決策屬性,對任意屬性a∈C,d∈D,可辨識矩陣M(S)的元素表示為
步驟4 在不改變知識庫分類能力的條件下,根據(jù)可辨識矩陣對決策表進(jìn)行屬性約簡,刪除其中不必要知識。本文選用基于屬性重要性的約簡算法進(jìn)行約簡,其中對于屬性a∈C的重要性為
式中:||——集合中元素的個數(shù),POSC(D)——屬性D相對于屬性C的正域。
步驟5 根據(jù)屬性重要性進(jìn)行屬性約簡,最終生成相對約簡屬性集。
徑向基函數(shù) (radial basic function,RBF)模型是人工神經(jīng)網(wǎng)絡(luò)中重要模型之一,它是以函數(shù)逼近理論為基礎(chǔ)而構(gòu)造的一種三層前向型神經(jīng)網(wǎng)絡(luò),包含一個輸入層、一個具有徑向基神經(jīng)元的隱層和一個具有線性神經(jīng)元的輸出層[10,11]。典型的含有3層結(jié)構(gòu)的RBF神經(jīng)網(wǎng)絡(luò)能夠充分逼近任意復(fù)雜的非線性關(guān)系,即可以實(shí)現(xiàn)任意的n維到m維的映射。其相對于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)具有自適應(yīng)確定網(wǎng)絡(luò)結(jié)構(gòu)和無需人為確定初始權(quán)值等優(yōu)點(diǎn),從而逼近能力強(qiáng),學(xué)習(xí)速度快[12]。綜合考慮氣象數(shù)據(jù)的結(jié)構(gòu)特點(diǎn)和RBF神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性映射能力,采用RBF神經(jīng)網(wǎng)絡(luò)來建模仿真將會得到較好的映射效果。
本文根據(jù)網(wǎng)絡(luò)模型的特點(diǎn),采用具有多個輸入層節(jié)點(diǎn)、一個輸出層節(jié)點(diǎn)的RBF神經(jīng)網(wǎng)絡(luò)模型,輸入層神經(jīng)元數(shù)為影響相對濕度的氣象要素個數(shù),隱層徑向基神經(jīng)元數(shù)由網(wǎng)絡(luò)自適應(yīng)確定,輸出層即為相對濕度。其三層網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,輸入層神經(jīng)元傳遞輸入信號至隱層,隱層進(jìn)行激活函數(shù)參數(shù)調(diào)整并將輸入信號進(jìn)行非線性變換,最后輸出層線性神經(jīng)元將結(jié)果輸出。
圖3 RBF神經(jīng)網(wǎng)絡(luò)三層結(jié)構(gòu)
徑向基函數(shù)與一般神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)計(jì)算方式有所不同,本文徑向基神經(jīng)元傳遞函數(shù)選用高斯函數(shù),輸出層神經(jīng)元傳遞函數(shù)選用簡單線性求和函數(shù),其網(wǎng)絡(luò)計(jì)算過程如下:
(1)設(shè)輸入節(jié)點(diǎn)數(shù)為m,樣本總數(shù)為P,則xp=表示第p 個輸入樣本,隱層節(jié)點(diǎn)為Rl(l=1,2,…,h),輸出節(jié)點(diǎn)為y,從樣本中隨機(jī)選擇h個作為初始簇類中心ci(i=1,2,…,h)。
(2)按照最近鄰規(guī)則將輸入樣本集合進(jìn)行分組,根據(jù)xp與簇類中心ci間的歐氏距離‖xp-ci‖ 將xp分配至相應(yīng)的簇類集合p(p=1,2,…,P)中。
(3)重新調(diào)整簇類中心:計(jì)算所有簇類集合p中樣本的平均值作為新的簇類中心ci,若新的簇類中心不再改變,則RBF神經(jīng)網(wǎng)絡(luò)的基函數(shù)中心即為此時的ci,否則返回步驟 (2),進(jìn)行下一輪中心求解。
(4)計(jì)算隱層輸出
式中:σ——高斯函數(shù)的方差,其求解公式為
式中:cmax——所選擇中心的最大距離。
(5)采用最小二乘法進(jìn)行隱層與輸出層間神經(jīng)元的連接權(quán)值計(jì)算
并求得網(wǎng)絡(luò)的輸出為
對南京某自動氣象觀測站2012年10月份氣象資料進(jìn)行檢查,并整理出以分鐘為采集間隔的氣象數(shù)據(jù),主要有溫度 (T)、相對濕度 (U)、氣壓 (P)、能見度 (V)、降水量 (R)及1分鐘平均風(fēng)速風(fēng)向 (F),經(jīng)檢查其數(shù)據(jù)缺失量約為3%,連續(xù)缺失最大長度為4小時。選取無缺失的2012年10月16日5時~6時分鐘氣象資料作為訓(xùn)練樣本,其中以相對濕度作為輸出樣本,其它氣象要素作為輸入樣本進(jìn)行網(wǎng)絡(luò)仿真訓(xùn)練。為驗(yàn)證模型的插補(bǔ)效果,從輸出樣本中隨機(jī)抽取10組數(shù)據(jù)作為缺失測試樣本,以驗(yàn)證RBF神經(jīng)網(wǎng)絡(luò)模型的預(yù)測精度。
在進(jìn)行網(wǎng)絡(luò)仿真前,首先對輸入屬性進(jìn)行屬性約簡,以提取重要屬性,精簡網(wǎng)絡(luò)結(jié)構(gòu)。根據(jù)屬性約簡步驟,先以輸入樣本作為條件屬性,輸出樣本作為決策屬性,生成決策表,結(jié)果如表1所示,溫度 (℃,C1)、氣壓 (hPa,C2)、降水量 (mm,C3)、能見度 (m,C4)、風(fēng)速 (m/s,C5)為條件屬性;相對濕度 (%,D)為決策屬性。
表1 氣象要素?cái)?shù)據(jù)決策
然后使用自組織映射 (SOM)神經(jīng)網(wǎng)絡(luò)對各連續(xù)屬性進(jìn)行離散化處理,具體算法由Matlab神經(jīng)網(wǎng)絡(luò)工具箱實(shí)現(xiàn),利用newsom()函數(shù)創(chuàng)建SOM網(wǎng)絡(luò)
其中,P為輸入向量,minmax(P)指定輸入向量的最大值和最小值, [1,3]表示創(chuàng)建網(wǎng)絡(luò)的競爭層為1×3結(jié)構(gòu),即將連續(xù)氣象要素屬性離散化為3類。離散結(jié)果見表2。
表2 離散化的氣象要素?cái)?shù)據(jù)
再根據(jù)離散化決策表,計(jì)算出各條件屬性相對于決策屬性的重要性,進(jìn)行屬性約簡。由式 (2)可知:γC(C1)=軟件計(jì)算得:因此,
由于神經(jīng)網(wǎng)絡(luò)在進(jìn)行學(xué)習(xí)和預(yù)測過程中,如果不對原始數(shù)據(jù)作任何處理,可能出現(xiàn)某類數(shù)據(jù)的絕對值過大,從而偏離神經(jīng)元的有效區(qū)間,使得其它分量失去了對整個網(wǎng)絡(luò)的調(diào)控能力。因此,本文將約簡后的屬性溫度 (C1)、氣壓 (C2)、風(fēng)速 (C5)進(jìn)行歸一化處理后作為RBF神經(jīng)網(wǎng)絡(luò)的輸入,其歸一化公式如式 (7)所示
式中:Xmin、Xmax——序列中的最大值和最小值。
同時,運(yùn)用newrb()函數(shù)進(jìn)行RBF網(wǎng)絡(luò)仿真訓(xùn)練,將網(wǎng)絡(luò)訓(xùn)練誤差設(shè)定為0.02,散布常數(shù)設(shè)置為1。經(jīng)42步迭代訓(xùn)練,網(wǎng)絡(luò)均方誤差已達(dá)到0.016,滿足實(shí)驗(yàn)要求,圖4為粗糙RBF神經(jīng)網(wǎng)絡(luò)的仿真訓(xùn)練圖。為加以對比,本文同時使用未經(jīng)粗糙集優(yōu)化的RBF神經(jīng)網(wǎng)絡(luò)對訓(xùn)練樣本進(jìn)行仿真訓(xùn)練,并將其設(shè)置相同參數(shù),圖5為未經(jīng)優(yōu)化的RBF神經(jīng)網(wǎng)絡(luò)的仿真訓(xùn)練圖。從圖4、圖5可看出,經(jīng)粗糙集優(yōu)化的RBF神經(jīng)網(wǎng)絡(luò)下降趨勢明顯,達(dá)到目標(biāo)訓(xùn)練誤差,而未優(yōu)化的神經(jīng)網(wǎng)絡(luò)經(jīng)40步迭代后趨于平緩,未能達(dá)到目標(biāo)誤差。因此,粗糙集優(yōu)化的RBF神經(jīng)網(wǎng)絡(luò)較未優(yōu)化網(wǎng)絡(luò)具有收斂速度快,網(wǎng)絡(luò)性能強(qiáng)的優(yōu)點(diǎn)。
神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)束后,即可對測試數(shù)據(jù)進(jìn)行插補(bǔ)試驗(yàn)。本文同時選用傳統(tǒng)線性插值、RBF神經(jīng)網(wǎng)絡(luò)及粗糙RBF神經(jīng)網(wǎng)絡(luò)對缺失樣本進(jìn)行插補(bǔ)。表3是3種不同方法得出的預(yù)測值與實(shí)際值的比較。
表3 3種不同方法預(yù)測值與實(shí)際值對比
由表3可以看出,雖然粗糙集優(yōu)化的RBF神經(jīng)網(wǎng)絡(luò)對缺失值的插補(bǔ)仍存在誤差,但與傳統(tǒng)線性插值方法和未經(jīng)優(yōu)化的RBF神經(jīng)網(wǎng)絡(luò)插值法相比,相對濕度插值的平均誤差減少至0.38%,遠(yuǎn)遠(yuǎn)小于前兩種方法,表明粗糙集優(yōu)化的RBF模型具有較好的適用性。同時,前兩種方法存在較大誤差的原因,主要有以下兩點(diǎn):第一,當(dāng)數(shù)據(jù)序列趨勢平穩(wěn)時,線性插值插補(bǔ)效果較好,但當(dāng)影響因素復(fù)雜且相互影響明顯時,由于無法考慮因子前后相關(guān)性,其插補(bǔ)精度銳減;第二,由于影響RBF網(wǎng)絡(luò)性能關(guān)鍵因素是中心的選取,從現(xiàn)有中心選取的方法來看,本質(zhì)上是利用聚類的方法將中心向量置于輸入空間的一個重要區(qū)域,當(dāng)輸入空間很大時,中心選取速度變慢,從而降低了網(wǎng)絡(luò)性能。而本文提出的基于粗糙RBF神經(jīng)網(wǎng)絡(luò)的方法正好可以彌補(bǔ)上述方法的不足,實(shí)現(xiàn)氣象數(shù)據(jù)的快速、精確插補(bǔ)。
由于各種原因,氣象數(shù)據(jù)缺失現(xiàn)象時有發(fā)生。本文將粗糙集理論與RBF神經(jīng)網(wǎng)絡(luò)相結(jié)合建立了缺失數(shù)據(jù)插補(bǔ)模型,充分利用粗糙集數(shù)據(jù)分析處理能力對訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理,提取關(guān)鍵屬性作為網(wǎng)絡(luò)輸入進(jìn)行仿真,并通過仿真系統(tǒng)對缺失數(shù)據(jù)進(jìn)行插補(bǔ)。通過驗(yàn)證,此插補(bǔ)模型可以有效地實(shí)現(xiàn)單站氣象缺失數(shù)據(jù)的插補(bǔ),相比一般線性插值法其精度明顯提高,在缺失數(shù)據(jù)插補(bǔ)中可以作為一種有效的處理方法,為建立連續(xù)氣象數(shù)據(jù)集奠定了良好基礎(chǔ)。
[1]LI Zhipeng,ZHANG Wei,HUANG Shaoping,et al.Design and implementation of the software for real-time quantity control over automatic weather station observation data [J].Meteorological Monthly,2012,38 (3):371-376 (in Chinese).[李志鵬,張瑋,黃少平,等.自動氣象站數(shù)據(jù)實(shí)時質(zhì)量控制業(yè)務(wù)軟件設(shè)計(jì)與實(shí)現(xiàn) [J].氣象,2012,38 (3):371-376.]
[2]TANG Yunhui,GAO Yanghua.Imputation method of missing temperature data based on neighborhood features [J].Chinese Journal of Agrometeorology,2008,29 (4):454-457 (in Chinese).[唐云輝,高陽華.基于鄰域特征的溫度缺失值的填補(bǔ)方法 [J].中國農(nóng)業(yè)氣象,2008,29 (4):454-457.]
[3]WU Mingjiang,SONG Wenying,CHEN Yongbin,et al.Analysis and processing of data from automatic weather stations[J].Meteorological Science And Technology,2009,37 (4):466-468(in Chinese).[吳明江,宋文英,陳勇斌,等.自動氣象站缺測數(shù)據(jù)分析及處理 [J].氣象科技,2009,37 (4):466-468.]
[4]WANG Haijun,TU Shiyu,CHEN Zhenghong.Interpolating method for missing data of daily air temperature and its error analysis[J].Meteorological Monthly,2008,34 (7):83-91(in Chinese).[王海軍,涂詩玉,陳正洪.日氣溫?cái)?shù)據(jù)缺測的插補(bǔ)方法試驗(yàn)與誤差分析[J].氣 象,2008,34 (7):83-91.]
[5]ZHANG Defeng.MATLAB neural network application design[M].Beijing:China Machine Press,2009:157-181 (in Chinese).[張德豐.MATLAB神經(jīng)網(wǎng)絡(luò)應(yīng)用設(shè)計(jì) [M].北京:機(jī)械工業(yè)出版社,2009:157-181.]
[6]ZHAO Fang,WANG Jing,YANG Hailong.Application of rough set reduction in spacecraft fault diagnosis [J].Computer Science,2012,39 (6A):429-431 (in Chinese).[趙方,王靜,楊海龍.粗糙集約簡在飛行器故障識別中的應(yīng)用 [J].計(jì)算機(jī)科學(xué),2012,39 (6A):429-431.]
[7]WANG Guoyin,YAO Yiyu,YU Hong.A survey on rough set theory and applications [J].Chinese Journal of Computers,2009,32 (7):1229-1246 (in Chinese).[王國胤,姚一豫,于洪.粗糙集理論與應(yīng)用研究綜述 [J].計(jì)算機(jī)學(xué)報(bào),2009,32 (7):1229-1246.]
[8]XUE Anrong,HAN Hongxia,PAN Yuqing.Fast attribute reduction algorithm of rough set based on discernibility matrix[J].Computer Engineering and Design,2007,28 (20):4987-4989(in Chinese).[薛安榮,韓紅霞,潘雨青.基于可辨識矩陣的快速粗糙集屬性約簡算法 [J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28 (20):4987-4989.]
[9]LIU Weiqun,LI Weihua.An algorithm for generalized RBF network based on self-organizing selection center [J].Journal of Xinyang Normal University:Natural Science Edition,2007,20 (4):515-517 (in Chinese).[劉維群,李為華.基于自組織選取中心的廣義RBF神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法 [J].信陽師范學(xué)院學(xué)報(bào):自然科學(xué)版,2007,20 (4):515-517.]
[10]MENG Jin,MA Chi,HE Jialang,et al.Network security situation prediction model based on HHGA-RBF neural network [J].Computer Science,2011,38 (7):70-72 (in Chinese).[孟錦,馬馳,何加浪,等.基于HHGA-RBF神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)安全態(tài)勢預(yù)測模型 [J].計(jì)算機(jī)科學(xué),2011,38 (7):70-72.]
[11]WANG Delu,SONG Xuefeng.Identifying method of city’s industry life cycle based on integration of rough sets and neural network [J].Journal of Systems Engineering,2009,24(6):710-716 (in Chinese).[王德魯,宋學(xué)鋒.基于粗糙集-神經(jīng)網(wǎng)絡(luò)的城市產(chǎn)業(yè)生命周期識別 [J].系統(tǒng)工程學(xué)報(bào),2009,24 (6):710-716.]
[12]LIAO Wei,F(xiàn)ENG Xiaobing,XU Chundong,et al.Research of exchange rate forecast model based on Radial Basis Function neural network [J].Computer Engineering and Applications,2009,45 (24):210-212 (in Chinese).[廖薇,馮小兵,許春冬,等.徑向基神經(jīng)網(wǎng)絡(luò)的匯率預(yù)測模型研究 [J].計(jì)算機(jī)工程與應(yīng)用,2009,45 (24):210-212.]