于璐 姜珊 王新秀
關(guān)鍵詞:空氣污染時(shí)序數(shù)據(jù);后綴索引;清晰模型;特征提取
中圖分類號:X831 文獻(xiàn)標(biāo)志碼:B
前言
為監(jiān)測和預(yù)測大氣環(huán)境,政府在全國范圍內(nèi)建立了大量的空氣質(zhì)量監(jiān)測站點(diǎn),收集了大量的空氣污染時(shí)序數(shù)據(jù)??諝馕廴緯r(shí)序數(shù)據(jù)可以提供有關(guān)空氣質(zhì)量變化的實(shí)時(shí)信息,通過對數(shù)據(jù)的監(jiān)測和分析,可以及時(shí)發(fā)現(xiàn)空氣質(zhì)量下降趨勢和異常,預(yù)警公眾和決策者并采取相應(yīng)措施,以保護(hù)公眾健康。然而,如何從這些數(shù)據(jù)中提取出有用的特征,以便更好地監(jiān)測和預(yù)測空氣質(zhì)量,是氣象監(jiān)測領(lǐng)域面臨的一個重要挑戰(zhàn)。
隨著對時(shí)序數(shù)據(jù)特征提取問題的研究越來越多。文獻(xiàn)[3]中使用HYSPLIT模型研究了臨汾市空氣污染物的時(shí)間變化特征、軌跡輸送特征和可能來源,該方法能夠較好地監(jiān)測空氣污染物的時(shí)間變化情況并簡要?dú)w納特征。文獻(xiàn)[4]中提出了基于Prophet模型的空氣污染物濃度預(yù)測方法,運(yùn)用Prophet模型,確定環(huán)境監(jiān)測數(shù)據(jù)的突變點(diǎn)等特征,分析了各項(xiàng)污染物濃度的時(shí)空變化規(guī)律。但將以上方法應(yīng)用于空氣污染時(shí)序數(shù)據(jù)時(shí),存在準(zhǔn)確性不高的問題。
為解決這一問題,設(shè)計(jì)一種針對空氣污染時(shí)序數(shù)據(jù)的特征提取方法,提高特征提取的精確度。
1空氣污染時(shí)序數(shù)據(jù)特征提取方法設(shè)計(jì)
1.1空氣污染時(shí)序數(shù)據(jù)挖掘
通過改進(jìn)的PrefixSpan算法實(shí)施空氣污染時(shí)序數(shù)據(jù)挖掘?;诤缶Y索引對PrefixSpan算法實(shí)施改進(jìn),將原本的投影數(shù)據(jù)庫替換,縮小算法運(yùn)行時(shí)的實(shí)際占用空間。
通過下式表示后綴索引:
G=
式(1)中,id為序列的ID或序列的位置下標(biāo);itemSetPosition為序列的項(xiàng)集;itemPosition表示項(xiàng)集的項(xiàng);G為將序列中某項(xiàng)到序列末尾間的項(xiàng)集作為當(dāng)前前綴的后綴。其中,itemSetPosition與itemPosition的編號從0開始。
將前綴樹作為改進(jìn)算法的數(shù)據(jù)結(jié)構(gòu),前綴樹的結(jié)點(diǎn)能夠記錄子結(jié)點(diǎn)、后綴索引、前綴的類型以及新生成的前綴,分別用childTreeNode、suffixIndex、itemFlag、prefix來表示。
改進(jìn)的PrefixSpan算法的具體運(yùn)行流程如下:
(1)在標(biāo)準(zhǔn)站數(shù)據(jù)庫中實(shí)施挖掘操作;
(2)R為前綴樹的根結(jié)點(diǎn),B為原始序列集,Smin為最小支持度。
(3)對前綴樹的根結(jié)點(diǎn)R實(shí)施初始化處理,將R的itemFlag設(shè)置為0,childTreeNode、prefix設(shè)置為null。
(4)將suffixIndex的itemSetPosition與itemPosition設(shè)置為0。
(5)將id設(shè)置為序列集內(nèi)序列的ID。
(6)從根結(jié)點(diǎn)開始對前綴樹實(shí)施遞歸創(chuàng)建。具體步驟如下:
①以當(dāng)前結(jié)點(diǎn)的后綴索引為依據(jù)對序列集內(nèi)對應(yīng)的后綴實(shí)施遍歷,對后綴內(nèi)各項(xiàng)的支持度進(jìn)行計(jì)算,計(jì)算公式如式(2):
當(dāng)未產(chǎn)生新前綴時(shí),遞歸返回;當(dāng)產(chǎn)生新前綴時(shí),執(zhí)行以下步驟:
③以當(dāng)前結(jié)點(diǎn)的后綴索引為依據(jù)對產(chǎn)生的新前綴所對應(yīng)的后綴索引進(jìn)行計(jì)算,并分別對新的前綴樹結(jié)點(diǎn)實(shí)施創(chuàng)建;
④將前綴樹結(jié)點(diǎn)的prefix直接設(shè)置為新產(chǎn)生的前綴;
⑤將childTreeNode設(shè)置為null,
⑥將suffixIndex設(shè)置為新產(chǎn)生的前綴所對應(yīng)的后綴索引;
⑦根據(jù)當(dāng)前遍歷的結(jié)點(diǎn)的prefix與新產(chǎn)生前綴的關(guān)系將itemFlag設(shè)置為1或者0;
⑧將全部新創(chuàng)建的前綴樹結(jié)點(diǎn)當(dāng)做目前遍歷結(jié)點(diǎn)的子結(jié)點(diǎn),并在前綴樹中加入這些結(jié)點(diǎn);
⑨將當(dāng)前結(jié)點(diǎn)的suffixIndex直接設(shè)置為null;
⑩依次對當(dāng)前結(jié)點(diǎn)的子結(jié)點(diǎn)實(shí)施遍歷,執(zhí)行步驟1~2。
(7)獲取挖掘的多組空氣污染時(shí)間序列。
1.2挖掘時(shí)序數(shù)據(jù)的噪聲識別與清洗
設(shè)計(jì)考慮異常保留的時(shí)序數(shù)據(jù)噪聲識別清洗模型,實(shí)現(xiàn)挖掘的空氣污染時(shí)序數(shù)據(jù)中噪聲數(shù)據(jù)的處理。該模型通過降維與聚類方法實(shí)現(xiàn)離群點(diǎn)的判定,通過網(wǎng)格系統(tǒng)拆分行為空間,從而實(shí)現(xiàn)噪聲與異常的分辨。
該時(shí)序數(shù)據(jù)噪聲識別清洗模型的結(jié)構(gòu)見圖1。
通過自適應(yīng)滑動窗口將空氣污染時(shí)序數(shù)據(jù)分割為數(shù)據(jù)片段,具體操作步驟如下:
2案例測試
2.1實(shí)驗(yàn)數(shù)據(jù)集
該市共有15個標(biāo)準(zhǔn)站,其中大型標(biāo)準(zhǔn)站共有八個,均分布在郊區(qū),小型標(biāo)準(zhǔn)站共有七個,均分布在市內(nèi)。利用改進(jìn)的PrefixSpan算法挖掘以上15個標(biāo)準(zhǔn)站最近六個月的空氣污染時(shí)序數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,測試設(shè)計(jì)方法的特征提取性能。
2.2實(shí)驗(yàn)過程
挖掘的空氣污染時(shí)序數(shù)據(jù)共56852條,找到其中的28 563條被認(rèn)為含有噪聲的數(shù)據(jù)段,最終定位了6852個噪聲點(diǎn)實(shí)施了差值修復(fù),提高了空氣污染時(shí)序數(shù)據(jù)的質(zhì)量。
通過基于多維評價(jià)與模態(tài)重構(gòu)設(shè)計(jì)特征提取方法實(shí)現(xiàn)實(shí)驗(yàn)數(shù)據(jù)集的特征提取。在該過程中,將壓縮率P分別設(shè)置為75%、80%、85 010、90%、95%,通過遺傳尋優(yōu)算法獲取加權(quán)參數(shù)與去噪閾值,不同壓縮率下的參數(shù)尋優(yōu)結(jié)果如下:
壓縮率P為75%:加權(quán)參數(shù)與去噪閾值的尋優(yōu)結(jié)果分別為0.71、0.24;
壓縮率P為80%:二者尋優(yōu)結(jié)果分別為0.83、0.22:
壓縮率P為85%:二者尋優(yōu)結(jié)果分別為0.94、0.17:
壓縮率P為90%:二者尋優(yōu)結(jié)果分別為0.47、0.17:
壓縮率P為95%:二者尋優(yōu)結(jié)果分別為0.41、0.16。
在不同參數(shù)尋優(yōu)結(jié)果下,獲取PLR序列內(nèi)全部分段點(diǎn)的連接曲線,實(shí)現(xiàn)特征的提取,其中壓縮率為75%時(shí)的連接曲線見圖2。
測試設(shè)計(jì)方法特征提取中的平均擬合誤差與擬合損失,將基于轉(zhuǎn)折點(diǎn)和趨勢段的時(shí)間序列趨勢特征提取方法與時(shí)間序列數(shù)據(jù)并行化排列熵特征提取方法作為對比測試方法,共同進(jìn)行測試,并分別用方法1、方法2來表示。
2.3測試結(jié)果
2.3.1平均擬合誤差測試結(jié)果
首先測試不同壓縮率下設(shè)計(jì)方法與方法1、方法2特征提取中的平均擬合誤差,測試結(jié)果見表1。
根據(jù)表1的測試結(jié)果,設(shè)計(jì)方法在壓縮率P為85%時(shí)平均擬合誤差最低;方法1在壓縮率P為90%時(shí)平均擬合誤差最低;方法2在壓縮率P為80%時(shí)平均擬合誤差最低。設(shè)計(jì)方法的平均擬合誤差整體低于兩種對比方法,說明其特征提取更加準(zhǔn)確,特征提取性能更好。
2.3.2測試結(jié)果
接著測試三種方法的擬合損失,測試結(jié)果見圖3。
根據(jù)圖3測試結(jié)果,隨著時(shí)間的增長,三種方法的擬合損失都越來越低,其中設(shè)計(jì)方法的擬合損失一直低于方法1、方法2這兩種對比方法,并在最終達(dá)到了0.1以下的擬合損失。
3結(jié)束語
通過文章的研究,可以得到以下結(jié)論:空氣污染時(shí)序數(shù)據(jù)特征提取方法是一種有效的手段,可以從空氣污染時(shí)序數(shù)據(jù)中提取出有用的特征,以便更好地監(jiān)測和預(yù)測空氣質(zhì)量。在特征提取過程中,需要結(jié)合不同的算法和模型,以適應(yīng)不同的數(shù)據(jù)類型和監(jiān)測需求。此外,特征提取的結(jié)果可以為空氣質(zhì)量監(jiān)測和預(yù)測提供重要的參考依據(jù),幫助政府和相關(guān)機(jī)構(gòu)及時(shí)采取措施,減輕空氣污染對人類健康和環(huán)境的影響。因此,空氣污染時(shí)序數(shù)據(jù)特征提取方法具有廣泛的應(yīng)用前景和研究價(jià)值。