摘 要:針對現(xiàn)行方法在物聯(lián)網(wǎng)海量多源異構數(shù)據(jù)處理中應用效果不佳的問題,提出基于正則化回歸的物聯(lián)網(wǎng)海量多源異構數(shù)據(jù)處理方法。先收集物聯(lián)網(wǎng)數(shù)據(jù)生成多源異構數(shù)據(jù)集,并對數(shù)據(jù)進行預處理;然后采用混沌遺傳算法對物聯(lián)網(wǎng)海量多源異構數(shù)據(jù)進行填補;最后利用正則化回歸對物聯(lián)網(wǎng)數(shù)據(jù)進行濾波,消除數(shù)據(jù)中的高頻分量,實現(xiàn)物聯(lián)網(wǎng)海量多源異構數(shù)據(jù)處理。經(jīng)實驗證明,所設計方法的數(shù)據(jù)失真率不超過0.2%,全頻域內(nèi)信號幅值得到了有效降低,所設計方法在物聯(lián)網(wǎng)海量多源異構數(shù)據(jù)處理方面具有良好的應用前景。
關鍵詞:正則化回歸;物聯(lián)網(wǎng);多源異構數(shù)據(jù);Min-Max歸一化;混沌遺傳算法;濾波
中圖分類號:TP39;TN911.7 文獻標識碼:A 文章編號:2095-1302(2024)07-00-03
0 引 言
由于物聯(lián)網(wǎng)設備種類繁多,不同設備產(chǎn)生的數(shù)據(jù)格式、數(shù)據(jù)質(zhì)量、數(shù)據(jù)量等方面存在差異,導致數(shù)據(jù)具有多源異構的特點[1-4]。這給數(shù)據(jù)處理帶來了一定的難度,多源異構數(shù)據(jù)來自不同的設備、系統(tǒng)、應用等,數(shù)據(jù)的結構、格式、質(zhì)量等存在差異,需要進行數(shù)據(jù)整合和標準化處理,以便進行統(tǒng)一的分析和處理[5-7]。這需要耗費大量的人力和時間,并且需要具備一定的數(shù)據(jù)處理能力。然而,傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)無法滿足物聯(lián)網(wǎng)數(shù)據(jù)處理的復雜性和精度要求。正則化回歸是一種常用的統(tǒng)計學習方法,可處理高維度和復雜的非線性數(shù)據(jù),為此提出基于正則化回歸的物聯(lián)網(wǎng)海量多源異構數(shù)據(jù)處理方法。
1 物聯(lián)網(wǎng)海量多源異構數(shù)據(jù)清洗
本文對物聯(lián)網(wǎng)數(shù)據(jù)庫中的海量多源異構數(shù)據(jù)進行統(tǒng)一采集,匯集成多源異構數(shù)據(jù)集,然后對數(shù)據(jù)進行清洗處理,目的是統(tǒng)一數(shù)據(jù)格式和量綱,剔除數(shù)據(jù)集中的異常數(shù)據(jù)[8]。假設重構后的多源異構數(shù)據(jù)為x,真實的物聯(lián)網(wǎng)數(shù)據(jù)為x,根據(jù)物聯(lián)網(wǎng)數(shù)據(jù)均值生成服從高斯分布的隨機數(shù),對其均方損失值進行優(yōu)化,用公式表示為:
式中:f(x)表示多源異構數(shù)據(jù)均方損失優(yōu)化函數(shù);n表示物聯(lián)網(wǎng)多源異構數(shù)據(jù)樣本數(shù)量[9]。在此過程中,通過數(shù)據(jù)均方損失優(yōu)化獲得數(shù)據(jù)潛在的特征,利用激活函數(shù)對其進行對抗訓練,確保所有異常數(shù)據(jù)都能映射到相似的位置上,使正常數(shù)據(jù)樣本對異常數(shù)據(jù)重構所產(chǎn)生的影響最小化[10]。提取的異常特征實際為最小化熵函數(shù)特征,其接近正態(tài)分布,通過對特征約束函數(shù)進行優(yōu)化,構成激活函數(shù),用公式表示為:
式中:K表示多源異構數(shù)據(jù)對抗訓練的激活函數(shù);表示加權因子;a、b分別表示輸入多源異構數(shù)據(jù)樣本的均值和輸出多源異構數(shù)據(jù)樣本的方差;λ表示約束優(yōu)化函數(shù)。將正常數(shù)據(jù)加入到多抗網(wǎng)絡GAN中進行訓練,通過編碼層進行數(shù)據(jù)重構,得到待處理多源異構數(shù)據(jù)與正常數(shù)據(jù)的偏差,用異常值表示為:
式中:socre表示物聯(lián)網(wǎng)數(shù)據(jù)異常值;α表示輸入多源異構數(shù)據(jù)獲得的潛在分布特征;δ表示重構數(shù)據(jù)獲得的潛在異常特征。將socre與閾值比對,如果大于閾值,則判定數(shù)據(jù)為異常數(shù)據(jù),將其從原始數(shù)據(jù)集中剔除;如果小于閾值,則判定數(shù)據(jù)為正常數(shù)據(jù),將其保留,以此完成對物聯(lián)網(wǎng)海量多源異構數(shù)據(jù)的清洗。
2 物聯(lián)網(wǎng)海量多源異構數(shù)據(jù)填補
由于對物聯(lián)網(wǎng)數(shù)據(jù)進行了清洗處理,且原始數(shù)據(jù)中還存在嚴重的數(shù)據(jù)缺失問題,影響到了物聯(lián)網(wǎng)數(shù)據(jù)的完整性,因此采用混沌遺傳算法對物聯(lián)網(wǎng)海量多源異構數(shù)據(jù)進行填補。混沌遺傳算法采用極大似然估計理論計算出物聯(lián)網(wǎng)數(shù)據(jù)整體分布規(guī)律特性,用公式表示為:
式中:s表示物聯(lián)網(wǎng)多源異構數(shù)據(jù)對數(shù)似然函數(shù)值;h表示物聯(lián)網(wǎng)數(shù)據(jù)個數(shù);ρ表示物聯(lián)網(wǎng)數(shù)據(jù)不確定參數(shù);ψ表示數(shù)據(jù)屬性的協(xié)方差矩陣,即數(shù)據(jù)各屬性間的相關性。數(shù)據(jù)對數(shù)似然函數(shù)值越大,則估計數(shù)據(jù)參數(shù)值越準確,因此對極大似然函數(shù)進行優(yōu)化,確定物聯(lián)網(wǎng)缺失數(shù)據(jù)的目標函數(shù),用公式表示為:
式中:θ表示物聯(lián)網(wǎng)缺失數(shù)據(jù)的目標函數(shù)。采用遺傳算法對以上目標函數(shù)進行多次迭代,識別到物聯(lián)網(wǎng)缺失數(shù)據(jù)。采用均值方法對缺失數(shù)據(jù)進行擬合填補,用公式表示為:
式中:τ表示填補后的物聯(lián)網(wǎng)缺失數(shù)據(jù);θt-1、θt+1分別表示時間域上缺失數(shù)據(jù)上一時刻的采樣值和下一時刻的采樣值。按照上述流程將原始數(shù)據(jù)集識別到的所有缺失數(shù)據(jù)利用均值代替,以此實現(xiàn)對物聯(lián)網(wǎng)海量多源異構數(shù)據(jù)的填補。
3 基于正則化回歸的多源異構數(shù)據(jù)濾波處理
考慮到物聯(lián)網(wǎng)數(shù)據(jù)在采樣過程中會受到一定干擾,使數(shù)據(jù)中存在噪聲,在此基礎上利用正則化回歸方法對數(shù)據(jù)進行濾波處理。從語音學角度看,正則化回歸濾波器的基本原理是:在相同環(huán)境下,單耳對聲源的分辨能力僅為6 dB,而在相同環(huán)境下,雙耳對聲源的分辨能力可達15 dB。由耳數(shù)的差異引起的聽覺分辨能力的差異,可以得出一個結論:單個處理目標和兩個處理目標可以使數(shù)據(jù)濾波輸出結果具有較大的差異。正則化方法在語音學領域具有優(yōu)勢,由此發(fā)展正則化回歸濾波理論方法,將原來的單耳目標函數(shù)用雙耳目標函數(shù)代替,從而提高數(shù)據(jù)濾波處理效果。原來的單耳目標函數(shù),即維納濾波離散處理方程用公式表示為:
式中:J表示數(shù)據(jù)誤差能量;i表示數(shù)據(jù)濾波樣本數(shù)量;zi表示估計濾波輸出數(shù)據(jù);yi表示理想濾波輸出數(shù)據(jù)。通過以上公式中數(shù)據(jù)誤差平方和數(shù)據(jù)誤差能量的最小化,得到維納濾波因子,正則化回歸濾波是在其基礎上另附一正則項,用公式表示為:
式中:表示正則項;μ表示正則化回歸因子,是保持正則項與一般項之間平衡的參數(shù);z'i、y'i分別為估計濾波輸出數(shù)據(jù)和理想濾波輸出數(shù)據(jù)的一階導數(shù)。通過添加正則項保證物聯(lián)網(wǎng)數(shù)據(jù)濾波估計值與理想值之間的均方誤差最小化,結合導數(shù)的意義,使輸出濾波數(shù)據(jù)更加平滑,進一步壓制原始信號中的高頻噪聲。利用導數(shù)矩陣求取上述公式中的導數(shù),在推導運算過程中,為了簡化導數(shù)矩陣形式進行相關推導,將式(8)中所用到的物聯(lián)網(wǎng)數(shù)據(jù)寫成矩陣形式,利用矩陣形式求出正則化回歸因子,從而對物聯(lián)網(wǎng)多源異構數(shù)據(jù)進行濾波處理,輸出正則化回歸濾波結果,以此實現(xiàn)基于正則化回歸的物聯(lián)網(wǎng)海量多源異構數(shù)據(jù)的處理。
4 實驗論證
4.1 實驗準備與設計
以上研究了基于正則化回歸的物聯(lián)網(wǎng)海量多源異構數(shù)據(jù)處理的理論。下面采用對比實驗的方式,將基于正則化回歸的處理方法與基于區(qū)塊鏈的處理方法和基于數(shù)據(jù)挖掘的處理方法進行對比分析。實驗收集了IYHFAGAFA95、FAHTUWQAT7兩個數(shù)據(jù)包,數(shù)據(jù)來源于配電網(wǎng)物聯(lián)網(wǎng)數(shù)據(jù)庫和某發(fā)電廠配電網(wǎng)數(shù)據(jù)庫,采樣于近30臺無線傳感設備,具有多源異構特征。IYHFAGAFA95數(shù)據(jù)包為
2.62 GB,共計20 000個數(shù)據(jù)樣本;FAHTUWQAT7數(shù)據(jù)包為3.15 GB,共計28 000個數(shù)據(jù)樣本。信號類別包括多軸信號、單軸信號、多道多軸多頻信號等,兩個數(shù)據(jù)包加性白噪聲方差分別為0.1、0.2,信噪比范圍為-20~-6 dB,屬于強噪聲干擾。按照以上數(shù)據(jù)處理流程對物聯(lián)網(wǎng)海量多源異構數(shù)據(jù)進行清洗、填充和濾波處理,并對結果作相關說明解釋。
4.2 實驗結果與討論
以下將從數(shù)據(jù)失真率和數(shù)據(jù)頻譜兩個方面對本文所提方法的性能進行檢驗。物聯(lián)網(wǎng)海量多源異構數(shù)據(jù)處理對數(shù)據(jù)的完整性和真實性具有較高的要求。數(shù)據(jù)失真率是指原始數(shù)據(jù)經(jīng)過處理或傳輸后,與原始數(shù)據(jù)相比發(fā)生的偏差或變化的比例。數(shù)據(jù)失真率越高,說明數(shù)據(jù)受到的干擾或損失越大,數(shù)據(jù)處理質(zhì)量越低,效果越差。而數(shù)據(jù)頻譜可以反映出數(shù)據(jù)中低頻噪聲分量和高頻噪聲分量的變化情況,其是以信號幅值為縱坐標、以信號頻率為橫坐標的信號頻譜曲線。利用IYHFAGAFA95數(shù)據(jù)包對方法數(shù)據(jù)失真率進行檢驗,利用FAHTUWQAT7數(shù)據(jù)包對數(shù)據(jù)處理后的頻譜特性進行檢驗。圖1、表1分別給出了三種方法下物聯(lián)網(wǎng)海量多源異構數(shù)據(jù)處理的頻譜曲線和失真率數(shù)據(jù)。
通過表1可知:三種方法的數(shù)據(jù)失真率具有明顯的差異,其中基于數(shù)據(jù)挖掘的處理方法失真率最高;其次為基于區(qū)塊鏈的處理方法;基于正則化回歸的處理方法失真率最低,不超過0.2%,數(shù)值非常小,說明處理后的物聯(lián)網(wǎng)數(shù)據(jù)基本與原始數(shù)據(jù)一致。通過圖1中的頻譜曲線可以分析出:對于物聯(lián)網(wǎng)多源異構數(shù)據(jù)信號中各個頻率的分量,由于數(shù)據(jù)中混有隨機白噪聲,使得數(shù)據(jù)處理輸出信號在整個頻域內(nèi)均有值;而本文方法處理的數(shù)據(jù)信號在整個頻域內(nèi)幅值變化相對平緩,基本趨于0;基于區(qū)塊鏈的方法處理后的數(shù)據(jù)幅值峰值為
1.43 A,基于數(shù)據(jù)挖掘的方法處理后的數(shù)據(jù)幅值峰值為0.94 A,
遠高于基于正則化回歸的處理方法,說明本文方法在高頻段、低頻段對隨機噪聲的壓制比較徹底,可以有效處理含噪聲的多源異構數(shù)據(jù)。通過以上對比分析證明了本文方法比現(xiàn)行方法更具優(yōu)勢,能夠?qū)崿F(xiàn)對物聯(lián)網(wǎng)海量多源異構數(shù)據(jù)的高質(zhì)量處理。
5 結 語
本文結合正則化回歸技術的優(yōu)勢,將其應用到物聯(lián)網(wǎng)海量多源異構數(shù)據(jù)處理中,提出一種新的處理思路,并通過實驗論證了方法的可行性與可靠性。在實際應用中,基于正則化回歸的物聯(lián)網(wǎng)海量多源異構數(shù)據(jù)處理方法可以有效地處理各種類型的物聯(lián)網(wǎng)數(shù)據(jù),提取出有價值的信息和應用場景。同時,該方法具有較好的泛化性能和魯棒性,可以應對不同場景下的數(shù)據(jù)處理需求,應用效果較好。
參考文獻
[1]李麟,王偉.基于改進RNN多源融合算法的網(wǎng)絡異構信息集成管理系統(tǒng)[J].西安工程大學學報,2023,37(6):145-152.
[2]張海彬,羅玉林,區(qū)云帆,等.基于中鐵貴州智慧社區(qū)管理的多源異構數(shù)據(jù)集成方法[J].建筑技術,2023,54(22):2808-2813.
[3]何光聰,周學林.基于3S技術和多源異構數(shù)據(jù)的智慧林長綜合管理系統(tǒng)的設計與實現(xiàn)—以廣東省珠海市為例[J].測繪與空間地理信息,2023,46(10):89-93.
[4]王維嘉,孫亞運,孫洪亮,等.基于多目標優(yōu)化技術的多源異構數(shù)據(jù)分類研究[J].計算機與數(shù)字工程,2020,48(1):130-136.
[5]冀振燕,宋曉軍,皮懷雨,等.基于深度學習的融合多源異構數(shù)據(jù)的推薦模型[J].北京郵電大學學報,2019,42(6):35-42.
[6]張夢瑾.異構數(shù)據(jù)資源整合的方法與系統(tǒng)實現(xiàn)[J].信息與電腦(理論版),2018,12(1):129-131.
[7]毛俊華.基于模糊聚類的智慧醫(yī)院多源異構數(shù)據(jù)整合系統(tǒng)[J].電子設計工程,2022,30(7):120-124.
[8]李陽,何文峰,黃倫春.一種設施普查中多源異構數(shù)據(jù)的處理方法[J]. 城市勘測,2023,38(z1):181-184.
[9]李堅,楊峰,吳佳,等. 基于改進FCM的多源異構能源數(shù)據(jù)預處理與去噪[J]. 微型電腦應用,2023,39(10):80-82.
[10]賴均友.基于GB-AEnet-FL網(wǎng)絡的物聯(lián)網(wǎng)多源異構數(shù)據(jù)聚合處理方法[J].長江信息通信,2023,36(9):62-64.