摘" 要: 由于物聯(lián)網(wǎng)數(shù)據(jù)通常是不均衡的,導(dǎo)致采集的數(shù)據(jù)集中各個(gè)類別的樣本數(shù)量差異很大,無(wú)法準(zhǔn)確反映其內(nèi)部的方差情況,使得數(shù)據(jù)文本相似度較高,為此,提出物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)組內(nèi)方差SNM清洗算法。使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)爬取海量不均衡數(shù)據(jù),對(duì)不平衡數(shù)據(jù)字段過(guò)濾處理,設(shè)計(jì)可伸縮滑動(dòng)窗口方式改進(jìn)SNM算法,計(jì)算不均衡數(shù)據(jù)組內(nèi)方差,將其作為清洗不均衡數(shù)據(jù)的約束,通過(guò)對(duì)比物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)組內(nèi)方差閾值,實(shí)現(xiàn)物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)清洗。實(shí)驗(yàn)結(jié)果表明:該方法具備較強(qiáng)的物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)清洗能力,且清洗后的物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)的文本相似度較低,應(yīng)用性較強(qiáng)。
關(guān)鍵詞: 物聯(lián)網(wǎng); 不均衡數(shù)據(jù); 組內(nèi)方差; SNM清洗算法; 滑動(dòng)窗口; 網(wǎng)絡(luò)爬蟲(chóng); 數(shù)據(jù)字段; 約束條件
中圖分類號(hào): TN919?34; TP391" " " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " " 文章編號(hào): 1004?373X(2025)03?0124?05
SNM cleaning algorithm for intra?group variance of massive imbalanced data
in the Internet of Things
WU Yang, CHEN Keji
(College of Electrical Engineering and New Energy, China Three Gorges University, Yichang 443002, China)
Abstract: The data of the Internet of Things (IoT) is usually imbalanced, so the number of samples in each category in the collected data set varies greatly, which leads to failure to reflect the internal variance accurately, and makes the data texts similar with each other to a large extent. Therefore, an SNM (sorted?neighborhood method) cleaning algorithm for intra?group variance of massive imbalanced data in the IoT is proposed. The web crawler technology is used to crawl massive imbalanced data. The imbalanced data fields are filtered. A scalable sliding window is designed to improve the SNM algorithm. The intra?group variance of the imbalanced data is calculated. The intra?group variance obtained is taken as the constraint for cleaning the imbalanced data. By comparing the intra?group variance threshold of massive imbalanced data in the IoT, the massive imbalanced data of the IoT can be cleaned. The experimental results show that the method has a strong ability to clean the massive imbalanced data of the IoT, and the text similarity of the cleaned massive imbalanced data of the IoT is low, and its application scope is broad.
Keywords: IoT; imbalanced data; intra?group variance; SNM cleaning algorithm; sliding window; web crawler; data field; constraint condition
0" 引" 言
由于物聯(lián)網(wǎng)設(shè)備的部署環(huán)境復(fù)雜、工作條件惡劣,使得物聯(lián)網(wǎng)數(shù)據(jù)中常常存在噪聲、缺失值、異常值等質(zhì)量問(wèn)題[1?2],如何清洗和預(yù)處理這些數(shù)據(jù),成為物聯(lián)網(wǎng)數(shù)據(jù)分析的重要問(wèn)題。然而,由于物聯(lián)網(wǎng)數(shù)據(jù)通常是不均衡的,在收集的數(shù)據(jù)集中,各個(gè)類別的樣本數(shù)量差異很大。這種不均衡性來(lái)源于物聯(lián)網(wǎng)設(shè)備部署位置、使用習(xí)慣、事件發(fā)生頻率等因素。因此,研究物聯(lián)網(wǎng)海量數(shù)據(jù)清洗新方法具有重要意義。
文獻(xiàn)[3]提出異常數(shù)據(jù)清洗方法,通過(guò)采集海量需要清洗的數(shù)據(jù)建立數(shù)據(jù)集,提取數(shù)據(jù)集內(nèi)不平衡數(shù)據(jù)特征后,計(jì)算所有數(shù)據(jù)特征的相似度,通過(guò)對(duì)比相似度閾值的方式實(shí)現(xiàn)數(shù)據(jù)的清洗。但該方法閾值設(shè)定過(guò)高,導(dǎo)致一些本應(yīng)保留的正常數(shù)據(jù)被誤判為異常數(shù)據(jù)而被清洗,因此數(shù)據(jù)清洗精度不足。文獻(xiàn)[4]提出特征檢測(cè)的異常數(shù)據(jù)清洗方法,運(yùn)用聚類方式對(duì)海量數(shù)據(jù)進(jìn)行聚類處理,得到每個(gè)數(shù)據(jù)標(biāo)簽對(duì)應(yīng)的特征模式,運(yùn)用二分類算法識(shí)別數(shù)據(jù)標(biāo)簽特征內(nèi)的異常特征,將其對(duì)應(yīng)的數(shù)據(jù)清除后,實(shí)現(xiàn)異常數(shù)據(jù)的清洗。在不同場(chǎng)景下,異常數(shù)據(jù)特征與正常特征在數(shù)據(jù)表現(xiàn)上非常接近,使得二分類算法難以準(zhǔn)確區(qū)分,進(jìn)而導(dǎo)致該方法對(duì)數(shù)據(jù)清洗的效果無(wú)法滿足用戶需求。文獻(xiàn)[5]提出偽波動(dòng)數(shù)據(jù)清洗方法,利用卡爾曼濾波方法對(duì)海量數(shù)據(jù)進(jìn)行清洗處理,使用皮爾遜時(shí)序相關(guān)系數(shù)對(duì)海量數(shù)據(jù)二次清洗,利用卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)可疑臟數(shù)據(jù)識(shí)別并進(jìn)行第三次清洗。卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別等領(lǐng)域表現(xiàn)出色,但用于數(shù)據(jù)清洗時(shí),其泛化能力受到訓(xùn)練數(shù)據(jù)和參數(shù)設(shè)置等多種因素的影響。如果模型訓(xùn)練不足或過(guò)度擬合,將無(wú)法準(zhǔn)確識(shí)別出所有的可疑臟數(shù)據(jù),導(dǎo)致清洗結(jié)果不準(zhǔn)確。文獻(xiàn)[6]提出基于KPCA?IF?WRF模型的數(shù)據(jù)清洗方法,運(yùn)用核主成分分析方法對(duì)海量數(shù)據(jù)降維處理,使用孤立森林算法剔除海量數(shù)據(jù)中的異常數(shù)據(jù)后,運(yùn)用加權(quán)隨機(jī)森林對(duì)缺失的數(shù)據(jù)進(jìn)行填補(bǔ)。但該方法建立的KPCA?IF?WRF模型在迭代過(guò)程中容易陷入局部極值情況,其無(wú)法跳出局部極值,導(dǎo)致輸出的數(shù)據(jù)清洗結(jié)果不夠準(zhǔn)確。
排序鄰域算法(Sorted?Neighborhood Method, SNM)也稱為基本鄰近排序算法,該算法通過(guò)設(shè)置固定大小的窗口,對(duì)窗口內(nèi)數(shù)據(jù)記錄檢測(cè),可得到不同窗口內(nèi)的重復(fù)數(shù)據(jù)[7],該算法在數(shù)據(jù)清洗領(lǐng)域應(yīng)用較為廣泛。因此,本文以SNM算法為基礎(chǔ),研究物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)組內(nèi)方差SNM清洗算法,為物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)的應(yīng)用提供一種有效的數(shù)據(jù)處理手段。
1" 不均衡數(shù)據(jù)組內(nèi)方差SNM清洗方法
1.1" 基于爬蟲(chóng)技術(shù)的物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)獲取
由于物聯(lián)網(wǎng)數(shù)據(jù)通常呈現(xiàn)不均衡性,使用爬蟲(chóng)技術(shù)可以有選擇地獲取各類別數(shù)據(jù),從而在一定程度上平衡樣本數(shù)量,尤其是對(duì)少數(shù)類別的數(shù)據(jù)補(bǔ)充采集,以減小不均衡性帶來(lái)的影響。因此,利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)采集物聯(lián)網(wǎng)海量不平衡數(shù)據(jù),以Python軟件內(nèi)的Scrapy功能作為網(wǎng)絡(luò)爬蟲(chóng)框架,在該框架內(nèi)設(shè)置HTTP請(qǐng)求庫(kù)、解析庫(kù)、代理庫(kù)等基本參數(shù)后,執(zhí)行網(wǎng)絡(luò)爬蟲(chóng)程序,其步驟如下。
第1步:發(fā)送爬蟲(chóng)請(qǐng)求,根據(jù)目標(biāo)網(wǎng)站或API的要求構(gòu)建HTTP請(qǐng)求,包括設(shè)置合適的請(qǐng)求頭(如User?Agent)、請(qǐng)求參數(shù)等。使用HTTP請(qǐng)求庫(kù)(如requests)發(fā)送請(qǐng)求,獲取網(wǎng)頁(yè)內(nèi)容或API返回的數(shù)據(jù)。
第2步:對(duì)于HTML網(wǎng)頁(yè),可以使用BeautifulSoup或lxml等庫(kù)解析,提取所需的數(shù)據(jù)元素。對(duì)于API返回的JSON數(shù)據(jù),可以直接使用Python的JSON庫(kù)解析數(shù)據(jù)。
第3步:如果目標(biāo)數(shù)據(jù)是分頁(yè)的,需要分析分頁(yè)機(jī)制,編寫循環(huán)代碼遍歷所有頁(yè)面并獲取數(shù)據(jù)。對(duì)于動(dòng)態(tài)加載的內(nèi)容,使用Selenium等庫(kù)模擬瀏覽器行為[8],觸發(fā)JavaScript代碼以加載隱藏的數(shù)據(jù)。
經(jīng)過(guò)上述過(guò)程,得到物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)。
1.2" SNM算法清洗不平衡數(shù)據(jù)邏輯分析
不平衡數(shù)據(jù)集往往存在較多的噪聲和異常值,SNM算法采用排序方式來(lái)確定樣本之間的距離和鄰域關(guān)系,可以有效地減少噪聲和異常值的影響,提高數(shù)據(jù)清洗的魯棒性。該算法在對(duì)物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)清洗時(shí),從物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)集內(nèi)選擇一個(gè)關(guān)鍵詞,按照該關(guān)鍵詞對(duì)物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)集內(nèi)的數(shù)據(jù)排序處理,在物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)集內(nèi)設(shè)置一個(gè)滑動(dòng)窗口,該窗口大小為定值[9],在對(duì)物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)檢查時(shí),僅檢查窗口內(nèi)的若干條數(shù)據(jù),物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)集上的滑動(dòng)窗口如圖1所示。
SNM算法通過(guò)圖1的窗口滑動(dòng)方式,按照選擇的關(guān)鍵詞計(jì)算窗口內(nèi)存在的[m]個(gè)物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)的屬性值,通過(guò)設(shè)置屬性值閾值的方式,對(duì)比該窗口內(nèi)物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)是否存在重復(fù)現(xiàn)象,若存在重復(fù)的物聯(lián)網(wǎng)海量不均衡數(shù)據(jù),則將鄰近窗口的下一條數(shù)據(jù)移動(dòng)到窗口內(nèi),反之,則將窗口內(nèi)最上一條數(shù)據(jù)移出,如此往復(fù),可實(shí)現(xiàn)物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)的重復(fù)數(shù)據(jù)清洗。
1.3" 改進(jìn)SNM算法清洗不均衡數(shù)據(jù)
1.3.1" 物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)字段過(guò)濾處理
由于SNM算法在對(duì)物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)清洗時(shí),對(duì)用于排序的關(guān)鍵字依賴性較大,若選擇的關(guān)鍵字不夠合理,會(huì)導(dǎo)致相似的物聯(lián)網(wǎng)不平衡數(shù)據(jù)無(wú)法出現(xiàn)在同一個(gè)滑動(dòng)窗口內(nèi),從而導(dǎo)致物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)的漏清洗[10]。
在處理物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)時(shí),數(shù)據(jù)往往包含大量的特征,其中很多都不一定對(duì)解決特定問(wèn)題具有重要性。通過(guò)字段過(guò)濾,可以僅保留和關(guān)注最相關(guān)的字段,提高數(shù)據(jù)處理的效率和準(zhǔn)確性。為避免上述情況的出現(xiàn),引入字段過(guò)濾方法對(duì)物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)進(jìn)行處理,其詳細(xì)處理過(guò)程如下。
令[H=H1,H2,…,HN]表示待清洗的物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)集,其中[N]為該數(shù)據(jù)內(nèi)物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)總數(shù),[H]內(nèi)的不均衡數(shù)據(jù)具有[p]個(gè)屬性和[m]個(gè)關(guān)鍵屬性。物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)[Hi]和[Hj]在第[t]個(gè)屬性上的相似度由[SimA(Hit,Hjt)]表示,則[Hi]和[Hj]的整體相似度[SimR(Hi,Hj)]的表達(dá)式如下:
[SimR(Hi,Hj)=t=1mSimA(Hit,Hjt)?t] (1)
式中[?t]表示物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)屬性權(quán)值。
通過(guò)對(duì)比物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)屬性相似度閾值,對(duì)屬性關(guān)聯(lián)不強(qiáng)的物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)字段過(guò)濾處理,可使排序后的物聯(lián)網(wǎng)海量數(shù)據(jù)滑動(dòng)窗口內(nèi)的數(shù)據(jù)屬性更統(tǒng)一[11?12],提升數(shù)據(jù)清洗效率的同時(shí),還可有效提升物聯(lián)網(wǎng)海量大數(shù)據(jù)清洗的精度。令[U]表示物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)屬性相似度閾值,當(dāng)式(1)結(jié)果小于或等于[U]時(shí),則[Hi]和[Hj]的整體相似度[SimR(Hi,Hj)]可改寫為:
[Sim'(Hi,Hj)=t=1pSimA(Hit,Hjt)?t] (2)
1.3.2" 可伸縮滑動(dòng)窗口設(shè)計(jì)
在處理物聯(lián)網(wǎng)海量數(shù)據(jù)時(shí),數(shù)據(jù)通常以數(shù)據(jù)流的形式連續(xù)產(chǎn)生,傳統(tǒng)的滑動(dòng)窗口方法無(wú)法靈活地應(yīng)對(duì)不斷變化的數(shù)據(jù)流。設(shè)計(jì)可伸縮的滑動(dòng)窗口可以根據(jù)不同的數(shù)據(jù)流速率來(lái)自動(dòng)調(diào)整窗口大小,使得窗口能夠適應(yīng)不同速率和不規(guī)則的數(shù)據(jù)流,確保數(shù)據(jù)清洗的實(shí)時(shí)性和連續(xù)性。
令[C]表示滑動(dòng)窗口,設(shè)置該滑動(dòng)窗口的最大值和最小值分別為[Qmax]和[Qmin],該滑動(dòng)窗口的初始值為[Qmin],該滑動(dòng)窗口記錄的物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)位置為[1,w],其中[1]為該窗口內(nèi)首條記錄,[w]為窗口末位記錄?;瑒?dòng)窗口[w]的大小[Qn]的計(jì)算公式如下:
[Qn=Sim'(Hi,Hj)Qmin+(Qmax-Qmin)(w-i)Bi] (3)
式中[Bi]為滑動(dòng)窗口[C]內(nèi)第[i]條物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)。
1.3.3" 不均衡數(shù)據(jù)組內(nèi)方差約束優(yōu)化
當(dāng)物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)屬性較為接近但數(shù)據(jù)表述不同時(shí),容易將該類數(shù)據(jù)一并清洗掉[13],為避免出現(xiàn)錯(cuò)誤清洗現(xiàn)象,對(duì)SNM算法添加約束條件。使用最大類間方差法,計(jì)算物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)組內(nèi)方差,使用該方差作為SNM算法清洗物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)的約束條件,避免錯(cuò)誤清洗情況的出現(xiàn)。物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)組內(nèi)方差計(jì)算過(guò)程如下。
當(dāng)物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)總數(shù)為[N]時(shí),第[i]個(gè)物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)[ni]的出現(xiàn)概率[Pi]的表達(dá)式如下:
[Pi=Qn?niN] (4)
令[T]表示物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)分組閾值,使用該閾值對(duì)物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)進(jìn)行分組處理,則第[C0]和[C1]組的物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)產(chǎn)生的概率[r0]、[r1]的表達(dá)式如下:
[r0=Pi?T] (5)
[r1=Pi?Sim'(Hi,Hj)] (6)
依據(jù)式(5)、式(6),物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)組間均值[μ]的表達(dá)式如下:
[μ=r0μ0+r1μ1] (7)
式中:[μ0]、[μ1]分別表示[r0]和[r1]的均值。
依據(jù)式(7),物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)組間方差計(jì)算公式如下:
[σ2=r0(μ20-μ2)+r1(μ21-μ2)] (8)
式中,[σ2]表示物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)組間方差,將該數(shù)值作為SNM算法的約束,使其對(duì)物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)的清洗效果得到提升。
綜上依據(jù)物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)組間方差,SNM算法清洗物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)的步驟如下。
第1步:使用1.3.1節(jié)的方法對(duì)物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)進(jìn)行字段過(guò)濾處理,再對(duì)物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)關(guān)鍵詞進(jìn)行排序。
第2步:運(yùn)用1.3.2節(jié)設(shè)計(jì)的動(dòng)態(tài)滑動(dòng)窗口對(duì)物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)進(jìn)行窗口檢測(cè)。
第3步:判斷滑動(dòng)窗口內(nèi)的物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)是否重復(fù),若否,則將滑動(dòng)窗口向下移一位,再次判斷數(shù)據(jù)是否重復(fù)。當(dāng)滑動(dòng)窗口內(nèi)物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)存在重復(fù)時(shí),通過(guò)式(8)計(jì)算物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)組間方差,當(dāng)該方差低于方差閾值時(shí),則將其對(duì)應(yīng)的物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)進(jìn)行記錄并清除,反之,則將其對(duì)應(yīng)的數(shù)據(jù)重新添加到待清洗數(shù)據(jù)集內(nèi)。
2" 實(shí)驗(yàn)分析
使用本文方法爬取某時(shí)間段物聯(lián)網(wǎng)數(shù)據(jù),該類數(shù)據(jù)內(nèi)含有結(jié)構(gòu)化的表格類數(shù)據(jù),也存在非結(jié)構(gòu)haul的文本、視頻和圖像類數(shù)據(jù),數(shù)據(jù)類型多樣同時(shí)數(shù)據(jù)價(jià)值密度較低,具備不平衡特征。選取約100萬(wàn)條記錄,包括傳感器讀數(shù)、設(shè)備狀態(tài)等表格數(shù)據(jù),抓取約10萬(wàn)條文本評(píng)論、5 000個(gè)視頻片段和1萬(wàn)張圖像。其中,結(jié)構(gòu)化數(shù)據(jù)包括整型、浮點(diǎn)型、字符串型等,如溫度(浮點(diǎn)型)、濕度(整型)、設(shè)備ID(字符串型)等;非結(jié)構(gòu)化數(shù)據(jù)包括文本為字符串型,視頻和圖像為二進(jìn)制或特定格式的文件。在利用上述物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)時(shí),需要對(duì)其清洗處理,去除數(shù)據(jù)內(nèi)含有的重復(fù)數(shù)據(jù),運(yùn)用本文方法實(shí)現(xiàn)物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)的清洗過(guò)程,并驗(yàn)證本文方法的實(shí)際應(yīng)用效果。
利用本文方法爬取物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)后,建立待清洗物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)集,使用本文方法對(duì)其進(jìn)行清洗處理,清洗結(jié)果如圖2所示。
從圖2中可明顯看出,原始物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)集中存在大量重復(fù)數(shù)據(jù)(圖中方形數(shù)據(jù)),增加了數(shù)據(jù)處理的復(fù)雜性和存儲(chǔ)成本。然而,在運(yùn)用本文方法對(duì)該數(shù)據(jù)集清洗后,這些重復(fù)的數(shù)據(jù)均被有效識(shí)別和去除,數(shù)據(jù)集的純凈度得到了顯著提升。證明了本文方法在處理物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)清洗方面的強(qiáng)大能力,其應(yīng)用效果顯著,不僅可以提高后續(xù)數(shù)據(jù)分析的準(zhǔn)確性和效率,還能為物聯(lián)網(wǎng)應(yīng)用的決策提供更可靠的數(shù)據(jù)支持。因此,本文方法對(duì)于物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)的處理具有重要的實(shí)用價(jià)值。
物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)內(nèi)的文本類數(shù)據(jù)是存在冗余數(shù)據(jù)較多的數(shù)據(jù)類型,以文本類型的物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)作為實(shí)驗(yàn)對(duì)象,使用本文方法對(duì)其清洗處理,以剩余重復(fù)數(shù)據(jù)數(shù)量作為衡量指標(biāo),為使實(shí)驗(yàn)結(jié)果更加充分,同時(shí)運(yùn)用文獻(xiàn)[5]的偽波動(dòng)數(shù)據(jù)清洗方法和文獻(xiàn)[6]的多源VOCs數(shù)據(jù)清洗方法展開(kāi)測(cè)試,測(cè)試結(jié)果如表1所示。
分析表1可知,三種數(shù)據(jù)清洗方法在應(yīng)用過(guò)程中,重復(fù)數(shù)據(jù)剩余數(shù)量均隨著物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)量的增加而增加,在物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)量為2 500條之前時(shí),本文方法清洗后的物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)重復(fù)數(shù)據(jù)剩余數(shù)均為0條,在物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)量為4 000條時(shí),本文方法清洗后的物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)重復(fù)數(shù)據(jù)剩余數(shù)僅為1條,而偽波動(dòng)數(shù)據(jù)清洗方法和多源VOCs數(shù)據(jù)清洗方法則在物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)量相同時(shí),其清洗后的物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)重復(fù)數(shù)據(jù)剩余數(shù)均高于本文方法。上述結(jié)果表明:本文方法清洗文本類物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)能力較強(qiáng),應(yīng)用效果較好。
以文本相似度作為衡量指標(biāo),測(cè)試本文方法在清洗不同數(shù)量物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)后,文本類物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)的相似度結(jié)果如圖3所示。
分析圖3可知,在三種數(shù)據(jù)清洗方法中,本文方法對(duì)物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)進(jìn)行清洗后,文本類物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)的文本相似度數(shù)值在0.1左右,該數(shù)值說(shuō)明清洗后的物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)的屬性均不相同,本文方法對(duì)物聯(lián)網(wǎng)海量不平衡數(shù)據(jù)的清洗效果較好。
3" 結(jié)" 論
物聯(lián)網(wǎng)海量不均衡數(shù)據(jù)組內(nèi)方差SNM清洗算法的研究與應(yīng)用,對(duì)于提升數(shù)據(jù)處理效率和準(zhǔn)確性具有重要意義。該算法通過(guò)計(jì)算數(shù)據(jù)組內(nèi)的方差來(lái)識(shí)別并清洗重復(fù)或冗余數(shù)據(jù),有效解決了物聯(lián)網(wǎng)海量數(shù)據(jù)中存在的數(shù)據(jù)質(zhì)量問(wèn)題。在實(shí)際應(yīng)用中,該算法展現(xiàn)出了強(qiáng)大的數(shù)據(jù)清洗能力,能夠顯著減少數(shù)據(jù)冗余,提高數(shù)據(jù)集的純凈度,為后續(xù)的數(shù)據(jù)分析與挖掘奠定了堅(jiān)實(shí)基礎(chǔ)。
參考文獻(xiàn)
[1] 匡俊搴,趙暢,楊柳,等.一種基于深度學(xué)習(xí)的異常數(shù)據(jù)清洗算法[J].電子與信息學(xué)報(bào),2022,44(2):507?513.
[2] 郭慧軍,李永亭,齊詠生,等.兩階段CP?Copula的風(fēng)電機(jī)組異常數(shù)據(jù)清洗算法[J].計(jì)算機(jī)仿真,2022,39(11):85?91.
[3] YAN H Y, MA L D, ZHAO T Y, et al. Research on repair method of abnormal energy consumption data of lighting and plug based on similar features [J]. Energy and buildings, 2022, 268: 1?18.
[4] LONG H, XU S H, GU W. An abnormal wind turbine data cleaning algorithm based on color space conversion and image feature detection [J]. Applied energy, 2022, 311: 118594.
[5] 高正男,楊帆,胡姝博,等.面向新能源電力系統(tǒng)狀態(tài)估計(jì)的偽波動(dòng)數(shù)據(jù)清洗[J].高電壓技術(shù),2022,48(6):2366?2377.
[6] 黃光球,趙羲軒,陸秋琴.基于KPCA?IF?WRF模型的多源VOCs數(shù)據(jù)清洗方法研究[J].安全與環(huán)境學(xué)報(bào),2022,22(6):3412?3423.
[7] 魯樹(shù)武,伍小龍,鄭江,等.基于動(dòng)態(tài)融合LOF的城市污水處理過(guò)程數(shù)據(jù)清洗方法[J].控制與決策,2022,37(5):1231?1240.
[8] 韓京宇,陳偉,趙靜,等.基于異常特征模式的心電數(shù)據(jù)標(biāo)簽清洗方法[J].計(jì)算機(jī)研究與發(fā)展,2023,60(11):2594?2610.
[9] 張婷婷,李偉,郝曉艷.基于R軟件對(duì)醫(yī)學(xué)研究中多選題的數(shù)據(jù)清洗與分析[J].東南大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2022,41(6):764?768.
[10] 夏延秋,夏和民,馮欣.一種基于風(fēng)功率曲線的SCADA數(shù)據(jù)清洗方法研究[J].可再生能源,2022,40(11):1499?1504.
[11] 謝智穎,何原榮,李清泉.基于時(shí)空相關(guān)性的公交大數(shù)據(jù)清洗[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(1):113?121.
[12] 李洪烈,夏棟,王倩.基于回歸模型的采集數(shù)據(jù)清洗技術(shù)[J].電光與控制,2022,29(4):117?120.
[13] 許小剛,王志香,王惠杰.基于深度長(zhǎng)短記憶網(wǎng)絡(luò)的汽輪機(jī)數(shù)據(jù)清洗[J].熱力發(fā)電,2023,52(8):179?187.