摘 要:工業(yè)控制系統(tǒng)異常檢測面臨著數(shù)據(jù)缺乏標(biāo)簽信息、類不平衡和類重疊的耦合問題,導(dǎo)致現(xiàn)有的分類器難以精準(zhǔn)檢測異常數(shù)據(jù)?,F(xiàn)有的數(shù)據(jù)級采樣方法在打偽標(biāo)簽、數(shù)據(jù)平衡或檢測重疊區(qū)域時(shí)存在著打偽標(biāo)簽結(jié)果不準(zhǔn)確、采樣效果穩(wěn)定性差以及重疊識別率低等問題。為此,提出一種基于半監(jiān)督學(xué)習(xí)的欠采樣方法(SSLU-LP)。該方法通過異構(gòu)集成將標(biāo)簽傳播機(jī)制和單類分類器結(jié)合,補(bǔ)充數(shù)據(jù)偽標(biāo)簽;利用最小生成樹策略構(gòu)建重疊區(qū)域檢測模型;采用欠采樣策略,通過最近鄰搜索有選擇性地去除部分多數(shù)類樣本。最后該方法與四種經(jīng)典分類器結(jié)合,在九個(gè)工控?cái)?shù)據(jù)集上與九種混合算法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,所提方法可以精準(zhǔn)地為無標(biāo)簽數(shù)據(jù)打偽標(biāo)簽,高效且有效檢測出不平衡數(shù)據(jù)集中的重疊數(shù)據(jù),改善了分類器的訓(xùn)練效果,提高了分類器的異常檢測性能。
關(guān)鍵詞:工業(yè)控制系統(tǒng);類不平衡;類重疊;半監(jiān)督學(xué)習(xí);異常檢測
中圖分類號:TP181"" 文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2025)01-022-0156-09
doi: 10.19734/j.issn.1001-3695.2024.06.0195
Semi-supervised under-sampling method for anomaly detection of industrial control data with class imbalance and overlap
Abstract:Anomaly detection in industrial control systems faces challenges such as lack of label information, class imbalance, and class overlap, which hinder existing classifiers from accurately detecting anomalies. Current data-level sampling methods suffer from inaccurate pseudo-labeling, poor sampling stability, and low overlap detection rates. Therefore, this paper proposed an undersampling method based on semi-supervised learning (SSLU-LP). This method combined the label propagation mechanism with a single class classifier through heterogeneous integration to supplement pseudo-labels. It constructed an overlap region detection model using the minimum spanning tree strategy and employed an undersampling strategy to selectively remove some majority class samples via nearest neighbor search. Finally, this paper combined the proposed method with 4 classical classifiers and compared it with 9 hybrid algorithms on 9 industrial control datasets. Experimental results show that the proposed method can accurately pseudo-label unlabeled data, efficiently and effectively detect overlapping data in unbalanced datasets, improve the classifier’s training performance, and enhance its anomaly detection capabilities.
Key words:industrial control system; class imbalance; class overlap; semi-supervised learning; anomaly detection
0 引言
工業(yè)控制系統(tǒng)(industrial control system,ICS)是一種用于監(jiān)控和控制工業(yè)過程的計(jì)算機(jī)系統(tǒng),通常用于能源、交通、電力等國家關(guān)鍵基礎(chǔ)設(shè)施,其安全性已提升到國家戰(zhàn)略層面[1~3]。隨著工業(yè)化與信息化的深度融合,ICS面對著來自網(wǎng)絡(luò)的安全威脅。典型的ICS安全保障由防護(hù)、檢測、響應(yīng)和恢復(fù)四個(gè)階段構(gòu)成[4]。其中,檢測階段專注于監(jiān)測和發(fā)現(xiàn)安全事件的跡象和異常行為,采用各種技術(shù)和工具來及時(shí)發(fā)現(xiàn)潛在的安全威脅。
異常檢測在ICS中扮演著至關(guān)重要的角色,用于識別潛在的故障或異常行為,從而保證系統(tǒng)的可靠性和安全性[1]。然而,ICS數(shù)據(jù)大多存在著缺乏標(biāo)簽信息、數(shù)據(jù)不平衡和重疊的問題[5],都進(jìn)一步加劇了異常檢測分類任務(wù)的難度。
數(shù)據(jù)類不平衡指的是不同類別的數(shù)據(jù)數(shù)量嚴(yán)重不均衡,其中少數(shù)類數(shù)據(jù)的數(shù)量遠(yuǎn)遠(yuǎn)少于多數(shù)類數(shù)據(jù),而在異常檢測中,少數(shù)類數(shù)據(jù)尤為重要。類重疊表示數(shù)據(jù)集中可能存在部分?jǐn)?shù)據(jù),它們的數(shù)據(jù)特征表示或數(shù)據(jù)分布在某些方面與其他數(shù)據(jù)非常相似或相近,存在重疊區(qū)域,導(dǎo)致分類模型難以區(qū)分,從而影響分類器的表現(xiàn)和學(xué)習(xí)效果。不幸的是,不平衡和重疊總是耦合的。因此,對于分類器來說,該耦合關(guān)系構(gòu)成了一個(gè)相當(dāng)困難的場景[6]。
數(shù)據(jù)級和算法級的方法已經(jīng)被用來嘗試解決這種耦合問題[7]。前者側(cè)重于預(yù)處理以平衡數(shù)據(jù)并消除重疊[8],而后者則引導(dǎo)分類器偏向少數(shù)或重疊數(shù)據(jù)[9]。數(shù)據(jù)級方法是基于現(xiàn)有數(shù)據(jù)特征的模式學(xué)習(xí),包括過采樣和欠采樣,雖然過采樣是一種被廣泛使用的技術(shù),但可能導(dǎo)致重疊問題的加重,并引入部分噪聲,從而削弱模型對于少數(shù)類的檢測能力。因此,本文著重關(guān)注欠采樣方法,特別是局部方法[10]。局部方法僅使用少數(shù)類數(shù)據(jù)與其鄰居之間的關(guān)系,有選擇地刪除多數(shù)類數(shù)據(jù),以在減少多數(shù)類數(shù)據(jù)的同時(shí)盡可能保留多數(shù)類的信息,避免丟失重要數(shù)據(jù),并提高計(jì)算效率,該方法很好地解決了類不平衡問題[11],特別針對異常檢測分類任務(wù),其效果高度依賴于足夠的已知信息。
然而,ICS數(shù)據(jù)存在缺乏標(biāo)簽信息的問題,可能導(dǎo)致在異常檢測任務(wù)中無法輕松地識別和檢索該類數(shù)據(jù),限制了傳統(tǒng)監(jiān)督學(xué)習(xí)方法的應(yīng)用,因?yàn)樵擃惙椒ㄐ枰罅亢袠?biāo)簽的數(shù)據(jù)來訓(xùn)練模型[12],這對于采樣來說是一個(gè)非常棘手的問題。
針對ICS異常檢測中存在的問題,本文提出一種面向類不平衡和重疊數(shù)據(jù)半監(jiān)督欠采樣方法(semi-supervised learning under-sampling method derived from label propagation mechanism, SSLU-LP),并將其應(yīng)用于工業(yè)控制系統(tǒng)異常檢測任務(wù)中。首先利用異構(gòu)集成學(xué)習(xí)將標(biāo)簽傳播機(jī)制與單類分類器相結(jié)合,準(zhǔn)確地找到?jīng)Q策邊界,采用雙重驗(yàn)證機(jī)制為缺失標(biāo)簽信息的數(shù)據(jù)打偽標(biāo)簽。同時(shí),為了避免過采樣方法可能增加的噪聲和重疊,采用最小生成樹策略構(gòu)建面向決策邊界的重疊區(qū)域檢測模型,對該區(qū)域采用欠采樣策略,提出最近鄰搜索選擇被刪除的多數(shù)類數(shù)據(jù)。最后構(gòu)建一種半監(jiān)督學(xué)習(xí)欠采樣框架,有效解決不平衡和重疊數(shù)據(jù)的異常檢測分類問題,特別適用于標(biāo)簽信息不足的情況。
1 相關(guān)工作
關(guān)于類不平衡和類重疊的共同效應(yīng)與數(shù)據(jù)分布的內(nèi)在特征,Vuttipittayamongkol等人[13]提出了不平衡域中類重疊的存在。他們指出,當(dāng)這兩個(gè)因素都存在時(shí),比單獨(dú)處理任何一個(gè)問題時(shí)要復(fù)雜得多。因此,類重疊和類不平衡存在著隱性的依賴關(guān)系,不能單獨(dú)分析。根據(jù)以往的研究,欠采樣方法對解決重疊問題更有效。最簡單的欠采樣方法是隨機(jī)欠采樣(random under sampling, RUS)[14],它通過隨機(jī)去除一些多數(shù)類數(shù)據(jù)來實(shí)現(xiàn)數(shù)據(jù)平衡。同時(shí),Near Miss[14]和清洗規(guī)則(neighborhood cleaning and labeling, NCL)[14]也被證明是有效的。
研究表明,重疊檢測被認(rèn)為是確定哪些數(shù)據(jù)應(yīng)該被欠采樣的關(guān)鍵步驟,重疊的影響甚至大于不平衡的影響[12]。其中基于密度的方法很受歡迎。Mayabdi等人[15]提出了兩種新的基于密度(density-based sampling approaches , DBSA)的算法來消除兩個(gè)類之間的重疊和噪聲,并產(chǎn)生平衡和規(guī)范化的類分布。這兩種算法從大多數(shù)類中去除高密度數(shù)據(jù),并消除兩個(gè)類中重疊的噪聲。Bunkhumpornpat等人[16]提出了基于密度的欠采樣(density-based majority under sampling technique , DBMUTE)算法,使用密度函數(shù)定義偽質(zhì)心,即每個(gè)多數(shù)類與少數(shù)類數(shù)據(jù)沿最短路徑距離聚類,較短的路徑意味著應(yīng)該刪除的潛在重疊區(qū)域。然而,這些基于密度的方法耗時(shí)較長。
另外以決策邊界為中心構(gòu)造重疊區(qū)域也很流行。Vuttipittayamongkol等人[17]提出了模糊聚類欠采樣(overlap based under sampling , OBU)算法,使用模糊聚類算法來確定邊界數(shù)據(jù),將其定義為重疊區(qū)域,為了區(qū)分多數(shù)類和少數(shù)類,將聚類的數(shù)量強(qiáng)制為2,使得該方法不適合處理包含多個(gè)類的不平衡數(shù)據(jù)集。Dai等人[18]提出了分解類重疊欠采樣(Schur decomposition class-overlap under sampling method, NSchur)方法來確定數(shù)據(jù)集的全局相似度,以獲取潛在的邊界重疊數(shù)據(jù),并首次使用矩陣分解方法處理類不平衡數(shù)據(jù)上的類重疊問題。高冰等人[4]提出了面向重疊區(qū)域的混合采樣方法(overlap region with hybrid sampling, OverlapRHS),通過利用支持向量機(jī)分別識別多數(shù)類和少數(shù)類數(shù)據(jù)的邊界重疊區(qū)域,并進(jìn)行混合采樣來提升分類器的訓(xùn)練效果。但上述方法在識別重疊區(qū)域時(shí)面臨著精度不高、計(jì)算復(fù)雜度高和使用范圍受限等問題。
此外,缺少標(biāo)簽信息是一種更現(xiàn)實(shí)的情況。半監(jiān)督學(xué)習(xí)更適合于解決該類問題,該方法通過利用有標(biāo)簽數(shù)據(jù)來預(yù)測無標(biāo)簽數(shù)據(jù),嘗試給無標(biāo)簽數(shù)據(jù)分配一個(gè)“偽標(biāo)簽”。一旦分配了偽標(biāo)簽,這些缺少標(biāo)簽的數(shù)據(jù)就可以被視為帶有標(biāo)簽的數(shù)據(jù),用于訓(xùn)練模型。標(biāo)簽傳播(label propagation, LP)[19]是最著名的基于標(biāo)簽傳播局部劃分的半監(jiān)督學(xué)習(xí)方法。Zhang等人[20]提出了基于標(biāo)簽重要性的標(biāo)簽傳播算法(label importance based label propagation algorithm, LILPA),但是,當(dāng)一個(gè)數(shù)據(jù)節(jié)點(diǎn)的最重要標(biāo)簽數(shù)大于1時(shí),LILPA會隨機(jī)選擇一個(gè)標(biāo)簽分配給其他節(jié)點(diǎn),會導(dǎo)致不穩(wěn)定問題。Zhang等人[21]提出了基于節(jié)點(diǎn)能力的標(biāo)簽傳播算法(node ability based label propagation algorithm, NALPA),使用從節(jié)點(diǎn)屬性推斷的信息進(jìn)行傳播,保持簡單性并提高了準(zhǔn)確性。高兵等人[22]提出一種基于度和節(jié)點(diǎn)聚類系數(shù)的節(jié)點(diǎn)重要性定義(overlapping community detection based on graph embedding and multi-label propagation algorithm,OCD-GEMPA),進(jìn)一步優(yōu)化重疊社區(qū)檢測算法。Taha等人[23]提出了基于統(tǒng)一圖的缺失標(biāo)簽傳播方法(unified graph-based missing label propagation method, UGMLP),應(yīng)用于補(bǔ)充缺失的標(biāo)簽矩陣,以指導(dǎo)標(biāo)簽分類模型的創(chuàng)建。Yan等人[24]提出了一種快速標(biāo)簽傳播算法(fast label propagation algorithm, FLPA),提升了傳播速度,但是忽略了精度。Li等人[25]提出了增量標(biāo)簽傳播(incremental label propagation, ILPF)算法,通過逐漸增加可信的偽標(biāo)簽來平衡標(biāo)簽分布,從而減少偽標(biāo)簽帶來的不確定性。但是這些半監(jiān)督學(xué)習(xí)方法依賴于低密度假設(shè),即決策邊界必須位于低密度區(qū)域[26],導(dǎo)致標(biāo)簽傳播不準(zhǔn)確和時(shí)間復(fù)雜度較高等問題,最終影響分類器在不平衡和類重疊問題上表現(xiàn)不佳。
2 基于半監(jiān)督學(xué)習(xí)的欠采樣算法
本文旨在解決異常檢測分類任務(wù)中常見的類不平衡和類重疊耦合的問題,特別是在缺乏標(biāo)簽信息的情況下。首先,在圖1“打偽標(biāo)簽階段”,設(shè)計(jì)一種多元分層半監(jiān)督學(xué)習(xí)方法,綜合利用有標(biāo)簽和無標(biāo)簽數(shù)據(jù),以及數(shù)據(jù)分布信息來生成高質(zhì)量的偽標(biāo)簽。然后,在“重疊區(qū)域檢測階段”,設(shè)計(jì)一種有效的檢測模型,在剩余部分?jǐn)?shù)據(jù)無標(biāo)簽的情況下,能夠準(zhǔn)確識別重疊區(qū)域。最后,在“重疊區(qū)域采樣階段”,設(shè)計(jì)一個(gè)自適應(yīng)參數(shù)化的欠采樣方法,通過最小生成樹策略更準(zhǔn)確地識別并刪除重疊區(qū)域的多數(shù)類數(shù)據(jù)。
綜上所述,本文提出一種面向類不平衡和重疊的工控?cái)?shù)據(jù)異常檢測的半監(jiān)督欠采樣方法SSLU-LP,更好地探索類不平衡和類重疊問題之間的內(nèi)在聯(lián)系,并將其應(yīng)用于缺少標(biāo)簽的實(shí)際應(yīng)用中。方法結(jié)構(gòu)如圖1所示。
2.1 偽標(biāo)簽生成
在缺少標(biāo)簽信息的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)任務(wù)中,單類支持向量機(jī)(one class support vector machine, OCSVM)[27]是一種廣泛使用的單類分類異常檢測方法。因此,在本節(jié)中,使用參數(shù)調(diào)優(yōu)的OCSVM算法,初步解決無標(biāo)簽數(shù)據(jù)集中部分?jǐn)?shù)據(jù)的標(biāo)簽劃分問題,并找到多數(shù)類和少數(shù)類之間的決策邊界。這將為后續(xù)的分類任務(wù)提供更準(zhǔn)確的標(biāo)簽信息和決策邊界位置。
訓(xùn)練樣本x1,x2,…,xl∈X,其中l(wèi)∈N(N為樣本總數(shù)),X為集合。如圖2(a)所示,設(shè)Φ為X→F到點(diǎn)積空間的特征映射。其中k(·,·)表示一個(gè)核函數(shù),高斯核函數(shù)是最常見和最靈活的:
其中:φ(x)、φ(y)分別為樣本x、y到點(diǎn)積空間的特征映射;c作為核函數(shù)的超參數(shù)。
OCSVM算法返回一個(gè)函數(shù)f,策略將樣本映射到內(nèi)核對應(yīng)的特征空間中,并以最大邊界將其與原點(diǎn)分離。捕獲大部分樣本點(diǎn)的區(qū)域中取值為+1,在其他地方取值為-1。
超平面是根據(jù)決策邊界描述訓(xùn)練集找到的。在特征空間中,用超平面分隔區(qū)域內(nèi)的訓(xùn)練樣本,使用ωT·φ(xi)-ρ=0劃分超平面,其中ω決定了超平面的方向,ρ為位移項(xiàng)。對于新的點(diǎn)x,值f(x)是通過評估落在超平面上的特征空間的邊來確定的。
為了將樣本集與原點(diǎn)分離,求解如下二次規(guī)劃:
其中:v∈(0,1)為參數(shù)。索引i和j在1,…,l(縮寫為i,j∈[l])內(nèi)考慮,其中l(wèi)表示向量維數(shù)。非零松弛變量ξi在目標(biāo)函數(shù)中受到懲罰。
在式(2)中,正則化系數(shù)v和核函數(shù)中的超參數(shù)c對于形成超平面至關(guān)重要。當(dāng)正則化系數(shù)v較小時(shí),超平面會將更多的樣本放置在超平面上,從而減少了離群值的數(shù)量,表明訓(xùn)練樣本超出了決策邊界的上限;然而,由于超參數(shù)c縮放了兩個(gè)原始值之間的距離,當(dāng)c較大時(shí),決策邊界會變得粗糙,容易過擬合,從而影響決策邊界的定位。因此,可以設(shè)置超參數(shù)(v,c)的范圍,然后使用所有可能的組合來訓(xùn)練OCSVM,即求解式(2),選擇使用分類誤差最小的超參數(shù)組合來完成OCSVM的訓(xùn)練。
采用拉格朗日公式求解決策函數(shù)公式f(x)=sgn((ω*φ(x))-ρ),得到式(3)尋找不同樣本類別的決策邊界。
返回具有非零αi的對應(yīng)樣本xi的支撐向量,其中系數(shù)αi為對偶問題的解:
對于任何不在上界或下界的αi,可以用相應(yīng)的樣本xi來滿足偏移量ρ。
根據(jù)決策函數(shù)返回的結(jié)果ypred,可以基于樣本x進(jìn)行如下預(yù)測:
a)ypred=-1:樣本屬于離群值或異常值,也意味著該樣本暫時(shí)無法打偽標(biāo)簽;
b)ypred !=-1:樣本與訓(xùn)練集樣本具有相同的特征,屬于決策邊界內(nèi)的樣本,可以打偽標(biāo)簽。
對樣本初步劃分后,可以得到部分偽標(biāo)簽數(shù)據(jù)集Xpartpselabel0:
其中:Xmajnol和Xminnol分別為多數(shù)類和少數(shù)類偽標(biāo)簽樣本;Xnol0和Xnol1分別為多數(shù)類和少數(shù)類剩下的無標(biāo)簽樣本。
在現(xiàn)有分割的基礎(chǔ)上,本文設(shè)計(jì)一種半監(jiān)督模型,利用雙重驗(yàn)證機(jī)制打偽標(biāo)簽,進(jìn)一步確定完整樣本集的標(biāo)簽。假設(shè)樣本空間中的距離越近,具有相同樣本標(biāo)簽的可能性就越大。故假設(shè)得到的剩余無標(biāo)簽樣本集Xnol0、Xnol1,樣本點(diǎn)之間的位置關(guān)系是一個(gè)有向完全圖,樣本之間的距離越近,其特征越相似,對應(yīng)的權(quán)重越大。
通過上述得到的已知標(biāo)簽樣本(x1,y1),(x2,y2),…,(xl,yl),其中yl={0,1}為樣本集對應(yīng)的標(biāo)簽,多數(shù)類樣本和少數(shù)類樣本分別分布在兩個(gè)已知的標(biāo)簽樣本集中。
設(shè)(xl+1,yl+1),(xl+2,yl+2),…,(xl+l,yl+l)為不帶標(biāo)簽的樣本點(diǎn),其中標(biāo)簽值Yu={0,1}的具體值未知。
首先按如下方法計(jì)算樣本間的權(quán)重:
其中:σ為控制權(quán)值的超參數(shù);wij為樣本點(diǎn)xi和xj之間的權(quán)值距離;d為數(shù)據(jù)維度。
計(jì)算權(quán)重距離后,得到樣本與邊之間的權(quán)重矩陣w,為對稱矩陣。接下來,定義維度為(l+u,l+u)的概率轉(zhuǎn)移矩陣T,計(jì)算兩個(gè)樣本之間的轉(zhuǎn)移概率:
其中:Tij表示當(dāng)T不是對稱矩陣時(shí),樣本j轉(zhuǎn)移到樣本i的概率。然后定義維度為(l+u,C)的標(biāo)簽矩陣Y,其中每個(gè)數(shù)值表示每個(gè)樣本屬于不同類別的概率分布。
最后,只需迭代以下步驟即可獲得未知標(biāo)簽樣本的預(yù)測結(jié)果。
a)計(jì)算更新后的Y:Y=TY。
Xpartpselabel0和Xpartpselabel1兩個(gè)偽標(biāo)簽樣本集采取數(shù)學(xué)驗(yàn)證方法取交集,對于標(biāo)簽進(jìn)行雙重驗(yàn)證,最終確定偽標(biāo)簽數(shù)據(jù)集Xpesudolabel,如圖2(c)所示。
對于非相交區(qū)域的樣本,暫時(shí)不能對樣本打偽標(biāo)簽,直接使用清洗NCL方法對區(qū)域內(nèi)的樣本進(jìn)行刪除。
在使用異構(gòu)集成學(xué)習(xí)和雙重驗(yàn)證機(jī)制對數(shù)據(jù)打偽標(biāo)簽后,必須繼續(xù)解決數(shù)據(jù)不平衡和重疊的問題。因此,有必要繼續(xù)對樣本進(jìn)行重疊區(qū)域檢測和采樣,以平衡數(shù)據(jù)集。
2.2 重疊區(qū)域檢測
在獲得所有已知標(biāo)簽的數(shù)據(jù)集后,必須重點(diǎn)解決數(shù)據(jù)之間的類不平衡和重疊問題。因此,數(shù)據(jù)區(qū)域劃分的好壞直接影響到后續(xù)解決不平衡和重疊問題的效果和效率。Schlkopf等人[27]提出了在基于OCSVM方法上將數(shù)據(jù)集劃分為重疊區(qū)域,并研究了在學(xué)習(xí)決策邊界后,根據(jù)數(shù)據(jù)特征將數(shù)據(jù)劃分為不同的群體,從而制定不同的策略。Napierala等人[28]提出了首先通過KNN將少數(shù)類樣本分為安全(safe)、邊際(marginal)、罕見(rare)和異常(outliers)四組。根據(jù)這些分組的特點(diǎn),使用不同的過采樣機(jī)制來生成新樣本。對于這些問題,靠近邊界的樣本比遠(yuǎn)離邊界的樣本更容易被誤分類,因此對其分類更重要。本文利用已經(jīng)得到最優(yōu)參的OCSVM的區(qū)域邊界結(jié)果值,進(jìn)一步劃分樣本集,得到更細(xì)致的重疊區(qū)域。
根據(jù)OCSVM區(qū)域邊界的特性,對于圖1中重疊區(qū)域采樣階段的方法構(gòu)造了最小生成樹(minimum spanning tree, MST)策略。當(dāng)圖中可能有多條連通的邊,并且圖中每條邊都有權(quán)值時(shí),從中選取一些邊生成一棵有n條邊的樹,生成這棵樹的總代價(jià)是使每條邊的權(quán)值之和最小。換句話說,掃描決策邊界區(qū)域內(nèi)的所有點(diǎn),分別計(jì)算不同點(diǎn)之間的距離,使其成為權(quán)值,然后選擇不同區(qū)域內(nèi)權(quán)值和最小的連接點(diǎn)。
首先,在決策邊界附近輸入偽標(biāo)簽數(shù)據(jù)集Xpsel。對于Xpsel中的每個(gè)樣本xi,計(jì)算新數(shù)據(jù)集中樣本點(diǎn)之間的距離矩陣dm:
根據(jù)返回的dm計(jì)算MST。首先遍歷MST,找到最接近的同類樣本xi或不同類樣本yi。取樣本xi、yi的索引inx。根據(jù)inx提取超球中心(xi,yi)的樣本點(diǎn)形成一個(gè)新的數(shù)據(jù)集newx和標(biāo)簽集newy。
統(tǒng)計(jì)有邊連接但連接點(diǎn)是不同類樣本的個(gè)數(shù)nin,返回具體nin所代表的重疊區(qū)域樣本值。
由此,可以得到樣本具體的分組信息:
a)非重疊區(qū)域:OCSVM決策邊界內(nèi)的樣本;
b)重疊區(qū)域:位于決策邊界附近且不同類別的樣本彼此相鄰的樣本。
2.3 最近鄰欠采樣
在確定了重疊區(qū)域的確切范圍之后,必須關(guān)注數(shù)據(jù)重疊問題,因?yàn)橹丿B區(qū)域主要位于兩種數(shù)據(jù)類型的決策邊界附近。因此,通過比較數(shù)據(jù)點(diǎn)在其所屬類別內(nèi)和其他類別之間的最近鄰距離來判斷其是否位于重疊區(qū)域,從而選擇要保留或排除的樣本;同時(shí)也為了更好地保留決策邊界附近的重疊區(qū)域內(nèi)的樣本點(diǎn),以提高模型對這些關(guān)鍵區(qū)域的敏感度,并盡量減少信息損失,本文提出了一種基于類內(nèi)外最近鄰距離連接點(diǎn)的欠采樣方法。該方法的核心思想是通過考慮數(shù)據(jù)在所屬類別內(nèi)和其他類別之間的最近鄰距離來選擇要保留或排除的樣本。
具體來說,要在決策邊界附近保留足夠的樣本,以確保模型能夠最優(yōu)地捕獲這些關(guān)鍵區(qū)域的特征。欠采樣時(shí),優(yōu)先考慮的是保護(hù)重疊區(qū)域內(nèi)的少數(shù)類樣本,因此本文計(jì)算了少數(shù)類樣本(label = 1)的每個(gè)樣本,樣本到同類樣本的最近鄰居的距離d(xi,NNis),以及該樣本點(diǎn)到不同類的最近鄰居的距離d(xi,NNio),如圖3所示。
若d(xi,NNis)≥d(xi,NNio),則刪除d(xi,NNio)所連接的非同類樣本點(diǎn);否則留下。并且在算法計(jì)算過程中該點(diǎn)已經(jīng)安全,則下一次迭代中不被計(jì)算,直到計(jì)算完輸入的所有樣本,如圖2(d)所示。
總的來說,基于類內(nèi)和類外最近鄰連接點(diǎn)的欠采樣方法通過準(zhǔn)確地選擇保留或排除樣本,為解決重疊區(qū)域樣本問題提供了一種有效而準(zhǔn)確的方法,可以更好地平衡模型性能并捕獲關(guān)鍵區(qū)域。
2.4 時(shí)間復(fù)雜度
在本節(jié)中,將描述SSLU-LP方法的算法流程和時(shí)間復(fù)雜度。該方法的總體框架如圖1所示,包括偽標(biāo)簽生成、重疊區(qū)域檢測和重疊區(qū)域采樣三個(gè)階段。
時(shí)間復(fù)雜度越低通常意味著效率越高。這個(gè)時(shí)間復(fù)雜度是一個(gè)近似的估計(jì)值,具體的實(shí)際復(fù)雜度也可能受到具體實(shí)現(xiàn)細(xì)節(jié)和數(shù)據(jù)特征的影響。其中,u為樣本總數(shù)(其中m為多數(shù)類樣本數(shù)量,l為少數(shù)類樣本數(shù)量),k為最近鄰數(shù)量,t為迭代次數(shù)。
不同欠采樣的時(shí)間復(fù)雜度如表1所示。
對于本文提出的SSLU-LP,對于每個(gè)少數(shù)類樣本,需要計(jì)算相同類的最近鄰和不同類的最近鄰之間的距離。假設(shè)有l(wèi)個(gè)少數(shù)類樣本,計(jì)算復(fù)雜度為O(l),表示與要?jiǎng)h除的點(diǎn)的數(shù)量有關(guān)的復(fù)雜度。對于刪除不同類樣本點(diǎn)的操作,該步驟的復(fù)雜度與需要?jiǎng)h除的點(diǎn)的數(shù)量有關(guān),最壞情況下需要?jiǎng)h除的點(diǎn)的數(shù)量為O(u)。整個(gè)算法的迭代次數(shù)取決于算法中要執(zhí)行的迭代次數(shù)。在每次迭代中,計(jì)算新的最近鄰距離并去除一些樣本點(diǎn)。假設(shè)迭代次數(shù)為k,則整個(gè)算法的復(fù)雜度為O(k)。因此,整個(gè)欠采樣算法的時(shí)間復(fù)雜度可以表示為O(k+ut)。
將提供的算法按時(shí)間復(fù)雜度從小到大排序:
可以看出,ALLKNN[29]方法是最快的,因?yàn)樗贿M(jìn)行迭代計(jì)算;其次是本文算法SSLU-LP,它進(jìn)行迭代,但整體時(shí)間效率更高;而cluster centroids[14]方法通常需要多次迭代來更新聚類中心,直到收斂為止,每次迭代都涉及到計(jì)算每個(gè)樣本點(diǎn)到聚類中心的距離,并重新分配樣本到最近的聚類中心,所以時(shí)間復(fù)雜度最高。
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集
實(shí)驗(yàn)選取九個(gè)公開的ICS數(shù)據(jù)集,分別為BHP(burst header packet)是用于光突發(fā)交換網(wǎng)絡(luò)的入侵檢測研究[4]的數(shù)據(jù)集,包含多控制分組存在洪泛攻擊的情景。GP(gas pipeline)是關(guān)于天然氣管道傳感器數(shù)據(jù)的研究[4],包括檢測與天然氣管道相關(guān)的異?;蛉肭智闆r的結(jié)果數(shù)據(jù)。Power數(shù)據(jù)集與電力輸電系統(tǒng)相關(guān),包含混合入侵檢測系統(tǒng)的數(shù)據(jù)[4]。Nslkdd數(shù)據(jù)集是一種用于網(wǎng)絡(luò)入侵檢測的標(biāo)準(zhǔn)數(shù)據(jù)集,常用于評估入侵檢測算法的性能[4]。Iscx(information security center for the x-informatics) 數(shù)據(jù)集用于信息安全研究,包括各種網(wǎng)絡(luò)流量數(shù)據(jù),用于入侵檢測和惡意行為分析[30]。Wst (wireless sensor testbed) 數(shù)據(jù)集包含與無線傳感器網(wǎng)絡(luò)或IoT設(shè)備相關(guān)的數(shù)據(jù),用于研究無線通信和傳感器數(shù)據(jù)的安全性和性能[31]。Firewall數(shù)據(jù)集包含與防火墻日志或網(wǎng)絡(luò)流量相關(guān)的信息[32]。水處理(swat water treatment, Swat)系統(tǒng),用于研究與工業(yè)自動(dòng)化安全和入侵檢測相關(guān)的問題,包括模擬水處理廠的工業(yè)控制系統(tǒng)在過去的11天中收集的實(shí)驗(yàn)數(shù)據(jù)[33]。Wadi(water distribution) 數(shù)據(jù)集是與水處理操作和工業(yè)自動(dòng)化相關(guān)的數(shù)據(jù)集[34],該數(shù)據(jù)集中包括傳感器和網(wǎng)絡(luò)的數(shù)據(jù)。
這些數(shù)據(jù)集都是不平衡的數(shù)據(jù)集,它們都存在標(biāo)簽缺失和重疊的問題,而標(biāo)簽缺失和重疊的問題被廣泛使用。對于數(shù)據(jù)集的選擇,在實(shí)驗(yàn)開始之前,為了模擬真實(shí)情況,通過設(shè)置一個(gè)隨機(jī)數(shù),隨機(jī)選擇部分?jǐn)?shù)據(jù)去除標(biāo)簽,形成缺失標(biāo)簽的數(shù)據(jù)集。此時(shí)將比率定義為
Deletionratio=DR=numnonum(11)
這些數(shù)據(jù)集的詳細(xì)特征,如數(shù)據(jù)量總數(shù)(num)、屬性、已知標(biāo)簽數(shù)據(jù)數(shù)量、未知標(biāo)簽數(shù)據(jù)數(shù)量(numno)、缺失標(biāo)簽比(DR)、已知標(biāo)簽多數(shù)類數(shù)據(jù)數(shù)量、已知標(biāo)簽少數(shù)類數(shù)據(jù)數(shù)量和已知標(biāo)簽數(shù)據(jù)不平衡比,如表2所示。
3.2 實(shí)驗(yàn)設(shè)置
a)驗(yàn)證框架的整體性能。為了揭示不同算法之間的差異和局限性,將三種經(jīng)典的半監(jiān)督學(xué)習(xí)算法(OCSVM, Label Propagation和Self-Training)和三種適應(yīng)性較強(qiáng)的欠采樣算法(ENN[14], Tomek Link[14]和ALLKNN[29])進(jìn)行組合,作為九種混合方法,與本文提出的SSLU-LP方法進(jìn)行對比實(shí)驗(yàn),以確保比較結(jié)果的可靠性和可解釋性。它們分別為SE (Self-Training + ENN)、ST (Self-Training + Tomek Link)、SA (Self-Training + ALLKNN)、LE (Label Propagation + ENN)、LT (Label Propagation + Tomek Link)、LA (Label Propagation + ALLKNN)、OE (OCSVM + ENN)、OT (OCSVM + Tomek Link)和OA (OCSVM +ALLKNN)。
b)驗(yàn)證采樣性能。因不同算法可能對數(shù)據(jù)集的分布、屬性和規(guī)模有不同的假設(shè)和適應(yīng)性,為了提供更全面的比較,本文選擇十種基準(zhǔn)欠采樣方法與SSLU-LP方法進(jìn)行對比,分別為ENN (edited nearest neighbors)、RENN (repeated edited nearest neighbors)、Near Miss、RUS、Cluster Centroids、Tomek鏈、AllKNN、壓縮最近鄰 (CNN)、單側(cè)選擇 (one sided selection, OSS)、NCL。
c)驗(yàn)證采樣后的分類性能。除了與上述經(jīng)典算法的對比之外,還與Vuttipittayamongkol等人[8]提出的四種基于鄰域搜索的潛在重疊實(shí)例識別欠采樣框架進(jìn)行對比,這四種方法分別為NB-Basic、NB-Tomek、NB-Comm和NB-Rec。
上述算法均使用Python庫Scikit-Learn[35]實(shí)現(xiàn),使用默認(rèn)設(shè)置。
在保持默認(rèn)參數(shù)的情況下,本文選擇常用的支持向量機(jī)(support vector machine, SVM)、邏輯回歸(logistic regression, LR)、高斯樸素貝葉斯(gaussian naive bayes, GNB)和多層感知器(multilayer perceptron, MLP)四種異常檢測分類器進(jìn)行實(shí)驗(yàn)。所有實(shí)驗(yàn)均在Python 3.9下的AMD Ryzen 7-6800H處理器上進(jìn)行。
3.3 評價(jià)指標(biāo)
本文在不同的驗(yàn)證實(shí)驗(yàn)中使用了不同的評估指標(biāo),選擇靈敏度(sensitivity)、特征曲線下方的面積(area under curve, AUC)和幾何均值(G-mean)來評估方法的整體性能。
此外,同時(shí)進(jìn)行了非參數(shù)統(tǒng)計(jì)檢驗(yàn),以支持整體框架的結(jié)果。弗里德曼統(tǒng)計(jì)檢驗(yàn)用于檢測所有實(shí)驗(yàn)方法的差異,然后使用Nemenyi事后檢驗(yàn)來區(qū)分每種方法的關(guān)鍵差異。
3.4 分類結(jié)果
3.4.1 分類性能
根據(jù)實(shí)驗(yàn)a)的設(shè)置,可以得到表3和4的分類性能結(jié)果。
表3顯示了分類性能的Sensitivity結(jié)果。該方法在所有測試數(shù)據(jù)集上都能表現(xiàn)出最佳的性能。其中,使用SVM分類器方法的結(jié)果在七個(gè)數(shù)據(jù)集中排名第一;使用LR、GNB和MLP分類器方法的結(jié)果在六個(gè)數(shù)據(jù)集中排名第一,在其余數(shù)據(jù)集中排名前三。
從表3可知,根據(jù)SVM分類器的結(jié)果,在BHP數(shù)據(jù)集中,SSLU-LP的靈敏度達(dá)到76.19%,比OT方法提高了49.16百分點(diǎn);比次優(yōu)方法SE提高了4.19百分點(diǎn)。根據(jù)LR分類器的結(jié)果,在Wadi數(shù)據(jù)集中,SSLU-LP的靈敏度達(dá)到了90.65%,比OT方法提高了80.19百分點(diǎn),較次優(yōu)方法SA的89.66%提高了0.99百分點(diǎn)。根據(jù)GNB分類器的結(jié)果,在Firewall數(shù)據(jù)集中,SSLU-LP的靈敏度達(dá)到了99.96%,比OT方法提高了95.81百分點(diǎn),在次優(yōu)方法ST方法中達(dá)到了99.93%,提高了0.03百分點(diǎn)。最后,根據(jù)MLP分類器的結(jié)果,在Wst數(shù)據(jù)集中,SSLU-LP達(dá)到70.97%,比OT方法提高了62.86百分點(diǎn),比次優(yōu)方法LE提高了0.17百分點(diǎn)。
表4顯示了AUC結(jié)果。本文方法使用SVM和MLP分類器的結(jié)果在七個(gè)數(shù)據(jù)集中排名第一;使用LR和GNB分類器的結(jié)果在六個(gè)數(shù)據(jù)集中排名第一;SE和LA方法次之。
從表4可知,根據(jù)SVM分類器的結(jié)果,在Wadi數(shù)據(jù)集中,SSLU-LP的AUC值為99.65%,比OT方法提高了42.57百分點(diǎn);較次優(yōu)方法LT的99.33%,提高了0.32百分點(diǎn)。根據(jù)LR分類器的結(jié)果,在Power數(shù)據(jù)集中,SSLU-LP的AUC值達(dá)到80.51%,相較于OT方法提高了21.82百分點(diǎn);比次優(yōu)方法ST提高了5.97百分點(diǎn)。根據(jù)GNB分類器的結(jié)果,在Gas數(shù)據(jù)集中,SSLU-LP的AUC結(jié)果為97.10%,比SA方法提升44.16百分點(diǎn);比次優(yōu)方法OT提高了2.94百分點(diǎn)。最后,根據(jù)MLP分類器的結(jié)果,在Swat數(shù)據(jù)集中AUC值為99.84%,比OE方法提高了31.76百分點(diǎn),比次優(yōu)方法LE提高了0.05百分點(diǎn)。
根據(jù)實(shí)驗(yàn)c)的設(shè)置,可以得到圖4和5的分類性能結(jié)果。
圖4展示了G-mean值的比較結(jié)果。其中,SSLU-LP方法在使用SVM和MLP分類器時(shí),在八個(gè)數(shù)據(jù)集中排名第一;在使用LR和GNB分類器時(shí),在七個(gè)數(shù)據(jù)集中排名第一。NB-Comm和NB-Rec方法次之。
圖5展示了AUC值的比較結(jié)果。其中,SSLU-LP方法在使用SVM和GNB分類器時(shí),在八個(gè)數(shù)據(jù)集中排名第一;在使用MLP分類器時(shí),在七個(gè)數(shù)據(jù)集中排名第一;在使用LR分類器時(shí),在六個(gè)數(shù)據(jù)集中排名第一。NB-Tomek和NB-Rec方法次之。
可以看出,SSLU-LP方法在所有ICS數(shù)據(jù)集上至少在一個(gè)性能指標(biāo)方面表現(xiàn)出最佳性能,并且在所有指標(biāo)上都與最先進(jìn)的方法相當(dāng)。這種優(yōu)異的綜合性能得益于本文方法是一種基于異構(gòu)集成學(xué)習(xí)的偽標(biāo)簽生成方法,結(jié)合了面向決策邊界的重疊區(qū)域檢測模型,不僅可以更清晰地描繪待采樣的數(shù)據(jù)區(qū)域,而且通過采用最近鄰搜索的欠采樣機(jī)制,可以準(zhǔn)確地去除對數(shù)據(jù)分類影響較大的重疊多數(shù)類數(shù)據(jù)。
3.4.2 分類時(shí)間
在表5中比較了本文方法和其他九種混合方法的運(yùn)行時(shí)間。可以看出,SSLU-LP方法在八個(gè)數(shù)據(jù)集上都是領(lǐng)先且高效的方法。
例如,在BHP數(shù)據(jù)集中,SSLU-LP方法的運(yùn)行時(shí)間為0.15 s,而其他九種比較算法的平均時(shí)間約為1.087 s,SSLU-LP方法減少了0.937 s;在Iscx數(shù)據(jù)集中,其他九種比較算法的平均時(shí)間約為1.114 s,SSLU-LP方法的運(yùn)行時(shí)間為0.576 s,減少了0.538 s。數(shù)據(jù)集的大小、維度和分布對運(yùn)行時(shí)間有顯著影響。在Firewall數(shù)據(jù)集上,SSLU-LP方法的運(yùn)行時(shí)間不是最優(yōu)的,這可能是因?yàn)閿?shù)據(jù)集的大小以及數(shù)據(jù)分布復(fù)雜,導(dǎo)致算法需要更多時(shí)間來處理重疊區(qū)域,導(dǎo)致結(jié)果欠佳。
結(jié)合表1中采樣方法的時(shí)間復(fù)雜度結(jié)果,盡管ALLKNN的時(shí)間復(fù)雜度最低,但當(dāng)與不同的半監(jiān)督算法結(jié)合使用時(shí),其運(yùn)行時(shí)間卻不一定是最優(yōu)的。這主要是因?yàn)閿?shù)據(jù)集的維度、不平衡度和缺失標(biāo)簽等因素對于混合方法的影響。
在實(shí)際運(yùn)用中,算法的運(yùn)行時(shí)間直接影響其可用性和效率,SSLU-LP方法在多種數(shù)據(jù)集中表現(xiàn)出高效性,表明其在處理不同規(guī)模的數(shù)據(jù)都具有潛在優(yōu)勢。相比之下,其他混合算法雖然在某些特定情況下表現(xiàn)良好,但在處理較為復(fù)雜的數(shù)據(jù)集時(shí),其時(shí)間效率顯著降低。
3.4.3 統(tǒng)計(jì)檢驗(yàn)
為了反映本文SSLU-LP方法與其他混合方法在泛化方面的差異,使用Friedman檢驗(yàn)進(jìn)行全面比較,如表6所示。
可以推斷,四種分類器的每種抽樣方法得到的Sensitivity、AUC和G-mean指標(biāo)在α=0.05的置信水平上拒絕Friedman檢驗(yàn)(所有顯著性都小于0.05),這表明所有方法的性能之間存在顯著差異。
同時(shí)可以獲得Friedman檢測對于各種混合方法的G-mean測試排名,如圖6所示。SSLU-LP在所有分類器的G-mean指標(biāo)上都獲得了很高的排名。因此,可以得出結(jié)論,與其他方法相比,SSLU-LP方法具有更積極的可變性。
在Friedman檢驗(yàn)的基礎(chǔ)上,使用Nemenyi事后檢驗(yàn)進(jìn)一步區(qū)分這些算法在G-mean上的性能。該測試主要使用式(12)計(jì)算每個(gè)平均排名的臨界值CD。
其中:qα為Tukey分布的臨界值;k為算法數(shù);t為數(shù)據(jù)集的數(shù)量。每個(gè)度量的CD值都是相同的,因?yàn)閗和t是常數(shù)。一般情況下,如果算法的平均排名大于CD值,則假設(shè)被拒絕,并具有相應(yīng)的置信水平。由k=10, t=9, qα=0.05= 3.16,得到CD= 4.47。G-mean結(jié)果如圖7所示。在大多數(shù)情況下,SSLU-LP作為一種控制方法具有突出的優(yōu)點(diǎn)。
3.4.4 采樣性能
接下來,繪制平均特征曲線(receiver operating characteristic curve, ROC)以觀察采樣的性能。這里選擇了六個(gè)ICS數(shù)據(jù)集進(jìn)行觀察,分別為BHP、Nslkdd、Gas、Iscx、Power和Swat。
通過圖8可以觀察到,本文方法在所有數(shù)據(jù)集中都優(yōu)于基線,并且曲線下方的面積也都較大。這表明SSLU-LP預(yù)測的結(jié)果相較于其他十種欠采樣方法具有更高的準(zhǔn)確率。
4 結(jié)束語
本文對于工業(yè)控制系統(tǒng)異常檢測中在部分?jǐn)?shù)據(jù)缺失標(biāo)簽信息的情況下,還存在類不平衡和類重疊問題,提出了一種基于半監(jiān)督學(xué)習(xí)的欠采樣方法。在解決數(shù)據(jù)標(biāo)簽缺失的問題上,引入了多元分層和雙重驗(yàn)證機(jī)制,提高了偽標(biāo)簽的準(zhǔn)確性。其中多元分層框架利用數(shù)據(jù)分布規(guī)律,提供了更穩(wěn)定和準(zhǔn)確的偽標(biāo)簽。該方法適用于復(fù)雜領(lǐng)域,擴(kuò)展了半監(jiān)督學(xué)習(xí)在處理不平衡和重疊數(shù)據(jù)方面的應(yīng)用。針對類不平衡和重疊耦合問題,采用最小生成樹策略在決策邊界附近識別不同的類數(shù)據(jù),同時(shí)構(gòu)建重疊區(qū)域,進(jìn)而對所選類別的分布進(jìn)行有針對性的欠采樣。經(jīng)實(shí)驗(yàn)驗(yàn)證,SSLU-LP方法的結(jié)果在ICS數(shù)據(jù)集上表現(xiàn)出高性能,特別是在靈敏度和AUC方面,優(yōu)于現(xiàn)有的欠采樣方法,且不需要手動(dòng)調(diào)參,可以很好地適應(yīng)不同的數(shù)據(jù)集,提供了可解釋和可重復(fù)的重疊數(shù)據(jù)識別結(jié)果,更好地指導(dǎo)分類器進(jìn)行訓(xùn)練。
參考文獻(xiàn):
[1]彭勇, 江常青, 謝豐, 等. 工業(yè)控制系統(tǒng)信息安全研究進(jìn)展 [J]. 清華大學(xué)學(xué)報(bào): 自然科學(xué)版, 2012, 52 (10): 1396-1408. (Peng Yong, Jiang Changqing, Xie Feng, et al. Research progress on information security of industrial control system [J]. Journal of Tsinghua University: Natural Science Edition, 2012, 52 (10): 1396-1408.)
[2]曾瑜, 郭金全. 工業(yè)控制系統(tǒng)信息安全現(xiàn)狀分析 [J]. 信息網(wǎng)絡(luò)安全, 2016, 16 (9): 169-172. (Zeng Yu, Guo Jinquan. Research of the security situation about industrial control information system [J]. Netinfo Security, 2016, 16 (9): 169-172.)
[3]蘇紅生, 劉燕江, 李高橋, 等. 工業(yè)控制系統(tǒng)網(wǎng)絡(luò)安全防護(hù)體系建設(shè)研究 [J]. 自動(dòng)化儀表, 2024, 45 (2): 111-115. (Su Hongsheng, Liu Yanjiang, Li Gaoqiao, et al. Research on construction of network security protection system for industrial control system [J]. Process Automation Instrumentation, 2024, 45 (2): 111-115.)
[4]高冰, 顧兆軍, 周景賢, 等. 面向ICS不平衡數(shù)據(jù)的重疊區(qū)混合采樣方法 [J]. 計(jì)算機(jī)工程與應(yīng)用, 2023, 59 (19): 305-315. (Gao Bing, Gu Zhaojun, Zhou Jingxian, et al. Hybrid sampling method for overlap region of ICS imbalanced data [J]. Computer Engineering and Applications, 2023, 59 (19): 305-315.)
[5]Lee H, Kim S B. An overlap-sensitive margin classifier for imba-lanced and overlapping data [J]. Expert Systems with Applications, 2018,98:72-83.
[6]Wan Ming, Shang Wenli, Zeng Peng. Double behavior characteristics for one-class classification anomaly detection in networked control systems [J]. IEEE Trans on Information Forensics and Security, 2017, 12(12): 3011-3023.
[7]Das S, Datta S, Chaudhuri B B. Handling data irregularities in classification: foundations, trends, and future challenges [J]. Pattern Recognition, 2018, 81: 674-693.
[8]Vuttipittayamongkol P, Elyan E. Neighbourhood-based undersampling approach for handling imbalanced and overlapped data [J]. Information Sciences, 2020, 509: 47-70.
[9]Zhao Yudi, Hao Kuangrong, Tang Xuesong,et al. A conditional varia-tional autoencoder based self-transferred algorithm for imbalanced classification[J]. Knowledge-Based Systems, 2021, 218: 106756.
[10]Ren Jinjun, Wang Yuping, Cheung Y,et al. Grouping-based oversampling in kernel space for imbalanced data classification [J]. Pattern Recognition, 2023, 133: 108992.
[11]Santos M S, Abreu P H, Japkowicz N,et al. A unifying view of class overlap and imbalance: key concepts, multi-view panorama, and open avenues for research [J]. Information Fusion, 2023, 89: 228-253.
[12]董成榮, 姚俊萍, 李曉軍, 等. 面向分布式復(fù)雜數(shù)據(jù)樣本的聯(lián)邦語義分割方法研究綜述 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41 (6):1610-1617. (Dong Chengrong, Yao Junping, Li Xiaojun, et al. Survey on federated semantic segmentation methods for distributed complex data samples [J]. Application Research of Computers, 2024, 41 (6):1610-1617.)
[13]Vuttipittayamongkol P, Elyan E, Petrovski A. On the class overlap problem in imbalanced data classification [J]. Knowledge-Based Systems, 2021, 212: 106631.
[14]Santos M S, Abreu P H, Japkowicz N, et al. On the joint-effect of class imbalance and overlap: a critical review [J]. Artificial Intelligence Review, 2022,55: 6207-6275.
[15]Mayabdi S, Saadatfar H. Two density-based sampling approaches for imbalanced and overlapping data [J]. Knowledge-Based Systems, 2022, 241: 108217.
[16]Bunkhumpornpat C, Sinapiromsaran K. DBMUTE: density-based majority under-sampling technique [J]. Knowledge and Information Systems, 2017, 50(3): 827-850.
[17]Vuttipittayamongkol P, Elyan E, Petrovski A,et al. Overlap-based undersampling for improving imbalanced data classification [M]// Intelligent Data Engineering and Automated Learning: volume 11314. Cham: Springer International Publishing, 2018: 689-697.
[18]Dai Qi, Liu Jianwei, Shi Yonghui. Class-overlap undersampling based on Schur decomposition forclass-imbalance problems [J]. Expert Systems with Applications, 2023, 221: 119735.
[19]Santos M S, Soares J P, Abreu P H,et al. Cross-validation for imba-lanced datasets: avoiding overoptimistic and overfitting approaches [J]. IEEE Computational Intelligence Magazine, 2018, 13 (4): 59-76.
[20]Zhang Yun, Liu Yongguo, Li Qiaoqin,et al. LILPA: a label importance based label propagation algorithm for community detection with application to core drug discovery [J]. Neurocomputing, 2020, 413: 107-133.
[21]Zhang Yun, Liu Yongguo, Zhu Jiajing,et al. NALPA: a node ability based label propagation algorithm for community detection [J]. IEEE Access, 2020, 8: 46642-46664.
[22]高兵, 宋敏, 鄒啟杰, 等. 基于圖嵌入和多標(biāo)簽傳播的重疊社區(qū)檢測算法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41 (5): 1428-1433. (Gao Bing, Song Min, Zou Qijie, et al. Overlapping community detection based on graph embedding and multi-label propagation algorithm [J]. Application Research of Computers, 2024, 41 (5): 1428-1433.)
[23]Taha A Y, Tiun S, Rahman A H A,et al. Unified graph-based missing label propagation method for multilabel text classification [J]. Symmetry, 2022, 14 (2): 286.
[24]Yan Rong, Yuan Wei, Su Xiangdong,et al. FLPA: a fast label pro-pagation algorithm for detecting overlapping community structure [J]. Expert Systems with Applications, 2023, 234: 120971.
[25]Li Yaoxing, Bai Liang, Liang Zhuomin,et al. Incremental label pro-pagation for data sets with imbalanced labels [J]. Neurocomputing, 2023, 535: 144-155.
[26]Lee G, Woo P, Lee K. Data generation using geometrical edge pro-bability for one-class support vector machines [J]. Expert Systems with Applications, 2023, 229: 120387.
[27]Schlkopf B, Williamson R C, Smola A J,et al. Support vector method for novelty detection [C]//Proc of the 12th Intrnational Conference on Neural Information Processing Systems.Combridge,MA:MIT Press,1999:582-588.
[28]Napierala K, Stefanowski J. Types of minority class examples and their influence on learning classifiers from imbalanced data [J]. Journal of Intelligent Information Systems, 2016, 46(3): 563-597.
[29]Singh P, Singla K, Piyush P,et al. Anomaly detection classifiers for detecting credit card fraudulent transactions [C]// Porc of the 4th International Conference on Advances in Electrical, Computing, Communication and Sustainable Technologies. Piscataway,NJ:IEEE Press, 2024: 1-6.
[30]Draper-gil G, Lashkari A H, Mamun M S I,et al. Characterization of encrypted and VPN traffic using time-related features [C]// Proc of the 2nd International Conference on Information Systems Security and Privacy. Rome: SCITEPRESS-Science and Technology Publications, 2016: 407-414.
[31]Zaman N, Ragab K, Abdullah A B. Wireless sensor networks and energy efficiency: protocols, routing and management [M].[S.l.]:IGI Global, 2012.
[32]Schufrin M, Lücke-Tieke H, Kohlhammer J. Visual firewall log analysis-at the border between analytical and appealing [C]//Proc of IEEE Symposium on Visualization for Cyber Security. Piscataway,NJ:IEEE Press, 2022: 1-11.
[33]Mathur A P, Tippenhauer N O. SWaT: a water treatment testbed for research and training on ICS security [C]//Proc of International Workshop on Cyber-physical Systems for Smart Water Networks. Piscataway,NJ:IEEE Press, 2016: 31-36.
[34]Ahmed C M, Palletl V R, Mathur A P. WADI: a water distribution testbed for research in the design of secure cyber physical systems [C]// Proc of the 3rd International Workshop on Cyber-Physical Systems for Smart Water Networks.New York:ACM Press, 2017: 25-28.
[35]Pedregosa F, Varoquaux G. Scikit-Learn: machine learning in Python [J]. Journal of Machine Learning Research, 2013, 12(10): 2825-2830.