王莉君,何政偉,馮平興
?
基于ICA的異常數(shù)據(jù)挖掘算法研究
王莉君1,2,3,何政偉1,馮平興3
(1. 成都理工大學(xué)地質(zhì)災(zāi)害防治與地質(zhì)環(huán)境保護(hù)國家重點實驗室 成都 610059; 2. 成都理工大學(xué)地球物理學(xué)院 成都 610059;3. 電子科技大學(xué)成都學(xué)院 成都 610051)
在傳統(tǒng)的獨立成分分析方法中,沒有考慮異常數(shù)據(jù)值對分離性能的影響。該文提出了一種基于影響函數(shù)的檢測方法,通過該方法可以發(fā)現(xiàn)隱藏在觀測數(shù)據(jù)中的異常成分。利用影響函數(shù)對數(shù)據(jù)進(jìn)行投影分析,對混入脈沖噪聲的觀測信號進(jìn)行盲源分離,從而實現(xiàn)對脈沖噪聲的消除。實驗仿真結(jié)果表明,該方法可以有效且可靠地檢測出所觀察信號中的異常數(shù)據(jù)。
異常數(shù)據(jù)挖掘; 盲源分離; 脈沖噪聲; 獨立分量分析; 信號處理
獨立成分分析(independent component analysis, ICA)是文獻(xiàn)[1]提出的一種重要的盲源分離方法。該方法基于反饋神經(jīng)網(wǎng)絡(luò),僅能用于兩個混迭源信號的分離。文獻(xiàn)[2]提出了一種解決非線性混迭信號盲分離問題的算法,文獻(xiàn)[3-6]進(jìn)一步研究了非線性混迭信號盲分離。傳統(tǒng)的ICA方法沒有考慮異常數(shù)據(jù)的影響[7-17]。而異常數(shù)據(jù)檢測在信號診斷、財務(wù)監(jiān)控、網(wǎng)絡(luò)入侵檢測、貸款審批等很多領(lǐng)域有重要用途。
異常數(shù)據(jù)檢測的方法有多種,目前常用的方法大致有以下4種。
1) 基于統(tǒng)計模型。通過數(shù)據(jù)的變異指標(biāo)發(fā)現(xiàn)數(shù)據(jù)中的異常點,如:極差、均差、四分位數(shù)距離等。變異指標(biāo)的值越大表示變異越大、散布越廣;值越小表示離差越小,越密集。
2) 基于距離模型。該方法避免了過多的計算問題,不依賴統(tǒng)計檢驗,將不具有多個“鄰居”的對象檢測出來?;趩卧?、索引的算法和嵌套-循環(huán)算法都是屬于目前比較成熟的基于距離模型的異常數(shù)據(jù)挖掘算法。
3) 基于密度模型。計算對象的局部異常因子越大,發(fā)生異變的可能性越大。
4) 基于偏離模型。該方法模擬人的思維方式,通過對一個連續(xù)序列的觀察,發(fā)現(xiàn)其中個別數(shù)據(jù)與其他數(shù)據(jù)的不同。常采用序列異常技術(shù)和OLAP數(shù)據(jù)立方體技術(shù)。
在異常值的常規(guī)研究中,以上方法是檢測異常數(shù)據(jù)集最重要的方法。基于統(tǒng)計學(xué)方法針對單個屬性的數(shù)據(jù),而數(shù)據(jù)挖掘問題要求在多維空間中發(fā)現(xiàn)異常點。當(dāng)沒有特定的分布檢驗時,檢測出所有的異常點數(shù)據(jù)非常困難。而基于距離的異常數(shù)據(jù)挖掘方法要求用戶多次試探設(shè)置參數(shù)?;谄畹漠惓?shù)據(jù)挖掘方法對實現(xiàn)復(fù)雜數(shù)據(jù)的效果不佳,這類方法往往不能檢測誤差較小的點。因此,上述方法不適合用于ICA數(shù)據(jù)流,特別是數(shù)據(jù)量大的多維數(shù)據(jù)流。
本文提出了一個有效的異常值檢測技術(shù),該方法主要基于影響函數(shù)并對觀測數(shù)據(jù)進(jìn)行投影分析,從而發(fā)現(xiàn)數(shù)據(jù)中的異常值。
(2)
圖1 盲信號分離系統(tǒng)模型
在ICA分析中,異常值可能出現(xiàn)在源信號或者觀察到的信號中,噪聲觀測信號的模型為:
如果為脈沖噪聲,它可以表示為:
然而,如果源信號中混入脈沖噪聲信號,采用獨立成分分析的傳統(tǒng)方法不再有效。脈沖噪聲可損害所觀察到信號的統(tǒng)計學(xué)特性,此時,如果想讓一個很小的殘余點被顯示出來,在使用傳統(tǒng)的ICA方法之前,應(yīng)采用以下方式對觀測數(shù)據(jù)進(jìn)行預(yù)處理操作。
為了分析ICA觀測數(shù)據(jù)中的異常值,影響函數(shù)被定義為[7]:
(7)
(9)
因此,有:
通過實驗,本文選擇一些適合的非多項式函數(shù):
(12)
(13)
異常值的檢測閾值定義為:
為了驗證該方法的有效性,本文從兩個方面進(jìn)行驗證。仿真實驗和非多項式函數(shù)所選用的參數(shù)都相同,所有的信號都具有零均值和單位方差。將正弦波信號、三角波信號和鋸齒波信號(各自幅度分別為1.5,1,1)進(jìn)行混合,并在已混合的信號中加入脈沖噪聲信號,得到觀測信號。
考慮源信號未混入與已混入高斯噪聲這兩種情況,通過對觀察的信號和預(yù)測的非多項式函數(shù)信號之間進(jìn)行比較,判斷影響函數(shù)是否能滿足要求。通過仿真,發(fā)現(xiàn)基于影響函數(shù)的異常值檢測方法可以有效地找出混合信號中的異常值,如圖2、圖3所示。
a. 無高斯噪聲觀測信號
b. 利用函數(shù)對無高斯噪聲觀測信號進(jìn)行投影的結(jié)果
圖2 異常值檢測的仿真結(jié)果1
a. 混入高斯噪聲的觀測信號
b. 利用函數(shù)對混入高斯噪聲觀測信號進(jìn)行投影的結(jié)果
圖3 異常值檢測的仿真結(jié)果2
本文介紹了一種從觀測信號中檢測異常值的方法,該方法基于所觀察到的信號的影響函數(shù)。不管在異常值檢測中使用什么方法,主要目的是檢測一組輸入數(shù)據(jù)中的異常值,而不是預(yù)測新輸入數(shù)據(jù)的異常值。與其他方法相比,本文所提出的異常檢測方法可以避免計算的復(fù)雜性和先驗知識的約束,采用非多項式函數(shù)查找觀測數(shù)據(jù)的異常值,并通過實驗結(jié)果證明了該方法能夠有效地找到混合在ICA的觀測數(shù)據(jù)中的異常值。
[1] HERAULT J, JUTTEN C. Space or time adaptive signal processing by neural network models[C]//AIP Conference Proceedings. [S.l.]: [s.n.], 1986: 151-206.
[2] BUREL G. Blind separation of sources: a nonlinear neural algorithm[J]. Neural Networks, 1992, 5(6): 937-947.
[3] PARRA L, DECO G, MIESBACH S. Statistical independence and novelty detection with information preserving nonlinear maps[J]. Neural Computation, 1996, 8(2): 260-269.
[4] YANG H H, AMARI S. Adaptive online learning algorithms for blind separation: maximum entropy and minimum mutual information[J]. Neural Computation, 1997, 9(7): 1457-1482.
[5] HYV?RINEN A, OJA E. Independent component analysis: Algorithms and applications[J]. Neural Networks, 2000, 13(4): 411-430.
[6] DELORME A, MAKEIG S. EEGLAB: an open source toolbox for analysis of single-trial EEG dynamics including independent component analysis[J]. Journal of Neuroscience Methods, 2004, 134(1): 9-21.
[7] CARDOSO J F, SOULOUMIAC A. Blind beamforming for non-Gaussian signals[J]. IEE Proceedings F (Radar and Signal Processing), 1993, 140(6): 362-370.
[8] BELL A J, SEJNOWSKI T J. An information-maximization approach to blind separation and blind deconvolution[J]. Neural Computation, 1995, 7(6): 1129-1159.
[9] BELOUCHRANI A, ABED-MERAIM K, CARDOSO J F, et al. A blind source separation technique using second-order statistics[J]. Signal Processing, IEEE Transactions on, 1997, 45(2): 434-444.
[10] 史習(xí)智. 盲信號處理: 理論與實踐[M]. 上海: 上海交通大學(xué)出版社, 2008.
SHI Xi-zhi. Blind signal processing-theory and practice[M]. Shanghai: Shanghai Jiao Tong University Press, 2008.
[11] HECKERLING P S. Parametric receiver operating characteristic curve analysis using mathematica[J]. Computer Methods and Programs in Biomedicine, 2002, 69(1): 65-73.
[12] 張?zhí)m勇, 劉繁明, 李冰. 基于聚譜分析的多通道盲信號自適應(yīng)分離算法[J]. 電子與信息學(xué)報, 2014, 36(1): 158-163.
ZHANG Lan-yong, LIU Fan-ming, LI Bing. Multichannel blind signal adaptive separation algorithm based on polyspectra analysis[J]. Journal of Electronics & Information Technology, 2014, 36(1): 158-163.
[13] ANGIULLI F, FASSETTI F. Distance-based outlier queries in data streams: the novel task and algorithms[J]. Data Mining and Knowledge Discovery, 2010, 20(2): 290-324.
[14] BANERJEE R. Fair m-estimators as a cost function for FASTICA[C]//Signal Processing and Communication (ICSC), 2013 International Conference on. [S.l.]: IEEE, 2013: 445-448.
[15] ALI R, ZAHRAN O, ELKORDY M, et al. Blind source separation for different modulation techniques with wavelet denoising[J]. Digital Signal Processing, 2013, 5(12): 418.
[16] KE-LIN D U, SWAMY M N S. Neural networks and atatistical learning[M]. London: Springer, 2014.
[17] XU Bing-lin, LI Zhan-huai.An anomaly detection method for spacecraft using ICA technology[C]//International Conference on Advanced Computer Science and Electronics Information. Beijing: [s.n.], 2013: 50-54.
編 輯 稅 紅
Study of Outlier Data Mining Algorithm Based on ICA
WANG Li-jun1,2,3, HE Zheng-wei1, and FENG Ping-xing3
(1. State Key Laboratory of Geohazard Prevention and Geoenvironment Protection, Chengdu University of Technology Chengdu 610059; 2. College of Geophysics, Chengdu University of Technology Chengdu 610059; 3. Chengdu College of University of Electronic Science and Technology of China Chengdu 610051)
In the traditional study of independent component analysis (ICA), the outlier data had not been considered. This paper proposes a method based on influence function to find the outliers from the observed data in ICA. General, outliers have a significant influence on the separation performance of ICA. Using the influence functions to project the observed data, the impulsive noisy components which mixed in the observed data can be eliminated from the normal data. The experimental results demonstrate the effectiveness of proposed method.
abnormal data mining; blind source separation; impulse noise; independent component analysis; signal processing
TP391,TN911.7
A
10.3969/j.issn.1001-0548.2015.02.009
2014-10-09;
2015-01-12
高等學(xué)校博士學(xué)科點專項科研基金(20095122110003);地質(zhì)災(zāi)害防治與地質(zhì)環(huán)境保護(hù)國家重點實驗室開放基金(SKLGP2011Z005);四川省教育廳自然科學(xué)項目(12ZB233)
王莉君(1983-),女,博士生,主要從事數(shù)據(jù)挖掘方面的研究.