周曉園,余旌胡
(武漢理工大學 理學院,湖北 武漢 430070)
?
基于平穩(wěn)子空間分析和相對熵的分類算法
周曉園,余旌胡
(武漢理工大學 理學院,湖北 武漢 430070)
針對多維時間序列維數(shù)多、變量間關(guān)系復雜的特點,提出了一種基于平穩(wěn)子空間分析和相對熵的分類算法。首先,利用平穩(wěn)子空間分析法將多維數(shù)據(jù)分離為平穩(wěn)子空間和非平穩(wěn)子空間;其次,利用相對熵衡量平穩(wěn)子空間的分布相似性;最后,進行真實數(shù)據(jù)集的分類。研究結(jié)果表明:平穩(wěn)子空間分析和相對熵分類算法優(yōu)于DTW算法和PCA-ED算法。
多維時間序列;平穩(wěn)子空間分析;相對熵;分類算法
多維時間序列在日常生活中普遍存在,其分類研究廣泛應(yīng)用于遙感圖像分類[1]、電腦圖分析[2]和航空機械設(shè)備的質(zhì)量評估[3]等領(lǐng)域中。因此,研究多維時間序列分類具有重大的現(xiàn)實意義。由于多維時間序列具有維數(shù)多和變量間關(guān)系復雜的特點,文獻[4]基于動態(tài)時間規(guī)整(dynamic time warping,DTW)的動態(tài)算法對多維時間序列進行了分類。DTW算法的缺點是運算量大、耗時長且匹配效果對端點的選擇過于依賴[5]。文獻[6]采用主成分分析(principal component analysis,PCA)對原始樣本進行降維,然后借助歐氏距離(Euclid distance,ED)將測試樣本歸入與其最近的類別中,減少了冗余信息造成的誤差,提高了分類精度。由于PCA計算簡單且能保留原始變量的重要信息,因此被應(yīng)用于人臉識別[7]和文本特征提取[8]等方面。PCA的缺點是需要很大的存儲空間和計算復雜度,且要求有足夠多的樣本點[9]。
針對DTW算法和PCA-ED算法對時間跨度小和樣本數(shù)量少的多維時間序列分類效果不佳的缺點,本文提出一種基于平穩(wěn)子空間分析[10](stationary subspace analysis,SSA)和相對熵(relative entropy)[11](KL距離)多維時間序列的分類算法,簡稱SSA-KL算法。SSA是由Bunau等提出的一種盲源分離方法,可以把多維時間序列分解為相互獨立的兩個部分:平穩(wěn)部分和非平穩(wěn)部分。SSA方法在故障診斷[12-13]等方面獲得了成功的應(yīng)用,而相對熵作為一種衡量相似度的方法也已被用于行為識別[14]等方面。
SSA-KL算法主要思想為:利用SSA方法對訓練集和測試集進行降維,在降維后的空間里,采用基于相對熵的近鄰法對測試樣本實現(xiàn)分類。該算法可描述為:針對訓練樣本利用SSA提取出各類時間序列的平穩(wěn)子空間和平穩(wěn)子空間的投影算子;針對測試樣本把投影算子作用在測試樣本上得到相應(yīng)類別的投影子空間;再利用相對熵衡量各類平穩(wěn)子空間的分布與測試樣本投影子空間分布的近似程度;最后把測試樣本歸入相對熵最小的平穩(wěn)子空間中,從而得到該測試樣本的類別。具體地講,本文采用如下步驟來完成多維時間序列的分類過程,這里c指類別的個數(shù)。
步驟Ⅰ:獲得c類多維時間序列。
步驟Ⅱ:將c類多維時間序列分為訓練集和測試集。
步驟Ⅲ:利用SSA求解每類訓練集平穩(wěn)子空間的投影算子和分布。
(1)
(2)
(3)
(4)
(5)
步驟Ⅳ:針對每類測試集中每個測試樣本,得到相應(yīng)類別的投影子空間。
(6)
(7)
步驟Ⅴ:將測試樣本分類。
(8)
根據(jù)分類步驟Ⅰ~Ⅴ,可以計算出分類正確率e,其計算公式為:
(9)
為了驗證SSA-KL算法對真實多維數(shù)據(jù)分類的有效性,分別采用DTW算法、PCA-ED算法和SSA-KL算法對機器人執(zhí)行失敗[15](robot execution failures,REF)數(shù)據(jù)集進行分類。其實驗環(huán)境為:Windows 7系統(tǒng),CPU 2.20 GHz,內(nèi)存2 GB,算法采用MATLAB 2011a平臺下的M語言實現(xiàn)。
REF數(shù)據(jù)集包含對機器人的力和力矩的測量,共有5個數(shù)據(jù)集:LP1、LP2、LP3、LP4和LP5。每個數(shù)據(jù)集包含6個變量,時間間隔均為15 ms。每個數(shù)據(jù)集的樣本數(shù)和分類數(shù)如表1所示。在實驗中5個數(shù)據(jù)集的每類訓練樣本和測試樣本的個數(shù)如表2所示。
表1 每個數(shù)據(jù)集的樣本數(shù)和分類數(shù)
注:括號內(nèi)的數(shù)字為所屬類包含的樣本數(shù)。
表2 5個數(shù)據(jù)集的每類訓練樣本和測試樣本的個數(shù)
PCA-ED算法分別提取前5個、前4個、前4個、前4個和前4個主成分(所有主成分的貢獻率都大于90%)。而SSA-KL算法對數(shù)據(jù)集LP1每類提取的平穩(wěn)信源個數(shù)分別為3個、4個、4個和3個;對數(shù)據(jù)集LP2每類提取的平穩(wěn)信源個數(shù)分別為3個、3個、3個、4個和3個;對數(shù)據(jù)集LP3每類提取的平穩(wěn)信源個數(shù)分別為4個、4個、4個和5個;對數(shù)據(jù)集LP4每類提取的平穩(wěn)信源個數(shù)分別為3個、4個和4個;對數(shù)據(jù)集LP5每類提取的平穩(wěn)信源個數(shù)分別為4個、4個、4個、4個和4個。這5個數(shù)據(jù)集的分類正確率如表3所示。
表3 5個數(shù)據(jù)集的分類正確率 %
從表3中可以看出:SSA-KL算法在數(shù)據(jù)集LP1、LP2、LP3、LP4和LP5的分類正確率最高,PCA-ED算法次之,DTW算法最低,表明SSA-KL算法的分類效果優(yōu)于DTW算法和PCA-ED算法。 可見,SSA-KL算法對此種時間跨度小和樣本數(shù)量少的數(shù)據(jù)具有一定的優(yōu)勢。DTW算法能有效地處理局部時間位移和時間跨度較大的多維時間序列,而本文數(shù)據(jù)集的時間跨度較小,因此DTW算法對于本文中的REF數(shù)據(jù)集分類效果不佳。PCA-ED算法是一種基于統(tǒng)計方法的分類算法,通常要求足夠的樣本點才能有效求得比較準確的主成分,并且它適應(yīng)于等時間跨度的大規(guī)模數(shù)據(jù)集,對小規(guī)模時間序列的分類效果不佳。而本文的SSA-KL算法的分類效果對訓練樣本個數(shù)的依賴程度不高,主要取決于對平穩(wěn)特征的有效提取程度。該算法獲取了每類樣本數(shù)據(jù)的時間不變量(即平穩(wěn)特征),準確描述了數(shù)據(jù)內(nèi)部的本質(zhì)結(jié)構(gòu)特征,也降低了原數(shù)據(jù)的維數(shù),減小了冗余信息所造成的誤差,進而提高了分類精度。因此,SSA-KL算法對每類數(shù)據(jù)集的分類正確率都優(yōu)于DTW算法和PCA-ED算法,克服了DTW算法和PCA-ED算法的缺陷。
本文研究了基于平穩(wěn)子空間分析和相對熵對多維時間序列的分類算法。SSA-KL算法利用SSA對多維時間序列進行降維處理,不僅節(jié)約了數(shù)據(jù)的存儲空間,而且獲取了數(shù)據(jù)中潛在的時間不變量。相對熵具有準確刻畫不同分布之間差異性的優(yōu)點,運用相對熵來處理所提取的平穩(wěn)子空間有助于得到更加準確的分類結(jié)果。針對時間跨度小、樣本數(shù)量少的多維時間序列,SSA-KL算法比DTW算法和PCA-ED算法的分類精度更高。由于SSA方法對平穩(wěn)信源的個數(shù)有一定的要求,選取不同的個數(shù)對分類精度會有所改變,本文并沒有作詳細解釋,以后可以從這個方面繼續(xù)研究,進一步提高SSA-KL算法的分類精度。
[1]胡偉強,鹿艷晶.遙感圖像分類方法綜述[J].中小企業(yè)管理與科技(下旬刊),2015(8):231.
[2]PAULVB,MEINECKEFC,SCHOLLERS,etal.FindingstationarybrainsourcesinEEGdata[C]//EngineeringinMedicineandBiologySociety(EMBC),2010AnnualInternationalConferenceoftheIEEE.IEEE,2010:2810-2813.
[3]王曉強,張東英,崔鳳奎.航空滾動軸承典型缺陷的分類識別[J].河南科技大學學報(自然科學版),2013,34(6):13-18.
[4]STEPHANS,JAINBJ,LUCAEWD,etal.Patternrecognitioninmultivariatetimeseries:dissertationproposal[C]//Proceedingsofthe4thWorkshoponWorkshopforPh.D.StudentsinInformation&KnowledgeManagement.ACM,2011:34-42.
[5]李正欣,張鳳鳴,李克武.多元時間序列模式匹配方法研究[J].控制與決策,2011,26(4):565-570.
[6]蘇靜,趙毅強,何家冀,等.旁路多維時間主成分分析的歐式距離硬件木馬檢測[J].微電子學與計算機,2015,32(1):1-4.
[7]倪世貴,白寶鋼.基于PCA的人臉識別研究[J].現(xiàn)代計算機(專業(yè)版),2011(3):44-47.
[8]洪軍建,珠杰.分塊主成分分析在文本特征抽取中的應(yīng)用[J].河南科技大學學報(自然科學版),2015,36(6):30-34.
[9]吳虎勝,張鳳鳴,鐘斌.基于二維奇異值分解的多元時間序列相似匹配方法[J].電子與信息學報,2014,36(4):847-854.
[10]PAULVB,FRANKCM,FRANZCK,etal.Findingstationarysubspacesinmultivariatetimeseries[J].Physicalreviewletters,2009,103(21):214101.
[11]田寶玉,楊潔,賀志強,等.信息論基礎(chǔ)[M].北京:人民郵電出版社,2008.
[12]嚴如強,錢宇寧,胡世杰,等.基于小波域平穩(wěn)子空間分析的風力發(fā)電機齒輪故障診斷[J].機械工程學報,2014,50:9-16.
[13]唐貴基,龐彬,劉尚坤.基于奇異差分譜和平穩(wěn)子空間分析的滾動軸承故障診斷[J].振動與沖擊,2015,34(11):83-87.
[14]曾青松,賀衛(wèi)國.基于相對熵度量的行為識別方法[J].河南科技大學學報(自然科學版),2009,30(6):53-55.
[15]LUISSL,LUISMCM.Robotexecutionfailuresdataset[EB/OL].(1999-04-23)[2016-02-10].http://archive.ics.uci.edu/ml/datasets/Robot+Execution+Failures.
國家自然科學基金項目(114331011);中央高?;究蒲袠I(yè)務(wù)費專項基金項目(2015-zy-115)
周曉園(1992-),女,河南伊川人,碩士生;余旌胡(1967-),女,湖南岳陽人,教授,博士,碩士生導師,主要研究方向為馬氏過程及其應(yīng)用、統(tǒng)計學習理論與方法.
2016-02-26
1672-6871(2016)06-0042-04
10.15926/j.cnki.issn1672-6871.2016.06.009
TP391
A