李建平 王興偉 馬連博 黃敏
摘? ?要:時(shí)間序列分類是時(shí)間序列數(shù)據(jù)挖掘的一個(gè)分支,針對(duì)傳統(tǒng)時(shí)間序列分類模型存在的失真的問題,文章提出了基于區(qū)間權(quán)值的集成算法EAIW(Ensemble Algorithm of Interval Weights)。首先利用區(qū)間權(quán)值計(jì)算方法,為時(shí)間序列的不同區(qū)間賦予不同的權(quán)值,對(duì)計(jì)算做了并行化處理,以解決子序列特征不明顯的問題。進(jìn)而確定集成分類器的基分類器,以保證集成分類器的性能。然后,在訓(xùn)練集上訓(xùn)練集成分類器,并行化改進(jìn)集成分類器訓(xùn)練、分類較為耗時(shí)的部分。文章將提出的算法在時(shí)間序列分類數(shù)據(jù)庫上進(jìn)行了實(shí)驗(yàn),結(jié)果表明提出的算法比基準(zhǔn)算法最優(yōu)正確率數(shù)目高25%,并且算法在并行化之后具備可伸縮性。
關(guān)鍵詞:時(shí)間序列;分類;數(shù)據(jù)挖掘;CUDA
1 引言
時(shí)間序列是以均勻時(shí)間間隔連續(xù)測(cè)量的多個(gè)實(shí)值數(shù)的序列,一般被認(rèn)為是一個(gè)整體,而不是單獨(dú)的數(shù)值字段[1,2]。時(shí)間序列可以反映事物的變化與發(fā)展,其廣泛存在于各行各業(yè),如生物信息學(xué)、金融學(xué)、工程學(xué)。時(shí)間序列數(shù)據(jù)挖掘可以分為分類、聚類、檢索、預(yù)測(cè)、頻繁模式發(fā)現(xiàn)[3]。本文主要研究時(shí)間序列分類。
傳統(tǒng)的時(shí)間序列分析模型的建立依賴于嚴(yán)密的數(shù)學(xué)理論與假設(shè),僅在假設(shè)合理時(shí)傳統(tǒng)方法才有效,否則所建立的模型將面臨嚴(yán)重失真的問題。與傳統(tǒng)的時(shí)間序列分析不同的是,時(shí)間序列數(shù)據(jù)挖掘不需要具備嚴(yán)格的數(shù)學(xué)理論以及平穩(wěn)、線性且符合正態(tài)分布等假設(shè),它可以根據(jù)經(jīng)驗(yàn),發(fā)現(xiàn)數(shù)據(jù)中存在的新的有價(jià)值的模式、信息等。
本文主要工作是,為時(shí)間序列區(qū)間賦予權(quán)值,采用集成分類的算法,通過權(quán)值對(duì)時(shí)間序列進(jìn)行分類。此外,針對(duì)分類器訓(xùn)練、預(yù)測(cè)運(yùn)行時(shí)間較長的問題,基于CUDA[4],對(duì)本文的分類器中較為耗時(shí)的部分進(jìn)行了并行化改進(jìn)。
2 相關(guān)工作
近年來,提出了許多不同的時(shí)間序列分類算法。Kate[3]通過計(jì)算測(cè)試集中時(shí)間序列與訓(xùn)練集中所有時(shí)間序列的DTW(Dynamic Time Warping)距離,并將其作為該時(shí)間序列的特征,再將該特征輸入至分類器中,以達(dá)到對(duì)時(shí)間序列分類的目的。Ye等人[5]提出了基于時(shí)間序列shapelets構(gòu)建決策樹的分類算法。Fang Z等人[6]對(duì)Ye等人的算法進(jìn)行了改進(jìn)。首先從分段聚合近似(Piecewise Aggregate Approximation,PAA)詞空間中發(fā)現(xiàn)shapelet候選詞,然后引入覆蓋度的概念來度量候選對(duì)象的質(zhì)量,并設(shè)計(jì)了一種計(jì)算shapelet的最佳數(shù)量的方法解釋分類決策。Fulcher等人[7]通過從時(shí)間序列分析文獻(xiàn)中的上千種特征中選擇最具判別性的特征集,來解決時(shí)間序列分類問題。Hatami等人[8]使用遞歸圖(recurrence plot)把序列轉(zhuǎn)化為紋理圖像,再基于特征袋(Bag of Features,BoF)方法對(duì)它們進(jìn)行分類。Ergezer H等人[9]提出了一種利用特征協(xié)方差矩陣進(jìn)行時(shí)間序列分類的新方法。Silva等人[10]指出DTW距離計(jì)算中存在的問題,為解決該問題,忽略DTW距離計(jì)算中首尾的一小部分,通過引入一個(gè)參數(shù)來描述忽略部分的多少,解決該問題。
基于集成學(xué)習(xí)的分類算法,Sch?fer[11]提出了BOSS(Bag-of-SFA-Symbols)算法,通過對(duì)時(shí)間序列的子序列應(yīng)用SFA[12],其可以獲得一種對(duì)噪聲與冗余數(shù)據(jù)容忍度較高的時(shí)間序列模型,并基于該模型構(gòu)建多個(gè)分類器對(duì)時(shí)間序列進(jìn)行分類。
本文主要貢獻(xiàn):(1)引入時(shí)間序列區(qū)間權(quán)值,使子序列更有區(qū)分度;(2) 使用GPU,對(duì)區(qū)間權(quán)值計(jì)算過程與集成分類器訓(xùn)練過程做出并行化改進(jìn)。對(duì)時(shí)間序列進(jìn)行分類時(shí),目前許多研究只采用單一分類器,效率低下。另一些研究雖然采用集成分類器,但時(shí)間序列的特征選擇不佳,導(dǎo)致算法正確率低下。因此,選用時(shí)間序列區(qū)間權(quán)值作為分類特征,采用集成算法,對(duì)時(shí)間序列分類,提高了分類正確率。
3 區(qū)間權(quán)值計(jì)算
3.1 最近鄰算法
在時(shí)間序列研究中,常用的基準(zhǔn)算法就是最近鄰算法(1 Nearest Neighbor,1NN),下面對(duì)其進(jìn)行簡要介紹。
給定訓(xùn)練集,其中包含條時(shí)間序列,分別屬于個(gè)類別,定義待分類時(shí)間序列到訓(xùn)練集中時(shí)間序列的距離為:。若滿足公式(1),則最鄰近分類器認(rèn)為待分類時(shí)間序列的類別為。
(1)最近鄰算法常用的距離度量有兩種,分別為歐幾里得距離(Euclidean Distance,ED)與DTW距離。在本文中使用歐幾里得距離進(jìn)行區(qū)間權(quán)值計(jì)算,使用DTW距離算法作為基分類器的算法。
3.2 權(quán)值的計(jì)算
在一些數(shù)據(jù)集中,當(dāng)時(shí)間索引處于某些區(qū)間內(nèi)時(shí),數(shù)據(jù)集中各個(gè)類別的時(shí)間序列的子序列不具有能夠顯著區(qū)分類別的特征。比如在一些區(qū)間內(nèi),數(shù)據(jù)受到了較多的噪聲的干擾。而在另一些區(qū)間內(nèi),可能會(huì)存在能夠較好地區(qū)分不同類別的特征。面臨這樣的數(shù)據(jù)集時(shí),該分類器的分類準(zhǔn)確率會(huì)下降。
為了解決上述問題,本文為時(shí)間序列的不同區(qū)間賦予不同的權(quán)值,該權(quán)值代表了其區(qū)分?jǐn)?shù)據(jù)集中不同類別時(shí)間序列的能力。權(quán)值越大,表示該區(qū)間區(qū)分類別的能力越強(qiáng),反之則越小。并將時(shí)間序列區(qū)間的權(quán)值作為相應(yīng)的基分類器的權(quán)值。
若某一區(qū)間內(nèi)存在較多能夠區(qū)分不同類別的特征,則分類器在該區(qū)間上的分類準(zhǔn)確率必然較高,反之分類準(zhǔn)確率會(huì)較低。因此,使用分類準(zhǔn)確率作為區(qū)間的權(quán)值是合理的。1NN-ED分類器與本文基分類器所采用的1NN-DTW分類器較為接近,因此使用其計(jì)算區(qū)間的權(quán)值,能夠近似地反映該區(qū)間作為1NN-DTW的訓(xùn)練集使用時(shí)的分類能力。此外,歐幾里得距離與DTW距離相比,計(jì)算時(shí)的時(shí)間復(fù)雜度較低,對(duì)于需要計(jì)算訓(xùn)練集中全部區(qū)間的權(quán)值的EAIW算法而言,能夠減少訓(xùn)練時(shí)間。
時(shí)間序列區(qū)間的示意圖如圖1所示,[ta,tb]為一個(gè)區(qū)間,對(duì)應(yīng)了圖中時(shí)間序列的一條子序列。
在給出計(jì)算時(shí)間序列區(qū)間的權(quán)值的算法之前,首先給出時(shí)間序列區(qū)間的定義。
定義1 時(shí)間序列區(qū)間:給定時(shí)間序列,其中時(shí)間索引,將[ta,tb]稱為時(shí)間序列區(qū)間,其中,且a < b。
本文中的時(shí)間序列區(qū)間的權(quán)值是指時(shí)間序列數(shù)據(jù)集的訓(xùn)練集的子集的權(quán)值,該子集由訓(xùn)練集中處于該區(qū)間內(nèi)的所有時(shí)間序列的子序列所構(gòu)成,且該子集被用做基分類器的訓(xùn)練集。本文所采用的時(shí)間序列數(shù)據(jù)集中的所有時(shí)間序列的長度均相等,因此某一條時(shí)間序列的區(qū)間也可以對(duì)應(yīng)其他時(shí)間序列相同位置的區(qū)間,從而構(gòu)成訓(xùn)練集在該區(qū)間上的子集。該權(quán)值在分類器訓(xùn)練時(shí)得出,用于后續(xù)的預(yù)測(cè)類標(biāo)號(hào)的過程中。下面給出時(shí)間序列區(qū)間的權(quán)值的形式化定義。
定義2 時(shí)間序列區(qū)間的權(quán)值:給定時(shí)間序列數(shù)據(jù)集的訓(xùn)練集,其在區(qū)間[ta,tb]上的子集為,,該子集所對(duì)應(yīng)的權(quán)值為,將該權(quán)值稱為時(shí)間序列區(qū)間的權(quán)值。
為了能夠反映某一區(qū)間區(qū)分不同類別的時(shí)間序列的能力大小,同時(shí)充分利用訓(xùn)練集,本文采用了留一交叉驗(yàn)證(leave-one-out cross validation)的思想,來計(jì)算區(qū)間的權(quán)值。留一交叉驗(yàn)證的示意圖如圖2所示。對(duì)于區(qū)間[ta,tb],計(jì)算其權(quán)值如公式(4)所示:
3.3 計(jì)算并行化
本文引入權(quán)值矩陣W來記錄每個(gè)GPU線程的計(jì)算結(jié)果,線程的計(jì)算結(jié)果記錄在W的元素中。同時(shí)該矩陣也能夠?yàn)镚PU線程指示其需要計(jì)算的區(qū)間。每個(gè)GPU線程僅計(jì)算一個(gè)區(qū)間的權(quán)值。區(qū)間與W的行號(hào)、列號(hào)的對(duì)應(yīng)關(guān)系如公式(5)、公式(6)所示:
4.1 基于區(qū)間的基分類器
本文提出的EAIW算法是一種集成算法,對(duì)于時(shí)間序列長度為m的數(shù)據(jù)集,則集成分類器由m-1個(gè)構(gòu)造相似的基分類器所構(gòu)成。由于時(shí)間序列長度m可能很大,造成基分類器數(shù)量較多,因此在選擇基分類器時(shí)要遵循三個(gè)基本要求。
(1)簡單有效。由于集成分類器中可能存在較多基分類器,因而要求基分類器結(jié)構(gòu)要簡單,以免造成分類算法運(yùn)行時(shí)間過長的問題。簡單的同時(shí),還要保證算法的有效性,基分類器的分類準(zhǔn)確率也要高。
(2)非參數(shù)。在時(shí)間序列分類的相關(guān)文獻(xiàn)中,常用于確定分類器參數(shù)的方法為交叉驗(yàn)證,此方法十分耗費(fèi)時(shí)間。對(duì)于每個(gè)存在參數(shù)的基分類器,都需要使用交叉驗(yàn)證來確定其參數(shù),這對(duì)于內(nèi)部存在較多基分類器的集成分類器而言,是不可取的。
(3)基于實(shí)例。基于實(shí)例的分類器無需經(jīng)過訓(xùn)練就可以直接對(duì)時(shí)間序列進(jìn)行分類,能有效地提高集成分類器的效率。
根據(jù)上述三點(diǎn)要求,因此選擇1NN分類器作為基分類器。在1NN分類器的距離度量方面,選擇DTW作為其距離度量。與歐幾里得距離相比,DTW距離能夠更加有效地應(yīng)對(duì)時(shí)間序列中特征的形變,從而提高分類準(zhǔn)確率。
4.2 訓(xùn)練集成分類器
本文提出的EAIW算法在對(duì)測(cè)試集進(jìn)行分類之前,需要在訓(xùn)練集上進(jìn)行訓(xùn)練。在訓(xùn)練過程開始之前,首先對(duì)訓(xùn)練集中的時(shí)間序列進(jìn)行z-score標(biāo)準(zhǔn)化。z-score標(biāo)準(zhǔn)化是時(shí)間序列分類文獻(xiàn)中常用的數(shù)據(jù)預(yù)處理方法,該方法將一條時(shí)間序列中的數(shù)據(jù)點(diǎn)的均值化為0,標(biāo)準(zhǔn)差化為1。將序列標(biāo)準(zhǔn)化,以便使時(shí)間序列之間的距離能夠反映它們之間的相似程度。接下來EAIW算法需要計(jì)算訓(xùn)練集上所有區(qū)間的權(quán)值,其遍歷所有區(qū)間的方式為,對(duì)于任一時(shí)間索引 ,將其作為區(qū)間的左端點(diǎn),從最小的區(qū)間長度2開始,每次為區(qū)間長度增加1,直至區(qū)間的右端點(diǎn)等于時(shí)間序列的長度m,計(jì)算區(qū)間的權(quán)值weight。這一過程的示意圖如圖3 所示。
該過程與使用不同長度的滑動(dòng)窗口獲取全部區(qū)間相比,更有利于后續(xù)的并行化。對(duì)于時(shí)間序列長度為m的數(shù)據(jù)集,此過程會(huì)計(jì)算全部m(m-1)/2個(gè)區(qū)間的權(quán)值,如果產(chǎn)生與之相同數(shù)量的基分類器,則后續(xù)的分類過程將會(huì)十分耗時(shí)。因此EAIW算法僅使用某一時(shí)間索引產(chǎn)生的具有最高權(quán)值的區(qū)間來構(gòu)建基分類器,該區(qū)間以及其權(quán)值記錄在訓(xùn)練結(jié)果 中。這樣可以提高基分類器的質(zhì)量,提升分類準(zhǔn)確率;同時(shí)又能夠減少基分類器的數(shù)量,降低集成分類器對(duì)測(cè)試集分類時(shí)所需的時(shí)間。EAIW算法的總體示意圖如圖4 所示。
在對(duì)測(cè)試集分類之前,與訓(xùn)練時(shí)相同,首先對(duì)其進(jìn)行z-score標(biāo)準(zhǔn)化。第i個(gè)基分類器在對(duì)測(cè)試集進(jìn)行分類時(shí),不對(duì)整個(gè)測(cè)試集中的時(shí)間序列進(jìn)行類標(biāo)號(hào)預(yù)測(cè),而是預(yù)測(cè)其區(qū)間[[i][1][1],? [i][1][2]]所對(duì)應(yīng)的測(cè)試集的子集的類標(biāo)號(hào)?;诸惼鞯慕Y(jié)合策略為加權(quán)投票,對(duì)于第i個(gè)基分類器,其權(quán)值為[i][2]。EAIW算法對(duì)測(cè)試集進(jìn)行分類的偽代碼如算法4所示。
4.3 并行化集成分類器
集成分類器的并行化方案為每個(gè)GPU線程使用第j個(gè)基分類器預(yù)測(cè)測(cè)試集中時(shí)間序列的類標(biāo)號(hào)。為此引入矩陣P來記錄GPU線程預(yù)測(cè)的類標(biāo)號(hào),P的行數(shù)為k,與測(cè)試集中時(shí)間序列的數(shù)量相對(duì)應(yīng),P的列數(shù)為m-1,與基分類器數(shù)量相對(duì)應(yīng)。P中元素記錄預(yù)測(cè)出的類標(biāo)號(hào)。并行集成分類器的核函數(shù)的偽代碼如算法5所示。
計(jì)算DTW距離時(shí)需要構(gòu)建矩陣,該矩陣所需的空間為,現(xiàn)今所有支持CUDA的GPU的線程本地內(nèi)存(local memory per thread)僅為512KB,該空間開銷對(duì)于單個(gè)GPU線程而言過于龐大。例如,當(dāng)時(shí)間序列的長度為512,時(shí)間序列中的數(shù)據(jù)使用單精度浮點(diǎn)數(shù)(占用4字節(jié))存儲(chǔ)時(shí),則計(jì)算DTW距離需要至少1MB的內(nèi)存空間,大于GPU線程的本地內(nèi)存。因此本文使用降低了空間復(fù)雜度的DTW距離,使用它可以使本文中所用到的時(shí)間序列長度最長的數(shù)據(jù)集所需的空間小于512KB。
矩陣P計(jì)算完成后,對(duì)其每行由基分類器集合得到的結(jié)果進(jìn)行加權(quán)投票,對(duì)應(yīng)的基分類器的權(quán)值為。該過程結(jié)束后,可得到測(cè)試集中每條時(shí)間序列的預(yù)測(cè)類標(biāo)號(hào)。
5 性能評(píng)價(jià)
5.1 實(shí)驗(yàn)環(huán)境
本文算法實(shí)現(xiàn)環(huán)境為Intel(R) Core(TM) i7-8700 CPU @ 3.2GHz,24.00G 內(nèi)存,GP107 型GPU。算法基于Python實(shí)現(xiàn),以PyCharm為主要開發(fā)工具,在Windows 10平臺(tái)下調(diào)試運(yùn)行。
算法實(shí)現(xiàn)中所用到的庫主要包括:NumPy、SciPy以及Numb等。其中Numba用于將Python代碼編譯為CUDA核函數(shù)以及設(shè)備函數(shù)。
5.2 算法分類準(zhǔn)確率評(píng)價(jià)
5.2.1 數(shù)據(jù)集
本文使用UEA&UCR時(shí)間序列分類數(shù)據(jù)庫中的數(shù)據(jù)集,該數(shù)據(jù)庫中共包含85個(gè)數(shù)據(jù)集,這些數(shù)據(jù)集被近年來的許多時(shí)間序列分類文獻(xiàn)所采用。本文將這些數(shù)據(jù)集分為兩個(gè)部分,一部分用于確定集成算法EAIW中結(jié)合策略的參數(shù),稱為train;另一部分用于與其他算法進(jìn)行分類準(zhǔn)確率的對(duì)比,稱為test。
train與test的劃分原則是,使它們中的數(shù)據(jù)集的數(shù)量盡可能相等,且TSCI的分布近似相同。這樣可以避免引入額外的偏差,影響最終結(jié)果。
5.2.2 分類準(zhǔn)確率
本節(jié)將EAIW與基準(zhǔn)算法1NN以及BOP算法進(jìn)行分類準(zhǔn)確率對(duì)比,如表1所示。其中1NN-ED與1NN-DTW分別采用的是歐幾里得距離與DTW距離。BOP算法基于時(shí)間序列的詞袋表示。分類準(zhǔn)確率為分類正確的時(shí)間序列數(shù)量與測(cè)試集中時(shí)間序列總數(shù)之比。
由表1可知,四者的最優(yōu)個(gè)數(shù)分別為15、10、12、7,因此本文提出的算法的最優(yōu)正確率數(shù)目比基準(zhǔn)算法高25%以上,43個(gè)數(shù)據(jù)集的平均準(zhǔn)確率為0.763、0.743、0.760、0.729,本文提出的算法依然最高,這說明了本文算法的有效性。
5.3 算法運(yùn)行時(shí)間評(píng)價(jià)
5.3.1 數(shù)據(jù)集
影響本文提出算法的運(yùn)行時(shí)間的因素主要包括:訓(xùn)練集大小、測(cè)試集大小以及時(shí)間序列長度,本文從這三個(gè)方面來評(píng)價(jià)并行化改進(jìn)后算法的運(yùn)行時(shí)間。使用UEA&UCR數(shù)據(jù)庫中的第5個(gè)數(shù)據(jù)集WormsTwoClass,評(píng)價(jià)時(shí)間序列長度對(duì)算法運(yùn)行時(shí)間的影響,并將數(shù)據(jù)集的訓(xùn)練集與測(cè)試集大小擴(kuò)充為前文中提及的85個(gè)數(shù)據(jù)集相應(yīng)部分的平均值,訓(xùn)練集的平均大小為529,測(cè)試集的平均大小為1068。時(shí)間序列的長度范圍為100至900,記錄每個(gè)時(shí)間序列長度對(duì)應(yīng)的算法的訓(xùn)練時(shí)間、分類時(shí)間以及總運(yùn)行時(shí)間。使用UEA&UCR數(shù)據(jù)庫中的第13個(gè)數(shù)據(jù)集Ham,評(píng)價(jià)訓(xùn)練集大小與測(cè)試集大小對(duì)運(yùn)行時(shí)間的影響。該數(shù)據(jù)集的時(shí)間序列長度為431,接近85個(gè)數(shù)據(jù)集的平均時(shí)間序列長度為422。訓(xùn)練集與測(cè)試集的大小范圍為100至900,記錄每個(gè)訓(xùn)練集與測(cè)試集大小對(duì)應(yīng)的算法的訓(xùn)練時(shí)間、分類時(shí)間以及總運(yùn)行時(shí)間。在上述兩個(gè)評(píng)價(jià)過程中,如果所用的數(shù)據(jù)集的訓(xùn)練集或測(cè)試集的大小不能滿足實(shí)驗(yàn)要求,則使用其訓(xùn)練集中的第一條時(shí)間序列與其對(duì)應(yīng)的類標(biāo)簽將訓(xùn)練集或測(cè)試集擴(kuò)充至指定大小。
5.3.2 運(yùn)行時(shí)間評(píng)價(jià)
并行化改進(jìn)后的EAIW算法的運(yùn)行時(shí)間隨時(shí)間序列長度的變化如圖5所示。由圖5可知,隨著時(shí)間序列長度的增加,訓(xùn)練時(shí)間、分類時(shí)間以及總時(shí)間的增長均較為緩慢。訓(xùn)練時(shí)間總體上低于分類時(shí)間,這是由于訓(xùn)練時(shí)的區(qū)間權(quán)值計(jì)算使用了時(shí)間復(fù)雜度較低的歐幾里得距離,而分類時(shí)采用了時(shí)間復(fù)雜度較高的DTW距離所導(dǎo)致的。圖5表明并行化改進(jìn)后的EAIW算法的運(yùn)行時(shí)間具備對(duì)于時(shí)間序列長度的可伸縮性。
并行化改進(jìn)后的EAIW算法的運(yùn)行時(shí)間隨訓(xùn)練集與測(cè)試集大小的變化如圖6所示。由圖6 可知,隨著訓(xùn)練集與測(cè)試集大小的增長,并行化改進(jìn)后的EAIW算法的訓(xùn)練時(shí)間的增長幅度較小,說明算法對(duì)訓(xùn)練集與測(cè)試集大小具有可伸縮性;而分類時(shí)間與總運(yùn)行時(shí)間的增長幅度較大。這說明分類耗時(shí)對(duì)于時(shí)間序列長度的增加較不敏感,而對(duì)于訓(xùn)練集與測(cè)試集大小的增加較為敏感。其原因在于分類時(shí)使用的基分類器是基于實(shí)例的,且計(jì)算DTW距離的時(shí)間復(fù)雜度較高,因此每個(gè)基分類器的分類耗時(shí)會(huì)隨訓(xùn)練集大小而較快地增加,導(dǎo)致總分類時(shí)間的增加。同時(shí)測(cè)試集的增加又進(jìn)一步增加了分類耗時(shí),這兩個(gè)因素導(dǎo)致了分類時(shí)間對(duì)于訓(xùn)練集與測(cè)試集大小的增加較為敏感。
6 結(jié)束語
時(shí)間序列是一種日常生活中廣泛存在的數(shù)據(jù)形式,在時(shí)間序列數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘可以發(fā)現(xiàn)一些新的知識(shí)與模式。本文針對(duì)傳統(tǒng)分類算法存在的失真問題,提出了基于區(qū)間的集成分類算法EAIW,并在時(shí)間序列分類文獻(xiàn)中常用的數(shù)據(jù)集上,對(duì)本文提出的算法進(jìn)行了實(shí)驗(yàn),與其他算法進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果顯示算法準(zhǔn)確率優(yōu)于基準(zhǔn)算法。針對(duì)多分類器訓(xùn)練、預(yù)測(cè)運(yùn)行時(shí)間較長的問題,對(duì)本文的分類器中較為耗時(shí)的部分進(jìn)行了基于CUDA并行化改進(jìn),算法具備可伸縮性。
基金項(xiàng)目:
1.國家自然科學(xué)基金資助項(xiàng)目(項(xiàng)目編號(hào):61872073,61572123);
2.遼寧省高校創(chuàng)新團(tuán)隊(duì)支持計(jì)劃資助項(xiàng)目(項(xiàng)目編號(hào):LT2016007)。
參考文獻(xiàn)
[1] Fu T. A review on time series data mining[J]. Engineering Applications of Artificial Intelligence, 2011, 24(1): 164-181.
[2] Ma L.B , A Novel Many-objective Evolutionary Algorithm Based on Transfer Learning with Kriging model, Information Sciences,2019, DOI: 10.1016/j.ins.2019.01.030.
[3] Kate R J. Using dynamic time warping distances as features for improved time series classification[J]. Data Mining & Knowledge Discovery, 2015, 30(2): 283-312.
[4] NVIDIA Developer Zone, CUDA toolkit documentation[EB/OL]. https://docs.nvidia.com/cuda/cuda-c-programming-guide/, 2018.
[5] Ye L, Keogh E. Time series shapelets: a new primitive for data mining[C]//Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2009: 947-956.
[6] Fang Z, Wang P, Wang W. Efficient Learning Interpretable Shapelets for Accurate Time Series Classification[C]//2018 IEEE 34th International Conference on Data Engineering (ICDE). IEEE, 2018: 497-508.
[7] Fulcher B D, Jones N S. Highly comparative feature-based time-series classification[J]. IEEE Transactions on Knowledge & Data Engineering, 2014, 26(12): 3026-3037.
[8] Hatami N, Gavet Y, Debayle J. Bag of recurrence patterns representation for time-series classification[J]. Pattern Analysis & Applications, 2018: 1-11.
[9] Ergezer H, Leblebicio?lu K. Time series classification with feature covariance matrices[J]. Knowledge and Information Systems, 2018, 55(3): 695-718.
[10] Silva D F, Batista G E A P A, Keogh E. Prefix and suffix invariant dynamic time warping[C]. IEEE International Conference on Data Mining, 2017: 1209-1214.
[11] Sch?fer P. The BOSS is concerned with time series classification in the presence of noise[J]. Data Mining and Knowledge Discovery, 2015, 29(6): 1505-1530.
[12] Sch?fer P. SFA: a symbolic fourier approximation and index for similarity search in high dimensional datasets[C]. International Conference on Extending Database Technology, 2012: 516-527.