段淑敏
(開封大學(xué),河南 開封 475000)
時間序列數(shù)據(jù)挖掘關(guān)鍵問題分析
段淑敏
(開封大學(xué),河南開封475000)
[摘要]時間序列作為當(dāng)前人們生產(chǎn)和生活中常見的一類數(shù)據(jù)形式,被廣泛應(yīng)用于經(jīng)濟(jì)管理和工程設(shè)計等領(lǐng)域中。由于其本身所具備的動態(tài)性、繁雜性和高維性以及大規(guī)模的特征,所以如果直接對其進(jìn)行數(shù)據(jù)挖掘,則不僅會花費高昂的價格來儲存和計算相關(guān)數(shù)據(jù),而且會影響算法的可靠性和準(zhǔn)確性。本文以時間序列數(shù)據(jù)挖掘為研究對象,就其在實際應(yīng)用中的幾個關(guān)鍵問題進(jìn)行了探究。
[關(guān)鍵詞]數(shù)據(jù)挖掘;時間序列;數(shù)據(jù)庫
[DOI]10.13939/j.cnki.zgsc.2016.03.038
在數(shù)據(jù)庫技術(shù)迅猛發(fā)展和數(shù)據(jù)庫管理系統(tǒng)日臻完善的今天,數(shù)據(jù)庫的規(guī)模與日俱增,數(shù)量不斷增多,并且這些激增的數(shù)據(jù)中包含著非常重要的信息,所以傳統(tǒng)的數(shù)據(jù)庫存儲和查詢方法已經(jīng)無法滿足人們對數(shù)據(jù)中隱含知識的渴求。而時間序列數(shù)據(jù)挖掘技術(shù)則可以有效地解決上述問題,并且可以在確保數(shù)據(jù)挖掘可靠性和準(zhǔn)確性的基礎(chǔ)上大大降低運行成本。因此,對于時間序列數(shù)據(jù)挖掘在實踐應(yīng)用中的關(guān)鍵問題進(jìn)行分析和探究具有非常重要的意義。
1時間序列數(shù)據(jù)挖掘概述
1.1時間序列數(shù)據(jù)挖掘的含義
通常而言,各個數(shù)據(jù)單元均可以由一個數(shù)據(jù)變量和時間變量所組成的二元組來加以表示,比如股票價格和商品的銷售金額等,所以可以將這些數(shù)據(jù)按照時間的順序加以排列,這樣就構(gòu)成了所謂的時間序列數(shù)據(jù)庫。在這些時間序列數(shù)據(jù)中包含著許多未知的有用信息,具有很高的挖掘價值。而時間序列數(shù)據(jù)挖掘就是從這些大型的時間序列數(shù)據(jù)庫中找到人們所需要的各種有用數(shù)據(jù)。
1.2時間序列數(shù)據(jù)挖掘的內(nèi)容
在對當(dāng)前國內(nèi)外就時間序列數(shù)據(jù)挖掘方面的研究進(jìn)行分析,可以將其歸納為時間序列數(shù)據(jù)變換、時間序列數(shù)據(jù)可視化、時間序列數(shù)據(jù)庫相似搜索、時間序列聚類分類分析、時間序列預(yù)測以及時間序列分割與模式發(fā)現(xiàn)等幾個主要的組成部分。其中的時間序列數(shù)據(jù)變換實際上就是將原始狀態(tài)下所對應(yīng)的時間序列在某個特征空間下的映像時間序列來對最初的原始時間序列進(jìn)行描述,其可以有效地減少計算所花費的成本,并且實際的數(shù)據(jù)壓縮率更高;時間序列數(shù)據(jù)可視化則是將那些繁雜的時間序列在數(shù)據(jù)挖掘技術(shù)、虛擬現(xiàn)實技術(shù)以及圖形圖像技術(shù)等先進(jìn)技術(shù)的應(yīng)用下而變得直觀化、形象化,以便于人們更好地理解;時間序列聚類和分類分析則是根據(jù)時間粒度和模式長度的不同而將待處理的序列數(shù)據(jù)進(jìn)行適當(dāng)?shù)姆指詈途垲愄幚?以便于更好地進(jìn)行分析;時間序列數(shù)據(jù)庫相似搜索則是遵循相應(yīng)的搜索算法來對于那些相似性時間序列數(shù)據(jù)庫進(jìn)行搜索,以避免出現(xiàn)漏報問題;時間序列分割與模式發(fā)現(xiàn)主要用于時間序列的分割算法應(yīng)用中以及系統(tǒng)模型變化的檢測中,其已經(jīng)成為當(dāng)前我國在時間序列數(shù)據(jù)挖掘研究中的重要課題,具有很高的研究價值。
2時間序列數(shù)據(jù)挖掘中若干關(guān)鍵問題的分析
2.1傳統(tǒng)時間序列數(shù)據(jù)挖掘的過程和分類分析
首先,從數(shù)據(jù)挖掘的過程來講,傳統(tǒng)時間序列數(shù)據(jù)挖掘過程可以主要分成以下幾個步驟:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果分析和知識同化。其次,從數(shù)據(jù)挖掘的分類來講,時間序列數(shù)據(jù)挖掘的主要任務(wù)就是從龐大的數(shù)據(jù)庫中找尋到用戶所需的數(shù)據(jù)。根據(jù)數(shù)據(jù)挖掘作用模式的不同,可以將其分成分類模式、偏差分析和序列模式等預(yù)測性模式和關(guān)聯(lián)模式、聚類模式等描述型模式,并且描述型模式一般不能直接應(yīng)用于預(yù)測。而就具體的時間序列數(shù)據(jù)挖掘的分類而言,其主要包括分類模式、關(guān)聯(lián)規(guī)則、聚類模式偏差分析、序列模式和回歸模式等幾個部分,下面就這幾個部分的主要內(nèi)容進(jìn)行詳細(xì)的闡述。
第一,序列模式。序列模式是數(shù)據(jù)挖掘中一個非常重要的研究課題,其已經(jīng)廣泛應(yīng)用于各行各業(yè)中,比如疾病診斷、DNA序列分析、自然災(zāi)害預(yù)測、Web訪問模式的預(yù)測等,并且該種模式與管理規(guī)則之間比較類似,其也是重點把握數(shù)據(jù)間的聯(lián)系。但是為了發(fā)現(xiàn)序列模式,相關(guān)人員必須要確定事件有無發(fā)生以及事件發(fā)生的時間。比如,在購買彩色電視的人群中,有50%的人群會選擇在半年內(nèi)購買影碟機。
第二,關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則又被稱為管理模式,其實際上就是形如X→Y的邏輯關(guān)系式,并且其中的X和Y分別代表數(shù)據(jù)庫中屬性取值的判斷。在當(dāng)前的管理規(guī)則算法中,常用的關(guān)聯(lián)規(guī)則算法策略是將其分解成兩個主要的子任務(wù),即頻繁項集的產(chǎn)生和規(guī)則的產(chǎn)生。
第三,分類模式。分類的概念實際上就是在已有訓(xùn)練集或者數(shù)據(jù)集的基礎(chǔ)上來構(gòu)造一個分類模型或者分類函數(shù),并將其應(yīng)用于實際的數(shù)據(jù)預(yù)測中來確保數(shù)據(jù)的挖掘的質(zhì)量。
第四,回歸模式。與分類模式類似,回歸模式的函數(shù)定義也是借助相應(yīng)的數(shù)學(xué)集合模型來表示,但是其預(yù)測值是連續(xù)的,這點與分類模式預(yù)測值的離散性是相互區(qū)別的。
第五,偏差分析。在時間序列數(shù)據(jù)庫中不可避免地會出現(xiàn)一些異常的記錄,找出這些異常記錄在確保數(shù)據(jù)挖掘質(zhì)量方面具有重要的意義。偏差包含許多潛在的知識,比如分類中不規(guī)則的特例、反常實例或者偏差預(yù)測值過大的模型等。
第六,聚類模式。所謂的聚類實際上就是將一組時間序列數(shù)據(jù)按照差異性和相似性規(guī)程來進(jìn)行合適的分類,以盡可能地減小同類別數(shù)據(jù)間的差異性,增強他們之間的相似性,提高數(shù)據(jù)挖掘的質(zhì)量。
2.2傳統(tǒng)時間序列數(shù)據(jù)挖掘的方法分析
理論上來講,傳統(tǒng)時間序列數(shù)據(jù)挖掘方法主要包括決策樹方法、神經(jīng)網(wǎng)絡(luò)方法、粗集方法、遺傳算法、模糊集方法、統(tǒng)計分析方法、概念樹方法、可視化技術(shù)和貝葉斯網(wǎng)絡(luò)等幾種常用的數(shù)據(jù)挖掘方法。比如其中的神經(jīng)網(wǎng)絡(luò)方法具有自適應(yīng)性、自組織性和魯棒性好的優(yōu)勢,非常適合用于解決數(shù)據(jù)挖掘中存在的各種問題,是近些年人們關(guān)注度比較大的一種方式,并且其更加適合于當(dāng)前我國市場數(shù)據(jù)庫的建模與分析;概念樹方法則是對時間序列數(shù)據(jù)庫中記錄的屬性字段按照歸類的方法進(jìn)行抽象所得到的層次結(jié)構(gòu),這點與我國所指定的省市縣地區(qū)結(jié)構(gòu)分布類似;可視化技術(shù)則大大拓寬了我國傳統(tǒng)圖表所具有的功能,可以使人們更加清楚地剖析時間序列數(shù)據(jù),同時也可以更好地歸納數(shù)據(jù)中存在的規(guī)律性;粗集方法則是一種研究不確定、不精確數(shù)學(xué)知識的工具,其具有操作簡便、算法簡單等優(yōu)點,所以是當(dāng)前常用的一種方法。
2.3傳統(tǒng)時間序列數(shù)據(jù)挖掘的局限性
通常而言,建模是時間序列數(shù)據(jù)挖掘的前提和基礎(chǔ),但是所建模型大都局限于常參數(shù)、平穩(wěn)的單變量CARMA模型或ARMA模型,所以實際的數(shù)據(jù)挖掘過程中可能存在一定的誤差,準(zhǔn)確性和可靠性無法得以保證。另外,其局限性還表現(xiàn)為以下幾個方面:建模方法所采用的非線性最小二乘法或者最大似然法的計算量非常大,并且計算的可靠性比較低;沒有考慮到噪聲污染所對應(yīng)的時間序列,即數(shù)據(jù)的濾波問題沒有得到有效地估計處理;實際所用的分析方法主要為譜分析法(或頻域方法)等,所以為了確保結(jié)果的可靠性和準(zhǔn)確性,就必須要對這些局限性問題進(jìn)行切實解決。而現(xiàn)代時間序列數(shù)據(jù)挖掘方式則可以有效地突破上述傳統(tǒng)時間序列數(shù)據(jù)挖掘中存在的種種局限點,不僅可以簡化建模及其計算的方法,也可以用新型的新息方法和狀態(tài)空間方法來取代傳統(tǒng)時間序列,還可以有效地應(yīng)用自校正和自適應(yīng)預(yù)測原理來分析現(xiàn)代時間序列,同時也可以有效地提升時間序列挖掘的質(zhì)量。因此,在實際的應(yīng)用中,相關(guān)人員必須要不斷發(fā)展、改造和創(chuàng)新時間序列的分析方式和手段。
總之,隨著數(shù)據(jù)收集技術(shù)和存儲技術(shù)的快速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的日臻完善,人們所積累的數(shù)據(jù)也越來越多,同時這些與日俱增的數(shù)據(jù)背后也涵蓋了大量的重要數(shù)據(jù)信息,但是傳統(tǒng)的時間序列數(shù)據(jù)挖掘手段卻無法深入分析這些數(shù)據(jù)。因此,相關(guān)人員必須要采用現(xiàn)代時間序列數(shù)據(jù)挖掘手段,同時要不斷完善和創(chuàng)造新的方法,從而更好地使用當(dāng)前與日倶增的時間序列數(shù)據(jù)。
參考文獻(xiàn):
[1]劉勁松.數(shù)據(jù)挖掘中的現(xiàn)代時間序列分析方法[J].信息技術(shù),2014,11(7):100-102.
[2]賈澎濤.時間序列數(shù)據(jù)挖掘綜述[J].計算機應(yīng)用研究,2015,24(11):15-17.
[3]武紅江,趙軍平,等.基于波動特征的時間序列數(shù)據(jù)挖掘[J].控制與決策,2014,22(2):160-163.
[作者簡介]段淑敏,女,漢族,河南開封人,碩士研究生,講師。研究方向:數(shù)據(jù)挖掘,電子商務(wù)。