引言:作為一個(gè)新興的研究領(lǐng)域,自從20世紀(jì)80年代開(kāi)始以來(lái),數(shù)據(jù)挖掘已經(jīng)取得了顯著進(jìn)展并且涵蓋了廣泛的應(yīng)用。今天,數(shù)據(jù)挖掘已經(jīng)被應(yīng)用到了眾多的領(lǐng)域,同時(shí)出現(xiàn)了大量的商品話的數(shù)據(jù)挖掘系統(tǒng)和服務(wù)。然而,許多挑戰(zhàn)依然存在。
一、挖掘復(fù)雜的數(shù)據(jù)類型
本文概述挖掘復(fù)雜數(shù)據(jù)類型的主要研究與進(jìn)展。復(fù)雜數(shù)據(jù)類型匯總在圖1中。本文介紹挖掘序列數(shù)據(jù),如挖掘時(shí)間序列、符號(hào)、列和生物學(xué)序列。由于這些主題的廣泛性,本文只給出一個(gè)高層概述,而不深入討論。
圖1"挖掘的復(fù)雜數(shù)據(jù)類型
二、挖掘序列數(shù)據(jù):時(shí)間序列、符號(hào)序列和生物學(xué)序列
序列事件的有序列表。根據(jù)事件的特征,序列數(shù)據(jù)可以分成三類:(1)時(shí)間序列數(shù)據(jù);(2)符號(hào)序列數(shù)據(jù);(3)生物學(xué)序列。讓我們考慮每種類型。
在時(shí)間序列數(shù)據(jù)中,序列數(shù)據(jù)有相等的時(shí)間間隔(例如,每分鐘、每小時(shí)或每天)記錄的數(shù)值數(shù)據(jù)的長(zhǎng)序列組成。時(shí)間序列數(shù)據(jù)可以被許多自然或經(jīng)濟(jì)過(guò)程產(chǎn)生,如股票市場(chǎng)、科學(xué)、醫(yī)學(xué)或自然觀測(cè)。
符號(hào)序列數(shù)據(jù)有時(shí)間或標(biāo)稱數(shù)據(jù)的長(zhǎng)序列組成,通常不是相等的時(shí)間間隔觀測(cè)。對(duì)于許多這樣的序列,間隙(即,記錄的事件之間的時(shí)間間隔)無(wú)關(guān)緊要。例子包括顧客購(gòu)物序列、web點(diǎn)擊流,以及科學(xué)和工程、自然和社會(huì)發(fā)展的事件序列。
生物學(xué)序列包括DNA序列和蛋白質(zhì)序列。這種序列通常很長(zhǎng),攜帶重要的、復(fù)雜的、隱藏的語(yǔ)義。這里,間隙通常是重要的。
讓我們考慮這些序列數(shù)據(jù)的挖掘。
時(shí)間序列數(shù)據(jù)集包含不同的時(shí)間點(diǎn)重復(fù)檢測(cè)得到的數(shù)值序列。通常,這些值在相等時(shí)間間隔(例如,每分鐘、每小時(shí)或每天)檢測(cè)。時(shí)間序列數(shù)據(jù)庫(kù)在許多應(yīng)用都很普遍,如股票市場(chǎng)分析、經(jīng)濟(jì)和銷售預(yù)測(cè)、預(yù)算分析、效用研究、庫(kù)存研究、產(chǎn)出預(yù)測(cè)、工作量預(yù)測(cè)和過(guò)程與質(zhì)量控制。對(duì)于研究自然現(xiàn)象(例如,大氣、溫度、風(fēng)、地震)、科學(xué)與工程實(shí)驗(yàn)、醫(yī)療處置等也是有用的。
與一般的數(shù)據(jù)查詢找出嚴(yán)格匹配查詢的數(shù)據(jù)不同,相似性搜索找出稍微不同于給定查詢序列的數(shù)據(jù)序列。許多時(shí)間序列的相似性查詢都要求子序列匹配,即找出包含與給定查詢序列相似的子序列的數(shù)據(jù)序列的集合。
對(duì)于相似性搜索,通常需要先對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行數(shù)據(jù)或維度規(guī)約和變換。典型的維歸約技術(shù)包括:(1)離散傅里葉變換(DFT);(2)離散小波變換(DWT);(3)基于主成分分析(PCA)的奇異值分解(SVD)。在此不做詳細(xì)討論。使用這些技術(shù),數(shù)據(jù)或信號(hào)被映射到變換后的空間。保留一小組“最強(qiáng)的”變換后的系數(shù)作為特征。
這些特征形成特征空間,它是變換后的空間的投影??梢栽谠瓟?shù)據(jù)或變換后的時(shí)間序列數(shù)據(jù)上構(gòu)建索引,以加快搜索速度。對(duì)于基于查詢的相似性搜索,技術(shù)包括規(guī)范化變換、原子匹配(即找出相似的、短的、無(wú)間隙窗口對(duì))、窗口縫合(即縫合相似的窗口,形成大的相似序列,允許原子匹配之間有間隙),以及子序列排序(即對(duì)子序列匹配線性排序,確定是否存在足夠相似的片段)。關(guān)于時(shí)間序列數(shù)據(jù)的相似性搜索,存在大量軟件包。
最近,研究人員提出把時(shí)間序列數(shù)據(jù)變換成逐段聚集近似,使得時(shí)間序列數(shù)據(jù)可以看做符號(hào)表示的序列。然后,相似性搜索問(wèn)題變換成在符號(hào)序列數(shù)據(jù)中匹配子序列的相似性搜索。我們可以識(shí)別基本模式,并為基于這種基本模式的有效搜索構(gòu)建索引和散列機(jī)制。
大部分分類方法都基于特征向量構(gòu)建模型。然而序列沒(méi)有明顯的特征。即便使用復(fù)雜的特征選擇技術(shù),可能的特征的維度也非常高,并且序列特征的性質(zhì)也很難捕獲。這使得序列分類成為一項(xiàng)具有挑戰(zhàn)性的任務(wù)。
序列分類方法可以分為三類:(1)基于特征的分類,它們把序列轉(zhuǎn)換成特征向量,然后使用傳統(tǒng)的分類方法;(2)基于序列距離的分類,其中度量序列之間相似性的距離函數(shù)決定分類的質(zhì)量;(3)基于模型的分類,如使用隱馬爾科夫模型或其他統(tǒng)計(jì)學(xué)模型來(lái)對(duì)序列分類。
對(duì)于時(shí)間序列或其他數(shù)值數(shù)據(jù),用于符號(hào)序列的特征選擇技術(shù)不能用于非離散化的時(shí)間序列數(shù)據(jù)。然而,離散化可能導(dǎo)致信息損失。最近提出的時(shí)間序列shapelets方法用最能表示類的時(shí)間序列為特征,取得了高質(zhì)量的分類結(jié)果。
生物學(xué)序列通常是指核苷酸或氨基酸序列。生物學(xué)序列分析比較、對(duì)比、索引和分析生物學(xué)序列,因而在生物信息學(xué)和現(xiàn)代生物學(xué)中起著至關(guān)重要的作用。
序列對(duì)比基于如下事實(shí):所有活著的生物體都是進(jìn)化相關(guān)的。這意味這進(jìn)化中相近物種的核苷酸和蛋白質(zhì)序列應(yīng)該表現(xiàn)出更多的相似性。比對(duì)是對(duì)序列以便獲得最大程度的一致性,它也表示序列之間的相似度。兩個(gè)序列是同源的可能性是很有用的。這樣對(duì)比也有助于確定多個(gè)物種在進(jìn)化樹(shù)中的行對(duì)位置,這種進(jìn)化樹(shù)稱為種系發(fā)生樹(shù)
三、總結(jié)
挖掘復(fù)雜的數(shù)據(jù)類型在數(shù)據(jù)挖掘發(fā)展中具有重要的作用,它能有效的提高可伸縮性、交互性和基于約束的挖掘方法,對(duì)序列數(shù)據(jù)、其他類型的數(shù)據(jù)都能有效的整理。
參考文獻(xiàn)
[1](美)陳封能,范明 等譯,數(shù)據(jù)挖掘?qū)д摚ㄍ暾妫M],人民郵電出版社,2011.
(作者單位:江西現(xiàn)代技師學(xué)院)