甘昕艷,唐曉年
(廣西中醫(yī)藥大學(xué),廣西 南寧 530200)
關(guān)聯(lián)規(guī)則主要是指對象或者事件之間存在關(guān)聯(lián)聯(lián)系,這種聯(lián)系建立在對象或者事件兩者同時出現(xiàn)的基礎(chǔ)上。關(guān)聯(lián)規(guī)則早期被應(yīng)用于商業(yè)中,代表顧客是否同時購買某些商品[1]。上述這種關(guān)系具有較強(qiáng)的商業(yè)價值,能夠輔助人們進(jìn)行市場運(yùn)作、投資以及決策管理等。
時序數(shù)據(jù)關(guān)聯(lián)規(guī)則主要是指時間序列局部變化趨勢之間所具有的時間約束關(guān)聯(lián)關(guān)系,這種局勢變化趨勢之間的關(guān)聯(lián)規(guī)則能夠?yàn)闆Q策者提供決策幫助。時間序列本身具有數(shù)據(jù)密集性以及時間波動性[2],而且局部變化趨勢之間的時序關(guān)聯(lián)規(guī)則均被隱藏在數(shù)據(jù)中,只有通過挖掘才能夠獲取。
時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘是一項(xiàng)系統(tǒng)工作,需要經(jīng)歷時間序列預(yù)處理、時間序列壓縮等步驟,各個挖掘方法的好壞主要取決于挖掘關(guān)聯(lián)規(guī)則的可靠性,也就是制約時序關(guān)聯(lián)規(guī)則的有效性。
當(dāng)前,國內(nèi)外相關(guān)專家對時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘方面的研究已經(jīng)取得了一些較好的研究成果,例如:王立亞[3]等人通過區(qū)間概念的不確定性,設(shè)定區(qū)間關(guān)聯(lián)規(guī)則的度量標(biāo)準(zhǔn)—精確度和不確定度,然后組建基于帶參數(shù)區(qū)間概念的時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘模型;程廣[4]等人通過MapReduce完成對并行關(guān)聯(lián)規(guī)則增量更新挖掘模型的設(shè)計,通過MapReduce進(jìn)行參數(shù)設(shè)定以及突觸權(quán)值更新,然后改進(jìn)初始算法中的能量函數(shù),將其和標(biāo)準(zhǔn)能量函數(shù)對齊,同時采用憶阻值表示權(quán)值,將偏置和權(quán)值放大,組建關(guān)聯(lián)規(guī)則挖掘模型。以上模型現(xiàn)階段雖然取得了較為滿意的研究成果,但是由于未能考慮時序數(shù)據(jù)特征提取問題,導(dǎo)致計算開銷增加,時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘準(zhǔn)確率以及效率降低。
為此,本研究提出并設(shè)計了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘模型。經(jīng)仿真結(jié)果表明,該模型能夠不僅能夠有效減少計算開銷,還能夠提高時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘準(zhǔn)確率和效率。
為了有效實(shí)現(xiàn)時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘,首先組建時序數(shù)據(jù)的分布式數(shù)據(jù)結(jié)構(gòu)模型,通過四元組的方式表示時序數(shù)據(jù)的存儲中心,然后設(shè)定d代表組合時序數(shù)據(jù)的相空間嵌入維數(shù),通過多個非線性成分聯(lián)合統(tǒng)計方法對時序數(shù)據(jù)的高維特征空間進(jìn)行重構(gòu)[5],并且結(jié)合對應(yīng)的分類方法完成時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘。通過上述分析,能夠組建時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘模型,具體流程如圖1所示。
圖1 時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘模型組建流程圖
時序數(shù)據(jù)在進(jìn)行關(guān)聯(lián)規(guī)則挖掘的過程中,會受到外界多方面因素的影響,具有實(shí)時變動以及隨機(jī)性。以下主要采用模糊聚類方法對時序數(shù)據(jù)進(jìn)行融合處理,同時組建關(guān)聯(lián)規(guī)則項(xiàng)約束方程來表示時序數(shù)據(jù)的信息流模型,具體的表現(xiàn)形式為
(1)
式(1)中,h(·)代表時序數(shù)據(jù)分布式時間序列,同時也代表包含多維數(shù)據(jù)結(jié)構(gòu)模型的函數(shù);ωn代表時序數(shù)據(jù)進(jìn)行融合過程中產(chǎn)生的觀測誤差。
時序數(shù)據(jù)中分布式結(jié)構(gòu)模型的分布函數(shù)采用以下公式表示
(2)
式(2)中,p代表時序數(shù)據(jù)存儲結(jié)構(gòu)的階數(shù);α代表統(tǒng)計信息采樣的時間窗口寬度。
在上述分析的基礎(chǔ)上,組建時序數(shù)據(jù)的時態(tài)結(jié)構(gòu)模型,完成時序數(shù)據(jù)的關(guān)聯(lián)規(guī)則重建,同時建立關(guān)聯(lián)規(guī)則知識庫,根據(jù)時序數(shù)據(jù)結(jié)構(gòu)的特征標(biāo)識函數(shù)[6],再通過統(tǒng)計回歸方法組建時序數(shù)據(jù)的非線性時間序列模型,能夠獲取以下形式的線性組合模型,即
(3)
式(3)中,an代表時序數(shù)據(jù)規(guī)劃模型的幅值。針對一個連續(xù)的時序數(shù)據(jù),主要通過連續(xù)模板匹配技術(shù)進(jìn)行分布式時序數(shù)據(jù)結(jié)構(gòu)分析,結(jié)合匹配相關(guān)檢測技術(shù)進(jìn)行時序數(shù)據(jù)的融合處理。
設(shè)定m個時序數(shù)據(jù)節(jié)點(diǎn)分別為:A1,A2,…,Am;n個閉頻繁項(xiàng)集特征提取輸出能夠表示為:a1,a2,…,an。通過極限學(xué)習(xí)方法進(jìn)行時序數(shù)據(jù)特征提取的全局尋優(yōu),構(gòu)建時序數(shù)據(jù)挖掘的線性規(guī)劃問題。
(4)
式(4)中,NI和NR代表時序數(shù)據(jù)的平均互信息特征向量;NS代表時序數(shù)據(jù)的狀態(tài)分布集。
在機(jī)器學(xué)習(xí)領(lǐng)域中,CNN是一種深度前饋神經(jīng)網(wǎng)絡(luò),主要是由卷積層、激活層、池化層以及分類器組成,其中分類器主要使用多層感知器來完成,也可將其稱為全連接層。
神經(jīng)元是組成ANN的基本單元,它主要是針對收到的其它神經(jīng)元的輸出或者外部信息進(jìn)行計算以及輸出[8]。各個神經(jīng)元可能包含多個輸入,但是只包含一個輸出,各個輸入分別包含不同的權(quán)值,主要用來體現(xiàn)不同輸入對模型產(chǎn)生的影響,其中單一神經(jīng)節(jié)點(diǎn)模型可以采用函數(shù)進(jìn)行表示,即
y=f(x1,x2,…,xn)
(5)
為了方便處理,需要將全部的輸入進(jìn)行帶權(quán)的線性疊加,同時加上一個偏移,將其能夠表示為
g(x)=w1×x1+w2×x2+…wn×xn+b
(6)
由于在現(xiàn)實(shí)生活中,大部分問題均為非線性問題,所以用來描述實(shí)際問題的模型一定是非線性模型,其中函數(shù)f就是一種非線性函數(shù),也被稱為激勵函數(shù),激勵函數(shù)的引入就是為了促使神經(jīng)元的輸出轉(zhuǎn)換為非線性輸出[9],從而促使模型成為非線性模型,其中卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
網(wǎng)絡(luò)中輸入的信息qn首先需要經(jīng)過一個卷積層,卷積層的核心作用就是用來提取數(shù)據(jù)特征,它和多層感知機(jī)制不同之處在于:卷積層的傳導(dǎo)并不是全連接,一個卷積節(jié)點(diǎn)只包含一個輸入和一個輸出,同時輸入以及輸出均為向量,并不是單純的數(shù)字。
在卷積神經(jīng)網(wǎng)絡(luò)中卷積層的定義和數(shù)學(xué)里面卷積層的操作并不相同,首先,卷積層的輸入除了數(shù)據(jù)本身外,還需要加上一個維度,這個維度通常情況下被稱為通道[10]。另外,卷積層中全部卷積核的核函數(shù)也是不同的,各個核函數(shù)都能夠提取任意一個原始數(shù)據(jù)的特征,這些函數(shù)在初始節(jié)點(diǎn)都是隨機(jī)形成的,但是隨著訓(xùn)練的不斷進(jìn)行,核函數(shù)序列不斷進(jìn)行調(diào)整,最終獲取最能夠代表輸入數(shù)據(jù)的特征。在整個訓(xùn)練的過程中,能夠進(jìn)行調(diào)整的只有核函數(shù)序列的數(shù)值,卷積移動的步長和核函數(shù)的長度均應(yīng)該在訓(xùn)練前期決定好,當(dāng)訓(xùn)練開始后,則不能夠進(jìn)行更改。
在卷積層后,通常都會增加一個池化層,池化層的主要目的就是在保留重要信息的前提下降低數(shù)據(jù)的長度,從而減少計算時間,同時還能夠有效防止池化層出現(xiàn)過度擬合的現(xiàn)象。和卷積層相同,池化層也只有一個輸入和輸出,同樣滑動一個窗口進(jìn)行池化操作。和卷積層不同的是,池化在運(yùn)行的過程中,并不是通過窗口內(nèi)的數(shù)據(jù)進(jìn)行加權(quán)累加操作,而是結(jié)合實(shí)際需要進(jìn)行不同的操作。
在上述分析的基礎(chǔ)上,結(jié)合CNN,采用統(tǒng)計平均方法,建立時序數(shù)據(jù)挖掘的回歸分析模型,即
(7)
結(jié)合多元統(tǒng)計特征方程描述時序數(shù)據(jù)的擬合狀態(tài),同時組建擬合狀態(tài)模型,即
(8)
(9)
式(9)中,η為學(xué)習(xí)步長。經(jīng)過n步訓(xùn)練以及學(xué)習(xí)之后,通過自適應(yīng)加權(quán)方法,獲取CNN進(jìn)行時序數(shù)據(jù)特征分類器的加權(quán)系數(shù),然后通過卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,能夠獲取時序數(shù)據(jù)分類的自適應(yīng)學(xué)習(xí)加權(quán)系數(shù),即
(10)
在采用CNN進(jìn)行屬性分類的基礎(chǔ)上,為了減少整個算法的計算開銷,結(jié)合特征壓縮方法對分類輸出的時序數(shù)據(jù)進(jìn)行降維處理,利用公式(11)給出特征壓縮器的表達(dá)形式
(11)
對分類輸出的時序數(shù)據(jù)進(jìn)行降維處理后,采用模糊聚類方法完成基于CNN的時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘模型的建立,具體的操作過程如下所示:
1)計算全部時序數(shù)據(jù)樣本中挖掘到的規(guī)則項(xiàng)特征點(diǎn);
2)組建CNN分類器,獲取卷積神經(jīng)網(wǎng)絡(luò)分類器的加權(quán)值;
3)通過特征降維進(jìn)行大數(shù)據(jù)特征分離以及壓縮處理,它是二值化擬合效果。
4)在設(shè)定的范圍內(nèi)進(jìn)行時序數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘;當(dāng)滿足收斂條件時,迭代停止,則停止計算。
為驗(yàn)證基于CNN的時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘模型的綜合有效性,設(shè)計如下仿真加以驗(yàn)證。實(shí)驗(yàn)在WinlO操作系統(tǒng)中展開(Intel(R)Core(TM)i5-8250U處理器,4G內(nèi)存),開發(fā)環(huán)境為MATLAB2019。
為避免實(shí)驗(yàn)結(jié)果的單一性,將文獻(xiàn)[3]中的帶參數(shù)區(qū)間關(guān)聯(lián)規(guī)則挖掘模型和文獻(xiàn)[4]中的基于MapReduce的并行關(guān)聯(lián)規(guī)則增量挖掘模型作為對比,與本文模型共同完成性能驗(yàn)證。
1)計算開銷檢驗(yàn)
首先以挖掘過程計算開銷設(shè)定為測試指標(biāo),利用表1給出不同模型的計算開銷對比結(jié)果。
表1 不同模型的計算開銷對比結(jié)果
分析表1中的實(shí)驗(yàn)數(shù)據(jù)可知,本文模型挖掘過程的平均計算開銷為0.2034萬元,明顯低于兩種對比模型,在三種模型中為最低。
2)時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘準(zhǔn)確率檢驗(yàn)
為驗(yàn)證各個模型關(guān)聯(lián)規(guī)則挖掘結(jié)果的優(yōu)良,以挖掘準(zhǔn)確率為測試指標(biāo),得到對比結(jié)果如表2所示。
表2 不同模型的時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘準(zhǔn)確率對比
分析表2中的實(shí)驗(yàn)數(shù)據(jù)可知,本文模型的挖掘準(zhǔn)確率最高可達(dá)到98.85%,文獻(xiàn)[3]模型的平均挖掘準(zhǔn)確率為94.63%,文獻(xiàn)[4]模型的平均挖掘準(zhǔn)確率僅為87.02%。通過對比可知,本文模型的挖掘準(zhǔn)確率更高。
3)時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘效率
為進(jìn)一步驗(yàn)證不同模型的應(yīng)用效果,以關(guān)聯(lián)規(guī)則挖掘效率為指標(biāo)對不同模型展開檢驗(yàn),具體實(shí)驗(yàn)對比結(jié)果如圖3所示。
圖3 不同模型的時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘效率對比結(jié)果
分析圖3中的實(shí)驗(yàn)數(shù)據(jù)可知,隨著測試樣本數(shù)量的持續(xù)增加,不同模型的時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘效率也不斷變化。但是相比兩種對比模型,本文模型的挖掘效率明顯更高一些,均保持在96%以上。
綜合分析上述實(shí)驗(yàn)數(shù)據(jù)可知,由于在實(shí)際應(yīng)用的過程中,本文模型有效解決了時序數(shù)據(jù)特征提取問題,促使整個模型的時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘效率和準(zhǔn)確率得到有效上升,同時整體計算開銷存在明顯下降。
針對傳統(tǒng)模型存在的一系列問題,本研究結(jié)合CNN技術(shù),設(shè)計了新的時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘模型,并通過仿真結(jié)果證明了該模型不僅能夠有效降低挖掘過程的計算開銷,同時還能夠有效提升時序數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘準(zhǔn)確率以及效率。但是在實(shí)際應(yīng)用的過程中,該模型對環(huán)境噪聲的抵抗性相對較弱,因此,在后續(xù)的研究中將對該模型展開進(jìn)一步完善。