• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      實(shí)時(shí)演進(jìn)數(shù)據(jù)序列集的內(nèi)在模式提取與行為預(yù)測①

      2019-01-07 02:40:52艾銳峰歐陽軍孫云鵬
      關(guān)鍵詞:粒度決策預(yù)測

      艾銳峰,歐陽軍,程 杰,周 凱,孫云鵬

      1(解放軍 63850 部隊(duì) 總體所,白城 137001)

      2(解放軍 63850 部隊(duì) 水文裝備試驗(yàn)站,煙臺(tái) 264100)

      借由數(shù)據(jù)集合內(nèi)在模式的提取、內(nèi)涵知識(shí)的挖掘 形成有價(jià)值的信息,以用于分析、評估、預(yù)測和控制,是目前大數(shù)據(jù)和人工智能領(lǐng)域的主要研究內(nèi)容之一[1,2].當(dāng)根據(jù)應(yīng)用場景和數(shù)據(jù)特點(diǎn)對數(shù)據(jù)進(jìn)行處理時(shí),若從時(shí)間緯度進(jìn)行考察,可分為:① 無時(shí)序要求,即數(shù)據(jù)本身是一種事物性邏輯關(guān)聯(lián)關(guān)系而非時(shí)間序列,或者數(shù)據(jù)為時(shí)間序列其處理應(yīng)用無時(shí)序要求[3,4];② 嚴(yán)時(shí)序要求,即數(shù)據(jù)本身為時(shí)間序列,對其處理是利用歷史時(shí)間序列分析實(shí)現(xiàn)對緊隨其后的預(yù)測、控制等[5,6];③ 介于二者之間,數(shù)據(jù)本身包含時(shí)間序列集和非時(shí)間序列集,通過對其處理以用于未來[7,8].第三種數(shù)據(jù)集具有普遍性,應(yīng)用于各種領(lǐng)域[9,10].第一種數(shù)據(jù)集也可按照數(shù)據(jù)收集的時(shí)間戳構(gòu)建成時(shí)序序列結(jié)構(gòu)[11],以用于描述所代表事物的演進(jìn)過程.

      通過實(shí)時(shí)演進(jìn)的數(shù)據(jù)序列集的分析處理實(shí)現(xiàn)對事物未來行為的預(yù)測是數(shù)據(jù)分析的主要目的之一.基于數(shù)據(jù)挖掘的行為預(yù)測,從整個(gè)處理流程來看,要實(shí)現(xiàn)從序列的建模、分割、相似性度量與搜索、聚類與分類、在線模式匹配,到最終的預(yù)測決策.目前的研究主要集中在序列的分割[12,13],相似性搜索[14],相似性度量[15],序列的建模、聚類和分類[16–20]等方面,側(cè)重于單一方法的性能提升,對融合整個(gè)流程以提升預(yù)測性能需要深入研究.文獻(xiàn)[21,22]介紹了一類模式挖掘方法,主要用于從數(shù)據(jù)庫中提取頻繁出現(xiàn)的特定模式以找出數(shù)據(jù)的某種特性,為靜態(tài)分析,對實(shí)時(shí)演化的時(shí)間序列集的行為預(yù)測缺乏論述.文獻(xiàn)[23]試圖通過序列的模糊比對實(shí)現(xiàn)預(yù)測,但參入比對的序列為現(xiàn)時(shí)子序列,現(xiàn)時(shí)子序列如何延展到未來時(shí)刻沒有分析.文獻(xiàn) [24,25] 給出了多尺度融合的數(shù)據(jù)挖掘方法,但對挖掘后的預(yù)測沒有做進(jìn)一步的研究.文獻(xiàn)[26]給出了對復(fù)雜系統(tǒng)數(shù)據(jù)挖掘分層建模的方法,其所構(gòu)建的模型對歷史數(shù)據(jù)的擬合很好,但是其預(yù)測效果并沒有定量給出.目前實(shí)用的時(shí)間序列預(yù)測方法為傳統(tǒng)的ARIMA類方法,但在非平穩(wěn)條件及混沌情況下,性能下降.

      綜上所述,通過數(shù)據(jù)挖掘的方法可以對實(shí)時(shí)演進(jìn)數(shù)據(jù)序列集在特定情況下的未來行為作預(yù)測,但應(yīng)當(dāng)在模式提取時(shí)加入預(yù)測的考量.若僅基于在數(shù)據(jù)中找相似點(diǎn)、聚類,然后比對預(yù)測,缺乏指向性.再則,要實(shí)現(xiàn)預(yù)測,未來數(shù)據(jù)不可獲取,只有當(dāng)下數(shù)據(jù)和歷史數(shù)據(jù),而復(fù)雜事物的非平穩(wěn)性、突變性,使得當(dāng)下子序列與模式的匹配,并不能夠說明未來的情形,需要在序列分割、模式提取和在線匹配識(shí)別時(shí)向前延展.鑒于此,本文以實(shí)時(shí)演進(jìn)數(shù)據(jù)集為對象,通過融合處理,提出了一種基于多時(shí)間粒度分層分割、模式提取、主題發(fā)現(xiàn)與聯(lián)合決策的預(yù)測方法.

      1 序列建模與模式提取

      現(xiàn)實(shí)世界中所觀測錄取的數(shù)據(jù)是客觀事物行為的記錄和關(guān)聯(lián)因子的描述.構(gòu)建數(shù)據(jù)序列集Φ=〈X,U,Y,V〉(X={x},U={u},Y={y},V={v})以刻畫隨時(shí)間而不斷向前演進(jìn)的客觀事物R.R的主要行為由多元時(shí)間序列x=[xi(t)](i=1,2,···,m1)和m2個(gè)非時(shí)間序列u=[ui](i=1,2,···,m2)記錄,關(guān)聯(lián)的影響因素由多元時(shí)間序列y=[yi(t)](i=1,2,···,m3)和m4個(gè)非時(shí)間序列v=[vi](i=1,2,···,m4)描述.以R在t時(shí)刻之前的數(shù)據(jù)集 Φ (t)的分析實(shí)現(xiàn)對R在t+ Δt時(shí)刻的行為預(yù)測即為要解決的問題.

      R受到各種因素的作用,其數(shù)據(jù)隨機(jī)性、確定性并存,如金融經(jīng)濟(jì)數(shù)據(jù)、海洋氣象數(shù)據(jù)、戰(zhàn)場數(shù)據(jù)等.可以認(rèn)為R受到宏觀基本規(guī)律的約束、當(dāng)下現(xiàn)實(shí)因素的作用、微觀層次的擾動(dòng)以及外部稀疏的偶然性沖擊.根據(jù)以上推論,R在某一時(shí)刻的最終行為可以認(rèn)為是由以上四方面共同作用決定,則如果由數(shù)據(jù)序列集Φ=〈X,U,Y,V〉導(dǎo)出表征以上四個(gè)方面的數(shù)據(jù)序列集:A,表征宏觀規(guī)律;B,當(dāng)下作用;C,微觀層面;E,外部沖擊,則借由 Ψ =〈A,B,C,E〉上的內(nèi)在模式提取,再進(jìn)行融合預(yù)測,將更符合事物邏輯,有望提高預(yù)測的準(zhǔn)確度.由 Φ 導(dǎo)出 Ψ 可根據(jù)多時(shí)間粒度的概念[3,17],借由多時(shí)間粒度的分層與分割實(shí)現(xiàn).

      1.1 基于時(shí)間粒度的序列分層與分割

      以多元時(shí)間序列x=[xi(t)](i=1,2,···,m1)為例.若xi(t)可獲得不同時(shí)間采樣間隔的序列xi(nT1),xi(nT2),···,xi(nTZ),則以待預(yù)測的時(shí)間粒度為中間層B,將xi(t)分成A、B、C三層:

      若記錄數(shù)據(jù)只有一種固定采樣率的序列xi(nT0),采用平均的方式,將xi(nT0)整合出三層序列xi(nTA)、xi(nTB)、xi(nTC),記為A、B、C.對Y的操作按照與X對齊的方式同步處理.

      從序列xi(nTA)、xi(nTB)、xi(nTC)(簡記為xi(n))中提取模式,需要對其進(jìn)行分割.對序列xi(n)的分割即是將xi(n)按照等時(shí)間長度或者變時(shí)間長度劃分為一族子序列,通過子序列的聚類分析提取內(nèi)在模式.

      設(shè)x=[xi(n)]為m維 長度為N的多元時(shí)間序列,虛擬一個(gè)維度m長度W的窗.令W=ξW0,W0根據(jù)應(yīng)用場景給定,ξ為調(diào)整系數(shù).跨度L為窗W向前滑動(dòng)截取的步長,Tz≤L≤W.窗W自x的起點(diǎn),滑動(dòng)到尾點(diǎn),截取一系列子序列sk,得到子序列集合S=(s1,s2,···,sK).當(dāng)L=Tz時(shí),則一步一截取,前后子序列有重疊部分,計(jì)算量較大;當(dāng)L=W時(shí),S成為x的一個(gè)首尾相銜接的子序列分割,截取效率高,但當(dāng)出現(xiàn)跨子序列的模式時(shí),可能遺漏.針對具體應(yīng)用,合理選取L值(或者根據(jù)子序列聚類分析結(jié)果與L值的對照關(guān)系,通過試驗(yàn)比較,確定L值).具體算法如下:

      算法1.序列分割算法1)從集合X中輸入待分割序列樣本 ,指定初值 ,調(diào)整系數(shù),.ξ=0.5+0.1i xW0 ξ∈[0.5,1.5]i=0,j=1 2)令 ,.W W=ξW0 3)根據(jù) ,由 ,給定跨度值 .L=Lj Tz≤L≤W L∈[L1,L2,··,LJ]4)令 ,由 起始位置向前截取長度為 的子序列,賦給 .s2 xWs1 5)滑動(dòng)截取窗向前步進(jìn)L,截取 ,循環(huán)操作直到序列尾點(diǎn),得到一個(gè)截取集 .j=j+1 Si,j=(s1,s2,··,sK)6)令 ,返回第4)步,直到L遍歷 .i=i+1[L1,L2,··,LJ]7)令 ,返回第2)步,直到 遍歷 .Si,jξ[0.5,1.5]8)合并截取集 為最終集合 ,即為序列 分割后的全體子序列集.9)返回第1)步,輸入下一個(gè)待分割序列樣本.S Sx

      S為x的一個(gè)分割,由不等長的一系列子序列sk組成,代表了在時(shí)間粒度Tz上、在一定時(shí)間區(qū)間內(nèi),序列可能呈現(xiàn)出的各種表現(xiàn)形式.通過S的聚類分析,提取其中蘊(yùn)含的內(nèi)在模式,可用于對x未來時(shí)刻行為的預(yù)測.

      以海洋數(shù)據(jù)集為例,不同海區(qū)的水溫序列總集可看做X,特定海區(qū)的水溫序列可以看做x,則既可以進(jìn)行總體特征分析也可以進(jìn)行特定區(qū)域特征分析.

      1.2 模式提取

      序列集合S=(s1,s2,···,sK)是x的子序列集,假定存在x的內(nèi)含模式集Γ =(Γ1,Γ2,···,ΓP),則 ?sk∈S,?Γp∈ Γ,使得:

      其中,ε是子序列sk與它所分屬模式 Γp之間的差異,sk與Γp越相似,ε越小.對于度量相似性的處理方法,有閔可夫斯基距離法、動(dòng)態(tài)時(shí)間彎曲距離法(Dynamic Time Warping,DTW)[15,27]、擴(kuò)展 Frobenius 范數(shù)法 (Extended Frobenius Norm,Eros)等.閔式距離簡單直觀,其特例歐式距離是常用的距離計(jì)算方法,但它對波動(dòng)、噪聲非常敏感,且需要序列等長.Eros不滿足距離三角不等式,對于本文后續(xù)預(yù)測處理不適用,因而下面采取DTW進(jìn)行相似性度量.DTW通過時(shí)間序列彎曲部分的自我復(fù)制,實(shí)現(xiàn)序列相似波形的對齊匹配,不要求序列等長.

      設(shè)si=(si,1,si,2,···,si,Ni),sj=(sj,1,sj,2,···,sj,Nj)是維度為m,時(shí)間點(diǎn)長度分別為Ni、Nj的兩個(gè)多元子序列,其DTW距離[15]:

      其中,d0(si,1,sj,1)為si,1,sj,1的基距離,用歐式距離計(jì)算.

      對分割得到的子序列集合S根據(jù)DTW距離進(jìn)行相似性度量,利用 K-mean 法進(jìn)行聚類.設(shè)在 A,B,C 層上分別聚合為PA、PB、PC簇,以各簇質(zhì)心所對應(yīng)的子序列及各簇內(nèi)復(fù)現(xiàn)頻數(shù)靠前的若干子序列作為標(biāo)準(zhǔn)模式,得 到,.

      對Y的操作按照與X對齊的方式同步處理.于是由R 的原始數(shù)據(jù)序列集 Φ =〈X,U,Y,V〉,經(jīng)過前述處理,得到X,Y→A,B,C→ ΓA,ΓB,ΓC.非時(shí)間序列集U、V根據(jù)時(shí)間戳對應(yīng)歸類為孤立事件集E=(eU,eV).于是完成了 Φ → Ψ → ?0,Ψ =〈A,B,C,E〉為 Φ經(jīng)多時(shí)間粒度分層整合后的數(shù)據(jù)序列集,?0=〈ΓA,ΓB,ΓC,E〉為 Ψ 經(jīng)過時(shí)間分割、相似度量、聚類分析后的內(nèi)在模式表征集.

      2 主題發(fā)現(xiàn)與預(yù)測策略

      根據(jù) R 記錄數(shù)據(jù)所提取的內(nèi)在模式表征集?0=〈ΓA,ΓB,ΓC,E〉,對它未來行為進(jìn)行預(yù)測,可以有多種策略,應(yīng)進(jìn)行融合處理.

      2.1 主題發(fā)現(xiàn)

      對于R而言,可知的是t0及t≤t0前的數(shù)據(jù)序列集.在t0時(shí)刻附近的表現(xiàn)受到宏觀、中觀、微觀層及外部沖擊的影響,呈現(xiàn)的序列對很多事物而言不一定具有連續(xù)性和穩(wěn)定性,但是其呈現(xiàn)的模式具有近似意義上的可復(fù)現(xiàn)性.當(dāng)特定模式出現(xiàn)時(shí),R的后續(xù)行為表現(xiàn)出相對穩(wěn)定性.即總體上不一定可以準(zhǔn)確預(yù)測,但是當(dāng)序列開始呈現(xiàn)這種特定的模式時(shí),利用這種穩(wěn)定的表現(xiàn),向未來進(jìn)行延展,即可以用于此時(shí)刻R未來行為的預(yù)測.這些特定模式定義為主題模式.?0=〈ΓA,ΓB,ΓC,E〉囊括了R的行為特征.主題模式集M=(mm)(m=1,2,···,M)可以由提取的標(biāo)準(zhǔn)模式集合 ΓA,ΓB,ΓC,E,中的模式組合得到,如公式(4)所示.

      其中,pA∈[1,PA],pB∈[1,PB],pC∈[1,PC],pU∈[1,PU],pV∈[1,PV].組合方式可以基于專家經(jīng)驗(yàn)或者對全集合進(jìn)行遍歷.具體如下:

      第一步:對于mm,基于相似性度量,從一定時(shí)長L的歷史數(shù)據(jù)序列中進(jìn)行匹配,統(tǒng)計(jì)其出現(xiàn)頻數(shù)f(mm).

      第二步:根據(jù) R 預(yù)測要求,以二元決策(H0,H1)為例(天氣預(yù)報(bào)的下雨、不下雨,證券價(jià)格的漲跌等;對于非二元決策,可以進(jìn)行預(yù)測區(qū)間離散化處理,形成一個(gè)多元決策問題,處理方式一致),統(tǒng)計(jì)當(dāng)出現(xiàn)mm時(shí)R后續(xù)行為為H0、H1的出現(xiàn)頻數(shù).

      第三步:計(jì)算決策 H0、 H1的正確率 η( H0/mm)、η(H1/mm),如公式 (5)所示:

      設(shè)定正確率門限 δ(δ ∈(0.5,1.0]),對于η(H0/mm)≥ δ的mm歸于 H0主題模式MH0,η( H1/mm)≥ δ 的mm歸于H1主題模式MH1.再根據(jù)出現(xiàn)頻數(shù)f(mm)對MH0、MH1中mm由高到低排序,設(shè)定頻數(shù)門限 ω ,剔除f(mm)<ω的低頻度模式.至此,得到可資利用的主題模式MH0、MH1.

      2.2 預(yù)測策略

      對于實(shí)時(shí)演進(jìn)的系列集R而言,現(xiàn)時(shí)刻為t0,則可獲得的即為t≤t0之前的數(shù)據(jù)和相關(guān)聯(lián)的孤立事件u,v.需要以其為基礎(chǔ)對t0+Δt時(shí)的行為進(jìn)行預(yù)測.在t0時(shí)刻,以1.1節(jié)的時(shí)間粒度處理方法,實(shí)時(shí)在線截取A層的待匹配子序列xA(nTA),記為xA(n),同樣處理得到xB(n),xC(n).xA(n),xB(n),xC(n)的時(shí)間點(diǎn)數(shù)分別為NA,NB,NC,其值取對應(yīng)層標(biāo)準(zhǔn)序列長度的平均值(為了描述簡單,假設(shè)A,B,C層都只有一種時(shí)間粒度,實(shí)際處理中可以在每一層嘗試多種時(shí)間粒度).在t0時(shí)刻附近,R 的行為由Rt0=<xA(n),xB(n),xC(n),u,v>表示.

      圖1 余集獲取示意圖

      (1)主題發(fā)現(xiàn)預(yù)測

      分析2.1節(jié)利用歷史數(shù)據(jù)挖掘主題模式的過程,及這種在線匹配、主題發(fā)現(xiàn)預(yù)測的策略,可知其為低頻度模式.鑒于此,制定主題發(fā)現(xiàn)預(yù)測方法的補(bǔ)充策略,即聯(lián)合決策預(yù)測.

      (2)聯(lián)合決策預(yù)測

      聯(lián)合決策預(yù)測策略為對xA(n)、xB(n)、xC(n)在余集中分別匹配,只要在各層匹配上標(biāo)準(zhǔn)模式,抽取標(biāo)準(zhǔn)模式進(jìn)行聯(lián)合推斷.方法如下:

      第一步:根據(jù)DTW距離度量,根據(jù)KNN法對xA(n)在余集中 進(jìn)行分類處理.設(shè)定參數(shù) ρ ∈[70%,90%],截取xA的后 ρ部分與si的前 ρ部分,分別記為xA,ρ、si,ρ,計(jì)算DTW距離d(xA,ρ,si,ρ).若經(jīng)過分類處理xA屬于簇,則將簇標(biāo)準(zhǔn)模式賦給xA,并認(rèn)為的后1-ρ序列即為xA向前延展的預(yù)測值.記此預(yù)測為DA.對xB、xC進(jìn)行同樣處理,得到DB、DC.

      第二步:以二元決策 (H0,H1)為例,制定規(guī)則 :只有當(dāng)DA、DB、DC同時(shí)指示x(t0+Δt)的行為為H0時(shí),推斷為 H0,同理處理 H1(也可以根據(jù)宏觀、中觀、微觀的先驗(yàn)知識(shí),對DA、DB、DC進(jìn)行加權(quán)處理,本文采取“同時(shí)指示”這種強(qiáng)準(zhǔn)則).則由DA、DB、DC進(jìn)行聯(lián)合預(yù)測的正確概率如公式(6)所示:

      其中,Pf1=Pf(H0)Pf(A)Pf(B)Pf(C),Pf2=(1-Pf(H0))(1-Pf(A))(1-Pf(B))(1-Pf(C)),Pf( H0)為 H0出現(xiàn)的先驗(yàn)概率,Pf(A)、Pf(B)、Pf(C)為根據(jù)DA、DB、DC決策的正確概率(在此假設(shè)DA、DB、DC決策相互獨(dú)立,若完全相關(guān)則退化為單層模式),與模式復(fù)現(xiàn)的穩(wěn)定性相關(guān).

      實(shí)際的預(yù)測要求是在本層(B層)時(shí)間粒度上對x(t0+Δt)的行為作出判斷.由公式(6)推導(dǎo)可得到:

      考察公式(7),假設(shè)序列總體上呈現(xiàn)隨機(jī)漫步,毫無偏向,則Pf(H0)=0.5,此時(shí)可以認(rèn)為模式識(shí)別無意義,Pf(A)=0.5、Pf(C)=0.5;若序列具有偏向,則或者Pf(H0)>0.5或者Pf(H1)>0.5,考慮到DA、DC是根據(jù)提取的模式進(jìn)行匹配識(shí)別作出的二元判斷,其準(zhǔn)確度應(yīng)Pf(A)≥0.5、Pf(C)≥0.5.綜上所述,Pf(H0/A,B,C)≥Pf(B)的條件可以認(rèn)為滿足,即在退化條件下,“同時(shí)指示”這種強(qiáng)準(zhǔn)則下的聯(lián)合決策正確率也至少等于基于本層的決策Pf(B),若序列展現(xiàn)偏向性,則聯(lián)合決策的正確率將會(huì)提升.

      綜合兩種預(yù)測策略,設(shè)計(jì)下面的整體預(yù)測方案:

      算法2.整體預(yù)測方案1)經(jīng)歷史數(shù)據(jù)處理得到標(biāo)準(zhǔn)模式庫 ,經(jīng)主題挖掘得到主題模式集合 、 .S′A?0=〈ΓA,ΓB,ΓC,E〉MH0=(mH0)MH1=(mH1)2)獲取聚類分析后的余集 、 、 .t0 S′BS′C3)以當(dāng)前時(shí)刻 為基準(zhǔn)向后截取并整合出待匹配子序列 ,,.xA xAxBxC4)采用DTW距離度量,根據(jù)KNN法對 ,,在余集 、 、中進(jìn)行分類、匹配.若匹配不上,不做預(yù)測,轉(zhuǎn)入3),等待序列向xBxCS′AS′B S′Ct0

      注:若存在孤立事件的沖擊,則通過歷史對照的方法,加入模式匹配中.

      3 系統(tǒng)實(shí)現(xiàn)與實(shí)例分析

      基于上述模型構(gòu)建與算法設(shè)計(jì),在計(jì)算機(jī)系統(tǒng)上予以實(shí)現(xiàn)并選取實(shí)例進(jìn)行效果分析.

      3.1 系統(tǒng)實(shí)現(xiàn)

      前述模型與算法中,變跨度滑窗子序列截取、DTW距離計(jì)算、相似性搜素、K-mean法聚類分析和KNN分類等,計(jì)算量都較大,為了更好的從歷史數(shù)據(jù)序列中提取模式,需盡可能的采用較長的時(shí)間序列,從而造成計(jì)算量急劇上升.在線匹配預(yù)測,其計(jì)算量要小于模式提取的過程.鑒于此,采用分布式并行處理架構(gòu),如圖2所示.

      整個(gè)系統(tǒng)由A、B兩個(gè)子系統(tǒng)組成.A系統(tǒng)采取外部云計(jì)算托管;B系統(tǒng)在線監(jiān)控實(shí)時(shí)處理,由N個(gè)并行計(jì)算節(jié)點(diǎn)組成.軟件設(shè)計(jì)采用Python語言粘合MPI并行編程環(huán)境的方式.以Python編制數(shù)據(jù)端口,將數(shù)據(jù)導(dǎo)入分發(fā),一份為模式提取全時(shí)長數(shù)據(jù)庫,一份為在線數(shù)據(jù)片集.將模式提取并行計(jì)算程序布置在外部云系統(tǒng)上,在全時(shí)長數(shù)據(jù)庫上進(jìn)行提取操作,維持一個(gè)標(biāo)準(zhǔn)模式庫并進(jìn)行主題模式的挖掘,所得到的模式庫發(fā)往B系統(tǒng).在本地并行計(jì)算機(jī)系統(tǒng)上布置在線匹配預(yù)測的并行計(jì)算程序,將模式庫與在線數(shù)據(jù)片集結(jié)合,根據(jù)數(shù)據(jù)序列的驅(qū)動(dòng),實(shí)時(shí)更新處理.累積一定時(shí)間,在A系統(tǒng)上重新啟動(dòng)模式提取處理,監(jiān)測R是否會(huì)演化,出現(xiàn)新的標(biāo)準(zhǔn)模式或者主題模式則更新模式庫,并發(fā)往B系統(tǒng).

      3.2 實(shí)例分析

      本文目的是構(gòu)建一種通用的處理架構(gòu),主要面向氣象海洋數(shù)據(jù)、戰(zhàn)場數(shù)據(jù)以及經(jīng)濟(jì)金融數(shù)據(jù).出于數(shù)據(jù)獲取便利性的考慮,下面以石油期貨相關(guān)數(shù)據(jù)為例進(jìn)行算法驗(yàn)證.

      試驗(yàn)數(shù)據(jù):NYMEX原油期貨主力合約數(shù)據(jù)(2002.1.1至2016.1.1,取其年月周日分的價(jià)格序列的開盤價(jià)、收盤價(jià)、最高價(jià)、最低價(jià)、相關(guān)的宏觀經(jīng)濟(jì)數(shù)據(jù)以及關(guān)聯(lián)國際事件),2002.1.1–2012.1.1為模式提取數(shù)據(jù)區(qū)間,2012.1.2–2016.1.1為模擬預(yù)測處理數(shù)據(jù)區(qū)間.

      圖2 系統(tǒng)框圖

      經(jīng)處理,A層時(shí)間粒度取為6T(T代表一日)、B層為T、C層為2個(gè)小時(shí),以B層日預(yù)測為目標(biāo),預(yù)測日線上T+n日價(jià)格行為(本文取T+2日的預(yù)測).匹配百分比 ρ =0.8.K-mean 聚類時(shí),設(shè)置A、B、C層初始分類數(shù)目均為6.根據(jù)程序數(shù)據(jù)結(jié)果,A層額外抽取頻繁子序列2個(gè),B層4個(gè),C層1個(gè).最終提取結(jié)果為:A層標(biāo)準(zhǔn)模式數(shù)PA=8,B層標(biāo)準(zhǔn)模式數(shù)PB=10、C層標(biāo)準(zhǔn)模式數(shù)PC=7.

      根據(jù)圖3、圖4的統(tǒng)計(jì),取出現(xiàn)頻數(shù)較高、對H0預(yù)測正確概率較高的組合模式作為主題模式MH0=(mH0);對H1預(yù)測正確概率較高的組合模式作為主題模式MH1=(mH1).

      根據(jù)上述結(jié)果,定義:F1,主題發(fā)現(xiàn)式預(yù)測;F2,聯(lián)合決策式預(yù)測;F3,傳統(tǒng)的基于日線的ARIMA預(yù)測;F4,日線子序列模式匹配預(yù)測;F5,分層小波分解預(yù)測,對5種方法的預(yù)測性能進(jìn)行比較.其中,F5為將日線通過小波變換,分解為表示宏觀的和表示細(xì)節(jié)的部分,在每層上分別用ARIMA遞推,再相加的方式進(jìn)行.模擬預(yù)測數(shù)據(jù)區(qū)間為2012.1.2-2016.1.1共計(jì)4年.

      F1:抽取MH0中 H0決策正確率最高,且在2002.1.1–2012.1.1中出現(xiàn)頻數(shù)排序在前30%的主題模式進(jìn)行匹配預(yù)測;同理抽取MH1中主題模式.在F1預(yù)測做出時(shí),同步記錄 F3、F4、F5的預(yù)測結(jié)果.其決策的統(tǒng)計(jì)結(jié)果如表1所示.

      由表1可發(fā)現(xiàn),F1相比其他方法有較高的正確率,說明經(jīng)過主題模式挖掘,某些特定的復(fù)合模式出現(xiàn)時(shí),其后續(xù)的行為十分穩(wěn)定,用之預(yù)測有較高的準(zhǔn)確率.但是其中預(yù)測最準(zhǔn)確且復(fù)現(xiàn)頻率排序前30%的主題模式出現(xiàn)的頻率也只有年平均18.3次,十分稀疏.

      圖3 組合模式在歷史數(shù)據(jù)集中的出現(xiàn)頻數(shù)

      F2:通過在線分層匹配處理,當(dāng)均匹配上時(shí),啟動(dòng)決策.若“同時(shí)指示”H0或 H1,則取此指示為決策,統(tǒng)計(jì)正誤;否則放棄.同步記錄 F3、F4、F5 的預(yù)測結(jié)果.其決策的統(tǒng)計(jì)結(jié)果如表2所示.

      根據(jù)表2結(jié)果,F2也比F3、F4、F5準(zhǔn)確率要高,但是其復(fù)現(xiàn)頻率也不高,年平均出現(xiàn)49.5次,且聯(lián)合決策的放棄數(shù)也較高.將F1、F2結(jié)合,按照前述算法2的流程進(jìn)行在線監(jiān)測,可以提高可預(yù)測的頻數(shù).

      圖4 組合模式在歷史數(shù)據(jù)集中預(yù)測的正確率統(tǒng)計(jì)

      表1 F1 方法與其他方法預(yù)測性能比較

      表2 F2 方法與其他方法預(yù)測性能比較

      綜合言之,準(zhǔn)確性的提高得益于特定模式的挖掘和聯(lián)合判斷,但這種處理同時(shí)注定了在線處理時(shí),只能等待序列在實(shí)時(shí)演進(jìn)過程中呈現(xiàn)出此模式近似態(tài)時(shí)才可進(jìn)行決策.考察實(shí)際應(yīng)用場景,這種新的預(yù)測方法具有意義(如在投資決策中,當(dāng)機(jī)會(huì)出現(xiàn)時(shí)再投入顯然比貿(mào)然介入更有利;在海洋水文參數(shù)與作戰(zhàn)場景呈現(xiàn)某種特定態(tài)勢時(shí),作出未來態(tài)勢推斷并付諸行動(dòng)比較適宜),而常規(guī)的時(shí)時(shí)刻刻做未來預(yù)測的準(zhǔn)確性值得警惕.

      4 結(jié)束語

      復(fù)雜事物行為的數(shù)據(jù)序列集,變化復(fù)雜、序列前后時(shí)刻存在邏輯上的不確定性、且概率分布未知、具有混沌突變性.在實(shí)時(shí)演進(jìn)過程中,其平穩(wěn)運(yùn)行與突然變化相互雜交,無法實(shí)時(shí)推斷下一時(shí)刻會(huì)發(fā)生什么.但是某些模式或會(huì)反復(fù)出現(xiàn).當(dāng)在監(jiān)測過程中,這些特殊形態(tài)顯現(xiàn)大部的時(shí)候,其后續(xù)有較大概率按照此模式運(yùn)行.文中根據(jù)事物影響因子的宏微觀特性,將序列集通過多時(shí)間粒度和跨度的分層分割,提取代表各層特性的標(biāo)準(zhǔn)模式集,再挖掘具有穩(wěn)定延展表現(xiàn)的主體模式,構(gòu)建出主題模式在線匹配和聯(lián)合決策的預(yù)測方法.此方法與傳統(tǒng)的幾種序列預(yù)測方法相比,具有較高的預(yù)測準(zhǔn)確性,但是在線復(fù)現(xiàn)率不高.如果對算法中的部分門限和參數(shù)進(jìn)行放寬處理,則可以提高頻數(shù),但是預(yù)測準(zhǔn)確性可能降低.準(zhǔn)確率、復(fù)現(xiàn)率與門限和參數(shù)的對應(yīng)關(guān)系、折中處理等,需要結(jié)合具體應(yīng)用場景作進(jìn)一步研究.

      猜你喜歡
      粒度決策預(yù)測
      無可預(yù)測
      黃河之聲(2022年10期)2022-09-27 13:59:46
      選修2-2期中考試預(yù)測卷(A卷)
      選修2-2期中考試預(yù)測卷(B卷)
      為可持續(xù)決策提供依據(jù)
      粉末粒度對純Re坯顯微組織與力學(xué)性能的影響
      基于矩陣的多粒度粗糙集粒度約簡方法
      決策為什么失誤了
      不必預(yù)測未來,只需把握現(xiàn)在
      基于粒度矩陣的程度多粒度粗糙集粒度約簡
      多粒度空間中的粗糙隸屬度與知識(shí)粒度
      巴东县| 蒲江县| 寿宁县| 梧州市| 怀仁县| 炉霍县| 绥滨县| 凤台县| 富川| 澳门| 水富县| 平昌县| 石景山区| 珲春市| 孙吴县| 吴桥县| 龙里县| 喜德县| 呼图壁县| 永仁县| 七台河市| 东港市| 察隅县| 吉木乃县| 攀枝花市| 阿尔山市| 阳江市| 青海省| 古交市| 广丰县| 上饶县| 互助| 泗阳县| 靖州| 东莞市| 云浮市| 河北省| 隆回县| 天峻县| 收藏| 平陆县|