• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于分型轉(zhuǎn)折點(diǎn)的證券時(shí)間序列分段表示法

    2016-11-10 03:42:16彭佳星肖基毅
    2016年31期
    關(guān)鍵詞:表示法轉(zhuǎn)折點(diǎn)低點(diǎn)

    彭佳星 肖基毅

    ?

    基于分型轉(zhuǎn)折點(diǎn)的證券時(shí)間序列分段表示法

    彭佳星1,2,3肖基毅1

    證券時(shí)間序列是證券交易價(jià)格的一組觀測(cè)數(shù)據(jù),是一種有其自身顯著的特點(diǎn)的時(shí)間序列,針對(duì)這些特點(diǎn)我們提出一種基于分形理論與K線圖形特點(diǎn)的分段方法,經(jīng)過(guò)理論分析與實(shí)踐證明其劃分的證券時(shí)間序列分段有其合理性。在對(duì)時(shí)間序列數(shù)據(jù)壓縮率很高的情況下,還能保持較好的擬合誤差,并能較好地描述證券時(shí)間序列的走勢(shì)特征。

    分型;轉(zhuǎn)折點(diǎn);證券時(shí)間序列

    一、引言

    證券時(shí)間序列是按證券交易時(shí)間先后排列的一系列證券交易價(jià)格觀測(cè)數(shù)據(jù),其觀測(cè)值按固定的時(shí)間間隔采樣。證券時(shí)間序列屬于金融時(shí)間序列的一種,因?yàn)樽C券交易金額大交易頻率高而受研究者大量關(guān)注。

    面對(duì)海量、高維的證券數(shù)據(jù),直接在原始數(shù)據(jù)上處理難度很大,因此,需要研究合適的數(shù)據(jù)表示形式,以規(guī)約簡(jiǎn)化數(shù)據(jù)。目前常見(jiàn)的時(shí)間序列特征表示形式有域變化表示法、符號(hào)表示法、奇異值分解法、分段聚合近似表示方法(piecewise aggregate approximation,PAA)和分段直線表示法(Piecewise Linear Representation,PLR)等[1]。由于域變換表示法大多基于點(diǎn)距離,無(wú)法刻畫(huà)時(shí)間序列的重要特征—?jiǎng)討B(tài)屬性;符號(hào)表示法更適應(yīng)在文本數(shù)據(jù)挖掘和生物信息等領(lǐng)域中得到較多應(yīng)用;奇異值分解法時(shí)間復(fù)雜度高,且從數(shù)據(jù)集中任意增加或刪除一條記錄,都要重新運(yùn)算,不適合證券時(shí)間序列數(shù)據(jù)的動(dòng)態(tài)增加;分段聚合近似表示方法根據(jù)是通過(guò)對(duì)時(shí)間序列進(jìn)行平均分割并利用分段序列的均值來(lái)表示原時(shí)間序列的方法,極大值、極小值、形態(tài)特征等數(shù)據(jù)容易丟失,不利于體現(xiàn)證券時(shí)間序列的趨勢(shì)特征[2-3]。

    PLR算法有不少應(yīng)用于證券時(shí)間序列的實(shí)驗(yàn),一類如詹艷艷等基于斜率的分段法,根據(jù)斜率的變化把證券時(shí)間序列分成多個(gè)序列[4]。這類方法用于證券時(shí)間序列分段有一個(gè)顯著的缺點(diǎn),同一趨勢(shì)段會(huì)因?yàn)闈q跌幅度變化較大的而分為多個(gè)段,不利于趨勢(shì)的理解。另一類是以Pratt為代表的重要點(diǎn)分段法,根據(jù)序列中反趨勢(shì)的幅度,用序列分段中的上漲趨勢(shì)中的最大值或下跌趨勢(shì)的最小值,與反趨勢(shì)中某個(gè)值的比率小于某個(gè)臨界值R來(lái)判斷是否構(gòu)成反趨勢(shì)段,從而達(dá)到分段的目的[5];以及田野等的改進(jìn)的重要點(diǎn)分段法,這類方法比基于斜率的分段法能更好的描述證券時(shí)間序列的走勢(shì)特征[6]。

    二、問(wèn)題描述及分型轉(zhuǎn)折點(diǎn)的定義

    (一)問(wèn)題的定義

    定義1(證券時(shí)間序列)證券時(shí)間序列是證券交易記錄值和交易時(shí)間組成的有序集合。記為X=。其中xn_top是觀測(cè)時(shí)間間隔內(nèi)最高價(jià),xn_bottom觀測(cè)時(shí)間間隔內(nèi)最低價(jià)。T為觀測(cè)時(shí)刻的時(shí)間戳,是嚴(yán)格增加的(i

    定義2(時(shí)間序列的模式表示)假設(shè)證券時(shí)間序列是X=,可以用模式表示如下:

    X(t)=f(w)+e(t)

    (2.1)

    其中,w是證券時(shí)間序列的模式,f(w)是證券時(shí)間序列的模式表示,e(t)是證券時(shí)間序列與它的模式表示之間的誤差。

    定義3(證券時(shí)間序列的分段線性表示)假設(shè)證券時(shí)間序列是X=,它的分段模式表示如下:

    (2.2)

    分段方法的目標(biāo)是對(duì)證券時(shí)間序列進(jìn)行降維,減少序列中點(diǎn)的個(gè)數(shù)的同時(shí)保留時(shí)間序列數(shù)據(jù)關(guān)鍵特征,分段直線表示法的重點(diǎn)就在于分段點(diǎn)的選取。

    (二)證券時(shí)間序列的分形特征與分段評(píng)價(jià)標(biāo)準(zhǔn)

    分形(Fractal)的概念是美籍?dāng)?shù)學(xué)家本華·曼德博首先提出的。以海岸線為例,作為曲線,其特征是極不規(guī)則、極不光滑的,呈現(xiàn)極其蜿蜒復(fù)雜的變化。我們不能從形狀和結(jié)構(gòu)上區(qū)分這部分海岸與那部分海岸有什么本質(zhì)的不同。這種幾乎同樣程度的不規(guī)則性和復(fù)雜性,說(shuō)明海岸線在形貌上是自相似的,也就是局部形態(tài)和整體態(tài)的相似。

    證券交易時(shí)間序列數(shù)據(jù)也具有這樣的自相似性,我們從證券交易的日K線圖上看到的圖形概貌,與從月K線圖、日K線、30分鐘K線圖上看到的圖形幾乎有同樣程度的不規(guī)則性和復(fù)雜性。國(guó)內(nèi)一些研究也表明,中國(guó)股票市場(chǎng)也具有分形特征[7]。這個(gè)特征表明證券時(shí)間序列中局部與整體之間有一些相似的結(jié)構(gòu)特性,如果這種結(jié)構(gòu)特征能在特征表示法中體現(xiàn)出來(lái),對(duì)于證券數(shù)據(jù)挖掘是很有利的。

    目前大多數(shù)時(shí)間序列特征表示法,追求擬合誤差e(t)的最小化。然而證券時(shí)間序列特征表示法中,對(duì)趨勢(shì)特征的保留程度,也是衡量特征表示優(yōu)劣的指標(biāo)。本文中把擬合誤差和趨勢(shì)特征的保留程度一起作為參照指標(biāo)。

    根據(jù)證券數(shù)據(jù)分形特征的自相似性,以及證券K線圖形的拓?fù)浣Y(jié)構(gòu),本文提出一種證券數(shù)據(jù)新型分段方法,命名為分型轉(zhuǎn)折點(diǎn)分段法。

    三、分型轉(zhuǎn)折點(diǎn)分段方法

    分段思路:根據(jù)證券時(shí)間序列的拓?fù)浣Y(jié)構(gòu)特點(diǎn),所有的轉(zhuǎn)折點(diǎn)必然存在視覺(jué)上的高低點(diǎn),這些高低點(diǎn)可以構(gòu)成各個(gè)趨勢(shì)段的頂和底。頂和底的出現(xiàn)在圖形上會(huì)有一定的條件限制,找出序列所有頂和底,就可以確定分段點(diǎn)。這樣的分段適合月線、日線、分鐘線等各個(gè)時(shí)間度量單位的證券時(shí)間序列。

    (一)基本定義

    分型轉(zhuǎn)折點(diǎn)分段線性表示法建立在時(shí)間序列圖形分析的基礎(chǔ)之上。

    證券時(shí)間序列描述的是股票等有價(jià)證券的交易價(jià)格觀測(cè)值,記錄股票交易在等長(zhǎng)時(shí)間間隔內(nèi)的價(jià)格數(shù)據(jù),常見(jiàn)時(shí)間間隔大小為:年、季、月、周、日、60分鐘、30分鐘、15分鐘、5分鐘、1分鐘。根據(jù)分形理論,不同時(shí)間間隔的觀測(cè)值拓?fù)鋱D形都有一定的自相似特點(diǎn),通過(guò)觀測(cè)的視覺(jué)經(jīng)驗(yàn)也能看出證券時(shí)間序列的自相似性。

    本文重點(diǎn)關(guān)注某一個(gè)時(shí)間間隔內(nèi)觀測(cè)值的最高價(jià)和最低價(jià),用K(i)top表示時(shí)間序列第i個(gè)觀測(cè)值的最高價(jià),用K(i)botton表示時(shí)間序列第i個(gè)觀測(cè)值的最低價(jià)。觀測(cè)值的圖形表示可以用最高價(jià)到最低價(jià)的垂直連線表示,并命名為K線(也是對(duì)證券理論中K線的一種簡(jiǎn)化)。

    (二)兩個(gè)觀測(cè)值的組合關(guān)系

    1、非包含。一根K線的高點(diǎn)比另一根高(低),低點(diǎn)也比另一根高(低),則說(shuō)這兩根K線是非包含的。

    定義一:如果K(i+1)top>K(i)top and K(i+1)bottom>K(i)bottom,或者K(i+1)top

    2、包含。前一根K線的高低點(diǎn)在后一根K線的高低點(diǎn)范圍之內(nèi),或者后一根K線的高低點(diǎn)在前一根K線的高低點(diǎn)范圍之內(nèi),則說(shuō)這兩根K線存在包含關(guān)系。

    定義二:如果K(i)top>=K(i+1)top and K(i)bottom<=K(i+1)bottom,則說(shuō)K(i)包含K(i+1);如果K(i)top<=K(i+1)top and K(i)bottom>=K(i+1)bottom,則說(shuō)K(i+1)包含K(i)。這兩種情況都構(gòu)成包含關(guān)系。

    (三)證券時(shí)間序列的方向(2個(gè)非包含關(guān)系的觀測(cè)值決定了方向)

    非包含關(guān)系的2根K線后一根的高點(diǎn)比前一根高,低點(diǎn)也比前一根高,稱為向上(上漲)。非包含關(guān)系的2根K線后一根的高點(diǎn)比前一根低,低點(diǎn)也比前一根低,稱為向下(下跌)。

    定義三:當(dāng)2個(gè)觀測(cè)值為非包含關(guān)系時(shí),如果K(i)top

    定義四:當(dāng)2個(gè)觀測(cè)值為非包含關(guān)系時(shí),如果K(i)top>K(i+1)top and K(i)bottom>K(i+1)bottom,則序列的方向是向下(下跌)的。

    (四)合并存在包含關(guān)系的觀測(cè)值

    1、當(dāng)序列方向是向上時(shí)(存在包含關(guān)系的2根K線之前的K線的方向,可以是經(jīng)過(guò)包含關(guān)系處理的),以2根K線中的高點(diǎn)的較高者為高點(diǎn),以2根K線中低點(diǎn)的較高者為低點(diǎn),合并為1根K線。

    2、當(dāng)K線方向是向下時(shí),以2根K線中的高點(diǎn)的較低者為高點(diǎn),以2根K線中低點(diǎn)的較低者為低點(diǎn),合并為1根K線。

    定理一:對(duì)存在包含關(guān)系K線合并時(shí),如果前面序列是向上的,K(合)top=Max(K(i)top,K(i+1)top),K(合)bottom=Max(K(i)bottom,K(i+1)bottom);如果前面序列式向下的,K(合)top=Min(K(i)top,K(i+1)top),K(合)bottom=Min(K(i)bottom,K(i+1)bottom)。

    (五)3根K線組合關(guān)系(包含關(guān)系已作合并處理)

    時(shí)間序列中存在包含關(guān)系的K線做了合并處理之后,3根K線的組合關(guān)系只可能是以下四種情況:

    頂分型:第二根K線的高點(diǎn)是3根K線高點(diǎn)中最高的,低點(diǎn)是3根K線低點(diǎn)中最高的。

    底分型:第二K線低點(diǎn)是相鄰三K線低點(diǎn)中最低的,而高點(diǎn)也是相鄰三K線高點(diǎn)中最低的。

    頂分型的最高點(diǎn)叫該分型的頂,底分型的最低點(diǎn)叫該分型的底。

    上升K線:三根K線的高點(diǎn)依次升高,低點(diǎn)依次升高。

    下降K線:三根K線的高點(diǎn)依次降低,低點(diǎn)依次降低。

    (六)K線的分型

    所有的時(shí)間序列轉(zhuǎn)折點(diǎn)都必定是頂分型或者底分型(包含關(guān)系已經(jīng)合并),頂、底分型是時(shí)間序列走勢(shì)發(fā)生轉(zhuǎn)折的必要非充分條件。

    頂分型:第二根K線的高點(diǎn)是3根K線高點(diǎn)中最高的,低點(diǎn)是3根K線低點(diǎn)中最高的。

    底分型:第二K線低點(diǎn)是相鄰三K線低點(diǎn)中最低的,而高點(diǎn)也是相鄰三K線高點(diǎn)中最低的。

    頂分型的最高點(diǎn)叫該分型的頂,底分型的最低點(diǎn)叫該分型的底。

    (七)分型轉(zhuǎn)折點(diǎn)分段方法

    轉(zhuǎn)折點(diǎn)一定有頂分型或者底分型,但頂、底分型要構(gòu)成轉(zhuǎn)折點(diǎn)需要在視覺(jué)上形成一定的轉(zhuǎn)折效果,對(duì)數(shù)據(jù)壓縮有幫助,這里引入時(shí)間窗的方法,要求頂、底之間滿足:頂、底之間不少于N根K線(不包括頂、底所在的K線)。N值越小,分段點(diǎn)越多,壓縮率越高;反之,N值越大,分段點(diǎn)越少,壓縮率越低。由于趨勢(shì)的存在,N取值對(duì)分段點(diǎn)的影響并不是很大。

    由分型到分段確認(rèn)的幾種情況:

    先由前兩根K線定方向,向上則第一根為底,向下則第一根為頂。包含則再根據(jù)下一根K線確定方向。

    如果先出頂分型,接下來(lái),如果再出一頂分型則:頂+頂取其中高者為頂;如果一樣高,則前者為頂。此時(shí)頂仍未確定。等待下一個(gè)分型。

    如果再出一底分型則:頂+底,1、符合分段要求則為1段,先保存下來(lái)。頂已經(jīng)確定,等待底的確定。2、不符合,則前頂仍未確定。等待下一個(gè)分型。

    反之,先出底分型,接下來(lái),如果再出一底分型則:底+底取其中低者為底;如果一樣高,則前者為底。此時(shí)底仍未確定。等待下一個(gè)分型。

    如果再出一頂分型則:底+頂,1、符合分段定義則為1段,先保存下來(lái)。底已經(jīng)確定,等待頂?shù)拇_定。2、不符合,此時(shí)底仍未確定。等待下一個(gè)分型。

    3、第一個(gè)K線如果不在第一個(gè)分型中,則該K線與第一個(gè)分型構(gòu)成一個(gè)分段;最后一個(gè)分型與最后一個(gè)K線構(gòu)成未定分段。

    四、實(shí)驗(yàn)結(jié)果及分析

    (一)實(shí)驗(yàn)數(shù)據(jù)

    本文中的實(shí)驗(yàn)數(shù)據(jù)來(lái)自同花順?lè)秸C券泉友通交易軟件。

    數(shù)據(jù)源:選取上證指數(shù)420個(gè)(2014.10.20-2016.7.5)交易日觀測(cè)值,包括最高價(jià)和最低價(jià),形式為K=。另一組取上證指數(shù)420個(gè)交易日收盤(pán)價(jià),形式為:K=<(k1,t1),(k2,t2)……kn,tn)>。

    (二)實(shí)驗(yàn)方法

    本文通過(guò)使用基于K線分型轉(zhuǎn)折點(diǎn)算法分段,輸入為同花順交易軟件導(dǎo)出的股票日K線數(shù)據(jù),輸出為各個(gè)分段點(diǎn)價(jià)格和時(shí)間。

    基于K線分型轉(zhuǎn)折點(diǎn)算法流程如下:

    圖1 分型轉(zhuǎn)折點(diǎn)算法流程圖

    (三)實(shí)驗(yàn)結(jié)果

    實(shí)驗(yàn)股票時(shí)間序列420個(gè),分型轉(zhuǎn)折點(diǎn)分段算法參數(shù)N取值5時(shí)(即頂?shù)字g不少于5根K線),數(shù)據(jù)壓縮率為94%,擬合誤差為0.629。可以直觀地看出,壓縮后的序列很好地保留了序列總體的走勢(shì),如圖2

    圖2 分型轉(zhuǎn)折點(diǎn)分段與原始數(shù)據(jù)比較

    五、結(jié)論

    本文針對(duì)證券時(shí)間序列分段方法提出了一種新的思路,這種分段方法基于證券時(shí)間序列本身的特征構(gòu)造分型,根據(jù)分型特征構(gòu)造分段。實(shí)驗(yàn)表明,該分段方法壓縮比率很高時(shí),還能很好的保留原是序列的走勢(shì)結(jié)構(gòu),是一種很好的分段方法。(作者單位:1.南華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;2.衡陽(yáng)師范學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;3.智能信息處理與應(yīng)用湖南省重點(diǎn)實(shí)驗(yàn)室)

    [1]李海林,郭崇慧.時(shí)間序列數(shù)據(jù)挖掘中特征表示與相似性度量研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2013年5月,1285-1291.

    [2]Keogh,E,Chakrabarti,K,Pazzani,M,Mehrotra,S.Dimensionality reduction for fast similarity search inlarge time series databases.Knowledge and informationSystems[J],2001,3(3),263-286

    [3]Keogh,E.A fast and robust method for pattern matching in time series databases,Proceedings of 9th International Conference on Tools with Artificial Intelligence[C],1997,578-584.

    [4]詹艷艷,徐榮聰,陳曉云.基于斜率提取邊緣點(diǎn)的時(shí)間序列分段線性表示方法[J].計(jì)算機(jī)科學(xué),2006,139-142.

    [5]Pratt,K.B,Fink,E.Search for patterns in compressed time series.International Journal of Image and Graphics[J],2002,2(1),89-106.

    [6]田野.改進(jìn)的基于重要點(diǎn)的時(shí)間序列數(shù)據(jù)分段方法.微型電腦應(yīng)用[J],2012,48-51.

    彭佳星(1974-),男,湖南衡陽(yáng)人,研究方向:數(shù)據(jù)挖掘。

    肖基毅(1962-),男,湖南新田人,教授,碩士生導(dǎo)師,研究方向:數(shù)據(jù)挖掘與智能信息系統(tǒng)。

    猜你喜歡
    表示法轉(zhuǎn)折點(diǎn)低點(diǎn)
    有趣的數(shù)字表示法
    畫(huà)與理
    未來(lái)訪談:站在轉(zhuǎn)折點(diǎn)上
    出版人(2023年3期)2023-03-10 06:53:44
    否定意義的四種特殊表示法
    從一道小題聯(lián)想到的整數(shù)表示法
    考試周刊(2016年88期)2016-11-24 21:47:37
    我國(guó)中等收入陷阱解構(gòu):收入分配與庫(kù)茲涅茨轉(zhuǎn)折點(diǎn)
    日期和時(shí)間
    由國(guó)內(nèi)戰(zhàn)爭(zhēng)走向抗日民族戰(zhàn)爭(zhēng)的轉(zhuǎn)折點(diǎn)——西安事變
    軍事歷史(1991年6期)1991-08-16 02:22:18
    雅江县| 南溪县| 中山市| 嘉善县| 眉山市| 大同市| 报价| 福安市| 丹凤县| 凉城县| 老河口市| 新宁县| 安阳县| 徐水县| 颍上县| 东源县| 社旗县| 遂平县| 陈巴尔虎旗| 吉安市| 济源市| 崇礼县| 杭锦后旗| 宁海县| 磐安县| 克山县| 安塞县| 舟曲县| 太湖县| 介休市| 临汾市| 苏尼特左旗| 望奎县| 普兰店市| 固安县| 泽库县| 汝城县| 陈巴尔虎旗| 龙里县| 贡觉县| 云阳县|