陳金林 楊 林
(廣東外語外貿(mào)大學(xué)南國商學(xué)院,廣東 廣州 510545)
股票價格序列是股票價格時間序列的簡稱,指將股票在不同時間上的交易價格數(shù)值,按時間先后順序排列而形成的序列。構(gòu)成要素:時間,股票價格數(shù)值。
根據(jù)實際的股票交易價格成交技術(shù)和計時技術(shù),在股票交易時間內(nèi)可以找到一個股票交易價格形成所需要的最小的時間單位,這個最小的時間單位稱為單元時間,任意有限時間是單元時間的整數(shù)倍。為了更好地分析股票價格序列,結(jié)合股票價格和時間的聯(lián)合分布,即任意給出由較多的單元時間組成的時點的集合,考慮股票價格序列的聯(lián)合分布。該分布為有限維數(shù)聯(lián)合分布。
利用大數(shù)據(jù)挖掘技術(shù)的聚類分析對股票價格序列分析時,必須對聚類分析做適當(dāng)?shù)男拚员悴捎镁垲惙治?。通常來講,聚類分析是按照某種相似程度度量方法將數(shù)據(jù)分成互不相同的分組(集合),每一個分組中的數(shù)據(jù)相近,不同分組之間的數(shù)據(jù)差異較大。即通過聚類后,每一聚類內(nèi)部的相似性很高,而各聚類之間的相似性很低。
由于股票價格序列是時間序列,在進行聚類分析時只能按照時間先后順序進行聚類。從聚類分析的角度看,把價格序列分成了四類各不相同的小組。每個小組由若干個單位時間內(nèi)的價格數(shù)據(jù)組成,這些數(shù)據(jù)的相似性很高,相鄰小組之間的價格數(shù)據(jù)相似性很低。
本文在分析數(shù)據(jù)時,沒有使用非結(jié)構(gòu)化數(shù)據(jù),運用的算法力求適應(yīng)結(jié)構(gòu)化數(shù)據(jù),因此計算后得到的數(shù)據(jù)均為標(biāo)稱數(shù)據(jù)。
對股票價格流數(shù)據(jù)采用流計算的方法實時地進行處理。滬深交易所的計算機對買賣雙方的報單進行撮合,每次成交的價格等數(shù)據(jù)以流的方式進入計算機中的集群,集群中的處理單元對實時股票成交價格等數(shù)據(jù)進行提取、過濾和分析等操作,最后得到每次成交的價格等數(shù)據(jù),供使用者聚集、利用。
通常股票價格序列不具備明確的狀態(tài)和變化的屬性,可能是由于數(shù)據(jù)非常大,可能是股票價格的隨機性,也可能是實時成交價格沒有參照,需要使用動態(tài)模型對實時數(shù)據(jù)的數(shù)量歸約,同時對歷史數(shù)據(jù)也進行數(shù)量歸約。再對數(shù)量歸約后的數(shù)據(jù)進行數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)被變換成統(tǒng)一適合研究的形式。數(shù)量歸約和數(shù)據(jù)轉(zhuǎn)換沒有前后順序要求,視投資業(yè)務(wù)實際需要的具體情況而定??捎锰娲?、較小的數(shù)據(jù)表示形式替換原數(shù)據(jù),但是要接近于保持原數(shù)據(jù)的完整性。
對股票價格序列按照單位時間分組,每一組為五個觀測值,經(jīng)數(shù)量歸約和數(shù)據(jù)轉(zhuǎn)換后,五個屬性可以在數(shù)據(jù)矩陣和相似矩陣上進行研究。之所以選擇相似性矩陣,與我們度量數(shù)據(jù)相似性和相異性的鄰近度的方法有關(guān),多個對象兩兩之間的相似度的算法結(jié)束后,所有的相似度通常用一個對稱矩陣表示。一般而言,價格序列矩陣是一個非負的數(shù)值,對象之間彼此高度相近或者“接近”時,其值接近1。特別當(dāng)?shù)扔?時,即一個對象與自己的相似度非常大,完全相同,差別為0。對象越不同,該值越小,其值接近0,說明對象彼此相異,差別非常大。
數(shù)據(jù)矩陣由兩種實體組成,即:行代表單位時間的價格這一對象,列代表這一對象的屬性。相似矩陣,只包含一類實體,表示多個單位時間里同一只股票的若干個價格兩兩的相似性度量。一般把數(shù)據(jù)矩陣轉(zhuǎn)化為相似矩陣,分析將在相似矩陣上運行。
1.股票價格狀態(tài)的內(nèi)涵。股票價格狀態(tài),是指股票的價格通過聚類算法來度量,相似度在相對較長時間內(nèi)持續(xù)保持較高的近似不變的狀況,稱之為價格狀態(tài)相似,相似度在一定值以下,稱之為價格狀態(tài)相異。
像這樣同一只股票連續(xù)較長時間內(nèi),價格相似性高的時間序列價格數(shù)據(jù)排列在一起時,表明價格狀態(tài)相似,股票價格具有狀態(tài)的性質(zhì)。
2.股票價格狀態(tài)的實證分析。以上交所某股票為例,選取2018年7月24日——10月26日62個交易日的一組股票價格量:開盤價、最高價、最低價、收盤價和擾動項做該股票的價格狀態(tài)實證分析。
先對股票價格量進行數(shù)據(jù)規(guī)約和轉(zhuǎn)換,然后進行相似度計算。實證發(fā)現(xiàn):
7月24日-8月8日、8月28日-9月12日、9月27日-10月16日在這三個時間段,相似度較高;8月9日-8月27日、9月13日-9月26日、10月17日-10月26日,這三個時間段的股價的相似較高。
但是,7月24日-8月8日和8月9日-8月27日這兩個連續(xù)時間段內(nèi)的相似度雖然較高,但是有一個由大變小再變大的過程。相同現(xiàn)象的時間段還有8月28日-9月12日和9月13日-9月26日、9月27日-10月16日和10月17日-10月26日。
說明股價有保持狀態(tài)不變的性質(zhì),也有變化的特點。
1.股票價格變化的內(nèi)涵。股票價格變化,是指股票價格通過聚類算法來度量,相似度在相對較短時間內(nèi)由較高值變成較低值,然后又變成較高值的情形。這種由較高相似度變成較低相似度或者由較低相似度變成較高相似度的過程,稱之為股票價格變化相異。
2.股票價格變化的實證分析。利用相同的數(shù)據(jù),先對價格量進行數(shù)據(jù)規(guī)約和轉(zhuǎn)換,然后進行相似度計算。
在7月24日-8月8日和8月9日-8月27在這兩個連續(xù)的時間段內(nèi),價格相似度由高變低,然后又變高,表明價格狀態(tài)被破壞,說明價格發(fā)生了變化,和股票市場的實際情況相吻合。
股價開始處于狀態(tài)相似中,但是在緊接下來的單位時間里,相似度由較高變小,表明此時的價格數(shù)據(jù)與先前狀態(tài)中的數(shù)據(jù)相異,即認為股票價格變化相異,股票價格具有變化的性質(zhì)。
緊接著,相似度又變大,表明股市行情將發(fā)生改變,價格將往新的狀態(tài)發(fā)展。價格發(fā)生短暫變化后,股市行情將持續(xù),價格將保持具有狀態(tài)的性質(zhì)。股價新狀態(tài)的出現(xiàn)是以相似度相異的出現(xiàn)為前提,以價格的變化為結(jié)果。
從上面的分析中,可以得知股票價格既有狀態(tài)的性質(zhì),又有變化的性質(zhì)。價格狀態(tài)和價格變化既是統(tǒng)一的,又是對立的。價格序列之間的狀態(tài)既可能相似,又可能相異;它們的變化既可能相似,也可能相異。實踐證明,如果價格狀態(tài)相似,價格變化將受到價格狀態(tài)的約束,但是并不能保證價格變化相似。如果價格狀態(tài)相異,價格變化既可能相異,也可能相似。
本文在分析時采用大數(shù)據(jù)聚類算法的技術(shù),根據(jù)相似性,對價格序列聚類,確定價格的狀態(tài);根據(jù)鄰近的相似度,確定價格的變化。實際操作中,如何確定股票價格狀態(tài)和變化的情況遠比理論分析要復(fù)雜得多。如數(shù)量歸約采用回歸技術(shù)的話,就會涉及傳統(tǒng)計量經(jīng)濟學(xué)嚴(yán)格的條件限制,雖然推理和計算嚴(yán)謹,但是也會使原始數(shù)據(jù)丟失很多有用的信息。度量數(shù)據(jù)的相似性和相異性時,相似度計算方法非常多。由于數(shù)據(jù)的平均值是動態(tài)的,計算出來的相似度如果大于臨界值,相似的效果很明顯。當(dāng)相異度用相似度的函數(shù)表示時,度量相異度的效果不理想。總的來講,在技術(shù)和方法上需要解決的問題很多。