王建良,雷昌然
(1.中國石油大學(xué)(北京)經(jīng)濟(jì)管理學(xué)院,北京 102249;2.中國石油大學(xué)(北京)中國油氣產(chǎn)業(yè)發(fā)展研究中心,北京 102249)
天然氣作為一種低碳的化石能源,在應(yīng)對氣候變化、改善空氣等方面具有巨大的優(yōu)勢。大力開發(fā)和利用天然氣已成為世界多國能源戰(zhàn)略的重要構(gòu)成。而天然氣價格對于天然氣產(chǎn)業(yè)的發(fā)展和天然氣相關(guān)企業(yè)的生產(chǎn)經(jīng)營有著重要的影響。對天然氣價格的預(yù)測也是國內(nèi)外學(xué)術(shù)界和產(chǎn)業(yè)界所關(guān)注的熱點(diǎn)話題。本文重點(diǎn)嘗試采用一種改進(jìn)的數(shù)據(jù)挖掘技術(shù)對天然氣價格進(jìn)行預(yù)測。
針對天然氣價格的預(yù)測研究,國內(nèi)外學(xué)者已作了大量的研究工作。國內(nèi)方面,范貽昌等[1]認(rèn)為油品價格與天然氣價格有著密切的關(guān)系,前者的變化對后者有著重要的影響,因此可以通過對油品價格序列的預(yù)測來間接預(yù)測天然氣價格,其采用的預(yù)測方法是時間序列中多維自回歸模型。吳東武等[2]指出,學(xué)術(shù)界有關(guān)天然氣價格預(yù)測的研究常圍繞天然氣價格的影響因素進(jìn)行,忽略了天然氣市場自身的“異質(zhì)性”問題,因此根據(jù)天然氣市場的異質(zhì)性,構(gòu)建了異質(zhì)自回歸模型,并將其應(yīng)用到天然氣價格預(yù)測中,取得了較好的預(yù)測效果。上述研究都是針對天然氣現(xiàn)貨價格的研究,也有一些學(xué)者對天然氣期貨價格進(jìn)行研究。例如,胡創(chuàng)榮等[3]建立了修正的Markov模型,對紐約商業(yè)交易所天然氣期貨價格序列走勢進(jìn)行了實證研究,結(jié)果表明可以通過建立一個描述天然氣期貨價格變化的Markov模型來近似地估計天然氣未來期貨價格。邢文婷等[4]認(rèn)為天然氣期貨價格序列具有明顯的均值回復(fù)和跳躍特征,與經(jīng)典的天然氣期貨價格模型相比,考慮這種價格跳躍性的期貨定價模型具有更好的預(yù)測能力。
上述研究對天然氣價格的預(yù)測都有著重要的貢獻(xiàn),且提供了多種多樣的預(yù)測方法,如回歸預(yù)測、神經(jīng)網(wǎng)絡(luò)預(yù)測、小波分析等,這些方法的一個共同特點(diǎn)就是基于對有限歷史時間序列數(shù)據(jù)的分析。但是需要注意的是,這些分析對歷史時間序列數(shù)據(jù)所蘊(yùn)含的信息或規(guī)律的挖掘都是相對較淺的。近年來,數(shù)據(jù)挖掘技術(shù)的出現(xiàn)和發(fā)展為充分挖掘數(shù)據(jù)背后蘊(yùn)含信息起到了很好的支撐作用,該方法已經(jīng)被廣泛地應(yīng)用到電力價格等其他價格的預(yù)測當(dāng)中[8]。本文的主要目的是將數(shù)據(jù)挖掘技術(shù)引入到天然氣價格的預(yù)測領(lǐng)域,同時對現(xiàn)有的基于數(shù)據(jù)挖掘的價格預(yù)測方法進(jìn)行改進(jìn),構(gòu)建一種基于改進(jìn)的數(shù)據(jù)挖掘的天然氣價格預(yù)測方法。
隨著現(xiàn)代數(shù)據(jù)獲取技術(shù)和計算機(jī)網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,數(shù)據(jù)資源急劇膨脹。海量的數(shù)據(jù)是一個巨大的寶庫,其中必然蘊(yùn)含著某些為人所感興趣的規(guī)律。這些知識規(guī)律隱含在海量數(shù)據(jù)的深層,常規(guī)的技術(shù)很難有效獲得,需要利用新的理論和技術(shù)來發(fā)現(xiàn)和利用。數(shù)據(jù)挖掘(data mining,DM)正是從這些擁有海量數(shù)據(jù)的數(shù)據(jù)庫中抽取隱含的、用戶感興趣的知識,并發(fā)現(xiàn)其中有用特征的理論、方法和技術(shù)[9-11]。
基于數(shù)據(jù)挖掘的價格預(yù)測通常是指采用數(shù)據(jù)挖掘中相似性搜索方法,對目標(biāo)時間序列進(jìn)行分析,進(jìn)而對價格進(jìn)行預(yù)測。該方法較為成熟,且廣泛運(yùn)用在電力價格[12]、股票價格[13]、水文情況[14]和交通流量[15]等預(yù)測中。其本質(zhì)是從海量歷史數(shù)據(jù)中查找與當(dāng)前時間序列相似的序列,通過查找到的一組或若干組序列來預(yù)測未來的趨勢。具體過程如下:首先,借助數(shù)據(jù)挖掘算法獲取全部模式序列;其次,確定適當(dāng)?shù)拈L度,即在全部序列集合中截取當(dāng)前待查找序列——目標(biāo)序列;然后,在歷史序列中搜索,若發(fā)現(xiàn)與目標(biāo)序列相似的序列,則將該序列下一天的價格計入結(jié)果集;最后,對結(jié)果集進(jìn)行處理,得到最終預(yù)測結(jié)果。
在上述分析過程當(dāng)中,全部模式序列的獲取、相似序列的搜索和對結(jié)果集的處理是關(guān)鍵。因此,我們對這三方面進(jìn)行具體介紹。
2.1.1 全部模式序列的獲取
聚類分析是一種無監(jiān)督學(xué)習(xí)算法,是將數(shù)據(jù)劃分成群組的過程,是目前獲取全部模式序列的主要方法[16]。聚類分析有多種不同的算法,大致可分為層次聚類算法、分割聚類算法、基于約束的聚類算法、機(jī)器學(xué)習(xí)中的聚類算法和用于高維數(shù)據(jù)的聚類算法[17]。具體而言,分割聚類算法中K-means算法比較適合運(yùn)用在時間序列數(shù)據(jù)分析問題中,因此在時間序列數(shù)據(jù)的全部模式序列獲取方法中應(yīng)用最為廣泛[18-19]。
2.1.2 相似序列的搜索
經(jīng)過聚類分析獲取全部模式序列后,下一步就要進(jìn)行相似序列搜索工作,該工作是一個數(shù)據(jù)查找和對比過程,一般借助于計算機(jī)程序?qū)崿F(xiàn)。而確保其實現(xiàn)最佳結(jié)果的核心是對相似做出合理判定。這就引出了差異度θ(θ≥0)和序列相似度D(D≥0)的概念。對于給定差異度θ,如果序列值α和序列值β間的相似度D≤θ,則可認(rèn)為序列α和序列β在給定差異度θ下是相似的。序列相似度D常用歐式距離[20]計算見式(1)。
(1)
式中:α(i)、β(i)分別為序列α和序列β的第i個元素;m為序列元素個數(shù)。
2.1.3 對結(jié)果集的處理
相似性搜索工作結(jié)束后,還需要對結(jié)果集進(jìn)行處理。最終的結(jié)果集包含一個或數(shù)個價格數(shù)據(jù)。對結(jié)果集中價格數(shù)據(jù)的處理是預(yù)測的關(guān)鍵,也是預(yù)測的最后一步,直接影響最終預(yù)測結(jié)果。傳統(tǒng)對結(jié)果集的處理主要是采用簡單的均值計算。具體而言,如果結(jié)果集中包含n個價格,則最終預(yù)測結(jié)果F計算見式(2)。
(2)
前文所述的傳統(tǒng)模型在眾多領(lǐng)域都取得了較好的預(yù)測效果,然而該模型仍然存在一些缺陷和不足,導(dǎo)致預(yù)測結(jié)果和實際情況存在一定的誤差。因此,本文在傳統(tǒng)方法的基礎(chǔ)上做出了兩點(diǎn)改進(jìn)。
2.2.1 差異度自動調(diào)整機(jī)制
在匹配歷史序列時,需要設(shè)定合適的差異度θ。傳統(tǒng)方法中,一般是根據(jù)經(jīng)驗人為設(shè)定差異度。如果對θ設(shè)定過高,會將大量本不需要的相似度較小的序列引入結(jié)果集,導(dǎo)致預(yù)測產(chǎn)生誤差。如果對θ設(shè)定過低,則會出現(xiàn)無法查找到相似序列的情況,即結(jié)果集為空集,無法得到預(yù)測價格。為避免錯誤情況出現(xiàn),提高預(yù)測準(zhǔn)確度,本文設(shè)計了一種自動調(diào)整機(jī)制。該機(jī)制的原理是在全部檢索完成后,先對結(jié)果集進(jìn)行檢查。如果判斷結(jié)果集為空,則降低相似度要求,而后再次重復(fù)檢索過程。具體步驟如下:①檢索歷史數(shù)據(jù)庫,如果相似度符合要求,則將下一天的價格數(shù)據(jù)計入結(jié)果集;②檢索完畢,判斷結(jié)果集是否為空,若不為空,轉(zhuǎn)到④,若為空,轉(zhuǎn)到③;③啟動調(diào)整機(jī)制,適當(dāng)降低差異度要求,重復(fù)①和②;④對結(jié)果集進(jìn)行處理。
顯然,該機(jī)制中選擇不同差異度降低量會影響求得結(jié)果的速度,可根據(jù)實際的時間限制情況進(jìn)行調(diào)整。
2.2.2 結(jié)果集加權(quán)平均計算
傳統(tǒng)方法在對預(yù)測結(jié)果進(jìn)行處理時,采用了簡單平均值法,此種算法是假設(shè)匹配到的不同時期的序列對最終結(jié)果的影響是相同的。顯然,這種假設(shè)有很大的局限性。當(dāng)目標(biāo)序列和匹配序列時間距離較近時,兩個序列所處時期的自然環(huán)境和社會環(huán)境差異較小,匹配序列對結(jié)果的影響程度較大,反之則較小。
因此,本文基于有關(guān)研究[21-23],提出用賦予權(quán)重的方式改進(jìn)前文提到的傳統(tǒng)結(jié)果集處理方法。賦權(quán)方法的核心在于權(quán)值的引入。根據(jù)前文所述可知,針對同一目標(biāo)序列,來自不同時期的匹配對最終結(jié)果的影響不同。基于這種思想,在歷史數(shù)據(jù)庫檢索完畢確認(rèn)結(jié)果集非空后,在對結(jié)果集的處理過程中引入權(quán)值ω。權(quán)值ω定量反映了賦予權(quán)重的大小,即歷史序列對結(jié)果的影響程度。其定義見式(3)。
(3)
式中:Len為結(jié)果集中的歷史價格和目標(biāo)序列的時間距離,當(dāng)Len很小,即距離很近時,權(quán)值ω接近1,反之;當(dāng)Len很大時,權(quán)值是趨于0的很小的數(shù),應(yīng)用此定義,會使得距離目標(biāo)序列較近的序列獲得高權(quán)重;Ω為控制權(quán)重增大或減小比例的參數(shù)。
有了權(quán)重的定義之后,可將權(quán)重的概念引入結(jié)果集的匯總計算中。引入權(quán)值后,最終預(yù)測結(jié)果F計算見式(4)。
(4)
本文以對天然氣日度現(xiàn)貨價格的預(yù)測為例進(jìn)行方法的驗證,所使用的數(shù)據(jù)集來自于Henry Hub natural gas spot price。該數(shù)據(jù)集提供了1997年1月7日~2018年1月1日的天然氣價格數(shù)據(jù)。該數(shù)據(jù)集主要包含兩個字段,分別為日期和天然氣價格。整體歷史數(shù)據(jù)走勢如圖1所示。
圖1 美國Henry Hub天然氣日度現(xiàn)貨價格Fig.1 Daily Henry Hub natural gas spot price for the U.S.(資料來源:http:∥tonto.eia.gov/dnav/ng/hist/rngwhhdd.htm)
為提高數(shù)據(jù)挖掘的效率和質(zhì)量,在獲得天然氣時間序列價格后,首先是要對所獲得的價格數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化預(yù)處理,即采取一些措施使得數(shù)據(jù)變得干凈、準(zhǔn)確和簡潔。這是因為直接獲取的原始數(shù)據(jù)存在雜亂性、重復(fù)性和不完整性等問題[24-26]。在時間序列數(shù)據(jù)的預(yù)處理中,通常有清理、集成、轉(zhuǎn)化和歸約等方法[27]。
本文采用一種常用的比例平均值方法來對歷史數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理[28],計算見式(5)。
(5)
(6)
式中,n為當(dāng)月天數(shù)。
為了驗證預(yù)測效果,本文將歷史價格數(shù)據(jù)的時間軸劃分為兩部分:2017年1月之前的數(shù)據(jù)作為訓(xùn)練集;2017年1月~2017年12月的數(shù)據(jù)作為測試數(shù)據(jù)。為了更直觀的展示,我們將測試數(shù)據(jù)集進(jìn)一步劃分為12個子時段,即每月對應(yīng)一個時段。然后用本文提出的改進(jìn)的模式序列相似性搜索的天然氣價格預(yù)測方法(adjusted pattern sequence similarity search,APSS)對2017年以前的數(shù)據(jù)進(jìn)行訓(xùn)練測試,并對2017年1月到12月的天然氣價格進(jìn)行預(yù)測,最后與實際值進(jìn)行對比。為了量化對比結(jié)果,本文采用學(xué)術(shù)界常用的MRE(mean relative error)和MAPE(mean absolute percentage error)兩個指標(biāo)來衡量天然氣價格預(yù)測的準(zhǔn)確性[29-30]。MER和MAPE的計算見式(7)和式(8)。
(7)
(8)
本文預(yù)測結(jié)果如圖2所示。從圖2中可以看出,本文對于日度天然氣價格的預(yù)測結(jié)果與實際值擬合程度很高,其預(yù)測的MRE和MAPE見表1,可以看出12個時段內(nèi),除了第10個時段,即2017年10月的MRE和MAPE超過10%以外,其余基本在7%以內(nèi),而12個階段的整體MRE和MAPE為5.41%和5.65%。
圖2 APSS整體預(yù)測結(jié)果Fig.2 The overall forecast results of APSS
為了驗證本文提出的改進(jìn)方法是否比傳統(tǒng)方法更為有效,本文同時也采用傳統(tǒng)模式序列相似性搜索方法(pattern sequence similarity search,PSS)對天然氣價格進(jìn)行了預(yù)測。其預(yù)測結(jié)果與改進(jìn)后的預(yù)測結(jié)果的對比見表1和圖3。
表1 采用傳統(tǒng)PSS和改進(jìn)的APSS方法下預(yù)測結(jié)果的MRE和MAPETable 1 Comparison of MRE and MAPE of forecast results from traditional PSS and modified APSS
圖3 APSS和PSS預(yù)測結(jié)果對比Fig.3 Comparison of forecast results from APSS and PSS
由表1可知,APSS方法下的MRE和MAPE無論是每一個時段的表現(xiàn),還是整體的表現(xiàn),都比PSS方法下的低。以整體表現(xiàn)為例,APSS方法的MRE和MAPE分別為5.41%和5.65%,而PSS方法為6.13%和6.18%。這表明,APSS相對于PSS預(yù)測效果更好。由圖3可知,APSS的預(yù)測結(jié)果與真實值之間無論在趨勢上還是數(shù)值上都比PSS方法更為匹配。綜上,本文提出的改進(jìn)的數(shù)據(jù)挖掘方法能夠?qū)崿F(xiàn)對天然氣價格的有效預(yù)測,且與傳統(tǒng)方法相比,具有更高的預(yù)測效果。
作為影響天然氣產(chǎn)業(yè)發(fā)展的重要因素,對天然氣價格的預(yù)測具有重要意義。本文在分析現(xiàn)有文獻(xiàn)有關(guān)天然氣價格預(yù)測的基礎(chǔ)上,提出了一種基于改進(jìn)的數(shù)據(jù)挖掘技術(shù)的天然氣價格預(yù)測方法,該方法的核心是序列相似性搜索技術(shù)。在方法提出之后,利用美國天然氣日度現(xiàn)貨價格進(jìn)行了實驗驗證和對比分析。結(jié)果表明,數(shù)據(jù)挖掘技術(shù)可以運(yùn)用在天然氣價格預(yù)測中,而本文所提出的改進(jìn)方法的預(yù)測效果相較于傳統(tǒng)方法更優(yōu)。
需要注意的是,本文提出的基于數(shù)據(jù)挖掘的價格預(yù)測方法需要以大量的歷史數(shù)據(jù)輸入為前提,且數(shù)據(jù)本身是受多種因素影響呈現(xiàn)較強(qiáng)波動性的(事實上,正是由于這種波動性的存在,才使得預(yù)測變得有價值)。而目前國內(nèi)自產(chǎn)天然氣價格仍然受政府指導(dǎo)價影響,價格波動性小且可預(yù)期性強(qiáng);中國進(jìn)口LNG和管道氣價格雖然實現(xiàn)了與其他價格的聯(lián)動波動,波動性較強(qiáng),但是歷史數(shù)據(jù)非常有限。基于此,本文提出的方法目前還無法直接在中國應(yīng)用,但是該方法能夠很好地對美國的Henry Hub、英國的NBP和日本的LNG等價格進(jìn)行預(yù)測,而這三大中心的天然氣價格是國際天然氣價格水平的重要標(biāo)尺和價格漲跌的風(fēng)向標(biāo)[2]。因此,這些地區(qū)的天然氣價格預(yù)測結(jié)果對于了解中國進(jìn)口天然氣價格的變化趨勢具有重要的意義。隨著國產(chǎn)天然氣價格市場化的逐步推進(jìn)、進(jìn)口天然氣價格數(shù)據(jù)的不斷積累,可以預(yù)期該方法也將在未來直接應(yīng)用于中國的天然氣價格預(yù)測當(dāng)中。