陳海龍 黃飛 謝晟
摘 要:重尾分布是存在于許多高頻時間序列的邊緣分布,而且在尾部存在著大量的信息?;谥匚卜植嘉仓笖?shù)估計的Hill估計方法提出優(yōu)化改進的AvHill估計方法,該方法成功地降低了Hill估計的方差。同時,融合矩估計方法和最大似然估計方法的思想,給出重尾評測的MM估計,其在漸近方差上也低于Hill估計?;诶碚摲抡骐S機獲取的1 000個數(shù)據(jù)進行評測方法的比較分析,Hill估計、AvHill估計和MM估計在的測試中表現(xiàn)了各個估計的穩(wěn)定程度并在不同的數(shù)據(jù)容量中表現(xiàn)出了不同的優(yōu)點。針對股票數(shù)據(jù)的漲跌絕對值的測試中,將3種方法進行綜合運用估計,通過對3種估計方法的交點進行數(shù)據(jù)上的分段,可發(fā)現(xiàn)各種估計方法在不同的數(shù)據(jù)容量中的優(yōu)缺點以及各種估計方法的優(yōu)缺點。
關(guān)鍵詞:重尾估計; Hill估計; AvHill估計; MM估計; 股票數(shù)據(jù)
DOI:10.15938/j.jhust.2019.02.014
中圖分類號: TP399
文獻標志碼: A
文章編號: 1007-2683(2019)02-0096-07
Abstract:There exist many marginal distributions of high frequency time series data in the Heavytailed distribution which stores a great deal of information in its tail. Based on the Hill's estimator which is the classic in the Heavytailed index, the AvHill's estimator is proposed and AvHill's estimator successfully reduce the variance of the Hill's estimator. The MM estimator is proposed which is based on the moment estimator and the maximum likelihood meanwhile and it also reduces the variance of the Hill's estimator. Based on the theoretical simulation in the 1000 data and compare the data, Hill's estimator , AvHill's estimator and MM estimator express their own advantage in the different data capacity and degree of stability. We use Hill's estimator , AvHill's estimator and MM estimator to estimate the absolute value in the up and down of the stock data. We find the data segment using the intersections of the curves of the three estimators to reflects the function and the advantage of the three estimator in the different data segment.
Keywords:Heavy tailed estimation; Hill's estimator; AvHill's estimator; MM estimator; stock data
收稿日期: 2017-04-14
基金項目: 黑龍江省自然科學基金(A201301); 哈爾濱市科技創(chuàng)新人才研究專項資金(2017RAQXJ045).
作者簡介:
黃 飛(1990—),男,碩士研究生;
謝 晟(1994—),男,碩士研究生.
通信作者:
陳海龍(1975—),男,博士,教授,碩士研究生導師,Email:hrbustchl@163.com.
0 引 言
重尾分布現(xiàn)像經(jīng)常出現(xiàn)在金融、氣象學、經(jīng)濟等領(lǐng)域的研究中,尤其是高頻時間序列數(shù)據(jù)的邊緣分布。現(xiàn)實生活中所遇到的大量非高斯信號或噪聲也具有顯著的尖峰脈沖特性[1],通常這種情況下并不符合高斯分布的假設(shè),而且該種信息不能用簡單的線性模型進行描述[2]。許多研究也表明,金融資產(chǎn)價格、保險索賠、網(wǎng)絡(luò)流量以及許多人類行為現(xiàn)象不滿足正態(tài)分布假設(shè),而是服從重尾分布[3]。唐笑通等在對著名的ON/OFF模型進行研究后指出,聚合流量的突發(fā)性由ON和OFF周期的重尾分布引起的[4]。后來的學者發(fā)現(xiàn)高額的金融資產(chǎn)收益率不是正態(tài)分布而是重尾分布的,正態(tài)分布的假設(shè)將會導致嚴重低估的極端情形下的內(nèi)在風險。在現(xiàn)實生活中,極端的情況(如巨額虧損和巨額盈利)發(fā)生的概率要遠遠高于標準正態(tài)分布所顯示的概率。極端情況往往會帶來巨額風險,2015年的股票暴跌帶來的嚴重后果充分地說明了這一點。重尾分布的尾部也存在著大量的信息,若我們忽視這些存在于尾部的信息則會帶來決策上的誤區(qū)。若想準確地捕捉極端事件發(fā)生的可能性以及通過尾部的信息帶來更直觀的觀察,必須能準確描述分布的重尾程度,即準確地估計重尾分布的尾部指數(shù),我們稱之為重尾指數(shù)。
Pareto在1987年提出了Pareto理論以及指出20%的經(jīng)營往往帶來80%的利潤[5],而且Pareto分布也是一種常用的重尾分布。20世紀,許多學者發(fā)現(xiàn)了重尾分布的現(xiàn)象并且提出了許多估計重尾分布尾指數(shù)的方法。英國人Gosset的1908年發(fā)現(xiàn)了在小分布的數(shù)集中的一種特殊的重尾分布——T分布。在1949年,Zipf[6]發(fā)現(xiàn)分布具有尖峰厚尾的特點當他在研究日常用的詞匯表時并提出了一種估計方法。1975年,Pickands[7]提出了現(xiàn)在仍在頻繁地應(yīng)用在重尾指數(shù)估計的Pickands估計。Pickands估計有一個缺陷:當它是一致性的估計的時候,它的估計是無窮的。Hill[8]基于最大似然函數(shù)提出了Hill估計。其他的學者提出了矩估計,核估計[9]以及更多的其它估計。
自20世紀90年代初期上海和深圳兩個股票交易所建立以來,中國的股票市場已經(jīng)經(jīng)過了幾十年的發(fā)展。股票作為經(jīng)濟發(fā)展的重要指標,集中體現(xiàn)了國家宏觀調(diào)控對股票市場影響的效果。在行為金融學中認為股票名義收益率是不確定的,實際收益率是穩(wěn)定的,它與市場的擾動是相關(guān)的[10]。早在1963年Mandelbort[11-12]就已指出:高額的金融資產(chǎn)是非正態(tài)的,是厚尾的。由于金融經(jīng)濟數(shù)據(jù)往往具有尖峰重尾的統(tǒng)計特征,難以用高斯分布法擬和,因此近年來重尾序列的研究成為統(tǒng)計學及相關(guān)領(lǐng)域的熱點問題之一[13]。李秀敏等[14]在觀察上證指數(shù)每日收盤價時也發(fā)現(xiàn)股票收益率服從正態(tài)分布是不合適的,而且它的分布具有較厚尾部特征。簡志宏等[15]研究了滬深股指,發(fā)現(xiàn)其收益序列具有右偏、尖峰厚尾等典型特征。本文根據(jù)Hill估計、AvHill估計和MM估計綜合考慮并給出了一種新的綜合估計方法。在模擬實驗中,這種綜合估計方法取得了優(yōu)秀的模擬效果。綜合估計方法比3種方法中和任何一種的估計更準確,并且將數(shù)據(jù)進行了分段處理,對每段選擇優(yōu)勢的估計方法進行估計。并根據(jù)數(shù)據(jù)量的大小進行不同的分段和不同的組合估計。將其應(yīng)用在股票的漲跌的絕對值中,可以體現(xiàn)出重尾分布估計的優(yōu)勢,及時發(fā)現(xiàn)較大的變動并對以后的漲跌作出合理的估計。
1 極植理論與重尾分布
1.1 極值理論與經(jīng)典估計方法
隨機現(xiàn)象中的極端事件在各統(tǒng)計領(lǐng)域的應(yīng)用都是主要研究的方向,極值理論主要研究隨機樣本或隨機過程中極端事件發(fā)生的概率及其統(tǒng)計推斷,是研究分布尾部行為的一個重要工具[16]。極植理論也為罕見事件的估計和預測提供了有效的數(shù)學工具[17]。對于極值理論來說,最能體現(xiàn)其作用的是如何正確地描述曲線。重尾分布的尾部擁有許多的信息,極值在極值理論當中也占有非常重要的地位。在分析隨機變量的極值問題時常遇到的問題是如何根據(jù)經(jīng)驗確定分位函數(shù),也就是說當真正的分位點在可選擇的函數(shù)覆蓋的范圍內(nèi)被分層的可用數(shù)據(jù)使用,也就是將數(shù)據(jù)進行了可易的分配。
在這個表達式里,只有一個未知數(shù),也就是我們常說的重尾分布的尾指數(shù)估計。在重尾指數(shù)估計中有兩種估計方式:半?yún)?shù)式估計,可以分為Hill估計、Pickands估計以及矩估計;另外一種是基于Pareto分布(GPD)和極值分布的參數(shù)估計。在極值理論中,理解理論中的所有尾信息是必要的。正確合理地估計未知數(shù)是最為直接的途徑。許多知名的學者在重尾估計領(lǐng)域提出了他們自己的見解并得到了廣泛的使用以及認可。在極值理論中最重要的一個問題就是對形狀參數(shù)(極值指標)的統(tǒng)計估計,常用的方法有Hill估計、Picakands估計和矩估計等。在下一節(jié)中我們將介紹兩種經(jīng)典的估計方法以及針對它們的改進方法。
1.2 重尾估計方法優(yōu)化
1.2.1 Hill估計與AvHill估計
2 仿真及實際系統(tǒng)驗證
2.1 理論仿真
綜上所述,3種估計方法在估計金融數(shù)據(jù)時各有自己的優(yōu)勢,故將它們共同應(yīng)用在高頻的金融數(shù)據(jù)中。我們模擬人工時間序列并利用Matlab R2014b對3種估計方法進行測試,并對改進的方法進行系統(tǒng)性估計。我們隨機生成1000個0到1之間的獨立同分布變量并將其從小到大進行排列以符合估計的條件。
2.2 實際數(shù)據(jù)驗證
數(shù)據(jù)來源于軟件同花順上的上海證券交易所于2005年到2017年的上證指數(shù)的漲跌變化量,數(shù)據(jù)總量為2953個數(shù)據(jù)量。由于在數(shù)據(jù)在跌的過程中為負數(shù),故我們將其列為絕對值以更好地對極端事件進行估計。上證指數(shù)反映了上海證券交易市場的總體走勢,同時也給我們對股票的漲跌帶來了更好的研究。股票的極端事件往往帶來巨大的收益或者損失,因此我們會著重觀察它的極端事件以此來預防大量的虧損。由于數(shù)據(jù)過于龐大,故我們將其進行歸一化處理使其范圍在0到1之間并利用Matlab R2014b進行實際數(shù)據(jù)的驗證。然后根據(jù)我們的新的綜合估計方法對該數(shù)據(jù)進行估計,并且獲取最優(yōu)的分段估計方法。
上海證券交易所的上證指數(shù)的每日變化量均有所有不同,漲為正值,跌為負值,如圖7所示。在圖7中,我們可以看到其值有正有負,且它們的變化量也不盡相同,但是它們的漲跌均不會超過400。極端的情況(如巨額虧損和巨額盈利)會對股市帶來不良的影響,雖然它不經(jīng)常發(fā)生,但是會使股民損失慘重。我們依據(jù)其漲跌的絕對值進行數(shù)值上的從小到大排序,如圖8所示。圖8顯示數(shù)據(jù)明顯符合重尾估計的尖峰厚尾現(xiàn)像,故對其進行科學的數(shù)值上的估計以期獲得規(guī)律性的理論,對未來的發(fā)展做出合理的估計。
2.3 模擬分析結(jié)果
在模擬的過程中,綜合估計方法取得了良好的估計方法,在各個階段取得了較好的估計值。由于3種估計的優(yōu)勢點不同,故它們在不同的范圍有不同的優(yōu)勢,取得的值達到了各個階段的最優(yōu)。因此在綜合估計上取得了良好的改進方法,比任何一種方法更優(yōu)秀。當取值不同的時候,可以進行不同的估計方法的組合,并給出相對應(yīng)的優(yōu)秀值,使重尾分布得到了良好的估計。在股票數(shù)據(jù)的實際應(yīng)用中,該綜合方法也取得了良好的估計方法。雖然在綜合估計中,只分成了兩個階段,但是根據(jù)曲線的發(fā)展趨勢,如果數(shù)據(jù)量足夠大時,MM估計的曲線最后會交于一點。在此也足以說明不同的組合方式以及數(shù)據(jù)量的大小會取得不同的效果,但是它比其中任何一種的單一估計方法都要優(yōu)秀。在兩個階段,它們在各自和范圍內(nèi)取得了良好的估計。
3 結(jié) 論
本文介紹了兩種經(jīng)典的重尾估計方法Hill估計和矩估計以及它們的改進方法。在模擬實驗中,Hill估計和AvHill估計的曲線要比MM估計的曲線更早地獲得了比較平緩的曲線。MM估計在數(shù)據(jù)容量較小時,得到重尾估計值有較大的變化值,但是Hill估計和AvHill估計的變化量趨于穩(wěn)定。數(shù)據(jù)量較小時,Hill估計和AvHill估計要優(yōu)于MM估計。當數(shù)據(jù)量逐漸增大時,MM估計逐漸表現(xiàn)出了它的優(yōu)越性并且趨于穩(wěn)定。在股票漲跌的絕對值的應(yīng)用中,容量較小時,與模擬數(shù)據(jù)所得到的曲線相似,Hill估計和AvHill估計要優(yōu)于MM估計。但隨著數(shù)據(jù)量的增大,Hill估計和AvHill估計略微優(yōu)于MM估計。3個重尾估計方法數(shù)據(jù)容量不同的情況下各有優(yōu)勢,因此我們可以根據(jù)估計方法的優(yōu)勢與弱點,在不同的范圍內(nèi)使用不同的估計方式。在金融領(lǐng)域的使用中,我們發(fā)現(xiàn)股票的漲跌會給投資者帶來巨大的利益或者巨大的損失。根據(jù)不同的時間點帶來不同的漲跌,我們需要制定更合理的股票機制并帶給企業(yè)和投資人更好的投資環(huán)境。
參 考 文 獻:
[1] 陳海龍, 劉春麗, 由承姬. Alpha穩(wěn)定分布參數(shù)評估及應(yīng)用研究[J]. 哈爾濱理工大學學報, 2013,18(4):63.
[2] 劉春麗, 邵雷, 陳海龍,等. 標準參數(shù)系下Alpha穩(wěn)定分布隨機變量的產(chǎn)生及仿真[J]. 哈爾濱理工大學學報, 2014,19(3):51.
[3] 王元月, 杜希慶, 曹圣山. 閾值選取的Hill估計方法改進--基于極值理論中POT模型的實例分析[J]. 中國海洋大學學報,社會科學版, 2012(3):42.
[4] 唐孝通, 焦秉立. 通信網(wǎng)絡(luò)聚合流量突發(fā)性的產(chǎn)生機理研究[J]. 哈爾濱理工大學學報, 2011, 16(2): 29.
[5] Colin S. Gillespie. Fitting Heavy Tailed Distributions: the PoweRlaw Package[J]. Journal of Statistical Software, 2014, 64(2): 1.
[6] ZIPF G K. Human Behavior and the Priciple of Least Effort:an Introduction to Human Ecology[M].Cambridge:Mass,1949.
[7] PICKANDS J. Statistical Inference Using Extreme Order Statistics[J].Annals of Statistics,1975(3):119.
[8] HILL B.A Simple General Approach to Inference About the Tail of a Distribution[J].Annals of Statistics, 1975(3):1163.
[9] CSORGO S.DEHEUVELS P,MASON D.Kernel Estimates of the Tail Index of a Distribution[J]. Annals of Statistics, 1985, 13(3):1050.
[10]史永, 丁偉, 袁紹峰. 市場互聯(lián)、風險溢出與金融穩(wěn)定——基于股票市場與債券市場溢出效應(yīng)分析的視角[J]. 金融研究, 2013(3): 170.
[11]MANDELBROT B. The Variation of Certain Speculative Prices[J]. Journal of Business, 1963(6): 94.
[12]B.Mandelbrot. New Methods in Statistical Ecnomics[J]. Journal of Political Economy , 1963(71):421.
[13]秦瑞兵, 孟萍. 重尾過程協(xié)整檢驗的Bootstrap逼近[J]. 云南民族大學學報: 自然科學版, 2015,24(6):480.
[14]李秀敏,蔡霞。金融市場中極值指標的位移尺度不變估計[J]. 數(shù)學的實踐與認識, 2013,43(14):231.
[15]簡志宏, 曾裕峰, 劉曦騰. 基于CAViaR型的滬深300股指期貨隔夜風險研究[J]. 中國管理科學, 2016, 24(9): 1.
[16]劉維廳, 赫英迪, 陳琳. 重尾分布的尾部指數(shù)估計及滬深股市實證分析[J]. 數(shù)學的實踐與認識, 2011, 6(4): 1.
[17]WAN Huixia Judy, LI Deyuan, HE Xuming. Estimation of High Conditional Quantiles for HeavyTailed Distributions[J]. Journal of the American Statistical Association. 2012,107(500):1453.
[18]RESNICK S, STRIC C. Smoothing the Hill estimator[J] . J Appl. Probab, 1996,33: 139.
[19]DEKKERS A , EINMAHL J , DE Haan L.A Moment Estimator for the Index an Extreme Value Distribution[J]. Annals of Statistics , 1989(17):1833.
[20]FRAGE Alves MI, GOMES M I, DE Haan L,et al. Mixed Moment Estimators and Location Invariant Alternatives[J]. Extremes, 2009(12):149.
(編輯:溫澤宇)