• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于強化學(xué)習(xí)算法的自適應(yīng)配對交易模型

    2017-12-08 06:52:52胡文偉胡建強周劍峰
    管理科學(xué) 2017年2期
    關(guān)鍵詞:協(xié)整閾值交易

    胡文偉,胡建強,李 湛,周劍峰

    1 上海工程技術(shù)大學(xué) 管理學(xué)院,上海 201620 2 復(fù)旦大學(xué) 管理學(xué)院,上海 200433 3 上海社會科學(xué)院 應(yīng)用經(jīng)濟研究所,上海 200020 4 國泰君安證券公司 固定收益部,上海 200120

    管理科學(xué)

    基于強化學(xué)習(xí)算法的自適應(yīng)配對交易模型

    胡文偉1,胡建強2,李 湛3,周劍峰4

    1 上海工程技術(shù)大學(xué) 管理學(xué)院,上海 201620 2 復(fù)旦大學(xué) 管理學(xué)院,上海 200433 3 上海社會科學(xué)院 應(yīng)用經(jīng)濟研究所,上海 200020 4 國泰君安證券公司 固定收益部,上海 200120

    配對交易是統(tǒng)計套利中最主要的交易策略,但隨著市場有效性的逐漸提高,該策略的獲利機會正變得越來越有限,傳統(tǒng)的固定參數(shù)交易模型已難以保證配對交易一直獲得最大利潤,交易模型的參數(shù)不僅需要優(yōu)化,而且還需要動態(tài)地、自動地調(diào)整優(yōu)化值,因此有必要研究開發(fā)具有人工智能屬性的參數(shù)動態(tài)優(yōu)化交易模型,這對于提升交易模型的盈利能力和執(zhí)行效率具有重要意義。

    自適應(yīng)配對交易模型是對傳統(tǒng)的協(xié)整配對交易策略進行改進,推出一種基于強化學(xué)習(xí)模式的新型統(tǒng)計套利交易模型;將Sarsa強化學(xué)習(xí)算法和ε-greedy策略與新模型相結(jié)合,把模型參數(shù)的確定方法由傳統(tǒng)的主觀經(jīng)驗法和固定參數(shù)法改進為自適應(yīng)模式的動態(tài)參數(shù)優(yōu)化法;編制的計算機程序仿真實現(xiàn)了基于新模型的套利交易全過程,涵蓋模型參數(shù)的動態(tài)優(yōu)化、套利交易的模擬操作以及交易績效的測量評估;以中國債市交易量最大的5種債券為樣本,構(gòu)建4組配對組合,采用Johansen協(xié)整檢驗法、T檢驗和Robust穩(wěn)健性檢驗等方法對交易模型和測試結(jié)果進行實證分析。

    研究結(jié)果表明,新模型的運行效果全面優(yōu)于傳統(tǒng)模型。新模型顯著提升了交易系統(tǒng)的獲利能力,收益率和索提諾比率大幅提高;同時降低了投資風(fēng)險,最大回撤出現(xiàn)明顯下降;還提高了套利交易的執(zhí)行效率,交易次數(shù)明顯減少,套利成本下降;具有持續(xù)學(xué)習(xí)的能力,能促進累計收益率不斷上升并最后收斂于最大值。研究結(jié)果還表明,協(xié)整配對交易在中國債券市場同樣具有有效性,能夠獲得顯著正收益。

    將強化學(xué)習(xí)思想與協(xié)整配對交易策略相結(jié)合,設(shè)計開發(fā)出一種新型配對交易模型,實現(xiàn)了模型參數(shù)的自適應(yīng)動態(tài)調(diào)整。這種改進型交易模型有助于應(yīng)對傳統(tǒng)配對交易策略獲利能力的下降,進一步提高配對交易策略的效率和績效。在中國融資融券和股指期貨等做空機制開閘的市場環(huán)境下,新模型可為投資者提供一種有效的套利手段和風(fēng)控工具。

    協(xié)整配對交易;Sarsa強化學(xué)習(xí)算法;自適應(yīng);動態(tài)參數(shù);優(yōu)化;仿真;統(tǒng)計套利

    引言

    配對交易是量化投資和統(tǒng)計套利中最主要的交易策略,目前量化投資已成為成熟市場最主流的投資方式之一,更被視作資本市場成熟與否的一個重要標志。在中國,隨著做空機制逐漸放松,尤其是融資融券和股指期貨的推出,以協(xié)整配對交易為代表的主流量化交易方式也開始出現(xiàn)興起之勢。

    大量實證研究證實了協(xié)整配對交易策略的有效性,不論是海外還是中國市場,在資產(chǎn)配對組合選擇得當?shù)那疤嵯?,協(xié)整配對交易策略可成功抓住統(tǒng)計套利機會并獲取收益。而且,由于套利收益本質(zhì)上來源于市場的非有效性,因此配對交易在欠成熟市場有著更廣闊的前景。

    然而,隨著配對交易從神秘走向普及以及市場非有效性的逐漸改善,該策略的獲利機會正變得越來越有限。在現(xiàn)有的交易模型中,評估時間窗口、交易時間窗口、開倉閾值、平倉閾值等主要參數(shù)往往采用經(jīng)驗值或固定常數(shù)。已有研究表明,傳統(tǒng)的主觀經(jīng)驗法和固定參數(shù)法雖然方法簡單,但卻具有局限性,不能保證配對交易一直獲得最大利潤。另外,傳統(tǒng)策略的使用前提(如殘差的方差不變性等理想條件)實際上往往難以滿足,金融資產(chǎn)價格的時間序列通常存在明顯的異方差性,這意味著協(xié)整配對交易的最優(yōu)交易區(qū)間和最優(yōu)止損區(qū)間等參數(shù)設(shè)置不能固定不變,否則,區(qū)間過窄會導(dǎo)致交易頻率過高并增加交易成本,區(qū)間過寬則會造成反應(yīng)遲鈍而錯失獲利或止損時機。

    這些現(xiàn)狀導(dǎo)致準確選擇交易模型參數(shù)被推到越來越重要的位置。已有研究認為,交易模型的參數(shù)不僅需要優(yōu)化,而且更需要動態(tài)地調(diào)整優(yōu)化值。為此有學(xué)者引入GARCH模型,計算動態(tài)的價差標準差,以此作為交易信號;有學(xué)者提出基于O-U過程的套利策略;還有學(xué)者提出對經(jīng)驗性的選擇參數(shù)進行遍歷性研究,循環(huán)查找最優(yōu)閾值。這些改進方案都在各自特定的數(shù)據(jù)樣本上取得了一定成效,但同時也受到新的適用條件的很大約束,要么需要符合GARCH模型或O-U過程,要么需要預(yù)設(shè)經(jīng)驗性參數(shù)等專家系統(tǒng),而且不能應(yīng)對環(huán)境發(fā)生的超預(yù)計變化。

    基于上述分析,本研究認為有必要開發(fā)無需知識背景、無需預(yù)定義的自適應(yīng)模式的參數(shù)動態(tài)優(yōu)化策略。本研究把在人工智能領(lǐng)域得到成功應(yīng)用的強化學(xué)習(xí)思想引入配對交易策略,幫助交易模型的參數(shù)實現(xiàn)自適應(yīng)動態(tài)優(yōu)化。這種改進型配對交易系統(tǒng)不必受制于預(yù)設(shè)模型的約束,不必依賴專家系統(tǒng)的存在和限制,不必擔(dān)憂環(huán)境發(fā)生超預(yù)計變化,它在分析和處理的過程中能夠根據(jù)環(huán)境變化實時地、高效地、自動地、智能地、自適應(yīng)地進行參數(shù)優(yōu)化,從而使交易模型的參數(shù)始終保持優(yōu)化狀態(tài)。

    這種改進型交易模型有助于提升協(xié)整配對交易的盈利能力和執(zhí)行效率,在中國融資融券和股指期貨等政策開啟的環(huán)境下,為投資者提供一種新型、有效的低風(fēng)險投資策略模型。

    1 相關(guān)研究評述

    1.1協(xié)整配對交易

    配對交易是統(tǒng)計套利和量化投資中最重要、最主流的投資策略[1],這種新穎的交易策略最早出現(xiàn)于20世紀80年代的美國,一經(jīng)推出便獲得空前成功。GATEV et al.[2]、GRANGER[3]、JOHANSEN[4]最早提出配對交易的思想和基本原理之后,眾多學(xué)者對協(xié)整配對交易展開了多角度和多市場的研究,主要圍繞協(xié)整配對交易的兩個核心問題展開,一是配對組合選擇,二是交易模型設(shè)計。這兩個環(huán)節(jié)緊密相關(guān),但在研究進程上,前者起步早且研究相對充分,后者起步晚并有難題待解。

    第1個環(huán)節(jié)主要涉及配對組合選擇、協(xié)整關(guān)系檢驗和配對交易有效性論證,目前已經(jīng)取得大量成果。VIDYAMURTHY[5]和HUCK[6-7]為配對組合的選擇和檢驗提供了理論和方法,其他眾多學(xué)者的上百篇文獻實證檢測了配對交易策略在全球各大宗商品市場、股市個股和股指期貨市場的有效性,大量研究結(jié)果表明配對交易策略在全球大部分市場皆有效。但是,隨著套利交易普及化和市場有效性逐步提高,統(tǒng)計套利的獲利機會變得越來越有限。BOTOS et al.[8]研究配對交易策略在東西歐市場的回報情況,結(jié)果表明,1993年至2013年西歐和東歐市場的配對交易回報率分別為16.98%和20.74%,投資組合的Sharpe比率分別僅為0.57(西歐)和0.92(東歐),與之前10年的1.89(西歐)和1.39(東歐)相比明顯下降。在中國,由于受到賣空機制的制約,此方面的實踐和研究滯后于海外成熟市場數(shù)十年,但目前已在迎頭趕上,尤其在配對組合選擇和配對交易有效性兩個方面。相關(guān)研究已經(jīng)很多,在最新的研究中,胡倫超等[9]、趙勝民等[10]和高輝等[11]分別以內(nèi)地主要指數(shù)成份股、融資融券標的股、股指期貨交易數(shù)據(jù)等為對象,實證分析交易的有效性;LIU et al.[12]還研究了中國雙重上市股票的套利機會。眾多研究結(jié)果皆表明,配對交易策略同樣適用于中國市場,而且配對交易在中國更多地表現(xiàn)為一種短期策略。

    配對交易第2個環(huán)節(jié)主要涉及交易模型設(shè)計和最優(yōu)參數(shù)確定。這部分研究起步較晚,但空間極大,而且隨著套利獲利機會趨弱,亟須進一步的深入研究。該環(huán)節(jié)的重點是確定模型參數(shù),包括開倉時間、平倉時間、持倉時間、交易期限、投資倉位等閾值。在早期時,確定參數(shù)大多采用主觀經(jīng)驗法。之后學(xué)者們開始推出各種技術(shù)手段對參數(shù)進行優(yōu)選,其中,進場和離場規(guī)則的最優(yōu)參數(shù)求解吸引了最多研究者。KUO et al.[13]研究了采用背離策略的配對交易的最優(yōu)平倉點,并用數(shù)值分析案例對其結(jié)論給出例證。所謂背離策略是指在配對股票價格走勢出現(xiàn)背離時開倉,當價差觸及目標線或止損線時進行平倉,該策略的隱含假設(shè)是配對股票的價差服從均值回歸過程。SONG et al.[14]用HJB方程來刻畫價值函數(shù),其研究結(jié)果表明,最優(yōu)平倉問題可以通過一系列quasi-algebraic方程得以解決,給出了數(shù)值分析案例;LARSSON et al.[15]研究價差服從Levy過程的含跳躍模型的平倉優(yōu)化問題,求證了可優(yōu)化性的必要條件,采用有限元方法對誤差給出精確估計模型,并對最優(yōu)解的存在性和唯一性給出例證。另有學(xué)者對交易模型參數(shù)進行綜合研究。NGO et al.[16]把交易規(guī)則簡化為3種組合結(jié)構(gòu)之間的最優(yōu)切換問題,即A和B皆空倉、A長倉B短倉、A短倉B長倉,證明最優(yōu)切換點的存在,并用數(shù)值仿真方法給出例證;ZENG et al.[17]綜合研究統(tǒng)計套利中的資產(chǎn)組合選擇、參數(shù)邊界尋優(yōu)和最優(yōu)交易策略設(shè)計等一系列問題。截至目前,配對交易領(lǐng)域的大部分研究都是基于投資組合理論和統(tǒng)計分析方法,但也有少數(shù)學(xué)者開始將隨機控制[18]、遺傳算法[19]、神經(jīng)網(wǎng)絡(luò)[20]、粒子群算法[21]、人工蜂群算法[22]等其他領(lǐng)域的研究方法運用進來。此外,學(xué)者們也針對中國市場進行類似研究。歐陽紅兵等[23]針對中國A+H股的價格數(shù)據(jù)進行實證分析,采用數(shù)值算法研究交易持續(xù)期、交易間隔期和交易次數(shù)等最優(yōu)閾值;唐國強等[24]針對中國白糖期貨合約數(shù)據(jù),利用切比雪夫不等式和夏普比率在回歸殘差的基礎(chǔ)上構(gòu)建套利閾值統(tǒng)計量,在利潤最大化的前提下求得最優(yōu)閾值;麥永冠等[25]構(gòu)建折回首日WM-FFBD策略,結(jié)合GGR和Herlemont策略,運用3種檢驗方法,研究在滬深港證券市場交易中建倉策略對配對交易年收益率的影響。

    隨著參數(shù)尋優(yōu)研究的深入,學(xué)者們開始注意到不合適的模型參數(shù)對配對交易收益率的不利影響以及固定參數(shù)和靜態(tài)模型的局限性。DO et al.[26]在重新檢驗最早的GGR模型[2]的收益能力時發(fā)現(xiàn),配對交易的收益率呈下降趨勢,背后原因并非交易者增多導(dǎo)致的交易機會減少,而是GGR模型設(shè)定的交易期太短,導(dǎo)致很多配對因交易期結(jié)束而被強行平倉;HUCK[6]用S&P100成分股進行配對交易,測試了不同的形成期長度和開倉閾值,也發(fā)現(xiàn)配對交易的收益率受形成期長度的影響;邵超等[27]對A股歷史數(shù)據(jù)進行實證檢驗后也發(fā)現(xiàn),配對交易的收益率與形成期和交易期的長度有關(guān)。這些研究結(jié)果皆說明,交易期和形成期等期限的長短對交易收益率有顯著的影響,而固定不變的預(yù)定期限無法因應(yīng)市場情況的變化作出調(diào)整,因而注定難以獲取最大收益。一些學(xué)者的研究為這種變化找到了理論依據(jù),ALEXAKIS[28]在研究了若干股指的長期協(xié)整關(guān)系后發(fā)現(xiàn),這種長期關(guān)系會受到市場表現(xiàn)的影響,當市場趨勢顯著改變時,投資者應(yīng)該重新構(gòu)建套利組合;張河生等[29]從異方差的角度進行分析,對股指期貨進行模擬配對交易測試,結(jié)果表明經(jīng)驗型模型參數(shù)不能保證交易一直獲得最大利潤,必須考慮異方差的存在,固定的模型參數(shù)會喪失很多交易機會,甚至導(dǎo)致巨大的虧損,應(yīng)該通過不斷調(diào)試來選擇參數(shù)最優(yōu)值。

    針對傳統(tǒng)模型存在的缺陷,學(xué)者們提出一些改進策略和模型。一種思路是考慮異方差和ARCH效應(yīng),建立基于GARCH模型的協(xié)整套利策略,代表性研究包括李世偉[30]、彭舒怡[31]和何樹紅等[32],這些學(xué)者的實證檢驗皆證實其改進型模型比傳統(tǒng)策略獲得了更好的套利效果。另外一種思路是嘗試將固定參數(shù)改為動態(tài)參數(shù),劉陽等[33]將神經(jīng)網(wǎng)絡(luò)與動態(tài)GARCH模型相結(jié)合,通過挖掘價格偏差中的非線性特征,使動態(tài)GARCH模型能夠更及時地發(fā)現(xiàn)波動性的變動,從而降低傳統(tǒng)靜態(tài)模型的預(yù)測偏差;邢恩泉等[34]對協(xié)整配對交易策略進行改進,利用計算機快速循環(huán)運算的特點,對經(jīng)驗性選擇參數(shù)進行遍歷性研究,循環(huán)查找最優(yōu)配對組合和建倉閾值,從而具有根據(jù)數(shù)據(jù)變化自我動態(tài)修正的功能。

    上述改進方案都在各自的特定數(shù)據(jù)樣本上取得一定成效,但是這些方案轉(zhuǎn)而又受到新的使用條件約束,要么需要符合GARCH模型或O-U過程等,要么需要預(yù)設(shè)經(jīng)驗性參數(shù)等專家系統(tǒng),而且不能應(yīng)對環(huán)境發(fā)生超預(yù)計變化,因而這些方案仍然具有一定的局限性。因此,有必要開發(fā)一種無需知識背景、無需預(yù)定義并且能夠跟隨環(huán)境變化做出自適應(yīng)調(diào)整的動態(tài)優(yōu)化策略,這應(yīng)該是進一步提高配對交易效率和績效的重要突破口。

    1.2強化學(xué)習(xí)

    強化學(xué)習(xí)(reinforcement learning,RL)是機器學(xué)習(xí)的一種主要模式,強化學(xué)習(xí)的相關(guān)算法在沒有知識背景和預(yù)定義的情況下通過數(shù)值化處理能夠表現(xiàn)出強大的學(xué)習(xí)能力,能夠在與環(huán)境的交互中學(xué)習(xí)行為策略。強化學(xué)習(xí)模式在人工智能和計算機控制領(lǐng)域已經(jīng)得到較多的實際應(yīng)用并取得佳績。Google的Deep Mind公司一直是這方面的領(lǐng)先者,SILVER et al.[35]關(guān)于強化學(xué)習(xí)算法結(jié)合人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于游戲開發(fā)以及進行人機圍棋挑戰(zhàn)的研究,其研究成果AlphaGO機器人挑戰(zhàn)前圍棋世界冠軍,并獲得舉世矚目的勝利。

    強化學(xué)習(xí)模式在金融領(lǐng)域也得到一些應(yīng)用。SU-TTON et al.[36]認為,在金融相關(guān)問題的求解上,不確定性和動態(tài)性是必要的組成部分,因此強化學(xué)習(xí)算法很適合這類問題的求解。目前強化學(xué)習(xí)模式在金融領(lǐng)域主要運用于證券交易尤其高頻交易和投資組合管理。LEE et al.[37]提出一個基于強化學(xué)習(xí)算法的股票交易框架,利用多智能體的Q-learning算法,通過定義必要的角色,做出投資決策并進行股票仿真交易,他對韓國股市的測試表明該方法比其他類似方法具有更好的性能。TAN et al.[38]使用自適應(yīng)網(wǎng)絡(luò)模糊推理系統(tǒng)的人工智能模型,基于強化學(xué)習(xí)算法,提出一個非套利型的高頻交易系統(tǒng)。不過,強化學(xué)習(xí)模式雖然已開始在金融領(lǐng)域有所應(yīng)用,但相對于其他領(lǐng)域,在金融領(lǐng)域的應(yīng)用還只是處于起步階段,在配對交易和統(tǒng)計套利上的具體應(yīng)用和技術(shù)開發(fā)更是處于空白。

    在眾多強化學(xué)習(xí)算法中,Q-learning學(xué)習(xí)和Sarsa學(xué)習(xí)是兩個重要的算法,前者是一種離策略,后者是一種在策略,后者的效果通常好于前者,不過標準Sarsa算法對狀態(tài)空間有要求,必須是離散的且空間數(shù)較小。在中國,Sarsa算法已開始應(yīng)用在不少新興產(chǎn)業(yè),應(yīng)用最多的是機器人控制[39],其次是交通信號控制[40]、網(wǎng)絡(luò)建模[41]和組織運作過程控制[42]等。但是,在金融領(lǐng)域的應(yīng)用尚有待開發(fā)。

    2 相關(guān)理論和模型

    2.1強化學(xué)習(xí)的基本原理

    強化學(xué)習(xí)又稱增強學(xué)習(xí)、加強學(xué)習(xí)、再勵學(xué)習(xí)或激勵學(xué)習(xí),與監(jiān)督學(xué)習(xí)、統(tǒng)計模式識別和人工神經(jīng)網(wǎng)絡(luò)等構(gòu)成機器學(xué)習(xí)的主要模式,是人工智能領(lǐng)域的關(guān)鍵技術(shù)。但有別于傳統(tǒng)的機器學(xué)習(xí),強化學(xué)習(xí)的一大優(yōu)點是無需預(yù)設(shè)專家系統(tǒng),無需預(yù)知被控對象和環(huán)境的模型,具有鮮明的自適應(yīng)能力,具有實時學(xué)習(xí)和終身學(xué)習(xí)的能力。

    強化學(xué)習(xí)的目標是在與環(huán)境的試探性交互中學(xué)習(xí)行為策略,以求獲取最大長期獎賞。對強化學(xué)習(xí)過程的描述見圖1,強化學(xué)習(xí)系統(tǒng)涉及兩個主體,即作為行動者的智能體和智能體所處的環(huán)境,環(huán)境擁有各種可能的復(fù)雜狀態(tài),所有狀態(tài)構(gòu)成狀態(tài)集S。在t時刻,當智能體面對環(huán)境狀態(tài)st(st∈S)及前一時刻(t-1)環(huán)境狀態(tài)改變的瞬時獎賞值rt時,可在其行為集A中選取一個合適的行為或稱動作at(at∈A)來執(zhí)行,于是環(huán)境狀態(tài)轉(zhuǎn)移到st+1,同時智能體立即得到來自環(huán)境狀態(tài)改變的瞬時獎賞值rt+1,根據(jù)此獎勵,智能體更新其在st狀態(tài)和at動作上獲得的經(jīng)驗,然后決策下一時刻(t+1)的at+1動作。依此循環(huán)往復(fù),智能體通過與環(huán)境不斷地交互作用,不斷嘗試并調(diào)整自身行為,不斷學(xué)習(xí)如何把狀態(tài)映射到動作以獲得最大長期獎賞。

    圖1 強化學(xué)習(xí)過程Figure 1 Process of Reinforcement Learning

    在上述過程中,強化學(xué)習(xí)系統(tǒng)還需具備其他幾個核心要素,即策略函數(shù)、狀態(tài)轉(zhuǎn)移概率函數(shù)、獎賞函數(shù)和值函數(shù)。

    (1)策略函數(shù)即決策函數(shù)D:S→A,用以確定所有狀態(tài)下智能體需要進行的動作。Dt(s,a)為在t時刻、s狀態(tài)下選擇a動作的概率,或者說把s狀態(tài)映射至a動作的概率,此種映射即為策略。

    (4)值函數(shù)有兩種形式,即狀態(tài)值函數(shù)VD(s)和狀態(tài)行為值函數(shù)QD(s,a)。狀態(tài)值函數(shù)用來估計s狀態(tài)對于智能體來說究竟好到什么程度,其衡量指標采用未來總的期望獎賞。由于未來獎賞還有賴于未來的動作,因此該函數(shù)還與具體的策略D有關(guān)。VD(s)為從s狀態(tài)開始一直采用D策略得到的期望獎賞,即

    (1)

    其中,ED為一直采用D策略所對應(yīng)的期望值;γ為未來獎賞值折現(xiàn)至現(xiàn)時的折扣率,γ∈[0,1];rt+k+1為從(t+k)時刻至(t+k+1)時刻的瞬時獎賞值,k=0,1,2,…,∞。

    QD(s,a)為狀態(tài)行為值函數(shù),也稱狀態(tài)-動作對值函數(shù),其函數(shù)值稱為Q值,表示在s狀態(tài)下實施a動作并且以后一直采用D策略時的期望獎賞,即

    (2)

    上述兩種值函數(shù)是估計未來全部獎賞值折現(xiàn)后的總值,皆是對長期效果的全局性評價,兩者都可用作目標函數(shù)。強化學(xué)習(xí)系統(tǒng)的任務(wù)就是求得最優(yōu)策略D*,使值函數(shù)達到最大,即

    D*=argDmaxVD(s),s?S

    (3)

    2.2Q-learning算法和Sarsa算法

    強化學(xué)習(xí)的主流算法目前包括動態(tài)規(guī)劃算法、蒙特卡洛算法和瞬時差分算法,瞬時差分算法因收斂效果好而被廣泛采用。比較流行的瞬時差分算法包括Q-learning算法和Sarsa算法,兩者均以狀態(tài)行為值函數(shù)Q(s,a)為目標函數(shù),是對馬爾科夫決策過程框架下的強化學(xué)習(xí)問題的求解。Q-learning算法的狀態(tài)行為值更新過程為

    Qt+k+1(st,at)=Qt+k(st,at)+ΔQt+k

    (4)

    其中,Qt+k(st,at)為(t+k)時刻的Q值,其起始值Qt(st,at)為隨機值,也可設(shè)置為0;α為學(xué)習(xí)率,α∈[0,1],在學(xué)習(xí)過程中從1到0不斷衰減。在一定條件下,Q-learning采用貪心法即可保證收斂。

    Sarsa算法是一種基于策略的算法,可視作改進的Q-learning算法,其迭代公式為

    Qt+k+1(st,at)=Qt+k(st,at)+ΔQt+k

    ΔQt+k=α[rt+γQt+k(st+1,at+1)-Qt+k(st,at)]

    (5)

    可以明顯看出,Q-learning算法是采用最大值進行迭代,是一種離策略,與模型無關(guān)。而Sarsa算法則是采用實際Q值進行迭代,是一種在策略,它與模型有關(guān)。雖然在策略一般好于離策略,但是標準Sarsa算法對狀態(tài)空間有一定要求,空間必須是離散的,而且空間數(shù)較小。

    從迭代公式還可看出,α越大則當前學(xué)習(xí)對Q值的影響越大。學(xué)習(xí)過程剛開始時,智能體沒有任何經(jīng)驗,α接近于1,用實際累積回報作為Q的估計值;隨著時間推移,智能體不斷學(xué)習(xí),知識的積累越來越多,對狀態(tài)的評估越來越重要,α就應(yīng)該下降;最后,α趨近于0,智能體只是通過對狀態(tài)的評估來選擇最好的行動。

    2.3協(xié)整配對交易基本原理

    配對交易是統(tǒng)計套利和量化投資中最重要、最主流的交易策略,在各種投資組合策略中,配對交易具有自融資和市場中性的特點,其收益與大市的相關(guān)度很低,牛熊市和橫盤市皆可獲利。目前主流的配對交易策略包括協(xié)整配對交易法(簡稱協(xié)整套利法或協(xié)整法)、隨機價差法和最小距離法,建立在協(xié)整理論基礎(chǔ)上的協(xié)整法應(yīng)用最為廣泛。協(xié)整理論為一些原本不能使用經(jīng)典回歸分析法的非平穩(wěn)序列開辟了一種建模途徑,有些非平穩(wěn)序列經(jīng)過線性組合后卻可能成為平穩(wěn)序列,此類構(gòu)造出來的平穩(wěn)的“協(xié)整組合”或稱協(xié)整方程可以用來解釋變量之間長期穩(wěn)定的均衡關(guān)系,而且資產(chǎn)組合短期的暫時偏離可被視為統(tǒng)計套利的機會。

    協(xié)整法的核心是,認為協(xié)整組合的資產(chǎn)價格具有均值回復(fù)性,即價差圍繞均值水平上下波動,并會以很高概率向均值回歸。當組合資產(chǎn)的價差偏離歷史均值時,預(yù)期這種背離在未來會得到糾正,因而認為出現(xiàn)了套利機會,從而做空價格較高資產(chǎn)并買入價格較低資產(chǎn),等價差回歸長期均衡水平時再反向平倉操作,由此賺取價差收斂帶來的收益。

    由此可見,協(xié)整配對交易主要涉及兩大工作,一是選擇配對資產(chǎn),二是設(shè)計交易模型。首先,從市場上找出相關(guān)性較高的資產(chǎn)進行配對,并檢驗其間是否存在協(xié)整關(guān)系,常用方法有兩種,即Engle-Granger兩步協(xié)整檢驗法和Johansen協(xié)整檢驗法。兩種方法都是首先將兩個時間序列做回歸,然后針對殘差項做平穩(wěn)性檢驗,若是平穩(wěn)的,就認為存在協(xié)整關(guān)系。兩種方法的主要差別在于,前者采用一元線性回歸方程,后者采用多元方程技術(shù),因此Johansen檢驗法在假設(shè)和應(yīng)用上的限制較少。

    協(xié)整配對交易的第2個重要環(huán)節(jié)是設(shè)計交易模型,其核心工作是設(shè)計和確定模型參數(shù)。最重要的參數(shù)有4個,即評估時間窗口、交易時間窗口、開倉閾值和平倉閾值。評估時間窗口主要用于協(xié)整測試,以評估協(xié)整參數(shù)和系數(shù),重新評估價差方程;交易時間窗口是止損觸發(fā)器,如果時間序列超過了交易時間窗口仍然沒有收斂到均值,那么就會進行強行止損;開倉閾值是開倉指示器,當配對資產(chǎn)的價差超越開倉閾值時,將產(chǎn)生交易信號和開倉動作;平倉閾值是另一個止損觸發(fā)器,平倉閾值寬于開倉閾值,當配對資產(chǎn)的價差不斷遠離長期的價格中樞,并超越平倉閾值時,就將強行平倉止損,這是配對交易最重要的風(fēng)控措施。4個參數(shù)的優(yōu)化原則是投資組合的綜合績效最大化,目前常用的績效評定指標包括夏普指標、特雷諾指標、詹森指標、特雷諾-布萊克估價比率和索提諾比率等。

    3 模型設(shè)計和仿真測試

    3.1基于強化學(xué)習(xí)模式的協(xié)整配對交易模型

    如前所述,在傳統(tǒng)的協(xié)整配對交易模型中,模型參數(shù)往往采用靜態(tài)常數(shù),但由于金融資產(chǎn)價格的時間序列存在明顯的異方差性,因此該方法具有相當大的局限性。針對此傳統(tǒng)模型的缺陷,一些參數(shù)調(diào)整型改進方案已取得一定成效,但是又受到新的使用條件的約束,而且不能應(yīng)對環(huán)境發(fā)生的超預(yù)計變化,因此仍然具有不可忽視的局限性。為此,本研究將強化學(xué)習(xí)的思想和算法引入交易模型設(shè)計,不僅幫助模型實現(xiàn)參數(shù)調(diào)整,而且助其實現(xiàn)自適應(yīng)模式的動態(tài)優(yōu)化。

    基于強化學(xué)習(xí)模式的改進型配對交易系統(tǒng)見圖2,在該系統(tǒng)中交易決策系統(tǒng)承擔(dān)交易指令的決策和執(zhí)行,是整個配對交易系統(tǒng)的核心,對應(yīng)于強化學(xué)習(xí)系統(tǒng)中的智能體;證券市場和證券價格是配對交易系統(tǒng)中的環(huán)境及環(huán)境狀態(tài);投資績效評估指標被用作獎賞值;評估時間窗口、交易時間窗口、開倉閾值、平倉閾值4個參數(shù)構(gòu)成智能體的行為,并以實時動態(tài)調(diào)整的方式進行工作。

    圖2 基于強化學(xué)習(xí)模式的配對交易決策過程Figure 2 Workflow of RL Pairs Trading System

    整個系統(tǒng)的工作流程從預(yù)設(shè)4個參數(shù)初始值開始,智能體密切監(jiān)控環(huán)境狀態(tài),當配對資產(chǎn)的價差偏離長期價差中樞并觸及開倉閾值時,智能體將指示對配對資產(chǎn)組合進行相應(yīng)的開倉操作;在持倉建立后,智能體繼續(xù)不斷地監(jiān)控和評估環(huán)境狀態(tài),并實時動態(tài)地調(diào)整參數(shù)值;一旦配對資產(chǎn)的價差縮小并回到價差中樞以下,或者價差繼續(xù)擴大并觸及平倉閾值,二者中發(fā)生任意一個便會觸發(fā)平倉止損操作,同時輸出獎賞值作為獎勵;然后,當前的信息和值函數(shù)被更新,算法重新進行迭代,智能體繼續(xù)密切關(guān)注環(huán)境狀態(tài),等待下一次投資組合建倉;如此循環(huán)往復(fù),直至投資期終結(jié)。在整個決策運行過程中,智能體不斷地根據(jù)每次投資組合的開倉和平倉獲得的經(jīng)驗以及環(huán)境狀態(tài)的變化動態(tài)調(diào)整最優(yōu)參數(shù)。

    (6)

    其中,ri為第i期的收益率,N為總期數(shù)。(6)式表明,當交易策略定為最大化收益且同時防范回撤風(fēng)險時,索提諾比率是一個很好的交易策略性能評定指標。

    在目前使用最廣的兩個強化學(xué)習(xí)算法(即Q-learning算法和Sarsa算法)中,Q-learning是一種與模型無關(guān)的離策略算法,Sarsa算法則與模型有關(guān),是一種在策略。雖然Sarsa算法對狀態(tài)空間在數(shù)量和離散性上有一定的要求,但配對交易涉及的狀態(tài)空間能夠比較容易地符合這些要求??紤]到在策略的效果一般好于離策略,而且本研究主要是驗證模型的有效性,因此采用Sarsa算法進行研究。

    在配對交易模型涉及的4個參數(shù)中,開倉閾值和平倉閾值屬于連續(xù)型參數(shù),本研究通過均分處理為其做離散化,每0.1個單位抽取一個數(shù)值,這樣處理后,所有參數(shù)皆為離散型,所有參數(shù)的每一種排列組合被視為一個動作。Sarsa算法的迭代公式為

    Qk(st,at)=Qk-1(st,at)+α[rt+γQk-1(st+1,at+1)-

    Qk-1(st,at)]

    (7)

    此外,為了避免陷入局部最優(yōu),本研究采用ε-greedy探索策略,在選取動作時引入一定程度的隨機變化來解決開發(fā)與利用之間的平衡問題,即以概率1-ε(ε∈[0,1])利用已有策略,以概率ε搜索新的策略。在學(xué)習(xí)初期,ε可選較大值,隨著時間推移,智能體的學(xué)習(xí)在加深,經(jīng)驗在豐富,隨機性便可逐漸降低,ε逐漸減小。

    在本研究編制的算法中,首先對動作進行初始化,為評估時間窗口、交易時間窗口、開倉閾值和平倉閾值4個參數(shù)設(shè)定初始值;然后,選擇足夠數(shù)量的迭代來訓(xùn)練智能體;最后,依據(jù)ε-greedy策略優(yōu)化上述4個參數(shù)的具體值來作為智能體的動作。根據(jù)前面提出的方法,索提諾比率作為計算獎勵的指標,其返回值(即獎賞值)在學(xué)習(xí)過程中通過環(huán)境不斷反饋給智能體,最后,索提諾比率在完成所有任務(wù)后還要作為最終數(shù)據(jù)輸出。交易模型所對應(yīng)的計算機流程圖見圖3。

    3.2仿真測試的數(shù)據(jù)和樣本

    為了更好地結(jié)合中國市場的實際情況,本研究以產(chǎn)品品種多、流動性好、可借券賣空的中國債券市場為研究對象。在具體品種上,本研究選擇交易量最大的3年期國債、5年期國債、7年期國債、3年期金融債和3年期AAA信用債,按照期限相同或發(fā)行主體相同的原則,將上述債券組成3年期國債-5年期國債、5年期國債-7年期國債、3年期國債-3年期金融債、3年期國債-3年期AAA信用債4組配對組合。

    由于債券的日收盤價存在局部不連續(xù)現(xiàn)象,因而本研究選擇中債收益率估值曲線作為具體研究數(shù)據(jù),該數(shù)據(jù)源的截面數(shù)據(jù)不僅連續(xù),而且與真實成交價最為貼近。本研究以每日估值收益率作為離散時間序列進行實驗測試,原始數(shù)據(jù)來自于WIND數(shù)據(jù)庫,選取2004年至2016年全部數(shù)據(jù),數(shù)據(jù)的統(tǒng)計信息見表1。鑒于債券在某些特定日期會出現(xiàn)單日大幅跳躍但次日復(fù)原的特殊情況,該現(xiàn)象雖然對交易模型影響巨大,但在實際操作中可以人為地主動預(yù)判并加以控制,因此對實盤交易的影響并不大,因而本研究將這類數(shù)據(jù)作為異常點進行過濾處理。

    3.3協(xié)整關(guān)系檢驗

    從直觀看,以3年期國債-5年期國債這組配對組合為例,兩個債券的收益率隨時間推移向同一方向移動,見圖4(a)。圖4(b)為其收益率差值圖,更直觀地反映出兩者之間的協(xié)整關(guān)系,價差圍繞均衡位置上下波動。其他3組配對組合也存在類似現(xiàn)象。

    本研究采用Johansen協(xié)整檢驗法進行協(xié)整檢驗。以3年期國債-5年期國債配對組合為例,檢驗結(jié)果顯示,似然比檢驗值為31.90,0.10、0.05、0.01水平的臨界值分別為17.85、19.96、24.60。31.90均大于這些臨界值,表示在90%、95%、99%置信水平上拒絕了不存在協(xié)整關(guān)系的假設(shè),即3年期國債與5年期國債的價格之間存在協(xié)整關(guān)系。其他3組配對組合也都得到類似的檢驗結(jié)果,在90%置信水平上全都存在顯著的協(xié)整關(guān)系。

    表1 樣本數(shù)據(jù)的統(tǒng)計信息Table 1 Statistics of the Sample

    注:3年期AAA信用債上市較晚,因而數(shù)據(jù)相對較少。

    圖3 基于強化學(xué)習(xí)模式的配對交易模型計算機流程圖Figure 3 Computer Flow Chart of the RL Pairs Trading Model

    3.4仿真配對交易結(jié)果和分析

    在強化學(xué)習(xí)算法的操作中,需要提供訓(xùn)練集用于配對交易模型的學(xué)習(xí),為此本研究選擇樣本中的75%數(shù)據(jù)作為樣本訓(xùn)練集,其他數(shù)據(jù)作為測試集,見表2。整個訓(xùn)練過程迭代1 000次,在訓(xùn)練階段α=1,ε=1。 4個參數(shù)的集合(即動作)通過ε-greedy策略進行選擇,同時依據(jù)狀態(tài)更新對應(yīng)的值函數(shù)。在之后的測試階段,智能體選擇最優(yōu)參數(shù)進行仿真交易。

    以3年期國債-5年期國債這組配對組合為例,分別采用傳統(tǒng)的靜態(tài)參數(shù)協(xié)整配對交易模型(cointegration pairs model,CPM)和本研究提出的強化學(xué)習(xí)型動態(tài)參數(shù)協(xié)整配對交易模型(reinforcement learning model,RLM)進行仿真交易,測試在訓(xùn)練集和測試集中的效果。對于訓(xùn)練集,本研究通過傳統(tǒng)的梯度尋優(yōu)方法,為其選取表現(xiàn)最好的一組數(shù)值作為最優(yōu)參數(shù);對于測試集,本研究只是設(shè)定4個參數(shù)的選取范圍和精度,由系統(tǒng)依據(jù)當前狀態(tài)以及本研究設(shè)計的模型自動地、動態(tài)地選擇出最優(yōu)參數(shù)。

    為了全面展示和比較兩種交易模型的運行效果,本研究分別給出兩種交易法在訓(xùn)練集和測試集的交易信號圖和收益表現(xiàn)圖。圖5(a)和圖5(b)給出傳統(tǒng)配對交易法在訓(xùn)練集中的效果,圖6(a)和圖6(b)給出強化學(xué)習(xí)型配對交易法在訓(xùn)練集中的表現(xiàn),圖7(a)和圖7(b)、圖8(a)和圖8(b)分別為兩種方法在測試集中的表現(xiàn)。在交易信號圖中,藍色為開倉信號線,紅色為平倉信號線,紫色為止損線,紅色區(qū)塊(上半部陰影區(qū))表示持有組合多頭,綠色區(qū)塊(下半部陰影區(qū))表示空頭。在收益表現(xiàn)圖中,可以看到累計收益率、日均收益率和最大回撤的動態(tài)情況。

    (a)收益率 (b)收益率差值

    圖4 3年期國債和5年期國債的收益率Figure 4 Historical Yields of 3Y Treasury and 5Y Treasury

    注:*為在0.10水平上顯著。

    表3的上半部分第2列~第5列數(shù)據(jù)匯總了CPM和RLM在訓(xùn)練集和測試集中各項性能表現(xiàn)。在訓(xùn)練集上,RLM在收益和風(fēng)險上的表現(xiàn)已經(jīng)全面超越CPM。在測試集上,RLM的性能提高程度則更大,年化復(fù)合收益率從1.80%大幅提高至4.30%,索提諾比率也從0.04大幅提升至0.09;與此同時,承受的市場風(fēng)險和操作風(fēng)險不僅沒有同步上升,反而明顯下降,反映市場風(fēng)險的最大回撤從6.50%降至5.70%,影響操作風(fēng)險的交易次數(shù)從45次降至37次。

    由于強化學(xué)習(xí)算法具有學(xué)習(xí)功能,因此在訓(xùn)練過程中,隨著迭代次數(shù)的增多,會不斷獲得經(jīng)驗,最終可使累計收益率收斂于最大值。本研究的測試中,經(jīng)過8 000次迭代后,系統(tǒng)的累計收益率達到最大值,見圖9。

    3.5穩(wěn)健性檢驗

    把新模型推廣運用到本研究的全部4個配對組合,比較CPM與RLM兩種方法的實施效果,仿真結(jié)果見表3。由表3可知,在測試集上,RLM的收益率比CPM算法大幅提高76%~383%;索提諾比率提高50%~125%;最大回撤也獲得不同程度的下降,降幅最高達到62%。顯然,RLM改進模型的運行效果全面地、顯著地優(yōu)于傳統(tǒng)CPM模型。

    為了對測試結(jié)果進行更嚴格的檢驗和分析,本研究進一步對兩種方法在測試集上的收益率差異性進行顯著性檢驗。各做15組測試,然后采用t檢驗對收益率均值之差進行假設(shè)檢驗,CPM和RLM的收益率及其差異的顯著性檢驗結(jié)果見表4。檢驗結(jié)果表明,在95%甚至99%的置信水平上,基于強化學(xué)習(xí)算法的配對交易模型在收益率上顯著優(yōu)于傳統(tǒng)的協(xié)整配對交易模型。

    4 結(jié)論

    4.1研究結(jié)果

    本研究設(shè)計一種基于強化學(xué)習(xí)模式的配對交易模型,主要模型參數(shù)能夠自動地進行動態(tài)優(yōu)化,同時為該新模型設(shè)計并構(gòu)建一個計算機交易系統(tǒng),并進行仿真交易。仿真交易的測試結(jié)果表明,新模型的運行效果全面超越傳統(tǒng)模型。新模型能夠顯著提升交易系統(tǒng)的獲利能力,收益率和索提諾比率獲得大幅提高;還能降低投資風(fēng)險,最大回撤出現(xiàn)明顯下降;提高了套利交易的執(zhí)行效率,交易次數(shù)明顯減少,套利成本得以下降;具有持續(xù)學(xué)習(xí)的能力,能促進累計收益率不斷上升并最后收斂于最大值。測試結(jié)果還表明,協(xié)整配對交易在中國債券市場同樣具有有效性,能夠獲得顯著正收益。

    (a)交易信號圖 (b)收益表現(xiàn)圖

    圖5CPM在3年期國債-5年期國債配對組合上的仿真交易(訓(xùn)練集)
    Figure5CPMSimulatedTradingon3YTreasury-5YTreasuryPair(inSample)

    (a)交易信號圖 (b)收益表現(xiàn)圖

    圖6RLM在3年期國債-5年期國債配對組合上的仿真交易(訓(xùn)練集)
    Figure6RLMSimulatedTradingon3YTreasury-5YTreasuryPair(inSample)

    (a)交易信號圖 (b)收益表現(xiàn)圖

    圖7CPM在3年期國債-5年期國債配對組合上的仿真交易(測試集)
    Figure7CPMSimulatedTradingon3YTreasury-5YTreasuryPair(outSample)

    4.2技術(shù)貢獻和應(yīng)用價值

    ①本研究設(shè)計的新模型具有較大的應(yīng)用價值,新模型為證券自動交易領(lǐng)域增添了一個新的交易策略和模型,有助于應(yīng)對傳統(tǒng)配對交易模型獲利能力的下降,提升配對交易日漸式微的獲利機會。②對傳統(tǒng)交易模型進行了一次較大程度的改進,將強化學(xué)習(xí)思想與配對交易策略相結(jié)合,設(shè)計開發(fā)出一種新型配對交易模型,實現(xiàn)了模型參數(shù)的自適應(yīng)動態(tài)調(diào)整。③隨著中國融資融券和股指期貨等做空機制和相關(guān)產(chǎn)品的不斷開閘,新模型可為投資者提供一種新興有效的套利手段和風(fēng)控工具。④選擇中國債券市場中交易量最大的5種債券為研究對象,填補了配對交易研究在國內(nèi)債券市場上的空白。

    (a)交易信號圖 (b)收益表現(xiàn)圖

    圖8 RLM在3年期國債-5年期國債配對組合上的仿真交易(測試集)Figure 8 RLM Simulated Trading on 3Y Treasury-5Y Treasury Pair(out Sample)

    表4 CPM和RLM收益率差異的顯著性檢驗Table 4 Significance Tests for the Performance Difference Between CPM and RLM

    注:**為在0.050水平上顯著,***為在0.010水平上顯著。

    圖9 RLM在3年期國債-5年期國債配對組合測試集上的學(xué)習(xí)過程Figure 9 Learning Process of RLM on 3Y Treasury-5Y Treasury in Sample Data

    4.3局限和展望

    ①受到樣本條件的限制,雖然選擇中國市場上交易量最大的5種債券作為研究對象,但研究數(shù)據(jù)未能覆蓋更多債券品種,尤其是低級債,這將令本研究結(jié)論具有一定的局限性,未來研究可以進一步對更多債券進行全面檢驗;②本研究采用一種指標作為投資組合績效的評定標準,未來研究可以嘗試多種指標,以進一步明確研究結(jié)論的適用范圍;③本研究對交易模型初始參數(shù)采取的是主觀設(shè)定,雖然自適應(yīng)模型的最大特點就是自動優(yōu)化參數(shù),但若未來研究能對初始參數(shù)進行高效初選,將有助于提高模型的收斂速度。

    [1]吳曉求.證券投資學(xué).北京:中國人民大學(xué)出版社,2014:445-492.

    WU Xiaoqiu.Securitiesinvestment.Beijing:China Renmin University Press,2014:445-492.(in Chinese)

    [2]GATEV E,GOETZMANN W N,ROUWENHORST K G.Pairs trading:performance of a relative-value arbitrage rule.TheReviewofFinancialStudies,2006,19(3):797-820.

    [3]GRANGER C W J.Some properties of time series data and their use in econometric model specification.JournalofEconometrics,1981,16(1):121-130.

    [4]JOHANSEN S. Statistical analysis of cointegration vectors.JournalofEconomicDynamicsandControl,1988,12(2/3):231-254.

    [5]VIDYAMURTHY G.Pairstrading:quantitativemethodsandanalysis.Hoboken,NJ:Wiley,2004:73-136.

    [6]HUCK N.Pairs selection and outranking:an application to the S&P 100 index.EuropeanJournalofOperationalResearch,2009,196(2):819-825.

    [7]HUCK N.Pairs trading and outranking:the multi-step-ahead forecasting case.EuropeanJournalofOperationalResearch,2010,207(3):1702-1716.

    [8]BOTOS B,NAGY L,ORMOS M.Pairs trading arbitrage strategy in the old and new EU member states∥Proceedingsofthe14thInternationalConferenceonFinanceandBanking.Ostrava,2013:21-31.

    [9]胡倫超,余樂安,湯鈴.融資融券背景下證券配對交易策略研究——基于協(xié)整和距離的兩階段方法.中國管理科學(xué),2016,24(4):1-9.

    HU Lunchao,YU Lean,TANG Ling.Pairs trading strategy research considering short selling and margin trading:a two-stage approach based on cointegration and distance methods.ChineseJournalofManagementScience,2016,24(4):1-9.(in Chinese)

    [10] 趙勝民,閆紅蕾.A股市場統(tǒng)計套利風(fēng)險實證分析.管理科學(xué),2015,28(5):93-105.

    ZHAO Shengmin,YAN Honglei.Empirical study on the risk of statistical srbitrage in A-share market.JournalofManagementScience,2015,28(5):93-105.(in Chinese)

    [11] 高輝,趙進文.滬深300股指套期保值及投資組合實證研究.管理科學(xué),2007,20(2):80-90.

    GAO Hui,ZHAO Jinwen.Empirical research for hedge ratio and shares portfolio of Shanghai-Shenzhen 300 Shares Index Futures.JournalofManagementScience,2007,20(2):80-90.(in Chinese)

    [12] LIU L,BOGOMOLOV T.The law of one price and arbitrage on China′s dual-listings.TheInternationalJournalofBankingandFinance,2012,9(2):58-76.

    [13] KUO K,LUU P,NGUYEN D,et al.Pairs trading:an optimal selling rule.MathematicalControlandRelatedFields,2015,5(3):489-499.

    [14] SONG Q,ZHANG Q.An optimal pairs-trading rule.Automatica,2013,49(10):3007-3014.

    [15] LARSSON S,LINDBERG C,WARFHEIMER M.Optimal closing of a pair trade with a model containing jumps.ApplicationsofMathematics,2013,58(3):249-268.

    [16] NGO M M,PHAM H.Optimal switching for the pairs trading rule:a viscosity solutions approach.JournalofMathematicalAnalysisandApplications,2016,441(1):403-425.

    [17] ZENG Z,LEE C G.Pairs trading:optimal thresholds and profitability.QuantitativeFinance,2014,14(11):1881-1893.

    [18] CHARALAMBOUS K,SOPHOCLEOUS C,O′HARA J G,et al.A deductive approach to the solution of the problem of optimal pairs trading from the viewpoint of stochastic control with time-dependent parameters.MathematicalMethodsintheAppliedSciences,2015,38(17):4448-4460.

    [19] 陳艷,王宣承.基于變量選擇和遺傳網(wǎng)絡(luò)規(guī)劃的期貨高頻交易策略研究.中國管理科學(xué),2015,23(10):47-56.

    CHEN Yan,WANG Xuancheng.A study on high-frequency futures trading strategy based on variable selection and genetic network programming.ChineseJournalofManagementScience,2015,23(10):47-56.(in Chinese)

    [20] 李棟,張文宇.基于FAM-ELM股票價格預(yù)測研究.計算機仿真,2014,31(8):209-212,316.

    LI Dong,ZHANG Wenyu.Stock price prediction based on FAM and ELM.ComputerSimulation,2014,31(8):209-212,316.(in Chinese)

    [21] 李鋒剛,駱林,陳亞波,等.求解均值-CVaR投資組合模型的改進粒子群算法.計算機工程與科學(xué),2016,38(9):1870-1877.

    LI Fenggang,LUO Lin,CHEN Yabo,et al.An improved particle swarm optimization algorithm for portfolio based on mean-CVaR model.ComputerEngineering&Science,2016,38(9):1870-1877.(in Chinese)

    [22] 劉永波.投資組合優(yōu)化的可行性規(guī)則人工蜂群算法.智能系統(tǒng)學(xué)報,2014,9(4):491-498.

    LIU Yongbo.An artificial bee colony algorithm with the feasibility rule for portfolio investment optimizations.CAAITransactionsonIntelligentSystems,2014,9(4):491-498.(in Chinese)

    [23] 歐陽紅兵,李進.基于協(xié)整技術(shù)配對交易策略的最優(yōu)閾值研究.投資研究,2015,34(11):79-90.

    OUYANG Hongbing,LI Jin.The optimal threshold of pairs trading strategy based on co-integration analysis.ReviewofInvestmentStudies,2015,34(11):79-90.(in Chinese)

    [24] 唐國強,高偉,覃良文,等.基于切比雪夫不等式的白糖高頻數(shù)據(jù)統(tǒng)計套利.統(tǒng)計與決策,2016,445(1):87-90.

    TANG Guoqiang,GAO Wei,TAN Liangwen,et al.The statistical arbitrage strategy of high frequency sugar data based on Chebyshev inequality.Statistics&Decision,2016,445(1):87-90.(in Chinese)

    [25] 麥永冠,王蘇生.WM-FTBD配對交易建倉改進策略及滬深港實證檢驗.管理評論,2014,26(1):30-40.

    MAI Yongguan,WANG Susheng.WM-FTBD improved pairs trading open strategy and the empirical tests in Shanghai,Shenzhen and Hong Kong stock markets.ManagementReview,2014,26(1):30-40.(in Chinese)

    [26] DO B,FAFF R.Does simple pairs trading still work?.FinancialAnalystsJournal,2010,66(4):83-95.

    [27] 邵超,范宏.時間參數(shù)的設(shè)定對配對交易收益率的影響.經(jīng)濟管理學(xué)刊,2013,2(5):183-188.

    SHAO Chao,FAN Hong.The influence between the time parameters and the return of pairs trading.EconomicManagementJournal,2013,2(5):183-188.(in Chinese)

    [28] ALEXAKIS C.Long-run relations among equity indices under different market conditions:implications on the implementation of statistical arbitrage strategies.JournalofInternationalFinancialMarkets,InstitutionsandMoney,2010,20(4):389-403.

    [29] 張河生,聞岳春.基于參數(shù)調(diào)整的協(xié)整配對交易策略:理論模型及應(yīng)用.西部金融,2013,455(1):11-16.

    ZHANG Hesheng,WEN Yuechun.The co-integration pairing trading strategy based on the parameter adjustment:the theory model and application.WestChinaFinance,2013,455(1):11-16.(in Chinese)

    [30] 李世偉.基于協(xié)整理論的滬深300股指期貨跨期套利研究.中國計量大學(xué)學(xué)報,2011,22(2):198-202.

    LI Shiwei.Research on the calendar spread arbitrage of CSI 300 stock index futures based on Co integration theory.JournalofChinaUniversityofMetrology,2011,22(2):198-202.(in Chinese)

    [31] 彭舒怡.基于GARCH模型銀行股配對交易研究.知識經(jīng)濟,2013(5下):61-63.

    PENG Shuyi.Research of bank stocks pairs trading based on GARCH model.KnowledgeEconomy,2013(5-3):61-63.(in Chinese)

    [32] 何樹紅,張月秋,張文.基于GARCH模型的股指期貨協(xié)整跨期套利實證研究.數(shù)學(xué)的實踐與認識,2013,43(20):274-279.

    HE Shuhong,ZHANG Yueqiu,ZHANG Wen.Empirical study on calendar spread arbitrage of CSI 300 stock index futures based on cointegration theory and GARCH model.MathematicsinPracticeandTheory,2013,43(20):274-279.(in Chinese)

    [33] 劉陽,李艷麗, 陸貴斌.基于信息更新NN-GARCH模型的統(tǒng)計套利研究.統(tǒng)計與決策,2016,445(2):169-171.

    LIU Yang,LI Yanli,LU Guibin.Research of statistical arbitrage strategy based on NN-GARCH model.Statistics&Decision,2016,445(2):169-171.(in Chinese)

    [34] 邢恩泉,尹濤.協(xié)整模型的配對交易策略優(yōu)化.經(jīng)濟數(shù)學(xué),2015,32(1):65-69.

    XING Enquan,YIN Tao.The improvements in pairs trading strategy of the cointegration model:ergodic research on the basis of computer technology.JournalofQuantitativeEconomics,2015,32(1):65-69.(in Chinese)

    [35] SILVER D,HUANG A,MADDISON C J,et al.Mastering the game of Go with deep neural networks and tree search.Nature,2016,529(7587):484-489.

    [36] SUTTON R S,BARTO A G.Reinforcementlearning:anintroduction.Cambridge,MA:MIT Press,1998:42-56.

    [37] LEE J W,PARK J,JANGMIN O,et al.A multi-agent approach toQ-learning for daily stock trading.IEEETransactionsonSystems,Man,andCybernetics,PartA:SystemsandHumans,2007,37(6):864-877.

    [38] TAN Z,QUEK C,CHENG P Y K.Stock trading with cycles:a financial application of ANFIS and reinforcement learning.ExpertSystemswithApplications,2011,38(5):4741-4755.

    [39] 李靜靜.基于模糊K均值聚類和Sarsa(λ)算法的自適應(yīng)爬壁機器人路徑規(guī)劃.計算機測量與控制,2014,22(9):2879-2881,2885.

    LI Jingjing.Adaptive path planning of wall-climbing robot based on MIP and improved fuzzyK-means algorithm and Sarsa(λ).ComputerMeasurement&Control,2014,22(9):2879-2881,2885.(in Chinese)

    [40] 戈軍,周蓮英.基于SARSA(λ)的實時交通信號控制模型.計算機工程與應(yīng)用,2015,51(24):244-248.

    GE Jun,ZHOU Lianying.Real-time traffic signal control model based on SARSA(λ).ComputerEngineeringandApplications,2015,51(24):244-248.(in Chinese)

    [41] 劉小峰,陳國華,李真.零售網(wǎng)絡(luò)的結(jié)構(gòu)建模與演化分析.管理科學(xué),2009,22(4):23-30.

    LIU Xiaofeng,CHEN Guohua,LI Zhen.The structure of the retail networks:simulation modeling and evolution analysis.JournalofManagementScience,2009,22(4):23-30.(in Chinese)

    [42] 石春生,梁洪松.組織運作過程中的自適應(yīng)機理.管理科學(xué),2004,17(1):12-16.

    SHI Chunsheng,LIANG Hongsong.Self-adaptation mechanism in the organizational process.JournalofManagementScience,2004,17(1):12-16.(in Chinese)

    FundedProject:Supported by the National Natural Science Foundation of China(71571048)

    Biography:HU Wenwei, doctor in management, is an associate professor in the School of Management at Shanghai University of Engineering Science. Her research interests include financial engineering and securities investment. Her representative paper titled “Pricing value difference between barrier and vanilla options with binomial pricing method” was published in theJournalofShanghaiJiaotongUniversity(Issue 5, 2012). E-mail:huwenwei@sues.edu.cn

    HU Jianqiang, doctor in management, is a professor in the School of Management at Fudan University. His research interest includes financial mathematics. His representative paper titled “Efficient simulation resource sharing and allocation for selecting the best” was published in theIEEETransactionsonAutomaticControl(Issue 4, 2013). E-mail:jqhu@fudan.edu.cn

    LI Zhan, doctor in management, is a professor in the Institute of Applied Economics at Shanghai Academy of Social Sciences. His research interest includes investment management. His representative paper titled “A comparative research of average risk of portfolio on different strategies and risk diversification” was published in theJournalofShanghaiJiaotongUniversity(Issue 12, 2011). E-mail:zli@sjtu.edu.cn

    ZHOU Jianfeng, is an investment manager in the Fixed-income Division at Guotai Junan Securities Group. His research interest includes quantitative investment. E-mail:zhoujianfen012977@gtjas.com

    Self-adaptivePairsTradingModelBasedonReinforcementLearningAlgorithm

    HU Wenwei1,HU Jianqiang2,LI Zhan3,ZHOU Jianfeng4

    1 School of Management, Shanghai University of Engineering Science, Shanghai 201620, China2 School of Management, Fudan University, Shanghai 200433, China3 Institute of Applied Economics, Shanghai Academy of Social Sciences, Shanghai 200020, China4 Fixed-income Division, Guotai Junan Securities Group, Shanghai 200120, China

    Pairs trading is one of the major statistical arbitrage trading strategies. However, its profit opportunity has become scarcer due to the improvement of the market efficiency. The traditional fixed parameter trading models are no longer sufficient for eternal profit maximization. The parameters of the trading models need not only to be optimized but also to be done so dynamically in an automatic manner. Therefore, it is necessary to develop a trading model of which parameters are dynamically optimized with artificial intelligence, as it may be of significance in improving the profitability and efficiency of trading models.

    A new type of statistical arbitrage trading model is proposed based on the reinforcement learning mode, improving the traditional cointegration trading strategy; Applying the Sarsa algorithm andε-greedy strategy to the new model, the key parameters in the new trading model can self-adapt to reach the optimal values, instead of judging from professional experience or insisting on determined parameters just like the traditional strategy; A computer simulation is designed to run through the complete process of the new trading model including model parameters self-adapting adjustment, securities transaction, and trading performance evaluation. The trading simulation and empirical tests such as Johansen cointegration test, t-test, and Robustness test are conducted on four bond pairs that are composed of the top five bonds with the largest trading volumes in the mainland markets.

    The results show that the new model outperforms the traditional one in all aspects. It significantly enhances the profitability of the trading system while reducing the drawdown risks; It improves the efficiency of arbitrage trading as it reduces the number of transactions and thus transaction costs; It possesses ability to learn continuously so that it increases the accumulated return step by step and eventually converges to the highest level. The results also reveal that the cointegration trading strategy is efficient in the Chinese bond markets.

    The new model unprecedentedly adapts reinforcement learning to pairs trading, realizing the self-adapted adjustment of the model parameters. The improved model is helpful to halt the decrease in the profitability of the traditional pairs trading strategy. It may provide a new powerful arbitrage tool for investors in the Chinese markets, who now may have already adopted the short sale tools like stock index futures and margin trading.

    cointegration pairs trading;Sarsa reinforcement learning algorithm;self-adaption;dynamic parameters;optimization;simulation;statistical arbitrage

    Date:August 10th, 2016AcceptedDateJanuary 25th, 2017

    F830.9

    A

    10.3969/j.issn.1672-0334.2017.02.012

    1672-0334(2017)02-0148-13

    2016-08-10修返日期2017-01-25

    國家自然科學(xué)基金(71571048)

    胡文偉,管理學(xué)博士,上海工程技術(shù)大學(xué)管理學(xué)院副教授,研究方向為金融工程和證券投資等,代表性學(xué)術(shù)成果為“基于二叉樹方法的障礙期權(quán)與標準期權(quán)價差分析模型”,發(fā)表在2012年第5期《上海交通大學(xué)學(xué)報》,E-mail:huwenwei@sues.edu.cn

    胡建強,管理學(xué)博士,復(fù)旦大學(xué)管理學(xué)院教授,研究方向為金融數(shù)學(xué)等,代表性學(xué)術(shù)成果為“Efficient simulation resource sharing and allocation for selecting the best”,發(fā)表在2013年第4期《IEEE Transactions on Automatic Control》,E-mail:jqhu@fudan.edu.cn

    李湛,管理學(xué)博士,上海社會科學(xué)院應(yīng)用經(jīng)濟研究所教授,研究方向為投資管理等,代表性學(xué)術(shù)成果為“不同策略條件下的投資組合平均風(fēng)險比較與分散”,發(fā)表在2011年第12期《上海交通大學(xué)學(xué)報》,E-mail:zli@sass.org.cn

    周劍峰,國泰君安證券公司固定收益部經(jīng)理,研究方向為量化投資等,E-mail:zhoujianfen012977@gtjas.com

    猜你喜歡
    協(xié)整閾值交易
    小波閾值去噪在深小孔鉆削聲發(fā)射信號處理中的應(yīng)用
    外商直接投資對我國進出口貿(mào)易影響的協(xié)整分析
    智富時代(2019年2期)2019-04-18 07:44:42
    基于自適應(yīng)閾值和連通域的隧道裂縫提取
    河南金融發(fā)展和城鄉(xiāng)居民收入差距的協(xié)整分析
    智富時代(2018年3期)2018-06-11 16:10:44
    比值遙感蝕變信息提取及閾值確定(插圖)
    河北遙感(2017年2期)2017-08-07 14:49:00
    室內(nèi)表面平均氡析出率閾值探討
    交易流轉(zhuǎn)應(yīng)有新規(guī)
    上海國資(2015年8期)2015-12-23 01:47:28
    大宗交易
    《吃飯的交易》
    驚人的交易
    999久久久国产精品视频| 免费在线观看完整版高清| 五月开心婷婷网| 日本vs欧美在线观看视频| 国产亚洲午夜精品一区二区久久| 久久久久人妻精品一区果冻| 精品久久久精品久久久| 日日啪夜夜爽| 久久精品人人爽人人爽视色| 少妇被粗大猛烈的视频| 亚洲欧洲精品一区二区精品久久久 | 美女大奶头黄色视频| 免费观看a级毛片全部| 极品人妻少妇av视频| 亚洲av电影在线观看一区二区三区| 精品国产国语对白av| 一级毛片我不卡| 中文乱码字字幕精品一区二区三区| 欧美成人精品欧美一级黄| 久热这里只有精品99| 精品国产露脸久久av麻豆| 街头女战士在线观看网站| 欧美国产精品一级二级三级| 国产精品免费视频内射| 赤兔流量卡办理| 高清黄色对白视频在线免费看| 午夜老司机福利片| 校园人妻丝袜中文字幕| 韩国av在线不卡| 天天影视国产精品| 国产成人精品无人区| 18禁裸乳无遮挡动漫免费视频| 久久精品久久精品一区二区三区| 建设人人有责人人尽责人人享有的| 精品一区二区三卡| 精品福利永久在线观看| 夫妻午夜视频| 国产精品一二三区在线看| 男女无遮挡免费网站观看| 亚洲国产精品一区二区三区在线| 亚洲av男天堂| 女人爽到高潮嗷嗷叫在线视频| 悠悠久久av| 少妇被粗大的猛进出69影院| 一级,二级,三级黄色视频| 日本猛色少妇xxxxx猛交久久| 久久久久久久精品精品| 亚洲精品国产av蜜桃| 男女床上黄色一级片免费看| 男人操女人黄网站| 国产精品女同一区二区软件| 精品少妇一区二区三区视频日本电影 | 国产一区二区三区综合在线观看| 丝袜人妻中文字幕| 国产精品女同一区二区软件| 日韩一区二区三区影片| 亚洲第一av免费看| 久久精品国产亚洲av高清一级| 精品一区二区三区四区五区乱码 | 精品久久久精品久久久| 精品一区二区三卡| 汤姆久久久久久久影院中文字幕| 丰满迷人的少妇在线观看| 欧美成人午夜精品| 精品人妻熟女毛片av久久网站| 又大又爽又粗| 色视频在线一区二区三区| 青春草国产在线视频| 在线观看一区二区三区激情| 国产精品二区激情视频| 久久人人爽av亚洲精品天堂| 国产精品人妻久久久影院| 又大又黄又爽视频免费| 亚洲精品乱久久久久久| svipshipincom国产片| 在线观看国产h片| 91精品伊人久久大香线蕉| 国产免费一区二区三区四区乱码| 成年av动漫网址| 国产亚洲一区二区精品| 晚上一个人看的免费电影| 女的被弄到高潮叫床怎么办| 韩国精品一区二区三区| 亚洲第一青青草原| 久久久国产精品麻豆| 别揉我奶头~嗯~啊~动态视频 | 男人操女人黄网站| 精品久久久精品久久久| 日本欧美视频一区| 日韩一本色道免费dvd| 一边亲一边摸免费视频| 男人爽女人下面视频在线观看| 国产亚洲精品第一综合不卡| 在线看a的网站| 2018国产大陆天天弄谢| 欧美日韩精品网址| 十八禁网站网址无遮挡| 亚洲av男天堂| 曰老女人黄片| 国产探花极品一区二区| 精品久久久久久电影网| 日韩欧美精品免费久久| tube8黄色片| 亚洲av日韩在线播放| 爱豆传媒免费全集在线观看| 成年人午夜在线观看视频| 一级爰片在线观看| 天天躁夜夜躁狠狠久久av| 国产亚洲午夜精品一区二区久久| www日本在线高清视频| 纯流量卡能插随身wifi吗| h视频一区二区三区| av有码第一页| 啦啦啦在线观看免费高清www| 我要看黄色一级片免费的| 久久久国产欧美日韩av| 国产精品国产三级专区第一集| 伦理电影免费视频| 18禁观看日本| 国产成人精品久久二区二区91 | 亚洲情色 制服丝袜| 久久久久久免费高清国产稀缺| 1024香蕉在线观看| 亚洲伊人久久精品综合| 不卡av一区二区三区| 一区福利在线观看| 日本午夜av视频| av国产精品久久久久影院| 飞空精品影院首页| 免费观看av网站的网址| 欧美精品av麻豆av| 黑人巨大精品欧美一区二区蜜桃| 男女之事视频高清在线观看 | 国产片内射在线| 久久人人爽人人片av| kizo精华| 日韩伦理黄色片| 咕卡用的链子| 国产午夜精品一二区理论片| 国产一区二区三区av在线| 99热国产这里只有精品6| 免费观看性生交大片5| 超碰97精品在线观看| 久久精品国产亚洲av涩爱| 午夜福利在线免费观看网站| 日韩制服骚丝袜av| 久久人人爽av亚洲精品天堂| 最近2019中文字幕mv第一页| 欧美黑人欧美精品刺激| 少妇人妻 视频| 精品国产国语对白av| 男人添女人高潮全过程视频| 汤姆久久久久久久影院中文字幕| 卡戴珊不雅视频在线播放| www.自偷自拍.com| 中文天堂在线官网| 成人漫画全彩无遮挡| 啦啦啦啦在线视频资源| 性高湖久久久久久久久免费观看| 又粗又硬又长又爽又黄的视频| 曰老女人黄片| 成人亚洲精品一区在线观看| √禁漫天堂资源中文www| 久久久久久免费高清国产稀缺| 日韩,欧美,国产一区二区三区| 街头女战士在线观看网站| 嫩草影院入口| 日韩欧美一区视频在线观看| 日韩精品有码人妻一区| 一本久久精品| 久久毛片免费看一区二区三区| 免费高清在线观看视频在线观看| 在线观看免费高清a一片| 久久久国产欧美日韩av| 成人黄色视频免费在线看| av在线播放精品| 亚洲少妇的诱惑av| 超色免费av| 国产1区2区3区精品| 免费黄频网站在线观看国产| 麻豆av在线久日| 啦啦啦中文免费视频观看日本| 伊人久久大香线蕉亚洲五| 国产免费福利视频在线观看| 黄片播放在线免费| videos熟女内射| 亚洲av日韩在线播放| 国产亚洲最大av| 亚洲精品国产区一区二| 99re6热这里在线精品视频| 两性夫妻黄色片| 天堂8中文在线网| 超碰97精品在线观看| 国产不卡av网站在线观看| 制服丝袜香蕉在线| 亚洲av男天堂| 一二三四中文在线观看免费高清| 亚洲三区欧美一区| 亚洲视频免费观看视频| 国产黄色免费在线视频| 国产国语露脸激情在线看| 久久久精品94久久精品| 少妇人妻精品综合一区二区| 性高湖久久久久久久久免费观看| 国产精品 欧美亚洲| 女的被弄到高潮叫床怎么办| 欧美在线一区亚洲| 精品久久久精品久久久| 久久天堂一区二区三区四区| 国产精品亚洲av一区麻豆 | av在线观看视频网站免费| 丝袜美足系列| 国产成人一区二区在线| 七月丁香在线播放| 国产精品一二三区在线看| 久久精品人人爽人人爽视色| 天堂8中文在线网| 国产精品麻豆人妻色哟哟久久| 欧美精品人与动牲交sv欧美| 国产免费一区二区三区四区乱码| 久热这里只有精品99| 欧美精品一区二区免费开放| 国产精品99久久99久久久不卡 | 亚洲国产最新在线播放| 亚洲精华国产精华液的使用体验| 中国三级夫妇交换| 国产成人欧美| 国产黄色免费在线视频| 国产片特级美女逼逼视频| 国产伦理片在线播放av一区| 精品午夜福利在线看| 悠悠久久av| 男的添女的下面高潮视频| 天堂8中文在线网| 搡老岳熟女国产| 国产熟女午夜一区二区三区| av女优亚洲男人天堂| 岛国毛片在线播放| 欧美精品av麻豆av| 一区福利在线观看| 国产一区亚洲一区在线观看| 亚洲精品国产av蜜桃| 日韩一本色道免费dvd| 少妇猛男粗大的猛烈进出视频| 天天影视国产精品| 桃花免费在线播放| 日韩制服丝袜自拍偷拍| 亚洲色图 男人天堂 中文字幕| 天天躁日日躁夜夜躁夜夜| a级片在线免费高清观看视频| 久久这里只有精品19| 侵犯人妻中文字幕一二三四区| 国产成人精品福利久久| 国产一区二区 视频在线| 免费少妇av软件| bbb黄色大片| 欧美成人午夜精品| 国产精品久久久久久人妻精品电影 | 亚洲国产毛片av蜜桃av| 美女主播在线视频| 一区二区三区激情视频| 亚洲av欧美aⅴ国产| 王馨瑶露胸无遮挡在线观看| 亚洲,欧美精品.| 国产亚洲欧美精品永久| 男女午夜视频在线观看| 观看av在线不卡| 老司机影院毛片| 男女高潮啪啪啪动态图| 巨乳人妻的诱惑在线观看| 成人国产麻豆网| 最近的中文字幕免费完整| 亚洲男人天堂网一区| 国产福利在线免费观看视频| 免费在线观看完整版高清| 青草久久国产| 一边亲一边摸免费视频| 女性被躁到高潮视频| 日韩视频在线欧美| 国产免费福利视频在线观看| 十分钟在线观看高清视频www| 久久 成人 亚洲| 欧美亚洲日本最大视频资源| 免费在线观看完整版高清| 天天躁夜夜躁狠狠久久av| 18禁裸乳无遮挡动漫免费视频| 国产在视频线精品| 亚洲av在线观看美女高潮| 国产有黄有色有爽视频| 国产极品粉嫩免费观看在线| 久久青草综合色| 欧美 日韩 精品 国产| 国产高清不卡午夜福利| 久久久精品国产亚洲av高清涩受| 毛片一级片免费看久久久久| 国产爽快片一区二区三区| 免费高清在线观看日韩| 一本—道久久a久久精品蜜桃钙片| 美国免费a级毛片| 日韩 欧美 亚洲 中文字幕| 这个男人来自地球电影免费观看 | 女人被躁到高潮嗷嗷叫费观| 成人免费观看视频高清| 少妇的丰满在线观看| 九色亚洲精品在线播放| 人成视频在线观看免费观看| 亚洲一区中文字幕在线| 精品免费久久久久久久清纯 | 五月开心婷婷网| 中文字幕另类日韩欧美亚洲嫩草| 极品人妻少妇av视频| 王馨瑶露胸无遮挡在线观看| 三上悠亚av全集在线观看| 夫妻性生交免费视频一级片| av片东京热男人的天堂| 一本大道久久a久久精品| 欧美在线黄色| 亚洲av国产av综合av卡| 制服人妻中文乱码| 黄色 视频免费看| 九草在线视频观看| 99香蕉大伊视频| 夜夜骑夜夜射夜夜干| avwww免费| 两性夫妻黄色片| 午夜日韩欧美国产| 久久狼人影院| a级片在线免费高清观看视频| 熟女av电影| 成人国产麻豆网| 18禁裸乳无遮挡动漫免费视频| 欧美成人午夜精品| 夫妻性生交免费视频一级片| 亚洲国产av影院在线观看| av电影中文网址| 久久久欧美国产精品| 免费高清在线观看视频在线观看| 亚洲情色 制服丝袜| 韩国精品一区二区三区| 成人毛片60女人毛片免费| 夫妻午夜视频| 九九爱精品视频在线观看| 香蕉丝袜av| 欧美久久黑人一区二区| 亚洲图色成人| 天堂中文最新版在线下载| 两个人看的免费小视频| 韩国精品一区二区三区| 国产精品久久久久久人妻精品电影 | 黑人猛操日本美女一级片| 精品视频人人做人人爽| 国产精品欧美亚洲77777| 久久婷婷青草| 久久久精品94久久精品| 国产一区有黄有色的免费视频| 国产麻豆69| 老熟女久久久| 一本—道久久a久久精品蜜桃钙片| 久久久久久人人人人人| 午夜老司机福利片| videos熟女内射| 少妇人妻 视频| 嫩草影视91久久| 日韩伦理黄色片| 中文字幕制服av| 超色免费av| 亚洲熟女毛片儿| 大香蕉久久成人网| 晚上一个人看的免费电影| 成人手机av| 亚洲熟女毛片儿| 91国产中文字幕| 免费看av在线观看网站| 午夜av观看不卡| 久久久精品区二区三区| 99精品久久久久人妻精品| 超碰97精品在线观看| 汤姆久久久久久久影院中文字幕| 国产亚洲av高清不卡| 99国产综合亚洲精品| 国产精品一区二区在线不卡| 亚洲欧美成人精品一区二区| 久久久久人妻精品一区果冻| 久久精品国产亚洲av涩爱| 国产一区二区 视频在线| 亚洲,欧美,日韩| 人人澡人人妻人| 欧美黑人欧美精品刺激| 91精品国产国语对白视频| 性高湖久久久久久久久免费观看| 热re99久久国产66热| 成人亚洲精品一区在线观看| 无限看片的www在线观看| 你懂的网址亚洲精品在线观看| 欧美日韩国产mv在线观看视频| 国产精品.久久久| 精品少妇久久久久久888优播| 热99久久久久精品小说推荐| 青青草视频在线视频观看| 亚洲,欧美精品.| 日韩成人av中文字幕在线观看| 熟女av电影| 校园人妻丝袜中文字幕| 黄色一级大片看看| 国语对白做爰xxxⅹ性视频网站| 90打野战视频偷拍视频| 天天躁日日躁夜夜躁夜夜| 久久人妻熟女aⅴ| 久久久久精品性色| 91国产中文字幕| 欧美 日韩 精品 国产| 亚洲美女视频黄频| 天天影视国产精品| 国产亚洲最大av| 久久天堂一区二区三区四区| 最近中文字幕高清免费大全6| 91精品三级在线观看| 日日摸夜夜添夜夜爱| 五月开心婷婷网| 精品久久久精品久久久| 中文天堂在线官网| 99热全是精品| 亚洲美女黄色视频免费看| 人妻一区二区av| 人人澡人人妻人| av有码第一页| 国产精品久久久久成人av| 满18在线观看网站| 建设人人有责人人尽责人人享有的| 免费人妻精品一区二区三区视频| 国产一级毛片在线| 欧美日韩一级在线毛片| 一个人免费看片子| 欧美中文综合在线视频| 91精品三级在线观看| 91精品伊人久久大香线蕉| 亚洲av电影在线进入| 99久国产av精品国产电影| 成年美女黄网站色视频大全免费| 欧美日韩av久久| 免费高清在线观看视频在线观看| 婷婷成人精品国产| 久久这里只有精品19| 搡老岳熟女国产| 精品一区在线观看国产| 十八禁网站网址无遮挡| 人妻人人澡人人爽人人| 亚洲激情五月婷婷啪啪| 亚洲精品国产色婷婷电影| 国产不卡av网站在线观看| 看免费av毛片| 免费观看人在逋| 亚洲国产精品成人久久小说| 亚洲av欧美aⅴ国产| 久久久精品区二区三区| 少妇人妻久久综合中文| 一区二区日韩欧美中文字幕| 日本av手机在线免费观看| 美女高潮到喷水免费观看| 无限看片的www在线观看| 久久免费观看电影| 热re99久久精品国产66热6| 精品国产一区二区久久| avwww免费| 天堂8中文在线网| 午夜福利在线免费观看网站| a 毛片基地| 久久精品亚洲av国产电影网| 精品亚洲乱码少妇综合久久| 日本vs欧美在线观看视频| 自线自在国产av| 国产成人91sexporn| 高清在线视频一区二区三区| 一边亲一边摸免费视频| 亚洲第一青青草原| 99久久99久久久精品蜜桃| av有码第一页| 91精品国产国语对白视频| 黑丝袜美女国产一区| 欧美日韩av久久| 欧美精品一区二区大全| 亚洲精品国产av成人精品| 中文字幕另类日韩欧美亚洲嫩草| 777久久人妻少妇嫩草av网站| 18在线观看网站| 亚洲专区中文字幕在线 | 国产又爽黄色视频| 欧美另类一区| av有码第一页| 下体分泌物呈黄色| 欧美日韩一级在线毛片| 日韩视频在线欧美| 丰满迷人的少妇在线观看| 90打野战视频偷拍视频| 水蜜桃什么品种好| 国产 一区精品| 韩国高清视频一区二区三区| 亚洲激情五月婷婷啪啪| 丝袜脚勾引网站| 老鸭窝网址在线观看| netflix在线观看网站| 国产精品.久久久| 两个人看的免费小视频| 免费看不卡的av| 国产精品欧美亚洲77777| 成人午夜精彩视频在线观看| 亚洲国产欧美在线一区| 丝瓜视频免费看黄片| 日韩精品有码人妻一区| 999精品在线视频| 别揉我奶头~嗯~啊~动态视频 | 日韩大片免费观看网站| 亚洲国产毛片av蜜桃av| av又黄又爽大尺度在线免费看| 97在线人人人人妻| 女人精品久久久久毛片| 国产亚洲av片在线观看秒播厂| 日本一区二区免费在线视频| 久久人人97超碰香蕉20202| 又大又黄又爽视频免费| 久久久久久久国产电影| 狠狠婷婷综合久久久久久88av| 成人毛片60女人毛片免费| 啦啦啦在线免费观看视频4| 国产成人午夜福利电影在线观看| 高清av免费在线| 波多野结衣av一区二区av| 成人国语在线视频| 亚洲精华国产精华液的使用体验| 亚洲精品av麻豆狂野| 纵有疾风起免费观看全集完整版| 亚洲三区欧美一区| 国产精品亚洲av一区麻豆 | av又黄又爽大尺度在线免费看| 国产成人午夜福利电影在线观看| 卡戴珊不雅视频在线播放| 亚洲欧美精品自产自拍| 国产亚洲一区二区精品| 精品一区二区免费观看| 宅男免费午夜| 国产在视频线精品| 日韩大码丰满熟妇| av线在线观看网站| 国产精品 欧美亚洲| 成人亚洲精品一区在线观看| 在线免费观看不下载黄p国产| 日本午夜av视频| 欧美精品高潮呻吟av久久| 欧美久久黑人一区二区| 51午夜福利影视在线观看| 热re99久久精品国产66热6| 可以免费在线观看a视频的电影网站 | 菩萨蛮人人尽说江南好唐韦庄| h视频一区二区三区| 毛片一级片免费看久久久久| 男的添女的下面高潮视频| 欧美成人精品欧美一级黄| 精品久久蜜臀av无| 久久久久精品人妻al黑| 9热在线视频观看99| 亚洲美女视频黄频| 宅男免费午夜| 欧美 亚洲 国产 日韩一| av免费观看日本| 天天影视国产精品| 久久 成人 亚洲| 麻豆av在线久日| 狠狠精品人妻久久久久久综合| 少妇被粗大猛烈的视频| 国产日韩欧美亚洲二区| 久久久久视频综合| 国产午夜精品一二区理论片| 久久久久人妻精品一区果冻| 国产欧美亚洲国产| netflix在线观看网站| 美女大奶头黄色视频| 人人妻,人人澡人人爽秒播 | 天美传媒精品一区二区| 国产成人精品无人区| 自线自在国产av| 在线观看国产h片| 欧美xxⅹ黑人| 天天躁夜夜躁狠狠躁躁| 免费av中文字幕在线| 精品国产露脸久久av麻豆| 欧美亚洲日本最大视频资源| 国产亚洲午夜精品一区二区久久| 五月开心婷婷网| 99热全是精品| 国产97色在线日韩免费| 精品少妇黑人巨大在线播放| 黄色视频在线播放观看不卡| 一区二区av电影网| 亚洲成人国产一区在线观看 | 亚洲成人免费av在线播放| 久久久久久久久免费视频了| 欧美在线一区亚洲| 女人高潮潮喷娇喘18禁视频| 青青草视频在线视频观看| 欧美xxⅹ黑人| 成年av动漫网址| 久久久久精品国产欧美久久久 | 人人妻,人人澡人人爽秒播 | 国产成人a∨麻豆精品| 日韩av在线免费看完整版不卡| 久久久久久人妻| 9色porny在线观看| 亚洲av欧美aⅴ国产| 男女午夜视频在线观看| 啦啦啦中文免费视频观看日本| 天天操日日干夜夜撸| 亚洲美女搞黄在线观看| 黑人猛操日本美女一级片| 狠狠婷婷综合久久久久久88av| 亚洲av综合色区一区|