秦曄玲,朱建平
(1.太原理工大學 數學學院,山西 晉中 030600;2.廈門大學a.管理學院;b.數據挖掘研究中心,福建 廈門 361005)
計算機科學的快速發(fā)展使得當代科學研究能夠很容易地收集到海量數據集,特別是在金融領域。金融證券可以說是當代經濟學的焦點之一,金融范疇中受到關注的一個重要問題就是投資組合管理。近年來關于指數化方面的投資發(fā)展迅速,指數跟蹤技術的目的是使投資者在精準復制標的指數市場表現的基礎上,獲得較高利益。
完全復制和非完全復制為指數跟蹤中最具代表性的兩種方法。跟蹤股票組合的最終目的為取得與標的指數大體相一致的收益;在評定實際的指數跟蹤效果中,跟蹤股票組合收益和標的指數收益之間的偏離程度可以設定為跟蹤股票組合優(yōu)劣的重要指標之一。該偏離程度可以用跟蹤誤差來衡量。
Markowitz(1952)[1]提出的均值-方差理論,在一定意義上可以看做是近代金融學的開端。但基于金融市場的股票收益率之間強共線性的原因,該理論構建的組合并不穩(wěn)定;且在構建股票組合時沒有全面地考慮到交易成本的影響,使得在數據的實際研究中很容易產生空頭頭寸,這一缺點使得該方法并不適用于我國的實際金融市場。針對上述問題,本文找到一種有效的解決方法,即選擇股票構建組合進行投資,應用高維變量選擇方法進行股票選擇。
高維變量選擇不僅廣泛應用于生物醫(yī)學,而且在指數跟蹤的研究領域也被大量引入。傳統(tǒng)的子集選擇法是較為經典的高維變量選擇方法,但該方法受實際數據的局限,且不穩(wěn)定。較子集選擇法更穩(wěn)定的方法是嶺回歸,但嶺回歸只能壓縮系數,不能將變量系數收縮到零達到完全剔除變量的目的,即達不到變量挑選的效果。高維變量選擇的流行方法為Lasso算法,它不僅克服了上述子集選擇和嶺回歸的各種缺點,而且實現了變量選擇和參數估計同時進行,所以被優(yōu)先使用在指數跟蹤領域的變量選擇中。
針對數量龐大的金融資產的有效選擇,本文將統(tǒng)計中自適應Lasso選元方法應用到股票選擇中,并且從實際情況出發(fā),針對股票的特征加入非負約束,應用非負自適應Lasso變量選擇方法,選取一定數量的股票進行組合構建最終達到良好的指數跟蹤效果,更好地平衡因數量過多產生的高交易成本和因數量較少出現的大跟蹤誤差。
在指數跟蹤問題的相關研究中,Larsen等(1998)[2]考慮股票數量及變更組合時機對于股票組合的影響,Bamberg等(2000)[3]考慮線性回歸方法在最優(yōu)組合選擇方面的應用,Zorin等(2002)[4]考慮指數跟蹤的神經網絡方法。李儉富等(2006)[5]在證券價格時間序列基礎上提出協整優(yōu)化的指數跟蹤算法。但這些方法存在模擬復雜,計算耗時長,沒有充分利用歷史數和據信息等不足。在前人研究的基礎上,劉睿智等(2012)[6]將Lasso變量選擇方法應用到投資組合研究中,并取得很好的效果。
本文主要基于自適應Lasso的變量選擇視角選取適當的模擬算法進行具體的股票選擇,并將深滬300兩年的歷史數據作為實證進行具體分析。研究內容包括自適應Lasso方法在股票選擇中的理論依據和實際效果兩個方面,關于股票選擇的跟蹤效果也進行了具體分析和實證對比。結果表明,自適應Lasso在股票選擇中有很好的效果。
在傳統(tǒng)的投資組合領域中,資產池固定,無需重新選擇資產直接進行配置;而在現代金融投資組合領域,市場中資產數目眾多,數據量龐大,上述均值-方差模型在使用傳統(tǒng)最小二乘回歸方法進行股票選擇時還存在著一些缺陷:(1)資產收益之間的共線性問題,協變量之間的共線性問題是股票的相互關聯性在具體模型中的反映;(2)欠缺對交易費用的考慮,交易費用直接影響投資收益率,它是股票投資的重要因素;(3)各項資產的收益率或波動率對于權重結果的影響較大,造成結果不穩(wěn)定;(4)協方差矩陣估計困難,甚至出現因選取樣本量較少而導致矩陣X不可逆的情況,估計累計誤差巨大等一系列問題使得普通最小二乘法有誤。
針對普通最小二乘回歸選股方法產生的一系列問題,一個較為直接的解決辦法就是投資者需要對市場內的資產進行初步篩選。股票市場的股票非常豐富,需要合理地選擇成分股的子集,即部分復制,然后進行指數跟蹤,使得跟蹤誤差最小化,以期望取得較好效果。以變量選擇方法為基本思想的股票選擇可以有效地解決上述問題。關于從大樣本數據中篩選有效信息的問題,Breiman(1995)[7]指出,傳統(tǒng)的最優(yōu)子集變量選擇方法計算量龐大且結果不穩(wěn)定,即變量選擇結果對于實際操作中數據集的變動十分敏感。所以本文采用現代研究中較為流行的基于系數收縮的最優(yōu)子集變量選擇方法。
關于系數收縮的最優(yōu)子集變量選擇的具體方法,Tibshirani(1996)[8]提出Lasso回歸算法,該方法的本質是在回歸系數的絕對值之和小于一個常數的約束條件下,最小化殘差平方和。Lasso方法不但能夠有效地解決高維數據問題,而且能夠得到完全的稀疏模型,它解決了之前最小二乘法的不穩(wěn)定性和方差大的問題。Lasso方法優(yōu)于古典的變量選擇方法的一個具體表現為它是一個連續(xù)的過程,從而產生穩(wěn)定的結果;同時,它的計算量小,易于實現。所以該方法在篩選變量方面得到廣泛應用,Wu等(2014)[9]將該方法應用于經濟領域的指數跟蹤并且在實證分析中取得較好的效果。
然而Lasso方法本身存在著一些缺陷:當處理共線性問題時,Lasso的選擇效果減弱;它的系數估計為有偏估計;只有在一定正則條件下才滿足變量選擇一致。針對上述問題,Zou(2006)[10]對其進行改進,在l1的懲罰系數前加自適應權重,使改進后的方法具有了“神諭”性質。自適應Lasso為凸優(yōu)化問題,權重與數據相關,選取明確,它既保持了Lasso變量選擇方法的諸多優(yōu)點,又能夠有效地減少具體操作是在使投資組合的變動趨勢與標的指數大體相一致的基礎上,達到減小跟蹤誤差,取得與標的指數收益率相同的目的。指數跟蹤是指數基金的核心,對于指數跟蹤模型,設 X=(x1,...,xp)是 p只股票多頭頭寸,y為1單位指數的多頭頭寸,則-y為1單位指數的空頭頭寸。由Markowitz均值-方差理論,所建立的模型是在保持組合收益率一定的情況下選擇系數使得組合方差極小化,且該組合頭寸的期望收益率為零,則實質上是回歸模型[6],表示為模型參數估計的有偏性,所以該優(yōu)化方法受到廣泛關注且應用到實際變量選擇的諸多方面。
本文基于Lasso變量選擇方法將改進后的自適應Lasso方法應用到股票投資組合的初選中,并且考慮到股票的以下兩個特點,給系數估計加上非負約束條件:(1)股票中成分股的份額總是為正;(2)國家對于股市的賣空現象加強監(jiān)督,以穩(wěn)定股票市場。將其稱為非負自適應Lasso變量選擇方法。
本文使用部分吸收來進行指數跟蹤,即選擇成分股的一個小子集,僅選擇30只成分股,使跟蹤誤差最小化。不同的股票選擇方法會產生不同的選取結果,從而產生不同的跟蹤效果。本文發(fā)現,選擇權重最大的30只股票和Lasso方法選擇30只股票產生的跟蹤誤差均大于本文中統(tǒng)計方法選擇的結果。
非負自適應Lasso的系數估計為:
自適應Lasso模型是在Lasso算法的基礎上改進而成,其系數估計由回歸擬合的優(yōu)良性和懲罰兩部分構成。其中,懲罰項通過把較小的系數向0完全收縮達到剔除對應協變量的效果。自適應Lasso方法的一個突出優(yōu)點是,通過調節(jié)權重系數,使得不同參數相應的懲罰不同,初始估計取倒數使得初始參數估計值較大的變量對應較小的權重系數和較小的懲罰,初始估計值較小的變量對應較大的權重系數和較大的懲罰。當某個自變量的初始估計值較大時,該自變量在自適應Lasso中權重系數就較小,即對應的懲罰就小,這樣就保證了其以較高概率進入模型,即更容易被選擇。
許多為Lasso設計的成熟算法,如最小角回歸算法lars和glmnet,適當修改之后可以用來解決自適應Lasso的問題,但其算法并不簡單。考慮到自適應Lasso實質是二次規(guī)劃問題,且在本文的實際情況中有非負約束條件,為了計算的快速與簡單,本文運用類似梯度下降法的迭代算法——乘性更新。該方法主要用來解決具有非負約束條件的二次規(guī)劃問題[11]:
其中,υ=(υ1,...,υn)′為 n 維列向量,υ′是 υ的轉置,A∈Rn×n是對稱正定矩陣。乘性更新是一種特殊的迭代算法,設:
當給定一個非負調節(jié)參數λn時,非負自適應Lasso是以下二次規(guī)劃問題的解:
迭代算法中相應參數改變?yōu)椋篴i=((X′X)+β)i,ci=((X′X)-β)i,bi=(λnW-X′y)i,然后就可以用非負自適應Lasso估計出β。迭代過程中涉及一個調節(jié)參數λn,利用類似對分法的方式選擇λn:分別選取較大的λn和較小的λn估計參數;然后調節(jié)λn使得選出的成分股恰好為30只[12]。
本文使用的數據集包括深滬300指數的股票價格和深滬300指數的300只成分股的股票價格。樣本的時間區(qū)間分為兩部分:2011年1月1日至2012年12月31日和2015年1月1日至2015年12月31日。其中,2015年數據用于第一部分模型擬合與預測,2011—2012年數據用于指數跟蹤效果分析。深滬300成份股每年調整兩次,但成分的變化基本不大,所以本文以收集數據截止日期的成份股為準,進入成份股之前的收益率視為零,被剔除的成份股將不再計入數據。
對于股票價格Pt,定義日收益率為t=1,...,T。協變量 xi,t=ri,t,i=1,...,300 表示第 i支成分股的收益率,yt=r0,t表示深滬300指數收益率,則模型表示為:
其中,βi是第i個成分股的權重,εt是隨機誤差項。本文的目的就是應用非負自適應Lasso統(tǒng)計模型來估計系數β。
指數跟蹤效果分析中,部分吸收的偏差用跟蹤誤差(TE)來度量,定義為:
其中,mean(err)是 errt的均值,t=1,...,T ,errt=yt-是 yt的擬合值或者預測值。
選擇2015年的數據進行擬合和預測。1月至10月的數據進行模型擬合及系數估計,11月和12月數據進行預測。通過R程序,自適應Lasso方法選擇出的30只成份股,估計出的股票權重系數如表1所示,擬合及預測曲線如圖1和圖2所示。
表1 自適應Lasso方法選股權重
圖1 1月至10月數據擬合曲線
圖2 11月和12月數據預測曲線
表1結果顯示,本文提出的自適應Lasso算法選擇出的30只股票跟蹤組合中,有3只股票的權重占到6%以上,有3只股票的權重達不到1%,有24只股票的權重均在1%~6%之間,與Lasso選擇方法的結果相比較,該方法的權重分布更為均勻[6]。權重系數分布的趨勢越集中,越不利于指數跟蹤,受大權重股的影響跟蹤效果變差,從這個角度分析,自適應Lasso方法較優(yōu)。
表1中選擇出的30只成分股擬合曲線如圖1所示,圖中空心圓形為深滬300股票的日收益率實際值,實心圓形為預測值。虛線和實線曲線的走勢相同,偏離程度較小,除拐點外,兩條曲線在一定程度上幾乎重合,說明該時間段內目標指數的跟蹤效果良好。
圖2(a)中,曲線為自適應Lasso選擇變量并同時預測參數的擬合結果;圖2(b)中,右邊曲線為自適應Lasso選擇變量之后進行非負線性回歸的擬合結果,兩條曲線幾乎重合。圖2中結果對比顯示,第二種方法的性能明顯優(yōu)化。在今后的其他模擬實驗中,不妨用二階段方法來進行系數估計,即變量選擇和系數估計分兩部分進行,其模型性能會有所提高。
選取2011—2012年的數據對自適應Lasso的變量選擇方法在指數跟蹤方面的應用效果進行詳細分析。本文用一個時間窗口劃分數據集:前六個月的數據用于建模,隨后一個月的數據進行預測,則共有18個擬合樣本,18個預測樣本。由表1中選股結果可以看出,基于自適應Lasso方法選出的股票并不是對指數具有很大貢獻的超大盤股,這并不符合傳統(tǒng)認識。以Lasso選股方法,自適應Lasso選股結果與具有代表性的大權重股票組合基于跟蹤誤差進行對比分析,分別計算擬合跟蹤誤差和預測跟蹤誤差,其中前6個樣本(2011年)的指數跟蹤結果如表2所示。
表2 2011年數據跟蹤效果分析,擬合和預測跟蹤誤差(TE)
通過表2可以看出,三種方法選擇出的30只股票組合跟蹤誤差均未超過2%,則意味著指數跟蹤差異并不顯著,指數跟蹤風險小。綜合考慮上述三種方法,自適應Lasso方法在指數跟蹤應用中具有明顯優(yōu)勢。首先在權重系數方面,自適應Lasso方法得到的權重系數分布均勻,并沒有明顯的集中趨勢,這使得在實際操作中可以有效規(guī)避非系統(tǒng)性風險。其次在跟蹤誤差方面,其數值都在0.6%以內,跟蹤效果較好。
本文通過變量選擇的基本觀點對股票選擇進行了一些探討,介紹了非負自適應Lasso選股方法在指數跟蹤實際應用中的優(yōu)點,即保留Lasso算法的稀疏性從而達到選擇股票的目的,同時使組合中產生非空頭寸,減小模型的不穩(wěn)定性和跟誤差,對交易費用的懲罰更加合理。實證結果表明:(1)自適應Lasso方法在股票選擇應用方面具有很好的效果。(2)自適應Lasso方法得出的權重分布相對均勻。(3)金融角度的觀點認為,小規(guī)模證券由于數據相對缺乏,不能有效地跟蹤模擬指數的走勢。但本文自適應Lasso算法構建的30只股票中,系數的權重分布相對均勻,且考慮到交易費用低。所以對于小型投資者來說,在證券市場穩(wěn)定的基礎上,該選股方法值得一試。
本文關于指數跟蹤問題的些研究還存在以下不足:(1)自適應Lasso方法得出的成分股權重系數之和不為1,不滿足指數跟蹤問題的實際要求??梢詰脷w一化方法(各股權重除以成分股權重之和)來進行調整,但這種方法并沒有金融角度的理論支持。(2)指數跟蹤的最終目的是將研究的方法應用到金融方向的實際問題中,但本文只做了初步的理論研究,并沒有展開實際操作。后續(xù)工作可以將其選股方法應用于更現實的實際問題中。
對于金融系統(tǒng)的其他應用,可以試著將本文中的變量選擇方法應用于金融風控的信用評估階段,構建評分卡模型,改變傳統(tǒng)方法中的變量選擇過程,盡量解決平臺間數據稀疏的問題。自適應Lasso不僅在實踐上具有較好的實用性,在理論上也具有優(yōu)良的性質,相信它會在未來的金融領域中發(fā)揮更大的作用。