張汝飛,徐謝婷,趙 彤
(1.河北地質(zhì)大學(xué) 經(jīng)濟(jì)學(xué)院;2.自然資源資產(chǎn)資本研究中心,河北 石家莊 050031)
新一代信息技術(shù)產(chǎn)業(yè)是中國(guó)政府確立的戰(zhàn)略性新興產(chǎn)業(yè)之一,歷經(jīng)“十三五”期間的成長(zhǎng)壯大,其規(guī)模和龍頭企業(yè)數(shù)量已居各戰(zhàn)略性新興產(chǎn)業(yè)之首?!笆奈濉逼陂g,中國(guó)政府更是指明新一代信息技術(shù)企業(yè)要持續(xù)向“數(shù)字產(chǎn)業(yè)化、產(chǎn)業(yè)數(shù)字化”方向取得新進(jìn)步,加深傳統(tǒng)行業(yè)數(shù)字化規(guī)模、優(yōu)化經(jīng)濟(jì)結(jié)構(gòu)、提高創(chuàng)新能力[1]。為了實(shí)現(xiàn)信息技術(shù)企業(yè)投資合理化、提升企業(yè)競(jìng)爭(zhēng)力,本文通過(guò)二階段變量選擇方法,針對(duì)滬深兩市181家信息技術(shù)類(lèi)上市公司的386個(gè)財(cái)務(wù)相關(guān)指標(biāo),篩選出影響企業(yè)研發(fā)投入的重要因素。
近年來(lái),在變量選擇研究領(lǐng)域,Lasso、自適應(yīng)Lasso(Adaptive Lasso,ALasso)、SCAD等懲罰回歸模型是較為常用的方法。當(dāng)特征維度大于樣本量(即p>n),且在噪聲變量與重要變量相關(guān)的情況下,這些方法會(huì)保留更多的噪聲項(xiàng),預(yù)測(cè)效果不盡理想[2]。因此,本文提出在高維普通最小二乘投影(Highdimensional Ordinary Least-squares Projection,HOLP)的基礎(chǔ)上,結(jié)合自適應(yīng)Lasso(ALasso)的組合二階段模型以獲得更小的均方誤差(Mean Square Error,MSE),篩選出的變量用于描述企業(yè)研發(fā)投入更具代表性。
本文結(jié)構(gòu)如下:(1)綜述高維回歸模型變量篩選方法的發(fā)展以及相關(guān)領(lǐng)域內(nèi)的應(yīng)用情況;(2)介紹HOLP-ALasso二階段變量選擇模型及估計(jì)步驟;(3)通 過(guò) 數(shù) 值 模 擬 比 較 基 于HOLP-Lasso、HOLP-ALasso、SIS-Lasso、FR-Lasso方 法 的 優(yōu) 劣;(4)實(shí)證分析信息技術(shù)產(chǎn)業(yè)相關(guān)上市公司企業(yè)研發(fā)投入情況。
在過(guò)去二十年中,國(guó)外有關(guān)高維數(shù)據(jù)的特征篩選方法已有大量研究成果,例如LASSO(Tibshirani,1996)[3],SCAD(Fan and Li,2001)[4],the Adaptive Lasso(Zou,2006)[5]等,但在變量個(gè)數(shù)p遠(yuǎn)大于樣本量n時(shí),上述方法在估計(jì)精度和計(jì)算效率上均難以得到保障。近年來(lái),F(xiàn)an等人(2008)提出確定獨(dú)立篩選法(SIS),該方法第一階段先對(duì)超高維數(shù)據(jù)進(jìn)行降維,使得特征數(shù)降到樣本量之下(p 相比國(guó)外學(xué)者,國(guó)內(nèi)更側(cè)重于應(yīng)用層面。馮盼峰等(2018)研究基于隨機(jī)森林兩階段逐步變量選擇算法,第一階段確定變量重要性排名,第二階段進(jìn)行逐步回歸,實(shí)證顯示該二階段算法相比于SCAD、Elastic Net具有較高預(yù)測(cè)精度[9]。郭林等(2020)提出兩階段判別的信用評(píng)價(jià)指標(biāo)組合方法,ROC曲線(xiàn)的有效性檢驗(yàn)表明基于二階段Logistic回歸的判別模型預(yù)測(cè)概率高,能有效區(qū)分企業(yè)的違約損失率[10]。郭宇瀟等(2021)提出一種排序和搜索策略的組合模型,將其結(jié)合不同機(jī)器學(xué)習(xí)方法,該模型篩選變量的準(zhǔn)確度要優(yōu)于偏最小二乘法-變量重要性投影(PLS-VIP)[11]。 綜上所述,國(guó)外針對(duì)p遠(yuǎn)大于n的變量選擇問(wèn)題,是將特征維度快速降至樣本量之下,再運(yùn)用Lasso、SCAD等方法進(jìn)行篩選;國(guó)內(nèi)在變量選擇方面的應(yīng)用主要集中于機(jī)器學(xué)習(xí)領(lǐng)域,鮮有Lasso、ALasso、SCAD等方法與二階段模型相比較的探索。因此,本文在Wang等人(2016)研究基礎(chǔ)上,提出利用ALasso進(jìn)行二層過(guò)濾變量,并通過(guò)比較HOLPLasso、HOLP-ALasso、SIS-Lasso、FR-Lasso的 預(yù) 測(cè)誤差來(lái)評(píng)估組合模型的效果。 首先考慮線(xiàn)性回歸模型: Y∈Rn是響應(yīng)變量,X∈Rn是設(shè)計(jì)矩陣,ε∈Rn是獨(dú)立同分布的誤差項(xiàng),εi~N(0,σ2)。 假定當(dāng)p>n時(shí),XXT可逆,XTX不可逆,引入Moore-Penrose廣義逆處理Gram矩陣不可逆性。記全模型為M={x1,…,xp},真模型為MS,其中S={j:βj≠0,j=1,…,p}是基數(shù)為s=|S|的非零βj的指標(biāo)集。為得到高維情況下篩選變量的方法,先給出β的一般線(xiàn)性估計(jì)類(lèi): A∈Rp×n把響應(yīng)變量映射到估計(jì)值,在SIS中A=XT。 式(3)中Aε由零均值隨機(jī)噪聲項(xiàng)的線(xiàn)性組合組成,(AX)β是信號(hào)部分。在變量篩選的過(guò)程中要盡可能地保留信號(hào)變量部分,所以理想情況下的A將滿(mǎn)足條件AX=I。如果滿(mǎn)足上述情況,信號(hào)部分將會(huì)控制噪聲部分。顯然,當(dāng)p 將變成普通的最小二乘估計(jì)。 但針對(duì)高維情況時(shí),式(4)中的XTX是退化的,不滿(mǎn)足AX是單位矩陣的條件。Wang等人(2016)提出使用X的某種廣義逆:Moore-Penrose逆,令A(yù)=XT(XXT)-1。雖然在這種情況下AX不再是單位矩陣,但只要AX是對(duì)角占優(yōu)矩陣,信號(hào)變量仍舊可以決定噪聲變量。 定義高維普通最小二乘投影的估計(jì)量: 即 式(5)的第一項(xiàng)可以將估計(jì)量看成β的投影。 HOLP選擇變量遵循的原則是對(duì)估計(jì)量β^進(jìn)行排序并選擇其中最大項(xiàng)。確切地說(shuō),令d為篩選后保留預(yù)測(cè)變量的數(shù)量,有子模型Md如下: 或者 Chen(2008)提出的改進(jìn)BIC準(zhǔn)則(Extended Bayesian Information Criteria,EBIC)或直接挑選個(gè)變量均可確定HOLP的篩選數(shù)目[12]。 最小化式(7)確定子模型中的變量個(gè)數(shù)d,其中p為特征維數(shù) Zou(2006)針對(duì)Lasso估計(jì)存在有偏性且不滿(mǎn)足Oracle性質(zhì)而對(duì)L1懲罰項(xiàng)賦予了不同的權(quán)重,提出Adaptive Lasso,定義為: Zou(2006)指出用最優(yōu)子集選擇解決OLS估計(jì)解釋能力弱的問(wèn)題,但是模型不具有穩(wěn)健性,微小的數(shù)據(jù)差異會(huì)引起較大偏差,降低預(yù)測(cè)精度;嶺回歸是一個(gè)連續(xù)的變量系數(shù)收縮過(guò)程,較為穩(wěn)健,但是在擬合過(guò)程中沒(méi)有系數(shù)被估計(jì)到0,達(dá)不到變量篩選的目的;Lasso存在變量選擇不一致的情況,不具有Oracle性質(zhì),且估計(jì)是有偏的[5]。Adaptive Lasso解決上述模型中的問(wèn)題,具有相合性及漸近正態(tài)性等性質(zhì),克服Lasso有偏估計(jì)的缺點(diǎn),通過(guò)凸優(yōu)化問(wèn)題實(shí)現(xiàn)全局最優(yōu)解。 HOLP的優(yōu)點(diǎn)是具有確定篩選性質(zhì)且計(jì)算過(guò)程高效,p>n情況下HOLP的計(jì)算復(fù)雜度為O(n2p)僅略次于SIS的計(jì)算復(fù)雜度O(np)[8];Wang等人(2016)發(fā)現(xiàn)HOLP的另一個(gè)優(yōu)點(diǎn)是信號(hào)部分的尺度不變性,相比SIS可能會(huì)受縮放方式影響的缺點(diǎn),HOLP更加穩(wěn)定。在p>n時(shí),HOLP中XXT矩陣總是滿(mǎn)秩的,這表現(xiàn)出在相同情況下比OLS更優(yōu)的變量選擇。 Friedman(2010)提出沿正則化路徑計(jì)算的坐標(biāo)下降算法(Coordinate Descent),處理高維數(shù)據(jù)的同時(shí)還可以保留模型中的稀疏特征[13]。第二階段基于Adaptive Lasso的凸優(yōu)化問(wèn)題保證用于求解Lasso的坐標(biāo)下降算法可以同等效率地應(yīng)用于Adaptive Lasso。具體步驟如下: (1)考慮第一階段HOLP子模型中估計(jì)量個(gè)數(shù)d。 1Md為示性函數(shù)。使用EBIC準(zhǔn)則對(duì)估計(jì)量進(jìn)行排序,選擇排序后的最大β^,剔除系數(shù)為0的不重要變量。 (2)應(yīng)用基于坐標(biāo)下降算法的Adaptive Lasso對(duì)β^進(jìn)行二次處理。 懲罰參數(shù)λn由十折交叉驗(yàn)證(N=10)確定。λn=據(jù)此選擇出系數(shù)不為0的變量為HOLP-ALasso最終篩選結(jié)果。 (3)評(píng)估不同二階段模型的擬合效果。設(shè)第t次在訓(xùn)練集上的擬合值為,在預(yù)測(cè)集上的觀測(cè)數(shù)據(jù)為yt,定義評(píng)價(jià)指標(biāo)MSE,MSE越小,模型預(yù)測(cè)精度越高,特征篩選方法更優(yōu)。 在此通過(guò)數(shù)值模擬評(píng)估HOLP-ALasso等二階段模型預(yù)測(cè)效果,利用現(xiàn)有R包“glmnet”“screening”分析模擬數(shù)據(jù)篩選特征。本文參考Wang等人(2016)設(shè)置的模擬場(chǎng)景條件,結(jié)合實(shí)證研究的樣本數(shù)據(jù),綜合確定所需樣本量和特征維數(shù)[8]。 考慮線(xiàn)性模型: 其中x=(x1,…,xp)是預(yù)測(cè)變量,具體分布形式見(jiàn)下文討論。樣本量n=200,特征數(shù)p=500,隨機(jī)誤差ε~N(0,σε2)。根據(jù)信噪比SNR=Var(xTβ)/σε2,分別探討SNR=50%和SNR=90%情況下計(jì)算得到的σε2,由模型形式生成響應(yīng)變量y。具體而言,第一階段比較HOLP,SIS和FR等模型選擇正確模型的概率,已由Wang等人(2016)證明HOLP選擇正確模型的概率總體上要優(yōu)于SIS和FR,能更有效地進(jìn)行特征篩選。本文重點(diǎn)對(duì)比Lasso和ALasso第二階段模型擬合效果。考慮到特征之間的相關(guān)性對(duì)預(yù)測(cè)結(jié)果產(chǎn)生的影響,對(duì)自變量進(jìn)行以下三種情況討論并設(shè)定具體參數(shù)值: 場(chǎng)景1:自變量x=(x1,…,xp)獨(dú)立同分布于標(biāo)準(zhǔn)正態(tài)分布N(0,1),令S={1,2,3,4,5},并將系數(shù)設(shè)定為: 場(chǎng)景2:自變量x=(x1,…,xp)服從多元正態(tài)分布N(0,Σ),協(xié)方差矩陣,其中ρ={0.4,0.6,0.8},將系數(shù)設(shè)定為: 場(chǎng)景3:自變量x1,…,x15構(gòu)造形式如下: 其中k=0,1,2,3,4且Zi~N(0,1),控制組結(jié)構(gòu)強(qiáng)度的參數(shù)δ2={0.1,0.05,0.01},x16,…,xp獨(dú)立同分布于N(0,1),將系數(shù)設(shè)定為 以上三種場(chǎng)景各重復(fù)模擬T=100次,計(jì)算MSE判斷二階段變量選擇方法的優(yōu)劣。 當(dāng)(n,p)=(200,500)時(shí),表1展示了三種場(chǎng)景下的模型均方誤差,第二階段ALasso總體上比Lasso具有更低的均方誤差,由于ALasso對(duì)Lasso系數(shù)的壓縮程度進(jìn)行了調(diào)整,使其具有Oracle性質(zhì)且保持Lasso的凸性,從而模型預(yù)測(cè)精度高于Lasso。模擬實(shí)驗(yàn)表明ALasso的特征篩選效果優(yōu)于Lasso,為探究二階段組合模型的優(yōu)劣,一并與其余四種方法進(jìn)行比對(duì)。 表1 模型均方誤差(MSE) 在SNR=50%的低信噪比情況下,基于二階段HOLP-ALasso的組合方法均優(yōu)于HOLP-Lasso、SIS-Lasso、FR-Lasso;HOLP-Lasso僅 次 于HOLPALasso,而SIS-Lasso效果最不理想。由此可以明顯看到SIS的缺點(diǎn),因SIS強(qiáng)烈依賴(lài)于重要特征與響應(yīng)y之間有很強(qiáng)的邊際相關(guān)性,但在高維數(shù)據(jù)中,預(yù)測(cè)變量之間往往存在相關(guān)性,這很有可能將與特征高度相關(guān)的不重要變量選入模型,這在場(chǎng)景2中很好地體現(xiàn)了這一點(diǎn)。 在SNR=90%的高信噪比情況下,盡管所有方法都有了顯著提升,但HOLP-ALasso仍然保持整體的優(yōu)良性。整體上來(lái)看,F(xiàn)R-Lasso與HOLPLasso效果相近,但在場(chǎng)景3中ρ=0.8時(shí),F(xiàn)R-Lasso的表現(xiàn)優(yōu)于HOLP-Lasso,這得益于FR能一步完成變量篩選,同時(shí)Wang(2009)證實(shí)了在高維環(huán)境下FR也能進(jìn)行確定性篩選,但FR的計(jì)算成本顯著高于其他方法,考慮到計(jì)算的簡(jiǎn)便性和效率,HOLP-ALasso仍然是效果最優(yōu)的二階段組合模型。 根據(jù)數(shù)值模擬結(jié)果,應(yīng)用HOLP-ALasso實(shí)證篩選影響信息技術(shù)產(chǎn)業(yè)上市公司企業(yè)研發(fā)投入的關(guān)鍵因素。數(shù)據(jù)來(lái)自于國(guó)泰安數(shù)據(jù)庫(kù),包括2020年181家上市公司386個(gè)影響研發(fā)投入的財(cái)務(wù)指標(biāo),具體包括資產(chǎn)負(fù)債指標(biāo)、利潤(rùn)指標(biāo)以及現(xiàn)金流量指標(biāo)等8個(gè)方面,如表2所示。 表2 影響研發(fā)投入的財(cái)務(wù)指標(biāo) 將數(shù)據(jù)以7:3劃分為訓(xùn)練集和測(cè)試集,分別用上述6種方法在訓(xùn)練集上擬合模型,并計(jì)算測(cè)試集上的均方誤差,具體模型評(píng)估結(jié)果如表3所示。可以看出,基于二階段HOLP-ALasso的均方誤差最小,預(yù)測(cè)精度為0.110,模型擬合效果最優(yōu)。 表3 模型評(píng)估結(jié)果 HOLP-ALasso最終從386個(gè)特征中篩選出9個(gè)變量,具體變量名見(jiàn)表4,其中有形資產(chǎn)帶息債務(wù)比與研發(fā)投入呈負(fù)相關(guān),其余9個(gè)變量與研發(fā)投入呈正相關(guān)。觀察表4中的估計(jì)系數(shù),管理費(fèi)用、所有者權(quán)益和銷(xiāo)售收入增加額較大程度地影響了研發(fā)投入金額,而其余6個(gè)變量雖然系數(shù)較小,但作為篩選出的重要變量也對(duì)結(jié)果產(chǎn)生了不可替代的作用。 表4 HOLP-ALasso法篩選的變量和估計(jì)系數(shù) 本文研究高維數(shù)據(jù)下不同二階段模型的篩選效果,通過(guò)比較HOLP-Lasso、HOLP-ALasso、FRLasso等組合方法,證明HOLP-ALasso能有效選擇變量并且具有較高的預(yù)測(cè)精度,最后將該方法應(yīng)用于新一代信息技術(shù)產(chǎn)業(yè)中企業(yè)研發(fā)投入影響因素的分析。 在數(shù)值模擬中,本文提出的基于HOLP-ALasso模型從整體上看具有最小預(yù)測(cè)誤差,相較于傳統(tǒng)Lasso、ALasso和 二 階 段HOLP-Lasso、SIS-Lasso、FR-Lasso,該方法能更有效的進(jìn)行特征篩選。 此外,實(shí)證研究進(jìn)一步驗(yàn)證了HOLP-ALasso能篩選出變量個(gè)數(shù)少且與響應(yīng)變量較強(qiáng)相關(guān)的特征子集。最終篩選出的9個(gè)指標(biāo)表明信息技術(shù)類(lèi)上市公司的利潤(rùn)和盈利能力對(duì)企業(yè)研發(fā)投入產(chǎn)生較大的促進(jìn)作用。企業(yè)在創(chuàng)新發(fā)展的道路上需要不斷提高盈利能力,可以關(guān)注以下兩個(gè)方面:一是緊跟市場(chǎng)需求,選擇自身具有競(jìng)爭(zhēng)力且擁有較好市場(chǎng)空間的發(fā)展方向;二是在企業(yè)成長(zhǎng)過(guò)程中,及時(shí)對(duì)經(jīng)營(yíng)模式做出調(diào)整,以更好地適應(yīng)市場(chǎng)需求的變動(dòng)。2 模型建立
2.1 基本假設(shè)
2.2 高維普通最小二乘投影(HOLP)
2.3 自適應(yīng)LASSO(Adaptive Lasso)
2.4 算法求解
3 數(shù)值模擬
3.1 模擬參數(shù)設(shè)置
3.2 結(jié)果分析
4 實(shí)證研究
4.1 樣本選取
4.2 結(jié)果分析
5 結(jié)論