摘要:民營企業(yè)研發(fā)投入強度作為衡量企業(yè)核心技術競爭力的核心指標,對民營企業(yè)的可持續(xù)發(fā)展具有重要戰(zhàn)略意義。本研究針對研發(fā)投入強度受多因素非線性影響的復雜性,以醫(yī)藥企業(yè)上海凱寶藥業(yè)為例,基于2010-2024年研發(fā)投入強度、人力資本密度、資產(chǎn)效率和實際利率等數(shù)據(jù),分析研發(fā)投入強度的關鍵驅(qū)動因子并預測未來5年研發(fā)投入強度。首先,基于XGBoost算法,使用R4.4.3軟件構建預測模型,通過SHAP值特征重要性分析選出4個核心解釋變量;其次,使用網(wǎng)格搜索法對模型參數(shù)進行優(yōu)化,確定最優(yōu)參數(shù)組合;再次,計算R2、MSE、RMSE、MAE、MAPE值,比較XGBoost、線性回歸、嶺回歸和支持向量回歸的模型性能;最后,預測2025-2029年研發(fā)投入強度并分析核心變量對研發(fā)投入強度的影響,為民營企業(yè)創(chuàng)新決策提供量化支持。
關鍵詞:民營經(jīng)濟;XGBoost預測模型;研發(fā)投入強度預測
一、引言
在“十四五”創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略背景下,民營企業(yè)研發(fā)投入強度已成為衡量其核心競爭力的關鍵指標,直接影響企業(yè)的技術水平和市場競爭力。尤其在醫(yī)藥行業(yè),研發(fā)投入不僅決定新藥的開發(fā)效率,還關系到企業(yè)的長期可持續(xù)發(fā)展。因此,準確預測企業(yè)的研發(fā)投入強度對于優(yōu)化資源配置和制定戰(zhàn)略規(guī)劃具有重要意義。然而,研發(fā)投入受多種因素影響,如人力資本密度、資產(chǎn)效率、實際利率水平等,這些因素之間往往存在復雜的非線性關系,傳統(tǒng)的線性模型難以捕捉其內(nèi)在規(guī)律。機器學習技術在預測分析領域展現(xiàn)出強大的潛力,XGBoost作為一種高效的集成學習算法,以其優(yōu)異的預測精度和魯棒性被廣泛應用于金融、醫(yī)療、工業(yè)等領域。與傳統(tǒng)回歸模型相比,XGBoost能夠自動處理非線性關系和高維數(shù)據(jù),同時通過正則化技術有效避免過擬合問題,為企業(yè)研發(fā)投入的多維分析提供新的思路和方法。本文以上海凱寶藥業(yè)股份有限公司為例,基于其2010-2024年的研發(fā)投入強度、人力資本密度、資產(chǎn)效率以及實際利率水平等數(shù)據(jù),構建基于XGBoost的研發(fā)投入預測模型,比較XGBoost與傳統(tǒng)回歸模型的預測效果差異,通過多維特征分析和模型優(yōu)化,揭示各因素對研發(fā)投入的影響機制,為民營企業(yè)制定科學的研發(fā)策略提供參考。
二、研究方法
(一)數(shù)據(jù)來源
本研究的數(shù)據(jù)主要來源于上海凱寶藥業(yè)股份有限公司的公開財務報告、年度報告以及相關行業(yè)數(shù)據(jù)庫。具體數(shù)據(jù)包括2010-2024年期間的研發(fā)投入強度、人力資本密度、資產(chǎn)效率、實際利率水平等8個影響因素的數(shù)據(jù)。
(二)數(shù)據(jù)標準化
為消除研發(fā)投入強度、人力資本密度、資產(chǎn)效率等指標因量綱與量級差異導致的權重失衡問題,并提升XGBoost模型訓練效率,本研究采用Z-score標準化方法對數(shù)據(jù)進行標準化。公式如下:
xnorm=
將數(shù)據(jù)標準化后,即可直接用于后續(xù)的模型訓練、預測等。
(三)XGBoost模型
1. 模型搭建
XGBoost的目標是通過集成多個弱學習器(決策樹)來構建一個強學習器。假設模型由K棵決策樹組成,則模型的預測值可以表示為:
贈贊i=fk(xi),fk∈F
其中,贈贊i是第i個樣本的預測值;fk是第k課決策樹;F是所有可能的決策樹的集合;xi是第i個樣本的特征向量。
目標函數(shù):XGBoost的目標函數(shù)由兩部分組成:損失函數(shù)和正則化項。
Obj=L(yi,贈贊i)+Ω(fk)
其中,L(yi,贈贊i)是損失函數(shù),用于衡量預測值贈贊i與真實值yi之間的差異;Ω(fk)是正則化項,用于控制模型的復雜度,防止過擬合。
回歸問題,常用的損失函數(shù)是均方誤差MSE:
L(yi,贈贊i)=L(yi-贈贊i)2
正則化項Ω(fk)定義為:
Ω(fk)=γT+λω
其中,T是樹的葉子節(jié)點數(shù);ωi是第j個葉子節(jié)點的權重;γ和λ是正則化系數(shù),用于控制數(shù)的復雜度和葉子節(jié)點權重的平滑性。
梯度提升,XGBoost通過梯度提升的方式逐步優(yōu)化模型。假設在第t次迭代時,模型的預測值為:
贈贊=贈贊+ft(xi)
其中,贈贊是前t-1棵樹的預測值;ft(xi)是第t棵樹的預測值。
將目標函數(shù)在第t次迭代時展開:
Obj(t)=L(yi,贈贊+ft(xi))+Ω(ft)
對損失函數(shù)進行二階泰勒展開:
L(yi,贈贊+ft(xi))≈L(yi,贈贊)+gift(xi)+hif(xi)
其中,gi=是損失函數(shù)的一階導數(shù);hi=是損失函數(shù)的二階導數(shù)。
將泰勒展開式代入目標函數(shù):
Obj(t)=
g
ω+
h+λω
+γT
其中,Ij是第j個葉子節(jié)點上的樣本集合。
對ωj求導并令導數(shù)為零,得到最優(yōu)權重:
ω=
將最優(yōu)權重代入目標函數(shù),得到最小化目標:
Obj(t)=-+γT
在樹的構建過程中,XGBoost通過貪心算法選擇最優(yōu)的分裂點,使得目標函數(shù)的值最小化。
2. 模型調(diào)參
為提升XGBoost模型對研發(fā)投入強度預測的精度與泛化能力,使用網(wǎng)格搜索法對關鍵超參數(shù)進行系統(tǒng)性優(yōu)化。基于先驗知識與數(shù)據(jù)特征,選取迭代次數(shù)、樹深度、學習率等7個核心參數(shù)構建參數(shù)組合空間。通過窮舉法遍歷候選參數(shù)組合,結合5折交叉驗證評估模型性能,最終確定最優(yōu)參數(shù)組合,表1為模型最優(yōu)參數(shù)組合結果表。
3. 評價指標
為全面評估XGBoost模型對研發(fā)投入強度預測的擬合優(yōu)度與預測精度,使用決定系數(shù)(R2)、均方誤差(MSE)、均方根誤差(RMSE)、平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE)等多維度評價指標,具體指標如下所示。
MSE=(yi-贈贊i)2
RMSE=
MSE和RMSE是用于評估回歸模型預測性能的常用指標,二者均通過衡量預測值與真實值之間的差異來反映模型精度。通常情況下,MSE和RMSE值越小,說明預測結果越接近實際值,模型的擬合優(yōu)度和預測精度越高。
R2=1-
通常情況下,R2是統(tǒng)計學中用于衡量回歸模型對數(shù)據(jù)擬合程度的指標,其值域范圍在0到1之間。當R2越接近1,說明模型對數(shù)據(jù)的解釋能力越強,擬合效果越好;而當R2接近0,則表明模型的解釋能力較弱,擬合效果不佳。
MAE=|y-贈贊|
MAPE=
·100%
MAE和MAPE是用于評估回歸模型預測性能的指標。MAE通過計算預測值與真實值之間絕對差的平均值,直觀反映預測誤差的平均規(guī)模。MAPE是將絕對誤差表示為真實值的百分比,適用于比較不同規(guī)模數(shù)據(jù)集的模型性能。通常情況下,MAE和MAPE越小,說明預測結果越接近實際值,模型的擬合優(yōu)度和預測精度越高。
三、結果
(一)特征重要性分析
特征重要性是指在機器學習模型中,各個特征對于模型預測結果影響程度的量化指標。特征選取能夠有效提高預測的準確性與可解釋性,在構建機器學習模型時,合理地進行特征選取是非常必要的。文中利用XGBoost算法的特征選取,特征重要性排序如圖1所示。
為提高XGBoost預測模型的準確性,通過設置特征數(shù)量,進行多次訓練。結果表明:特征個數(shù)為4個時,XGBoost預測模型的準確率最高為0.8763,因此保留4個特征,取特征重要度排序前4。表2為特征個數(shù)對應的準確率表。
(二)模型評估
基于網(wǎng)格搜索法得到XGBoost模型參數(shù)的最佳組合,再將資產(chǎn)效率、實際利率、人力資本密度和盈利能力的歷史數(shù)據(jù)代入,回歸預測得到上海凱寶藥業(yè)股份有限公司2010-2024年的研發(fā)投入情況,表3為各回歸模型2010-2024年的預測結果表,圖2為各回歸模型2010-2024年的預測結果圖。
由表3和圖2可知,四種回歸模型對研發(fā)投入強度的預測值均呈現(xiàn)波動上升趨勢,整體趨勢線與實際數(shù)據(jù)都有一個不錯的擬合效果。對于XGBoost模型,其趨勢的擬合最優(yōu),對2022年研發(fā)投入驟降、2024年研發(fā)投入峰值響應最靈敏, 準確捕捉到企業(yè)近年對研發(fā)的戰(zhàn)略性投入。對于嶺回歸與線性回歸,呈現(xiàn)平滑上升趨勢,但因模型假設局限性,對異常值和陡峭增長存在滯后響應。2024年嶺回歸預測值為0.0630顯著低于實際值0.0916,線性回歸則低估近年該公司研發(fā)投入的增速。對于支持向量回歸,局部擬合能力較強,2021-2023年預測趨勢與實際趨勢幾乎一致,但對整體趨勢的捕捉弱于XGBoost。
通過對資產(chǎn)效率、實際利率、人力資本密度和盈利能力四項數(shù)據(jù)的分析,得到各模型在2010-2024年間對研發(fā)投入強度的預測結果。基于此,進行模型的調(diào)優(yōu)與評估,選出性能最優(yōu)的模型,實現(xiàn)準確、可靠的預測結果。表4為不同回歸模型的評估結果表。
由表4可知,在對不同回歸模型的評估指標進行分析時,可以觀察到模型間的顯著差異。對于XGBoost模型,其MSE為 0.0000103,RMSE為0.00320,MAE為 0.00202,MAPE為5.00%,均顯著優(yōu)于其他模型;R2值為0.96,表明模型能夠解釋96%的方差,說明該模型對研發(fā)投入強度的預測非常準確;對于線性回歸模型,其R2值為0.812,顯示出一定的解釋能力,MSE、RMSE 和MAE值分別為0.0000482、0.00694和0.00579,均明顯高于XGBoost,表明線性回歸在預測精度上不如XGBoost模型;對于SVR 回歸模型,其R2值僅為 0.585,表示其對目標變量的解釋能力較低,同時其MSE和RMSE分別為0.0000566和0.00752,反映出更大的預測誤差。雖然MAE為0.00474,顯示出相對較小的平均絕對誤差,但整體性能依然不及 XGBoost和線性回歸;對于嶺回歸模型,其R2值為0.779,表明其在建模時能夠捕捉到一部分數(shù)據(jù)的變異性。盡管MSE和RMSE分別為0.000106和0.0103顯示出可觀的誤差,但相比XGBoost,MAE達到0.00733,MAPE為15.60%,表明嶺回歸的整體現(xiàn)實表現(xiàn)欠佳;綜上,XGBoost模型在各項評估指標中表現(xiàn)優(yōu)異,具有最好的解釋能力,而且在預測準確性和穩(wěn)定性方面也表現(xiàn)突出,證明其在預測民營企業(yè)的研發(fā)投入支出情況的有效性。
(三)殘差分析
殘差圖是通過可視化實際值與預測值的差異分布,揭示模型擬合數(shù)據(jù)的具體情況,圖3為XGBoost、線性回歸、嶺回歸與支持向量回歸模型的殘差效果圖。
由圖3可知,四類回歸模型的殘差分布特征揭示其對數(shù)據(jù)的適配能力差異。XGBoost模型展現(xiàn)出最優(yōu)的殘差特性,其數(shù)據(jù)點緊密圍繞紅色零殘差線對稱分布,殘差絕對值主要集中于[-0.01,+0.01]區(qū)間。表明線性假設與數(shù)據(jù)生成機制高度吻合,且RMSE為0.00320,驗證其在當前數(shù)據(jù)集上的最優(yōu)預測精度;線性回歸模型殘差整體接近理想線,但在高預測值區(qū)域出現(xiàn)少量離群點,說明該模型對極端值的過擬合風險或數(shù)據(jù)非線性特征的局部欠擬合,其RMSE為0.00694,略遜于XGBoost;嶺回歸與支持向量回歸的殘差分布呈現(xiàn)相似特征,前者在低預測值區(qū)(lt;0.03)存在殘差集中現(xiàn)象,后者則在中間預測值區(qū)(0.04-0.06)表現(xiàn)出更強的離散性,且RMSE分別為0.00752和0.0103,表明對特定數(shù)據(jù)結構的適應偏差,差于XGBoost。
綜上,XGBoost在兼具預測精度與穩(wěn)定性方面表現(xiàn)最優(yōu),其殘差特性比較契合誤差均勻分布的理想回歸假設。
(四)預測結果
通過參數(shù)優(yōu)化與殘差驗證,XGBoost模型展現(xiàn)出顯著的魯棒性與解釋能力?;诖?,本研究進一步利用該模型對2025-2029年研發(fā)投入強度進行預測,表5為XGBoost預測未來五年研發(fā)投入強度結果表,圖4為歷史數(shù)據(jù)與預測數(shù)據(jù)比較圖。
四、建議
根據(jù)分析結果與預測結果來看,XGBoost模型對上海凱寶藥業(yè)股份有限公司研發(fā)投入強度的預測表現(xiàn)出顯著的優(yōu)越性,其捕捉非線性關系與動態(tài)趨勢的能力為優(yōu)化研發(fā)資源配置提供科學依據(jù)。未來五年(2025-2029年)研發(fā)投入強度預測值持續(xù)增長,反映出企業(yè)創(chuàng)新驅(qū)動戰(zhàn)略的深化需求。結合特征重要性分析中人力資本密度、資產(chǎn)效率、實際利率及盈利水平的關鍵影響,提出以下建議:
從民營企業(yè)管理層的角度來看,應構建基于預測模型的動態(tài)研發(fā)管理機制。首先,應建立滾動預測與動態(tài)預算分配體系;針對2025-2027年預測值22.3%的快速增長期,優(yōu)先將研發(fā)預算配置至AI藥物篩選等高潛力項目,并在2028年預測回調(diào)期通過數(shù)字化研發(fā)管理系統(tǒng)優(yōu)化實驗流程;其次,強化人力資本建設;基于28.5%的特征權重實施“三階梯”人才戰(zhàn)略,建議將研發(fā)人員占比從24.6%提升至2029年的35%以上,引入AI輔助化合物合成系統(tǒng)提升研制效率,并將專利轉化率指標權重提升至績效考核的25%;再次,需深化產(chǎn)學研協(xié)同創(chuàng)新;通過共建生物醫(yī)藥聯(lián)合實驗室降低基礎研究成本,運用技術授權模式提高資產(chǎn)周轉率,并設立規(guī)模不低于年度營收5%的技術孵化基金;最后,應建立利率敏感型融資架構;在2025-2027年低利率窗口期提升長期債務比例,運用利率互換工具鎖定融資成本在LPR+50BP以內(nèi),并計提研發(fā)風險準備金至凈資產(chǎn)的3%以應對利率波動。
從金融機構與投資者的角度來看,應建立與研發(fā)創(chuàng)新周期相匹配的資本配置策略。首先,應強化研發(fā)投入強度作為核心評估維度,將預測模型輸出的趨勢分析納入企業(yè)價值評估框架,優(yōu)先關注研發(fā)資源配置與市場需求動態(tài)匹配的企業(yè)。其次,可開發(fā)差異化金融工具,針對企業(yè)研發(fā)投入的階段性特征設計彈性融資方案:在高速增長期提供與研發(fā)里程碑掛鉤的靈活信貸產(chǎn)品,在技術轉化期探索知識產(chǎn)權證券化、收益權質(zhì)押融資等創(chuàng)新模式,并通過可轉債工具平衡技術不確定性與資本回報需求;再次,需構建多維風險管理體系,運用機器學習模型量化利率波動對研發(fā)型企業(yè)的非線性沖擊,建議在投資組合中配置30%的抗周期型研發(fā)企業(yè)(如罕見病藥物研發(fā)機構),并建立動態(tài)對沖機制,當模型預測利率上行壓力超過150BP時,自動觸發(fā)信用違約互換保護策略。然后,應推動行業(yè)級研發(fā)數(shù)據(jù)生態(tài)建設,聯(lián)合行業(yè)協(xié)會搭建涵蓋技術成熟度、專利引用指數(shù)、核心人才留存率等12項指標的評估系統(tǒng),通過區(qū)塊鏈技術實現(xiàn)研發(fā)數(shù)據(jù)確權與可信共享。最后,建議開發(fā)智能投研平臺,整合企業(yè)研發(fā)投入預測模型與宏觀經(jīng)濟周期指標,實時生成動態(tài)風險評級,為不同風險偏好的投資者提供定制化的資產(chǎn)配置方案。
參考文獻:
[1]趙興赟,張強,楊方社,等.基于XGBoost-SHAP方法的陜西省PM2.5影響因素分析[J].環(huán)境科學研究,2025,38(05):990-999.
[2]張建,丁佩,劉楷操,等.基于XGBoost和SHAP的海灘波浪爬高預測研究[J].海洋預報,2025,42(02):1-8.
[3]楊艷晶.數(shù)字經(jīng)濟賦能新質(zhì)生產(chǎn)力的影響探究——基于民營經(jīng)濟視角[J].中國商論,2024,33(22):48-52.
[4]毛德鳳,張睿哲,羅孟旎.數(shù)字化賦能民營企業(yè)高質(zhì)量發(fā)展:理論機制與經(jīng)驗證據(jù)[J/OL].合肥工業(yè)大學學報(社會科學版),1-11[2025-03-22].http://kns.cnki.net/kcms/detail/34.1170.C.20250318.1016.002.html.
[5]楊大志,田雨晗,于曉樺.基于XGBoost算法的大學生旅游出行方式預測分析[J].交通科技與經(jīng)濟,2025,27(01):36-42.
[6]吳洋.基于隨機森林和XGBoost算法的房地產(chǎn)行業(yè)上市公司財務績效預測研究[J].安陽師范學院學報,2024,26(02):78-83.
*基金項目:2021年青島市哲學社會科學規(guī)劃項目“基于大數(shù)據(jù)環(huán)境下民營經(jīng)濟領域意識形態(tài)工作研究”(項目編號:QDSKL2101290)。
(作者單位:青島黃海學院)