江乾坤,王成哲
(浙江理工大學(xué) 經(jīng)濟(jì)管理學(xué)院,杭州 310018)
隨著全球數(shù)字經(jīng)濟(jì)的強(qiáng)勁發(fā)展和“數(shù)字絲綢之路”倡議的深入推進(jìn),以字節(jié)跳動(dòng)、騰訊、阿里巴巴為首的我國(guó)互聯(lián)網(wǎng)企業(yè)相繼扛起新興技術(shù)產(chǎn)業(yè)“出?!钡拇笃?,迅速崛起并在海外并購(gòu)領(lǐng)域嶄露頭角。然而,互聯(lián)網(wǎng)行業(yè)作為新興行業(yè),爆發(fā)式成長(zhǎng)的背后伴隨著高風(fēng)險(xiǎn)。由于互聯(lián)網(wǎng)企業(yè)特有的輕資產(chǎn)結(jié)構(gòu),資金鏈緊張成為常態(tài),且其融資方式主要傾向于風(fēng)險(xiǎn)投資和私募,這顯著地增加了運(yùn)營(yíng)成本和流動(dòng)性方面的風(fēng)險(xiǎn),從而引發(fā)財(cái)務(wù)危機(jī)。另外,互聯(lián)網(wǎng)行業(yè)的競(jìng)爭(zhēng)激烈,在“贏者通吃”的市場(chǎng)上只要技術(shù)略微突破便可能吸引大批客戶,相反技術(shù)落后企業(yè)便很快會(huì)被市場(chǎng)所遺棄(蔣殿春和唐浩丹,2021)。在這種激烈的市場(chǎng)競(jìng)爭(zhēng)下,互聯(lián)網(wǎng)企業(yè)需要不斷創(chuàng)新和提供差異化服務(wù)才能生存下來(lái)。此外,隨著國(guó)內(nèi)人口紅利見(jiàn)頂、內(nèi)需供給增長(zhǎng)變緩、智能手機(jī)銷(xiāo)量下滑,國(guó)內(nèi)互聯(lián)網(wǎng)各領(lǐng)域增速在逐漸回落,為了追求業(yè)務(wù)的增長(zhǎng),互聯(lián)網(wǎng)公司必須要拓展新的市場(chǎng),“走出去”成為互聯(lián)網(wǎng)企業(yè)的必然選擇(郭全中和李祖岳,2023)。然而,在追隨互聯(lián)網(wǎng)巨頭“走出去”的過(guò)程中,許多新興互聯(lián)網(wǎng)企業(yè)盲目擴(kuò)張、過(guò)度投資而忽視風(fēng)險(xiǎn)管理,導(dǎo)致內(nèi)部控制和抗風(fēng)險(xiǎn)能力滯后于擴(kuò)張速度,造成運(yùn)營(yíng)混亂,從而引發(fā)財(cái)務(wù)危機(jī)。創(chuàng)造奇跡的同時(shí)也暗藏阻礙與風(fēng)險(xiǎn),例如,暴風(fēng)影音因?yàn)槊つ坎①?gòu)英國(guó)體育媒體服務(wù)公司MPS(MP&Silva)而破產(chǎn)退市,聯(lián)絡(luò)互動(dòng)因?yàn)槭召?gòu)美國(guó)電商公司Newegg 而一度巨虧被特別處理(ST)等。錯(cuò)綜復(fù)雜的風(fēng)險(xiǎn)因素交織作用于互聯(lián)網(wǎng)企業(yè)海外并購(gòu)的各個(gè)流程,最終效果會(huì)以財(cái)務(wù)指標(biāo)予以呈現(xiàn)。互聯(lián)網(wǎng)企業(yè)正掀起新一輪國(guó)際化投資浪潮,如何應(yīng)對(duì)錯(cuò)綜復(fù)雜的全球投資環(huán)境以避免財(cái)務(wù)危機(jī)?如何利用大數(shù)據(jù)、云計(jì)算、人工智能等新技術(shù)進(jìn)行國(guó)際化投資風(fēng)險(xiǎn)預(yù)警?如何提升互聯(lián)網(wǎng)企業(yè)跨國(guó)并購(gòu)風(fēng)險(xiǎn)管控能力?因此,有效識(shí)別我國(guó)互聯(lián)網(wǎng)企業(yè)海外并購(gòu)財(cái)務(wù)風(fēng)險(xiǎn)因子,進(jìn)而制定相應(yīng)的財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警策略勢(shì)在必行。
海外并購(gòu)風(fēng)險(xiǎn)的傳統(tǒng)預(yù)警手段主要是企業(yè)或?qū)I(yè)機(jī)構(gòu)的盡職調(diào)查、各類(lèi)機(jī)構(gòu)發(fā)布國(guó)家投資風(fēng)險(xiǎn)評(píng)估報(bào)告等單指標(biāo)、定性、靜態(tài)模式,在“世界是平的”互聯(lián)互通時(shí)代,這已不能滿足風(fēng)險(xiǎn)管控實(shí)時(shí)決策的需要。本文借助大數(shù)據(jù)技術(shù)開(kāi)發(fā)多指標(biāo)、定量、動(dòng)態(tài)模型,克服模型設(shè)定的片面性和簡(jiǎn)單性,突破自選擇問(wèn)題,克服了數(shù)據(jù)不完全性、主觀性和時(shí)滯性缺陷。
目前財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型研究軌跡可分為三個(gè)代際:第一代為單一變量分析法;第二代為多元變量和條件概率分析法,如Z 分值、邏輯回歸模型等;第三代為人工智能分析法,如聚類(lèi)、隨機(jī)森林、BP 神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等(肖毅等,2020)。隨著大數(shù)據(jù)技術(shù)的日漸成熟,如何構(gòu)建機(jī)器學(xué)習(xí)等智能財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型正成為新的研究方向。對(duì)于財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警因子,現(xiàn)有研究大多局限于戰(zhàn)略選擇風(fēng)險(xiǎn)、政治風(fēng)險(xiǎn)、融資風(fēng)險(xiǎn)等單一風(fēng)險(xiǎn)或幾種風(fēng)險(xiǎn)對(duì)互聯(lián)網(wǎng)企業(yè)海外并購(gòu)的影響,如何引入股吧評(píng)論等非財(cái)務(wù)信息值得期待。
雖然機(jī)器學(xué)習(xí)已廣泛運(yùn)用于風(fēng)險(xiǎn)預(yù)警模型構(gòu)建,但多基于基學(xué)習(xí)器的單一分類(lèi)算法和預(yù)測(cè),且在實(shí)際中仍會(huì)遇到諸多難題(楊劍鋒等,2019)。本文的貢獻(xiàn)在于:首先,已有研究大多集中于“重資產(chǎn)”類(lèi)的制造型企業(yè)海外并購(gòu),本文研究對(duì)象是聚焦“輕資產(chǎn)”類(lèi)的互聯(lián)網(wǎng)企業(yè)海外并購(gòu),拓展了海外并購(gòu)風(fēng)險(xiǎn)預(yù)警研究;其次,通過(guò)大數(shù)據(jù)證實(shí)Stacking 集成學(xué)習(xí)模型相比隨機(jī)森林(RF)等其他機(jī)器學(xué)習(xí)模型的財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警效果更好;第三,通過(guò)Stacking 集成學(xué)習(xí)模型發(fā)現(xiàn),運(yùn)營(yíng)能力等傳統(tǒng)型財(cái)務(wù)指標(biāo)依然是互聯(lián)網(wǎng)企業(yè)海外并購(gòu)風(fēng)險(xiǎn)預(yù)警因子的首選指標(biāo),但股吧評(píng)論等創(chuàng)新型非財(cái)務(wù)指標(biāo)也具有重要的預(yù)警價(jià)值。
現(xiàn)有財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型的構(gòu)建可概括為兩個(gè)維度(肖毅等,2020):一是預(yù)測(cè)方法經(jīng)歷了從單一傳統(tǒng)的統(tǒng)計(jì)學(xué)方法到基于人工智能的機(jī)器學(xué)習(xí)方法的演化;二是風(fēng)險(xiǎn)因子從固定財(cái)務(wù)比率到通過(guò)數(shù)據(jù)挖掘方法進(jìn)行數(shù)據(jù)篩選以選擇財(cái)務(wù)比率,再到引入非財(cái)務(wù)因素。本文將從智能財(cái)務(wù)預(yù)警模型和互聯(lián)網(wǎng)企業(yè)海外并購(gòu)風(fēng)險(xiǎn)因子兩方面進(jìn)行梳理。
現(xiàn)有智能財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型可總結(jié)為:①單分類(lèi)器模型。包括Z 分值、Logit、Probit 及累積求和模型等統(tǒng)計(jì)分析類(lèi);人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、粗糙集、決策樹(shù)、支持向量機(jī)等人工智能類(lèi)。②混合單分類(lèi)器。將兩個(gè)模型串聯(lián)混合或融合兩三種單分類(lèi)器模型來(lái)產(chǎn)生一種新的預(yù)測(cè)模型。③多分類(lèi)器組合模型,包括單分類(lèi)器的并聯(lián)組合和串聯(lián)組合(滕曉東和宋國(guó)榮,2021)。不過(guò),上述智能財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警研究存在諸多改進(jìn)之處:一是單分類(lèi)器模型研究尚不深入;二是多分類(lèi)器組合模型研究較少;三是忽視專(zhuān)家經(jīng)驗(yàn)知識(shí)和非財(cái)務(wù)信息對(duì)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警的重要作用;四是針對(duì)中國(guó)市場(chǎng)開(kāi)展實(shí)證研究的經(jīng)驗(yàn)證據(jù)還不夠充分。
當(dāng)前機(jī)器學(xué)習(xí)算法主要分三類(lèi):一是基本分類(lèi)算法,典型代表是支持向量機(jī)(SVM)、邏輯回歸(LR)、樸素貝葉斯(Bayes)、鄰近算法(KNN)和決策樹(shù)(DT);二是神經(jīng)網(wǎng)絡(luò)算法(ANN),典型代表是BP 神經(jīng)網(wǎng)絡(luò)模型和多層感知機(jī)(MLP);三是集成分類(lèi)算法,典型代表是隨機(jī)森林(RF)和極端梯度提升(XGBoost)。其中,Gini系數(shù)(CART)等決策樹(shù)算法模型往往會(huì)出現(xiàn)過(guò)擬合,ANN 模型只能高度匹配局部經(jīng)濟(jì)狀況,模型的大局匹配能力不高,而集成分類(lèi)算法最為常用。集成學(xué)習(xí)通過(guò)構(gòu)建并組合優(yōu)化多個(gè)模型來(lái)完成學(xué)習(xí)任務(wù),雖然其得到的也是“弱學(xué)習(xí)器”,但優(yōu)點(diǎn)在于可以產(chǎn)生多種“弱學(xué)習(xí)器”并將它們集成為一個(gè)“強(qiáng)學(xué)習(xí)器”,該新學(xué)習(xí)器在泛化性能和預(yù)測(cè)精度方面具有明顯的優(yōu)勢(shì)。從以往實(shí)證結(jié)果來(lái)看,相比其他機(jī)器學(xué)習(xí)算法,采用集成學(xué)習(xí)算法對(duì)于財(cái)務(wù)困境企業(yè)的預(yù)測(cè)更為準(zhǔn)確(任婷婷等,2021)。
目前最為成熟和發(fā)展最壯大的三種集成學(xué)習(xí)算法(Chowdhury et al,2015):一是Bagging,包括RF、極端隨機(jī)樹(shù)(ET)等,可減少方差;二是Boosting,包括梯度提升算法(Adaboost)、梯度提升決策樹(shù)(GBDT)和輕量級(jí)GBM 梯度提升機(jī)(LGBM)等,可減少偏差;三是Stacking。三種算法在樣本選擇、樣例權(quán)重、預(yù)測(cè)函數(shù)、并行計(jì)算、目標(biāo)側(cè)重上各有千秋。但一般的集成算法是通過(guò)某種方式融合多個(gè)相同的學(xué)習(xí)器,而Stacking 集成學(xué)習(xí)策略則更為強(qiáng)大,其通過(guò)將多個(gè)不同的基本學(xué)習(xí)器的預(yù)測(cè)結(jié)果作為新的特征輸入一個(gè)元學(xué)習(xí)器中,從而獲得更準(zhǔn)確和泛化能力更強(qiáng)的預(yù)測(cè)結(jié)果(林萍和呂健超,2023)。在Stacking 算法中,需要進(jìn)行兩個(gè)階段的學(xué)習(xí):第一階段是使用多個(gè)基本學(xué)習(xí)器對(duì)原始數(shù)據(jù)進(jìn)行訓(xùn)練和擬合,得到多個(gè)基本模型;第二階段是使用一個(gè)元學(xué)習(xí)器將多個(gè)基本模型的預(yù)測(cè)結(jié)果組合起來(lái),生成最終的預(yù)測(cè)結(jié)果。Stacking 集成學(xué)習(xí)方法能夠兼顧多個(gè)基模型和元模型的學(xué)習(xí)能力,發(fā)揮各模型優(yōu)勢(shì),進(jìn)一步提高預(yù)測(cè)精度。此外,由于Stacking 集成學(xué)習(xí)方法及選取模型的自身優(yōu)勢(shì),該模型具有可移植性(李美玉等,2023),在其他應(yīng)用情境下實(shí)現(xiàn)風(fēng)險(xiǎn)預(yù)警,例如,信用債違約風(fēng)險(xiǎn)預(yù)警(劉曉等,2023)、P2P 網(wǎng)貸違約風(fēng)險(xiǎn)預(yù)警(丁嵐和駱品亮,2017)等。
從智能財(cái)務(wù)危機(jī)預(yù)警模型實(shí)踐來(lái)看,通常是先選取財(cái)務(wù)類(lèi)指標(biāo),包括企業(yè)償債能力、企業(yè)盈利能力、企業(yè)營(yíng)運(yùn)能力、企業(yè)現(xiàn)金流量水平、企業(yè)發(fā)展能力、資本結(jié)構(gòu)(吳春雷和馬林梅,2007)。由于財(cái)務(wù)信息存在滯后性,應(yīng)引入多角度的非財(cái)務(wù)信息,從不同側(cè)面預(yù)測(cè)企業(yè)財(cái)務(wù)危機(jī)的風(fēng)險(xiǎn)源,進(jìn)而提升預(yù)警模型的預(yù)測(cè)價(jià)值(肖毅等,2020),例如,監(jiān)事總規(guī)模、審計(jì)意見(jiàn)和創(chuàng)新成長(zhǎng)能力、大股東持股比例和獨(dú)立董事比例(呂峻,2014)、網(wǎng)絡(luò)輿情(宋彪等,2015)、系統(tǒng)性風(fēng)險(xiǎn)(楊子暉等,2022)、線上運(yùn)營(yíng)能力、投訴途徑、登陸方式與合作第三方網(wǎng)絡(luò)平臺(tái)數(shù)量。此外,通過(guò)引入新聞媒體和股吧評(píng)論等運(yùn)用大數(shù)據(jù)分析的指標(biāo),財(cái)務(wù)危機(jī)預(yù)警模型可以得到有效的改進(jìn),從而提高其預(yù)警效果,同時(shí)減輕傳統(tǒng)財(cái)務(wù)指標(biāo)的滯后性(宋彪等,2015)??梢?jiàn),融合大數(shù)據(jù)與機(jī)器學(xué)習(xí)算法的智能財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型不僅可行,而且往往會(huì)挖掘很多新型的預(yù)警因子。
相比于國(guó)內(nèi)并購(gòu)而言,跨國(guó)并購(gòu)所涉及的政治、經(jīng)濟(jì)、文化等風(fēng)險(xiǎn)問(wèn)題更為錯(cuò)綜復(fù)雜(王靜,2020),例如東道國(guó)媒體負(fù)面情緒強(qiáng)烈(晏艷陽(yáng)和湯會(huì)登,2023);數(shù)據(jù)風(fēng)險(xiǎn)日益突出(馬述忠等,2023);“來(lái)源國(guó)劣勢(shì)”引發(fā)東道國(guó)政府的監(jiān)管阻撓(楊勃等,2020);貿(mào)易堡壘帶來(lái)的跨國(guó)并購(gòu)障礙與風(fēng)險(xiǎn)(楊連星,2021);文化差異導(dǎo)致并購(gòu)整合失?。ˋhern et al,2015);制度環(huán)境差異大導(dǎo)致并購(gòu)雙方信息不對(duì)稱(chēng)(Ahmad et al,2019)、法律風(fēng)險(xiǎn)(俞鋒和池仁勇,2015)等宏觀因素。但是,這些研究大多限于單一風(fēng)險(xiǎn)或幾種風(fēng)險(xiǎn)因子,且大多采用傳統(tǒng)實(shí)證方法,如Logistic 回歸等方法,鮮有運(yùn)用大數(shù)據(jù)的機(jī)器學(xué)習(xí)方法。而隨著大數(shù)據(jù)技術(shù)日益興盛,通過(guò)機(jī)器學(xué)習(xí)模型挖掘更豐富的互聯(lián)網(wǎng)企業(yè)海外并購(gòu)風(fēng)險(xiǎn)因子已成為可能。
隨著國(guó)內(nèi)互聯(lián)網(wǎng)市場(chǎng)進(jìn)入存量市場(chǎng)競(jìng)爭(zhēng)時(shí)代,互聯(lián)網(wǎng)行業(yè)“出?!币殉哨厔?shì),這對(duì)以往大多針對(duì)于傳統(tǒng)制造業(yè)的跨國(guó)并購(gòu)研究提出了新的挑戰(zhàn)。近年來(lái),部分文獻(xiàn)開(kāi)始對(duì)互聯(lián)網(wǎng)企業(yè)國(guó)際化展開(kāi)探索式研究(Vecchi and Brennan,2022;馮乾彬等,2023)。Luo(2021)提出主流的國(guó)際化投資理論難以適用于中國(guó)互聯(lián)網(wǎng)行業(yè)等新興行業(yè)的投資行為,傳統(tǒng)的所有權(quán)優(yōu)勢(shì)、區(qū)位優(yōu)勢(shì)和內(nèi)部化優(yōu)勢(shì)在數(shù)字經(jīng)濟(jì)時(shí)代有所削弱。在互聯(lián)網(wǎng)企業(yè)進(jìn)行跨國(guó)并購(gòu)時(shí),東道國(guó)的市場(chǎng)規(guī)模、地理距離不再是企業(yè)著重考慮的因素,而是更傾向于獲取東道國(guó)豐富的數(shù)字技術(shù)和研發(fā)資源(蔣殿春和唐浩丹,2021)。相比于傳統(tǒng)制造業(yè),互聯(lián)網(wǎng)行業(yè)的敏感性會(huì)導(dǎo)致企業(yè)在并購(gòu)時(shí)會(huì)遭受著更為嚴(yán)厲的東道國(guó)政府監(jiān)管(郭全中和李祖岳,2023),例如,近年來(lái)美國(guó)對(duì)我國(guó)的中興、華為和字節(jié)跳動(dòng)等互聯(lián)網(wǎng)企業(yè)的長(zhǎng)臂管轄與定點(diǎn)打擊及美國(guó)外資投資委員會(huì)(CFIUS)以國(guó)安理由介入調(diào)查并取消的并購(gòu)案例越來(lái)越多。歐盟出臺(tái)的《通用數(shù)據(jù)保護(hù)條例》(GDPR)等數(shù)據(jù)隱私法規(guī)的出臺(tái)也對(duì)我國(guó)互聯(lián)網(wǎng)企業(yè)出海提出了更高的要求(馬述忠等,2023)。區(qū)別于傳統(tǒng)制造業(yè)跨國(guó)公司,互聯(lián)網(wǎng)企業(yè)獨(dú)特的成長(zhǎng)路徑蘊(yùn)涵著特有的海外并購(gòu)風(fēng)險(xiǎn)(樓潤(rùn)平等,2019),因此有必要對(duì)互聯(lián)網(wǎng)企業(yè)國(guó)際化作更深入的探討。
綜合來(lái)看,現(xiàn)有文獻(xiàn)機(jī)器學(xué)習(xí)研究主體多是上市公司國(guó)內(nèi)并購(gòu)(王言等,2021),較少專(zhuān)注海外并購(gòu)事件;研究對(duì)象以傳統(tǒng)制造業(yè)為主,較少專(zhuān)注互聯(lián)網(wǎng)企業(yè);預(yù)警指標(biāo)體系以微觀(企業(yè))財(cái)務(wù)指標(biāo)為主(Jia et al,2020),較少涉及宏觀(國(guó)家)和中觀(行業(yè)),且對(duì)跨層面多角度的影響因素的綜合分析較少;預(yù)警風(fēng)險(xiǎn)因子以財(cái)務(wù)類(lèi)指標(biāo)為主,非財(cái)務(wù)類(lèi)指標(biāo)已經(jīng)逐漸增多(陳藝云,2022);研究方法已經(jīng)大量探索機(jī)器學(xué)習(xí)模型,但集成學(xué)習(xí)及Stacking 算法模型少見(jiàn)。為此,基于互聯(lián)網(wǎng)企業(yè)海外并購(gòu)事件及其文獻(xiàn),本文從國(guó)家宏觀、行業(yè)中觀、企業(yè)微觀和大數(shù)據(jù)4 個(gè)維度構(gòu)建互聯(lián)網(wǎng)企業(yè)海外并購(gòu)財(cái)務(wù)風(fēng)險(xiǎn)大數(shù)據(jù)預(yù)警指標(biāo),通過(guò)算法優(yōu)化構(gòu)建集成預(yù)測(cè)模型,并對(duì)比不同學(xué)習(xí)算法在跨國(guó)并購(gòu)風(fēng)險(xiǎn)預(yù)警的預(yù)測(cè)效果,以期為海外并購(gòu)風(fēng)險(xiǎn)管控提供新思路。
本文設(shè)計(jì)的基于Stacking 模型的互聯(lián)網(wǎng)企業(yè)海外并購(gòu)財(cái)務(wù)風(fēng)險(xiǎn)大數(shù)據(jù)預(yù)警模型實(shí)施路線如圖1 所示。國(guó)內(nèi)和國(guó)外并購(gòu)交易分析平臺(tái)中記錄了大量互聯(lián)網(wǎng)企業(yè)海外并購(gòu)記錄數(shù)據(jù),本文首先通過(guò)網(wǎng)絡(luò)爬蟲(chóng)、手工等方法收集我國(guó)互聯(lián)網(wǎng)企業(yè)海外并購(gòu)的樣本。除基礎(chǔ)數(shù)據(jù)預(yù)處理工作外,本文就可能出現(xiàn)的樣本過(guò)擬合和特征維度過(guò)多的問(wèn)題提出了解決方案。在模型設(shè)計(jì)和實(shí)施階段,依據(jù)“好而不同”的原則在模型候選列表(包括集成學(xué)習(xí)模型和非集成學(xué)習(xí)模型)中進(jìn)行隨機(jī)選擇并針對(duì)海外并購(gòu)數(shù)據(jù)集完成訓(xùn)練,并采用機(jī)器學(xué)習(xí)任務(wù)中常用的準(zhǔn)確率和area under curve(AUC)值等指標(biāo)進(jìn)行模型評(píng)估,選取預(yù)測(cè)精度最高的組合模型作為本文的基模型組合。接下來(lái),基于Stacking 集成學(xué)習(xí)的思路,本文對(duì)單分類(lèi)器的輸出結(jié)果進(jìn)行特征融合優(yōu)化,并將其作為輸入進(jìn)行元模型的訓(xùn)練,以輸出最終的預(yù)測(cè)結(jié)果。最后,通過(guò)輸出特征重要性圖來(lái)分析模型中各個(gè)特征對(duì)預(yù)測(cè)結(jié)果的影響程度。這有助于理解模型對(duì)于不同特征的關(guān)注程度,并有助于特征選擇和模型調(diào)整的優(yōu)化工作。
圖1 模型實(shí)施路線圖
集成學(xué)習(xí)技術(shù)是將一系列基學(xué)習(xí)器通過(guò)迭代、組合等方式組成新的機(jī)器學(xué)習(xí)模型來(lái)降低方差及提高模型的泛化性能(Dasarathy and Sheela,1979),首先,依據(jù)預(yù)先設(shè)定的規(guī)則生成多個(gè)分類(lèi)器;其次,利用預(yù)設(shè)定的組合規(guī)則將這些分類(lèi)器合理地組合起來(lái),形成一個(gè)元分類(lèi)器,其泛化能力更優(yōu)于單一分類(lèi)器;最后,綜合分析多個(gè)分類(lèi)器的預(yù)測(cè)結(jié)果,得出最終的輸出結(jié)果?;凇岸询B泛化”(stacked generalization)概念,Wolpert(1992)認(rèn)為集成學(xué)習(xí)是一種將多重機(jī)器學(xué)習(xí)模型分類(lèi)、分層,最后通過(guò)一類(lèi)投票(vote)方法輸出模型最終分類(lèi)結(jié)果的算法模型。對(duì)比傳統(tǒng)的基于投票法的集成學(xué)習(xí)模型與Stacking 模型,后者的分類(lèi)準(zhǔn)確性均優(yōu)于前者(Georgios et al,2005)。Stacking 算法使用特殊的結(jié)合方法,可以將不同類(lèi)型的機(jī)器學(xué)習(xí)算法匯集并堆疊成為一個(gè)新的學(xué)習(xí)器(徐繼和楊云,2018)。
Stacking 算法建模過(guò)程如圖2:首先,對(duì)數(shù)據(jù)集進(jìn)行重采樣,獲取多個(gè)子集,一般分為與基學(xué)習(xí)器個(gè)數(shù)相同的份數(shù)。第一層學(xué)習(xí)模型通常是指對(duì)原始數(shù)據(jù)即沒(méi)有標(biāo)簽的數(shù)據(jù)進(jìn)行預(yù)測(cè)并進(jìn)行有監(jiān)督的學(xué)習(xí)。本文所用的數(shù)據(jù)均是在已有事實(shí)結(jié)果的情況下獲取,數(shù)據(jù)已經(jīng)有了明確結(jié)果,故第一層學(xué)習(xí)模型不再考慮?;鶎W(xué)習(xí)器是指在構(gòu)建Stacking 算法中用于構(gòu)建第二層預(yù)測(cè)模型的機(jī)器學(xué)習(xí)算法。每個(gè)基學(xué)習(xí)器僅使用一個(gè)其他基學(xué)習(xí)器未預(yù)測(cè)過(guò)的子集來(lái)作為預(yù)測(cè)集,以保證這個(gè)子集未參與到訓(xùn)練過(guò)程之中,且可以減少過(guò)擬合程度。通常在選擇基學(xué)習(xí)器時(shí),選擇計(jì)算方法有偏差的弱學(xué)習(xí)器來(lái)產(chǎn)生分類(lèi)結(jié)果,以免導(dǎo)致后續(xù)的訓(xùn)練受第二層結(jié)果影響過(guò)大,造成結(jié)果方差偏離較大。在分配訓(xùn)練子集過(guò)程中,應(yīng)當(dāng)避免每一塊數(shù)據(jù)索引互相重疊(史佳琪和張建華,2019),以防最終輸出結(jié)果出現(xiàn)嚴(yán)重的過(guò)擬合。
圖2 Stacking 算法建模過(guò)程
其次,得到所有基學(xué)習(xí)器的輸出結(jié)果后,對(duì)相互之間的結(jié)果進(jìn)行相關(guān)性分析。篩選出相關(guān)性較差的輸出結(jié)果,保留其算法模型,而對(duì)于相關(guān)度較高的模型則保留預(yù)測(cè)結(jié)果最好的一組模型。其原因在于,不同的算法本質(zhì)上是不同維度及不同的數(shù)據(jù)結(jié)構(gòu)角度擬合數(shù)據(jù),然后根據(jù)不同的原理來(lái)建立模型,而最終的疊加是一個(gè)糾錯(cuò)過(guò)程(徐繼和楊云,2018)。這就使得對(duì)于整體Stacking 集成學(xué)習(xí)模型而言,基學(xué)習(xí)器的召回率比準(zhǔn)確率更重要。本文選擇Pearson 法來(lái)衡量各個(gè)模型的差異程度,其計(jì)算方法如式(1)所示。
其中:x和y分別為兩不同模型輸出的預(yù)測(cè)值;i為觀測(cè)值,共m組預(yù)測(cè)值。rxy越小,模型匹配度越高。再者,選擇所有相關(guān)性較差的結(jié)果組合記錄其所對(duì)應(yīng)的基學(xué)習(xí)器,得到第二層基學(xué)習(xí)器集合。這些基學(xué)習(xí)器在最終的集成學(xué)習(xí)算法之中將會(huì)反復(fù)訓(xùn)練堆疊,結(jié)果也會(huì)不斷做交叉驗(yàn)證,最終選取得到精確率更高的集成學(xué)習(xí)模型。
最后,第三層通常選用投票法來(lái)產(chǎn)生最終的預(yù)測(cè)結(jié)果。基于陳鐵明和馬繼霞(2012)等已有研究,通常賦予最優(yōu)模型以更高的權(quán)重。根據(jù)隨機(jī)森林或其他樹(shù)形決策分類(lèi)器的特征,在已經(jīng)獲得數(shù)據(jù)分類(lèi)結(jié)果的情況下,可以使預(yù)測(cè)結(jié)果更好的模型得到更高權(quán)重,也可以使用加權(quán)投票法來(lái)簡(jiǎn)化算法流程(徐繼偉和楊云,2018):H(x)=,其中wi為第i個(gè)個(gè)體學(xué)習(xí)器的權(quán)值;hi(x)為第i個(gè)學(xué)習(xí)器(共T個(gè))的誤差,通常wi>0 且或可以采用平均法,其中i為第i個(gè)學(xué)習(xí)器。Stacking 算法具體表示如下:對(duì)于一個(gè)樣本集合D={(xp,yp),p=1,2,3,…,N},yp是第p個(gè)樣本的結(jié)果,xp為第p個(gè)樣本所對(duì)應(yīng)的特征集。
1.互聯(lián)網(wǎng)企業(yè)海外并購(gòu)風(fēng)險(xiǎn)預(yù)警因子體系
綜合現(xiàn)有研究,本文構(gòu)建的中國(guó)互聯(lián)網(wǎng)企業(yè)海外并購(gòu)風(fēng)險(xiǎn)預(yù)警因子包括4 個(gè)維度(表1),共計(jì)86 個(gè)指標(biāo)。其中,股吧評(píng)論屬于大數(shù)據(jù)非財(cái)務(wù)指標(biāo),下文將詳細(xì)解析,其他類(lèi)指標(biāo)限于篇幅不再詳析。這些風(fēng)險(xiǎn)預(yù)警因子相對(duì)獨(dú)立又相互關(guān)聯(lián),從風(fēng)險(xiǎn)演化鏈角度來(lái)看,東道國(guó)宏觀風(fēng)險(xiǎn)因子、市場(chǎng)中觀風(fēng)險(xiǎn)因子、企業(yè)微觀風(fēng)險(xiǎn)因子往往會(huì)依次顯現(xiàn),媒體關(guān)注等大數(shù)據(jù)預(yù)警因子則憑借獨(dú)特的實(shí)時(shí)動(dòng)態(tài)優(yōu)勢(shì)貫穿其中,它們的綜合預(yù)警效果最終會(huì)通過(guò)主并企業(yè)財(cái)務(wù)危機(jī)形式呈現(xiàn),而上述紛繁復(fù)雜的風(fēng)險(xiǎn)預(yù)警過(guò)程無(wú)法采用傳統(tǒng)的財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型,需要引入以集成學(xué)習(xí)為代表的的智能財(cái)務(wù)危機(jī)預(yù)警模型。
表1 互聯(lián)網(wǎng)企業(yè)海外并購(gòu)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警因子體系
2.股吧評(píng)論指標(biāo)
從在線信息獲取的企業(yè)相關(guān)大數(shù)據(jù),其內(nèi)容可包含導(dǎo)致企業(yè)財(cái)務(wù)危機(jī)方方面面的因素,甚至包含人們尚未認(rèn)識(shí)到的危機(jī)根源。在眾多網(wǎng)絡(luò)平臺(tái)中,股吧平臺(tái)最為活躍,也是最具有研究?jī)r(jià)值的平臺(tái),股吧平臺(tái)是媒體、機(jī)構(gòu)投資者、小眾投資者、供應(yīng)商及基金經(jīng)理之間信息傳遞的重要媒介,其產(chǎn)生的大數(shù)據(jù)對(duì)于研究公司股票價(jià)格和財(cái)務(wù)狀況的變化極具價(jià)值(Lai,2022)。股吧評(píng)論中不乏資深網(wǎng)民與相關(guān)專(zhuān)家對(duì)海外并購(gòu)事件的真知灼見(jiàn),其言論具有一定的專(zhuān)業(yè)性和科學(xué)性。它們所傳遞的信息及情感交流的互動(dòng)和波動(dòng)在一定程度上能夠反映企業(yè)在實(shí)施海外并購(gòu)后的經(jīng)營(yíng)及財(cái)務(wù)狀況,因此對(duì)企業(yè)的財(cái)務(wù)危機(jī)具有一定的預(yù)警價(jià)值。此外,互聯(lián)網(wǎng)上的網(wǎng)民對(duì)企業(yè)的相關(guān)行為也會(huì)產(chǎn)生反應(yīng),這涵蓋了線下接觸企業(yè)的人們所產(chǎn)生的各種情緒。所有這些信息通過(guò)線下行為映射到互聯(lián)網(wǎng),并通過(guò)聚集、排斥和融合的作用在互聯(lián)網(wǎng)中形成股民情緒,進(jìn)而形成與相關(guān)企業(yè)相關(guān)的網(wǎng)絡(luò)輿情(宋彪等,2015)。這些客觀、科學(xué)的數(shù)據(jù)可以為財(cái)務(wù)危機(jī)預(yù)警提供幫助。不僅大數(shù)據(jù)與企業(yè)財(cái)務(wù)狀況密切相關(guān),而且通過(guò)計(jì)算機(jī)自然語(yǔ)言處理技術(shù)進(jìn)行量化處理,結(jié)果更加客觀,因此通過(guò)大數(shù)據(jù)量化處理形成的指標(biāo)可以解決以往非財(cái)務(wù)指標(biāo)片面、主觀、難以量化的問(wèn)題。通過(guò)分析和監(jiān)測(cè)這些數(shù)據(jù),可及早發(fā)現(xiàn)潛在的財(cái)務(wù)風(fēng)險(xiǎn)因素和市場(chǎng)反應(yīng),幫助企業(yè)及時(shí)采取措施避免危機(jī)的發(fā)生或減輕其影響(段珊珊和朱建明,2016)。
關(guān)于股吧評(píng)論的指標(biāo)獲取,本文采用Python 作為編程基礎(chǔ),選取中國(guó)最大的財(cái)經(jīng)網(wǎng)站東方財(cái)富網(wǎng)作為數(shù)據(jù)來(lái)源,從中批量爬取評(píng)論的標(biāo)題、內(nèi)容文本、時(shí)間等。為了對(duì)所爬取的內(nèi)容文本進(jìn)行情感分析,本文采用了多個(gè)情感詞典來(lái)構(gòu)建情感詞庫(kù),其中包括如下詞典:第一,基礎(chǔ)詞典,主要以知網(wǎng)HowNet 情感詞典為主;第二,網(wǎng)絡(luò)語(yǔ)言詞典,以BosonNLP 和SnowNLP 情感詞典為主;第三,金融專(zhuān)業(yè)領(lǐng)域詞典,以證券和財(cái)經(jīng)領(lǐng)域詞匯為主;第四,新聞詞典,主要以新聞、政策中隱性情感傾向的詞匯為主?;谝陨系那楦性~典,加入其他手動(dòng)搜集的情感詞和股吧情感詞典(表略),得到本文進(jìn)行集成學(xué)習(xí)的評(píng)論數(shù)據(jù)情感詞典。此外,在日常交流中,除了情感詞典中的積極詞匯和消極詞匯以外,大量的副詞和否定詞也經(jīng)常被用來(lái)加強(qiáng)或減弱所要表達(dá)的內(nèi)容。為了更準(zhǔn)確地評(píng)估文本情感,本文參考HowNet 情感詞典、相關(guān)研究和人工收集的信息,整理出副詞和否定詞的詞典(表略),并將它們分為7 個(gè)等級(jí),根據(jù)現(xiàn)有的文本情感分析文獻(xiàn)進(jìn)行具體賦值。積極詞匯賦值為1,消極詞匯賦值為-1,副詞和否定詞的值在-1.0~2.5,絕對(duì)值越高表示程度越強(qiáng)。
另外,根據(jù)情感詞典和機(jī)器學(xué)習(xí)程序分析股吧評(píng)論的情感值。使用jieba 分詞將爬取到的文本內(nèi)容的句子分割成詞匯,將分割后詞語(yǔ)中的情感詞與情感詞典中的詞匯自動(dòng)進(jìn)行對(duì)比,并使用程度副詞進(jìn)行加權(quán)計(jì)算得到情感值。之后,根據(jù)文本中各詞匯的情感值,相加匯總后可得到每一個(gè)帖子中文本的情感值。若情感值大于0,則當(dāng)前主題帖為積極評(píng)論貼;若情感值小于0,則當(dāng)前主題帖為消極評(píng)論貼;若情感值為0,則將其定義為中立評(píng)論貼。
本文將主并互聯(lián)網(wǎng)企業(yè)實(shí)施海外并購(gòu)后被ST 的年份定義為T(mén)年,由于財(cái)務(wù)報(bào)告發(fā)布具有滯后性,T-2 年財(cái)務(wù)數(shù)據(jù)已包含企業(yè)發(fā)生財(cái)務(wù)危機(jī)的主要特征——虧損,但這些評(píng)論屬于在T-2年財(cái)務(wù)數(shù)據(jù)發(fā)布之前的評(píng)價(jià),并不會(huì)夸大財(cái)務(wù)危機(jī)預(yù)警效果。因此,本文在考慮大數(shù)據(jù)指標(biāo)時(shí),選取企業(yè)T-2 和T-3 年的股吧平臺(tái)數(shù)據(jù)進(jìn)行觀察和分析。
由此,本文給出股吧評(píng)論大數(shù)據(jù)指標(biāo)的定義見(jiàn)表2。
表2 互聯(lián)網(wǎng)企業(yè)海外并購(gòu)事件的股吧評(píng)論大數(shù)據(jù)指標(biāo)
綜上,本文選取T-2 年帖子數(shù)、T-2 年評(píng)論數(shù)、T-2 年輿論熱度、T-2 年積極情緒指數(shù)、T-3 年帖子數(shù)、T-3年評(píng)論數(shù)、T-3 年輿論熱度、T-3 年積極情緒指數(shù)8 個(gè)大數(shù)據(jù)指標(biāo)作為待選項(xiàng),用于后續(xù)的海外并購(gòu)財(cái)務(wù)危機(jī)預(yù)警模型,并借助Python 收集到約60 萬(wàn)條數(shù)據(jù),整理匯總成45 家互聯(lián)網(wǎng)上市公司的56 起海外并購(gòu)事件的8個(gè)大數(shù)據(jù)指標(biāo)。本文的互聯(lián)網(wǎng)企業(yè)海外并購(gòu)財(cái)務(wù)風(fēng)險(xiǎn)大數(shù)據(jù)預(yù)警模型如圖3 所示。
圖3 互聯(lián)網(wǎng)企業(yè)海外并購(gòu)財(cái)務(wù)風(fēng)險(xiǎn)大數(shù)據(jù)預(yù)警模型
完整且質(zhì)量高的數(shù)據(jù)是機(jī)器學(xué)習(xí)的重要基石。在數(shù)據(jù)獲取的過(guò)程中,應(yīng)以數(shù)據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn)為導(dǎo)向,以確保數(shù)據(jù)的完整性、一致性和準(zhǔn)確性,并在最終結(jié)果的形成中予以體現(xiàn)。同時(shí),需要摒棄傳統(tǒng)的邏輯思維方式,不再僅從因果邏輯的角度出發(fā),尋找與實(shí)驗(yàn)?zāi)繕?biāo)有可能相關(guān)聯(lián)的因素,而是應(yīng)該盡可能從多個(gè)維度收集企業(yè)的所有相關(guān)信息。這些特征值有可能是以非線性的形式呈現(xiàn)在最終的分類(lèi)結(jié)果之中,傳統(tǒng)的線性回歸方式對(duì)非線性疊加的特征利用率較差,而借助集成學(xué)習(xí)算法,則有可能從海量的、雜亂無(wú)章且不清晰的數(shù)據(jù)中找尋到蘊(yùn)含有規(guī)律、有價(jià)值和能夠理解應(yīng)用的特征。
1.數(shù)據(jù)來(lái)源
鑒于許多中國(guó)互聯(lián)網(wǎng)企業(yè)注冊(cè)于開(kāi)曼群島等避稅天堂,本文以實(shí)際營(yíng)業(yè)地或辦事機(jī)構(gòu)所在地處于中國(guó)大陸并在滬深兩市、香港聯(lián)交所、美國(guó)納斯達(dá)克交易所、美國(guó)紐約交易所等上市的中國(guó)互聯(lián)網(wǎng)企業(yè)為主并企業(yè),以實(shí)際營(yíng)業(yè)地或辦事機(jī)構(gòu)所在地處于中國(guó)大陸以外(不含港澳臺(tái)地區(qū))的企業(yè)為目標(biāo)企業(yè),以2013 年1 月1 日—2020 年12 月31 日發(fā)生的45 家中國(guó)互聯(lián)網(wǎng)企業(yè)56 起海外并購(gòu)事件為研究樣本,具體信息主要源于清科研究中心、Zephyr 全球并購(gòu)交易分析庫(kù)、中國(guó)全球投資跟蹤報(bào)告(美國(guó)企業(yè)研究所和傳統(tǒng)基金會(huì))、國(guó)泰安“海外直接投資”數(shù)據(jù)庫(kù),同花順iFind 等數(shù)據(jù)平臺(tái),通過(guò)網(wǎng)絡(luò)爬蟲(chóng)、并購(gòu)數(shù)據(jù)庫(kù)、手工等方法收集,結(jié)合新浪財(cái)經(jīng)、巨潮資訊、東方財(cái)富網(wǎng)等多方平臺(tái)加以驗(yàn)證和篩選,并對(duì)如下樣本進(jìn)行剔除:①未對(duì)外公告的并購(gòu)事件;②并購(gòu)前為ST 類(lèi)公司;③目標(biāo)公司所在地為港澳臺(tái)地區(qū)、開(kāi)曼群島、英屬維爾京群島等避稅區(qū);④數(shù)據(jù)缺失的樣本。最終得到56 起中國(guó)互聯(lián)網(wǎng)企業(yè)跨國(guó)并購(gòu)事件樣本。宏觀層面的東道國(guó)國(guó)家風(fēng)險(xiǎn)指標(biāo)和數(shù)據(jù)主要來(lái)自中國(guó)社會(huì)科學(xué)院世界經(jīng)濟(jì)與政治研究所(IIS)發(fā)布的歷年《中國(guó)海外投資國(guó)家風(fēng)險(xiǎn)評(píng)級(jí)報(bào)告(2013—2021)》(CROIC-IWEP);中觀層面的數(shù)據(jù)主要來(lái)自于世界銀行、百度搜索和同花順;微觀層面的企業(yè)數(shù)據(jù)主要來(lái)自國(guó)泰安、新浪財(cái)經(jīng)、巨潮資訊等。
2.數(shù)據(jù)爬取與存儲(chǔ)
為了獲取建模所需要的互聯(lián)網(wǎng)企業(yè)海外并購(gòu)風(fēng)險(xiǎn)因子數(shù)據(jù),研究團(tuán)隊(duì)編寫(xiě)了爬蟲(chóng)程序,在公開(kāi)的海外并購(gòu)相關(guān)數(shù)據(jù)平臺(tái)上爬取互聯(lián)網(wǎng)企業(yè)海外并購(gòu)事件的各個(gè)維度信息。這些數(shù)據(jù)平臺(tái)覆蓋了清科研究中心(數(shù)據(jù)庫(kù)-并購(gòu)事件)、新浪財(cái)經(jīng)、巨潮資訊、東方財(cái)富網(wǎng)等網(wǎng)站。具體流程如下:①獲取鏈接。根據(jù)網(wǎng)站自身統(tǒng)一資源定位符(URL)規(guī)則獲取各個(gè)數(shù)據(jù)的鏈接,設(shè)置baseURL 變量遍歷所有數(shù)據(jù)。②獲取信息。利用BeautifulSoup 庫(kù)對(duì)html 重構(gòu)成文檔樹(shù),并加入異常捕獲、日志記錄增強(qiáng)爬取過(guò)程程序的健壯性。隨機(jī)掛起程序,以減輕網(wǎng)站訪問(wèn)壓力。③數(shù)據(jù)存儲(chǔ)。利用輕量級(jí)的sqlite3 數(shù)據(jù)庫(kù)實(shí)時(shí)存儲(chǔ)爬取到的數(shù)據(jù)。
3.數(shù)據(jù)預(yù)處理
(1)缺失值回歸填充。在原始測(cè)試集中,除去對(duì)年份進(jìn)行檢索補(bǔ)全之外,發(fā)現(xiàn)缺失值分布較為均勻。考慮到數(shù)據(jù)有部分分布不均衡,本文將測(cè)試集中約15%的空缺數(shù)據(jù)刪除,以減少對(duì)最終結(jié)果的影響。在增添的特征方面,由于對(duì)數(shù)據(jù)的除法運(yùn)算會(huì)出現(xiàn)除無(wú)意義(0ERROR),將這一部分跳過(guò)之后會(huì)出現(xiàn)空值,所以選擇回歸填充缺失值的方法,分flag=0 和flag=1 的情況執(zhí)行隨機(jī)森林決策樹(shù)回歸填充缺失。上述缺失值填充原理是:在填補(bǔ)每個(gè)特征時(shí),將其他特征的缺失值用0 代替,每完成一次回歸預(yù)測(cè),就將預(yù)測(cè)值放到原特征矩陣中,再繼續(xù)填補(bǔ)下一個(gè)特征。隨著每個(gè)特征的填補(bǔ),有缺失值的特征數(shù)量會(huì)逐漸減少,每次循環(huán)后需要用0 填補(bǔ)的特征也會(huì)越來(lái)越少。當(dāng)遍歷到最后一個(gè)特征時(shí),所有其他特征都已經(jīng)用回歸填補(bǔ)了大量有效信息,可以用這些信息來(lái)填補(bǔ)缺失最多的特征。最終,遍歷所有特征后,數(shù)據(jù)將不再存在缺失值。
(2)String 編碼。由于區(qū)域特征比較少,對(duì)此部分的特征考慮選用獨(dú)熱編碼或直接編碼。在初步選用的模型嘗試后發(fā)現(xiàn)直接編碼效果比較好,最終采取了直接編碼的形式。
(3)歸一化處理。由于參數(shù)變化范圍較大,最終可能會(huì)對(duì)模型產(chǎn)生影響,需要移除掉名稱(chēng)、區(qū)域、行業(yè)等不需要標(biāo)準(zhǔn)化的數(shù)據(jù)后再對(duì)其他數(shù)據(jù)進(jìn)行歸一化處理,將該類(lèi)數(shù)據(jù)原始值x使用z-score 標(biāo)準(zhǔn)化到x′。數(shù)據(jù)標(biāo)準(zhǔn)化過(guò)程中對(duì)序列x1,x2,…,xn進(jìn)行如下變換:其中,則新序列y1,y2,…,yn的均值為0,方差為1,且無(wú)量綱。
(4)數(shù)據(jù)降維。數(shù)據(jù)降維就是通過(guò)特征選擇或特征變換操作將數(shù)據(jù)從原始的D 維空間投影到新的K 維空間。數(shù)據(jù)降維方法主要分為兩類(lèi):一是特征選擇,它是在所有的特征中通過(guò)子集搜索算法尋找和模型最相關(guān)的特征子集的過(guò)程,即在所有特征中選擇和目標(biāo)最相關(guān)的一些特征,丟棄掉一些不太重要的特征。特征選擇可細(xì)分為三個(gè)類(lèi)型:①過(guò)濾式,即根據(jù)特征的統(tǒng)計(jì)學(xué)特性選擇特征,例如Relieff 算法等;②包裹式,即通過(guò)訓(xùn)練機(jī)器學(xué)習(xí)模型來(lái)選擇特征,例如支持向量機(jī)遞歸特征消除(SVM-RFE)方法等;③嵌入式,即在訓(xùn)練機(jī)器學(xué)習(xí)模型的同時(shí)選擇了特征,例如邏輯回歸、LASSO 回歸(最小絕對(duì)值收斂和選擇算子算法)。二是特征抽取,亦稱(chēng)特征降維,它是指通過(guò)某種線性變換或非線性變換,將數(shù)據(jù)從高維空間映射到低維空間,例如主成分分析法(PCA)(Tharwat,2016)。特征選擇的數(shù)據(jù)降維方法符合本文研究目的,同時(shí)Least absolute shrinkage and selection operator(LASSO)回歸對(duì)于數(shù)據(jù)的要求極低,能夠進(jìn)行變量篩選和降低模型復(fù)雜度。變量篩選是為了在模型擬合過(guò)程中選取最重要的變量,從而提高模型的性能和泛化能力。而復(fù)雜度調(diào)整則是為了避免過(guò)擬合現(xiàn)象,即過(guò)度擬合訓(xùn)練數(shù)據(jù)集,而導(dǎo)致在新的數(shù)據(jù)集上表現(xiàn)不佳的情況。因此,本文選擇LASSO 回歸方法進(jìn)行數(shù)據(jù)降維。LASSO 回歸通過(guò)L1 正則化對(duì)回歸系數(shù)進(jìn)行懲罰,可以將不重要的變量系數(shù)縮小甚至置為0,從而實(shí)現(xiàn)變量篩選和模型復(fù)雜度調(diào)整。因此,LASSO 回歸是一種非常有效的數(shù)據(jù)降維方法,適用于高維數(shù)據(jù)的建模和特征選擇(Tibshirani,1996)。變量系數(shù)的計(jì)算公式為其中,yi為第i個(gè)樣本(共n個(gè)),βj為第j個(gè)參數(shù)(共p個(gè))。λ(大于0 的正數(shù))作為調(diào)和參數(shù),調(diào)節(jié)懲罰項(xiàng)(公式后半部分)權(quán)重。當(dāng)λ越來(lái)越大時(shí),懲罰項(xiàng)的作用將越來(lái)越強(qiáng),模型的大部分回歸系數(shù)會(huì)被約束為0,因此可以通過(guò)控制λ來(lái)控制所選變量個(gè)數(shù)。
Stacking 算法是一類(lèi)多重算法堆疊而成的強(qiáng)學(xué)習(xí)器,如同大多數(shù)強(qiáng)學(xué)習(xí)器一樣,它容易產(chǎn)生過(guò)擬合問(wèn)題。不過(guò),在構(gòu)建模型并檢驗(yàn)的過(guò)程中,模型最終的結(jié)果并不是適配訓(xùn)練數(shù)據(jù),而是要適配驗(yàn)證數(shù)據(jù)。本文對(duì)Stacking 建模過(guò)程中可能出現(xiàn)過(guò)擬合的情況作出如下說(shuō)明:①如果所獲取數(shù)據(jù)是原始數(shù)據(jù),即沒(méi)有分類(lèi)完成,需要有監(jiān)督的學(xué)習(xí)并完成分類(lèi)結(jié)果,則第一層訓(xùn)練模型的選擇中應(yīng)當(dāng)避免選擇可能出現(xiàn)低方差、高偏差的模型,通常是指強(qiáng)學(xué)習(xí)器。第一層訓(xùn)練結(jié)果通常會(huì)作為初始訓(xùn)練集和測(cè)試集,使用低方差的模型有可能使最終模型輸出一個(gè)偏差極大的結(jié)果。如果多次對(duì)模型進(jìn)行調(diào)整后仍得不到理想的提升,則有可能是第一層訓(xùn)練模型過(guò)擬合。②在第二層訓(xùn)練模型的選擇之中,除應(yīng)當(dāng)選擇輸出結(jié)果相關(guān)度較低的基學(xué)習(xí)器組合之外,還應(yīng)當(dāng)注意這部分的訓(xùn)練集拆分不能使得不同的基學(xué)習(xí)器使用相同的訓(xùn)練集,這會(huì)導(dǎo)致訓(xùn)練集和測(cè)試集有交叉,影響真實(shí)的模型精確率,導(dǎo)致最終輸出模型擬合度過(guò)高。③在進(jìn)行特征工程時(shí),如果使用多個(gè)特征進(jìn)行運(yùn)算得到一個(gè)新特征,新特征的使用會(huì)顯著增強(qiáng)參與運(yùn)算的特征在模型之中的權(quán)重。即使得到的實(shí)驗(yàn)數(shù)據(jù)精確度更高,也要防范過(guò)擬合的風(fēng)險(xiǎn)。
1.數(shù)據(jù)處理
本文通過(guò)并購(gòu)數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)爬蟲(chóng)等多種數(shù)據(jù)渠道共獲取了2013—2020 年45 家中國(guó)互聯(lián)網(wǎng)上市公司56起海外并購(gòu)事件數(shù)據(jù),并購(gòu)標(biāo)的涉及16 個(gè)國(guó)家及地區(qū),包含86 個(gè)數(shù)據(jù)維度,并購(gòu)信息、風(fēng)險(xiǎn)因子,對(duì)應(yīng)數(shù)據(jù)處理方法分別為編碼、歸一化、One-Hot 編碼等。
2.樣本選取
關(guān)于研究樣本的分類(lèi),本文采用上市公司是否被ST 作為財(cái)務(wù)困境的判別標(biāo)準(zhǔn),ST 公司界定為財(cái)務(wù)困境公司,非ST 公司界定為財(cái)務(wù)健康公司。從樣本公司實(shí)施海外并購(gòu)后財(cái)務(wù)狀況可知(表3):財(cái)務(wù)健康公司為32 家,財(cái)務(wù)困境公司為13 家,兩者比例約為2.5∶1?,F(xiàn)有研究對(duì)智能財(cái)務(wù)危機(jī)預(yù)測(cè)時(shí),大多將測(cè)試樣本組和訓(xùn)練樣本組的比例設(shè)為1∶2(滕曉東和宋國(guó)榮,2021)。遵循這一原則,本文從總研究樣本中隨機(jī)抽取35%作為測(cè)試樣本組,剩下65%作為訓(xùn)練樣本組。因此,最終的訓(xùn)練樣本組由29 家公司組成,其中財(cái)務(wù)危機(jī)公司8 家,正常公司21 家;測(cè)試樣本組由16 家公司組成,其中財(cái)務(wù)危機(jī)公司5 家,正常公司11 家。
表3 研究樣本概況
3.數(shù)據(jù)降維
經(jīng)初步處理后,本文通過(guò)LASSO 回歸篩選指標(biāo),在上述86 個(gè)指標(biāo)中剔除了系數(shù)為0 的指標(biāo),從中篩選出與財(cái)務(wù)危機(jī)預(yù)警較為相關(guān)的31 個(gè)主要指標(biāo)作為后續(xù)變量,具體變量見(jiàn)表4。
表4 互聯(lián)網(wǎng)企業(yè)海外并購(gòu)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警指標(biāo)(含大數(shù)據(jù))
4.Pearson相關(guān)性分析
Stacking 算法集成多種機(jī)器學(xué)習(xí)算法堆疊成為新的學(xué)習(xí)器,通過(guò)投票法或加權(quán)投票等方法來(lái)修正基學(xué)習(xí)器的錯(cuò)誤分類(lèi)。因此,在選擇基學(xué)習(xí)器時(shí)要盡可能選擇不同種類(lèi)的學(xué)習(xí)器,這可以根據(jù)預(yù)測(cè)結(jié)果的二維Pearson相關(guān)系數(shù)作為參考依據(jù)。本文在計(jì)算后選取了邏輯回歸(logistic regression)、嶺回歸(ridge regression)、極端梯級(jí) 提升樹(shù)分類(lèi)器(XGBoost classifier)、LGBM 分類(lèi)器(LGBM classifier)及隨機(jī)森林分類(lèi)器(random forest classifier)作為基學(xué)習(xí)器,各類(lèi)算法的誤差Pearson 相關(guān)性分析的熱力圖見(jiàn)圖4。由圖4可知,除了XGBoost與Ridge算法所輸出的預(yù)測(cè)結(jié)果相關(guān)性較強(qiáng)外,其他算法所輸出的預(yù)測(cè)結(jié)果相關(guān)性并不明顯。因此,可以將這些算法作為基學(xué)習(xí)器組成最終的Stacking 算法。
圖4 各類(lèi)機(jī)器學(xué)習(xí)算法誤差Pearson 相關(guān)性分析的熱力圖
5.模型訓(xùn)練
將訓(xùn)練集根據(jù)基學(xué)習(xí)器數(shù)量進(jìn)行k折交叉(本文k=5)后得到訓(xùn)練子集。分別使用sklean 庫(kù)中5 種基學(xué)習(xí)器LR、Ridge、XGBoost、LGBM 和RF 算法來(lái)訓(xùn)練得到訓(xùn)練模型。
6.模型質(zhì)量的評(píng)價(jià)指標(biāo)
機(jī)器學(xué)習(xí)需要建立模型來(lái)解決具體問(wèn)題,通常需要使用一些指標(biāo)來(lái)評(píng)估模型的性能和泛化能力,常用的模型評(píng)價(jià)指標(biāo)例如準(zhǔn)確率、精確率、召回率、F1等,而它們都建立在混淆矩陣(confusion matrix)的基礎(chǔ)上。
(1)混淆矩陣?;煜仃囉直环Q(chēng)為錯(cuò)誤矩陣,被用來(lái)呈現(xiàn)算法性能的可視化效果,通常是監(jiān)督學(xué)習(xí)。表5 中,每一列代表預(yù)測(cè)值,每一行代表的是實(shí)際的類(lèi)別,其中:TP代表將正例正確識(shí)別成正例的數(shù)量;FP代表將反例錯(cuò)誤識(shí)別成正例的數(shù)量;FN代表將正例錯(cuò)誤識(shí)別成反例的數(shù)量;TN代表將反例正確識(shí)別成反例的數(shù)量。
表5 混淆矩陣
(2)評(píng)價(jià)指標(biāo)。通過(guò)混淆矩陣,可以得到模型的準(zhǔn)確率等指標(biāo),具體評(píng)價(jià)指標(biāo)解釋見(jiàn)表6。
表6 機(jī)器學(xué)習(xí)模型評(píng)價(jià)指標(biāo)
7.堆疊次數(shù)
基學(xué)習(xí)器參數(shù)設(shè)置無(wú)需過(guò)于苛刻追求精度,這是由Stacking 堆疊算法的計(jì)算原理決定的。對(duì)基學(xué)習(xí)器進(jìn)行五輪迭代后投票,分別輸出每輪堆疊的精確率、準(zhǔn)確率和召回率。選擇精確率最高的一組參數(shù)并得到最終Stacking 模型的輸出結(jié)果。圖5 為五輪迭代過(guò)程中精確率、召回率和準(zhǔn)確率的變化。最終結(jié)果使用準(zhǔn)確率來(lái)進(jìn)行比對(duì)分析,設(shè)置不同次數(shù)堆疊,會(huì)對(duì)結(jié)果產(chǎn)生細(xì)微影響。本文自第零次堆疊開(kāi)始總計(jì)最高堆疊6 次,得到了七種結(jié)果(圖5):其中,精確率和準(zhǔn)確率均以檢出海外并購(gòu)風(fēng)險(xiǎn)互聯(lián)網(wǎng)企業(yè)數(shù)量為分子。由計(jì)算結(jié)果可以看出,整體的準(zhǔn)確率隨著堆疊次數(shù)的增加呈非線性變化。在研究中,需要根據(jù)實(shí)際情況參考不同的指標(biāo)。本文希望系統(tǒng)能盡量全面的檢出含有海外并購(gòu)財(cái)務(wù)風(fēng)險(xiǎn)的互聯(lián)網(wǎng)企業(yè),因此召回率和準(zhǔn)確率是本文的主要參考指標(biāo)。通過(guò)對(duì)比,本文選取的堆疊次數(shù)為1。
圖5 模型迭代次數(shù)與精確率、召回率和準(zhǔn)確率的關(guān)系
8.輸出結(jié)果
各模型的評(píng)價(jià)指標(biāo)輸出結(jié)果見(jiàn)表7。對(duì)比傳統(tǒng)的機(jī)器學(xué)習(xí)結(jié)果,Stacking 模型能夠獲取更高的準(zhǔn)確率(93.4%),召回率(95.5%)也達(dá)到最高,說(shuō)明本模型能夠最大限度檢出互聯(lián)網(wǎng)企業(yè)海外并購(gòu)后當(dāng)前是否有可能處于風(fēng)險(xiǎn)狀況;Stacking 模型的F1(86.2)高于其他模型的F1,說(shuō)明其穩(wěn)健性較其他模型更為突出。因此,Stacking 集成學(xué)習(xí)得到的相關(guān)指標(biāo)證明該模型的可靠性,可以用于對(duì)互聯(lián)網(wǎng)企業(yè)海外并購(gòu)財(cái)務(wù)風(fēng)險(xiǎn)的預(yù)警。
表7 各模型性能度量指標(biāo)值
從測(cè)試樣本的Stacking 模型預(yù)測(cè)結(jié)果來(lái)看(表8),正常企業(yè)與ST 企業(yè)的預(yù)測(cè)正確率分別為90.9%和80.0%,預(yù)測(cè)效果良好。
表8 Stacking 模型預(yù)測(cè)結(jié)果(測(cè)試樣本16 個(gè))
9.預(yù)警指標(biāo)
Stacking 模型無(wú)法得到一個(gè)簡(jiǎn)單的數(shù)學(xué)公式來(lái)表示預(yù)測(cè)結(jié)果,屬于“黑盒子”預(yù)測(cè),因?yàn)樗峭ㄟ^(guò)多個(gè)基模型和一個(gè)次級(jí)模型的組合來(lái)得到預(yù)測(cè)結(jié)果的。但是,本文可以通過(guò)輸出特征重要性圖來(lái)分析模型中各個(gè)特征對(duì)預(yù)測(cè)結(jié)果的影響程度,以幫助理解模型對(duì)于各個(gè)特征的關(guān)注程度,幫助優(yōu)化特征選擇和模型調(diào)整。
(1)重要性排序。根據(jù)Stacking 的重要性分析,得到有利于財(cái)務(wù)危機(jī)預(yù)警的15 個(gè)重要指標(biāo)如圖6 所示。其中,基于國(guó)家風(fēng)險(xiǎn)維度是“投資開(kāi)放度”指標(biāo),基于市場(chǎng)風(fēng)險(xiǎn)維度是“股價(jià)波動(dòng)率”指標(biāo),基于財(cái)務(wù)能力維度是“總資產(chǎn)周轉(zhuǎn)率”“營(yíng)業(yè)收入現(xiàn)金凈含量”“總資產(chǎn)報(bào)酬率”“經(jīng)營(yíng)活動(dòng)產(chǎn)生的現(xiàn)金流量?jī)纛~/帶息債務(wù)”“存貨周轉(zhuǎn)率”“速動(dòng)比率”“營(yíng)業(yè)利潤(rùn)現(xiàn)金凈含量”“總資產(chǎn)增長(zhǎng)率”“資產(chǎn)負(fù)債率”這些指標(biāo),基于技術(shù)創(chuàng)新維度是“技術(shù)投入比率”指標(biāo),基于內(nèi)部控制維度的是“內(nèi)部控制質(zhì)量”指標(biāo),基于大數(shù)據(jù)維度是“百度搜索詞條”指標(biāo)和“T-2 積極情緒指數(shù)”指標(biāo)??梢?jiàn),目前影響互聯(lián)網(wǎng)企業(yè)國(guó)際化投資風(fēng)險(xiǎn)的預(yù)警指標(biāo)主要是微觀層面,主并企業(yè)的財(cái)務(wù)能力指標(biāo)有9 個(gè),且從重要性排序來(lái)看,除了“技術(shù)投入比率”指標(biāo)外,它們占據(jù)前10 位。其次是技術(shù)創(chuàng)新投入(技術(shù)投入比率)和股吧評(píng)論(T-2 積極情緒指數(shù)),它們分列第5、11 位。最后是市場(chǎng)反應(yīng)(股價(jià)波動(dòng)率)與新聞媒體(百度搜索詞條),它們分列第12、13 位;最后是內(nèi)部控制(內(nèi)部控制質(zhì)量)與經(jīng)濟(jì)基礎(chǔ)(投資開(kāi)放度)。
圖6 Stacking 模型顯示的前15 個(gè)預(yù)警指標(biāo)
(2)進(jìn)一步研究。如果把預(yù)警指標(biāo)重新分類(lèi),財(cái)務(wù)預(yù)警指標(biāo)視為傳統(tǒng)類(lèi),非財(cái)務(wù)預(yù)警指標(biāo)視為創(chuàng)新類(lèi),對(duì)Stacking 模型預(yù)測(cè)結(jié)果進(jìn)一步分析,且將輸入模型的特征進(jìn)行重要性排序,可以得到兩類(lèi)新的互聯(lián)網(wǎng)企業(yè)海外并購(gòu)風(fēng)險(xiǎn)的預(yù)警風(fēng)險(xiǎn)因子(圖7、圖8)。其中,排名前五的傳統(tǒng)型財(cái)務(wù)預(yù)警指標(biāo)分別是:總資產(chǎn)周轉(zhuǎn)率、營(yíng)業(yè)收入現(xiàn)金凈含量、總資產(chǎn)報(bào)酬率、經(jīng)營(yíng)活動(dòng)產(chǎn)生的現(xiàn)金流量?jī)纛~/帶息債務(wù)、技術(shù)投入比。具體來(lái)說(shuō),以企業(yè)營(yíng)運(yùn)能力指標(biāo)(總資產(chǎn)周轉(zhuǎn)率和流動(dòng)資產(chǎn)周轉(zhuǎn)率)為主,其次是企業(yè)盈利能力指標(biāo)(總資產(chǎn)報(bào)酬率),然后是企業(yè)負(fù)債能力指標(biāo)(經(jīng)營(yíng)活動(dòng)產(chǎn)生的現(xiàn)金流量?jī)纛~/帶息債務(wù))、企業(yè)創(chuàng)新能力(技術(shù)投入比)。排名前五的創(chuàng)新型非財(cái)務(wù)預(yù)警指標(biāo)分別是:T-2 年積極情緒指數(shù)、股價(jià)波動(dòng)率、百度搜索詞條、內(nèi)部控制質(zhì)量、投資開(kāi)放度,它們分別反映了投資者關(guān)注、股價(jià)走勢(shì)、網(wǎng)絡(luò)搜索、企業(yè)內(nèi)控質(zhì)量和東道國(guó)經(jīng)濟(jì)基礎(chǔ)對(duì)中國(guó)互聯(lián)網(wǎng)企業(yè)海外并購(gòu)風(fēng)險(xiǎn)具有一定的預(yù)警價(jià)值。
圖7 Stacking 模型顯示的前5 個(gè)財(cái)務(wù)預(yù)警指標(biāo)
圖8 Stacking 模型顯示的前5 個(gè)創(chuàng)新型非財(cái)務(wù)預(yù)警指標(biāo)
綜合來(lái)看,企業(yè)營(yíng)運(yùn)能力、現(xiàn)金流量、盈利能力、負(fù)債能力和技術(shù)創(chuàng)新等傳統(tǒng)型財(cái)務(wù)指標(biāo)依然是互聯(lián)網(wǎng)企業(yè)海外并購(gòu)風(fēng)險(xiǎn)預(yù)警的首選指標(biāo),但是股吧評(píng)論、股價(jià)波動(dòng)率、網(wǎng)絡(luò)搜索、企業(yè)內(nèi)控質(zhì)量與東道國(guó)投資開(kāi)放度等創(chuàng)新型非財(cái)務(wù)指標(biāo)對(duì)互聯(lián)網(wǎng)企業(yè)海外并購(gòu)風(fēng)險(xiǎn)預(yù)警也具有重要的參考價(jià)值。
數(shù)智化時(shí)代,機(jī)器學(xué)習(xí)方法與股吧評(píng)論等大數(shù)據(jù)信息為互聯(lián)網(wǎng)企業(yè)海外并購(gòu)風(fēng)險(xiǎn)預(yù)警提供了新的思路。本文基于45 家中國(guó)互聯(lián)網(wǎng)企業(yè)海外并購(gòu)樣本及其86 個(gè)風(fēng)險(xiǎn)預(yù)警指標(biāo),通過(guò)Stacking 集成學(xué)習(xí)模型進(jìn)行機(jī)器學(xué)習(xí),研究發(fā)現(xiàn):相對(duì)于LR、Ridge、XGBoost、LGBM、RF 等機(jī)器學(xué)習(xí)模型,Stacking 集成學(xué)習(xí)模型的財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警效果更好;關(guān)于互聯(lián)網(wǎng)企業(yè)海外并購(gòu)風(fēng)險(xiǎn)預(yù)警因子的選擇,企業(yè)營(yíng)運(yùn)能力、現(xiàn)金流量、盈利能力、負(fù)債能力和技術(shù)創(chuàng)新等傳統(tǒng)型財(cái)務(wù)指標(biāo)依然是首選指標(biāo),但股吧評(píng)論、股價(jià)波動(dòng)率、網(wǎng)絡(luò)搜索、企業(yè)內(nèi)控質(zhì)量與東道國(guó)投資開(kāi)放度等創(chuàng)新型非財(cái)務(wù)指標(biāo)也具有重要的預(yù)警價(jià)值。
本文的不足之處在于,一是互聯(lián)網(wǎng)企業(yè)海外并購(gòu)研究樣本只有45 家,在劃分為訓(xùn)練組與測(cè)試組后,測(cè)試組樣本數(shù)量偏少;二是大數(shù)據(jù)維度的預(yù)警因子偏少,只涵蓋新聞媒體與股吧評(píng)論。下一步研究將加大樣本數(shù)量,納入更多的大數(shù)據(jù)預(yù)警因子,例如,東道國(guó)媒體輿論,上市企業(yè)年報(bào)管理者陳述語(yǔ)調(diào)等,且深入探討預(yù)警因子與互聯(lián)網(wǎng)企業(yè)海外并購(gòu)風(fēng)險(xiǎn)之間的因果關(guān)系,為互聯(lián)網(wǎng)企業(yè)海外并購(gòu)風(fēng)險(xiǎn)管控提供更多的決策參考。