劉峻杉,張磊,尹寓
(1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065;2.四川省大數(shù)據(jù)分析與融合應(yīng)用技術(shù)工程實(shí)驗(yàn)室,成都610065)
中國(guó)作為新興的發(fā)展中國(guó)家,自改革開(kāi)放以來(lái),企業(yè)對(duì)外直接投資(Outward Foreign Direct Investment,OFDI)取得長(zhǎng)足進(jìn)展,《2019 年度中國(guó)對(duì)外直接投資統(tǒng)計(jì)公報(bào)》[1]指出:2018 年末,中國(guó)對(duì)外直接投資存量達(dá)2.2 萬(wàn)億美元,分布在全球188 個(gè)國(guó)家和地區(qū),影響力不斷擴(kuò)大,也催生出一大批具有較強(qiáng)跨國(guó)經(jīng)營(yíng)能力、能夠在全球范圍內(nèi)布局生產(chǎn)網(wǎng)絡(luò)的跨國(guó)公司。但是,相對(duì)于西方發(fā)達(dá)國(guó)家在跨國(guó)投資上的豐富經(jīng)驗(yàn),中國(guó)企業(yè)OFDI 起步較晚,經(jīng)驗(yàn)不足,在新形勢(shì)下仍面臨許多問(wèn)題和困難。同時(shí),國(guó)際局勢(shì)風(fēng)云變幻,各種不確定因素疊加,主要發(fā)達(dá)國(guó)家逆全球化思潮抬頭,給中國(guó)企業(yè)OFDI 帶來(lái)了風(fēng)險(xiǎn)和挑戰(zhàn)。
在中國(guó)企業(yè)OFDI 過(guò)程中,往往需要考慮多方面的因素,其中區(qū)位選擇是一項(xiàng)非常重要的決策,事關(guān)投資成敗。對(duì)相關(guān)文獻(xiàn)進(jìn)行梳理發(fā)現(xiàn),以東道國(guó)為單位的研究容易忽略企業(yè)間的異質(zhì)性,而以企業(yè)為單位的研究又容易忽略了區(qū)位間的差異性。并且,主流社會(huì)科學(xué)研究普遍采用統(tǒng)計(jì)方法來(lái)描述或檢驗(yàn)自變量與被解釋變量之間的關(guān)系,因此常常做出不切實(shí)際的假設(shè)[2]。此外,由于回歸的統(tǒng)計(jì)數(shù)據(jù)通常僅代表平均結(jié)果,因此無(wú)法確定個(gè)別公司相關(guān)的特定關(guān)系的上下文關(guān)系[3]。與傳統(tǒng)統(tǒng)計(jì)方法相比,用計(jì)算機(jī)領(lǐng)域的方法來(lái)解決現(xiàn)實(shí)世界的金融問(wèn)題,能夠考慮所有相關(guān)的特征[4]。
因此,針對(duì)上訴存在的問(wèn)題以及實(shí)際需求,本文引入計(jì)算機(jī)方法來(lái)解決了中國(guó)企業(yè)OFDI。首先,自組織映射算法常被用來(lái)確定不明確聚類(lèi)數(shù)目問(wèn)題的初始聚類(lèi)[5],但是,自組織映射用作聚類(lèi)的一個(gè)缺陷在于,樣本在特定聚類(lèi)中的隸屬度并不總是容易判斷的。為此,本文采用模糊C 均值聚類(lèi),該方法融合了模糊理論的精髓,賦予每個(gè)樣本屬于每個(gè)簇的隸屬度。其次,神經(jīng)網(wǎng)絡(luò)在許多不同的領(lǐng)域中得到了應(yīng)用,其中BP 神經(jīng)網(wǎng)絡(luò)是一種應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò),已證明它具有實(shí)現(xiàn)任何復(fù)雜非線性映射的功能[6]。因此,本文基于自組織映射和模糊C 均值聚類(lèi)的結(jié)果,采用遺傳算法優(yōu)化的BP 神經(jīng)網(wǎng)絡(luò)構(gòu)建中國(guó)企業(yè)OFDI 的投資額預(yù)測(cè)模型,解決了金融數(shù)據(jù)高維特征問(wèn)題的同時(shí),也對(duì)中國(guó)企業(yè)OFDI 的投資額進(jìn)行了預(yù)測(cè)。
一方面,在過(guò)去十年中,OFDI 已成為全球資本流動(dòng)的一個(gè)主要因素,相關(guān)文獻(xiàn)構(gòu)建了這一領(lǐng)域的綜合研究框架。跨國(guó)企業(yè)所有權(quán)優(yōu)勢(shì)、內(nèi)部化優(yōu)勢(shì)和區(qū)位優(yōu)勢(shì)的不同組合決定了它們從事國(guó)際經(jīng)濟(jì)活動(dòng)的方式[7-8]。其中,OFDI 驅(qū)動(dòng)因素、進(jìn)入模式和區(qū)位選擇是論文最多的類(lèi)別,占總數(shù)近70%[9]?,F(xiàn)有文獻(xiàn)大多認(rèn)為,中國(guó)企業(yè)OFDI 具有區(qū)位偏好特征,Liu 和Deseatnicov 研究了過(guò)去經(jīng)驗(yàn)對(duì)中國(guó)企業(yè)OFDI 區(qū)位選擇的影響,發(fā)現(xiàn)OFDI 的企業(yè)會(huì)根據(jù)其他企業(yè)的投資經(jīng)驗(yàn)進(jìn)行區(qū)位選擇[10]。Aw 和Lee 認(rèn)為OFDI 不僅取決于東道國(guó)的因素,還取決于企業(yè)的生產(chǎn)力[11]。之后,Marti 等人便認(rèn)為跨國(guó)公司的區(qū)位選擇受到公司層面和國(guó)家層面的綜合影響[12]。事實(shí)上,當(dāng)?shù)厥袌?chǎng)潛力、生產(chǎn)成本、運(yùn)輸成本、稅收、地理、文化和制度距離[13-14]等都會(huì)對(duì)企業(yè)OFDI 產(chǎn)生影響。研究大多是運(yùn)用財(cái)務(wù)模型和統(tǒng)計(jì)方法進(jìn)行的實(shí)證研究。很少有人將計(jì)算機(jī)科學(xué)方法與OFDI 數(shù)據(jù)聯(lián)系起來(lái)。
另一方面,一些研究者們將自組織映射和模糊聚類(lèi)相結(jié)合進(jìn)行特征提取,解決了很多實(shí)際問(wèn)題。Xu 等人使用自組織映射和改進(jìn)的模糊聚類(lèi)算法對(duì)手機(jī)用戶(hù)進(jìn)行了用戶(hù)特征聚類(lèi)[15];Das 和Basudhar 根據(jù)已有的圓錐貫入試驗(yàn)結(jié)果,使用自組織映射和模糊聚類(lèi)技術(shù)來(lái)分離分層土中的不同層[16];Yu 等人提出了一種利用上粒子群優(yōu)化的全局能力的改進(jìn)的模糊C 均值聚類(lèi)算法將全國(guó)省份劃分成不同的大類(lèi)[17]。一些研究者將BP神經(jīng)網(wǎng)絡(luò)用于金融領(lǐng)域。Yang 和Ji 設(shè)計(jì)了基于BP 神經(jīng)網(wǎng)絡(luò)的風(fēng)險(xiǎn)識(shí)別工具,用于在商業(yè)銀行貸款的風(fēng)險(xiǎn)預(yù)警[18]。Mao 和Liu 等構(gòu)建了一個(gè)動(dòng)態(tài)結(jié)合解釋性BP神經(jīng)網(wǎng)絡(luò)和時(shí)間序列BP 神經(jīng)網(wǎng)絡(luò)的區(qū)域財(cái)政一般預(yù)算收入預(yù)測(cè)模型[19]。Wu 和He 構(gòu)造了一個(gè)三層BP 神經(jīng)網(wǎng)絡(luò)對(duì)我國(guó)股票價(jià)格的波動(dòng)趨勢(shì)進(jìn)行擬合[20]。Liu和Ding 提出了遺傳算法和禁忌搜索算法解決了傳統(tǒng)的BP 神經(jīng)網(wǎng)絡(luò)優(yōu)化問(wèn)題的同時(shí),也提高了經(jīng)濟(jì)效益評(píng)價(jià)指標(biāo)及其評(píng)價(jià)不確定性下的投資效益[21]。Shen 和Zhang 等在宏觀投資中,利用改進(jìn)的BP 神經(jīng)網(wǎng)絡(luò)建立了投資決策模型,實(shí)驗(yàn)證明BP 神經(jīng)網(wǎng)絡(luò)模型能反映投資各要素之間高度非線性的映射關(guān)系,可廣泛應(yīng)用于投資問(wèn)題[22]。
通過(guò)相關(guān)文獻(xiàn)啟發(fā),本文針對(duì)OFDI 所面臨的復(fù)雜信息結(jié)構(gòu),采用自組織映射和模糊聚類(lèi)的方法對(duì)大量東道國(guó)特征進(jìn)行聚類(lèi)以提取區(qū)位特征,然后結(jié)合基于遺傳算法優(yōu)化的BP 神經(jīng)網(wǎng)絡(luò)構(gòu)建中國(guó)企業(yè)OFDI 的投資額預(yù)測(cè)模型,以輔助企業(yè)投資者進(jìn)行投資決策。
在本文中,我們引入了一種新方法,將確定初始聚類(lèi)的自組織映射和挖掘區(qū)位特征的模糊C 均值聚類(lèi)算法結(jié)合起來(lái),加以應(yīng)用于基于遺傳算法優(yōu)化的BP 神經(jīng)網(wǎng)絡(luò)的投資額預(yù)測(cè)模型。圖1 是SOM-FCM-GA-BP(SFGB)算法的設(shè)計(jì)步驟。
圖1 SFGB算法的設(shè)計(jì)步驟
自組織映射(Self-organization Mapping,SOM)算法是一種無(wú)監(jiān)督的神經(jīng)網(wǎng)絡(luò)算法,自動(dòng)完成聚類(lèi)過(guò)程,不需要預(yù)先設(shè)置初始簇?cái)?shù),因此用來(lái)作為不確定聚類(lèi)數(shù)目情況下的預(yù)聚類(lèi)[23]。SOM 由輸入層和輸出層構(gòu)成,輸入層根據(jù)輸入神經(jīng)元的數(shù)目獲取屬性信息,輸出層根據(jù)用戶(hù)的輸入數(shù)據(jù)進(jìn)行競(jìng)爭(zhēng)輸出,并根據(jù)其結(jié)構(gòu)的不同,可以分為一維線性結(jié)構(gòu)或者二維平面陣列,本文使用二維結(jié)構(gòu),便于可視化初始聚類(lèi)結(jié)果。
(3)尋找獲勝神經(jīng)元
計(jì)算輸入樣本與輸出神經(jīng)元之間的距離dj,并選擇距離最小的神經(jīng)元c 作為獲勝神經(jīng)元,本文使用歐氏距離作為判斷依據(jù),即:
(4)參數(shù)調(diào)整
本文對(duì)獲勝神經(jīng)元及其領(lǐng)域內(nèi)hj,i( t )所有神經(jīng)元的權(quán)值作如下式(3)調(diào)整,領(lǐng)域外的神經(jīng)元權(quán)值保持不變:
其中,0 <η( t,r )<1 為學(xué)習(xí)率,是關(guān)于領(lǐng)域半徑r和迭代次數(shù)t 的函數(shù),領(lǐng)域半徑r 一般隨t 的增加逐漸減小,并且調(diào)整的幅度也越來(lái)越小,趨于聚類(lèi)中心,本文將學(xué)習(xí)率調(diào)整如下式(4):
(5)循環(huán)學(xué)習(xí)
將新的輸入模式帶入到下一輪迭代學(xué)習(xí)中,尋找新的獲勝神經(jīng)元并調(diào)整相應(yīng)的參數(shù),直到t=T 時(shí)結(jié)束循環(huán),其中T 為設(shè)定的迭代次數(shù)。
對(duì)于傳統(tǒng)的聚類(lèi)算法,聚類(lèi)的數(shù)目都需要提前的確定,對(duì)于不知道聚類(lèi)數(shù)目的數(shù)據(jù),隨機(jī)確定的聚類(lèi)數(shù)目往往會(huì)影響到聚類(lèi)結(jié)果的優(yōu)劣。而SOM 算法的優(yōu)勢(shì)就是不用提前確定聚類(lèi)數(shù)目,其無(wú)監(jiān)督的特性可以自動(dòng)分類(lèi)數(shù)據(jù)。因此,本文使用SOM 算法對(duì)區(qū)位特征進(jìn)行初始聚類(lèi),確定聚類(lèi)數(shù)目,并將結(jié)果用于下一步模糊C 均值聚類(lèi)算法的初始輸入。
在實(shí)際情況下,數(shù)據(jù)集中的樣本不能劃分成為明顯分離的簇,指派一個(gè)樣本到一個(gè)特定的類(lèi)不能滿(mǎn)足實(shí)際的需要。而模糊聚類(lèi)的思想就是估計(jì)樣本點(diǎn)與聚類(lèi)中心的隸屬度,每個(gè)樣本點(diǎn)都有對(duì)于聚類(lèi)中心的不同隸屬度,反映了該樣本屬于該聚類(lèi)的程度。當(dāng)然,基于概率的方法也可以給出這樣的權(quán)值,但是有時(shí)候我們很難確定一個(gè)合適的統(tǒng)計(jì)模型,因此本文使用具有自然地、非概率特性的模糊C 均值(Fuzzy C-means,F(xiàn)CM)。
(1)模型結(jié)構(gòu)
在BP 神經(jīng)網(wǎng)絡(luò)模型中,有三層結(jié)構(gòu),輸入層、隱藏層、輸出層。
原始數(shù)據(jù)集是由連續(xù)特征和分類(lèi)特征組成,其中分類(lèi)特征是離散的、無(wú)序的。而分類(lèi)器通常數(shù)據(jù)是連續(xù)且有序的,因此本文使用獨(dú)熱編碼來(lái)處理分類(lèi)特征。輸入層節(jié)點(diǎn)數(shù)由企業(yè)特征和區(qū)位隸屬度確定。輸入層共有n 個(gè)神經(jīng)元。
隱藏層的設(shè)計(jì)是一個(gè)非常困難和復(fù)雜的問(wèn)題,特別是要確定隱藏層的數(shù)量及其節(jié)點(diǎn)數(shù)[24]。隱藏層節(jié)點(diǎn)數(shù)由細(xì)分的企業(yè)特征確定。隱藏層共有m 個(gè)神經(jīng)元。
輸出層節(jié)點(diǎn)為投資額。輸出層共有l(wèi) 個(gè)神經(jīng)元。
(2)遺傳算法優(yōu)化
遺傳算法(Genetic Algorithm,GA)是一種“優(yōu)勝劣汰,適者生存”的并行隨機(jī)搜索最優(yōu)化方法。BP 神經(jīng)網(wǎng)絡(luò)用遺傳算法得到的最優(yōu)個(gè)體的權(quán)值和閾值來(lái)初始化,能夠提高模型的精度和性能。
GA 優(yōu)化可以采用實(shí)數(shù)編碼和二進(jìn)制編碼。本文采用了三層BP 神經(jīng)網(wǎng)絡(luò),并使用實(shí)數(shù)編碼的方式,編碼長(zhǎng)度L 為:
GA 在優(yōu)化的過(guò)程中根據(jù)個(gè)體的適應(yīng)度值,本文采用均方誤差MSE 作為適應(yīng)度函數(shù):
GA 通過(guò)不斷的選擇、交叉和變異,計(jì)算個(gè)體的適應(yīng)度值,找到最優(yōu)適應(yīng)度值的個(gè)體。圖2 是GA-BP 的流程圖。
圖2 GA-BP流程圖
本文數(shù)據(jù)來(lái)源于前期已經(jīng)匹配整合的四個(gè)數(shù)據(jù)庫(kù):
●第一個(gè)是商務(wù)部公布的境外投資企業(yè)機(jī)構(gòu)名錄,它包括了境內(nèi)投資主體、境外企業(yè)名、業(yè)務(wù)范圍、投資流入地以及投資時(shí)間等信息;
●第二個(gè)是商務(wù)部公布的《中國(guó)企業(yè)對(duì)外直接投資公報(bào)》,它包括了中國(guó)對(duì)每一個(gè)東道國(guó)的OFDI 流量和存量信息;
●第三個(gè)是Wind 數(shù)據(jù)庫(kù)、CSMAR 數(shù)據(jù)庫(kù),它包括了滬深兩地股市2004-2015 年期間持續(xù)存在的上市企業(yè)的所有企業(yè)信息和財(cái)務(wù)數(shù)據(jù);
●第四個(gè)是中國(guó)工業(yè)企業(yè)數(shù)據(jù)庫(kù),它包含了企業(yè)相關(guān)的基礎(chǔ)信息;
●第五個(gè)是世界銀行、國(guó)際貨幣基金組織以及ICRG(International Country Risk Guide)等數(shù)據(jù)庫(kù),它包含了東道國(guó)的特征變量信息,如政治風(fēng)險(xiǎn)、基礎(chǔ)設(shè)施、技術(shù)水平、資源稟賦等。
本文通過(guò)對(duì)上述數(shù)據(jù)進(jìn)行整合、匹配,獲得了2004-2015 年參與OFDI 的1000 多家企業(yè)國(guó)別對(duì)外投資數(shù)據(jù)。通過(guò)數(shù)據(jù)預(yù)處理,最終將建立包括近80 個(gè)企業(yè)層面與東道國(guó)層面的特征因素的中國(guó)企業(yè)投資信息數(shù)據(jù)庫(kù)。圖3 是預(yù)處理后的樣本數(shù)據(jù)。
圖3 數(shù)據(jù)樣本
該階段首先利用SOM 算法對(duì)國(guó)家因素進(jìn)行初始聚類(lèi),確定聚類(lèi)數(shù)目。本文通過(guò)調(diào)整輸出神經(jīng)元參數(shù),每種情況進(jìn)行了10 次自組織映射算法實(shí)驗(yàn),計(jì)算平均聚類(lèi)數(shù)目。圖4 是不同輸出神經(jīng)元參數(shù)下的平均聚類(lèi)數(shù)目。
圖4 平均聚類(lèi)數(shù)目
本文將數(shù)據(jù)映射到二維地圖空間的U-Matrix 改進(jìn)到三維平面,便于更方便的顯示輸出神經(jīng)元之間的關(guān)系。圖5 是輸出神經(jīng)元之間的距離,神經(jīng)元之間的距離越遠(yuǎn)顏色離紅色越近,在圖中表示為山脊;神經(jīng)元之間的距離越近顏色離紅色越遠(yuǎn),在圖中表示為山谷。
圖5 三維U-Matrix
由實(shí)驗(yàn)結(jié)果可知,本文選擇10×10 的輸出神經(jīng)元可以得到最好的初始聚類(lèi)結(jié)果,設(shè)置初始聚類(lèi)數(shù)目為4。然后輸入到FCM 算法,得到企業(yè)投資區(qū)位的特征分布。表1 是根據(jù)聚類(lèi)的中心選出的部分具有最大值的屬性,通過(guò)對(duì)其分析,總結(jié)了每一簇的區(qū)位所具有的區(qū)位優(yōu)勢(shì),其中將區(qū)位隸屬度差距不大的樣本同時(shí)歸于兩個(gè)區(qū)位。
表1 每一簇的代表屬性和區(qū)位特征
表2 是通過(guò)FCM 聚類(lèi)過(guò)后企業(yè)投資區(qū)位所具備優(yōu)勢(shì)的程度,也就是FCM 聚類(lèi)得到的隸屬度,并將結(jié)果用于下階段的投資額預(yù)測(cè)模型。
表2 區(qū)位特征隸屬度
該階段是基于GA 優(yōu)化的BP 神經(jīng)網(wǎng)絡(luò)的投資額預(yù)測(cè)模型。因?yàn)槠髽I(yè)樣本中存在不同層面的屬性指標(biāo),本文將其分為企業(yè)綜合能力屬性(市值、周轉(zhuǎn)率、收益等),企業(yè)人員規(guī)模屬性(獨(dú)董比例、監(jiān)管層持股比例等)以及行業(yè)屬性(所屬行業(yè)、工業(yè)占比、服務(wù)業(yè)占比等),以及區(qū)位的隸屬度,所以本文使用單個(gè)隱藏層,并將節(jié)點(diǎn)數(shù)設(shè)置為4。并且在輸入層和隱藏層都加了一個(gè)偏差節(jié)點(diǎn)。圖6 是BP 神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)。
圖6 BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
本文將原始數(shù)據(jù)按7:3 的比例劃分訓(xùn)練集和測(cè)試集,經(jīng)過(guò)實(shí)驗(yàn),當(dāng)學(xué)習(xí)率η=0.1 時(shí)MSE 具有最好的結(jié)果。圖7 與圖8 是基于BP 神經(jīng)網(wǎng)絡(luò)和基于GA 優(yōu)化的BP 神經(jīng)網(wǎng)絡(luò)的MSE 與MAE 的比較。
圖7 均方誤差MSE的比較(η=0.1)
圖8 平均絕對(duì)誤差MAE的比較(η=0.1)
基于GA 優(yōu)化的BP 神經(jīng)網(wǎng)絡(luò)在四個(gè)區(qū)位的MSE和 MAE 表 現(xiàn) 分 別 為 0.00406、0.00035、0.00462、0.00333 和0.02009、0.00980、0.02101、0.01806,要優(yōu)于BP 神經(jīng)網(wǎng)絡(luò)的0.00542、0.00067、0.00578、0.00426 和0.02127、0.01057、0.02177、0.01902。其中,在區(qū)位2 上面MSE 和MAE 的表現(xiàn)都是最優(yōu)的。
表3 是基于GA 優(yōu)化的BP 神經(jīng)網(wǎng)絡(luò)和BP 神經(jīng)網(wǎng)絡(luò)迭代1000 步以?xún)?nèi)達(dá)到預(yù)設(shè)目標(biāo)的比較。
表3 迭代1000 步以?xún)?nèi)達(dá)到預(yù)設(shè)目標(biāo)的比較
基于GA 優(yōu)化的BP 神經(jīng)網(wǎng)絡(luò)在區(qū)位1 和區(qū)位2上迭代1000 步達(dá)到預(yù)設(shè)目標(biāo)的目標(biāo)率均為100%,在區(qū)位3 和區(qū)位4 上分別為86.7%和93.3%均要優(yōu)于BP神經(jīng)網(wǎng)絡(luò)。相比于BP 神經(jīng)網(wǎng)絡(luò),基于GA 優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)能夠更迅速地?cái)M合數(shù)據(jù)以達(dá)到預(yù)設(shè)目標(biāo)。
本文將計(jì)算機(jī)技術(shù)應(yīng)用于中國(guó)企業(yè)OFDI 中,是一次有益的嘗試,為實(shí)現(xiàn)智能化投資決策探索新方法提供新思路。針對(duì)金融數(shù)據(jù)的高維數(shù)據(jù)特征,本文提出自組織映射和模糊C 均值聚類(lèi)的方法將東道國(guó)因素按區(qū)位特征進(jìn)行聚類(lèi),并結(jié)合GA 優(yōu)化的BP 神經(jīng)網(wǎng)絡(luò)構(gòu)建投資額預(yù)測(cè)模型,進(jìn)行有針對(duì)性的投資決策。從實(shí)驗(yàn)結(jié)果看,該算法在解決數(shù)據(jù)高維問(wèn)題的同時(shí)也能有效的進(jìn)行中國(guó)企業(yè)OFDI 決策。并且,與常用算法的對(duì)比實(shí)驗(yàn)可以得出,基于GA 優(yōu)化的BP 神經(jīng)網(wǎng)絡(luò)具有更好性能和實(shí)用價(jià)值。
當(dāng)然,本文還有很多不足之處。中國(guó)企業(yè)OFDI 影響因素復(fù)雜多變,黑天鵝等突發(fā)事件往往會(huì)影響到企業(yè)決策者的投資選擇,加入實(shí)時(shí)特征是企業(yè)對(duì)外直接投資決策更深一步的工作。