文/孫希昀 侯駿 王淼 楊磊
測(cè)度跨境資金流動(dòng)壓力的傳統(tǒng)方法主要依賴于經(jīng)濟(jì)增長(zhǎng)率等宏觀經(jīng)濟(jì)指標(biāo)以及購(gòu)售匯數(shù)據(jù)等微觀主體行為指標(biāo),此類數(shù)據(jù)在更新頻率、獲得時(shí)效等方面存在一定局限。近年來(lái),隨著微博、微信等新媒體的興起,信息傳播的速度越來(lái)越快,各類專家、學(xué)者通過(guò)自媒體平臺(tái)發(fā)表其對(duì)經(jīng)濟(jì)形勢(shì)、金融市場(chǎng)、國(guó)際關(guān)系的觀點(diǎn),其中隱含的情緒往往對(duì)市場(chǎng)主體的跨境資金擺布行為產(chǎn)生潛在影響。在此背景下,借助機(jī)器學(xué)習(xí)對(duì)自媒體上的大數(shù)據(jù)文本進(jìn)行分析,為衡量跨境資金流出壓力打開(kāi)了一扇新窗口。通過(guò)對(duì)網(wǎng)絡(luò)上海量非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行文本分析,構(gòu)建高頻跨境資金流出壓力指數(shù),有助于刻畫市場(chǎng)主體擺布跨境資金的特征,在一定程度上反映市場(chǎng)預(yù)期、情緒變化對(duì)跨境資金流動(dòng)的影響,與傳統(tǒng)的跨境資金流出壓力測(cè)度方法形成相互補(bǔ)充。
文本分析技術(shù)多應(yīng)用于市場(chǎng)情緒度量、市場(chǎng)情緒指數(shù)的構(gòu)建。例如,通過(guò)對(duì)博客、股吧、貼吧的留言進(jìn)行語(yǔ)義分析,探究文本中所表達(dá)的投資者情緒、觀點(diǎn)和看法等。近年來(lái),部分研究開(kāi)始將文本大數(shù)據(jù)分析引入宏觀經(jīng)濟(jì)領(lǐng)域,使用機(jī)器自動(dòng)統(tǒng)計(jì)各類媒體新聞中同時(shí)包含經(jīng)濟(jì)(economic/economics)、不確定(uncertain/uncertainty)和政策(policy)三類詞語(yǔ)的月度文章數(shù)量,構(gòu)建衡量經(jīng)濟(jì)政策不確定性的指數(shù)。本文嘗試將這一方法引入跨境資金流動(dòng)分析,通過(guò)將詞法分析和機(jī)器學(xué)習(xí)相結(jié)合,對(duì)微信上的非結(jié)構(gòu)化文本進(jìn)行語(yǔ)義分析,并對(duì)文本所隱含的正負(fù)情感傾向進(jìn)行快速標(biāo)注。
第一步,清洗數(shù)據(jù)并建立經(jīng)濟(jì)金融中文語(yǔ)料庫(kù)。選取微信公眾號(hào)上經(jīng)濟(jì)金融領(lǐng)域相關(guān)研究機(jī)構(gòu)和專家學(xué)者所發(fā)表的觀點(diǎn)明確的文章,通過(guò)收集、整理、去重,得到4萬(wàn)余個(gè)文本數(shù)據(jù),以此形成經(jīng)濟(jì)金融中文語(yǔ)料庫(kù)。每條文本數(shù)據(jù)包含發(fā)布時(shí)間、閱讀量等結(jié)構(gòu)化數(shù)據(jù),也包含標(biāo)題、正文等非結(jié)構(gòu)化數(shù)據(jù),時(shí)間跨度從2014年10月到2021年9月。
第二步,對(duì)文本主題進(jìn)行聚類。首先,對(duì)所有文本進(jìn)行分詞,并標(biāo)注詞性,提取文本統(tǒng)計(jì)特征TF-IDF值(詞頻-逆向文件頻率),將文本轉(zhuǎn)化為聚類模型可以處理的特征向量,為了盡量減小特征矩陣的維度,只使用文本中的名詞類詞匯(包括名詞、名動(dòng)詞、名形詞)參與聚類,根據(jù)每類文本中統(tǒng)計(jì)特征最明顯的五個(gè)關(guān)鍵名詞類詞匯(見(jiàn)表1)來(lái)確定此類文本的主題。然后,使用K-means無(wú)監(jiān)督算法對(duì)文本進(jìn)行聚類,并使用截?cái)嗥娈愔捣纸猓═runcated SVD)降維方法,將每篇文章的特征向量映射到二維和三維空間中,每個(gè)點(diǎn)代表一篇文本,以直觀展現(xiàn)文本聚類的效果。如圖1所示,本文所選取的文本數(shù)據(jù)在每一類別上的邊界較為清晰,說(shuō)明聚類是有效的。
圖1 文本聚類分析的可視化
表1 文本聚類的結(jié)果
第三步,建立經(jīng)濟(jì)金融領(lǐng)域情感詞表。常用的情感和語(yǔ)義詞典包括知網(wǎng)情感詞典(HOWNET)、臺(tái)灣大學(xué)簡(jiǎn)體中文情感詞典(NTUSD),但這類情感詞匯多應(yīng)用于生活中,難以適用于經(jīng)濟(jì)金融領(lǐng)域。鑒于經(jīng)濟(jì)金融領(lǐng)域的負(fù)面情感是出于對(duì)不確定性和風(fēng)險(xiǎn)的厭惡,本文先通過(guò)人工方法從程度、詞性、態(tài)度三個(gè)維度列出反映經(jīng)濟(jì)金融領(lǐng)域情感特征的核心關(guān)鍵詞(見(jiàn)表2),然后借助詞向量工具word2vec,利用上述經(jīng)濟(jì)金融語(yǔ)料庫(kù)訓(xùn)練一個(gè)詞向量模型,以此找出與核心關(guān)鍵詞相似度較高的詞匯,得到一個(gè)包含114個(gè)正面詞匯以及164個(gè)負(fù)面詞匯的經(jīng)濟(jì)金融領(lǐng)域情感詞表。
表2 經(jīng)濟(jì)金融領(lǐng)域情感詞表構(gòu)建
第四步,使用詞頻統(tǒng)計(jì)方法對(duì)文章情感傾向進(jìn)行打分。對(duì)文本內(nèi)容中正面詞匯和負(fù)面詞匯出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),出現(xiàn)正面詞匯加一分,出現(xiàn)負(fù)面詞匯減一分,選取特征明顯(打分大于等于10分以及小于等于-13分)的文本,分別標(biāo)注正面情感和負(fù)面情感。
第五步,使用特征明顯的文本訓(xùn)練分類器模型。使用詞向量工具doc2vec將已標(biāo)記情感的文本轉(zhuǎn)化為特征向量,并以70%和30%的比例將文本分為訓(xùn)練集和測(cè)試集,使用訓(xùn)練集訓(xùn)練一個(gè)隨機(jī)梯度下降分類器(SGD分類器),其可以用于預(yù)測(cè)二分類問(wèn)題,對(duì)剩余特征不明顯的文本正負(fù)情感進(jìn)行預(yù)測(cè)。分別選取交叉熵?fù)p失函數(shù)(Cross Entropy Loss)和調(diào)整后的Huber損失函數(shù)(Modified Huber Loss)作為分類器的損失函數(shù),用測(cè)試集來(lái)測(cè)試不同損失函數(shù)的分類器性能,若分類器的AUC值越大,表明分類效果越好。如表3所示,兩種損失函數(shù)的分類器AUC值分別為0.96、0.92,說(shuō)明使用交叉熵?fù)p失函數(shù)的分類器效果更好。
表3 各種分類方法性能指標(biāo)評(píng)估
第六步,使用分類器對(duì)剩余文本情感進(jìn)行預(yù)測(cè)。將剩余文本(得分在-13分和10分之間)轉(zhuǎn)化為特征向量,并使用訓(xùn)練得到的SGD分類器模型完成對(duì)所有文本正負(fù)情感傾向的標(biāo)注。
鑒于跨境資金的流出壓力與負(fù)面情感具有更多的聯(lián)系,因此本文選取五類表達(dá)負(fù)面情感的文本來(lái)構(gòu)建跨境資金流出壓力指數(shù)(見(jiàn)表4)。同時(shí),由于文本需要被閱讀后才能向閱讀者傳遞情感,因此本文使用文本對(duì)應(yīng)的閱讀量來(lái)刻畫各類文本信息對(duì)市場(chǎng)情緒的潛在影響程度大小,以此作為影響跨境資金流動(dòng)的權(quán)重。
表4 表達(dá)負(fù)面情感的五類文本
具體而言,將五類文本主題中同一天內(nèi)所有表達(dá)負(fù)面傾向的文章的閱讀量直接加總(數(shù)據(jù)時(shí)間為2015年5月至2021年9月),得到每日負(fù)面情感文本閱讀量數(shù)據(jù),在此基礎(chǔ)上,將該日度閱讀量數(shù)據(jù)變頻為月和周,rmt表示所有負(fù)面傾向文本在第t月的閱讀量數(shù)據(jù),rwt表示所有負(fù)面傾向文本在第t周的閱讀量數(shù)據(jù)。接著,對(duì)閱讀量的時(shí)間趨勢(shì)作標(biāo)準(zhǔn)化處理,采用移動(dòng)平均的方法(月度數(shù)據(jù)采用6期的移動(dòng)平均,周數(shù)據(jù)采用24期的移動(dòng)平均)分離出閱讀量的增長(zhǎng)趨勢(shì)rm0t和rw0t。rmt/rm0t即為剔除時(shí)間趨勢(shì)后的月度跨境資金流出壓力指數(shù)(見(jiàn)圖2)??梢钥闯?,該跨境資金流出壓力指數(shù)較好地體現(xiàn)了2015年“8·11”匯改、2018年中美經(jīng)貿(mào)摩擦以及2020年新冠肺炎疫情下市場(chǎng)負(fù)面情緒上升對(duì)跨境資金流出壓力的影響。為進(jìn)一步提高數(shù)據(jù)頻度,使用同樣的方法分離出周閱讀量增長(zhǎng)趨勢(shì),rwt/rw0t即為頻率為周的跨境資金流出壓力指數(shù)(見(jiàn)圖3)。
圖2 跨境資金流出壓力指數(shù)(月)與閱讀量增長(zhǎng)趨勢(shì)的時(shí)間序列
圖3 跨境資金流出壓力指數(shù)(周)與閱讀量增長(zhǎng)趨勢(shì)的時(shí)間序列
第一步,測(cè)算潛在的跨境資金流動(dòng)規(guī)模。假設(shè)外匯存款凈增量(金融機(jī)構(gòu)新增外匯存款與金融機(jī)構(gòu)新增外匯貸款之差)保持平穩(wěn),使用涉外外匯順差(涉外外幣收付款差額)和結(jié)售匯順差(銀行代客結(jié)售匯差額)之差作為跨境資金流出規(guī)模的測(cè)度,其在一定程度上可作為“凈誤差與遺漏”項(xiàng)的高頻替代指標(biāo)。如圖4所示,以該指標(biāo)測(cè)算的跨境資金流出規(guī)模與“凈誤差與遺漏”項(xiàng)的差額走勢(shì)較一致,因而可以作為后者的高頻替代。
圖4 跨境資金流出測(cè)算規(guī)模與“凈誤差與遺漏”項(xiàng)的比較(單位:億美元)
第二步,使用月度跨境資金流出壓力指數(shù)解釋跨境資金流出規(guī)模。選取2015年5月至2021年9月的跨境資金流出壓力指數(shù)和測(cè)算的跨境資金流出規(guī)模月度數(shù)據(jù),共76個(gè)樣本點(diǎn),建立多項(xiàng)式分布滯后(PDL)模型,研究?jī)烧哧P(guān)系。定義Yt為測(cè)算的跨境資金流出規(guī)模,定義Xwt為月度的跨境資金流出壓力指數(shù)。根據(jù)施瓦茲(Schwarz)準(zhǔn)則,確定最優(yōu)滯后期數(shù)為12期,得到擬合優(yōu)度為28%,參數(shù)估計(jì)結(jié)果如表5所示。可以發(fā)現(xiàn),從滯后第4期開(kāi)始,跨境資金流出壓力指數(shù)對(duì)未來(lái)潛在跨境資金流動(dòng)規(guī)模具有較顯著的負(fù)面影響,即跨境資金流出壓力指數(shù)上升,未來(lái)潛在跨境資金流出規(guī)模增大。其原因可能是,文本中的負(fù)面情緒在一定程度上推升了市場(chǎng)主體向境外擺布資金的意愿,但由于市場(chǎng)主體在信息接收上存在時(shí)滯,且金融市場(chǎng)存在摩擦,可能需要4個(gè)月以上的時(shí)間才能將跨境資金擺布意愿付諸實(shí)際。
表5 PDL模型參數(shù)估計(jì)結(jié)果
第三步,使用高頻跨境資金流出壓力指數(shù)解釋跨境資金流出規(guī)模。相較月度數(shù)據(jù),高頻數(shù)據(jù)包含了更多可用信息,建立被解釋變量為Yt,解釋變量為滯后的高頻跨境資金流出壓力指數(shù)Xwt-i的混頻數(shù)據(jù)回歸(MIDAS)模型,共有333個(gè)樣本點(diǎn),權(quán)重方法選擇阿爾蒙多項(xiàng)式函數(shù)。根據(jù)施瓦茲(Schwarz)準(zhǔn)則,確定最優(yōu)滯后階數(shù)為76,回歸得到的擬合優(yōu)度為30%,解釋能力相較月度數(shù)據(jù)有所增強(qiáng)。
本文研究表明,通過(guò)文本分析構(gòu)建的跨境資金流出壓力指數(shù)能夠在一定程度上捕捉到市場(chǎng)負(fù)面情緒的變化,前瞻性預(yù)測(cè)未來(lái)跨境資金流出規(guī)模的變化趨勢(shì),成為衡量跨境資金流出壓力的先行指標(biāo),這對(duì)跨境資金流動(dòng)風(fēng)險(xiǎn)監(jiān)測(cè)管理具有一定的啟發(fā)意義。
一是順應(yīng)科技發(fā)展趨勢(shì),不斷豐富跨境資金流動(dòng)監(jiān)測(cè)工具箱。在互聯(lián)網(wǎng)技術(shù)和計(jì)算機(jī)技術(shù)高速發(fā)展的今天,信息傳播方式發(fā)生了深刻變化,信息量和信息傳播速度均呈現(xiàn)幾何級(jí)數(shù)增長(zhǎng),自媒體對(duì)市場(chǎng)預(yù)期的引導(dǎo)作用越來(lái)越顯著,這些都改變著社會(huì)公眾預(yù)期形成和行為決策的方式。鑒于此,政策制定者應(yīng)在傳統(tǒng)經(jīng)濟(jì)和金融分析框架的基礎(chǔ)上,針對(duì)信息傳播方式的改變,引入新的分析方法和視角。
二是加大對(duì)文本分析方法的探索和運(yùn)用。近年來(lái),隨著機(jī)器學(xué)習(xí)技術(shù)、自然語(yǔ)言處理技術(shù)的不斷進(jìn)步,部分國(guó)家的央行和研究機(jī)構(gòu)開(kāi)始探索通過(guò)數(shù)據(jù)挖掘、情感分析等技術(shù)手段建立文本隱含信息和實(shí)體經(jīng)濟(jì)的聯(lián)系。對(duì)應(yīng)到外匯管理領(lǐng)域,影響跨境資金流動(dòng)的因素紛繁復(fù)雜、瞬息萬(wàn)變,通過(guò)使用非結(jié)構(gòu)化文本數(shù)據(jù)分析,能夠在一定程度上突破現(xiàn)有統(tǒng)計(jì)數(shù)據(jù)在發(fā)布頻率上的約束,克服傳統(tǒng)計(jì)量模型假設(shè)過(guò)多、過(guò)度擬合等不足,及時(shí)捕捉到市場(chǎng)情緒的變化,預(yù)測(cè)市場(chǎng)主體向境外擺布資金的意愿以及相應(yīng)的跨境資金流出壓力,從而有的放矢對(duì)市場(chǎng)負(fù)面情緒上升較快的領(lǐng)域開(kāi)展宏觀審慎調(diào)控和預(yù)期引導(dǎo)。