徐凱 陳綿綿 趙旋 張忠新
一、研究背景介紹
在投資領(lǐng)域,需要處理和分析大量和復(fù)雜的金融數(shù)據(jù)[1]。例如股票的盤面數(shù)據(jù),上市公司發(fā)布的財(cái)報(bào),行業(yè)的指數(shù)等。要做好投資研究,需要系統(tǒng)的構(gòu)建金融數(shù)據(jù)庫,并應(yīng)用相應(yīng)的方法進(jìn)行分析。吳慶慧[2]通過構(gòu)建金融大數(shù)據(jù),采用聚類分析,應(yīng)用在金融分析領(lǐng)域。劉文潔[3]等人結(jié)合關(guān)系型和非關(guān)系型數(shù)據(jù)庫。設(shè)計(jì)了金融數(shù)據(jù)庫CBase,融合了關(guān)系型數(shù)據(jù)庫的基本功能,同時(shí)支持分布式存儲(chǔ)和擴(kuò)展。朱哲哲[4]等人通過增強(qiáng)一致性算法保障金融大數(shù)據(jù)存儲(chǔ)的一致性,構(gòu)建了分布式金融數(shù)據(jù)庫。這些都是采用大數(shù)據(jù)技術(shù)構(gòu)建的金融數(shù)據(jù)庫,缺乏相應(yīng)的分析研究,尤其是針對投資領(lǐng)域的分析研究。
對于投資領(lǐng)域,姚輝[5]等人根據(jù)A股近十余年的數(shù)據(jù),研究發(fā)現(xiàn)價(jià)值投資策略收益更好。沈坤榮[6]等人研究了宏觀經(jīng)濟(jì)波動(dòng)與資本以及投資效率等指標(biāo)的關(guān)系。鄧創(chuàng)[7]等人采用高維因子對宏觀經(jīng)濟(jì)和金融進(jìn)行分離測度,發(fā)現(xiàn)金融不確定性對經(jīng)濟(jì)不確定性影響更大。由現(xiàn)階段的研究可見,經(jīng)濟(jì)和金融領(lǐng)域的投資分析需要和大數(shù)據(jù)分析進(jìn)行結(jié)合,才可發(fā)揮有效的作用。
本文通過系統(tǒng)梳理面向投資領(lǐng)域的經(jīng)濟(jì)和金融數(shù)據(jù)庫的構(gòu)建及其數(shù)據(jù)分析方法,從數(shù)據(jù)的獲取和處理出發(fā),討論了經(jīng)濟(jì)數(shù)據(jù)庫和金融數(shù)據(jù)庫構(gòu)建和分析的方法。
二、經(jīng)濟(jì)和金融數(shù)據(jù)獲取和處理方法
(一)數(shù)據(jù)獲取
1.獲取宏觀經(jīng)濟(jì)數(shù)據(jù)。通過國家統(tǒng)計(jì)局、工業(yè)與信息化部、工商局、人民銀行、銀保監(jiān)會(huì)等中央、地方政府各個(gè)部門的官方網(wǎng)站,可以獲取豐富的國內(nèi)經(jīng)濟(jì)數(shù)據(jù)。包括GDP、進(jìn)出口額、CPI、貨幣供應(yīng)量、外匯儲(chǔ)備、利率、行業(yè)市場規(guī)模、國家政策文件等經(jīng)濟(jì)數(shù)據(jù)。通過世界銀行等國際機(jī)構(gòu)的官網(wǎng),可以獲取豐富的國際經(jīng)濟(jì)數(shù)據(jù)。包括國際貿(mào)易數(shù)據(jù)、金融市場數(shù)據(jù)、世界各國發(fā)展數(shù)據(jù)和市場研究報(bào)告等。
2.通過付費(fèi)的方式購買高質(zhì)量的金融綜合數(shù)據(jù)。國內(nèi)外有大量公司和機(jī)構(gòu)提供付費(fèi)的金融數(shù)據(jù)服務(wù)。國內(nèi)代表性的金融數(shù)據(jù)提供商有萬得信息技術(shù)公司的Wind金融數(shù)據(jù)庫,國泰安的CSMAR經(jīng)濟(jì)金融研究數(shù)據(jù)庫,北京聚源銳思數(shù)據(jù)科技有限公司的RESSET數(shù)據(jù)庫,阿里云的數(shù)據(jù)市場金融接口。國際代表性的金融數(shù)據(jù)提供商有彭博公司的Bloomberg數(shù)據(jù)庫,湯森路透公司的Refinitiv數(shù)據(jù)庫,標(biāo)普全球公司的S&P Capital IQ數(shù)據(jù)庫等。
3.通過互聯(lián)網(wǎng)資源獲取金融數(shù)據(jù)。通過計(jì)算機(jī)的爬蟲技術(shù),可以獲取財(cái)經(jīng)類門戶網(wǎng)站的數(shù)據(jù)。對網(wǎng)站的頁面進(jìn)行解析,可以獲取金融數(shù)據(jù)和資源。比如可以獲取股票的行情數(shù)據(jù),上市公司公開的年報(bào)數(shù)據(jù),公司相關(guān)的輿情和新聞等金融相關(guān)的數(shù)據(jù)。
(二)數(shù)據(jù)處理
首先要對數(shù)據(jù)進(jìn)行解析。比如通過爬蟲爬取到的數(shù)據(jù)有XML,HTML,JSON等格式??梢圆捎肈OM解析,JavaScript等技術(shù)來進(jìn)行數(shù)據(jù)解析。
然后處理缺失數(shù)據(jù)和異常數(shù)據(jù)。把異源數(shù)據(jù)進(jìn)行集成,同時(shí)刪除重復(fù)數(shù)據(jù),進(jìn)行匯總分析,對數(shù)據(jù)規(guī)范化,以提高數(shù)據(jù)的質(zhì)量,提升數(shù)據(jù)分析的效率和精度。
(三)數(shù)據(jù)質(zhì)量評估
數(shù)據(jù)是否合理,能否解釋業(yè)務(wù),數(shù)據(jù)字段的定義要明確。數(shù)據(jù)的完整性可以量化數(shù)據(jù)覆蓋程度。金融指標(biāo)是否準(zhǔn)確,錯(cuò)誤值和異常值占比是否控制在合理范圍,數(shù)據(jù)在采集和處理時(shí)是否規(guī)范都是保證數(shù)據(jù)準(zhǔn)確和可靠的指標(biāo)。數(shù)據(jù)一致性,數(shù)據(jù)主鍵是否保持一致,屬性的取值范圍是否一致。此外對于投資分析,對投資對象時(shí)間維度的分析要全面和及時(shí),時(shí)間區(qū)間的覆蓋度要達(dá)到模型需要的標(biāo)準(zhǔn),同時(shí)要保障數(shù)據(jù)更新要及時(shí)。
三、經(jīng)濟(jì)數(shù)據(jù)庫構(gòu)建和分析
(一)構(gòu)建國際貿(mào)易數(shù)據(jù)分析庫
1.構(gòu)建進(jìn)出口貿(mào)易數(shù)據(jù)庫。各國通過進(jìn)出口貿(mào)易交換商品,國家之間互通有無。統(tǒng)計(jì)我國進(jìn)出口總額,分析進(jìn)口額和出口額,可以計(jì)算出我國外貿(mào)的規(guī)模,可以分析得到我國對外貿(mào)易的順差或者逆差情況。
貿(mào)易順差和逆差不宜過大。如果本國長期出現(xiàn)貿(mào)易順差,則反映出國家對外部依賴程度大,國際貿(mào)易的波動(dòng)會(huì)強(qiáng)烈影響本國市場的穩(wěn)定性。同時(shí),外匯儲(chǔ)備隨著貿(mào)易順差增大而增長,本國貨幣則隨之升值,從而會(huì)造成本國的金融風(fēng)險(xiǎn)。如果本國長期出現(xiàn)貿(mào)易逆差,會(huì)導(dǎo)致國內(nèi)資金大量轉(zhuǎn)移到國外,進(jìn)一步的,貿(mào)易逆差會(huì)造成本國貨幣貶值。同時(shí)造成外匯儲(chǔ)備快速減少,對外債務(wù)也會(huì)增加。長期貿(mào)易逆差同樣不利于國家經(jīng)濟(jì)的健康發(fā)展。
對于金融投資而言。關(guān)注貿(mào)易順差和逆差指標(biāo),可以幫助投資人員分析公司的經(jīng)營前景。比如在國際貿(mào)易出現(xiàn)逆差時(shí),要關(guān)注出口依賴型企業(yè)的生產(chǎn)經(jīng)營情況。特別是勞動(dòng)密集型產(chǎn)業(yè),該類產(chǎn)業(yè)的產(chǎn)品銷量出口額比重較大,像紡織業(yè)、生活家居用品業(yè)、機(jī)電制造業(yè)和航空業(yè)等產(chǎn)業(yè)。貿(mào)易逆差會(huì)降低這些產(chǎn)業(yè)的利潤,影響投資收益。
2.構(gòu)建匯率數(shù)據(jù)庫。國際間通常采用浮動(dòng)匯率。國際貨幣間的供求關(guān)系即國際貨幣的均衡價(jià)格影響匯率的波動(dòng)。以A國和B國為例,B國對A國貨幣的需求,與B國和A國的貿(mào)易量相關(guān)。如果B國對A國貿(mào)易出現(xiàn)順差,說明B國較少用B國貨幣購買A國貨幣進(jìn)行交易,反映在外匯市場上,A國的貨幣需求會(huì)降低。同時(shí)如果A國利率下降,則A國貨幣供給會(huì)增加。當(dāng)A國匯率超過均衡點(diǎn),A國的貨幣供給會(huì)大于市場需求,最終會(huì)導(dǎo)致A國貨幣貶值。匯率的波動(dòng)反映在外匯市場上,與國家貨幣間的需求、供給息息相關(guān)。
(二)構(gòu)建國內(nèi)經(jīng)濟(jì)指標(biāo)數(shù)據(jù)分析庫
1.構(gòu)建國內(nèi)生產(chǎn)總值(GDP)數(shù)據(jù)庫。通過分析GDP了解國家經(jīng)濟(jì)發(fā)展情況。統(tǒng)計(jì)居民消費(fèi)數(shù)據(jù),包括耐用消費(fèi)品和非耐用消費(fèi)品支出。統(tǒng)計(jì)企業(yè)投資數(shù)據(jù),包括固定資產(chǎn)相關(guān)投資、存貨投資等數(shù)據(jù)。統(tǒng)計(jì)政府支出數(shù)據(jù),包括政府公共資源等方面的支出。統(tǒng)計(jì)凈出口數(shù)據(jù),分析進(jìn)出口差額。通過分析國內(nèi)GDP增長的趨勢,從而分析投資機(jī)會(huì)。
2.構(gòu)建政府財(cái)政收入數(shù)據(jù)庫。通過獲取政府部門在每個(gè)財(cái)政年度的收入數(shù)據(jù),分析政府財(cái)力是否充沛,需要分析國有資產(chǎn)和國債收益,國家稅收等收入。通過分析國家財(cái)政收入,可以得到財(cái)政收入中貸款比例,國家的減稅政策等信息。國家貸款和減稅政策具有消費(fèi)效應(yīng),可以促進(jìn)投資增長,改善投資的宏觀環(huán)境。
3.統(tǒng)計(jì)國家財(cái)政支出數(shù)據(jù)。通過歸納整理財(cái)政支出的規(guī)模和結(jié)構(gòu)。包括基建、行政管理等支出數(shù)據(jù)。分析國家財(cái)政支出可以研判短期和長期的擠出效應(yīng)。短期擠出效應(yīng)會(huì)導(dǎo)致私人投資供應(yīng)的減少。而國家在長期的基礎(chǔ)設(shè)施建設(shè)和科研教育等方面的投入上會(huì)顯著改進(jìn)長期的投資環(huán)境,帶動(dòng)產(chǎn)業(yè)健康持續(xù)發(fā)展,提升經(jīng)濟(jì)活躍程度。
4.統(tǒng)計(jì)分析利率數(shù)據(jù)。宏觀經(jīng)濟(jì)調(diào)控有效手段是利率,利率杠桿可以抑制或促進(jìn)經(jīng)濟(jì)的冷熱。通過分析利率數(shù)據(jù),可以了解國家的利率政策,從而預(yù)測市場供求的變化趨勢,分析出經(jīng)濟(jì)發(fā)展變化的趨勢。
5.統(tǒng)計(jì)貨幣供應(yīng)量數(shù)據(jù)。包括貨幣發(fā)行總額m0,狹義貨幣供應(yīng)量m1,廣義貨幣供應(yīng)量m2。根據(jù)貨幣供應(yīng)量的特點(diǎn),分析國家對貨幣的調(diào)控政策,分析民間資金松緊程度,從而分析投資的宏觀金融環(huán)境經(jīng)濟(jì)波動(dòng)情況。
6.統(tǒng)計(jì)工業(yè)增加值數(shù)據(jù)。通過統(tǒng)計(jì)工業(yè)生產(chǎn)扣除成本后增加的余額,分析工業(yè)增加值的波動(dòng)情況,從而分析出產(chǎn)業(yè)經(jīng)營表現(xiàn),進(jìn)一步預(yù)測經(jīng)濟(jì)發(fā)展情況。
(三)構(gòu)建國內(nèi)民生經(jīng)濟(jì)數(shù)據(jù)分析庫
1.分析居民消費(fèi)價(jià)格指數(shù)(CPI)數(shù)據(jù)。通過分析八類消費(fèi)品CPI指數(shù),可以分析通脹趨勢,從而優(yōu)化投資結(jié)構(gòu)。比如CPI指數(shù)升高的情況下,投資短期債券可以抗利率增加的風(fēng)險(xiǎn)。同時(shí)長期債券,在投資金額到期后,可以繼續(xù)持有以對抗通脹的影響。
2.構(gòu)建通貨膨脹率數(shù)據(jù)庫。紙幣超發(fā)較多的情況下物價(jià)上漲,造成通貨膨脹??梢詫τ猩饘傩袠I(yè)投資,增加抗通脹能力。從產(chǎn)業(yè)鏈的角度分析投資,具有較低庫存的大宗商品,通過分析行業(yè)龍頭企業(yè)的經(jīng)營數(shù)據(jù),投資行業(yè)資金和技術(shù)比較占優(yōu)勢的企業(yè)。同時(shí)投資消費(fèi)品類企業(yè),比如白酒,藝術(shù)品,醫(yī)藥類公司。
3.構(gòu)建通貨緊縮率數(shù)據(jù)庫。當(dāng)社會(huì)整體商品供給過大時(shí),會(huì)造成通貨緊縮,導(dǎo)致物價(jià)下降??梢赃M(jìn)行黃金投資,同時(shí)規(guī)避風(fēng)險(xiǎn)。合理控制好投資比例,盡可能的減少投資結(jié)構(gòu)性風(fēng)險(xiǎn)。
四、金融數(shù)據(jù)庫分析方法
(一)財(cái)務(wù)價(jià)值投資分析方法
1.通過市盈率來衡量投入與回報(bào)的關(guān)系。市盈率為股票價(jià)格和股票稅后收益之比。通過預(yù)期回報(bào)的折現(xiàn)價(jià)值來對股票價(jià)格進(jìn)行評估。計(jì)算稅后收益的總計(jì)年份和現(xiàn)階段股價(jià)的關(guān)系,從而衡量股票價(jià)格是否滿足投資客戶的預(yù)期。
2.通過市凈率來衡量資產(chǎn)的清算價(jià)值。分析公司公允價(jià)值以及市場價(jià)值,計(jì)算出公司市場價(jià)值和公允價(jià)值的比值。市凈率由于對凈資產(chǎn)進(jìn)行估值,所以穩(wěn)定性比較好。對于市凈率較低的公司,投資價(jià)值相對會(huì)比較高。
3.分析公司盈利能力,投資高盈利能力的公司。從持續(xù)性和成長性等方面對盈利能力進(jìn)行評估。通過計(jì)算投資資本回報(bào)率,將生產(chǎn)資產(chǎn)的回報(bào)進(jìn)行量化,從而篩選出成長性更好且更具備競爭優(yōu)勢的企業(yè)。
4.分析公司經(jīng)營效率進(jìn)行投資。通過分析經(jīng)營資產(chǎn)周轉(zhuǎn)率,衡量公司資本管理水平,同時(shí)反映出公司資產(chǎn)利用的效率。最后評估公司的經(jīng)營資產(chǎn)回報(bào)率,選擇高效經(jīng)營的公司以提升投資回報(bào)率。
(二)金融投資理論分析方法
根據(jù)金融投資理論進(jìn)行資產(chǎn)配置,同時(shí)根據(jù)風(fēng)險(xiǎn)承擔(dān)能力做個(gè)性化的金融投資分析。
1.分析用戶風(fēng)險(xiǎn)承受能力。通過設(shè)計(jì)調(diào)查問卷來搜集和確認(rèn)用戶的投資目的,以及用戶的風(fēng)險(xiǎn)承受意愿。風(fēng)險(xiǎn)承受能力問卷可以幫助投資機(jī)構(gòu)為客戶合理制定個(gè)性化的投資方案。主要搜集用戶的目標(biāo)投資收益,用戶最大限度能承受的風(fēng)險(xiǎn)意愿。用戶投資的收益和風(fēng)險(xiǎn)的態(tài)度可以進(jìn)行量化。通過得分的不同,可以大致分類為不同級別,如激進(jìn)型,穩(wěn)健型,保守型等。最后通過金融工具進(jìn)行風(fēng)險(xiǎn)收益均衡,在最大化投資收益的基礎(chǔ)上,保持風(fēng)險(xiǎn)控制在用戶意愿承擔(dān)的范圍之內(nèi)。
2.分析資金分配方案。資金分配是投資首要考慮的問題。需要合理分配資金類別的分配比例。先確定投資的資金種類,包括貨幣市場現(xiàn)金工具,固定收益類債券、股票、貴金屬等投資標(biāo)的。通過分析經(jīng)濟(jì)發(fā)展分析市場的發(fā)展情況,預(yù)測不同種類資金的收益率,從而合理制定資金分配方案。
3.分析有效的投資組合。通過金融工具,分析有效投資組合的邊界。常用的投資組合分析模型有單指數(shù)模型、投資組合有效邊界模型等。在控制風(fēng)險(xiǎn)目標(biāo)的范圍內(nèi),分析最大化收益率的組合,從而滿足投資的需求。
(三)數(shù)據(jù)挖掘分析方法
金融數(shù)據(jù)挖掘通過融合統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)等技術(shù),得到金融數(shù)據(jù)內(nèi)隱含的高價(jià)值信息和知識。通過數(shù)據(jù)挖掘可以發(fā)現(xiàn)金融數(shù)據(jù)中的各類模式規(guī)則,獲取市場內(nèi)隱含的各類有價(jià)值的信息,可以根據(jù)挖掘出的信息作出更明智的投資決策。
1.時(shí)序預(yù)測挖掘。通過對股票的歷史數(shù)據(jù)建立模型,分析價(jià)格變化的趨勢和狀態(tài)。常用的有回歸分析,建立回歸方程擬合趨勢。還有神經(jīng)網(wǎng)絡(luò)模型可以進(jìn)一步提升預(yù)測的精度。通過對時(shí)間序列進(jìn)行數(shù)據(jù)挖掘,找出序列模式的常見形式,可以幫助投資人員把握股價(jià)的變動(dòng)規(guī)律,從而幫助更好作出投資決策。
2.分類和聚類分析。通過數(shù)據(jù)挖掘方法對股票數(shù)據(jù)進(jìn)行合理分類。使用決策樹、貝葉斯分類等方法進(jìn)行數(shù)據(jù)分類。使用K-Means、分層聚類等方法進(jìn)行數(shù)據(jù)聚類??梢詫善边M(jìn)行分類和聚類,方便進(jìn)一步的行業(yè)研究和趨勢的研判。
3.關(guān)聯(lián)分析。通過關(guān)聯(lián)分析發(fā)現(xiàn)數(shù)據(jù)之間頻繁出現(xiàn)的關(guān)系來建立關(guān)聯(lián)規(guī)則,常見的關(guān)聯(lián)規(guī)則挖掘方法有Apriori算法??梢酝诰虺霾煌善遍g不同因子的相關(guān)性,有利于進(jìn)行跨行業(yè)和板塊的對比分析。還可以通過挖掘不同證券市場之間的關(guān)聯(lián)規(guī)則,合理地進(jìn)行資產(chǎn)配置以規(guī)避風(fēng)險(xiǎn)。
五、研究結(jié)論
針對當(dāng)前研究缺乏面向投資領(lǐng)域的經(jīng)濟(jì)和金融數(shù)據(jù)庫構(gòu)建和分析的問題,本文通過梳理投資數(shù)據(jù)庫的構(gòu)建以及分析方法,可以為從事投資行業(yè)的教學(xué)科研和工作人員提供一定的參考價(jià)值。
參考文獻(xiàn):
[1] M. D. Maggio,A. Kermani, and K. Majlesi, “Stock Market Returns and Consumption,”The Journal of Finance, vol. 75, no. 6, pp. 3175–3219, 2020.
[2]吳慶慧.在金融數(shù)據(jù)庫營銷中的一種數(shù)據(jù)挖掘與決策分析的方法[J].中國科學(xué)技術(shù)大學(xué)學(xué)報(bào),2009,39(2):208-214.
[3]劉文潔,李戩勃,李戰(zhàn)懷,張利軍.一種面向金融應(yīng)用的海量分布式關(guān)系數(shù)據(jù)庫[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,47(2):121-126.
[4]朱哲哲,趙振海,李鵬,吳海洋,向小佳.分布式關(guān)系型數(shù)據(jù)庫研究與金融行業(yè)應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2021,30(6):75-81.
[5]姚輝,武婷婷.兼顧基本面與估值指標(biāo)的價(jià)值投資策略實(shí)證研究——來自2000-2013年中國滬深A(yù)股市場的經(jīng)驗(yàn)數(shù)據(jù)[J].投資研究,2014,33(11):123-138.
[6]沈坤榮,孫文杰.投資效率、資本形成與宏觀經(jīng)濟(jì)波動(dòng)——基于金融發(fā)展視角的實(shí)證研究[J].中國社會(huì)科學(xué),2004(6):52-63+205.
[7]鄧創(chuàng),吳超.中國經(jīng)濟(jì)、金融不確定性的交互影響動(dòng)態(tài)與宏觀經(jīng)濟(jì)效應(yīng)分析[J].系統(tǒng)工程理論與實(shí)踐,2021,41(7):1625-1639.
基金項(xiàng)目:貴州財(cái)經(jīng)大學(xué)教學(xué)質(zhì)量與教學(xué)改革項(xiàng)目(2019JGZZD05);貴州省大數(shù)據(jù)統(tǒng)計(jì)分析重點(diǎn)實(shí)驗(yàn)室開放課題(BDSA20200116);貴州財(cái)經(jīng)大學(xué)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃資助項(xiàng)目(S202010671022);貴州省軟科學(xué)項(xiàng)目(黔科合支撐[2019]20033號)。
作者單位:貴州財(cái)經(jīng)大學(xué)