吳軒藝
(貴州財(cái)經(jīng)大學(xué),貴州 貴陽(yáng) 550025)
我國(guó)的資本市場(chǎng)具有“融資投資、市場(chǎng)定價(jià)、資源配置、產(chǎn)權(quán)管理”等多種樞紐功能,能夠有效推動(dòng)實(shí)體經(jīng)濟(jì)、促進(jìn)企業(yè)創(chuàng)新。黨的二十大報(bào)告中也論述:在實(shí)現(xiàn)中國(guó)式現(xiàn)代化的道路上,需要大力發(fā)展多層次資本市場(chǎng),而資本市場(chǎng)的健康發(fā)展也能夠滿足投資者對(duì)實(shí)體經(jīng)濟(jì)多樣化的金融需求”。
在資本市場(chǎng)中,周期性的波動(dòng)除了經(jīng)濟(jì)自身的周期性規(guī)律外,還有政治、外交、科技、產(chǎn)業(yè)結(jié)構(gòu)、情緒等諸多外因的影響,而股票市場(chǎng)作為其中之一,是與普通投資者聯(lián)系最為密切,參與度最高的資本市場(chǎng)。大量的股民常常帶著投機(jī)心理參與投資,而并不具備專業(yè)投資知識(shí),隨著證券研報(bào)的出現(xiàn),讓普通投資者在一定程度快速了解行業(yè)概況上發(fā)揮了巨大的作用。證券研報(bào)即證券研究報(bào)告,指的是證券公司為提供投資咨詢服務(wù)而發(fā)布的具有一定市場(chǎng)情緒偏好的報(bào)告。在信息大爆炸的時(shí)代,研報(bào)又細(xì)分為行研研報(bào),個(gè)股研報(bào),策略報(bào)告,新股研報(bào),券商晨報(bào),每日資訊等,根據(jù)中國(guó)結(jié)算官網(wǎng)發(fā)布的報(bào)告,我國(guó)股民數(shù)量已破兩億人次,除了專業(yè)機(jī)構(gòu)或公司能夠進(jìn)行深入實(shí)地調(diào)查、獲得一手的投資資料外,絕大多數(shù)的投資者都是依靠各券商分析師發(fā)行的研報(bào)來(lái)作為投資的依據(jù)[1]。
但是投資者僅靠一兩篇研報(bào)并不能做出正確的投資行為,應(yīng)博采眾長(zhǎng),通過(guò)大量研報(bào)比較與分析,而由于其精力有限無(wú)法集體閱讀,必定就會(huì)產(chǎn)生“拍腦袋”決策投資行為;而實(shí)際投資活動(dòng)中研報(bào)帶有滯后性,并且大多數(shù)普通投資者都追求短期投機(jī),依研報(bào)投資決策的股民在風(fēng)雨突變的股市里其收益率也會(huì)大打折扣。從另一角度看,研報(bào)之所以依舊重要,主要因?yàn)檠袌?bào)是分析師花費(fèi)大量的時(shí)間和精力查閱大量行業(yè)信息,深入市場(chǎng)多渠道采集樣本,通過(guò)大量深度思考而得到的研究結(jié)果,有其內(nèi)在的嚴(yán)密邏輯、獨(dú)特看法以及對(duì)行業(yè)本質(zhì)及規(guī)律性認(rèn)識(shí)的研究[2]。雖然對(duì)于普通投資者在大多數(shù)投資活動(dòng)上具有時(shí)間差、低回報(bào)率的特點(diǎn),但是對(duì)于創(chuàng)業(yè)者、在校畢業(yè)生以及經(jīng)濟(jì)愛(ài)好者等人群來(lái)講,研報(bào)是快速了解行業(yè)、判斷其發(fā)展前景、預(yù)測(cè)其經(jīng)濟(jì)走勢(shì)的利器。通過(guò)獲取海量研報(bào)的重點(diǎn)、熱點(diǎn)等相關(guān)信息快速知曉行業(yè)框架或行業(yè)前景,讓研報(bào)信息充分發(fā)揮其最大價(jià)值。
伴隨著大數(shù)據(jù)的深入發(fā)展,除了大量對(duì)于結(jié)構(gòu)化數(shù)據(jù)的研究外,眾多文本性數(shù)據(jù)的分析技術(shù)也漸漸成熟。利用機(jī)器算法將語(yǔ)言文本進(jìn)行挖掘、分類、抽取、識(shí)別、預(yù)測(cè)等又讓學(xué)者們發(fā)現(xiàn)了文本的其他重大信息。但是近年來(lái)文本數(shù)據(jù)挖掘分析多應(yīng)用在電商評(píng)論、社交媒體留言等方面,很少有學(xué)者將其文本挖掘與分析技術(shù)應(yīng)用于金融行業(yè)研報(bào)[3]。主要原因是其金融領(lǐng)域產(chǎn)生更多的是結(jié)構(gòu)化數(shù)據(jù),如金融交易數(shù)據(jù)、歷年國(guó)內(nèi)生產(chǎn)總值、可支配收入支出等,因此大都從定量的角度去構(gòu)建量化交易策略、建設(shè)金融計(jì)量模型,探討經(jīng)濟(jì)數(shù)據(jù)關(guān)系等,而研報(bào)作為金融市場(chǎng)上為數(shù)不多的具有完整邏輯體系的非結(jié)構(gòu)化數(shù)據(jù),其傳遞的信息量也具有巨大的參考價(jià)值,不只體現(xiàn)在投資領(lǐng)域,更多也體現(xiàn)在判斷行業(yè)規(guī)律以及預(yù)測(cè)行業(yè)發(fā)展前景上。并且隨著人工智能與互聯(lián)網(wǎng)的發(fā)展,人們獲取信息其背后都離不開機(jī)器對(duì)內(nèi)容的理解。文章將文本數(shù)據(jù)挖掘與分析應(yīng)用于金融領(lǐng)域的海量行業(yè)研報(bào)上,通過(guò)對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析[3],快速?gòu)拇罅垦袌?bào)中找到行業(yè)關(guān)注重點(diǎn)與方向,滿足人們挖掘信息的相關(guān)需求。
閱讀分析單個(gè)或者少量的研報(bào)可以通過(guò)傳統(tǒng)的人工方法完成,但在如今爆炸似的研報(bào)信息面前,無(wú)法再單純地依靠人工整理實(shí)現(xiàn)。而伴隨著大數(shù)據(jù)應(yīng)運(yùn)而生的機(jī)器學(xué)習(xí)卻能很好地解決該問(wèn)題。Python是一種面向?qū)ο蟮慕忉屝陀?jì)算機(jī)程序設(shè)計(jì)語(yǔ)言,其語(yǔ)法簡(jiǎn)潔清晰,承載的包和庫(kù)種類多樣,在文本挖掘領(lǐng)域有著廣泛的應(yīng)用。一般對(duì)于結(jié)構(gòu)性數(shù)據(jù)人們采用pandas、nump、matplotlib庫(kù)進(jìn)行分析與統(tǒng)計(jì),而對(duì)于中文文本分析并應(yīng)用廣泛的是jieba,collections,wordcloud,NetworkX等庫(kù)。
1) jieba是強(qiáng)大的Python分詞庫(kù),主要用于中文分詞、關(guān)鍵詞提取、詞性標(biāo)注、詞位置查詢等。在中文里面,詞是最小的能夠獨(dú)立運(yùn)動(dòng)的且具有意義的語(yǔ)言成分;與西方語(yǔ)言不同的是,詞與詞之間沒(méi)有空格之類的標(biāo)志,因而jieba庫(kù)的分詞原理主要利用中文詞庫(kù)來(lái)確定漢字之間的關(guān)聯(lián)概率,也結(jié)合相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,越有可能構(gòu)成詞語(yǔ)的規(guī)律來(lái)進(jìn)行統(tǒng)計(jì),找出基于詞頻的最大切分組合,同時(shí)在jieba中還可以自定義詞典,通過(guò)用戶添加任意詞組進(jìn)行更加貼合情況的分詞。jieba 分詞主要有三種模式[4]:精確模式、全模式、搜索引擎模式。
2) collections 庫(kù)中的 Counter 計(jì)數(shù)器通常用于詞頻統(tǒng)計(jì),可避免使用 for 循環(huán)來(lái)手動(dòng)統(tǒng)計(jì)詞頻。Counter 主要對(duì)文本數(shù)據(jù)中重要詞匯進(jìn)行迭代并將出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),最終返回一個(gè)字典,通過(guò)觀察詞出現(xiàn)頻次多少的變化,來(lái)確定熱點(diǎn)及其變化趨勢(shì)。
3) wordcloud是自然語(yǔ)言處理中常用的方法,可以比較直觀而又突出其重點(diǎn),關(guān)鍵詞在詞云圖中凸顯的大小和區(qū)域,讓人在視覺(jué)上給予更多的關(guān)注。主要代碼如下:
表1 wordcloud代碼
4) NetworkX 是Python 編程語(yǔ)言中用于語(yǔ)義網(wǎng)絡(luò)分析的庫(kù),其靈活的數(shù)據(jù)結(jié)構(gòu)和算法,可以輕松創(chuàng)建各種類型網(wǎng)絡(luò)圖來(lái)對(duì)語(yǔ)義關(guān)系進(jìn)行分析,可視化展示也使其成為數(shù)據(jù)分析領(lǐng)域中不可或缺的工具之一。其基本原理是將文本數(shù)據(jù)轉(zhuǎn)化為語(yǔ)義網(wǎng)絡(luò),從中提取出關(guān)鍵詞和關(guān)系,建立節(jié)點(diǎn)和邊的圖模型。
利用爬蟲技術(shù)收集東方財(cái)富網(wǎng)上汽車整車行業(yè)近兩年的研報(bào)內(nèi)容,由于東方財(cái)富網(wǎng)的行業(yè)研報(bào)數(shù)據(jù)是儲(chǔ)存在同一個(gè)url 地址的表格中,爬蟲程序利用while 循環(huán)實(shí)現(xiàn)自動(dòng)表格翻頁(yè)爬取[5],將數(shù)據(jù)保存下來(lái),部分代碼如下:
def yanbao():
count = 1
while count <= 25:
for i in range(1,2):
def get_data():
...
count = count+1
if count>=26:
Break
同時(shí)研報(bào)文本信息在‘報(bào)告名稱’所記載的網(wǎng)頁(yè)中,程序通過(guò)讀取表格中每一個(gè)‘報(bào)告名稱’中URL地址獲取其內(nèi)容,部分代碼如下:
driver=webdriver.Chrome()
data=pd.read_excel(r"D:/Users/python write/Python-cut/1.xlsx")
contents=[]
def get_contents():
for url in data[′報(bào)告名稱′]:
driver.get(url)
最后合并兩者內(nèi)容并以excl形式保存到本地,如表2所示:
表2 爬取文本信息
共獲取到2021年9月27日到2023年1月11日的1 171條行業(yè)研報(bào)文本數(shù)據(jù),為了數(shù)據(jù)完整性,同時(shí)爬取了其日期、評(píng)級(jí)、評(píng)級(jí)變動(dòng)、機(jī)構(gòu)名稱等信息。粗略地瀏覽一遍報(bào)告內(nèi)容,存在很多廢詞、標(biāo)點(diǎn)等無(wú)用信息,需要進(jìn)一步處理。
導(dǎo)入中文分詞jieba 庫(kù),運(yùn)用jieba.lcut()語(yǔ)句進(jìn)行精確分詞,即把文本精確切開后,若經(jīng)過(guò)組合還能還原成之前文本同時(shí)不存在冗余詞,同時(shí)由于時(shí)代的發(fā)展會(huì)產(chǎn)生大量新詞,再加上金融領(lǐng)域會(huì)有一些特有專有名詞,于是構(gòu)建自定義詞典再進(jìn)行分詞;然后為了不影響文本分析的進(jìn)行,利用停用詞stopwords,將文本中沒(méi)有任何含義的詞篩選出來(lái);最后從collections庫(kù)導(dǎo)入 Counter 用于詞頻統(tǒng)計(jì),將之前處理好的文本中的詞進(jìn)行累計(jì)計(jì)數(shù),之后利用sort函數(shù)進(jìn)行排序,將排序靠前的詞,即研報(bào)中提及次數(shù)最多的詞和詞頻數(shù)提取出來(lái),部分?jǐn)?shù)據(jù)見(jiàn)圖1:
圖1 詞頻統(tǒng)計(jì)
詞云也叫文字云,將文本中的關(guān)鍵詞進(jìn)行渲染以圖片形式呈現(xiàn),更加直觀地了解文本主題。導(dǎo)入wordcloud 庫(kù),圖片蒙版選擇一張本地自有圖片,最終將研報(bào)文本詞庫(kù)以詞云圖的形式呈現(xiàn),見(jiàn)圖2。
基于語(yǔ)義網(wǎng)絡(luò)分析法,對(duì)汽車整車行業(yè)研報(bào)進(jìn)行網(wǎng)絡(luò)分析和關(guān)系挖掘,語(yǔ)義網(wǎng)絡(luò)中的節(jié)點(diǎn)為主題,而邊則表示節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系。以此了解研報(bào)中對(duì)整車行業(yè)做出的主題分析,重點(diǎn)領(lǐng)域介紹等,也可為研究整車行業(yè)的發(fā)展趨勢(shì)和政策制定提供參考。文章通過(guò) networkx 等庫(kù),構(gòu)造詞頻矩陣和 TF-IDF 矩陣,并計(jì)算相關(guān)系數(shù),最終得到了詞共現(xiàn)分析網(wǎng)絡(luò)的可視化,可以更好地觀察和分析網(wǎng)絡(luò)結(jié)構(gòu)和特征,如圖3所示。
圖3 語(yǔ)義分析網(wǎng)絡(luò)圖
文章發(fā)現(xiàn)在獲取的汽車整車行業(yè)研報(bào)文本數(shù)據(jù)中,除了本身關(guān)于汽車一詞提及多達(dá)8 314 次外,“同比”和“環(huán)比”一詞分別提及6 258 次和4 817 次,詞云圖也呈現(xiàn)出“銷量”“需求”等詞。說(shuō)明研究報(bào)告大多數(shù)主要從各汽車企業(yè)銷售情況入手,比較其年月的銷量,分析市場(chǎng)需求。
同時(shí)詞頻中“增長(zhǎng)”提及3 636 次,“新能源汽車”提及了2 426 次,“新能源車”提及1 197 次,“新能源”提及1 853 次,“政策”提及1 293 次,很明顯汽車行業(yè)主要發(fā)展前景集中在新能源車上,這也與我國(guó)綠色發(fā)展政策密不可分,國(guó)家一直堅(jiān)持綠色發(fā)展之路,共創(chuàng)美好未來(lái),并且從2020 年9 月就明確提出了2030 年“碳達(dá)峰”與2060年“碳中和”的目標(biāo),新能源已經(jīng)被稱為第三次能源革命,新能源產(chǎn)業(yè)在未來(lái)會(huì)將是一片新藍(lán)海[6],其中不乏大量的就業(yè)、創(chuàng)業(yè)機(jī)會(huì)。
研報(bào)中“智能”提及了2 091 次,詞云圖也直觀地看出“科技”“電動(dòng)”等詞在文本中是重點(diǎn)。新能源車除了在綠色環(huán)保上下功夫更朝著智能化方向推進(jìn),不斷進(jìn)行迭代與創(chuàng)新,推動(dòng)著汽車產(chǎn)業(yè)鏈的變革。同時(shí)“零部件”一詞提及了2 218 次,在汽車產(chǎn)業(yè)上下游中零部件相關(guān)的產(chǎn)業(yè)鏈也是當(dāng)下關(guān)注的熱點(diǎn)。
“比亞迪”和“特斯拉”分別談及1 926 次、1 763次,結(jié)合其描述可以看出,兩家公司在新能源車行業(yè)銷量遙遙領(lǐng)先,作為行業(yè)標(biāo)桿,對(duì)其研發(fā)投入和發(fā)展規(guī)劃都值得關(guān)注和研究。
從詞頻圖上還可以看到,“風(fēng)險(xiǎn)”“不及”“建議”等詞也多次出現(xiàn),因?yàn)檠袌?bào)僅僅是提供一種投資建議,依然存在很多不確定性。畢竟每一個(gè)行業(yè)都會(huì)有周期性或者突發(fā)事件,如詞云中“疫情”一詞也出現(xiàn)其中,在詞頻中被談及到了1 573次,說(shuō)明突發(fā)事件也會(huì)對(duì)汽車行業(yè)的發(fā)展造成相應(yīng)的影響。因而在預(yù)測(cè)行業(yè)前景或者做投資決策時(shí),也需要考慮到相關(guān)的問(wèn)題,防患于未然。
在語(yǔ)義分析網(wǎng)絡(luò)圖中,研報(bào)整體從新能源汽車、銷量、智能化、用車等主題來(lái)進(jìn)行研報(bào)的擴(kuò)展分析,在新能源汽車主題下,主要從企業(yè)角度,如著名的特斯拉、中國(guó)的吉利、長(zhǎng)安、長(zhǎng)城等車企來(lái)討論,其中有關(guān)注到該行業(yè)自主研發(fā)芯片、電動(dòng)化的發(fā)展;其次對(duì)于汽車行業(yè)的現(xiàn)狀也有談及,如產(chǎn)業(yè)鏈、零售、消費(fèi)、政策等主題;同時(shí)也有一部分談及了疫情對(duì)汽車行業(yè)銷量的影響;并且從增長(zhǎng)、有望、提升主題詞看,研報(bào)整體對(duì)汽車整車行業(yè)的智能化、能源化是抱有積極態(tài)度的。
文章通過(guò)Python技術(shù)對(duì)研報(bào)文本的挖掘與分析,從詞頻、詞云、語(yǔ)義網(wǎng)絡(luò)角度出發(fā)對(duì)汽車整車行業(yè)作了大致的梳理,明確了該行業(yè)發(fā)展方向、研究熱點(diǎn)以及龍頭企業(yè)等相關(guān)信息,提高了閱讀海量研報(bào)的效率和準(zhǔn)確度,為有研報(bào)閱讀需求的人們提供了更加高效的方案。