譚明亮,游強(qiáng)華,楊達(dá)森,周禾深,唐曉波
(1.川北醫(yī)學(xué)院 管理學(xué)院,四川 南充 637100;2.中國(guó)人民大學(xué) 信息資源管理學(xué)院,北京 100872;3.武漢大學(xué) 信息管理學(xué)院,湖北 武漢 430072)
上市公司在現(xiàn)代經(jīng)濟(jì)發(fā)展中扮演著十分重要的角色,是證券市場(chǎng)的基石以及推動(dòng)經(jīng)濟(jì)發(fā)展的核心動(dòng)力。目前中國(guó)A股市場(chǎng)已有四千多家上市公司,股市總市值僅次于美國(guó),達(dá)到了60萬(wàn)億元以上,占整個(gè)國(guó)內(nèi)生產(chǎn)總值總量的比例達(dá)60%以上。在美國(guó)、英國(guó)和加拿大等證券市場(chǎng)發(fā)達(dá)的國(guó)家,股市總市值往往會(huì)超過(guò)該國(guó)的GDP總量。與此同時(shí),上市公司一旦發(fā)生重大風(fēng)險(xiǎn)事件會(huì)導(dǎo)致巨大的社會(huì)成本和經(jīng)濟(jì)成本損失。一方面,這會(huì)讓投資者、債權(quán)人等利益相關(guān)主體蒙受巨大的經(jīng)濟(jì)損失,沉重打擊人們對(duì)上市公司和證券市場(chǎng)的信心;另一方面,這也會(huì)對(duì)證券市場(chǎng)的運(yùn)行秩序和穩(wěn)定發(fā)展造成一定的沖擊,甚至?xí)l(fā)相應(yīng)的連鎖反應(yīng),從而影響到整個(gè)金融市場(chǎng)的穩(wěn)定性,使得發(fā)生系統(tǒng)性金融風(fēng)險(xiǎn)的概率增加[1]。
大數(shù)據(jù)時(shí)代,對(duì)上市公司風(fēng)險(xiǎn)事件相關(guān)的多源異構(gòu)文本數(shù)據(jù)資源進(jìn)行有效的挖掘和聚合,從而為投資者、債權(quán)人、銀行、基金管理公司、證券公司和政府監(jiān)管部門(mén)等主體的金融管理決策提供智能化的決策支持,具有十分重要的應(yīng)用實(shí)踐價(jià)值。當(dāng)前的研究主要集中于金融事件的表示和抽取,以及基于金融事件實(shí)現(xiàn)股票預(yù)測(cè)、行業(yè)趨勢(shì)分析等領(lǐng)域應(yīng)用。但是通過(guò)從非結(jié)構(gòu)化文本數(shù)據(jù)中抽取金融事件,并對(duì)其進(jìn)行形式化表示的方式來(lái)實(shí)現(xiàn)金融知識(shí)服務(wù)的準(zhǔn)確率和可用性還不夠高,并且會(huì)損失部分對(duì)決策有價(jià)值的情報(bào)知識(shí)。文章的研究視角則是以句子為粒度,將上市公司風(fēng)險(xiǎn)事件相關(guān)的重要信息按照主題進(jìn)行聚合,從而為上市公司風(fēng)險(xiǎn)事件監(jiān)測(cè)提供完整清晰的視圖。
(1)金融事件智能分析處理。當(dāng)前國(guó)內(nèi)外針對(duì)金融事件智能分析處理的研究主要集中于:①金融事件的表示,主要研究金融事件的形式化表示,如強(qiáng)韶華等[2]將本體和案例相結(jié)合來(lái)實(shí)現(xiàn)金融事件表示。②金融事件抽取,主要研究如何從財(cái)經(jīng)新聞、上市公司公告等非結(jié)構(gòu)化文本數(shù)據(jù)中抽取出事件類(lèi)型、事件元素和觸發(fā)詞等事件知識(shí),如QIAN等[3]綜合利用詞嵌入、聚類(lèi)、分類(lèi)等技術(shù)來(lái)從財(cái)經(jīng)新聞中識(shí)別和抽取企業(yè)的商業(yè)事件。③基于金融事件的領(lǐng)域應(yīng)用,主要研究基于文本中的金融事件來(lái)實(shí)現(xiàn)股票預(yù)測(cè)、上市公司風(fēng)險(xiǎn)識(shí)別和行業(yè)趨勢(shì)分析等領(lǐng)域應(yīng)用,如HAN等[4]發(fā)現(xiàn)財(cái)經(jīng)新聞文本中的事件信息在股票收益分析和行業(yè)趨勢(shì)分析等多個(gè)方面有著重要的應(yīng)用價(jià)值。
(2)知識(shí)聚合。知識(shí)聚合是圖情領(lǐng)域近些年來(lái)的熱點(diǎn)研究課題之一,旨在對(duì)知識(shí)資源進(jìn)行動(dòng)態(tài)關(guān)聯(lián)和篩選組織,以實(shí)現(xiàn)知識(shí)單元的有機(jī)連接和知識(shí)資源的多維組合,從而為用戶提供智能化的知識(shí)服務(wù)[5]。當(dāng)前的研究主要針對(duì)圖書(shū)館、檔案館、網(wǎng)絡(luò)社區(qū)中的知識(shí)資源進(jìn)行聚合,相關(guān)研究文獻(xiàn)主要是從詞語(yǔ)和篇章兩種粒度來(lái)實(shí)現(xiàn)文本資源的聚合[6]。一篇文檔中可能包含了多個(gè)主題的多層語(yǔ)義內(nèi)容,以篇章為單元實(shí)現(xiàn)文本資源聚合粒度過(guò)粗;而詞語(yǔ)表征文本資源內(nèi)容的能力有限,可讀性和可理解性較差。句子是保持語(yǔ)義完整和邏輯連貫的最小文本單元,具有完整的語(yǔ)法和語(yǔ)義結(jié)構(gòu),包含了清晰、豐富和具體的語(yǔ)義語(yǔ)境信息,可讀性和可理解性高。當(dāng)前將句子作為知識(shí)聚合粒度的研究還較為缺乏,文章以句子粒度來(lái)對(duì)上市公司風(fēng)險(xiǎn)事件相關(guān)的文本資源進(jìn)行有效聚合,通過(guò)主題報(bào)告的形式為管理決策者提供智能化的知識(shí)服務(wù)。
上市公司在經(jīng)營(yíng)管理過(guò)程中一旦發(fā)生重大風(fēng)險(xiǎn)事件,需要根據(jù)證券監(jiān)管部門(mén)對(duì)上市公司信息披露的相關(guān)規(guī)定和要求,在臨時(shí)公告中進(jìn)行及時(shí)、準(zhǔn)確地披露和說(shuō)明事件的起因、目前的狀態(tài)和可能產(chǎn)生的影響。與此同時(shí),各種新聞媒體和網(wǎng)站也會(huì)進(jìn)行各種采訪、調(diào)查、跟進(jìn)和報(bào)道。上市公司的臨時(shí)公告和新聞報(bào)道數(shù)據(jù)具有價(jià)值性高、及時(shí)性強(qiáng)、可獲得性高的特征,為開(kāi)展上市公司風(fēng)險(xiǎn)事件監(jiān)測(cè)提供了重要的數(shù)據(jù)源,但是若不對(duì)其進(jìn)行智能化的處理而直接將其推送給決策者,這勢(shì)必會(huì)造成決策者的信息過(guò)載,這是由于以下兩點(diǎn)原因。
(1)上市公司一旦發(fā)生重大風(fēng)險(xiǎn)事件,除了上市公司發(fā)布的臨時(shí)公告文件以外,各種新聞報(bào)道往往層出不窮,其中包含了很多上市公司在臨時(shí)公告文件中未披露的對(duì)管理決策有重要價(jià)值的信息,上市公司未披露這些信息的原因在于這些信息不屬于有關(guān)部門(mén)規(guī)定的上市公司應(yīng)當(dāng)披露的信息的范疇,例如新聞媒體報(bào)道的長(zhǎng)生生物被多家基金公司下調(diào)估值等情況。
(2)單篇臨時(shí)公告、單篇新聞報(bào)道以及多篇臨時(shí)公告和新聞報(bào)道組成的文本集合在內(nèi)容上往往包含了多個(gè)事件主題。例如,針對(duì)長(zhǎng)生生物疫苗事件的單篇新聞報(bào)道“被證監(jiān)會(huì)立案調(diào)查,長(zhǎng)生生物六個(gè)跌停后股權(quán)質(zhì)押風(fēng)險(xiǎn)暴露”內(nèi)容上就包含了長(zhǎng)生生物被證監(jiān)會(huì)立案調(diào)查、股價(jià)連續(xù)跌停以及股權(quán)質(zhì)押風(fēng)險(xiǎn)暴露等多個(gè)事件主題。
為了幫助決策者及時(shí)、動(dòng)態(tài)、持續(xù)地跟蹤和掌握上市公司風(fēng)險(xiǎn)事件的相關(guān)情況,筆者以文本數(shù)據(jù)挖掘、知識(shí)組織和知識(shí)服務(wù)等領(lǐng)域的理論、方法和技術(shù)為基礎(chǔ),構(gòu)建了由數(shù)據(jù)采集與數(shù)據(jù)預(yù)處理模塊、知識(shí)獲取與知識(shí)組織模塊、知識(shí)利用與知識(shí)服務(wù)模塊等3個(gè)模塊所構(gòu)成的基于句子語(yǔ)義挖掘的上市公司風(fēng)險(xiǎn)事件知識(shí)聚合模型,如圖1所示。
圖1 基于句子語(yǔ)義挖掘的上市公司風(fēng)險(xiǎn)事件知識(shí)聚合模型
數(shù)據(jù)采集與數(shù)據(jù)預(yù)處理模塊主要對(duì)上市公司的臨時(shí)公告和新聞報(bào)道文本數(shù)據(jù)進(jìn)行采集,并完成數(shù)據(jù)的預(yù)處理工作;知識(shí)獲取與知識(shí)組織模塊的任務(wù)是構(gòu)建金融情感詞典以及提取上市公司風(fēng)險(xiǎn)事件相關(guān)的文本數(shù)據(jù),該模塊需要基于種子情感詞、Word2Vec詞向量模型和外部知識(shí)庫(kù)半自動(dòng)構(gòu)建面向金融領(lǐng)域的情感詞典,并利用構(gòu)建的金融情感詞典來(lái)提取與上市公司風(fēng)險(xiǎn)事件相關(guān)的臨時(shí)公告和新聞報(bào)道文本數(shù)據(jù);知識(shí)利用與知識(shí)服務(wù)模塊的任務(wù)是生成上市公司風(fēng)險(xiǎn)事件的主題報(bào)告并實(shí)現(xiàn)主題報(bào)告的自動(dòng)推送,該模塊利用LDA主題模型和BERT模型來(lái)捕獲和表示句子的語(yǔ)義特征,并將獲取到的句子語(yǔ)義特征進(jìn)行融合,對(duì)句子進(jìn)行聚類(lèi)和重要度計(jì)算,形成上市公司風(fēng)險(xiǎn)事件的文本主題報(bào)告,并將其推送給管理決策者。
上市公司的很多臨時(shí)公告和新聞報(bào)道的內(nèi)容是關(guān)于上市公司日常經(jīng)營(yíng)管理活動(dòng)中的正常事件甚至是利好事件,例如訂立重要合同、獲得大額政府補(bǔ)貼等事件。而文章所需要分析和挖掘的是上市公司風(fēng)險(xiǎn)事件相關(guān)的臨時(shí)公告和新聞報(bào)道數(shù)據(jù),因此需要對(duì)采集到的臨時(shí)公告和新聞報(bào)道文本進(jìn)行提取。對(duì)于上市公司臨時(shí)公告和新聞報(bào)道文本數(shù)據(jù)的提取手段主要有如下兩種:通過(guò)收集正負(fù)樣本來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型,然后利用擬合的模型來(lái)實(shí)現(xiàn)文本的自動(dòng)分類(lèi);通過(guò)構(gòu)建領(lǐng)域知識(shí)庫(kù)來(lái)對(duì)文本進(jìn)行自動(dòng)提取。文章通過(guò)半自動(dòng)構(gòu)建領(lǐng)域情感詞典來(lái)實(shí)現(xiàn)臨時(shí)公告和新聞報(bào)道文本數(shù)據(jù)的提取,這也可以為金融決策支持的相關(guān)研究和產(chǎn)業(yè)實(shí)踐提供可復(fù)用的知識(shí)庫(kù)和易于操作的方法。
LOUGHRAN等[7]研究發(fā)現(xiàn),英文通用情感詞典(哈佛情感詞典)中幾乎75%的消極情感詞匯在金融文本中并非表達(dá)的是消極負(fù)面的情感。例如通用情感詞典中的消極情感詞“癌癥(cancer)”一詞在上市公司的年報(bào)、招股說(shuō)明書(shū)和新聞報(bào)道等金融文本中往往表達(dá)的并非是消極負(fù)面的情感,而可能是一些從事生物醫(yī)藥的研發(fā)、生產(chǎn)和銷(xiāo)售的上市公司用于闡述癌癥相關(guān)的藥物研發(fā)和專(zhuān)利技術(shù)等。LOUGHRAN等[7]針對(duì)通用詞典在金融文本情感分析中存在的缺陷,構(gòu)建了一個(gè)包含積極、消極、訴訟、不確定性、模態(tài)和約束性等6類(lèi)情感詞的LM英文金融情感詞典。
為了更好地對(duì)中文金融文本數(shù)據(jù)進(jìn)行分析,國(guó)內(nèi)也有部分研究者嘗試通過(guò)手工、自動(dòng)或者翻譯英文LM詞典的方式來(lái)構(gòu)建面向金融領(lǐng)域的中文情感詞典[8-10]。但是筆者發(fā)現(xiàn)上述構(gòu)建和翻譯的中文金融情感詞典在實(shí)際應(yīng)用的過(guò)程中存在著諸多的問(wèn)題:首先,這些情感詞典中的情感詞的覆蓋面不夠全面和廣泛;其次,這些情感詞典中的很多情感詞的情感傾向并不準(zhǔn)確。
針對(duì)當(dāng)前構(gòu)建和翻譯的中文金融情感詞典存在的缺陷,文章需要在此基礎(chǔ)上構(gòu)建一個(gè)可復(fù)用的可用性較高的面向金融領(lǐng)域的中文情感詞典。通過(guò)對(duì)情感詞典構(gòu)建方法的綜合比較分析,筆者首先構(gòu)建面向金融領(lǐng)域的語(yǔ)料庫(kù)和訓(xùn)練Word2Vec模型,然后在此基礎(chǔ)上以半自動(dòng)的方式構(gòu)建面向金融領(lǐng)域的中文情感詞典。
筆者從互聯(lián)網(wǎng)上獲取了70 000余篇搜狐財(cái)經(jīng)新聞,并利用Jieba分詞工具對(duì)財(cái)經(jīng)新聞文本進(jìn)行中文分詞和去停用詞。Word2Vec詞向量模型包括CBOW模型和Skip-Gram模型兩種。研究者們?cè)趹?yīng)用實(shí)踐中發(fā)現(xiàn):相較于Skip-Gram模型,CBOW模型更加適用于處理小型語(yǔ)料數(shù)據(jù)[11]。文章構(gòu)建的包含70 000余篇財(cái)經(jīng)新聞的語(yǔ)料庫(kù)屬于小型語(yǔ)料庫(kù),因此文章選用CBOW模型來(lái)訓(xùn)練面向金融領(lǐng)域的Word2Vec詞向量模型。參考國(guó)內(nèi)外的有關(guān)研究,筆者將CBOW模型訓(xùn)練所涉及到的關(guān)鍵參數(shù)設(shè)置如下:窗口大小window設(shè)置為5,詞向量的維度size設(shè)置為200。
詞向量模型訓(xùn)練完成后,通過(guò)對(duì)比可以發(fā)現(xiàn),相較于使用中文維基語(yǔ)料訓(xùn)練的面向通用領(lǐng)域的Word2Vec詞向量模型,筆者利用財(cái)經(jīng)新聞?wù)Z料訓(xùn)練的面向金融領(lǐng)域的Word2Vec詞向量模型在領(lǐng)域詞匯的語(yǔ)義表示與語(yǔ)義理解上具有明顯的優(yōu)越性。例如,分別輸出兩個(gè)Word2Vec詞向量模型中與“跳水”一詞語(yǔ)義距離最近的10個(gè)詞,筆者訓(xùn)練的面向金融領(lǐng)域的Word2Vec詞向量模型的輸出有“急跌”“下挫”“暴跌”“大幅下挫”“狂瀉”“大幅下跌”等形容股票等下滑的速度迅速和幅度很大的詞。而面向通用領(lǐng)域的Word2Vec詞向量模型則輸出的是“跳遠(yuǎn)”“跳高”“花樣滑冰”“短跑”“鐵人三項(xiàng)”“中長(zhǎng)跑”“體操”等描述體育運(yùn)動(dòng)項(xiàng)目的詞匯。
文章從以往研究者構(gòu)建和翻譯的中文金融情感詞典中獲取種子情感詞,以面向金融領(lǐng)域的Word2Vec詞向量模型為基礎(chǔ),利用外部知識(shí)庫(kù)和統(tǒng)計(jì)方法來(lái)半自動(dòng)地構(gòu)建面向金融領(lǐng)域的中文情感詞典。然后,利用構(gòu)建的中文金融情感詞典來(lái)對(duì)上市公司的臨時(shí)公告和新聞報(bào)道數(shù)據(jù)進(jìn)行提取。
3.3.1 獲取面向金融領(lǐng)域的種子情感詞
文章從文獻(xiàn)[8]和文獻(xiàn)[9]構(gòu)建的情感詞典以及文獻(xiàn)[10]翻譯的中文LM詞典這3個(gè)中文金融情感詞典中獲取面向金融領(lǐng)域的種子情感詞,獲取種子情感詞的方法如下:對(duì)于積極詞匯和消極詞匯這兩類(lèi)種子情感詞,獲取的規(guī)則是若一個(gè)詞在兩個(gè)中文金融情感詞典相應(yīng)類(lèi)別中存在,則將其作為種子情感詞;訴訟詞匯類(lèi)別的情感詞則通過(guò)手工的方式在文獻(xiàn)[10]翻譯的中文LM詞典中獲取。最終文章獲得積極類(lèi)別的種子情感詞143個(gè),消極類(lèi)別的種子情感詞477個(gè),訴訟類(lèi)別的種子情感詞275個(gè),部分種子情感詞如表1所示。
表1 面向金融領(lǐng)域的種子情感詞(部分)
3.3.2 獲取面向金融領(lǐng)域的種子情感詞
利用余弦相似度來(lái)衡量種子情感詞與候選情感詞的語(yǔ)義相似度,將Word2Vec詞向量模型中與種子情感詞余弦相似度最高的20個(gè)詞作為候選情感詞。例如,輸出Word2Vec詞向量模型中與“暴跌”一詞余弦相似度最高的10個(gè)詞如表2所示。
可以很明顯地發(fā)現(xiàn),獲得的候選情感詞大部分都是與“暴跌”一詞語(yǔ)義相同或者相近的消極情感詞,如“大跌”“大幅下跌”“大幅下挫”“重挫”“跳水”等。但是候選情感詞中與也有少部分情感詞并不屬于消極情感詞,如“暴漲”和“大漲”這兩情感詞個(gè)詞明顯屬于積極情感詞。文獻(xiàn)[4]在Word2Vec詞向量模型的訓(xùn)練與使用中也發(fā)現(xiàn),利用Word2Vec模型獲得的候選詞中大部分是目標(biāo)詞的同義詞或者近義詞,但仍存在有一些不相關(guān)的詞,甚至是反義詞。出現(xiàn)這個(gè)問(wèn)題是因?yàn)檫@些不相關(guān)的詞或者反義詞與目標(biāo)詞在訓(xùn)練Word2Vec詞向量模型的語(yǔ)料庫(kù)中有著相似的上下文。因此,鑒于此,還需要對(duì)候選情感詞進(jìn)行進(jìn)一步的過(guò)濾與篩選。
3.3.3 候選情感詞的篩選與過(guò)濾
(1)基于規(guī)則的候選情感詞的篩選與過(guò)濾。筆者首先借助于哈爾濱工業(yè)大學(xué)信息檢索實(shí)驗(yàn)室構(gòu)建的哈工大同義詞詞林?jǐn)U展版這一外部知識(shí)庫(kù)來(lái)對(duì)3類(lèi)候選情感詞進(jìn)行初步的自動(dòng)篩選與過(guò)濾:對(duì)于訴訟類(lèi)別的候選情感詞,直接將種子情感詞的同義詞和同類(lèi)詞從候選情感詞中篩選出來(lái);對(duì)于積極詞匯和消極詞匯這兩類(lèi)候選情感詞,首先篩選出候選情感詞中本類(lèi)別種子情感詞的同義詞,然后過(guò)濾掉消極類(lèi)候選情感詞中積極類(lèi)種子情感詞的同義詞,以及積極類(lèi)候選情感詞中消極類(lèi)種子情感詞的同義詞。
筆者還從搜狗輸入法官網(wǎng)中下載了刑事訴訟詞庫(kù)、民法常用詞匯、審判詞庫(kù)、法律開(kāi)庭筆錄用語(yǔ)、法律文書(shū)法規(guī)法條、法律術(shù)語(yǔ)辭典、法律詞匯大全等7個(gè)詞庫(kù),并將7個(gè)詞庫(kù)中的詞進(jìn)行合并去重形成詞表。筆者并未將該詞表中的詞直接作為訴訟類(lèi)別的情感詞的原因在于該詞表中的一部分詞明顯不屬于法律訴訟類(lèi)別,因此筆者利用該詞表和候選情感詞來(lái)聯(lián)合確定訴訟類(lèi)別的部分情感詞。具體的方法是:將訴訟類(lèi)別的候選情感詞和上述詞表中共同存在的情感詞篩選出來(lái)。
(2)基于統(tǒng)計(jì)的候選情感詞的篩選與過(guò)濾。除了引入外部的同義詞詞典知識(shí)庫(kù)來(lái)實(shí)現(xiàn)基于規(guī)則的候選情感詞篩選和過(guò)濾以外,筆者還利用基于統(tǒng)計(jì)的方法來(lái)對(duì)積極詞匯和消極詞匯這兩大類(lèi)的候選情感詞進(jìn)行進(jìn)一步的篩選和過(guò)濾。
文章以TURNEY等[12]提出的SO-PMI算法為基礎(chǔ),基于種子情感詞、Word2Vec詞向量模型和余弦相似度公式來(lái)判斷候選情感詞的情感極性,將候選情感詞word的情感極性的計(jì)算公式確定為:
(1)
式中:Pset和Nset分別為本文獲取的積極類(lèi)種子情感詞所構(gòu)成的集合和消極類(lèi)種子情感詞所構(gòu)成的集合;m和n分別為積極類(lèi)種子情感詞的數(shù)量和消極類(lèi)種子情感詞的數(shù)量;Similarity是指兩個(gè)詞語(yǔ)之間的語(yǔ)義相似度,筆者用詞向量之間的余弦相似度來(lái)進(jìn)行度量。當(dāng)SO(word)>0時(shí),表示候選情感詞word屬于積極詞匯;當(dāng)SO(word)=0時(shí),表示候選情感詞word不具有情感極性;當(dāng)SO(word) <0時(shí),表示候選情感詞word屬于消極詞匯。
利用計(jì)算機(jī)對(duì)候選情感詞進(jìn)行自動(dòng)化的篩選和過(guò)濾后,筆者還通過(guò)領(lǐng)域?qū)<覍?duì)計(jì)算機(jī)自動(dòng)判別的結(jié)果進(jìn)行審核和人工輔助判斷,以形成學(xué)術(shù)研究和產(chǎn)業(yè)實(shí)踐中可復(fù)用的高質(zhì)量的中文金融情感詞典;然后,將獲取到的情感詞與種子情感詞進(jìn)行合并和去重,形成最后的中文金融情感詞典;最終,本文構(gòu)建的中文金融情感詞典中共包含積極類(lèi)別的情感詞共計(jì)1 206個(gè),消極類(lèi)別的情感詞共計(jì)2 356個(gè),訴訟類(lèi)別的情感詞共計(jì)1 156個(gè)。
3.3.4 上市公司的臨時(shí)公告和新聞報(bào)道數(shù)據(jù)的提取
文章使用疫苗事件發(fā)生后長(zhǎng)生生物披露的臨時(shí)公告,以及相關(guān)的新聞報(bào)道數(shù)據(jù)來(lái)驗(yàn)證構(gòu)建的基于句子語(yǔ)義挖掘的上市公司風(fēng)險(xiǎn)事件知識(shí)聚合模型。本文從巨潮資訊網(wǎng)上獲取疫苗事件發(fā)生的前3天以及之后7天內(nèi)長(zhǎng)生生物披露的所有臨時(shí)公告文件,從東方財(cái)富上爬取了疫苗事件發(fā)生的前3天以及之后7天內(nèi)長(zhǎng)生生物的相關(guān)新聞報(bào)道。最終,筆者獲得長(zhǎng)生生物的臨時(shí)公告和新聞報(bào)道共計(jì)242篇。
筆者利用構(gòu)建的中文金融情感詞典來(lái)對(duì)上市公司臨時(shí)公告和新聞報(bào)道數(shù)據(jù)進(jìn)行提取,具體的方法和過(guò)程如下:首先,將消極類(lèi)別的情感詞和訴訟類(lèi)別的情感詞進(jìn)行合并和去重,形成消極與訴訟類(lèi)別情感詞,共計(jì)3 022個(gè);然后,基于如下的公式對(duì)上市公司的每一篇臨時(shí)公告和新聞報(bào)道進(jìn)行提取:
(2)
其中,sf(消極與訴訟)和sf(積極)分別為文本數(shù)據(jù)中消極與訴訟類(lèi)別情感詞的頻次、積極類(lèi)別情感詞的頻次。文章利用構(gòu)建的中文金融情感詞典對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行提取后,獲得了長(zhǎng)生生物的臨時(shí)公告和新聞報(bào)道共219篇。
對(duì)利用領(lǐng)域情感詞典提取出來(lái)的長(zhǎng)生生物的臨時(shí)公告和新聞報(bào)道文本進(jìn)行分句,并去除包含5個(gè)字及以下的句子,共得到4 237個(gè)句子;然后,將每個(gè)句子看作一個(gè)文檔,將所有句子構(gòu)成一個(gè)文本集合。利用LDA模型和BERT模型來(lái)對(duì)句子的語(yǔ)義特征進(jìn)行挖掘,然后將兩個(gè)模型分別獲取到的語(yǔ)義特征進(jìn)行融合,從而形成每個(gè)句子的語(yǔ)義特征表示。
4.1.1 基于LDA模型的句子語(yǔ)義特征獲取
LDA(latent dirichlet allocation)模型是由BLEI等[13]提出的一種對(duì)文本數(shù)據(jù)的主題信息進(jìn)行建模的概率主題模型,該模型包含文檔層、主題層和詞匯層等三層的清晰層次結(jié)構(gòu)。LDA主題模型的主要思想是:文檔由若干個(gè)潛在主題所構(gòu)成,可以將文檔表示為若干個(gè)潛在主題的概率分布;而這些潛在主題又由文本中的若干個(gè)特定的詞匯所體現(xiàn),可以將潛在主題表示為若干個(gè)詞項(xiàng)的概率分布[14]。
主題數(shù)目是運(yùn)用LDA主題模型實(shí)現(xiàn)文本分析所需要設(shè)定的重要參數(shù),文章參考曾子明等[15]的研究,將LDA主題模型困惑度最小的時(shí)候所對(duì)應(yīng)的主題數(shù)目作為文本集合的最優(yōu)主題數(shù)。困惑度(perplexity)是評(píng)估LDA主題模型的重要標(biāo)準(zhǔn)之一,困惑度的值越小,則表明模型在文本集合上的擬合性越高,模型的泛化能力越強(qiáng)。困惑度的計(jì)算公式如下:
(3)
式中:D為文本集合;wd為文檔d中的詞語(yǔ);Nd為文檔d的詞語(yǔ)數(shù)量;p(wd)為文檔中的詞wd產(chǎn)生的概率;M為文本集合中文檔的數(shù)量。利用開(kāi)源的自然語(yǔ)言處理工具包Gensim中的LDA模型來(lái)對(duì)4 237個(gè)句子所構(gòu)成的文本集合進(jìn)行主題挖掘,得到最小困惑度(最優(yōu)主題數(shù)目為64)下的句子-主題分布,形成一個(gè)4 237×64的矩陣。
4.1.2 基于BERT模型的句子語(yǔ)義特征獲取
BERT模型是由Google公司的DEVLIN等[16]提出的深度雙向表示預(yù)訓(xùn)練模型,該模型融合了預(yù)訓(xùn)練語(yǔ)言模型ELMo模型和GPT模型的優(yōu)點(diǎn),采用基于Transformer的多層雙向編碼器在大規(guī)模無(wú)標(biāo)注語(yǔ)料上進(jìn)行文本特征抽取及訓(xùn)練,從而獲得包含豐富語(yǔ)義信息的文本表征。BERT模型具有很強(qiáng)的文本特征表示能力,能夠深層次地提取文本數(shù)據(jù)中的語(yǔ)義信息。
文章使用開(kāi)源的工具Bert-as-service來(lái)加載預(yù)訓(xùn)練模型,將4 237個(gè)句子輸入BERT模型中,將每個(gè)句子的深層次語(yǔ)義映射和表征到BERT模型輸出的768維的稠密向量上,形成一個(gè)4 237×768的矩陣。
4.1.3 句子語(yǔ)義特征的融合
筆者將LDA模型和BERT模型獲取的句子的語(yǔ)義特征進(jìn)行融合,以更好地獲得句子的語(yǔ)義特征表示。將LDA主題模型輸出的4 237×64矩陣與BERT模型輸出的4 237×768矩陣進(jìn)行拼接,最終形成一個(gè)4 237×832的矩陣,如圖2所示。該矩陣的每一行表示了每個(gè)句子832維的語(yǔ)義特征。
圖2 句子的語(yǔ)義特征矩陣(部分)
根據(jù)獲取的句子的語(yǔ)義特征,筆者利用凝聚層次聚類(lèi)算法來(lái)對(duì)句子進(jìn)行聚類(lèi),從而將句子劃分到若干個(gè)類(lèi)簇中,每個(gè)類(lèi)簇中的句子集中描述了上市公司風(fēng)險(xiǎn)事件的一個(gè)主題。凝聚層次聚類(lèi)算法首先將每個(gè)數(shù)據(jù)對(duì)象都當(dāng)做單獨(dú)的一類(lèi),然后逐步合并相似的類(lèi)簇,直到達(dá)到預(yù)先設(shè)定的條件或者最終形成一個(gè)類(lèi)簇為止。
凝聚層次聚類(lèi)需要在類(lèi)簇間距離計(jì)算的基礎(chǔ)上實(shí)現(xiàn)類(lèi)簇的合并,筆者基于Ward離差平方和法來(lái)計(jì)算類(lèi)簇間的距離,該方法源于方差分析的思想,認(rèn)為同一個(gè)類(lèi)簇中樣本有著較小的離差平方和,而不同類(lèi)簇間則應(yīng)該有著較大的離差平方和。Ward離差平方和的計(jì)算公式如下:
(4)
式中:μCi∪Cj為類(lèi)簇Ci和類(lèi)簇Cj合并后的中心點(diǎn);Distance為距離函數(shù),筆者選擇的距離計(jì)算函數(shù)是歐氏距離。
文章將凝聚層次聚類(lèi)算法的聚類(lèi)數(shù)目設(shè)定為L(zhǎng)DA主題模型困惑度最小的時(shí)候所對(duì)應(yīng)的主題數(shù)目,即將4 237個(gè)句子聚類(lèi)到64個(gè)類(lèi)簇中。
完成句子的聚類(lèi)后,需要選擇各個(gè)類(lèi)簇中一定數(shù)量的句子組成上市公司風(fēng)險(xiǎn)事件的主題報(bào)告。文章主要從情感特征和事件特征兩個(gè)方面來(lái)衡量句子的重要度:考慮情感特征的原因在于,句子中出現(xiàn)的“暴跌”“惡化”“凍結(jié)”“查封”“立案”“罰款”“刑事責(zé)任”等消極與訴訟情感詞對(duì)于上市公司風(fēng)險(xiǎn)事件的監(jiān)測(cè)具有十分重要的作用;考慮事件特征的原因在于,需要降低文本數(shù)據(jù)中與當(dāng)前的風(fēng)險(xiǎn)事件并不緊密相關(guān)的句子的權(quán)重,例如一些新聞報(bào)道中描述長(zhǎng)生生物發(fā)展歷程的句子。
綜合考慮句子的情感特征和事件特征,將句子的重要度計(jì)算公式確定如下:
Weight(Sentence)=λ·Weight(Sentiment)+
(1-λ)·Weight(Event)
(5)
式中:λ為平衡參數(shù),λ∈[0,1];Weight(Sentiment)為句子的情感特征值,計(jì)算方法為句子中消極與訴訟類(lèi)別情感詞的數(shù)目除以句子的長(zhǎng)度;Weight(Event)為句子的事件特征值,計(jì)算方法為句子中事件特征詞的數(shù)目除以句子的長(zhǎng)度。臨時(shí)公告和新聞報(bào)道的標(biāo)題往往反映了風(fēng)險(xiǎn)事件的核心內(nèi)容與關(guān)鍵動(dòng)態(tài),而標(biāo)題中的名詞和動(dòng)詞則是描述事件的重要語(yǔ)義單元[17],文章將各個(gè)類(lèi)簇中的句子所對(duì)應(yīng)的標(biāo)題中的名詞和動(dòng)詞作為事件特征詞。
句子的重要度計(jì)算完成后,針對(duì)每個(gè)類(lèi)簇選擇一定數(shù)量的重要度較高的不重復(fù)句子,按照句子所對(duì)應(yīng)的臨時(shí)公告或新聞報(bào)道產(chǎn)生的時(shí)間順序組成上市公司風(fēng)險(xiǎn)事件的文本主題報(bào)告。句子的數(shù)量通過(guò)壓縮比來(lái)確定和控制,各個(gè)類(lèi)簇形成的文本主題報(bào)告的句子數(shù)目為該類(lèi)簇中的句子總數(shù)乘以壓縮比并取整。筆者將平衡參數(shù)λ設(shè)置為0.6,將壓縮比設(shè)置為10%,生成各個(gè)類(lèi)簇下的文本主題報(bào)告。例如,針對(duì)包含了108個(gè)句子的第19個(gè)類(lèi)簇,生成的事件主題報(bào)告如圖3所示,可以發(fā)現(xiàn)該主題報(bào)告較為集中和有針對(duì)性地描述了長(zhǎng)生生物被多家基金公司下調(diào)估值的情況。
圖3 第19個(gè)類(lèi)簇的文本主題報(bào)告
(1)構(gòu)建了基于句子語(yǔ)義挖掘的上市公司風(fēng)險(xiǎn)事件知識(shí)聚合模型,將包含了清晰、豐富語(yǔ)義語(yǔ)境信息且可讀性和可理解性高的句子作為語(yǔ)義粒度來(lái)對(duì)上市公司風(fēng)險(xiǎn)事件相關(guān)的文本資源進(jìn)行有效聚合,通過(guò)主題報(bào)告的形式為管理決策者提供智能化的知識(shí)服務(wù)。模型為上市公司風(fēng)險(xiǎn)事件智能監(jiān)測(cè)提供了切實(shí)可行的解決路徑,豐富了金融知識(shí)服務(wù)理論,拓展了金融事件的研究視角。
(2)從以往研究者構(gòu)建和翻譯的中文金融情感詞典中獲取種子情感詞,以面向金融領(lǐng)域的Word2Vec詞向量模型為基礎(chǔ),利用外部知識(shí)庫(kù)和統(tǒng)計(jì)方法來(lái)半自動(dòng)地構(gòu)建了面向金融領(lǐng)域的中文情感詞典,為金融文本分析、挖掘與利用提供了可復(fù)用的知識(shí)庫(kù)資源。
(3)當(dāng)前金融文本分析領(lǐng)域的研究尚處于起始階段,而產(chǎn)品評(píng)論挖掘領(lǐng)域的情感詞典資源較為成熟和豐富,有很多情感詞典包含了情感詞具體的權(quán)重。在今后的研究中,可以基于產(chǎn)品評(píng)論挖掘領(lǐng)域的情感詞典,結(jié)合金融領(lǐng)域的具體情況來(lái)確定金融情感詞典中情感詞的權(quán)重。