董士豪,鄭 朗,王 特
(1.中國農(nóng)業(yè)大學(xué) 信息與電氣工程學(xué)院,北京 100038;2.中電金信軟件有限公司,北京 100192)
產(chǎn)業(yè)知識圖譜是結(jié)構(gòu)化的產(chǎn)業(yè)語義知識庫,通過形式化描述產(chǎn)業(yè)領(lǐng)域的概念、實體、屬性及其相互關(guān)系,使概念、實體間相互聯(lián)結(jié),構(gòu)成網(wǎng)狀知識結(jié)構(gòu)。產(chǎn)業(yè)涉及范圍廣泛,本研究以產(chǎn)業(yè)大類中的上市企業(yè)、基金、上市企業(yè)業(yè)務(wù)鏈、產(chǎn)業(yè)鏈、基金經(jīng)理和股東等為研究對象,形成了知識覆蓋面廣、數(shù)據(jù)更新實時、精準(zhǔn)度高的自上到下的三維度產(chǎn)業(yè)知識圖譜。根據(jù)中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)和中國證券業(yè)協(xié)會規(guī)定的18大類產(chǎn)業(yè)為第一維度知識;以上市企業(yè)、基金、基金經(jīng)理和股東組成的第二維度知識;再到第三維度的公司業(yè)務(wù)鏈知識,最終完成了產(chǎn)業(yè)知識圖譜的構(gòu)建。根據(jù)研究目標(biāo)及思路,下文確定了數(shù)據(jù)獲取方向和主要的獲取方法。
產(chǎn)業(yè)主體知識包括產(chǎn)業(yè)種類、上市企業(yè)數(shù)據(jù)、產(chǎn)業(yè)鏈數(shù)據(jù)和公司業(yè)務(wù)產(chǎn)業(yè)鏈數(shù)據(jù)等。產(chǎn)業(yè)鏈數(shù)據(jù)又包括大類主營業(yè)務(wù)和細分主營產(chǎn)品,產(chǎn)業(yè)鏈數(shù)據(jù)包括某產(chǎn)業(yè)中的上市企業(yè)上游和下游信息數(shù)據(jù)。此外,分析上市企業(yè)在產(chǎn)業(yè)鏈和產(chǎn)業(yè)鏈中的時空特性,可以發(fā)現(xiàn)產(chǎn)業(yè)發(fā)展的規(guī)律,需要得到上市企業(yè)的月份市值數(shù)據(jù)和產(chǎn)業(yè)鏈時間序列數(shù)據(jù)。分析產(chǎn)業(yè)發(fā)展規(guī)律會關(guān)聯(lián)到基金、基金經(jīng)理和股東在其中的影響作用,涉及到基金、基金經(jīng)理和股東相關(guān)數(shù)據(jù)。以產(chǎn)業(yè)知識主體為基礎(chǔ),以產(chǎn)業(yè)鏈及公司業(yè)務(wù)產(chǎn)業(yè)鏈數(shù)據(jù)為擴展,以相關(guān)聯(lián)的基金、基金經(jīng)理和股東等相關(guān)數(shù)據(jù)為補充,進一步豐富產(chǎn)業(yè)知識圖譜的內(nèi)容。
產(chǎn)業(yè)知識圖譜涉及產(chǎn)業(yè)領(lǐng)域內(nèi)的知識內(nèi)容,并能表達產(chǎn)業(yè)領(lǐng)域內(nèi)知識的關(guān)聯(lián)關(guān)系。完善產(chǎn)業(yè)知識圖譜,能夠更好地服務(wù)自然語言處理較高層面的相關(guān)研究,其中智能問答系統(tǒng)、信息檢索系統(tǒng)、個性化推薦與分析系統(tǒng)均能將產(chǎn)業(yè)知識圖譜上的知識與之相結(jié)合,提供更優(yōu)質(zhì)的服務(wù)。例如,根據(jù)某產(chǎn)業(yè)中上市企業(yè)研究報告文本信息可以構(gòu)建如圖1所示的上市企業(yè)產(chǎn)業(yè)鏈?zhǔn)纠龍D。上游由以農(nóng)藥、飼料為主營業(yè)務(wù)的上市企業(yè)組成,中游由生豬養(yǎng)殖、家禽養(yǎng)殖為主營業(yè)務(wù)的上市企業(yè)組成,下游由食品加工、食品包裝為主營業(yè)務(wù)的上市企業(yè)組成。
圖1 上市企業(yè)產(chǎn)業(yè)鏈?zhǔn)纠龍D
隨著信息技術(shù)的發(fā)展,學(xué)者們對于產(chǎn)業(yè)信息的需求也在不斷變化,對于更深入的產(chǎn)業(yè)信息,需要更多的數(shù)據(jù)和分析手段的支持[1]。產(chǎn)業(yè)互聯(lián)網(wǎng)的概念由此被提了出來。它是指通過互聯(lián)網(wǎng)技術(shù)對產(chǎn)業(yè)鏈上的各個環(huán)節(jié)進行整合、協(xié)同、優(yōu)化,實現(xiàn)資源的高效配置和價值的最大化[2]。產(chǎn)業(yè)互聯(lián)網(wǎng)的興起,越來越多產(chǎn)業(yè)信息資源涌現(xiàn)出來,與此同時,如何將海量產(chǎn)業(yè)信息資源科學(xué)地管理起來成為了信息化時代的挑戰(zhàn)。然而,隨著人工智能技術(shù)逐漸應(yīng)用于產(chǎn)業(yè)信息領(lǐng)域,知識圖譜技術(shù)在產(chǎn)業(yè)信息領(lǐng)域的應(yīng)用有效地解決了產(chǎn)業(yè)信息管理困難的問題。知識圖譜技術(shù)可以將不同數(shù)據(jù)源的產(chǎn)業(yè)信息進行集成、關(guān)聯(lián)和重構(gòu),促進產(chǎn)業(yè)信息的交流和共享,為產(chǎn)業(yè)的發(fā)展提供更多的信息支持[3]。
知識圖譜技術(shù)對產(chǎn)業(yè)信息處理和應(yīng)用主要有以下三個方面:
(1)實現(xiàn)產(chǎn)業(yè)信息的語義化:傳統(tǒng)的產(chǎn)業(yè)信息描述往往只能提供文字信息,缺乏語義化的表達。而知識圖譜技術(shù)可以將產(chǎn)業(yè)信息進行語義化處理,將實體、屬性和關(guān)系結(jié)構(gòu)化表示,可以直觀地理解和利用產(chǎn)業(yè)信息。
(2)提高產(chǎn)業(yè)信息的查詢和檢索效率:知識圖譜技術(shù)可以將不同數(shù)據(jù)源的產(chǎn)業(yè)信息進行關(guān)聯(lián),構(gòu)建出一個完整的知識圖譜。利用知識圖譜,可以快速地查找到自己需要的產(chǎn)業(yè)信息,同時可以利用關(guān)系推理等技術(shù)快速地發(fā)現(xiàn)產(chǎn)業(yè)信息之間的隱藏關(guān)聯(lián)和趨勢。
(3)支持產(chǎn)業(yè)信息分析和決策:通過將產(chǎn)業(yè)信息進行結(jié)構(gòu)化表示和關(guān)聯(lián),可以直觀地分析和展示產(chǎn)業(yè)信息的關(guān)系和趨勢,支持決策者做出科學(xué)的決策。
知識圖譜技術(shù)逐漸在醫(yī)療、金融、工業(yè)等領(lǐng)域蓬勃發(fā)展。2018年袁凱琦等人對醫(yī)療知識圖譜進行了系統(tǒng)性的研究[4];2020年中國林業(yè)科學(xué)研究院的丁浩宸等人研究了油茶知識圖譜構(gòu)建與應(yīng)用[5];2021年曾廣榮對海洋產(chǎn)業(yè)知識圖譜構(gòu)建的信息抽取技術(shù)進行了研究[6];2022年南京郵電大學(xué)的胡婷婷基于知識圖譜對國內(nèi)電影產(chǎn)業(yè)研究熱點與演化進行了分析[7];同年陳曉軍等人在金融領(lǐng)域構(gòu)建了公司風(fēng)險知識圖譜并對其進行了研究[8]。
隨著各細分領(lǐng)域知識圖譜的發(fā)展,產(chǎn)業(yè)知識圖譜的概念也被提了出來并迎來發(fā)展。2019年貴州大學(xué)管理學(xué)院李橋興等人基于知識圖譜的現(xiàn)代產(chǎn)業(yè)體系進行了研究,其為了解我國現(xiàn)代產(chǎn)業(yè)體系研究的發(fā)展現(xiàn)狀,采用可視化軟件繪制知識圖譜并分別從時間、作者、機構(gòu)、期刊、學(xué)科、高被引論文等角度對高引文文獻進行分析[9];2020年Bader等人對產(chǎn)業(yè)信息進行充分考量,構(gòu)建出了產(chǎn)業(yè)知識圖譜4.0[10];同年南京林業(yè)大學(xué)的施佳露基于知識圖譜對長三角文化產(chǎn)業(yè)進行了研究和可視化分析[11];2021年中國電子技術(shù)標(biāo)準(zhǔn)化研究院李瑞琪等人對產(chǎn)業(yè)知識圖譜應(yīng)用及標(biāo)準(zhǔn)化需求進行了研究[12]。產(chǎn)業(yè)知識圖譜是知識圖譜在產(chǎn)業(yè)領(lǐng)域的拓展,是結(jié)構(gòu)化的產(chǎn)業(yè)語義知識庫,通過形式化描述產(chǎn)業(yè)領(lǐng)域的概念、實體、屬性及其相互關(guān)系,使概念、實體間相互聯(lián)結(jié),構(gòu)成網(wǎng)狀知識結(jié)構(gòu)[13]。
數(shù)據(jù)獲取共分為兩步,即確定數(shù)據(jù)來源并研究數(shù)據(jù)獲取方法。產(chǎn)業(yè)種類知識來源于中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)。上市企業(yè)、上市企業(yè)業(yè)務(wù)鏈、產(chǎn)業(yè)鏈和基金、基金經(jīng)理和股東知識來源于財經(jīng)網(wǎng)站、Wind金融終端和Tushare財經(jīng)數(shù)據(jù)接口包。中國產(chǎn)業(yè)經(jīng)濟信息網(wǎng)為本文中的產(chǎn)業(yè)種類提供了本體支撐,結(jié)合中國證券業(yè)從業(yè)協(xié)會劃分產(chǎn)業(yè)大類18種,細分產(chǎn)業(yè)54類。各大財經(jīng)網(wǎng)站中的研究報告數(shù)據(jù)作為非結(jié)構(gòu)化文本數(shù)據(jù)源,為后續(xù)從非結(jié)構(gòu)化文本數(shù)據(jù)中抽取出結(jié)構(gòu)化產(chǎn)業(yè)數(shù)據(jù)提供數(shù)據(jù)支撐。金融終端可以提供結(jié)構(gòu)化數(shù)據(jù),包括產(chǎn)業(yè)、上市企業(yè)、基金、基金經(jīng)理和股東及其各實體的基礎(chǔ)屬性數(shù)據(jù)。
對于非結(jié)構(gòu)化產(chǎn)業(yè)文本數(shù)據(jù),設(shè)計爬蟲程序,適用于各種網(wǎng)頁,使用Selenium獲取編寫網(wǎng)頁包裝器,實現(xiàn)網(wǎng)頁數(shù)據(jù)的自動爬取。首先,對于Google Chrome,需下載與瀏覽器版本相對應(yīng)的Chrome Driver。然后,安裝Selenium庫并配置Chrome Driver后,檢驗Selenium是否能自動發(fā)起和控制Google Chrome。最后,導(dǎo)入Selenium的web driver類并將其實例化,瀏覽器設(shè)置為Google Chrome,參數(shù)設(shè)置了Chrome Driver的安裝路徑和URL變量,即可以進行數(shù)據(jù)爬取工作。
網(wǎng)頁中含有多個iframe的情況下,可在不同iframe之間進行切換,以執(zhí)行相應(yīng)操作。在定義了與不同網(wǎng)址相對應(yīng)的模板,也是XPath及其相應(yīng)的實體與屬性信息之后,數(shù)據(jù)抽取十分便捷,只需按照模板解析目標(biāo)網(wǎng)頁即可。半自動行業(yè)網(wǎng)址數(shù)據(jù)解析的過程見表1。
表1 半自動財經(jīng)網(wǎng)站數(shù)據(jù)解析步驟示例
對于結(jié)構(gòu)化產(chǎn)業(yè)數(shù)據(jù),使用Python庫中的Panda、Numpy等庫對接口進行結(jié)構(gòu)化數(shù)據(jù)獲取,數(shù)據(jù)獲取的結(jié)果保存為CSV格式。通過以上數(shù)據(jù)獲取方式從各大網(wǎng)站和數(shù)據(jù)接口中獲得了非結(jié)構(gòu)化數(shù)據(jù)14 571條文本,結(jié)構(gòu)化數(shù)據(jù)千萬條。
產(chǎn)業(yè)標(biāo)注數(shù)據(jù)集的構(gòu)建包含以下四個步驟:
1)產(chǎn)業(yè)標(biāo)注數(shù)據(jù)集語料的構(gòu)建;2)數(shù)據(jù)預(yù)處理;3)產(chǎn)業(yè)標(biāo)注策略研究并確定方案;4)閱讀研究報告進行句子分割,將獲取研究報告文本數(shù)據(jù)進行人工閱讀并分割,并保存為TXT文檔形式;5)半自動化標(biāo)注平臺,在后續(xù)的標(biāo)注步驟中采用了半自動化標(biāo)注平臺Label Studio進行標(biāo)注工作;6)實體序列標(biāo)注,將整理分隔好的文本句子,進行BIOS四位序列標(biāo)注法標(biāo)注;7)關(guān)系標(biāo)注,將實體標(biāo)注完成的序列句子再進行關(guān)系標(biāo)注;8)標(biāo)注成果展示。
產(chǎn)業(yè)標(biāo)注數(shù)據(jù)集Financial_Industry_RE的主要數(shù)據(jù)來源是各大財經(jīng)網(wǎng)站的研究報告文本和新聞文本,如新浪財經(jīng)、搜狐財經(jīng)等。各網(wǎng)站涵蓋了全國所有的上市企業(yè)及其全領(lǐng)域覆蓋的研究報告文本數(shù)據(jù)。實驗通過采用Python編程語言的Scrapy爬蟲框架根據(jù)該網(wǎng)站的布局特性和文本特征,對網(wǎng)站文本數(shù)據(jù)進行特征分析。同時,考慮到避免圖片等干擾因素對爬蟲的影響,設(shè)置爬蟲規(guī)則進行數(shù)據(jù)爬取。獲取到初始產(chǎn)業(yè)研究報告文本數(shù)據(jù),共爬取了14 571條研究報告文本數(shù)據(jù),涵蓋全部國內(nèi)上市企業(yè)和18大類產(chǎn)業(yè)信息。
數(shù)據(jù)預(yù)處理的目的是為了獲取到高質(zhì)量的文本數(shù)據(jù)。在獲取初始研究報告文本數(shù)據(jù)后,對爬取的數(shù)據(jù)內(nèi)容進行分析,產(chǎn)業(yè)研究報告文本的內(nèi)容結(jié)構(gòu)如圖2所示。共包含題目、數(shù)據(jù)分析、分類分析和結(jié)尾四部分,數(shù)據(jù)分析部分為冗余信息,分類分析和結(jié)尾部分為信息主要來源部分。
圖2 產(chǎn)業(yè)研究報告文本結(jié)構(gòu)示例圖
通過設(shè)置人工審閱規(guī)則進行數(shù)據(jù)預(yù)處理和數(shù)據(jù)清洗,對爬取到的非結(jié)構(gòu)化文本數(shù)據(jù)進行處理,并清洗無關(guān)內(nèi)容和冗余信息。對與本次實驗設(shè)定的實體關(guān)系無關(guān)的文本,幾乎不存在實體關(guān)系的文本,實體數(shù)過低或者只存在不屬于已定義十二種關(guān)系的文本進行過濾和剔除,如盈利數(shù)據(jù)分析部分,最終得到無噪聲純文本語料。清洗后的文本包括較少的無關(guān)內(nèi)容,為實體關(guān)系抽取任務(wù)提供了便利。
數(shù)據(jù)標(biāo)注的目的是為了構(gòu)造標(biāo)注數(shù)據(jù)集,使得實體關(guān)系抽取模型可以學(xué)習(xí)識別實體及關(guān)系。本實驗對經(jīng)過數(shù)據(jù)預(yù)處理后的文本數(shù)據(jù)開展標(biāo)注工作,其共分為兩部分標(biāo)注工作,首先對分句完成后的語料庫進行實體序列標(biāo)注,在此基礎(chǔ)上完成關(guān)系標(biāo)注。通過分析文本特征,并且結(jié)合BIOS標(biāo)注法,對分句語料庫每句話中出現(xiàn)的五類實體進行序列標(biāo)注。五類實體分別為公司(COM)、業(yè)務(wù)(MASTER)、主要產(chǎn)品(PRODUCT)、風(fēng)險(RISK)和評級(RATE)。后續(xù)也稱之為實體1、實體2等,即e1、e2、e3、e4和e5。每一條標(biāo)注好的數(shù)據(jù)中會有多個實體及其之間的多種關(guān)系,劃分其中主要關(guān)系為十二類,根據(jù)各實體之間對應(yīng)關(guān)系分類個數(shù)可將關(guān)系劃分為兩大類:每兩類實體之間只對應(yīng)一種關(guān)系的為簡單關(guān)系(Sample-RE),分別為公司與業(yè)務(wù)、主要產(chǎn)品、風(fēng)險和評級各實體之間的開展、生產(chǎn)銷售、存在與擁有關(guān)系,即開展(e1,e2)、生產(chǎn)銷售(e1,e3)、存在(e1,e4)和擁有(e1,e5);業(yè)務(wù)與產(chǎn)品之間的包括關(guān)系和風(fēng)險與風(fēng)險之間的其它關(guān)系,即包括(e2,e3)和其它(e4,e4);每兩類實體之間對應(yīng)多種關(guān)系的為復(fù)雜關(guān)系(Complex-RE),分別為公司與公司之間的出售/收購關(guān)系與投資/合作關(guān)系、業(yè)務(wù)與業(yè)務(wù)之間和產(chǎn)品與產(chǎn)品之間的細分為關(guān)系和并列于關(guān)系,即出售/收購(e1,e1)、合作/投資(e1,e1)、并列于(e2,e2)、細分為(e2,e2)、并列于(e3,e3)和細分為(e3,e3)。圖3為各類實體關(guān)系模式展示。
圖3 各類實體關(guān)系示例圖
閱讀研究報告文章,并將其按照語義的完成性拆分成句子。句子劃分時盡量保證語義的完成性,但是句子不能太長,最長不能超過100個字符,如果一句話過長,可以按照“;”和“,”進行劃分,當(dāng)缺少主語時可以添加一些主語,如:隆基股份作為公司名稱,可以添加到一個句子的開頭。當(dāng)滿足以上條件時,可以適當(dāng)?shù)母淖円幌陆Y(jié)構(gòu),如許多數(shù)據(jù)字符沒有太多的意義,可以刪除,或者保留一部分。例如:“分產(chǎn)品看,2022年Q1季度天味食品兩大核心品類火鍋底料與川調(diào)分別實現(xiàn)營收2.4億元和3.5億元,分別同比增長3.2%和45%。”,此句話可以刪除后面的增速之后的文字,最終變?yōu)椤胺之a(chǎn)品看,2022年Q1季度天味食品兩大核心品類火鍋底料與川調(diào)分別實現(xiàn)營收2.4億元和3.5億元?!?。
由于人工序列標(biāo)注過于繁瑣且時間成本較高,在對比目前熱門的幾款半自動化標(biāo)注平臺之后。決定采用具有Python自動化接口、可以實現(xiàn)本地和云端共享標(biāo)注的標(biāo)注平臺在本地Python開發(fā)工具中新建虛擬環(huán)境,然后運行命令pip install-u LabelStudio進行安裝,再輸入label-studio start命令運行即可運用Label Studio進行標(biāo)注工作。
在Label Studio中創(chuàng)建新項目,選用常用是實體系列標(biāo)注模板BIOS,把其修改為的五類實體:公司(COM)、業(yè)務(wù)(MASTER)、主要產(chǎn)品(PRODUCT)、風(fēng)險(RISK)和評級(RATE)。實體序列標(biāo)注的結(jié)果將用于后續(xù)的命名實體識別實驗。
Label Studio中,在實體標(biāo)注成功的項目里進行關(guān)系標(biāo)注操作,用于后續(xù)的關(guān)系抽取實驗和實體關(guān)系抽取實驗。在實體序列標(biāo)注結(jié)果的基礎(chǔ)上進行關(guān)系標(biāo)注,標(biāo)注十二種關(guān)系。關(guān)系標(biāo)注結(jié)果將用于后續(xù)的關(guān)系分類實驗和實體關(guān)系抽取實驗數(shù)據(jù)。
通過對現(xiàn)有經(jīng)數(shù)據(jù)預(yù)處理后的文本進行標(biāo)注,最終建立了Financial_Industry_RE序列標(biāo)注數(shù)據(jù)集,可用于后續(xù)實體關(guān)系抽取模型實驗。該數(shù)據(jù)集包含五類產(chǎn)業(yè)知識實體和十二類產(chǎn)業(yè)知識關(guān)系,十二類關(guān)系中簡單關(guān)系連接貫通五類實體,復(fù)雜關(guān)系的加入使得同種實體之間關(guān)系也能被提取出來,可以使實驗抽取出的產(chǎn)業(yè)知識三元組數(shù)據(jù)更加全面。
Financial_Industry_RE序列標(biāo)注數(shù)據(jù)集共包括324 632個文本字符,15 379個實體,11 149組關(guān)系,其中實體序列數(shù)據(jù)用于后續(xù)的命名實體識別實驗,實體關(guān)系數(shù)據(jù)用于后續(xù)關(guān)系抽取實驗和實體關(guān)系抽取實驗。表2展示了數(shù)據(jù)標(biāo)注完成之后的實體關(guān)系三元組知識。
表2 實體關(guān)系三元組知識示例表
通過對產(chǎn)業(yè)鏈智能分析方法的研究,接下來將進行案例展示。案例展示為3個產(chǎn)業(yè)大類農(nóng)、林、畜牧和漁業(yè);制造業(yè);衛(wèi)生與社會工作行業(yè)中的3個細分產(chǎn)業(yè)畜牧養(yǎng)殖、國產(chǎn)芯片和醫(yī)療服務(wù)。
通過產(chǎn)業(yè)鏈分析步驟中的前兩步圖譜數(shù)據(jù)挖掘、產(chǎn)業(yè)鏈構(gòu)建,確定畜牧養(yǎng)殖產(chǎn)業(yè)鏈包含上游產(chǎn)業(yè)飼料、農(nóng)藥;中游產(chǎn)業(yè)生豬養(yǎng)殖、家禽養(yǎng)殖;下游產(chǎn)業(yè)包含食品加工和冷鏈。根據(jù)產(chǎn)業(yè)知識圖譜和Wind金融終端的產(chǎn)業(yè)鏈平臺數(shù)據(jù),確定畜牧養(yǎng)殖產(chǎn)業(yè)鏈整體節(jié)點共計42家上市企業(yè)。繼而通過數(shù)據(jù)導(dǎo)出、模型預(yù)測與結(jié)論分析得到了畜牧養(yǎng)殖產(chǎn)業(yè)鏈分析可視化示例圖。如圖4,中部為產(chǎn)業(yè)鏈圖譜,右側(cè)為預(yù)測數(shù)據(jù)表與分析結(jié)果展示區(qū)。功能包括節(jié)點搜索、圖譜展示模式切換和產(chǎn)業(yè)鏈上中下游同類展示與隱藏。搜索框中輸入上市企業(yè)名稱,呈現(xiàn)此公司所有相關(guān)節(jié)點,并且當(dāng)鼠標(biāo)位于某個節(jié)點上方時能夠保持知識圖譜當(dāng)前狀態(tài)。
圖4 2022年畜牧養(yǎng)殖產(chǎn)業(yè)鏈可視化示例圖
右側(cè)預(yù)測數(shù)據(jù)表展示區(qū)中存在預(yù)測市值、市值收益風(fēng)險和發(fā)展評級,同時結(jié)合研究報告文本中抽取的風(fēng)險評價進行分析。例如,上圖中游中的上海海林節(jié)點預(yù)測數(shù)據(jù)中市值收益風(fēng)險為-23.52%,評級在[-25%,0]區(qū)間內(nèi),即發(fā)展評級為3,對應(yīng)投資建議為公司發(fā)展下行,建議觀望;對應(yīng)發(fā)展風(fēng)險為豬肉下行趨勢不及預(yù)期,畜禽價格波動風(fēng)險等。
通過驗證,2022年畜牧養(yǎng)殖產(chǎn)業(yè)鏈中上市企業(yè)市值預(yù)測分析結(jié)果的準(zhǔn)確率為76.19%,預(yù)測表如下。此外,為了驗證本研究預(yù)測的畜牧養(yǎng)殖產(chǎn)業(yè)鏈分析結(jié)果是否在一定程度上反映了該年產(chǎn)業(yè)鏈中上市企業(yè)的發(fā)展趨勢,同時采用前文研究報告中抽取的風(fēng)險和評級三元組知識驗證模型產(chǎn)業(yè)鏈分析結(jié)果的可靠性。最后,2022年畜牧養(yǎng)殖產(chǎn)業(yè)鏈24家上市企業(yè)市值預(yù)測分析結(jié)果中,有18家上市企業(yè)的市值較2021年是下降的,約占總公司個數(shù)的75%,可以判斷該產(chǎn)業(yè)鏈2022年整體下行。
表2 畜牧養(yǎng)殖產(chǎn)業(yè)鏈預(yù)測結(jié)果準(zhǔn)確性驗證表
模式切換按鈕可切換對節(jié)點的不同可視化表示,Circles為圖譜力學(xué)關(guān)系圖可視化展示,Texts為文字圖譜力學(xué)關(guān)系圖展示;左側(cè)條形表示不同類型的節(jié)點,On/Off切換開關(guān)可打開或關(guān)閉同樣類型所有節(jié)點的可視化顯示。文字圖譜模式示例如圖5所示,中游產(chǎn)業(yè)鏈?zhǔn)纠鐖D6所示。
圖5 2022年畜牧養(yǎng)殖產(chǎn)業(yè)鏈節(jié)點圖譜模式示例圖
圖6 2022年中游畜牧養(yǎng)殖產(chǎn)業(yè)鏈圖譜示例圖
近年來芯片行業(yè)成為國內(nèi)熱門產(chǎn)業(yè),同時也是國家重點扶持對象,研究分析該產(chǎn)業(yè)鏈對整體產(chǎn)業(yè)鏈分析存在重要意義。通過產(chǎn)業(yè)鏈分析步驟中的前兩步圖譜數(shù)據(jù)挖掘、產(chǎn)業(yè)鏈構(gòu)建,確定國產(chǎn)芯片產(chǎn)業(yè)鏈包含上游產(chǎn)業(yè)芯片設(shè)計、芯片材料;中游產(chǎn)業(yè)芯片制造;下游產(chǎn)業(yè)包含濺射靶材、晶圓制造和芯片封測。繼而通過模型預(yù)測與結(jié)論分析得到了國產(chǎn)芯片產(chǎn)業(yè)鏈可視化示例圖7。
圖7 2022年國產(chǎn)芯片產(chǎn)業(yè)鏈可視化示例圖
通過驗證,2022年國產(chǎn)芯片產(chǎn)業(yè)鏈預(yù)測分析結(jié)果的準(zhǔn)確率為78.12%,預(yù)測表3如下。此外,國產(chǎn)芯片產(chǎn)業(yè)鏈14家上市企業(yè)市值預(yù)測中,有9家上市企業(yè)的市值較2021年是上升的,約占總公司個數(shù)的64.28%。在近年來由于疫情等因素整體經(jīng)濟趨勢下行的情況下國產(chǎn)芯片產(chǎn)業(yè)鏈仍可以擁有超過半數(shù)的上市企業(yè)市值增加,可以判斷國產(chǎn)芯片在2022年發(fā)展上行。
表3 國產(chǎn)芯片產(chǎn)業(yè)鏈預(yù)測結(jié)果準(zhǔn)確性驗證表
從兩個案例中可以看出每個產(chǎn)業(yè)都有其上中下游產(chǎn)業(yè),系統(tǒng)基于產(chǎn)業(yè)知識圖譜運用圖譜挖掘技術(shù)從中得到每個產(chǎn)業(yè)鏈中節(jié)點間存在的內(nèi)在聯(lián)系。此外,根據(jù)往年產(chǎn)業(yè)鏈拓?fù)鋱D中的圖特征信息、節(jié)點特征信息,運用機器學(xué)習(xí)預(yù)測算法實現(xiàn)對該年相關(guān)產(chǎn)業(yè)鏈信息的預(yù)測,如公司市值與市值收益風(fēng)險預(yù)測、公司發(fā)展評級,實現(xiàn)產(chǎn)業(yè)鏈分析功能。
案例中選取了兩個細分產(chǎn)業(yè)畜牧養(yǎng)殖、國產(chǎn)芯片制造和醫(yī)療服務(wù)。通過驗證,2022年兩條產(chǎn)業(yè)鏈?zhǔn)兄殿A(yù)測分析平均準(zhǔn)確率為75.24%。此外,考慮到產(chǎn)業(yè)發(fā)展受大環(huán)境影響較大,在評級預(yù)測中添加了決策樹算法。而通過對兩個案例的分析發(fā)現(xiàn),畜牧養(yǎng)殖受疫情大環(huán)境影響較大,產(chǎn)業(yè)鏈整體下行;國產(chǎn)芯片受國家政策扶持,整體平穩(wěn)發(fā)展;證明了產(chǎn)業(yè)鏈智能分析結(jié)果準(zhǔn)確性較好。