劉 斌(興業(yè)證券股份有限公司, 福州 350001)
基于大數(shù)據(jù)分析和復(fù)雜事件處理的金融信息服務(wù)平臺①
劉 斌
(興業(yè)證券股份有限公司, 福州 350001)
針對大數(shù)據(jù)時代下金融信息服務(wù)滯后性、片面性、同質(zhì)化的問題, 設(shè)計(jì)并實(shí)現(xiàn)了基于大數(shù)據(jù)分析和復(fù)雜事件處理的金融信息服務(wù)平臺. 該平臺采用多通道采集、淺層語義處理等技術(shù)實(shí)現(xiàn)多源數(shù)據(jù)的采集、抽取與清洗,采用面向金融領(lǐng)域特征的網(wǎng)絡(luò)觀點(diǎn)分析等技術(shù)進(jìn)行數(shù)據(jù)分析, 為證券投資者、投資顧問及機(jī)構(gòu)等三類用戶提供及時、精準(zhǔn)、個性化的金融信息服務(wù), 取得了良好的應(yīng)用成效.
大數(shù)據(jù)分析; 復(fù)雜事件處理; 情緒分析; 數(shù)據(jù)采集; 金融信息服務(wù)平臺
大數(shù)據(jù)時代的金融信息呈現(xiàn)海量、異構(gòu)等特點(diǎn),廣大投資者或金融信息的使用人員無所適從. 因此,對金融信息服務(wù)在及時性、精準(zhǔn)性、差異性等方面提出了更高的要求. 如:
① 金融信息的發(fā)布具有時間不確定、渠道多樣化、數(shù)量巨大等特點(diǎn), 投資研究人員花費(fèi)大量的時間在海量數(shù)據(jù)整理中, 無法專注于核心工作, 效率低下,希望有更高效的工具可以及時、系統(tǒng)地為其提供所關(guān)注方面的信息;
② 互聯(lián)網(wǎng)已經(jīng)成為機(jī)構(gòu)、上市公司以及投資者信息發(fā)布與獲取的重要渠道, 政策法規(guī)、公司公告、熱門事件、投資心得、自媒體等海量異構(gòu)數(shù)據(jù)以及各種噪聲信息使得傳統(tǒng)的人工模式已很難從中精確地獲取最有價值的信息; 市場的一體化使得信息與事件不再孤立, 而傳統(tǒng)金融信息服務(wù)只是向客戶提供客觀資訊或事件, 缺乏關(guān)聯(lián)性的分析, 造成價值丟失. 對于廣大的投資者來說, 數(shù)據(jù)的分析與處理專業(yè)性強(qiáng)、條件復(fù)雜、門檻高、成本大;
③ 互聯(lián)網(wǎng)的開放性與隨意性使得金融信息更趨向同質(zhì)化. 而投資者更關(guān)心的是與自身投資相關(guān)的金融信息、賬戶信息、資產(chǎn)變動等相對個性化的信息服務(wù);證券公司等機(jī)構(gòu)為了防止惡意及虛假的信息影響公司品牌形象, 防范輿論風(fēng)險(xiǎn)、市場風(fēng)險(xiǎn), 需要更實(shí)時更全面發(fā)現(xiàn)對機(jī)構(gòu)本身會產(chǎn)生影響的互聯(lián)網(wǎng)信息風(fēng)險(xiǎn)點(diǎn).
本文基于上述金融信息服務(wù)的新要求, 設(shè)計(jì)并實(shí)現(xiàn)了基于大數(shù)據(jù)分析和復(fù)雜事件處理的金融信息服務(wù)平臺, 同時還展開介紹了數(shù)據(jù)采集、抽取和分析等關(guān)鍵技術(shù), 并描述了系統(tǒng)的功能. 為三類用戶能提供精準(zhǔn)、及時、個性化的金融信息服務(wù), 取得了良好的應(yīng)用效果.
2.1 系統(tǒng)架構(gòu)設(shè)計(jì)
針對數(shù)據(jù)源多源異構(gòu)、信息服務(wù)實(shí)時個性化的需求, 新一代金融信息服務(wù)平臺架構(gòu)應(yīng)達(dá)到如下要求:數(shù)據(jù)源方面, 能準(zhǔn)確地獲取多源數(shù)據(jù), 并能對結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行清洗并統(tǒng)一存儲; 在分析方面, 既能對海量歷史數(shù)據(jù)進(jìn)行批處理, 也要能實(shí)時處理流數(shù)據(jù); 在信息發(fā)布方面, 能針對不同的用戶實(shí)現(xiàn)統(tǒng)一、標(biāo)準(zhǔn)、及時的個性化信息發(fā)布. 系統(tǒng)在架構(gòu)上主要從以下幾個方面進(jìn)行分析與設(shè)計(jì).
2.1.1 數(shù)據(jù)源方面
本平臺需要獲取的數(shù)據(jù)來源包含: 互聯(lián)網(wǎng)及社交媒體、金融資訊中心、客戶數(shù)據(jù)中心等. 互聯(lián)網(wǎng)數(shù)據(jù)主要涉及交易所、央行、證監(jiān)會、主流財(cái)經(jīng)網(wǎng)站等公告及新聞; 社交媒體包括微博、微信、股吧等; 金融資訊中心主要包括如個股行情、大盤指數(shù)、行業(yè)新聞、研究報(bào)告、公司信息、市場數(shù)據(jù)等; 客戶數(shù)據(jù)中心主要包含如客戶資料、持倉信息、交易流水、行為日志等.
2.1.2 信息處理方面
要實(shí)現(xiàn)對多數(shù)據(jù)源的采集、抽取和標(biāo)準(zhǔn)化, 并具備對多數(shù)據(jù)源協(xié)同分析的能力, 能從多個維度對海量異構(gòu)數(shù)據(jù)進(jìn)行實(shí)時處理分析. 要求本平臺具備有一個能實(shí)時處理信息的引擎, 實(shí)現(xiàn)對實(shí)時事件的處理, 提供有效的金融信息, 提升投資顧問和投資者及時準(zhǔn)確掌握和利用市場信息的能力;
為滿足投資者對金融信息差異性的需求, 要求平臺能對投資者進(jìn)行分類分析, 得到投資者的個性化需求, 才能針對性地投資者提供差異化的金融信息;
為提升數(shù)據(jù)價值, 滿足金融信息精準(zhǔn)性的需求,要求平臺能對多源數(shù)據(jù)進(jìn)行有效挖掘, 構(gòu)建數(shù)據(jù)的分析模型, 如熱點(diǎn)主題、投資者情緒指數(shù)、股市預(yù)測等投資者感興趣的模型, 獲取數(shù)據(jù)的有效價值, 提升金融信息質(zhì)量, 提升平臺服務(wù)水平等.
2.1.3 信息發(fā)布方面
為有效地將金融信息實(shí)時差異化地推送到投資者,需要本平臺能整合各信息發(fā)布終端, 打通各個渠道,實(shí)現(xiàn)金融信息的統(tǒng)一發(fā)布平臺, 為證券投資者及投資顧問提供全面及時的信息服務(wù).
通過以上對系統(tǒng)架構(gòu)的分析, 本文設(shè)計(jì)了基于大數(shù)據(jù)分析的金融信息服務(wù)平臺系統(tǒng)架構(gòu), 如圖1所示,主要包含數(shù)據(jù)獲取層、數(shù)據(jù)分析層和數(shù)據(jù)應(yīng)用層.
2.2 系統(tǒng)實(shí)現(xiàn)
基于對系統(tǒng)架構(gòu)的設(shè)計(jì)要求, 分別對系統(tǒng)的數(shù)據(jù)獲取層、數(shù)據(jù)分析層以及數(shù)據(jù)應(yīng)用層進(jìn)行實(shí)現(xiàn).
2.2.1 數(shù)據(jù)獲取層
數(shù)據(jù)獲取層負(fù)責(zé)多源異構(gòu)數(shù)據(jù)的快速獲取、清洗、存儲, 如圖2 所示. 通過“基于多通道技術(shù)”實(shí)現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)的分布式統(tǒng)一采集; 通過“基于淺層語義的網(wǎng)頁抽取技術(shù)”實(shí)現(xiàn)海量混雜數(shù)據(jù)的統(tǒng)一抽取與清洗;利用MySQL數(shù)據(jù)庫及HDFS分布式文件系統(tǒng)實(shí)現(xiàn)結(jié)構(gòu)化、非結(jié)構(gòu)化海量數(shù)據(jù)的存儲; 利用SolrCloud實(shí)現(xiàn)高效全文索引.
圖2 數(shù)據(jù)獲取
數(shù)據(jù)獲取包含傳統(tǒng)數(shù)據(jù)源和互聯(lián)網(wǎng)數(shù)據(jù)源的獲取.數(shù)據(jù)獲取是否正確直接影響后續(xù)的數(shù)據(jù)分析及應(yīng)用.因而, 針對傳統(tǒng)數(shù)據(jù)源, 主要為內(nèi)部數(shù)據(jù), 在采集過程中通過內(nèi)部數(shù)據(jù)校驗(yàn)機(jī)制對采集的數(shù)據(jù)結(jié)果進(jìn)行驗(yàn)證審核; 針對互聯(lián)網(wǎng)數(shù)據(jù)源, 主要為外部數(shù)據(jù), 通過定時監(jiān)控結(jié)合人工審核的機(jī)制對獲取到的數(shù)據(jù)進(jìn)行驗(yàn)證, 從而保證了內(nèi)外部數(shù)據(jù)獲取的準(zhǔn)確性.
2.2.1.1 傳統(tǒng)數(shù)據(jù)獲取
針對傳統(tǒng)數(shù)據(jù)源, 主要是金融資訊中心和客戶數(shù)據(jù)中心的內(nèi)部結(jié)構(gòu)化數(shù)據(jù), 采用傳統(tǒng)ETL工具, 從源端將數(shù)據(jù)采集到目標(biāo)數(shù)據(jù)庫中.
2.2.1.2 互聯(lián)網(wǎng)數(shù)據(jù)獲取
針對互聯(lián)網(wǎng)數(shù)據(jù)源, 采用如下三個模塊實(shí)現(xiàn)數(shù)據(jù)獲取:
1) 互聯(lián)網(wǎng)采集模塊
利用網(wǎng)頁采集工具, 針對指定的頁面和主題進(jìn)行采集, 并以網(wǎng)頁的形式下載到本地. 信息采集模塊是系統(tǒng)的基礎(chǔ)模塊, 所采集的網(wǎng)頁是后續(xù)模塊的輸入數(shù)據(jù). 采集模塊應(yīng)包括微博采集、門戶采集、公告采集,實(shí)現(xiàn)對微博數(shù)據(jù)、重要門戶網(wǎng)站數(shù)據(jù)以及公告新聞數(shù)據(jù)的采集.
2) 數(shù)據(jù)抽取模塊
對采集模塊得到的網(wǎng)頁進(jìn)行清洗預(yù)處理, 去除頁面結(jié)構(gòu)錯誤. 通過算法定位到抽取內(nèi)容的標(biāo)簽節(jié)點(diǎn),抽取出標(biāo)題、正文、時間等所需的信息, 將其存入數(shù)據(jù)庫并生成XML文件.
3) 索引模塊
對抽取得到的XML文件, 根據(jù)自定義的索引規(guī)則, 將XML文件信息進(jìn)行關(guān)鍵字提取, 設(shè)置標(biāo)簽, 然后將文件加入到索引庫中, 以供后續(xù)檢索與分析功能使用. 索引建立的過程, 類似于將數(shù)據(jù)進(jìn)行關(guān)鍵字提取, 設(shè)置標(biāo)簽, 在后續(xù)工作中, 可以通過這個標(biāo)簽進(jìn)行內(nèi)容過濾獲取期望數(shù)據(jù)的操作. 歸結(jié)起來大致的過程為: 獲取數(shù)據(jù)?設(shè)置建立索引規(guī)則?建立索引?寫入磁盤/內(nèi)存.
在互聯(lián)網(wǎng)數(shù)據(jù)獲取方面, 多源、異構(gòu)數(shù)據(jù)的統(tǒng)一采集、抽取與清洗是該環(huán)節(jié)的關(guān)鍵點(diǎn)和難點(diǎn), 本文采用“基于多通道主動采集技術(shù)”實(shí)現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)的分布式統(tǒng)一采集, 研發(fā)“基于淺層語義的網(wǎng)頁抽取技術(shù)”實(shí)現(xiàn)海量混雜數(shù)據(jù)的統(tǒng)一抽取與清洗.
2.2.1.3 基于多通道的主動采集技術(shù)該技術(shù)分為非常規(guī)采集和常規(guī)采集: 1) 非常規(guī)采集
非常規(guī)采集共分為四個部分: 任務(wù)分發(fā)器、Cookie生成器、主題與種子URL定制、非常規(guī)采集器, 如圖3.
圖3 非常規(guī)采集結(jié)構(gòu)圖
任務(wù)分發(fā)器負(fù)責(zé)將需要采集的頁面及其相關(guān)信息整合, 并根據(jù)優(yōu)先策略分發(fā)給微博采集器. Cookie生成器為后續(xù)的頁面下載模塊提供登錄Cookie, 是頁面下載模塊的基礎(chǔ). 為了簡化使用的復(fù)雜性, 該模塊主要應(yīng)用在系統(tǒng)部署時. 主題與種子URL定制模塊提供用戶設(shè)置采集目標(biāo)的界面, 采集目標(biāo)包括關(guān)鍵詞和用戶主頁的URL. 用戶可以通過Web用戶界面, 設(shè)置關(guān)鍵詞, 從而采集相關(guān)的內(nèi)容, 也可以設(shè)置URL采集目標(biāo)用戶發(fā)布的內(nèi)容. 關(guān)鍵詞與URL均存放于后臺數(shù)據(jù)庫中. 非常規(guī)采集器提供頁面下載功能. 可供設(shè)置的內(nèi)容包括采集間隔時間與每次采集并發(fā)線程數(shù), 根據(jù)不同媒介、以及貸款設(shè)置相對合適的采集間隔時間與并發(fā)線程數(shù). 主要面向系統(tǒng)部署人員, 以參數(shù)的形式輸入給程序. 程序?qū)⒁栽谙到y(tǒng)后臺運(yùn)行. 在終端運(yùn)行程序時輸入?yún)?shù), 包括: 輸出目錄、采集間隔時間、并發(fā)線程數(shù). 輸出目錄產(chǎn)生與關(guān)鍵詞和目標(biāo)用戶主頁的頁面文件.
2) 常規(guī)采集
常規(guī)采集主要是指靜態(tài)網(wǎng)頁數(shù)據(jù)采集, 主要由網(wǎng)頁采集模塊、鏈接抽取模塊和鏈接判重模塊三部分組成. 靜態(tài)網(wǎng)頁數(shù)據(jù)采集是從一個初始鏈接對應(yīng)的網(wǎng)頁開始采集該網(wǎng)頁的源代碼, 并且在保存網(wǎng)頁源代碼的同時, 不斷地從中抽取出新的鏈接. 程序重復(fù)上述過程, 直到滿足采集深度達(dá)到事先設(shè)定的值或者鏈接集合為空. 其系統(tǒng)流程圖如圖4所示.
網(wǎng)頁采集模塊實(shí)現(xiàn)獲取鏈接對應(yīng)網(wǎng)頁源代碼, 并將網(wǎng)頁源代碼保存到文件中. 鏈接抽取模塊抽取網(wǎng)頁源代碼中的鏈接和對應(yīng)的錨文本, 并保存鏈接和對應(yīng)的錨文本信息在指定文件中. 鏈接判重模塊可以初始化一個集合, 可以往集合中添加鏈接元素, 并判斷某個鏈接是否在集合中.
圖4 靜態(tài)網(wǎng)頁數(shù)據(jù)采集系統(tǒng)流程圖
2.2.1.4 基于淺層語義的網(wǎng)頁抽取技術(shù)
基于淺層語義的網(wǎng)頁抽取技術(shù)主要分為長文本網(wǎng)頁抽取和短文本抽取:
1) 長文本抽取
長文本網(wǎng)頁抽取主要由四個模塊組成, 如圖5所示.
圖5 長文本網(wǎng)頁抽取模塊圖
預(yù)處理模塊對網(wǎng)頁源碼預(yù)處理, 過濾掉噪聲標(biāo)簽節(jié)點(diǎn)并對網(wǎng)頁源碼中錯誤地方進(jìn)行修正, 如標(biāo)簽匹配錯誤等. 文本節(jié)點(diǎn)定位模塊根據(jù)預(yù)處理模塊提供的DOM樹結(jié)構(gòu), 通過計(jì)算節(jié)點(diǎn)文本密度, 在所述DOM樹中來定位正文區(qū)域. 文本節(jié)點(diǎn)抽取模塊根據(jù)文本節(jié)點(diǎn)定位模塊提供的正文標(biāo)簽節(jié)點(diǎn)按照先序遍歷DOM樹結(jié)構(gòu)中正文節(jié)點(diǎn)子樹, 抽取出遍歷過程中各節(jié)點(diǎn)的文本內(nèi)容. 輸出模塊用于檢查抽取的文本是否符合條件, 將抽取好的正文和屬性作為輸出項(xiàng)存儲到數(shù)據(jù)庫和文件中.
2) 短文本抽取
短文本抽取即為多記錄網(wǎng)頁抽取, 主要由四個部分組成, 如圖6所示.
圖6 多記錄網(wǎng)頁抽取模塊圖
預(yù)處理模塊提供抽取過程所需的DOM樹結(jié)構(gòu).記錄區(qū)域定位模塊根據(jù)預(yù)處理模塊提供的DOM樹結(jié)構(gòu)利用橫向?qū)哟畏治龇ㄔ贒OM樹中來定位記錄區(qū)域.記錄分隔符識別模塊根據(jù)記錄區(qū)域定位模塊提供的記錄子樹利用雙向搜索方法從記錄區(qū)域塊中找到記錄之間的分隔符并進(jìn)行存儲. 輸出模塊根據(jù)記錄區(qū)域定位模塊提供的記錄子樹和記錄分隔符識別模塊提供的分隔符先序遍歷記錄子樹并輸出到文件.
2.2.2 數(shù)據(jù)分析
數(shù)據(jù)獲取完畢后進(jìn)行數(shù)據(jù)分析工作, 數(shù)據(jù)分析層包含大數(shù)據(jù)分析部分和復(fù)雜事件處理部分, 主要負(fù)責(zé)海量數(shù)據(jù)批處理及實(shí)時流數(shù)據(jù)分析.
2.2.2.1 大數(shù)據(jù)分析
在大數(shù)據(jù)分析方面, 采用“融合用戶觀點(diǎn)和用戶行為的證券應(yīng)用技術(shù)”、“面向證券領(lǐng)域特征的網(wǎng)絡(luò)觀點(diǎn)分析技術(shù)”、“分/聚類技術(shù)”等主題分析、情緒分析以及投資者分析工作, 如圖7所示.
圖7 大數(shù)據(jù)分析
1) 主題分析
① 相關(guān)度分析: 根據(jù)用戶自定義的主題及主題關(guān)鍵字, 計(jì)算新聞與主題的相關(guān)度值, 并將相關(guān)度值高于閾值的新聞?wù)故境鰜? 提供給用戶瀏覽.
② 股市預(yù)測: 根據(jù)社交媒介情感分析量化結(jié)果,感知市場情緒, 并構(gòu)建股市預(yù)測模型, 預(yù)測股指判斷市場走勢.
③ 用戶行為特征分析: 在用戶登陸系統(tǒng)后, 通過對用戶顯式或隱式采集到的行為, 分析出用戶的行為特征, 并以此為依據(jù), 將用戶可能感興趣的證券信息推薦給用戶.
2) 情緒分析
① 投資者情緒分析: 根據(jù)互聯(lián)網(wǎng)以及行業(yè)數(shù)據(jù)構(gòu)建投資者情緒指數(shù)模型, 感知投資者情緒, 輔助投資決策.
② 社交媒介情感分析: 根據(jù)社交媒介用戶發(fā)表的內(nèi)容以及社交關(guān)系, 對用戶發(fā)表的內(nèi)容進(jìn)行情感分析, 得到社交媒介對某一類事物的觀點(diǎn)傾向.
③ 傾向性分析: 根據(jù)新聞與主題關(guān)鍵字, 判斷該主題下新聞的傾向性, 并分別置為-1(負(fù)面), 0(客觀), 1(正面).
3) 投資者分析
① 投資者細(xì)分: 獲取投資者的行為數(shù)據(jù)進(jìn)行分析, 建立投資者細(xì)分模型, 根據(jù)投資者的行為特征將投資者進(jìn)行劃分.
② 投資者流失預(yù)測: 監(jiān)測投資者的行為數(shù)據(jù), 建立投資者流失預(yù)測模型, 識別投資者流失傾向.
通過上述的主題分析、情緒分析、投資者分析, 整合互聯(lián)網(wǎng)數(shù)據(jù)以及內(nèi)部數(shù)據(jù), 挖掘數(shù)據(jù)的有用信息,從而將其推送給用戶或投資顧問.
在數(shù)據(jù)分析中, 證券領(lǐng)域的情感量化是情緒分析的關(guān)鍵點(diǎn). 本文采用基于異構(gòu)圖模型的證券情感量化技術(shù)用以解決情感量化問題.
首先對要進(jìn)行情感量化的文檔進(jìn)行預(yù)處理, 然后基于證券傾向性文檔以及證券情感詞構(gòu)建二分連接圖,計(jì)算證券情感詞的傾向性權(quán)重, 最后利用文檔的相關(guān)性得分以及傾向性得分根據(jù)概率模型計(jì)算文檔的情感得分. 該方法的核心關(guān)鍵是計(jì)算證券情感詞的權(quán)重,為了獲取證券領(lǐng)域的情感傾向, 在利用該方法進(jìn)行帖子的情感量化時, 所基于的傾向性文檔集采用了證券領(lǐng)域帶有傾向性的文檔. 證券情感量化具體過程按如下步驟進(jìn)行:
1) 預(yù)處理
對證券傾向性文檔進(jìn)行預(yù)處理, 包括去除標(biāo)點(diǎn)符號、網(wǎng)頁鏈接、表情符號、特殊符號等噪聲, 分詞, 去除停用詞.
2) 基于異構(gòu)圖的證券情感詞賦權(quán)
為了獲取證券領(lǐng)域特定情感詞的權(quán)重, 在如下構(gòu)建的二分連接圖中, 其傾向性文檔均采用帶有證券傾向性情感的文檔集合, 使用如下方法計(jì)算證券情感詞權(quán)重.
在由證券領(lǐng)域的傾向性文檔集和證券情感詞組成的二分連接圖, 如圖8所示.
圖8 傾向性文檔-傾向詞二分連接圖
根據(jù)式(1)和式(2)計(jì)算傾向性文檔和證券情感詞每步迭代的得分.
當(dāng)連續(xù)兩步迭代的情感詞得分和傾向性文檔得分誤差小于某一閥值, 迭代計(jì)算結(jié)束, 得到最終的每個情感詞得分即為每個證券情感詞的傾向性權(quán)重.
3) 情感量化
根據(jù)式(3)計(jì)算傾向性得分, 結(jié)合傾向性得分并根據(jù)式(4)計(jì)算最終的情感得分.
2.2.2.2 復(fù)雜事件處理
復(fù)雜事件處理主要負(fù)責(zé)實(shí)時事件流的處理及不同事件實(shí)時關(guān)聯(lián)分析. 主要包括: 事件輸入、事件處理及事件響應(yīng)三部分, 如圖9所示.
事件輸入來源包含大數(shù)據(jù)分析結(jié)果及實(shí)時數(shù)據(jù)流,數(shù)據(jù)覆蓋全面實(shí)時; 在事件處理部分, 研發(fā)可視化規(guī)則定義和基于EPL的事件模型定義,可以方便用戶自主定制事件模型及業(yè)務(wù)規(guī)則, 并利用熱切換技術(shù)實(shí)現(xiàn)模型在線發(fā)布; 在此基礎(chǔ)上, 根據(jù)業(yè)務(wù)需求研發(fā)針對客戶應(yīng)用及員工應(yīng)用的復(fù)雜事件處理模型集; 事件響應(yīng)部分負(fù)責(zé)將事件處理的結(jié)果通過輸出適配器應(yīng)用于客戶及員工系統(tǒng).
圖9 復(fù)雜事件處理
復(fù)雜事件處理的基礎(chǔ)就是事件間的關(guān)系. 其中,事件之間的偏序由因果關(guān)系、時間關(guān)系決定, 而一個事件對一個事件集合的總結(jié)、代表或指示關(guān)系則是組合關(guān)系. 本平臺通過實(shí)時復(fù)雜事件引擎的搭建和多輸入多輸出個性化服務(wù)模型的構(gòu)建實(shí)現(xiàn)復(fù)雜事件處理:
1) 實(shí)時復(fù)雜事件引擎的搭建
① 實(shí)現(xiàn)以事件驅(qū)動為核心的服務(wù)模式, 采用內(nèi)存處理技術(shù), 并通過索引化流事件查詢規(guī)則, 實(shí)現(xiàn)對實(shí)時流事件的高效分析;
② 結(jié)合企業(yè)服務(wù)總線實(shí)時事件發(fā)布(ADB)與復(fù)雜事件處理實(shí)現(xiàn)基于可變滑動窗口的靜態(tài)數(shù)據(jù)與實(shí)時事件關(guān)聯(lián)技術(shù)構(gòu)建海量靜態(tài)數(shù)據(jù)的實(shí)時維護(hù)解決方案,提升了海量靜態(tài)數(shù)據(jù)處理的實(shí)時性;
③ 通過自定義標(biāo)準(zhǔn)化底層事件處理協(xié)定, 實(shí)現(xiàn)了事件的過濾、判重與取消, 降低了事件流的復(fù)雜度,提升了核心處理模塊的處理效率.
2) 多輸入多輸出個性化服務(wù)模型的構(gòu)建
① 多源異構(gòu)事件構(gòu)成的復(fù)雜事件處理引擎的“多輸入”.
平臺通過事件適配層(IAF)對接EMS消息隊(duì)列接口, 訂閱不同來源實(shí)時發(fā)布的事件, 包含公司數(shù)據(jù)中心, 資訊中心, 以及大數(shù)據(jù)分析系統(tǒng)等. 目前系統(tǒng)定義的“多輸入”事件包含: 客戶特征數(shù)據(jù)(客戶關(guān)鍵時點(diǎn)事件、客戶風(fēng)險(xiǎn)偏好、客戶滿意度、客戶貢獻(xiàn)度等); 客戶行為數(shù)據(jù)(買賣流水、銀證轉(zhuǎn)賬流水、終端訪問日志);市場數(shù)據(jù)(實(shí)時行情特征數(shù)據(jù)、資訊數(shù)據(jù)等); 大數(shù)據(jù)分析結(jié)果(個股特征數(shù)據(jù)、市場熱點(diǎn), 市場情緒分析等等數(shù)據(jù)). 這些“多輸入”事件在復(fù)雜事件引擎中被定義為一個元事件及其流監(jiān)聽.
② 基于事件流關(guān)聯(lián)的復(fù)雜事件處理模型構(gòu)建.
在上述“多輸入”的元事件基礎(chǔ)上, 可根據(jù)客戶訂單, 業(yè)務(wù)分析等方式, 定義出有特定意義的復(fù)合事件監(jiān)聽模型.
2.2.3 數(shù)據(jù)應(yīng)用層
在數(shù)據(jù)應(yīng)用層, 通過企業(yè)服務(wù)總線(ESB)集成客戶信息、員工信息及統(tǒng)一消息服務(wù), 為客戶及員工提供全面及時的信息服務(wù), 如圖10所示.
圖10 數(shù)據(jù)應(yīng)用
秉承SOA理念與企業(yè)的整體IT規(guī)劃, 遵循統(tǒng)一標(biāo)準(zhǔn), 通過企業(yè)服務(wù)總線與各信息系統(tǒng)進(jìn)行松耦合整合. 各系統(tǒng)包括大數(shù)據(jù)挖掘分析產(chǎn)生的事件通過企業(yè)服務(wù)總線進(jìn)入復(fù)雜事件引擎, 經(jīng)事件處理模型產(chǎn)生的結(jié)果事件也是通過ESB提供給各應(yīng)用終端送達(dá)用戶.
平臺提供的數(shù)據(jù)應(yīng)用按照用戶角度分為兩類:
1) 客戶類: 包括PC終端、移動終端、中臺、網(wǎng)上商城、短信、郵件平臺等與客戶服務(wù)相關(guān)的終端系統(tǒng), 直接為終端客戶提供個性化的實(shí)時證券信息服務(wù);
2) 員工類: 包括投資顧問平臺、機(jī)構(gòu)CRM平臺、研究平臺等與員工工作平臺相關(guān)的終端系統(tǒng), 為員工進(jìn)行產(chǎn)品研究、市場分析、客戶服務(wù)等提供全面、及時、便捷的證券信息服務(wù).
3.1 系統(tǒng)主要功能
本平臺主要為三類客戶提供金融信息, 如表1所示, 主要包含市場研判、即時資訊、風(fēng)險(xiǎn)監(jiān)測、專題資訊、賬戶提醒、行情預(yù)警等六個方面的服務(wù)內(nèi)容.
表1 資訊服務(wù)內(nèi)容
為了保證金融信息服務(wù)的及時、精準(zhǔn)、差異化的要求, 在信息獲取方面, 在數(shù)據(jù)源分類分級的基礎(chǔ)上,通過系統(tǒng)自動處理和人工審核相結(jié)合的運(yùn)營機(jī)制保證信息的及時性和準(zhǔn)確性; 在分析方面, 基于大量的歷史數(shù)據(jù)采用有效的挖掘分析方法進(jìn)行訓(xùn)練, 在投資者分析模型、投資者情緒指數(shù)、股市預(yù)測模型等構(gòu)建方面在穩(wěn)定性及預(yù)測精度方面均有較大提升; 在信息推送方面, 基于復(fù)雜事件處理技術(shù), 結(jié)合投資者分析模型, 能夠?qū)崿F(xiàn)金融信息流的即時、個性化的推送.
本平臺支持多種渠道為投資者、投資顧問及機(jī)構(gòu)提供及時、個性化、精準(zhǔn)的金融信息服務(wù). 通過手機(jī)終端、微信公眾號等渠道為客戶提供個性化資訊服務(wù);通過投顧工作平臺、機(jī)構(gòu)CRM等員工工作平臺服務(wù)于公司投資顧問、資管產(chǎn)品經(jīng)理、機(jī)構(gòu)客戶經(jīng)理、行業(yè)研究員等, 有效提升員工的金融信息服務(wù)能力; 通過專題資訊分析, 服務(wù)公司董秘處、中高層領(lǐng)導(dǎo), 輔助公司管理決策, 維護(hù)品牌形象.
3.2 平臺特色及成效
金融信息服務(wù)平臺為解決互聯(lián)網(wǎng)數(shù)據(jù)因泛在分布、動態(tài)化、多樣化等特點(diǎn)而難以采集的問題, 研發(fā)了一套針對互聯(lián)網(wǎng)門戶、股吧、微博、微信等自媒體資訊的分布式統(tǒng)一采集平臺, 提高了采集精度. 為了實(shí)現(xiàn)在海量異構(gòu)數(shù)據(jù)中分析和提煉準(zhǔn)確有效的量化信息, 利用金融領(lǐng)域特征的網(wǎng)絡(luò)觀點(diǎn)分析、大數(shù)據(jù)文本挖掘等關(guān)鍵技術(shù), 提升挖掘精度及數(shù)據(jù)價值. 同時構(gòu)建實(shí)時個性化服務(wù)引擎提供實(shí)時差異化服務(wù), 開創(chuàng)金融信息服務(wù)的實(shí)時處理新模式.
本平臺在上述特點(diǎn)的支撐下提供及時、精準(zhǔn)、差異化的金融信息服務(wù), 從而有效提升投資者服務(wù)體驗(yàn)、提高員工專業(yè)服務(wù)能力、提升機(jī)構(gòu)用戶的公司信息管理水平, 應(yīng)用成效歸納如下:
① 差異化、高質(zhì)量的金融信息服務(wù)有效提升了投資者服務(wù)體驗(yàn).
本平臺利用個性化推薦技術(shù)將用戶感興趣的金融信息精準(zhǔn)地推送給用戶, 實(shí)現(xiàn)降低資訊服務(wù)通道成本的同時提升用戶體驗(yàn). 同時, 平臺通過綜合互聯(lián)網(wǎng)數(shù)據(jù)、市場交易數(shù)據(jù)、客戶數(shù)據(jù)等, 并基于大數(shù)據(jù)文本挖掘技術(shù)融合各類數(shù)據(jù)進(jìn)行分析, 提供諸如投資者情緒指數(shù)、股市趨勢預(yù)判等大數(shù)據(jù)投資者服務(wù)信息, 不僅豐富了金融信息服務(wù)的內(nèi)容, 同時提升了金融信息的質(zhì)量.
②專業(yè)化的金融信息服務(wù)平臺有效提高了員工專業(yè)服務(wù)能力.
本平臺通過市場研判(熱點(diǎn)話題、熱點(diǎn)個股、股市趨勢預(yù)判等)、即時資訊、風(fēng)險(xiǎn)監(jiān)測等服務(wù), 將重要資訊信息以及相關(guān)提醒信息推送給服務(wù)人員, 輔助服務(wù)人員將及時、全面的金融信息服務(wù)提供給客戶, 不僅有助于提升服務(wù)人員的專業(yè)服務(wù)能力, 同時也提升了投資者服務(wù)質(zhì)量, 為服務(wù)人員開展業(yè)務(wù)提供更有力的支持.
③ 專題資訊分析有助于提升機(jī)構(gòu)用戶的公司信息管理水平.
本平臺通過同業(yè)動態(tài)、重大事件跟蹤等專題資訊分析模塊, 能及時全面地為公司管理決策、機(jī)構(gòu)監(jiān)管分析等提供參考, 有效提升互聯(lián)網(wǎng)時代下公司及監(jiān)管部門等機(jī)構(gòu)的信息管理水平, 防范市場風(fēng)險(xiǎn), 提高管理決策能力.
綜上所述, 本金融信息服務(wù)平臺在資訊推送時效性上、內(nèi)容質(zhì)量上以及客戶服務(wù)體驗(yàn)上均取得了不錯的應(yīng)用成效, 在大數(shù)據(jù)時代的金融信息服務(wù)創(chuàng)新起到良好的示范作用, 具有較大的行業(yè)推廣價值.
本文立足于證券行業(yè)的金融信息服務(wù)需求, 實(shí)現(xiàn)了一個集多源異構(gòu)數(shù)據(jù)采集、分析、處理及發(fā)布全流程的金融信息服務(wù)平臺. 該平臺基于大數(shù)據(jù)建立了個性化的行業(yè)資訊推送、投資者情緒指數(shù)、股市預(yù)測等關(guān)鍵分析模型, 可為投資者提供更為精準(zhǔn)、個性化的金融信息服務(wù). 本文提出的平臺架構(gòu)及分析方法, 以證券投資信息服務(wù)為典型案例, 并取得較好的應(yīng)用效果, 這種架構(gòu)和分析方法還普遍適用于其他金融行業(yè)如銀行、保險(xiǎn)、基金等.
1 Donovan S. Big data. Nature, 2008, 455(7209): 1–136.
2 程學(xué)旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述.軟件學(xué)報(bào),2014,25(9):1889–1908.
3 Liao XW, Chen H, Wei JJ, et al. A weighted lexicon-based generative model for opinion retrieval. 2014 International Conference on Machine Learning and Cybernetics (ICMLC). IEEE. 2014, 2. 821–826.
Financial Information Service Platform Based on Big Data Analysis and Complex Event Processing
LIU Bin
(Industrial Securities Co. Ltd., Fuzhou 350001, China)
In view of the problems of lag, one-sided and homogeneous financial information service in big data era, this paper designs and implements a financial information service platform based on big data analysis and complex event processing. The multi-source data acquisition, extraction and cleaning are implemented by multi-channel data acquisition and shallow semantic processing technology on the platform. And the data is analyzed by the financial network sentiment analysis technology. The platform provides timely, accurate, personalized financial information services for securities investors, investment adviser and institutions and achieves good application results.
big data analysis; complex event processing; sentiment analysis; data acquisition; financial information service platform
2016-07-15;收到修改稿時間:2016-08-29
10.15888/j.cnki.csa.005706