19年歷史累積、28TB數(shù)據(jù)容量、每天超過1000萬筆交易記錄……上海證券交易所通過數(shù)據(jù)倉庫項目將海量數(shù)據(jù)轉(zhuǎn)化為靈活流動的財富。
2008年底,上海證券交易所數(shù)據(jù)倉庫三期項目完成,這標(biāo)志著國內(nèi)首個數(shù)據(jù)倉庫的生產(chǎn)和災(zāi)備的主從雙系統(tǒng)建成。從2002年開始,在歷時6年、總共3期的數(shù)據(jù)倉庫建設(shè)過程中,上交所成為Teradata在亞太地區(qū)規(guī)模最大、最復(fù)雜、技術(shù)集成度最高的數(shù)據(jù)倉庫系統(tǒng),還創(chuàng)造了數(shù)項國內(nèi)金融機構(gòu)之最:最早實現(xiàn)差異化存儲;使用數(shù)據(jù)挖掘技術(shù)最多;基層員工使用數(shù)據(jù)倉庫比率最高;以數(shù)據(jù)支持業(yè)務(wù)創(chuàng)新最徹底。
上交所的數(shù)據(jù)倉庫之路開始于2002年的數(shù)據(jù)存儲項目。通過那次對歷史交易數(shù)據(jù)進行清洗和錄入,上交所12年的歷史數(shù)據(jù)(包括光盤介質(zhì)甚至紙質(zhì))全部實現(xiàn)了在線存儲;2003年,上交所完成了以全所級基礎(chǔ)數(shù)據(jù)平臺為主的操作性數(shù)據(jù)存儲系統(tǒng)(ODS)的一期工程,為上交所15個業(yè)務(wù)部門提供了200多項應(yīng)用;2005年12月,完成以應(yīng)用分析系統(tǒng)建設(shè)和完善數(shù)據(jù)倉庫管理為目標(biāo)的二期多維數(shù)據(jù)存儲系統(tǒng)(DDS)。
如今經(jīng)過三期的建設(shè)和使用,上交所數(shù)據(jù)倉庫的系統(tǒng)性能、運行水平得到極大提升,單一系統(tǒng)發(fā)生故障,上交所12個部門250位用戶仍可通過災(zāi)備系統(tǒng)正常訪問600多個應(yīng)用,同時保證對外的數(shù)據(jù)文件輸出服務(wù)。此外,在處理性能上,主系統(tǒng)比原先的平臺快57%,從系統(tǒng)比原來快49%,而且面對各種模擬的故障問題,系統(tǒng)可以在30分鐘內(nèi)完成切換,并能夠確保數(shù)據(jù)比較、同步檢驗,保障主從系統(tǒng)的數(shù)據(jù)一致性。
遭遇牛市
從2006年開始,隨著股票行情的不斷高漲,交易量的增長速度也越來越驚人——2007年上交所每天平均要處理1000萬筆以上的交易申報,最多的時候超過2500萬筆。這促使上交所考慮對現(xiàn)有的數(shù)據(jù)倉庫進行深層次改造?!笆紫鹊墓ぷ骶褪菙U容,但不是機械堆砌式擴容,而是對相關(guān)數(shù)據(jù)進行差異化存儲?!鄙虾WC券交易所總經(jīng)理助理、總工程師白碩提出數(shù)據(jù)要按照應(yīng)用的“熱度”加以區(qū)分,越被應(yīng)用頻繁調(diào)用數(shù)據(jù)的“溫度”越高。在差異化存儲的思想指導(dǎo)下,上交所對歷史明細(xì)數(shù)據(jù)和近期匯總數(shù)據(jù)采用不同的冗余策略和不同的匯總粒度,充分利用現(xiàn)有設(shè)備了,保護了系統(tǒng)的投資。上交所還根據(jù)歷史經(jīng)驗建立了獨特的容量預(yù)警模型,一旦數(shù)據(jù)容量逼近使用存儲空間安全限度,就會自動觸發(fā)擴容機制。
2007年元旦過后的第一個交易日,上交所遭遇了,“前所未有的牛市”:滬指跳空高開,成交金額和指數(shù)點位都創(chuàng)出新的歷史紀(jì)錄。這對投資者是喜笑顏開的好事情,卻讓上交所信息中心團隊捏了一把冷汗,雖然在熊市期間也對交易系統(tǒng)的軟、硬件進行過調(diào)試準(zhǔn)備,但這種井噴行情還是出乎所有人的預(yù)料。盤中休息的時候,上交所信息中心主任蔣建人的面前擺著兩難問題:下午的交易量說不定會突破系統(tǒng)的承載能力;但運營高峰時間做系統(tǒng)更改同樣存在很大風(fēng)險,數(shù)據(jù)倉庫能否給出臺理的決策支持建議?通過對歷史數(shù)據(jù)中申報成交筆數(shù)的時段比例進行測算,證明當(dāng)天的系統(tǒng)設(shè)置在理論上完全能夠支持下午的行情?!爱?dāng)天真的就撐下來了,除了經(jīng)驗之外,數(shù)據(jù)在這里面也起了很大的作用。”
除了日常運維,數(shù)據(jù)倉庫在創(chuàng)新、監(jiān)管、經(jīng)營和服務(wù)方面都展示了自身的“魅力”。在權(quán)證、交易所交易基金(ETF)、融資融券以及新交易系統(tǒng)設(shè)計初期的參數(shù)模擬中,數(shù)據(jù)倉庫對創(chuàng)新的支持無處不在。“比方說融資融券業(yè)務(wù),究竟什么條件的證券可以成為擔(dān)保品?這就需要使用數(shù)據(jù)倉庫進行篩選,幫助業(yè)務(wù)人員測算產(chǎn)品推出后,風(fēng)險和收益各會在什么地方?!绷硗猓笮》墙饨?、上市公司財務(wù)虛假性判斷等高端的應(yīng)用也都依托于數(shù)據(jù)倉庫和挖掘平臺。
白碩認(rèn)為,交易所作為一個特殊職能的金融機構(gòu),一方面要對市場運行進行監(jiān)管;另一方面為了確保市場運行,要向投資者提供服務(wù)和信息。上交所的日常監(jiān)管分為兩部分,一是將當(dāng)天的實時數(shù)據(jù)與經(jīng)過數(shù)據(jù)倉庫處理的歷史數(shù)據(jù)進行比對、跟蹤和分析;還有就是在司法機關(guān)立案、稽查的過程中,數(shù)據(jù)倉庫可以真實再現(xiàn)反映當(dāng)時交易狀況的最原始的第一手?jǐn)?shù)據(jù)。針對大牛市中涌入的大批散戶,對其進行投資者教育成為證券行業(yè)日漸關(guān)注的話題。上交所通過對投資者年齡、收入與交易行為的相關(guān)性分析,全面把握了整個市場的投資者總體狀況,為有針對性地對投資者進行疏導(dǎo)和教育提供了堅實的數(shù)據(jù)基礎(chǔ)。
打造一流證交所
作為我國成立最早、規(guī)模最大的證券交易所,上交所從2000年起就提出了構(gòu)建國際一流交易所的發(fā)展目標(biāo),并開始著手規(guī)劃新一代交易系統(tǒng)。
“我們有世界上規(guī)模最大的投資者群體,這是優(yōu)勢但也給技術(shù)系統(tǒng)帶來很大壓力。因為散戶的每筆訂單的面值雖然不大,但任何一筆訂單對前臺交易系統(tǒng)、后臺數(shù)據(jù)倉庫系統(tǒng)的資源消耗都是一樣的?!卑状T認(rèn)為,正是本世紀(jì)初上交所放眼全球聘請包括麥肯錫、第一波士頓、路透咨詢等在內(nèi)的多家頂尖咨詢公司進行戰(zhàn)略咨詢,上交所最終得以確立了一個全面的。面向國際一流交易所的整體發(fā)展戰(zhàn)略規(guī)劃。作為當(dāng)年整體戰(zhàn)略的一部分,信息技術(shù)發(fā)展規(guī)劃的主要項目包括網(wǎng)站、信息公司、數(shù)據(jù)倉庫、指數(shù)公司以及新的交易系統(tǒng),而且多年來也基本在按照這個規(guī)劃的方案執(zhí)行。
在路透公司的建議下,上交所決定采用當(dāng)時還很新鮮的XBRL(可擴展的商業(yè)報告語言)來統(tǒng)一上交所的信息披露數(shù)據(jù)格式。這是一種基于互聯(lián)網(wǎng)的數(shù)據(jù)標(biāo)準(zhǔn),可以方便地轉(zhuǎn)化成常用的各種書面文字,如PDF、HTML格式。當(dāng)時,xBRL剛剛在國際上嶄露頭角并在海外會計師事務(wù)所、咨詢公司、交易所、政府機關(guān)等機構(gòu)中應(yīng)用?!昂蛿?shù)據(jù)庫不同的是,XBRL可以支持中文檢索功能,這些中文檢索功能集成在數(shù)據(jù)倉庫里,也是我們的一大特色?!弊尠状T驕傲的是,上交所在XBRL方面進行的受到國際同行高度認(rèn)可的應(yīng)用實踐,如今已經(jīng)受到國內(nèi)許多行業(yè)高度重視和關(guān)注。
在數(shù)據(jù)倉庫三期即將建成之時,上交所對數(shù)據(jù)倉庫投入和信息經(jīng)營成果產(chǎn)出比進行了計算,得到的投資回報非常令人滿意。
在未來的設(shè)計藍(lán)圖中,上交所新建成的EAI消息總線與數(shù)據(jù)流處理技術(shù)、實時數(shù)據(jù)倉庫技術(shù)(ADW Active DataWarehouse)等相結(jié)合,可以實現(xiàn)行情、交易、成交等實時市場數(shù)據(jù)的實時加載和多個實時統(tǒng)計數(shù)據(jù)流的按需分發(fā)、推送。這意味5著上交所對實時市場數(shù)據(jù)的綜合利用會提升到一個新的高度,也為信息服務(wù)產(chǎn)品的創(chuàng)新提供了嶄新的技術(shù)手段?!斑@樣一個臺階一個臺階地走過來,也是蠻刺激的?!卑状T說。