郎書旭 張孝臨 畢宏剛 姜山紅 彭觀偉
(1.遼寧科技大學(xué)計算機與軟件工程學(xué)院,遼寧 鞍山 114051;2.鞍鋼集團礦業(yè)有限公司,遼寧 鞍山 114000)
AK公司(以下簡稱“公司”)是某國有大型鋼鐵集團的全資子公司,是我國掌控鐵礦石資源多、產(chǎn)量規(guī)模大、具有先進工藝技術(shù)、具有完整產(chǎn)業(yè)鏈的冶金礦山龍頭企業(yè)之一。近幾年來,該公司展開了大數(shù)據(jù)工程應(yīng)用及相應(yīng)改革措施。
AK公司經(jīng)過多年的信息化建設(shè),數(shù)據(jù)成爆炸式的增長,各種數(shù)據(jù)服務(wù)需求不斷涌現(xiàn)。雖然傳統(tǒng)信息系統(tǒng)在飛速建設(shè),但公司內(nèi)各系統(tǒng)和數(shù)據(jù)庫大多是獨立采購或者獨立建設(shè)的,新舊 IT 系統(tǒng)中沉淀的數(shù)據(jù)之間難以打通,導(dǎo)致公司內(nèi)形成“數(shù)據(jù)孤島”“數(shù)據(jù)煙囪”式系統(tǒng)高達200余個,系統(tǒng)分散割裂且不易形成可共享的數(shù)據(jù)服務(wù),在一定程度上已成為公司在數(shù)據(jù)化轉(zhuǎn)型過程中的一個制約。公司通過對以前采集的大量數(shù)據(jù)分析診斷,發(fā)現(xiàn)在數(shù)據(jù)生成、處理加工、運行維護和利用過程中存在不少問題。隨著公司的數(shù)據(jù)平臺及數(shù)據(jù)日益龐大復(fù)雜,數(shù)據(jù)環(huán)境對數(shù)據(jù)系統(tǒng)運行維護、數(shù)據(jù)開發(fā)帶來新的挑戰(zhàn)。
數(shù)據(jù)治理包括由企業(yè)數(shù)字化轉(zhuǎn)型創(chuàng)新方式指導(dǎo)并且由企業(yè)數(shù)據(jù)治理部門發(fā)起并推行關(guān)于如何制定、實施和完善針對整個企業(yè)內(nèi)部數(shù)據(jù)的商業(yè)應(yīng)用和數(shù)據(jù)技術(shù)創(chuàng)新的一整套政策措施。公司制定了相應(yīng)的數(shù)據(jù)治理發(fā)展戰(zhàn)略,發(fā)展戰(zhàn)略分為數(shù)據(jù)應(yīng)用管理、數(shù)據(jù)管理、數(shù)據(jù)管控,步驟缺一不可。圖1為AK公司大數(shù)據(jù)工程的發(fā)展戰(zhàn)略圖。
圖1 AK公司大數(shù)據(jù)工程發(fā)展戰(zhàn)略圖
大數(shù)據(jù)開發(fā)管控平臺是構(gòu)建一站式的數(shù)據(jù)集成、數(shù)據(jù)開發(fā)、數(shù)據(jù)調(diào)度、數(shù)據(jù)運維的平臺,滿足大數(shù)據(jù)集中管理、隔離開發(fā)的要求,為數(shù)據(jù)開發(fā)提供豐富多樣的工具和工具可視化的能力,助力企業(yè)需求進行快速更新和迭代,提升開發(fā)效率,推進企業(yè)應(yīng)用數(shù)據(jù)驅(qū)動業(yè)務(wù)增長進程。企業(yè)大數(shù)據(jù)工程建設(shè)的過程離不開軟件平臺的支持,對此,公司應(yīng)用了STQ軟件系統(tǒng)。
STQ軟件系統(tǒng)具有強大的數(shù)據(jù)整合能力。STQ軟件系統(tǒng)具備多集群任務(wù)開發(fā)、統(tǒng)一調(diào)度、分布式運行的能力。STQ軟件平臺可以對接多個集群,進行任務(wù)開發(fā)、統(tǒng)一調(diào)度、分布式運行。由于公司“數(shù)據(jù)孤島”“數(shù)據(jù)煙囪”式系統(tǒng)高達200余個,開發(fā)STQ軟件系統(tǒng)需要將之前的數(shù)據(jù)標(biāo)準(zhǔn)化。在算法創(chuàng)新方面,應(yīng)用圖計算算法,以圖表達、圖存儲和圖分析的方式,在用戶觸達領(lǐng)域優(yōu)化了目錄式的數(shù)據(jù)資產(chǎn)管理方法,帶來語義化、關(guān)聯(lián)化、實時化和智能化多方面的優(yōu)勢。
(1)“盤”
“盤”——有什么數(shù)據(jù),在哪里,有什么問題。在這個階段公司通過數(shù)據(jù)資產(chǎn)整合和盤點,構(gòu)建電子數(shù)據(jù)資產(chǎn)目錄,為數(shù)據(jù)服務(wù)使用建立良好基礎(chǔ)。
公司開發(fā)出提供數(shù)據(jù)資產(chǎn)掃描嗅探技術(shù),智能化識別關(guān)系型數(shù)據(jù)庫、大數(shù)據(jù)等數(shù)據(jù)資產(chǎn)信息。提供數(shù)據(jù)資產(chǎn)維護管理和公司數(shù)據(jù)資產(chǎn)目錄能力,配合數(shù)據(jù)資產(chǎn)查詢檢索、數(shù)據(jù)資產(chǎn)展示功能。該技術(shù)支持常見關(guān)系型數(shù)據(jù)庫、MPP數(shù)據(jù)庫,分布式數(shù)據(jù)平臺的元數(shù)據(jù)采集。由于需要采集的數(shù)據(jù)過于龐大,所以采用元數(shù)據(jù)(Metadata)作為本系統(tǒng)的數(shù)據(jù)基礎(chǔ),元數(shù)據(jù)也是數(shù)據(jù)治理的重要采集和管理對象。
公司定期采集數(shù)據(jù)資產(chǎn)分布、數(shù)據(jù)存儲情況、數(shù)據(jù)總?cè)萘?、?shù)據(jù)資產(chǎn)數(shù)目等信息,提供以圖表形式呈現(xiàn)數(shù)據(jù)資產(chǎn)的分布覆蓋范圍,從數(shù)據(jù)存儲位置、數(shù)據(jù)總?cè)萘?、?shù)據(jù)資產(chǎn)數(shù)目、變化趨勢角度進行呈現(xiàn),方便數(shù)據(jù)管理人員了解數(shù)據(jù)存儲情況以及變化趨勢,為數(shù)據(jù)資產(chǎn)運營提供支撐和輔助。
(2)“規(guī)”
“規(guī)”——確定數(shù)據(jù)標(biāo)準(zhǔn)規(guī)則以及目標(biāo)。數(shù)據(jù)標(biāo)準(zhǔn)化的過程是為了規(guī)范系統(tǒng)建設(shè)的過程中,本公司人員對業(yè)務(wù)的統(tǒng)一理解,增強業(yè)務(wù)部門、技術(shù)部門等對數(shù)據(jù)的定義的標(biāo)準(zhǔn)化和使用數(shù)據(jù)的一致性標(biāo)準(zhǔn)化,進而增強數(shù)據(jù)的易懂性和可傳遞性。
(3)“用”
“用”——基于數(shù)據(jù)價值,提供場景化應(yīng)用支撐。為了提升數(shù)據(jù)的價值和場景化的考慮STQ軟件系統(tǒng)是基于區(qū)塊鏈開發(fā),系統(tǒng)具有數(shù)據(jù)安全服務(wù)機制,數(shù)據(jù)供需求雙方依托區(qū)塊鏈技術(shù),憑借數(shù)據(jù)監(jiān)管方頒發(fā)的可信證書完成數(shù)據(jù)交互任務(wù)。系統(tǒng)加入了數(shù)據(jù)共享與交易網(wǎng)絡(luò),更加提升了系統(tǒng)的安全性。數(shù)據(jù)消費方需要從區(qū)塊鏈中獲取數(shù)據(jù)提供方發(fā)布的數(shù)據(jù)資產(chǎn)信息,數(shù)據(jù)消費方需要選擇需要獲取的數(shù)據(jù)信息發(fā)起數(shù)據(jù)授權(quán)請求,等待批復(fù)結(jié)果。數(shù)據(jù)消費方拿到批復(fù)結(jié)果,發(fā)起數(shù)據(jù)訪問,數(shù)據(jù)訪問經(jīng)代理發(fā)送到數(shù)據(jù)提供方的訪問代理,請求認證通過,則可以訪問大數(shù)據(jù)中心數(shù)據(jù)?;趨^(qū)塊鏈無痕水印實現(xiàn)數(shù)據(jù)溯源。數(shù)據(jù)生產(chǎn)加工和消費使用過程中,接觸的人員多,不乏有人利用職務(wù)之便或者保管不善,有意無意將數(shù)據(jù)泄露,公司通過區(qū)塊鏈無痕水印技術(shù),實現(xiàn)泄露數(shù)據(jù)的反向追溯,發(fā)現(xiàn)泄露人員及泄露點,及時進行補救。
(4)“治”
“治”——找到差距,針對性進行治理。公司關(guān)注數(shù)據(jù)質(zhì)量,確保數(shù)據(jù)價值?!爸巍钡木唧w過程是STQ軟件系統(tǒng)提供數(shù)據(jù)治理管理能力,STQ軟件系統(tǒng)支持稽核規(guī)則管理、數(shù)據(jù)治理稽核調(diào)度、稽核預(yù)警及數(shù)據(jù)治理報告?;颂峁┓?wù)能力,方便和現(xiàn)有ETL平臺進行整合;支持數(shù)據(jù)一致性、完整性、及時性、波動性等檢查。STQ軟件系統(tǒng)提供數(shù)據(jù)血緣自動化采集能力,支持通過數(shù)據(jù)庫運行日志、數(shù)據(jù)庫執(zhí)行腳本、ETL工具進行數(shù)據(jù)血緣影響自動化采集,系統(tǒng)具備自動識別分表的邏輯的功能,提升元數(shù)據(jù)血緣影響關(guān)系采集的自動化程度,降低數(shù)據(jù)治理難度。支持數(shù)據(jù)加工血緣影響關(guān)系、任務(wù)依賴關(guān)系、任務(wù)模型依賴關(guān)系的采集;提供可視化分析能力,方便運維人員進行問題分析和故障定位。
系統(tǒng)構(gòu)建公司數(shù)據(jù)資產(chǎn)知識庫,提供數(shù)據(jù)資產(chǎn)檢索能力,提供按照關(guān)鍵字、分類查詢檢索能力,支持模型、指標(biāo)、維度、任務(wù)資產(chǎn)的綜合展示,方便數(shù)據(jù)運維管理人員、數(shù)據(jù)消費人員進行數(shù)據(jù)資產(chǎn)的探索為了方便價值評估。STQ軟件系統(tǒng)可以自動化采集數(shù)據(jù)庫執(zhí)行日志、業(yè)務(wù)系統(tǒng)數(shù)據(jù)訪問日志、元數(shù)據(jù)訪問情況、數(shù)據(jù)授權(quán)情況、數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù),對以上數(shù)據(jù)進行綜合評估,形成公司數(shù)據(jù)資產(chǎn)價值,提供數(shù)據(jù)價值綜合分析能力,為數(shù)據(jù)運維、數(shù)據(jù)下線提供支撐。
公司通過大數(shù)據(jù)應(yīng)用實踐與數(shù)據(jù)化轉(zhuǎn)型,現(xiàn)階段公司能及時診斷發(fā)現(xiàn)數(shù)據(jù)生產(chǎn)、產(chǎn)品處理加工、系統(tǒng)的運維和數(shù)據(jù)利用過程中存在的問題,針對問題及時分析因地制宜地提供合理的解決方法、手段以及工具。公司合理的使用大數(shù)據(jù),已經(jīng)能夠解決數(shù)生產(chǎn)使用過程中普遍存在數(shù)據(jù)質(zhì)量、數(shù)據(jù)一致性和數(shù)據(jù)性能等問題,實現(xiàn)數(shù)據(jù)存儲合理,解決數(shù)據(jù)生產(chǎn)過程受控的問題,提升產(chǎn)品質(zhì)量。公司根據(jù)企業(yè)發(fā)展需要,積極適應(yīng)大數(shù)據(jù)時代要求,公司的數(shù)據(jù)化轉(zhuǎn)型取得了初步成效。