謝慶慶
一、引言
信息化時代各類企業(yè)、單位日常運作都已離不開信息系統(tǒng)的支撐,尤其是大型企業(yè)對信息化的依賴程度越來越明顯。企業(yè)在信息化建設(shè)初期,有限的投入就能夠快速看到應(yīng)用成效,但是當(dāng)企業(yè)信息化發(fā)展到一定程度,大型信息系統(tǒng)比較多、信息化程度比較高的時候,往往會出現(xiàn)企業(yè)信息系統(tǒng)建設(shè)和運維負擔(dān)越來越重的現(xiàn)象,開發(fā)、運維效率會明顯下降,尤其是在人員發(fā)生變動和系統(tǒng)更新?lián)Q代時表現(xiàn)得尤為明顯,知識流失風(fēng)險大大增加。這其中有一個重要原因就是缺乏全面、準(zhǔn)確的元數(shù)據(jù),技術(shù)人員缺少有效的參考資料去理解系統(tǒng)和數(shù)據(jù),只能通過講解去理解數(shù)據(jù)和業(yè)務(wù),而講解過程又容易有遺漏和偏差。
由于元數(shù)據(jù)屬于系統(tǒng)底層技術(shù)數(shù)據(jù),不像系統(tǒng)功能直接面向終端用戶,使用頻率也相對較低,所以技術(shù)人員在系統(tǒng)建設(shè)和運維過程中沒有將它放在重要位置,也沒有為之投入相應(yīng)的工作量,往往會忽略對元數(shù)據(jù)的記錄、更新、管理、維護、應(yīng)用,當(dāng)關(guān)鍵時刻需要使用的時候才發(fā)現(xiàn)很不完善。在大數(shù)據(jù)時代,深度利用數(shù)據(jù)已經(jīng)是大勢所趨,但是在利用過程中才發(fā)現(xiàn)關(guān)于數(shù)據(jù)的許多問題,尤其是在金融行業(yè),所以數(shù)據(jù)治理成為當(dāng)前的一大熱門話題,其中就包括元數(shù)據(jù)管理。本文從管理和技術(shù)兩個方面去探索如何在信息化建設(shè)中有效實施元數(shù)據(jù)管理。
二、元數(shù)據(jù)定義及作用
元數(shù)據(jù)(Metadata)為描述數(shù)據(jù)的數(shù)據(jù)(data about data),是關(guān)于數(shù)據(jù)的組織、數(shù)據(jù)域及其關(guān)系的信息,是理解系統(tǒng)和數(shù)據(jù)的重要參考資料,可以說所有描述系統(tǒng)的數(shù)據(jù)都屬于元數(shù)據(jù)范疇,如需求文檔、設(shè)計文檔、操作手冊、數(shù)據(jù)庫設(shè)計文檔、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)字典等等。元數(shù)據(jù)從內(nèi)容或面向用戶的角度可以分為業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù),從記錄形式上又可以分為結(jié)構(gòu)化元數(shù)據(jù)和非結(jié)構(gòu)化元數(shù)據(jù)。
元數(shù)據(jù)的主要作用是描述系統(tǒng),元數(shù)據(jù)可以幫助技術(shù)人員和業(yè)務(wù)人員全面、準(zhǔn)確地理解系統(tǒng)和數(shù)據(jù)。換句話說,如果沒有元數(shù)據(jù),組織IT系統(tǒng)中收集和存儲的所有數(shù)據(jù)都會失去意義,也就沒有業(yè)務(wù)價值。最基礎(chǔ)的管理是管理元數(shù)據(jù)的收集、組織和維護,技術(shù)型元數(shù)據(jù)的應(yīng)用對主數(shù)據(jù)管理和數(shù)據(jù)治理項目的成功至關(guān)重要。
三、元數(shù)據(jù)管理方法研究
元數(shù)據(jù)管理是語義工具,其重要性在于它能夠為組織建立一套數(shù)據(jù)資料庫,存儲組織范圍內(nèi)的數(shù)據(jù)定義、負責(zé)人、來源、轉(zhuǎn)換關(guān)系、目標(biāo)、依賴關(guān)系、安全權(quán)限等。這些信息對于業(yè)務(wù)整合、數(shù)據(jù)質(zhì)量、可審計性等數(shù)據(jù)治理目標(biāo)的實現(xiàn)至關(guān)重要。
元數(shù)據(jù)管理就是將分散在眾多業(yè)務(wù)系統(tǒng)中各類描述性數(shù)據(jù)進行歸集和整理,納入到統(tǒng)一管理平臺,保證信息全面、準(zhǔn)確,為組織中的技術(shù)和業(yè)務(wù)人員提供幫助,包括數(shù)據(jù)元素和實體的定義,業(yè)務(wù)規(guī)則和算法以及數(shù)據(jù)特征的描述。在明確了元數(shù)據(jù)管理內(nèi)容和要求后,企業(yè)可以根據(jù)需要選擇合適的業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)管理工具,并制定相應(yīng)的管理制度進行全面的元數(shù)據(jù)管理。元數(shù)據(jù)管理涉及系統(tǒng)廣、種類多、變化頻繁等因素,需要管理措施和技術(shù)手段相互結(jié)合才能有效推動,取得成效。
(一) 管理措施
1. 提高思想意識,重視元數(shù)據(jù)管理
目前IT組織中元數(shù)據(jù)沒有管理好,無法充分支持技術(shù)和業(yè)務(wù)人員工作,沒有發(fā)揮出重要作用的根本原因是組織對元數(shù)據(jù)管理的重視程度不夠。現(xiàn)在企業(yè)信息化部門對元數(shù)據(jù)的概念并不陌生,也認可其重要作用,但是由于經(jīng)費、人員以及元數(shù)據(jù)本身面向內(nèi)部人員而非終端用戶的性質(zhì),導(dǎo)致組織并沒有將它提升到重要地位,只有在關(guān)鍵時刻才會意識到元數(shù)據(jù)的重要性,在數(shù)據(jù)治理迫不得已的情況下才會實施元數(shù)據(jù)項目。
2. 技術(shù)部門主導(dǎo),推動元數(shù)據(jù)建設(shè)
元數(shù)據(jù)在整個信息化環(huán)境中處于底層基礎(chǔ)位置,元數(shù)據(jù)管理不同于日常業(yè)務(wù)管理活動,它屬于技術(shù)活動,開發(fā)、維護和管理需要技術(shù)人員完成,因此需要組織中的IT技術(shù)部門站在全局角度去統(tǒng)籌規(guī)劃,通過制定相應(yīng)的管理辦法、流程規(guī)范去推動元數(shù)據(jù)項目建設(shè)。首先要定義元數(shù)據(jù)應(yīng)該包含的內(nèi)容以及合規(guī)要求;其次制定元數(shù)據(jù)產(chǎn)生、采集、變更、維護、使用、下線存檔全生命周期中涉及的工作內(nèi)容及人員職責(zé)。
3. 制定管理規(guī)范,明確工作要求
元數(shù)據(jù)的有效管理、利用離不開規(guī)范的約束,配套的規(guī)范制度應(yīng)該隨著元數(shù)據(jù)管理平臺的建設(shè)同步制定。管理規(guī)范主要包括貫穿于元數(shù)據(jù)整個生命周期的具體要求和注意事項,具體有:①元數(shù)據(jù)在信息系統(tǒng)建設(shè)過程中產(chǎn)生,杜絕事后補充的現(xiàn)象,而且元數(shù)據(jù)要準(zhǔn)確、全面,符合技術(shù)規(guī)范,需要技術(shù)人員審核確認;②系統(tǒng)的功能、數(shù)據(jù)結(jié)構(gòu)等發(fā)生變更的時候要及時維護相應(yīng)的元數(shù)據(jù),保證元數(shù)據(jù)與系統(tǒng)的一致性,同時能夠保留元數(shù)據(jù)的歷史版本;③系統(tǒng)開發(fā)、維護、使用過程中,相關(guān)人員要充分參照元數(shù)據(jù),避免業(yè)務(wù)活動與實際系統(tǒng)脫節(jié);④系統(tǒng)功能和數(shù)據(jù)下線后,應(yīng)該將相應(yīng)的元數(shù)據(jù)存檔,以備日后關(guān)鍵時刻查閱。
4. 充分利用元數(shù)據(jù),發(fā)揮應(yīng)有作用
目前,元數(shù)據(jù)主要應(yīng)用場景還是局限于元數(shù)據(jù)系統(tǒng)的內(nèi)部功能,比如血緣分析、版本管理等,這些功能還是太偏向技術(shù)人員,實際上元數(shù)據(jù)可以發(fā)揮的作用遠不止這些,IT組織應(yīng)該創(chuàng)新性地充分挖掘元數(shù)據(jù)利用方法。元數(shù)據(jù)被利用越充分,價值體現(xiàn)越明顯,元數(shù)據(jù)管理和利用是相互促進的過程,管理好了有利于深度利于,使用中發(fā)現(xiàn)問題又可以反向促使完善元數(shù)據(jù)。組織中的業(yè)務(wù)人員和技術(shù)人員要逐步培養(yǎng)使用習(xí)慣,日常工作要習(xí)慣查閱、參照元數(shù)據(jù)。
(二)技術(shù)手段
1. 構(gòu)建元數(shù)據(jù)管理平臺
元數(shù)據(jù)管理平臺一定是具備統(tǒng)一管理企業(yè)內(nèi)所有元數(shù)據(jù)的全局性平臺,平臺架構(gòu)如圖1所示。
(1)源數(shù)據(jù)層是組織中產(chǎn)生元數(shù)據(jù)的源頭,主要分布在各種業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫,還有各種技術(shù)文檔和業(yè)務(wù)文檔。
(2)數(shù)據(jù)采集層,負責(zé)將業(yè)務(wù)系統(tǒng)和線下的各類元數(shù)據(jù)自動采集到元數(shù)據(jù)管理平臺。對于存儲在業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中的結(jié)構(gòu)化元數(shù)據(jù),以數(shù)據(jù)庫內(nèi)置系統(tǒng)表為主,以人工補充為輔。非結(jié)構(gòu)化元數(shù)據(jù)的采集工具需要具備多人協(xié)同編輯、保留歷史版本的最基本功能。
(3)元數(shù)據(jù)存儲層,元數(shù)據(jù)一般分散在各個角落,可能會雜亂無序,所以從源頭采集到的元數(shù)據(jù)一定要按照規(guī)范、有序的結(jié)構(gòu)重新編排、組織、存儲,便于前端查閱使用。
(4)展示應(yīng)用層,為技術(shù)人員和業(yè)務(wù)人員提供訪問元數(shù)據(jù)的入口,應(yīng)該具備易于查詢、閱讀的使用體驗。
2 結(jié)構(gòu)化元數(shù)據(jù)管理
結(jié)構(gòu)化元數(shù)據(jù)管理主要包括兩個方面:元數(shù)據(jù)產(chǎn)生源頭的技術(shù)要求;自動化采集功能。
結(jié)構(gòu)化元數(shù)據(jù)主要集中于業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中,為了保證元數(shù)據(jù)的質(zhì)量,在建設(shè)業(yè)務(wù)系統(tǒng)時需要遵循相關(guān)的技術(shù)要求,主要包括:采用數(shù)據(jù)庫設(shè)計工具如PowerDesigner、Erwin等正向生成數(shù)據(jù)庫腳本,并創(chuàng)建物理數(shù)據(jù)庫,避免在數(shù)據(jù)庫中修改結(jié)構(gòu);必要的物理主外鍵等約束不可缺少;表和字段統(tǒng)一使用英文或縮寫來命名,便于閱讀;表注釋和字段注釋不可缺少;各類數(shù)據(jù)字典存儲在數(shù)據(jù)庫中,避免記錄在配置文件中,便于自動采集、管理。
數(shù)據(jù)庫中的元數(shù)據(jù)采用自動采集的方式來搜集,不僅能減輕工作量,最主要的是可以保證元數(shù)據(jù)的準(zhǔn)確性和及時性。一般數(shù)據(jù)庫都有內(nèi)置的系統(tǒng)表來記錄元數(shù)據(jù),以下是Oracle數(shù)據(jù)庫某一用戶中的一些常用系統(tǒng)表。
USER_OBJECTS:用戶下的所有對象
USER_VIEWS:視圖詳細描述
USER_TAB_COLUMNS:表和視圖的字段信息
USER_TAB_COMMENTS:表和視圖注釋
USER_COL_COMMENTS:表和視圖的字段注釋
ALL_DEPENDENCIES:對象依賴關(guān)系
ALL_TAB_PRIVS:對象授權(quán)關(guān)系和權(quán)限
通過以上系統(tǒng)表就可以清晰掌握數(shù)據(jù)庫的最基本元數(shù)據(jù),通過表之間的關(guān)聯(lián)形成便于閱讀的數(shù)據(jù)格式導(dǎo)入元數(shù)據(jù)管理平臺。對于字典表及線下的結(jié)構(gòu)化元數(shù)據(jù),按一定時間頻率導(dǎo)入到元數(shù)據(jù)管理平臺,這樣就形成了一套完整的結(jié)構(gòu)化元數(shù)據(jù),技術(shù)人員可以通過元數(shù)據(jù)管理平臺進行查閱。
3 非結(jié)構(gòu)化元數(shù)據(jù)管理
談及元數(shù)據(jù),往往首先想到的是結(jié)構(gòu)化和技術(shù)元數(shù)據(jù),實際上以文檔形式記錄的非結(jié)構(gòu)化和業(yè)務(wù)元數(shù)據(jù)在某些應(yīng)用場景下更加重要,管理方法和難度與結(jié)構(gòu)化元數(shù)據(jù)有很大差別。主要注意事宜有以下幾點:一定要在系統(tǒng)建設(shè)、運維過程中同步記錄、維護,保證和系統(tǒng)的一致性;為了提高編輯效率,可以選擇現(xiàn)在比較流行的在線協(xié)同編輯工具,多人同時編輯維護穩(wěn)定;文檔要保留歷史版本,方便跟蹤和比較版本差異,而且每一個版本都應(yīng)該有相應(yīng)的修改摘要說明;非結(jié)構(gòu)化文檔內(nèi)容較多,選擇合理的組織、展示方式非常重要,可以提高查詢效率。
4. 消除技術(shù)壁壘,與業(yè)務(wù)結(jié)合,提高利用率
由于元數(shù)據(jù)本身的技術(shù)特性,企業(yè)在建成元數(shù)據(jù)管理系統(tǒng)后,發(fā)現(xiàn)主要是技術(shù)部門在使用,在業(yè)務(wù)部門的利用率很低。系統(tǒng)應(yīng)該是為所有業(yè)務(wù)服務(wù)的,只有一個部門使用的系統(tǒng)是沒有生命力的,如何讓元數(shù)據(jù)在所有相關(guān)部門都被使用是一件很重要的事。
為了提高元數(shù)據(jù)利用率,發(fā)揮元數(shù)據(jù)價值,元數(shù)據(jù)應(yīng)該與實際業(yè)務(wù)結(jié)合,實現(xiàn)面向業(yè)務(wù)的定制化應(yīng)用,把元數(shù)據(jù)做成一個服務(wù)化的系統(tǒng),嵌入到組織各個應(yīng)用場景中,給其他系統(tǒng)提供能力,讓其他系統(tǒng)變得更自動化、自助化,降低使用技術(shù)門檻,讓元數(shù)據(jù)管理變成企業(yè)一個很重要的基礎(chǔ)設(shè)施,集成到企業(yè)信息化的方方面面,充分釋放元數(shù)據(jù)管理價值。
四、結(jié)束語
Gartner在研究報告里已經(jīng)明確指出,“元數(shù)據(jù)管理將是未來企業(yè)信息化的核心基礎(chǔ)設(shè)施”。在大數(shù)據(jù)環(huán)境中,如果企業(yè)不通過元數(shù)據(jù)管理把多種復(fù)雜的信息管理起來,很難做到信息的有效利用。簡言之,當(dāng)有效管理元數(shù)據(jù)時,數(shù)據(jù)變得更有價值。元數(shù)據(jù)管理不僅是組織有效實施數(shù)據(jù)治理的核心IT技術(shù),同樣也是支撐技術(shù)人員和業(yè)務(wù)人員順利開展日常工作的重要輔助手段,實施有效的元數(shù)據(jù)管理不能只關(guān)注工具平臺和技術(shù)手段,組織內(nèi)相應(yīng)的管理制度必須要提前建立,相互配合,共同推進。