梁盈威, 萬嬋, 楊朝誼
(廣東電網(wǎng)有限責(zé)任公司 信息中心, 廣東 廣州 510000)
目前,某大型電網(wǎng)企業(yè)已完成對(duì)內(nèi)部主數(shù)據(jù)的規(guī)劃設(shè)計(jì)、試點(diǎn)建設(shè)與推廣應(yīng)用工作。但由于企業(yè)數(shù)據(jù)資源龐大,在建設(shè)推廣的過程中業(yè)務(wù)需求的不斷擴(kuò)展,主數(shù)據(jù)的識(shí)別缺乏一種可量化的技術(shù)評(píng)判標(biāo)準(zhǔn),導(dǎo)致業(yè)務(wù)人員在增補(bǔ)過程中產(chǎn)生不少分歧,最終導(dǎo)致主數(shù)據(jù)應(yīng)用效果不佳。
主數(shù)據(jù)是作為企業(yè)核心主營業(yè)務(wù)數(shù)據(jù)的唯一可信數(shù)據(jù)源,為企業(yè)內(nèi)部核心數(shù)據(jù)共享交換提供完整的、實(shí)時(shí)的、準(zhǔn)確的、一致的核心主數(shù)據(jù)視圖。結(jié)合企業(yè)內(nèi)部業(yè)務(wù)需求,須滿足統(tǒng)一標(biāo)準(zhǔn)化“誰產(chǎn)生、誰識(shí)別、誰維護(hù)”的三大原則。
主數(shù)據(jù)(Master Data)指的是各個(gè)業(yè)務(wù)系統(tǒng)間的共享數(shù)據(jù)(如,人員、供應(yīng)商、組織部門、客戶等),具有高價(jià)值、共享性、唯一性、基礎(chǔ)性、穩(wěn)定性、完整性、準(zhǔn)確性的特點(diǎn)[1]。
主數(shù)據(jù)識(shí)別是一項(xiàng)復(fù)雜的工作,結(jié)合企業(yè)主數(shù)據(jù)“誰產(chǎn)生、誰識(shí)別、誰維護(hù)”的三大原則情況,引入科學(xué)的分析方法論和主數(shù)據(jù)識(shí)別管理知識(shí)[2-4],設(shè)計(jì)一套明確的主數(shù)據(jù)識(shí)別管理工作流程,才能有效并快速地實(shí)施識(shí)別工作。本文將主數(shù)據(jù)識(shí)別分為四大工作步驟,整體流程如圖1所示。
圖1 主數(shù)據(jù)識(shí)別流程
數(shù)據(jù)實(shí)體梳理[5-6]:從業(yè)務(wù)角度出發(fā),分析目前業(yè)務(wù)流程中的數(shù)據(jù)內(nèi)容,得出在業(yè)務(wù)流程中核心業(yè)務(wù)實(shí)體和對(duì)應(yīng)的數(shù)據(jù)生產(chǎn)部門,以此作為主數(shù)據(jù)識(shí)別的對(duì)象和數(shù)據(jù)管理責(zé)任方,從業(yè)務(wù)層面規(guī)范數(shù)據(jù)標(biāo)準(zhǔn)唯一性。
主題域劃分:通過參考IBM的IFW模型并充分結(jié)合電網(wǎng)企業(yè)數(shù)據(jù)模型標(biāo)準(zhǔn)的業(yè)務(wù)情況,將梳理出來的實(shí)體劃分到對(duì)應(yīng)的主題域中,如參與方、協(xié)議、位置等。
數(shù)據(jù)評(píng)分:數(shù)據(jù)評(píng)分分為4個(gè)步驟:① 識(shí)別數(shù)據(jù)對(duì)象是否屬于企業(yè)主營業(yè)務(wù)的重要實(shí)體;② 確認(rèn)主數(shù)據(jù)識(shí)別指標(biāo)與分?jǐn)?shù);③ 利用科學(xué)方法論量化識(shí)別得出主數(shù)據(jù)識(shí)別指標(biāo)對(duì)應(yīng)的權(quán)重;④ 根據(jù)識(shí)別指標(biāo)和指標(biāo)權(quán)重制作主數(shù)據(jù)識(shí)別評(píng)分表。
數(shù)據(jù)模型構(gòu)建:將以需求為主導(dǎo),方法論為指引,遵循企業(yè)既有標(biāo)準(zhǔn),梳理主數(shù)據(jù)建模步驟。
主數(shù)據(jù)是企業(yè)數(shù)據(jù)資源利用的重要保障,而主數(shù)據(jù)的評(píng)判標(biāo)準(zhǔn)則是主數(shù)據(jù)識(shí)別工作的重點(diǎn)之一,科學(xué)的客觀評(píng)分決策機(jī)制為主數(shù)據(jù)識(shí)別提供客觀的決策依據(jù)。
1) 主營業(yè)務(wù)數(shù)據(jù)實(shí)體識(shí)別
電網(wǎng)內(nèi)的主數(shù)據(jù)是描述現(xiàn)實(shí)世界中的核心對(duì)象,是參與企業(yè)運(yùn)營獨(dú)立存在的業(yè)務(wù)對(duì)象,包含最重要、最穩(wěn)定、最基礎(chǔ)三大特征。
基于企業(yè)主數(shù)據(jù)的三大特征,本文優(yōu)先采用德爾菲法[7-8],邀請(qǐng)業(yè)務(wù)專家對(duì)已梳理的業(yè)務(wù)數(shù)據(jù)實(shí)體進(jìn)行投票識(shí)別。投票指標(biāo):主營業(yè)務(wù)∈(是,否),若最終結(jié)果為“是”,則繼續(xù)進(jìn)行后續(xù)的主數(shù)據(jù)識(shí)別工作;若結(jié)果為“否”,該對(duì)應(yīng)的數(shù)據(jù)實(shí)體則不被列入主數(shù)據(jù)行列管理。
2) 構(gòu)建主數(shù)據(jù)識(shí)別的評(píng)判指標(biāo)
主數(shù)據(jù)評(píng)分指標(biāo)項(xiàng)的選取是通過對(duì)企業(yè)的主數(shù)據(jù)識(shí)別標(biāo)準(zhǔn)與方法,同時(shí)參考電網(wǎng)企業(yè)集團(tuán)網(wǎng)省兩級(jí)架構(gòu)的特點(diǎn),在確定主數(shù)據(jù)的評(píng)分指標(biāo)中,需要綜合考評(píng)以下九大指標(biāo)內(nèi)容。
① 業(yè)務(wù)等級(jí):分為“一般、重要、較重要、非常重要”,級(jí)別越靠后,越符合主數(shù)據(jù)的使用標(biāo)準(zhǔn),也越能體現(xiàn)該數(shù)據(jù)的高價(jià)值性。
② 共享業(yè)務(wù)部門個(gè)數(shù):主數(shù)據(jù)的共享性,主數(shù)據(jù)可以跨部門共享使用,記錄數(shù)據(jù)消費(fèi)方個(gè)數(shù)。
③ 數(shù)據(jù)有效期:主數(shù)據(jù)的穩(wěn)定性,一般從產(chǎn)生到消亡的時(shí)間越長越符合主數(shù)據(jù)的穩(wěn)定性。
④ 主責(zé)級(jí)別:分為“省級(jí)共享、網(wǎng)級(jí)共享”,反應(yīng)電網(wǎng)企業(yè)的行業(yè)結(jié)構(gòu),體現(xiàn)主數(shù)據(jù)的高價(jià)值性和共享性。
⑤ 業(yè)務(wù)唯一性:主數(shù)據(jù)的唯一性,能夠唯一識(shí)別業(yè)務(wù)屬性。
⑥ 系統(tǒng)跨度:主數(shù)據(jù)的核心價(jià)值在于各個(gè)系統(tǒng)之間的共享使用,系統(tǒng)跨度是共享性的體現(xiàn)。
⑦ 更新頻率:主數(shù)據(jù)的穩(wěn)定性的體現(xiàn),如一個(gè)數(shù)據(jù)頻繁被更新,存在多個(gè)版本,則不符合主數(shù)據(jù)的特性,不利于主數(shù)據(jù)管理。
⑧ 使用頻率:主數(shù)據(jù)的高價(jià)值性體現(xiàn),如一個(gè)數(shù)據(jù)被系統(tǒng)頻繁使用,該數(shù)據(jù)一定是系統(tǒng)中的關(guān)鍵核心數(shù)據(jù)。
⑨ 基礎(chǔ)性:主數(shù)據(jù)不是衍生數(shù)據(jù),是生產(chǎn)之后未加工的基礎(chǔ)性數(shù)據(jù),這樣才更利于共享使用。
3) 評(píng)判指標(biāo)量化賦值
為確保評(píng)分指標(biāo)在使用過程中能充分反映企業(yè)決策者意向,嚴(yán)格把控主數(shù)據(jù)識(shí)別的精細(xì)度,對(duì)于指標(biāo)的評(píng)判分值將不采用簡單的是或否的評(píng)判基準(zhǔn),而是采用量化手段進(jìn)行多維度的評(píng)判,步驟如下。
(1) 首先將評(píng)判指標(biāo)細(xì)分等級(jí),采用專家分析法[9],將指標(biāo)進(jìn)行多維拆分,如業(yè)務(wù)等級(jí)指標(biāo)不再是以前的“一般”或“重要”兩個(gè)評(píng)判基準(zhǔn),而是根據(jù)業(yè)務(wù)實(shí)際情況,參考行業(yè)的成果,經(jīng)專家分析拆分出“一般、重要、較重要、非常重要”四個(gè)等級(jí)。
(2) 等級(jí)量化賦值,每個(gè)指標(biāo)采用10分總分制計(jì)分。在得出等級(jí)劃分后,我們將10分作平均分配法,分配到各個(gè)維度中去,如業(yè)務(wù)等級(jí)指標(biāo)有4個(gè)維度,則維度平均基礎(chǔ)占比10/4=2.5分,分配結(jié)果為:“一般”=2.5分,“重要”=5分,“較重要”=7.5分,“非常重要”=10分。
(3) 分值校準(zhǔn),在最后我們還需要使用集體決策法,提供數(shù)據(jù)管理者的主觀能動(dòng)性和專業(yè)性,將數(shù)學(xué)平均分析法的結(jié)果作最后的調(diào)整,原則如下。
? 評(píng)分分值最大值<10分;
? 根據(jù)主數(shù)據(jù)標(biāo)準(zhǔn)和行業(yè)業(yè)務(wù)性質(zhì)調(diào)整分值,如業(yè)務(wù)等級(jí)指標(biāo)為“一般”=2.5分,但重要性“一般”的數(shù)據(jù)實(shí)體在電網(wǎng)業(yè)務(wù)主數(shù)據(jù)標(biāo)準(zhǔn)是不被納入主數(shù)據(jù)范圍,所以經(jīng)過調(diào)整分值后,“一般”=0分;
? 調(diào)整其他評(píng)判基準(zhǔn)等級(jí)分值,分值間隔的偏離量∈[-0.2,0.2]。如業(yè)務(wù)等級(jí)指標(biāo)剩余分為:“重要”=5分,“較重要”=7.5分,“非常重要”=10分,分值之間間隔為2.5分;調(diào)整后“重要”=6分,“較重要”=8分,“非常重要”=10分,分值之間間隔為2分;(2-2.5)÷2.5∈[-0.2,0.2],分值可用。
(4) 識(shí)別結(jié)果輸出,“一般”=0分,“重要”=6分,“較重要”=8分,“非常重要”=10分;
主數(shù)據(jù)識(shí)別評(píng)分的指標(biāo)類別和分值對(duì)于主數(shù)據(jù)的識(shí)別工作具有重要意義,但并不足以支撐整個(gè)識(shí)別工作。主數(shù)據(jù)識(shí)別過程中的關(guān)鍵是確定識(shí)別指標(biāo)的權(quán)重,這關(guān)系到主數(shù)據(jù)識(shí)別的精準(zhǔn)度,必須采用科學(xué)客觀的確認(rèn)方法,常見的有主成分分析法、因子分析法等。本文將使用主成分分析法[10-12]作為量化識(shí)別方法論。
主成分分析法(簡稱PCA),通過降低維度的作用,把多個(gè)相關(guān)且復(fù)雜的指標(biāo)數(shù)據(jù)進(jìn)行矩陣降維的方式成為少數(shù)幾個(gè)相互無關(guān)的綜合主成分指標(biāo),使問題簡單化,在電網(wǎng)企業(yè)使用主成分分析法將九大指標(biāo)維度進(jìn)行數(shù)據(jù)評(píng)分降維、降噪、去冗余分析,利用大數(shù)據(jù)計(jì)算維度的占比權(quán)重。具體步驟如下。
① 梳理電網(wǎng)企業(yè)主題域中的數(shù)據(jù)實(shí)體分析樣本,如人力資源域中:人員、組織、崗位等實(shí)體,使用數(shù)據(jù)庫管理技術(shù)獲取樣本中所有九大維度指標(biāo)的專家評(píng)分,再將評(píng)分結(jié)果羅列成矩陣形式,輸出隨機(jī)數(shù)據(jù)矩陣K,其中每一行代表一個(gè)數(shù)據(jù)實(shí)體的一條評(píng)分?jǐn)?shù)據(jù),每一列代表指標(biāo)維度,如k11代表數(shù)據(jù)實(shí)體人員在指標(biāo)業(yè)務(wù)等級(jí)維度的一條初始評(píng)分?jǐn)?shù)據(jù),如此類推得式(1)。
(1)
② 將矩陣K各個(gè)業(yè)務(wù)指標(biāo)的原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化、歸一處理,將數(shù)據(jù)轉(zhuǎn)換成相同度量尺度的可比較狀態(tài),具體方式通過每列變量值減去當(dāng)前列的平均值,再除以當(dāng)前列的標(biāo)準(zhǔn)差來完成,最終形成標(biāo)準(zhǔn)化集合矩陣X,如式(2)。
(2)
③ 求X矩陣的協(xié)方差矩陣,協(xié)方差矩陣用于對(duì)數(shù)據(jù)進(jìn)行降噪,減少數(shù)據(jù)的干擾值,得到每個(gè)指標(biāo)維度與其他8個(gè)維度的方差關(guān)系,形成新的矩陣C,矩陣C為i行j列,此時(shí)原始的數(shù)據(jù)將轉(zhuǎn)化為協(xié)方差數(shù)據(jù),如式(3)。
(3)
④ 求C的特征值(主成分),利用線性代數(shù)知識(shí)或是MATLAB中eig函數(shù)可以得到求矩陣C的特征值,用于去除總量數(shù)據(jù)中冗余量,特征值越大,原始數(shù)據(jù)在對(duì)應(yīng)特征向量變換下的獨(dú)立數(shù)據(jù)量越多,更有利于分析工作,如式(4)。
特征值=λ1,λ2,…,λe
(4)
⑤ 由矩陣C中求到e個(gè)特征值,由大到小排列后,包含的信息量也是遞減的,所以進(jìn)行實(shí)際分析時(shí)會(huì)選擇m個(gè)貢獻(xiàn)率大于85%的特征值,計(jì)算每個(gè)特征值的貢獻(xiàn)率,指某個(gè)特征值占全部特征值的比重,如式(5)。
(5)
⑥ 根據(jù)式(5)原則,選取出m個(gè)特征值后,根據(jù)式Cvm=λmvm的公式原則,求出對(duì)應(yīng)的特征向量,排列成矩陣,如式(6)。
特征向量矩陣V=[v1v2…vm]
(6)
⑦ 計(jì)算指標(biāo)維度對(duì)應(yīng)主成分的得分系數(shù),分別用對(duì)應(yīng)的V×X矩陣得到矩陣Tm,其中每一列都是該主成分一個(gè)指標(biāo)維度的評(píng)分系數(shù),如式(7)。
Tm=[mt1mt2…mt9]
(7)
⑧ 計(jì)算每個(gè)維度的綜合評(píng)分系數(shù),綜合每個(gè)特征值的評(píng)分系數(shù)Fl,l=1,2,…,9,為式(8)。
(8)
⑨ 計(jì)算每個(gè)維度的百分比權(quán)重Sl,為式(9)。
(9)
根據(jù)權(quán)重結(jié)果值,將信息綜合整理成主數(shù)據(jù)識(shí)別評(píng)分表,如表1所示。
表1 主數(shù)據(jù)識(shí)別評(píng)分表
基于主數(shù)據(jù)識(shí)別的工作流程和評(píng)分流程設(shè)計(jì),對(duì)某大型電網(wǎng)企業(yè)進(jìn)行仿真數(shù)據(jù)測(cè)試與分析工作,得出主數(shù)據(jù)實(shí)體識(shí)別驗(yàn)證。本文將嚴(yán)格遵守設(shè)計(jì)流程對(duì)測(cè)試數(shù)據(jù)進(jìn)行數(shù)據(jù)實(shí)體梳理、主題域劃分、數(shù)據(jù)評(píng)分三大工作步驟,對(duì)比分析識(shí)別效果。
(1) 根據(jù)業(yè)務(wù)系統(tǒng)分析情況,分別從數(shù)據(jù)生產(chǎn)方篩選出數(shù)個(gè)測(cè)試用業(yè)務(wù)實(shí)體:供應(yīng)商編碼、供應(yīng)商名稱、員工薪資、員工編號(hào)、客戶訂單、客戶名稱。
(2) 參考IFW 模型并結(jié)合企業(yè)的實(shí)際情況,將數(shù)據(jù)主題域劃分為參與方、協(xié)議、位置、分類、資源和項(xiàng)目六大模塊,將測(cè)試數(shù)據(jù)實(shí)體根據(jù)業(yè)務(wù)屬性歸類參與方的數(shù)據(jù)主題域中,通過參照主數(shù)據(jù)識(shí)別評(píng)分表中的規(guī)范,進(jìn)行初步專家評(píng)分后,得出參與方主題域中的相關(guān)實(shí)體和基礎(chǔ)指標(biāo)分值,具體如圖2所示。
圖2 主數(shù)據(jù)識(shí)別測(cè)試實(shí)體基礎(chǔ)分值圖
(3) 參考然后再根據(jù)主數(shù)據(jù)識(shí)別評(píng)分表中的權(quán)重?cái)?shù)據(jù)進(jìn)行分值權(quán)重化,最終結(jié)果如圖3所示。
圖3 主數(shù)據(jù)識(shí)別測(cè)試實(shí)體最終分值圖
(4) 最后經(jīng)過企業(yè)需求和專家評(píng)估判斷,設(shè)定符合主數(shù)據(jù)識(shí)別的分?jǐn)?shù)閥值為總分的60%,合格分?jǐn)?shù)為6。所以本次測(cè)試實(shí)體中總分超過6的供應(yīng)商編碼、供應(yīng)商名稱、員工編號(hào)、客戶名稱為新識(shí)別的企業(yè)主數(shù)據(jù)。
快速準(zhǔn)確地完善建模,以規(guī)范好主數(shù)據(jù)服務(wù)的實(shí)施落地,是主數(shù)據(jù)識(shí)別工作最后也是最必要的工作。因此數(shù)據(jù)建模工作也是需要有先進(jìn)的方法論和規(guī)范化的管理去落實(shí)。本文研究的建模方式將按照IBM建模方法論指引[6]、參考企業(yè)公共信息模型、遵循企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)和實(shí)際需求梳理整體建模步驟。
(1) 梳理數(shù)據(jù)集:評(píng)分識(shí)別中已將主數(shù)據(jù)分到六大數(shù)據(jù)主題域中,在此基礎(chǔ)針對(duì)每個(gè)域梳理出對(duì)應(yīng)的數(shù)據(jù)集,形成數(shù)據(jù)集工作件。
(2) 對(duì)每個(gè)數(shù)據(jù)集在信息資源規(guī)劃標(biāo)準(zhǔn)中找到對(duì)應(yīng)的實(shí)體及其屬性,梳理對(duì)應(yīng)的數(shù)據(jù)庫原始表、字段以及引用關(guān)系。
(3) 多渠道補(bǔ)充完善該數(shù)據(jù)集的數(shù)據(jù)元(屬性),通過遵循IRP建立基礎(chǔ)屬性集、參考IBM實(shí)踐框架[6]、與企業(yè)內(nèi)部交流的方式,進(jìn)行補(bǔ)充完善工作,確保主數(shù)據(jù)實(shí)體選擇準(zhǔn)確,屬性的含義描述合理,與企業(yè)公共信息模型映射正確性。
(4) 拆解數(shù)據(jù)集為對(duì)象:參考企業(yè)公共信息模型[16],建立數(shù)據(jù)集的數(shù)據(jù)元在企業(yè)公共信息模型中的映射,按面向?qū)ο蠓椒ú鸾獬龆鄠€(gè)需最終落地的邏輯模型實(shí)體(對(duì)象),形成數(shù)據(jù)字典工作件。
(5) 繪制模型關(guān)系圖:根據(jù)數(shù)據(jù)字典工作件,將拆解后的各個(gè)實(shí)體對(duì)象梳理出繼承及關(guān)聯(lián)關(guān)系形成對(duì)象關(guān)系圖。
完成以上五步主數(shù)據(jù)模型構(gòu)建(邏輯建模)步驟,主數(shù)據(jù)管理可以按企業(yè)的實(shí)際數(shù)據(jù)庫環(huán)境進(jìn)行落地實(shí)施(物理建模)工作,然而這已超過了主數(shù)據(jù)識(shí)別的研究范圍,進(jìn)入了一個(gè)新的研究課題,本文不作過多敘述。
本文對(duì)主數(shù)據(jù)識(shí)別中的管理方法、識(shí)別技術(shù)和建模技術(shù)進(jìn)行了研究,提出了主數(shù)據(jù)識(shí)別工作流程的四大步驟,設(shè)計(jì)了主數(shù)據(jù)量化識(shí)別評(píng)分法,降低主數(shù)據(jù)的主觀性判斷分歧錯(cuò)誤,科學(xué)地預(yù)防主數(shù)據(jù)識(shí)別的質(zhì)量風(fēng)險(xiǎn)。通過仿真數(shù)據(jù)識(shí)別測(cè)試,驗(yàn)證了量化識(shí)別法的高效性和可操作性,有助于企業(yè)對(duì)主數(shù)據(jù)識(shí)別工作的效率提升,減少管理成本。