莊計龍 陳敏剛
摘 要:近年來,隨著科學(xué)技術(shù)的飛速發(fā)展,信息化、數(shù)字化社會正在形成。伴隨而來的是數(shù)據(jù)質(zhì)量問題越來越凸顯。本文在分析了當前數(shù)據(jù)質(zhì)量評價標準的基礎(chǔ)上,確定以GB/T 25000.24為基礎(chǔ)構(gòu)建數(shù)據(jù)質(zhì)量評價模型,并對指標權(quán)重進行研究。相比使用單個權(quán)重計算方法,本文綜合Delphi法、層次分析法和基于信息熵的熵權(quán)系數(shù)法計算綜合權(quán)重,使得權(quán)重進一步客觀。針對當層次分析法的判斷矩陣經(jīng)計算不滿足一致性時,重新構(gòu)造判斷矩陣成本高的問題,文章引入了誘導(dǎo)矩陣修正法來修正判斷矩陣以盡可能避免重新構(gòu)造判斷矩陣。最后本文開發(fā)了相應(yīng)的數(shù)據(jù)質(zhì)量評價系統(tǒng),有效地提高了數(shù)據(jù)質(zhì)量評價工作的質(zhì)量和效率。
關(guān)鍵詞:數(shù)據(jù)質(zhì)量;評價模型;層次分析法;熵權(quán)系數(shù)法
文章編號:2095-2163(2019)04-0071-05 中圖分類號:TP311.13 文獻標志碼:A
0 引 言
近年來,隨著科學(xué)技術(shù)的飛速發(fā)展,信息化、數(shù)字化社會正在形成。計算機系統(tǒng)軟件已經(jīng)滲透到生活的各個方面,這些軟件不斷地產(chǎn)生新的海量數(shù)據(jù)。此外,不僅僅是IT行業(yè),越來越多的行業(yè)涉及到了數(shù)據(jù)的處理,如銀行、保險、零售業(yè)、等等,數(shù)據(jù)已經(jīng)成為新時代最重要的資產(chǎn)之一[1]。
但這些數(shù)據(jù)可能由于人為錄入的錯誤、人為篡改、機械故障等原因,往往會存在數(shù)據(jù)屬性缺失、數(shù)據(jù)相似重復(fù)、數(shù)據(jù)屬性值異常等問題。這些錯誤可能會造成數(shù)據(jù)冗余,浪費存儲的空間,甚至可能導(dǎo)致數(shù)據(jù)分析挖掘時產(chǎn)生嚴重的偏差[2]。在對數(shù)據(jù)進行分析挖掘之前,數(shù)據(jù)質(zhì)量的好壞對于人們能否準確利用數(shù)據(jù)獲得決策信息非常重要,甚至決定著數(shù)據(jù)應(yīng)用的成敗[3]。雖然目前關(guān)于數(shù)據(jù)質(zhì)量的研究已經(jīng)蓬勃興起,但工作主要集中在數(shù)據(jù)的存儲、管理、挖掘分析等方面,數(shù)據(jù)質(zhì)量問題沒有得到足夠的重視[4]。這些缺失數(shù)據(jù)或錯誤數(shù)據(jù)等原因?qū)е铝藬?shù)據(jù)不能很好地利用,甚至造成很大的決策失誤。因此已有越來越多的專家、學(xué)者意識到數(shù)據(jù)質(zhì)量對數(shù)據(jù)分析挖掘的重要性并投身于相應(yīng)的數(shù)據(jù)質(zhì)量研究中。
1 構(gòu)建數(shù)據(jù)質(zhì)量評價模型
1.1 GB/T數(shù)據(jù)質(zhì)量模型
數(shù)據(jù)質(zhì)量研究的誕生和發(fā)展主要是在國外,因此早期國內(nèi)相關(guān)研究中的主要理論依據(jù)都是根據(jù)ISO/IEC發(fā)布的一系列標準。隨著國內(nèi)對數(shù)據(jù)質(zhì)量的關(guān)注度逐漸提高,中國對數(shù)據(jù)質(zhì)量測量的標準化也有了實質(zhì)性的進展。在GB/T 25000.12-2017和GB/T 25000.24-2017(2018年5月1日開始實施)這2個國家標準中,為計算機系統(tǒng)中以某種結(jié)構(gòu)化形式保存的數(shù)據(jù)定義了一種通用的數(shù)據(jù)質(zhì)量模型,從固有的以及依賴系統(tǒng)的角度劃分了質(zhì)量特性以及對應(yīng)的屬性。其中包括15個特性,63個屬性。
1.2 裁剪構(gòu)建數(shù)據(jù)質(zhì)量評價模型
裁剪指標的依據(jù)來源主要有:
(1)根據(jù)最新的國家相關(guān)數(shù)據(jù)質(zhì)量標準;
(2)咨詢相關(guān)領(lǐng)域的專業(yè)人士的意見;
(3)上海軟件中心實習(xí)期間的見聞;
(4)統(tǒng)計相關(guān)信息系統(tǒng)的指標要素構(gòu)成。
通過裁剪所得到的數(shù)據(jù)質(zhì)量評價模型完備性、一致性、依從性、準確性、唯一性、現(xiàn)時性和保密性等7個一級指標構(gòu)成。
2 改進數(shù)據(jù)質(zhì)量評價指標權(quán)重分配方法
2.1 改進的層次分析法
處理數(shù)據(jù)質(zhì)量評價過程中的權(quán)重分配需要使用層次分析法[5]。這里使用的層次分析法與傳統(tǒng)意義上的層次分析法有區(qū)別,因而要做相應(yīng)的改變。重新定義層次分析法的層次結(jié)構(gòu)為目標層、指標維度層。因此新的層次分析法使用步驟如下:
(1)構(gòu)建層次結(jié)構(gòu)模型。層次分析法是確定權(quán)重的基礎(chǔ)。首先需要通過對數(shù)據(jù)的理解和分析去設(shè)定頂層也即目標層,其次需要確定指標維度層;
(2)判斷矩陣的建立與計算。通過所有指標維度的兩兩比較,然后按照某一尺度建立。這里通過邀請專家根據(jù)Santy提出的1-9標度方法作為評價尺度來建立判斷矩陣;
其中,R.I.為隨機一致性指標(Random Consistency Index)。對于一致性比例,當 C.R.<0.1時,認為該判斷矩陣通過一致性校驗,說明該判斷矩陣的不一致性程度在容許范圍內(nèi),則由其導(dǎo)出的特征向量即可作為子特性的權(quán)重向量。當C.R.>0.1時,稱D不具有一致性。一般需要再次構(gòu)造判斷矩陣重復(fù)上述過程。為解決重新構(gòu)造判斷矩陣成本高的問題,文章引入了誘導(dǎo)矩陣修正法來修正判斷矩陣以盡可能避免重新構(gòu)造判斷矩陣。具體說來:當閥值0.1 誘導(dǎo)矩陣修正法的計算步驟如下: 2.2 面向權(quán)重的熵權(quán)系數(shù)法 這里引入基于信息熵[7]的熵權(quán)系數(shù)法[8]。如果某評價指標的熵越小,說明該指標提供的信息量就越大,在綜合評價中所起的作用就越大,權(quán)重就越高。反之,若評價指標的熵越大,說明該指標提供的信息量就越小,在綜合評價中所起的作用就越小,權(quán)重就越低[9]。應(yīng)用熵權(quán)系數(shù)法可以盡可能消除人為因素對計算各指標權(quán)重的影響,使評價結(jié)果更為準確。 在本文實際的數(shù)據(jù)質(zhì)量評價中,使用熵權(quán)系數(shù)法進行權(quán)重值求取的步驟如下。 2.2.1 評語集和指標集的確立 原始的熵權(quán)系數(shù)法所考慮的評估問題,一般是設(shè)有n個評價對象(方案),m個評估指標,這樣的設(shè)定方法并不適合本文數(shù)據(jù)質(zhì)量評價的需求。因而本文對其所表述的含義進行如下修改,并將其記為WEWCM(Weight-Oriented Entropy Weight Coefficient Method)。 2.2.2 評價矩陣的建立 2.2.3 指標權(quán)重的求解 上文通過專家打分和統(tǒng)計已經(jīng)構(gòu)建了初始評價矩陣。在上述步驟的基礎(chǔ)上,就可結(jié)合信息熵的知識進行指標權(quán)重的求解。其具體計算步驟如下:
3 數(shù)據(jù)質(zhì)量量化評價設(shè)計與實現(xiàn)
3.1 功能性設(shè)計
功能性設(shè)計如圖1所示。
3.2 技術(shù)架構(gòu)設(shè)計
結(jié)合最新的前后端分離技術(shù),以及對各類技術(shù)應(yīng)用研究和分析,設(shè)計系統(tǒng)的技術(shù)采用B/S架構(gòu)[10],如圖2所示。
在前后端分離總體架構(gòu)的基礎(chǔ)上,邏輯上將技術(shù)架構(gòu)分為4個層次,分別是視圖層、業(yè)務(wù)邏輯層、數(shù)據(jù)訪問層和數(shù)據(jù)層。前后端分離后,難以避免跨域問題。解決跨域問題核心代碼如下:
public void addCorsMappings(CorsRegistry registry) {
registry.addMapping("/**")
.allowedOrigins("*")
.allowCredentials(true)
.allowedMethods("GET","POST", "DELETE", "PUT")
.maxAge(3600);
}
3.3 系統(tǒng)功能模塊實現(xiàn)
首先明確系統(tǒng)的開發(fā)環(huán)境和開發(fā)工具,前端基于Node框架,所使用的開發(fā)工具為WebStorm,后端基于JDK1.8,所使用的開發(fā)工具為IntelliJ IDEA。這里僅給出數(shù)據(jù)質(zhì)量評價配置模塊的實現(xiàn)說明。
數(shù)據(jù)質(zhì)量評價配置模塊是本文所開發(fā)系統(tǒng)的核心功能模塊,具體實現(xiàn)流程是:在前端系統(tǒng)的數(shù)據(jù)質(zhì)量綜合量化指標維度編輯界面,設(shè)置好相應(yīng)規(guī)則約束等字段,然后把數(shù)據(jù)以JSON的形式發(fā)送給后端進行相應(yīng)指標計算,并將結(jié)果保存到數(shù)據(jù)庫和Redis緩存中,供后面計算總得分、可視化以及評價報告使用。這部分為了提高運算的速度,充分發(fā)揮CPU的性能,系統(tǒng)使用線程池技術(shù)。模塊時序如圖3所示。
4 實 驗
文章使用真實電商領(lǐng)域的數(shù)據(jù)集進行數(shù)據(jù)質(zhì)量評價實驗。
(1)利用AHPIM計算權(quán)重。 通過一系列步驟算出權(quán)重為:
W={0.094,0.054,0.104,0.037,0.134,0.292,0.285},
(2)利用WEWCM計算權(quán)重。通過一系列步驟算出權(quán)重為:
w={0.149,0.184,0.149,0.230,0.184,0.070,0.035},
(3)綜合AHPIM與WEWCM計算綜合權(quán)重。
根據(jù)公式(10)求得質(zhì)量維度的綜合權(quán)重為:
w^=0.136,0.097,0.151,0.083,0.239,0.198,0.096.
在確定了指標的綜合權(quán)重后,權(quán)重也作為電商領(lǐng)域數(shù)據(jù)的默認權(quán)重保存到系統(tǒng)中。接下來在所設(shè)計并實現(xiàn)的數(shù)據(jù)質(zhì)量評價平臺上評價數(shù)據(jù)的數(shù)據(jù)質(zhì)量。最后得到評價分數(shù)如圖4所示。
5 結(jié)束語
本文研究了數(shù)據(jù)質(zhì)量現(xiàn)狀和方向,分析了目前數(shù)據(jù)質(zhì)量研究存在的不足。針對存在的問題,首先利用GB/T來替代ISO標準,其次綜合多種方法計算權(quán)重,最后設(shè)計并開發(fā)了系統(tǒng)。詳細展示了數(shù)據(jù)質(zhì)量評價流程和評價方法的使用,對評價結(jié)果進行了可視化圖表展示,對系統(tǒng)存在的問題也進行了進一步的優(yōu)化,驗證了方案和系統(tǒng)的可用性及高效性。
參考文獻
[1]Jaime Campos,Pankaj Sharma,Unai Gorostegui Gabiria,Erkki Jantunen,David Baglee. A Big Data Analytical Architecture for the Asset Management[J]. Procedia CIRP,2017,64.
[2] 張元新. 網(wǎng)絡(luò)開源數(shù)據(jù)可用性評價系統(tǒng)[D]. 哈爾濱工業(yè)大學(xué),2017.
[3] 楊忠勝. 數(shù)據(jù)質(zhì)量中精確性的研究[D]. 哈爾濱工業(yè)大學(xué),2013.
[4] 延婉梅. 動車組大數(shù)據(jù)清洗關(guān)鍵技術(shù)研究與實現(xiàn)[D]. 北京交通大學(xué),2015.
[5] Suvendu Chandan Nayak,Chitaranjan Tripathy. Deadline sensitive lease scheduling in cloud computing environment using AHP[J]. Journal of King Saud University-Computer and Information Sciences,2018,30(2).
[6] 張炳江.層次分析法及其應(yīng)用案例[M].北京:電子工業(yè)出版社,2014.
[7] Michael W. Grenn,Shahram Sarkani,Thomas Mazzuchi. The requirements entropy framework in systems engineering[J]. Systems Engineering,2014,17(4).
[8] 湯永利,徐國愛,鈕心忻,等. 基于信息熵的信息安全風(fēng)險分析模型[J]. 北京郵電大學(xué)學(xué)報,2008(2):50-53.
[9] 文軍. 基于熵權(quán)法的航空公司績效評價研究[J]. 科學(xué)技術(shù)與工程,2009,9(22):6939-6941.
[10]李大為. 基于B/S架構(gòu)的績效考核管理系統(tǒng)設(shè)計與實現(xiàn)[D]. 吉林大學(xué),2018.