?
挑戰(zhàn)2 數(shù)據(jù)質(zhì)量
數(shù)據(jù)質(zhì)量與數(shù)據(jù)服務(wù)息息相關(guān)。數(shù)據(jù)質(zhì)量不高,數(shù)據(jù)應(yīng)用的有效性不高,導(dǎo)致有數(shù)據(jù)卻用不起來。
高校數(shù)據(jù)質(zhì)量不高的現(xiàn)象一直存在。雖然目前數(shù)據(jù)應(yīng)用的項目非常多,但真正取得預(yù)期效果的項目少之又少,而且開發(fā)過程困難重重,其中的一個重要原因就是數(shù)據(jù)質(zhì)量問題導(dǎo)致許多預(yù)期需求無法實現(xiàn)。
數(shù)據(jù)治理是一個有效提升數(shù)據(jù)質(zhì)量的行動。數(shù)據(jù)治理的范疇更廣,所以人們認(rèn)為它是“一個系統(tǒng)的、大型的、長期的工程”。目前高校在數(shù)據(jù)治理方面還沒有開始真正意義上的實踐,究其原因,一方面高校還沒有把數(shù)據(jù)治理的重要性提升到戰(zhàn)略高度,另一方面沒有將數(shù)據(jù)治理單獨作為課題研究,沒有形成系統(tǒng)的實施方法論。
觀點
數(shù)據(jù)服務(wù)中涉及到的數(shù)據(jù)質(zhì)量問題,目前主要存在哪些問題?有哪些解決方案?
陸以勤
眾所周知,大數(shù)據(jù)并不等同于“大量數(shù)據(jù)”,對大數(shù)據(jù)進(jìn)行有效分析的前提是必須要保證數(shù)據(jù)的質(zhì)量, 數(shù)據(jù)的質(zhì)量決定了數(shù)據(jù)的可用性和易用性,大量不可用的數(shù)據(jù)垃圾不僅提煉不出有價值的分析結(jié)果,還占用了數(shù)據(jù)存儲資源。
一般面向大數(shù)據(jù)分析的數(shù)據(jù)質(zhì)量可以體現(xiàn)在數(shù)據(jù)的完整性、真實性、精確度、一致性、時效性、容量、面向大規(guī)模分析的存儲方式等。由于大數(shù)據(jù)的來源復(fù)雜、數(shù)據(jù)量大、產(chǎn)生速度快、處理過程多樣等,目前對大數(shù)據(jù)分析的可用性而言質(zhì)量普遍存在問題。
為了保證數(shù)據(jù)的質(zhì)量,在數(shù)據(jù)的整個生命過程要統(tǒng)一規(guī)劃、有效采集、合理存儲。首先要制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),對于采集的新數(shù)據(jù),應(yīng)采用新的標(biāo)準(zhǔn)進(jìn)行采集、清洗和轉(zhuǎn)換,對于現(xiàn)存的數(shù)據(jù),要進(jìn)行一致性校驗、清洗、信息補(bǔ)充等,未來保證數(shù)據(jù)時效性,要保證數(shù)據(jù)采集、傳輸過程的時效性,另外,目前很多大數(shù)據(jù)采用普通云架構(gòu)的存儲方式,這種存儲方式是面向應(yīng)用程序運行的,對于數(shù)據(jù)分析,應(yīng)該采取分布式的存儲方式,以便采取分布式的算法提供分析效率。
宓詠
數(shù)據(jù)質(zhì)量的完善很難一蹴而就,有一個逐步完善的過程,需要改變數(shù)據(jù)屬性的觀念,逐步從“我的數(shù)據(jù)”到“部門的數(shù)據(jù)”再到“學(xué)校的數(shù)據(jù)”,把數(shù)據(jù)從“私有”變?yōu)椤肮小?,共同來維護(hù)數(shù)據(jù)質(zhì)量;
需要完善管理機(jī)制和數(shù)據(jù)標(biāo)準(zhǔn),科學(xué)規(guī)劃,重構(gòu)數(shù)據(jù)基礎(chǔ),以“面向?qū)ο蟆狈绞接袡C(jī)組織教學(xué)、科研、財務(wù)、人事、生活等各類數(shù)據(jù)資源;
關(guān)注數(shù)據(jù)生命周期的四個要素:從哪來?怎么來?到哪去?如何用?
技術(shù)手段上下功夫,降低數(shù)據(jù)收集的成本、盡量能自動從系統(tǒng)中定時獲取數(shù)據(jù);
數(shù)據(jù)管理后端和前端服務(wù)分離,實現(xiàn)“松耦合”化:數(shù)據(jù)的交換、保管等過程,由信息化部門統(tǒng)一操作,數(shù)據(jù)產(chǎn)生(收集)和校驗由用戶與二級單位共同承擔(dān);
由于每個人對自己的數(shù)據(jù)是最清楚的,可以通過向用戶個人開放屬于其本人數(shù)據(jù)的方式,形成倒逼機(jī)制來督促業(yè)務(wù)部門修正錯誤數(shù)據(jù)、改善數(shù)據(jù)質(zhì)量。
陳云
數(shù)據(jù)質(zhì)量管理,是指對數(shù)據(jù)采集、存儲、共享、維護(hù)、應(yīng)用、消亡生命周期中可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識別、度量、監(jiān)控、整改等一系列管理活動,保證數(shù)據(jù)質(zhì)量不斷提高。因此從系統(tǒng)建設(shè)階段到運維階段都涉及到數(shù)據(jù)質(zhì)量的管理工作,建立數(shù)據(jù)從采集、處理到維護(hù)的全過程監(jiān)控體系,確保數(shù)據(jù)的完整性、有效性、準(zhǔn)確性、惟一性、一致性。