摘? 要:大數(shù)據(jù)質(zhì)量評估是大數(shù)據(jù)產(chǎn)業(yè)化道路上較為突出的挑戰(zhàn)之一,故文章基于重慶工商大學(xué)2019年研究生創(chuàng)新型科研項目和數(shù)理統(tǒng)計團隊培養(yǎng)項目,對大數(shù)據(jù)質(zhì)量評估方法進行深入研究。首先,通過對大數(shù)據(jù)質(zhì)量評估的現(xiàn)有方法進行簡要綜述,選取數(shù)據(jù)生命周期分析研究視角;其次,分析大數(shù)據(jù)質(zhì)量的影響因素,從原始質(zhì)量、過程質(zhì)量和結(jié)果質(zhì)量3個維度確定了15個大數(shù)據(jù)質(zhì)量度量指標;最后,運用層次分析法和專家打分法建立大數(shù)據(jù)質(zhì)量評估模型。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)質(zhì)量;質(zhì)量評估;綜合評價
Abstract:Big data quality assessment is one of the more prominent challenges on the road to big data industrialization. Therefore,based on the 2019 graduate innovative scientific research project and mathematical statistics team training project of Chongqing Technology and Business University,in-depth research on big data quality assessment methods is carried out. First,through a brief review of the existing methods of big data quality assessment and selecting a data life-cycle analysis research perspective;secondly,the influencing factors of big data quality are analyzed,and 15 big data quality measurement indexes are determined from three dimensions of original quality,process quality and result quality. Finally,a big data quality evaluation model is established by using AHP and expert scoring method.
Keywords:big data;data quality;quality assessment;comprehensive evaluation
0? 引? 言
當(dāng)前,我國大數(shù)據(jù)產(chǎn)業(yè)蓬勃發(fā)展,但也面臨著諸多挑戰(zhàn)。例如,宗威和吳鋒[1]指出,定義的統(tǒng)一性、數(shù)據(jù)質(zhì)量問題、數(shù)據(jù)存儲技術(shù)、數(shù)據(jù)分析方法是大數(shù)據(jù)為中國甚至全世界企業(yè)提出的挑戰(zhàn)。李學(xué)龍[2]表示,目前大數(shù)據(jù)系統(tǒng)面臨著冗余縮減和數(shù)據(jù)壓縮、數(shù)據(jù)生存周期管理等挑戰(zhàn),亟需評估大數(shù)據(jù)的數(shù)據(jù)質(zhì)量。王宏志[3]指出,由于大數(shù)據(jù)具有“4V”特征,其更易產(chǎn)生數(shù)據(jù)質(zhì)量問題。
數(shù)據(jù)質(zhì)量的好壞,將決定數(shù)據(jù)分析結(jié)果的有效性,并引導(dǎo)管理者作出相應(yīng)決策。一旦數(shù)據(jù)質(zhì)量惡劣,必將對決策產(chǎn)生誤導(dǎo),對企業(yè)甚至社會造成不利影響。因此,亟需學(xué)界和業(yè)界加強對大數(shù)據(jù)質(zhì)量管理的研究,提出有效的評估方法和管理系統(tǒng)等。目前,不少學(xué)者圍繞大數(shù)據(jù)質(zhì)量評估展開了研究,取得了一系列的研究成果,然而,大數(shù)據(jù)正處于發(fā)展上升期,其發(fā)展的同時也產(chǎn)生了新的問題,給數(shù)據(jù)質(zhì)量評估帶了新的研究機遇。
為此,筆者基于重慶工商大學(xué)2019年研究生創(chuàng)新型科研項目和數(shù)理統(tǒng)計團隊培養(yǎng)項目,對大數(shù)據(jù)質(zhì)量評估方法進行深入研究。現(xiàn)對大數(shù)據(jù)質(zhì)量評估的現(xiàn)有方法進行簡要綜述,分析大數(shù)據(jù)質(zhì)量的影響因素,并采取適當(dāng)?shù)氖侄谓⒒诖髷?shù)據(jù)的數(shù)據(jù)質(zhì)量評估方法,以便用戶對數(shù)據(jù)進行判斷和抉擇,進而提高大數(shù)據(jù)的使用價值。
1? 大數(shù)據(jù)質(zhì)量評估方法研究現(xiàn)狀
1.1? 大數(shù)據(jù)及其質(zhì)量的內(nèi)涵
近年來,研究人員對大數(shù)據(jù)的研究愈發(fā)深入,大數(shù)據(jù)的定義與特征呈現(xiàn)多元化。例如,研究機構(gòu)Gartner[4]給出的定義是:大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。彭宇[5]等認為,大數(shù)據(jù)是一種對數(shù)據(jù)管理和處理技術(shù)要求更高,且能反映“大決策”“大知識”“大問題”的數(shù)據(jù)集。劉洋[6]指出,大數(shù)據(jù)是常規(guī)軟件及工作難以在規(guī)定時間內(nèi)對海量數(shù)據(jù)進行收集、處理和整理時,需要依托全新的處理方法才能實現(xiàn)更強的決策力、洞察力、高增長率以及多樣化的信息資產(chǎn)。目前,在大數(shù)據(jù)定義問題上,學(xué)界與業(yè)界仍難以形成統(tǒng)一共識,但有一點是頗受其廣泛認可的,即利用大數(shù)據(jù)的特征,將其歸納總結(jié),形成大數(shù)據(jù)的定義。
關(guān)于大數(shù)據(jù)的特征,主要有“3V”“4V”“5V”之說?!?V”是指大數(shù)據(jù)具有規(guī)模性(Volume)、多樣性(Variety)、高速性(Velocity)。李敬華[7]認為大數(shù)據(jù)具有“4個V”的基本特征,即體量浩大(Volume)、模態(tài)繁多(Variety)、生成快速(Velocity)和價值巨大但密度很低(Value),且具有來源多樣、實時、多元的信息化特點。IBM[8]提出了大數(shù)據(jù)的“5V”特征,即數(shù)據(jù)量大(Volume)、種類多樣(Variety)、價值密度低(Value)、數(shù)據(jù)增長快(Velocity)、具有真實性(Veracity)。
本文以大數(shù)據(jù)“4V”特征為基礎(chǔ)進行相關(guān)研究,即一是數(shù)據(jù)規(guī)模大,數(shù)據(jù)量通常超過10 TB;二是數(shù)據(jù)種類多,包含有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等,且半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)約占大數(shù)據(jù)的80%;三是數(shù)據(jù)價值密度低,亟需借助強大的機器算法來進行數(shù)據(jù)挖掘;四是數(shù)據(jù)具有高速性,主要體現(xiàn)在其增長速度、處理速度和時效性方面。鑒于此,大數(shù)據(jù)的本質(zhì)是一個相對概念,是指隨著物聯(lián)網(wǎng)等新興技術(shù)的發(fā)展,經(jīng)濟社會領(lǐng)域的數(shù)據(jù)發(fā)生巨變,其規(guī)模、種類和處理要求難以適應(yīng)傳統(tǒng)技術(shù)以進行數(shù)據(jù)分析解決的數(shù)據(jù)集。
根據(jù)上述所言的大數(shù)據(jù)的定義和特征,并結(jié)合傳統(tǒng)統(tǒng)計數(shù)據(jù)質(zhì)量的內(nèi)涵,對大數(shù)據(jù)質(zhì)量內(nèi)涵進行研究。首先,大數(shù)據(jù)的質(zhì)量是一個多維概念,這決定了其評價維度與評價指標的多樣性和復(fù)雜性;其次,根據(jù)質(zhì)量的概念,大數(shù)據(jù)的質(zhì)量亦要考慮主體和客體,即不僅要考量數(shù)據(jù)自身屬性,也要考量其能否滿足用戶的應(yīng)用需求;最后,大數(shù)據(jù)的質(zhì)量不同于傳統(tǒng)統(tǒng)計數(shù)據(jù),其更加關(guān)注數(shù)據(jù)在數(shù)據(jù)生命周期中產(chǎn)生的質(zhì)量問題,這為深入研究大數(shù)據(jù)質(zhì)量評估方法提供了重要視角。
1.2? 大數(shù)據(jù)質(zhì)量的評價方法及模型
大數(shù)據(jù)的質(zhì)量是多維度的。部分學(xué)者基于不同應(yīng)用環(huán)境或不同視界,建立了大數(shù)據(jù)質(zhì)量評價體系和評價模型。
基于表征數(shù)據(jù)質(zhì)量特征,美國普查局[9]將數(shù)據(jù)質(zhì)量歸納為如下幾個方面:準確性、一致性、透明度、代表性、完整性、安全性、持續(xù)性。王力和周曉劍[10]認為,數(shù)據(jù)質(zhì)量是由可得性、可用性、可靠性、相關(guān)性、外觀質(zhì)量5個維度構(gòu)成的。劉金晶和曹文潔[11]則提出從完整性、一致性、準確性和及時性4個方面進行度量。丁小歐[12]等對不同數(shù)據(jù)質(zhì)量性質(zhì)進行歸納總結(jié),將數(shù)據(jù)質(zhì)量維度分為核心與外圍,并對核心指標進行細化,同時對所有核心指標做相關(guān)分析,進而建立數(shù)據(jù)質(zhì)量綜合評價框架。基于數(shù)據(jù)生命周期,莫祖英[13]則將大數(shù)據(jù)質(zhì)量劃分為原始質(zhì)量、過程質(zhì)量和結(jié)果質(zhì)量,并提出不同的測度指標,利用專家打分和問卷調(diào)查確定權(quán)重,進而建立大數(shù)據(jù)質(zhì)量綜合評價模型。黃永鑫[14]提出了“3As”模型,該模型利用上下文充分性、操作充分性和時間充足性這3個數(shù)據(jù)質(zhì)量特征來評估大數(shù)據(jù)的使用質(zhì)量水平。基于數(shù)據(jù)使用問題,李建中[15]等人從大數(shù)據(jù)眾多的質(zhì)量評價指標中抽象出一致性、精確性、完整性、時效性、實體同一性這5個指標,認為其具有實際可行性。黃鶯[16]以美國學(xué)者Bruce 和Hillman提出的模型為基礎(chǔ),提出以完整性、準確性、一致性和期望滿足度為核心的兩層結(jié)構(gòu)模型。
因半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)在大數(shù)據(jù)中占比較大,不少研究人員針對此類數(shù)據(jù)進行研究。韓京宇和陳可佳[17]基于事實抽取評估數(shù)據(jù)的準確性和完整性,在Web上構(gòu)建目標文檔上下文。湯莉和何麗[18]提出基于PAC-Bayes理論的Web文檔數(shù)據(jù)質(zhì)量評估方法。余芳東[19]將數(shù)據(jù)質(zhì)量保證框架分為數(shù)據(jù)源條件、元數(shù)據(jù)和數(shù)據(jù)3個維度,每個維度包括若干個質(zhì)量要素。趙星[20]等提出基于質(zhì)量標準度量的全數(shù)據(jù)質(zhì)量評估方法,從而評估互聯(lián)網(wǎng)平臺中的大數(shù)據(jù)質(zhì)量。
此外,唐繼仲[21]運用分類和聚類等方法對數(shù)據(jù)質(zhì)量進行評估。Lin[22]等提出用以評估多元異構(gòu)數(shù)據(jù)源質(zhì)量的數(shù)據(jù)源概率覆蓋模型。李紅[23]基于對數(shù)線性與雙系統(tǒng)估計方法建立數(shù)據(jù)融合質(zhì)量評價模型。
可見,現(xiàn)有大數(shù)據(jù)質(zhì)量評估方法通常利用綜合評價和聚類思想,其評估視角絕大多數(shù)基于數(shù)據(jù)質(zhì)量表征和數(shù)據(jù)生命周期,重點研究社會各界極為關(guān)切的大數(shù)據(jù)使用質(zhì)量。部分學(xué)者探索如何解決多數(shù)據(jù)源融合、覆蓋時產(chǎn)生的大數(shù)據(jù)質(zhì)量問題。為能全方面評估大數(shù)據(jù)的數(shù)據(jù)質(zhì)量,本文將基于數(shù)據(jù)生命周期提出大數(shù)據(jù)質(zhì)量評估方法,并構(gòu)建相應(yīng)模型。
2? 大數(shù)據(jù)質(zhì)量評估方法及模型建立
2.1? 大數(shù)據(jù)質(zhì)量度量指標分析
首先,ISO20000將大數(shù)據(jù)生命周期劃分為6個階段:數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)傳輸、數(shù)據(jù)交換和數(shù)據(jù)銷毀,其數(shù)據(jù)質(zhì)量評估主要聚焦前5個階段。其次,對應(yīng)大數(shù)據(jù)生命周期,莫祖英提出從原始質(zhì)量、過程質(zhì)量和結(jié)果質(zhì)量來評估大數(shù)據(jù)質(zhì)量較為科學(xué)全面,故本文將基于此進一步改進評估方法。最后,現(xiàn)從原始質(zhì)量、過程質(zhì)量和結(jié)果質(zhì)量3個方面分析,明確大數(shù)據(jù)質(zhì)量度量指標。
2.1.1? 原始質(zhì)量
大數(shù)據(jù)的原始質(zhì)量指數(shù)據(jù)采集階段獲得的數(shù)據(jù)的初始狀態(tài)。此時,大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)無異,故運用以下5個傳統(tǒng)數(shù)據(jù)質(zhì)量度量指標進行測度:
(1)一致性。一致性包括數(shù)據(jù)定義的一致性、時間的一致性和數(shù)據(jù)間邏輯關(guān)系合理。首先,大數(shù)據(jù)種類繁多,在數(shù)據(jù)采集時需進行統(tǒng)一的數(shù)據(jù)定義,便于多種數(shù)據(jù)集成處理。其次,無論采集的數(shù)據(jù)是截面數(shù)據(jù)還是面板數(shù)據(jù),均要確保時間的一致性。最后,采集的數(shù)據(jù)間應(yīng)滿足存在的邏輯關(guān)系,側(cè)面反映數(shù)據(jù)的實體同一性。
(2)完整性。一方面指數(shù)據(jù)內(nèi)容完整,無缺失數(shù)據(jù);另一方面指數(shù)據(jù)屬性完整,能夠滿足數(shù)據(jù)分析要求和用戶使用需求。其中,數(shù)據(jù)缺失率低于10%,屬于可接受范圍,后續(xù)可剔除該數(shù)據(jù),或利用樣本統(tǒng)計量的值、統(tǒng)計模型計算出來的值來替代。
(3)時效性。時效性指數(shù)據(jù)采集速率和數(shù)據(jù)采集時間的有效性。大數(shù)據(jù)的“4V”特征包含規(guī)模性(Volume)和高速性(Velocity)。時間就是金錢,而且采集數(shù)據(jù)的目的是挖掘當(dāng)前數(shù)據(jù)潛在的價值,為未來發(fā)展提供決策依據(jù),這就要求在采集大數(shù)據(jù)時須快速便捷,盡可能跑贏其增長速率,進而采集到最新數(shù)據(jù)。
(4)規(guī)范性。即指數(shù)據(jù)源的規(guī)范性。數(shù)據(jù)源的規(guī)范性是保證獲取有效大數(shù)據(jù)的重要因素。然而,在萬物互聯(lián)的時代,數(shù)據(jù)源種類愈發(fā)豐富,但也面臨良莠不齊的情況。因此,需對數(shù)據(jù)源的規(guī)范性進行評估。
(5)安全穩(wěn)定性。一方面是指數(shù)據(jù)源的安全穩(wěn)定,確保其能源源不斷地提供所需數(shù)據(jù);另一方面則指數(shù)據(jù)采集過程的安全穩(wěn)定,通過改變采集方式和專業(yè)軟件,能夠提高此過程的安全穩(wěn)定性。
2.1.2? 過程質(zhì)量
大數(shù)據(jù)的過程質(zhì)量是指初始數(shù)據(jù)通過數(shù)據(jù)存儲、數(shù)據(jù)處理和數(shù)據(jù)傳輸?shù)入A段發(fā)生變化的數(shù)據(jù)質(zhì)量。在此過程中,影響大數(shù)據(jù)質(zhì)量的因素主要是技術(shù)方面問題,具體體現(xiàn)為如下質(zhì)量度量指標:
(1)一致性。過程質(zhì)量的一致性不同于原始質(zhì)量,其指的是在存儲、處理和傳輸?shù)冗^程中,同一實體的數(shù)據(jù)是否保持一致,避免數(shù)據(jù)錯位的現(xiàn)象出現(xiàn)。
(2)完整性。缺失值產(chǎn)生的主要原因之一是由于數(shù)據(jù)保存失敗造成的,比如數(shù)據(jù)存儲失敗、存儲器損壞、機械故障導(dǎo)致某段時間數(shù)據(jù)傳輸失敗等。因此,在數(shù)據(jù)存儲、數(shù)據(jù)處理和數(shù)據(jù)傳輸?shù)拳h(huán)節(jié),務(wù)必要檢驗數(shù)據(jù)的完整性。
(3)時效性。時效性是指數(shù)據(jù)的存儲速率、讀取速率和傳輸速率等。面對海量數(shù)據(jù),存儲器能否在較短時間內(nèi)完成存儲或調(diào)用,為下一步的數(shù)據(jù)分析或挖掘提供有力基礎(chǔ)。
(4)適用性。大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的差異之一是大數(shù)據(jù)的數(shù)據(jù)種類繁多,且多為半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。針對大數(shù)據(jù)這一特性,存儲器能否適用于半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)至關(guān)重要。存儲器的適用性越好,將越能使數(shù)據(jù)保持原始質(zhì)量,避免質(zhì)量損耗。
(5)安全穩(wěn)定性。面對海量數(shù)據(jù),業(yè)界運用云存儲、云計算等新興技術(shù)進行相關(guān)研究。然而,大數(shù)據(jù)作為數(shù)字產(chǎn)品含有巨大價值,并涉及社會公眾群體的隱私。出于商業(yè)利益和法律要求,安全穩(wěn)定性是衡量大數(shù)據(jù)質(zhì)量的必備要素。過程質(zhì)量維度下,安全穩(wěn)定性主要體現(xiàn)為存儲和傳輸安全穩(wěn)定。
(6)預(yù)處理效果。在數(shù)據(jù)存儲、數(shù)據(jù)處理和數(shù)據(jù)傳輸?shù)拳h(huán)節(jié),數(shù)據(jù)存儲或?qū)⒔档驮紨?shù)據(jù)質(zhì)量,而數(shù)據(jù)處理可改善原始數(shù)據(jù)質(zhì)量,其改善效果取決于數(shù)據(jù)預(yù)處理效果。
(7)經(jīng)濟可行性。隨著我國大數(shù)據(jù)的蓬勃發(fā)展,數(shù)據(jù)存儲和傳輸方面的技術(shù)問題已取得重大突破,但相關(guān)技術(shù)的經(jīng)濟可行性決定了大數(shù)據(jù)產(chǎn)品質(zhì)量的下限。
2.1.3? 結(jié)果質(zhì)量
大數(shù)據(jù)的結(jié)果質(zhì)量則指數(shù)據(jù)交換時的數(shù)據(jù)質(zhì)量。此時,相關(guān)人員運用機器學(xué)習(xí)等算法對預(yù)處理后的數(shù)據(jù)進行數(shù)據(jù)分析或數(shù)據(jù)挖掘,得到分析結(jié)果,以供用戶購買交換。在結(jié)果質(zhì)量維度中,大數(shù)據(jù)作為產(chǎn)品,應(yīng)高度重視用戶需求,故提出如下數(shù)據(jù)質(zhì)量度量指標:
(1)分析方法優(yōu)劣性。從多源異構(gòu)且價值密度低的海量數(shù)據(jù)中挖掘有效信息,為決策者提供數(shù)據(jù)支撐,是大數(shù)據(jù)的產(chǎn)品定位。然而,面對大數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)分析方法正在逐漸失效,為此,業(yè)界積極探索機器學(xué)習(xí)等新興算法或不斷創(chuàng)新改進傳統(tǒng)的數(shù)據(jù)分析方法。數(shù)據(jù)分析方法的優(yōu)劣性,將影響分析結(jié)果的精確性。
(2)可讀性。通常為增強可讀性,將分析結(jié)果進行可視化展現(xiàn)。因為使用圖表可以化冗長為簡潔,化抽象為具體,化深奧為形象,使用戶更易理解主題和觀點。同時,通過對圖表中數(shù)據(jù)的顏色和字體等信息的特別設(shè)置,可突出分析結(jié)果中的重點。
(3)用戶需求契合度。大數(shù)據(jù)應(yīng)用領(lǐng)域十分廣泛,例如經(jīng)濟、交通、網(wǎng)絡(luò)輿情等。這意味著其用戶群體的多樣性,而不同用戶群體對大數(shù)據(jù)的需求各異。為此,在評估結(jié)果質(zhì)量時,需考慮數(shù)據(jù)是否滿足用戶的特殊需求。
2.2? 大數(shù)據(jù)質(zhì)量評估模型建立
經(jīng)上述分析,共確定15個大數(shù)據(jù)質(zhì)量度量指標?,F(xiàn)基于此,利用層次分析方法建立了大數(shù)據(jù)質(zhì)量評估模型。通過專家打分法確定原始質(zhì)量等3個維度和15個數(shù)據(jù)質(zhì)量度量指標的權(quán)重,結(jié)果如圖1所示。其中,各大數(shù)據(jù)質(zhì)量度量指標計算方式如下。
(1)一致性。設(shè)Xij為第i個樣本的第j個屬性值,其中i=1,…,n,j=1,…,m。則數(shù)據(jù)的一致性表示為:
其中IA為隸屬函數(shù),Aj為第j個屬性值的指定編碼方式,fj(Xij)為第j個屬性與第1個屬性間的轉(zhuǎn)換函數(shù)。
(2)完整性。數(shù)據(jù)的完整性=0.5×缺失值率+0.5×上下文關(guān)聯(lián)性。
另外,余下的數(shù)據(jù)質(zhì)量度量指標中,原始質(zhì)量和過程質(zhì)量維度由第三方評估機構(gòu)打分確定,結(jié)果質(zhì)量維度則由用戶打分來確定,滿分為100分,折算比例為100:1。
3? 結(jié)? 論
本文對大數(shù)據(jù)質(zhì)量內(nèi)涵和質(zhì)量評估方法進行簡要綜述,分析認為大數(shù)據(jù)實質(zhì)是一個相對概念,是指數(shù)據(jù)集規(guī)模、種類和數(shù)據(jù)處理要求等發(fā)生巨變,難以用傳統(tǒng)技術(shù)進行數(shù)據(jù)分析解決的數(shù)據(jù)集,其質(zhì)量內(nèi)核主要有如下3點:大數(shù)據(jù)的質(zhì)量是多維的;大數(shù)據(jù)的質(zhì)量不僅要考量數(shù)據(jù)自身屬性,也要考量其能否滿足應(yīng)用需求;大數(shù)據(jù)更注重數(shù)據(jù)在數(shù)據(jù)生命周期中產(chǎn)生的質(zhì)量問題。因此,本文基于數(shù)據(jù)生命周期分析,分析大數(shù)據(jù)質(zhì)量的影響因素,從原始質(zhì)量、過程質(zhì)量和結(jié)果質(zhì)量3個維度確定了15個大數(shù)據(jù)質(zhì)量度量指標,并運用層次分析法和專家打分法建立大數(shù)據(jù)質(zhì)量評估模型。此評估模型完善了大數(shù)據(jù)評估框架,但二級指標度量多運用專家打分和用戶調(diào)研,主觀性較強,有待學(xué)界進一步改進。
參考文獻:
[1] 宗威,吳鋒.大數(shù)據(jù)時代下數(shù)據(jù)質(zhì)量的挑戰(zhàn) [J].西安交通大學(xué)學(xué)報:社會科學(xué)版,2013,33(5):38-43.
[2] 李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述 [J].中國科學(xué):信息科學(xué),2015,45(1):1-44.
[3] 王宏志.大數(shù)據(jù)質(zhì)量管理:問題與研究進展 [J].科技導(dǎo)報,2014,32(34):78-84.
[4] Gartner. Information Technology-Gartner Glossary-Big Data[EB/OL].[2020-04-12].http://www.gartner.com/en/information-technology/glossary/big-data.
[5] 彭宇,龐景月,劉大同,等.大數(shù)據(jù):內(nèi)涵、技術(shù)體系與展望 [J].電子測量與儀器學(xué)報,2015,29(4):469-482.
[6] 劉洋.基于計算機的大數(shù)據(jù)和云計算技術(shù)分析 [J].無線互聯(lián)科技,2020,17(7):75-77.
[7] 李敬華,賈蓓,李倩茹.傳統(tǒng)統(tǒng)計數(shù)據(jù)和大數(shù)據(jù)內(nèi)涵辨析 [J].電信快報,2016(9):40-43.
[8] IBM.什么是大數(shù)據(jù)[EB/OL].(2013-02-26).https://www.ibm.com/products/software.
[9] CAPPS C,WRIGHT T. Toward a Vision:Official Statistics and Big Data [J]. AMSTAT news,2013(434):9-13.
[10] 王力,周曉劍.大數(shù)據(jù)質(zhì)量評估的標準及過程研究 [J].經(jīng)營與管理,2018(4):84-88.
[11] 劉金晶,曹文潔.大數(shù)據(jù)環(huán)境下的數(shù)據(jù)質(zhì)量管理策略 [J].軟件導(dǎo)刊,2017,16(3):176-179.
[12] 丁小歐,王宏志,張笑影,等.數(shù)據(jù)質(zhì)量多種性質(zhì)的關(guān)聯(lián)關(guān)系研究 [J].軟件學(xué)報,2016,27(7):1626-1644.
[13] 莫祖英.大數(shù)據(jù)質(zhì)量測度模型構(gòu)建 [J].情報理論與實踐,2018,41(3):11-15.
[14] 黃永鑫,郭彥辰.大數(shù)據(jù)的數(shù)據(jù)使用質(zhì)量評價研究 [J].電子技術(shù)與軟件工程,2018(23):173-174.
[15] 李建中,王宏志,高宏.大數(shù)據(jù)可用性的研究進展 [J].軟件學(xué)報,2016,27(7):1605-1625.
[16] 黃鶯,李建陽.元數(shù)據(jù)質(zhì)量評估方法及模型研究 [J].圖書館學(xué)研究,2013(12):52-56+51.
[17] 韓京宇,陳可佳.基于事實抽取的Web文檔內(nèi)容數(shù)據(jù)質(zhì)量評估 [J].計算機科學(xué),2014,41(11):247-251+255.
[18] 湯莉,何麗.基于PAC-Bayes理論的Web文檔數(shù)據(jù)質(zhì)量評估方法 [J].計算機工程與科學(xué),2017,39(3):572-579.
[19] 余芳東.非傳統(tǒng)數(shù)據(jù)質(zhì)量評估的國際經(jīng)驗及借鑒 [J].統(tǒng)計研究,2017,34(12):15-23.
[20] 趙星,李石君,余偉,等.大數(shù)據(jù)環(huán)境下Web數(shù)據(jù)源質(zhì)量評估方法研究 [J].計算機工程,2017,43(2):48-56.
[21] 唐繼仲.數(shù)據(jù)質(zhì)量評估與提升方法及應(yīng)用研究 [D].上海:上海交通大學(xué),2015.
[22] LIN Y,WANG H,LI J,et al.Data Source Selection for Information Integration in Big Data Era [J].Information Sciences,2018,479:197-213.
[23] 李紅,牛成英,孫秋碧,等.大數(shù)據(jù)時代數(shù)據(jù)融合質(zhì)量的評價模型 [J].統(tǒng)計與決策,2018,34(21):10-14.
作者簡介:周艷紅(1996—),女,漢族,浙江臺州人,碩士研究生在讀,研究方向:統(tǒng)計理論與方法。