當(dāng)前大數(shù)據(jù)對(duì)科學(xué)和產(chǎn)業(yè)產(chǎn)生了巨大影響,大數(shù)據(jù)的質(zhì)量對(duì)其有效應(yīng)用起著至關(guān)重要的作用。大數(shù)據(jù)的規(guī)模性、高速性和數(shù)據(jù)來(lái)源及形式上的多樣,使數(shù)據(jù)有更大可能產(chǎn)生不一致和沖突。這些都導(dǎo)致大數(shù)據(jù)存在質(zhì)量問(wèn)題,需要對(duì)大數(shù)據(jù)進(jìn)行質(zhì)量管理。目前大數(shù)據(jù)的質(zhì)量管理包括:實(shí)體識(shí)別和基于規(guī)則、基于主數(shù)據(jù)的錯(cuò)誤發(fā)現(xiàn)等。然而,大數(shù)據(jù)的特點(diǎn)為數(shù)據(jù)質(zhì)量管理帶來(lái)很多技術(shù)挑戰(zhàn)。眾多學(xué)者提出了解決方法:針對(duì)計(jì)算困難,采取并行化技術(shù)實(shí)施數(shù)據(jù)質(zhì)量管理,為數(shù)據(jù)清洗設(shè)計(jì)線性、亞線性的算法;針對(duì)混雜錯(cuò)誤,進(jìn)行復(fù)合類型錯(cuò)誤的檢測(cè)和修復(fù);針對(duì)知識(shí)缺少,通過(guò)眾包技術(shù)進(jìn)行數(shù)據(jù)質(zhì)量管理。但是,大數(shù)據(jù)質(zhì)量管理仍存在不足:缺乏對(duì)數(shù)據(jù)質(zhì)量多維度相互影響的深入認(rèn)識(shí),尚無(wú)高效數(shù)據(jù)錯(cuò)誤檢測(cè)與修復(fù)算法設(shè)計(jì),劣質(zhì)數(shù)據(jù)近似計(jì)算理論與算法有待進(jìn)一步研究。