段 成
(北京神舟航天軟件技術(shù)有限公司,北京 100094)
近年來(lái),隨著制造業(yè)信息化和工業(yè)化的不斷融合,我國(guó)迎來(lái)了以智能制造為主體的新一輪工業(yè)革命。制造業(yè)是增強(qiáng)國(guó)家綜合國(guó)力和國(guó)際競(jìng)爭(zhēng)力的根本保障,世界制造強(qiáng)國(guó)紛紛加快智能制造戰(zhàn)略布局和規(guī)劃,無(wú)論是德國(guó)提出的“工業(yè)4.0”戰(zhàn)略,美國(guó)提出的“工業(yè)互聯(lián)網(wǎng)”,英國(guó)提出的“制造2050”計(jì)劃,法國(guó)提出的“新工業(yè)法國(guó)”戰(zhàn)略,日本提出的“智能制造系統(tǒng)”國(guó)際合作計(jì)劃,還是我國(guó)提出的實(shí)施“中國(guó)制造2025”行動(dòng)計(jì)劃,它們的主要特征都是基于CPS(cyber physical systems)實(shí)現(xiàn)對(duì)人、機(jī)、物的實(shí)時(shí)狀態(tài)的全面感知,對(duì)海量異構(gòu)的工業(yè)現(xiàn)場(chǎng)數(shù)據(jù)和信息進(jìn)行智能分析并處理,推動(dòng)制造業(yè)向基于工業(yè)大數(shù)據(jù)分析與應(yīng)用智能化的產(chǎn)品需求、設(shè)計(jì)、制造、銷(xiāo)售及服務(wù)的轉(zhuǎn)型。
工業(yè)大數(shù)據(jù)是智能制造的引擎,蘊(yùn)含著巨大的經(jīng)濟(jì)社會(huì)價(jià)值。麥肯錫報(bào)告認(rèn)為:大數(shù)據(jù)能夠幫助制造商提高設(shè)計(jì)和生產(chǎn)效率,降低缺陷和返工,更好地滿足客戶需求和進(jìn)行有效的營(yíng)銷(xiāo)[1]。以波音公司飛機(jī)系統(tǒng)為例,波音737發(fā)動(dòng)機(jī)在飛行過(guò)程中每30min就能產(chǎn)生10TB數(shù)據(jù),這些數(shù)據(jù)被有效用于故障診斷和預(yù)測(cè)[2]。工業(yè)大數(shù)據(jù)是由工業(yè)領(lǐng)域信息化應(yīng)用所產(chǎn)生的海量數(shù)據(jù)組成[3]。制造業(yè)的工業(yè)大數(shù)據(jù)來(lái)源涉及產(chǎn)品全生命周期的需求設(shè)計(jì)、原材料采購(gòu)、生產(chǎn)制造、倉(cāng)儲(chǔ)物流、銷(xiāo)售售后、報(bào)廢回收等環(huán)節(jié),包括傳感器、工控系統(tǒng)、MES(manufacturing execution system)、ERP(enterprise resource planning)、CAX(computer-aided technologies)、PDM(product data management)、SCM(supply chain management)、CRM(customer relationship management)等相關(guān)工業(yè)信息化應(yīng)用,數(shù)據(jù)的多源和類(lèi)型的多樣性導(dǎo)致數(shù)據(jù)情況十分復(fù)雜。由于采集系統(tǒng)缺陷、鏈路問(wèn)題、硬件故障、模型參數(shù)錯(cuò)誤、人為因素等主客觀原因造成了數(shù)據(jù)質(zhì)量問(wèn)題不可避免地廣泛存在,而低劣的數(shù)據(jù)將導(dǎo)致大數(shù)據(jù)分析出現(xiàn)偏差,可直接導(dǎo)致生產(chǎn)事故或錯(cuò)誤決策,給企業(yè)經(jīng)營(yíng)發(fā)展造成不利影響。擁有高質(zhì)量的數(shù)據(jù)是發(fā)揮工業(yè)大數(shù)據(jù)效能的前提條件,只有從高質(zhì)量數(shù)據(jù)中挖掘出隱含的、有用的信息,才能更好地為企業(yè)的經(jīng)營(yíng)決策服務(wù)[4]。數(shù)據(jù)質(zhì)量控制是工業(yè)大數(shù)據(jù)分析應(yīng)用的關(guān)鍵問(wèn)題之一。
智能制造背景下的工業(yè)大數(shù)據(jù)呈現(xiàn)典型的大數(shù)據(jù)“4V”特征,具體表現(xiàn)在以下4個(gè)方面:第一,數(shù)據(jù)量大(volume)。隨著設(shè)備感知數(shù)據(jù)的廣泛接入,一些企業(yè)的數(shù)據(jù)量甚至可達(dá)到EB級(jí)別。第二,高速生成(velocity)。設(shè)備高速運(yùn)轉(zhuǎn),數(shù)據(jù)產(chǎn)生和采集頻率(如機(jī)床的輸出功率、動(dòng)態(tài)切削力、主軸振動(dòng)、扭矩等)可達(dá)到毫秒級(jí)。第三,模態(tài)多樣(variety)。工業(yè)大數(shù)據(jù)的類(lèi)型豐富多樣,涉及結(jié)構(gòu)化(如產(chǎn)品開(kāi)發(fā)、人財(cái)物、產(chǎn)供銷(xiāo)、客戶及用戶等)、半結(jié)構(gòu)化(如HTML頁(yè)面、XML文本、報(bào)表等)及非結(jié)構(gòu)化(如工況、文檔、圖形、音視頻等)數(shù)據(jù)。第四,價(jià)值密度低(value)。工業(yè)大數(shù)據(jù)的價(jià)值密度分布極為不均,存在著“二八法則”,20%的結(jié)構(gòu)化數(shù)據(jù)占有80%的價(jià)值密度,而80%的非結(jié)構(gòu)化數(shù)據(jù)僅占有20%的價(jià)值密度,價(jià)值密度低但蘊(yùn)藏著巨大的價(jià)值。此外工業(yè)大數(shù)據(jù)還具有數(shù)據(jù)之間關(guān)聯(lián)性強(qiáng),動(dòng)態(tài)多時(shí)空時(shí)間序列性,對(duì)數(shù)據(jù)采集、存儲(chǔ)、處理實(shí)時(shí)性要求高等特征[5]。工業(yè)大數(shù)據(jù)的主要特征如圖1所示。
圖1 工業(yè)大數(shù)據(jù)的主要特征
隨著大數(shù)據(jù)時(shí)代的來(lái)臨,人們?cè)谙硎艽髷?shù)據(jù)帶來(lái)價(jià)值的同時(shí),也深受數(shù)據(jù)質(zhì)量問(wèn)題的困擾,大數(shù)據(jù)的數(shù)據(jù)質(zhì)量問(wèn)題普遍存在,與社交媒體、醫(yī)療、教育、金融等行業(yè)應(yīng)用相比,工業(yè)領(lǐng)域應(yīng)用對(duì)分析結(jié)果的準(zhǔn)確度要求更高,因而對(duì)大數(shù)據(jù)的質(zhì)量要求也更高。工業(yè)大數(shù)據(jù)的上述特征使得數(shù)據(jù)質(zhì)量的問(wèn)題更為突出。
ISO 9000將產(chǎn)品定義為“過(guò)程”的結(jié)果,質(zhì)量定義為一組固有特性滿足要求的能力。MIT(massachusetts institute of technology)研究者WANG將數(shù)據(jù)(信息)看作為產(chǎn)品,將制造業(yè)傳統(tǒng)的產(chǎn)品全面質(zhì)量管理TQM(total quality management)技術(shù)引入到數(shù)據(jù)質(zhì)量管理中,提出全面數(shù)據(jù)質(zhì)量管理TDQM(total data quality management)方法[6]。智能制造背景下,工業(yè)大數(shù)據(jù)是CPS(cyber physical systems)的輸入原料、中間產(chǎn)品和最終產(chǎn)品,工業(yè)大數(shù)據(jù)質(zhì)量可以被定義為:一組工業(yè)大數(shù)據(jù)的質(zhì)量特性滿足產(chǎn)品的需求、設(shè)計(jì)、生產(chǎn)、制造、銷(xiāo)售及維護(hù)等過(guò)程的能力。工業(yè)大數(shù)據(jù)的數(shù)據(jù)質(zhì)量特性與具體應(yīng)用對(duì)象相關(guān),可用一組維度來(lái)度量,核心的指標(biāo)可以包括以下幾個(gè)方面。
1)數(shù)據(jù)精確性:刻畫(huà)數(shù)據(jù)測(cè)量值與實(shí)際值的符合程度。例如,環(huán)境溫度實(shí)際數(shù)據(jù)是24.8℃,而測(cè)量值是23℃,則該數(shù)據(jù)偏差較大,精度不夠。
2)數(shù)據(jù)完整性:刻畫(huà)數(shù)據(jù)支持各類(lèi)應(yīng)用,可追溯來(lái)源,不存在缺失的程度。例如,傳感器或鏈路故障,使得一段時(shí)間生產(chǎn)過(guò)程數(shù)據(jù)的缺失,可能導(dǎo)致數(shù)據(jù)分析出現(xiàn)偏差。
3)數(shù)據(jù)一致性:刻畫(huà)數(shù)據(jù)不存在不合語(yǔ)義的錯(cuò)誤,關(guān)聯(lián)邏輯關(guān)系的相容的程度。例如,設(shè)備臺(tái)賬信息中,將設(shè)備A的編碼錯(cuò)誤地記錄為設(shè)備B的編碼。
4)數(shù)據(jù)時(shí)效性:刻畫(huà)數(shù)據(jù)符合應(yīng)用時(shí)效要求的程度。例如,RFID(radio frequency identification)感知數(shù)據(jù)未及時(shí)更新,數(shù)據(jù)過(guò)時(shí)。
5)數(shù)據(jù)實(shí)體同一性:刻畫(huà)同一實(shí)體在不同信息記錄中擁有同一標(biāo)識(shí)的程度。例如,同一物料存在的“多碼”的問(wèn)題。
高質(zhì)量的數(shù)據(jù)是工業(yè)大數(shù)據(jù)有效分析應(yīng)用的前提條件,否則即便建立再先進(jìn)的數(shù)據(jù)挖掘分析模型,借助再?gòu)?qiáng)大的數(shù)據(jù)分析工具,也只能是符合所謂的“垃圾進(jìn)、垃圾出”這一計(jì)算機(jī)業(yè)界著名的說(shuō)法。工業(yè)大數(shù)據(jù)的質(zhì)量控制體系是一項(xiàng)復(fù)雜的系統(tǒng)工程,涉及數(shù)據(jù)的產(chǎn)生、采集、轉(zhuǎn)換、存儲(chǔ)、傳遞、使用及銷(xiāo)毀的全生命周期過(guò)程,涉及到管理、技術(shù)和流程三大方面因素。
工業(yè)大數(shù)據(jù)的主體是設(shè)備感知的機(jī)器數(shù)據(jù),具有多源、異構(gòu)、多模態(tài)的特征,其數(shù)據(jù)質(zhì)量控制面臨的挑戰(zhàn)包括以下幾個(gè)方面:
1)高質(zhì)量的采集設(shè)備感知數(shù)據(jù)。機(jī)器數(shù)據(jù)主要來(lái)自傳感器、RFID等感知設(shè)備,由于設(shè)備自身的局限性或工業(yè)現(xiàn)場(chǎng)環(huán)境因素的干擾,會(huì)出現(xiàn)數(shù)據(jù)冗余、數(shù)據(jù)缺失、數(shù)據(jù)錯(cuò)誤等問(wèn)題,不利于數(shù)據(jù)的后續(xù)利用。
2)高效的清洗和融合設(shè)備感知數(shù)據(jù)。及時(shí)發(fā)現(xiàn)并校正感知數(shù)據(jù)中可識(shí)別的錯(cuò)誤,去除冗余數(shù)據(jù),對(duì)缺失數(shù)據(jù)進(jìn)行有效填補(bǔ),并對(duì)海量多源異構(gòu)感知數(shù)據(jù)進(jìn)行有效的處理整合提供確定性信息。
3)有效地使用弱可用設(shè)備感知數(shù)據(jù)。對(duì)于錯(cuò)誤數(shù)據(jù)不能全部被識(shí)別并修復(fù)的情況,需要容許弱可用數(shù)據(jù)的存在并在其上提供滿足用戶質(zhì)量要求的近似計(jì)算。
4)持續(xù)的設(shè)備感知數(shù)據(jù)質(zhì)量治理。對(duì)設(shè)備感知數(shù)據(jù)質(zhì)量實(shí)施科學(xué)的數(shù)據(jù)質(zhì)量管理過(guò)程,實(shí)現(xiàn)設(shè)備感知數(shù)據(jù)質(zhì)量的不斷改善。
針對(duì)上述工業(yè)大數(shù)據(jù)質(zhì)量控制所面臨的挑戰(zhàn),闡述數(shù)據(jù)質(zhì)量控制的方法及對(duì)策。
1)設(shè)備感知數(shù)據(jù)的數(shù)據(jù)采集和處理。
感知數(shù)據(jù)主要由時(shí)空序列數(shù)據(jù)組成,針對(duì)存在的多讀、漏讀和誤讀等問(wèn)題,一方面可以采用更加先進(jìn)的感知設(shè)備,優(yōu)化的傳感器網(wǎng)絡(luò)部署策略和高效的數(shù)據(jù)采樣技術(shù);另一方面對(duì)感知數(shù)據(jù)進(jìn)行預(yù)處理,可設(shè)定約束規(guī)則清除冗余數(shù)據(jù),并采取時(shí)空關(guān)聯(lián)等方法刪除誤讀數(shù)據(jù)和填補(bǔ)漏讀數(shù)據(jù)。
2)設(shè)備感知數(shù)據(jù)的數(shù)據(jù)錯(cuò)誤發(fā)現(xiàn)與修復(fù)。
按照數(shù)據(jù)精確性、數(shù)據(jù)完整性、數(shù)據(jù)一致性、數(shù)據(jù)時(shí)效性及實(shí)體一致性等質(zhì)量維度進(jìn)行錯(cuò)誤發(fā)現(xiàn)和修復(fù)。其中錯(cuò)誤發(fā)現(xiàn)可以基于實(shí)體識(shí)別、基于函數(shù)依賴(lài)和基于主數(shù)據(jù)等方法,錯(cuò)誤修復(fù)可采用基于規(guī)則、沖突數(shù)據(jù)的真值發(fā)現(xiàn)和基于機(jī)器學(xué)習(xí)等方法[7-9]。
3)設(shè)備感知數(shù)據(jù)的數(shù)據(jù)融合。
工業(yè)現(xiàn)場(chǎng)針對(duì)某一目標(biāo)環(huán)境的識(shí)別和控制一般涉及多個(gè)傳感器。首先,感知數(shù)據(jù)融合要對(duì)多個(gè)傳感器的時(shí)序感知數(shù)據(jù)進(jìn)行分析與綜合處理以提高所需數(shù)據(jù)的質(zhì)量,按照融合的層次由低到高,可以分為數(shù)據(jù)級(jí)、特征級(jí)和決策級(jí)數(shù)據(jù)融合,層次越高,信息損失越大,精度越低,抗干擾能力越強(qiáng),容錯(cuò)性和實(shí)時(shí)性越好,融合層次的選擇取決于具體的應(yīng)用需求[10]。數(shù)據(jù)融合的效果依賴(lài)于融合算法,已有的一些較為成熟算法如卡爾曼濾波法、證據(jù)理論、貝葉斯推理、熵法、人工神經(jīng)網(wǎng)絡(luò)、粗糙集、支持向量機(jī)等。其次,感知數(shù)據(jù)融合還可以通過(guò)建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)及數(shù)據(jù)模型,基于統(tǒng)一的數(shù)據(jù)模型將多源異構(gòu)感知數(shù)據(jù)轉(zhuǎn)換加載到統(tǒng)一的數(shù)據(jù)框架中,促進(jìn)感知數(shù)據(jù)的規(guī)范化和數(shù)據(jù)共享。
4)弱可用設(shè)備感知數(shù)據(jù)的近似計(jì)算。
大數(shù)據(jù)環(huán)境下數(shù)據(jù)的清洗及修復(fù)所要付出的時(shí)間代價(jià)更大,并且無(wú)法做到完全清除和修復(fù)數(shù)據(jù)錯(cuò)誤。目前針對(duì)弱可用數(shù)據(jù)的利用研究還處于起步階段,主要集中在數(shù)據(jù)的查詢、分析/挖掘等方面,可采用的方法包括近似連接與查詢操作、弱可用數(shù)據(jù)的分類(lèi)算法[11-13]等。
5)設(shè)備感知數(shù)據(jù)的數(shù)據(jù)質(zhì)量管理。
數(shù)據(jù)質(zhì)量管理是一個(gè)永無(wú)止境的過(guò)程,新的問(wèn)題和挑戰(zhàn)總是不斷出現(xiàn)[14]。設(shè)備感知數(shù)據(jù)的數(shù)據(jù)質(zhì)量?jī)?yōu)化絕非一蹴而就,可實(shí)施TDQM方法論,并堅(jiān)持以應(yīng)用為導(dǎo)向,從數(shù)據(jù)質(zhì)量定義、數(shù)據(jù)質(zhì)量評(píng)價(jià)、數(shù)據(jù)質(zhì)量分析及數(shù)據(jù)質(zhì)量改進(jìn)等方面進(jìn)行閉環(huán)管理。
設(shè)備感知數(shù)據(jù)的質(zhì)量定義:明確對(duì)感知數(shù)據(jù)的質(zhì)量要求,包括數(shù)據(jù)的執(zhí)行和檢測(cè)標(biāo)準(zhǔn)。
設(shè)備感知數(shù)據(jù)的質(zhì)量評(píng)價(jià):構(gòu)建感知數(shù)據(jù)質(zhì)量的評(píng)價(jià)指標(biāo)體系,運(yùn)用定性或定量的綜合評(píng)價(jià)方法進(jìn)行科學(xué)的質(zhì)量評(píng)價(jià)。文獻(xiàn)[15]~[17]分別提出了數(shù)據(jù)質(zhì)量評(píng)估模型。
設(shè)備感知數(shù)據(jù)的質(zhì)量分析:針對(duì)存在的數(shù)據(jù)質(zhì)量問(wèn)題,深入分析問(wèn)題產(chǎn)生的原因,為數(shù)據(jù)質(zhì)量的治理提供真實(shí)有效的輸入。
設(shè)備感知數(shù)據(jù)的質(zhì)量改進(jìn):根據(jù)數(shù)據(jù)質(zhì)量問(wèn)題背后的原因,從技術(shù)手段、管理流程等方面著手對(duì)數(shù)據(jù)質(zhì)量進(jìn)行治理?;赥DQM的數(shù)據(jù)質(zhì)量管理如圖2所示。
圖2 基于TDQM的數(shù)據(jù)質(zhì)量管理
工業(yè)大數(shù)據(jù)分析應(yīng)用是制造企業(yè)向智能制造轉(zhuǎn)型升級(jí)的重要基礎(chǔ),工業(yè)大數(shù)據(jù)的數(shù)據(jù)質(zhì)量問(wèn)題日益受到我國(guó)學(xué)術(shù)界和產(chǎn)業(yè)界的重視,相關(guān)的研究也越來(lái)越多,除了需要對(duì)上述數(shù)據(jù)質(zhì)量控制理論技術(shù)方法在深度和廣度上繼續(xù)拓展外,還應(yīng)加強(qiáng)以下幾個(gè)方面工作:
1)加強(qiáng)工業(yè)大數(shù)據(jù)質(zhì)量管理工具集及管控平臺(tái)建設(shè)。
“工欲善其事,必先利其器”。目前國(guó)內(nèi)對(duì)工業(yè)大數(shù)據(jù)的研究開(kāi)發(fā)熱點(diǎn)集中在大數(shù)據(jù)文件系統(tǒng)、大數(shù)據(jù)分布式存儲(chǔ)與計(jì)算、大數(shù)據(jù)資源調(diào)度、大數(shù)據(jù)分析與領(lǐng)域知識(shí)等方面,缺乏針對(duì)工業(yè)大數(shù)據(jù)進(jìn)行有效的數(shù)據(jù)清洗校驗(yàn)、數(shù)據(jù)質(zhì)量監(jiān)控、數(shù)據(jù)質(zhì)量分析與處理、數(shù)據(jù)質(zhì)量評(píng)估等方面的工具。通過(guò)建立覆蓋數(shù)據(jù)全過(guò)程的數(shù)據(jù)質(zhì)量管理工具集及管控平臺(tái),可以大大降低數(shù)據(jù)質(zhì)量管理的難度,有力支撐工業(yè)大數(shù)據(jù)的質(zhì)量提升。
2)加強(qiáng)工業(yè)大數(shù)據(jù)數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)體系建設(shè)。
“提升數(shù)據(jù)質(zhì)量,標(biāo)準(zhǔn)化要先行”。目前針對(duì)工業(yè)大數(shù)據(jù)質(zhì)量的相關(guān)技術(shù)標(biāo)準(zhǔn)尚處于起步階段,在工業(yè)數(shù)據(jù)領(lǐng)域已研制了一些數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),如ISO8000、PDQ9000 等兩項(xiàng)國(guó)際標(biāo)準(zhǔn),以及中國(guó)標(biāo)準(zhǔn)化研究院制定的《CAD/CAM數(shù)據(jù)質(zhì)量》與《CAD/CAM 數(shù)據(jù)質(zhì)量保證方法》等兩項(xiàng)國(guó)家標(biāo)準(zhǔn),這些都為工業(yè)數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)的研制打下了良好基礎(chǔ)[18]。要加快工業(yè)大數(shù)據(jù)的數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)體系建設(shè),充分發(fā)揮標(biāo)準(zhǔn)化工作在工業(yè)大數(shù)據(jù)應(yīng)用和發(fā)展過(guò)程中的基礎(chǔ)引領(lǐng)作用。
3)加強(qiáng)工業(yè)大數(shù)據(jù)質(zhì)量管理人才隊(duì)伍建設(shè)。
“功以才成,業(yè)由才廣”。我國(guó)工業(yè)大數(shù)據(jù)的應(yīng)用正處于快速發(fā)展的初級(jí)階段,對(duì)于各方面的人才具有巨大的需求,在加強(qiáng)大數(shù)據(jù)平臺(tái)技術(shù)、數(shù)據(jù)分析、工業(yè)領(lǐng)域知識(shí)等方面技能人才培養(yǎng)的同時(shí),還應(yīng)該重視數(shù)據(jù)質(zhì)量管理相關(guān)技能人才培養(yǎng),努力打造一批工業(yè)大數(shù)據(jù)領(lǐng)域的專(zhuān)業(yè)型和復(fù)合型人才隊(duì)伍,從而為工業(yè)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展提供有力的人才支撐和智力保障。
工業(yè)大數(shù)據(jù)在制造企業(yè)向智能制造轉(zhuǎn)型升級(jí)的過(guò)程中扮演著極其重要的角色,當(dāng)前工業(yè)大數(shù)據(jù)的應(yīng)用尚處于起步階段,其價(jià)值有待于人們進(jìn)一步挖掘和利用,工業(yè)大數(shù)據(jù)的應(yīng)用除了需要運(yùn)用先進(jìn)的大數(shù)據(jù)分析平臺(tái)和掌握工業(yè)領(lǐng)域知識(shí)建模技術(shù)之外,數(shù)據(jù)質(zhì)量控制也是其中必不可少的重要一環(huán)。同社交媒體、教育、金融等一些行業(yè)應(yīng)用相比,工業(yè)大數(shù)據(jù)分析對(duì)數(shù)據(jù)質(zhì)量的要求更高,很多大數(shù)據(jù)質(zhì)量通用的觀點(diǎn)和做法并不適用,需要針對(duì)工業(yè)大數(shù)據(jù)的特點(diǎn),對(duì)覆蓋工業(yè)大數(shù)據(jù)全生命周期過(guò)程的數(shù)據(jù)質(zhì)量管理進(jìn)行全面、系統(tǒng)、深入的研究。
[1] MANYIKA J, CHUI M, BUGHIN J, et al. Big data :The next frontier for innovation ,competition, and productivity[EB/OL].[2017-06-16].http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation.
[2] 智能制造時(shí)代的工業(yè)大數(shù)據(jù)分析——基于物聯(lián)網(wǎng)的八大工業(yè)大數(shù)據(jù)與應(yīng)用場(chǎng)景[J].智慧工廠,2015(11):42-44.
[3] 王建民. 智能制造基礎(chǔ)之工業(yè)大數(shù)據(jù)[J]. 機(jī)器人產(chǎn)業(yè),2015(3):46-51.
[4] 宗威,吳鋒. 大數(shù)據(jù)時(shí)代下數(shù)據(jù)質(zhì)量的挑戰(zhàn)[J]. 西安交通大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2013(5):38-43.
[5] 李敏波,王海鵬,陳松奎,等. 工業(yè)大數(shù)據(jù)分析技術(shù)與輪胎銷(xiāo)售數(shù)據(jù)預(yù)測(cè)[J]. 計(jì)算機(jī)工程與應(yīng)用,2017(11):100-109.
[6] WANG R Y. A product perspective total data quality management[J].Communications of the ACM,1998,41(2): 58-65.
[7] 李衛(wèi)榜,李戰(zhàn)懷,姜濤. 分布式大數(shù)據(jù)多函數(shù)依賴(lài)沖突檢測(cè)[J]. 計(jì)算機(jī)學(xué)報(bào),2017(1):144-160.
[8] ZHAO B, RUBINSTEIN B I P, GEMMELL J, et al. A Bayesian approach to discovering truth from conflicting sources for data integration[J]. Proceedings of the VLDB Endowment,2012,5(6):550-561.
[9] 王宏志. 大數(shù)據(jù)質(zhì)量管理:問(wèn)題與研究進(jìn)展[J]. 科技導(dǎo)報(bào),2014(34):78-84.
[10] 周芳,韓立巖. 多傳感器信息融合技術(shù)綜述[J].遙測(cè)遙控,2006(3):1-7.
[11] 李建中,王宏志,高宏. 大數(shù)據(jù)可用性的研究進(jìn)展[J]. 軟件學(xué)報(bào),2016(7):1605-1625.
[12] 林學(xué)民,王煒. 集合和字符串的相似度查詢[J]. 計(jì)算機(jī)學(xué)報(bào),2011(10):1853-1862.
[13] 陳懿誠(chéng). 弱可用數(shù)據(jù)上的分類(lèi)算法研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué),2014.
[14] ABDULLAH N, ISMAIL S A, SOPHIAYATI S, et al. Data quality in big data:a review[J]. International Journal of Advances in Soft Computing and Its Applications,2015,7(3):16-27.
[15] PIPINO L L, YANG W L, WANG R Y. Data quality assessment[J].Communications of the ACM,2002,45(4): 211-218.
[16] 楊青云,趙培英,楊冬青,等. 數(shù)據(jù)質(zhì)量評(píng)估方法研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2004(9):3-4,15.
[17] 黃剛,袁滿,吳秀英,等. 元數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)質(zhì)量評(píng)估體系架構(gòu)研究[J].計(jì)算機(jī)工程與應(yīng)用,2013(8):114-119,181.
[18] 王志強(qiáng),楊青海,岳高峰. 智能制造的基礎(chǔ)——工業(yè)數(shù)據(jù)質(zhì)量及其標(biāo)準(zhǔn)化[J]. 中國(guó)標(biāo)準(zhǔn)化,2016(10):70-74,126.