張素智,陳小妮,李鵬輝,楊 芮,蔡 強(qiáng)
(1.鄭州輕工業(yè)大學(xué) 計算機(jī)與通信工程學(xué)院,河南 鄭州 450002;2.北京工商大學(xué) 食品安全大數(shù)據(jù)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100048)
隨著信息時代的到來,大數(shù)據(jù)迅速發(fā)展,逐漸成為科技界和企業(yè)界關(guān)注的熱門話題[1]?;ヂ?lián)網(wǎng)和各產(chǎn)業(yè)數(shù)據(jù)的爆炸式增長,使得大數(shù)據(jù)、云計算等概念越來越廣泛。大數(shù)據(jù)概念的興起為人們打開了一個新視角,為了更大程度地發(fā)揮大數(shù)據(jù)的價值,大數(shù)據(jù)挖掘成為了人們的關(guān)注熱點(diǎn)。與此同時,食品安全相關(guān)事件在國內(nèi)不斷發(fā)生[2],如“洗衣粉油條”事件、“陳化糧毒米”事件、“鐵醬油”事件、“毛發(fā)醬油”事件以及牛奶業(yè)普遍使用三聚氰胺的事件等,給人民的生命和國家的發(fā)展帶來嚴(yán)重的威脅。食品安全從原料生產(chǎn)到消費(fèi),涉及食品鏈的各個環(huán)節(jié),產(chǎn)生了大量的數(shù)據(jù)。處理與分析數(shù)據(jù)量大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜的食品安全大數(shù)據(jù),傳統(tǒng)的技術(shù)手段很難滿足要求,因此實(shí)現(xiàn)食品安全和大數(shù)據(jù)產(chǎn)業(yè)的融合,增強(qiáng)食品安全大數(shù)據(jù)的分析,成為了研究的重點(diǎn)方向。
針對食品安全大數(shù)據(jù)處理關(guān)鍵技術(shù),重點(diǎn)介紹了食品安全大數(shù)據(jù)預(yù)處理、食品安全大數(shù)據(jù)融合、并行挖掘技術(shù)、并行挖掘算法這幾方面內(nèi)容。目前,許多研究人員針對食品安全大數(shù)據(jù)處理技術(shù)進(jìn)行了大量的研究。例如,孟小峰等[3]詳細(xì)解析了大數(shù)據(jù)的基本概念,介紹了大數(shù)據(jù)處理的基本框架以及大數(shù)據(jù)的主要應(yīng)用;王志海等[4]提出了一種懶惰式shapelets分類模型,該模型主要依據(jù)待分類實(shí)例顯著局部特征,為各個待分類的實(shí)例構(gòu)建各自的數(shù)據(jù)驅(qū)動懶惰式分類模型,該模型不但具有高準(zhǔn)確率,還具有強(qiáng)可解釋性;季一木等[5]基于分布式計算平臺提出了一種Storm的P-HT并行化算法,該算法解決了概念漂移問題,同時提高了分類算法的有效性和高效性;宋杰等[6]介紹了12個典型的基于MapReduce的大數(shù)據(jù)處理平臺的實(shí)現(xiàn)原理和適用場景以及基于MapReduce的大數(shù)據(jù)分析算法,并在對外存算法特征進(jìn)行分析的基礎(chǔ)上,提出了適合外存算法性能優(yōu)化方法的研究思路;程學(xué)旗等[1]綜述了大數(shù)據(jù)的應(yīng)用場景,總結(jié)了大數(shù)據(jù)處理系統(tǒng)的關(guān)鍵技術(shù),梳理了大數(shù)據(jù)處理所面臨的各種挑戰(zhàn),并依次提出了應(yīng)對措施。
文中對食品安全大數(shù)據(jù)進(jìn)行概要性描述,概述食品安全大數(shù)據(jù)來源、特征以及處理關(guān)鍵技術(shù)和挖掘基本流程??偨Y(jié)了食品安全大數(shù)據(jù)預(yù)處理,對食品安全大數(shù)據(jù)融合的三個層次進(jìn)行分析和對比,并對已有的食品安全大數(shù)據(jù)的關(guān)鍵技術(shù)進(jìn)行總結(jié)。針對食品安全大數(shù)據(jù)并行挖掘技術(shù),介紹了并行計算模式。針對食品安全大數(shù)據(jù)并行挖掘算法的設(shè)計,對幾種常用分類算法進(jìn)行總結(jié)和比較。最后總結(jié)全文并展望未來食品安全大數(shù)據(jù)面臨的挑戰(zhàn)和熱門研究方向。
食品安全大數(shù)據(jù)作為大數(shù)據(jù)的一種,符合大數(shù)據(jù)的典型4V特征,即量大(volume)、多樣(varity)、高速(velocity)和價值密度低卻應(yīng)用價值大(value)[7]。食品安全數(shù)據(jù)作為食品安全大數(shù)據(jù)處理對象,需要對其進(jìn)行充分了解,包括:數(shù)據(jù)來源、數(shù)據(jù)特征以及處理關(guān)鍵技術(shù),然后才能更加有效地挖掘其信息中的價值。本節(jié)介紹了食品安全大數(shù)據(jù)的來源與特征、食品安全大數(shù)據(jù)處理關(guān)鍵技術(shù)和食品安全大數(shù)據(jù)挖掘基本流程。
信息時代,食品安全數(shù)據(jù)來源范圍較廣,在日常生活中人們能夠接觸到的與食品相關(guān)的數(shù)據(jù)都在范圍之內(nèi),主要包括:各種食品安全檢測裝置的結(jié)果;RFID傳感器的食品質(zhì)量檢測數(shù)據(jù);企業(yè)和監(jiān)管部門;移動互聯(lián)網(wǎng)、社交媒體等。食品安全數(shù)據(jù)涵蓋了多種類型,數(shù)據(jù)量隨時間的積累變得越來越大[8]。
食品安全大數(shù)據(jù)除具有大數(shù)據(jù)的4V特性外,受錯綜復(fù)雜的食品安全環(huán)境、消費(fèi)人群、監(jiān)測數(shù)據(jù)飛速增長等因素的影響,還具有如下具體特征[9]:
(1)數(shù)據(jù)容量大。來自食品安全監(jiān)測點(diǎn)、哨點(diǎn)的數(shù)據(jù),各個地方上報的食品污染物數(shù)據(jù),食品安全環(huán)境監(jiān)測數(shù)據(jù)和其他食品企業(yè)自身生產(chǎn)的數(shù)據(jù),這些數(shù)據(jù)聚集在一起就形成了十分龐大的數(shù)據(jù)庫。
(2)更新速度迅速。食品安全信息中包含大量的在線或?qū)崟r數(shù)據(jù)分析和處理要求。
(3)種類多。食品安全數(shù)據(jù)包含各種結(jié)構(gòu)化數(shù)據(jù)、非(半)結(jié)構(gòu)化數(shù)據(jù)和其他多種數(shù)據(jù)存儲形式。
(4)成本低、價值大。食品安全大數(shù)據(jù)中存在著大量無用、冗余的信息,但這些信息具有很大的挖掘和應(yīng)用價值,與個人生活、食品行業(yè)、國民經(jīng)濟(jì)息息相關(guān)。
食品安全大數(shù)據(jù)模型中,層次與層次之間聯(lián)系緊密,原始的食品安全數(shù)據(jù)存在很多的冗余和噪音,需要經(jīng)過數(shù)據(jù)清洗和提煉、數(shù)據(jù)融合等預(yù)處理的方式轉(zhuǎn)化為規(guī)范數(shù)據(jù),再經(jīng)過并行處理、分類等挖掘技術(shù)來獲取有價值的信息,其采用的關(guān)鍵技術(shù)如圖1所示。
食品安全大數(shù)據(jù)預(yù)處理的目的主要有:①清除冗余數(shù)據(jù);②糾正錯誤數(shù)據(jù);③完善殘缺數(shù)據(jù);④選出必需的數(shù)據(jù)進(jìn)行集成。另外,對食品安全大數(shù)據(jù)進(jìn)行預(yù)處理后再挖掘,可以大大提高數(shù)據(jù)挖掘的質(zhì)量,縮短實(shí)際挖掘所需的時間[10]。食品安全大數(shù)據(jù)預(yù)處理一般包括4步:清洗、集成、轉(zhuǎn)換、歸約。本節(jié)將從這4方面介紹食品安全大數(shù)據(jù)預(yù)處理。
圖1 食品安全大數(shù)據(jù)處理技術(shù)
食品安全大數(shù)據(jù)的清洗主要是為了檢測食品安全數(shù)據(jù)中的冗余數(shù)據(jù)、錯誤數(shù)據(jù)、不一致數(shù)據(jù)等噪聲數(shù)據(jù)。一般的清洗內(nèi)容主要包括:清除重復(fù)數(shù)據(jù)、完善缺失數(shù)據(jù)、消除噪聲數(shù)據(jù)等[11]。食品安全大數(shù)據(jù)的清洗技術(shù)大致可以分為以下幾類:
(1)重復(fù)數(shù)據(jù)的清洗。由于在食品安全數(shù)據(jù)集中存在重復(fù)的記錄,為了提高食品安全數(shù)據(jù)的挖掘效率,對重復(fù)數(shù)據(jù)進(jìn)行清洗尤為重要。
(2)缺失數(shù)據(jù)清洗。食品安全大數(shù)據(jù)清洗需要解決的另外一個重要問題是完善缺失數(shù)據(jù)。對缺失值清洗的方法有很多,文獻(xiàn)[12]提出了一種基于MapReduce的大數(shù)據(jù)缺失值填充算法,用來解決缺失值填充問題,該算法通過MapReduce框架中的兩種算法實(shí)現(xiàn)了大數(shù)據(jù)處理的并行化。
由于食品安全大數(shù)據(jù)具有多源性,因此在對食品安全大數(shù)據(jù)進(jìn)行數(shù)據(jù)處理過程中勢必涉及到多個數(shù)據(jù)庫。大量冗余數(shù)據(jù)可能會影響信息發(fā)現(xiàn)過程的性能。因此需要對食品安全大數(shù)據(jù)進(jìn)行集成,將多個數(shù)據(jù)源合并成一致的數(shù)據(jù)源存儲。經(jīng)過有效的數(shù)據(jù)集成,能夠提高食品安全大數(shù)據(jù)的挖掘精度和速度。
食品安全行業(yè)在長期的業(yè)務(wù)實(shí)踐中累積了大量獨(dú)立分布異構(gòu)的數(shù)據(jù),這些數(shù)據(jù)不僅具有不同的數(shù)據(jù)類型,而且具有不同的存儲方式。這些都要求食品安全大數(shù)據(jù)在集成過程中對數(shù)據(jù)進(jìn)行轉(zhuǎn)換。通過轉(zhuǎn)換將食品安全大數(shù)據(jù)變成適合挖掘的形式。
食品安全大數(shù)據(jù)的典型特征是數(shù)據(jù)規(guī)模大,如果直接進(jìn)行數(shù)據(jù)挖掘、分析,將消耗大量的時間和精力,并且分析結(jié)果也會比較差。而通過歸約技術(shù)可以將大規(guī)模數(shù)據(jù)集轉(zhuǎn)換為小規(guī)模數(shù)據(jù)集,這樣不但保持了原數(shù)據(jù)的完整性,又為進(jìn)一步的數(shù)據(jù)挖掘提供了方便。
食品安全大數(shù)據(jù)融合作為一種技術(shù)手段,可以在最大程度上發(fā)揮食品安全大數(shù)據(jù)的價值,它的實(shí)現(xiàn)可以使人們對食品安全行業(yè)的探索和認(rèn)識向新的深度和廣度拓展。它不同于傳統(tǒng)的數(shù)據(jù)集或知識庫技術(shù),需要大跨度、深層次和綜合性的研究方法。食品安全大數(shù)據(jù)的融合層次可以分為數(shù)據(jù)層融合、特征層融合和決策層融合[13]。文中主要工作是對3種層次的融合以及食品安全大數(shù)據(jù)融合關(guān)鍵技術(shù)進(jìn)行介紹。
(1)數(shù)據(jù)層融合。
數(shù)據(jù)層融合又叫像素級融合,在食品安全大數(shù)據(jù)中經(jīng)過數(shù)據(jù)層融合不僅能夠最大程度上保留原始食品安全數(shù)據(jù)的特征,而且能夠提供較多的細(xì)節(jié)信息[14]。融合過程如圖2所示。
圖2 數(shù)據(jù)層融合過程
數(shù)據(jù)層融合作為食品安全大數(shù)據(jù)融合的最低層次融合,用以消除食品安全數(shù)據(jù)中的冗余信息,去噪和去異常值。
(2)特征層融合。
特征層融合在食品安全大數(shù)據(jù)融合過程中屬于中間的一個層次。融合過程如圖3所示。從圖中可以看出,特征級融合首先提取特征信息,然后進(jìn)行融合。特征層融合可以在食品安全大數(shù)據(jù)融合過程中做到較好的信息壓縮,從而減少了數(shù)據(jù)融合的通信量。相對于數(shù)據(jù)級融合,特征層融合具有更好的實(shí)時性。在食品安全大數(shù)據(jù)中為了保證數(shù)據(jù)融合精度,特征層融合常采用的方法有:人工神經(jīng)網(wǎng)絡(luò)、特征壓縮聚類法、卡爾曼濾波等。
圖3 特征層融合過程
(3)決策層融合。
決策層融合在食品安全大數(shù)據(jù)融合中屬于一種更高層次的融合。融合過程如圖4所示。通過各傳感器的食品安全大數(shù)據(jù),在融合之前先完成各自的決策或識別工作,隨后將這些決策進(jìn)行融合,最終獲得具有整體一致性的決策結(jié)果。
(4)大數(shù)據(jù)融合層次比較。
總體來說,三個層次的融合在食品安全大數(shù)據(jù)融合中各具優(yōu)勢。如表1所示,從對傳感器的依賴性、數(shù)據(jù)量、通信量等方面對比分析了幾個融合級別的優(yōu)缺點(diǎn)。
圖4 決策層融合過程
表1 數(shù)據(jù)融合級別對比
融合級別數(shù)據(jù)級特征級決策級傳感器依賴性同質(zhì)不限不限數(shù)據(jù)量大中小通信量大中小信息損失小中大處理代價大中小實(shí)時性小中大抗干擾性小中大融合精度大中小
可以看出,由于數(shù)據(jù)級融合是最基礎(chǔ)層次融合,能夠在保全盡量多信息的條件下對食品安全大數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,但是對傳感器、通信能力、處理代價等要求較高;相反地,決策層融合多源異構(gòu)食品安全大數(shù)據(jù)的同時,僅需要較小的數(shù)據(jù)線路通信,也有較好的通信量,但融合精度低。特征級數(shù)據(jù)融合各項(xiàng)性能居中,綜合了其他兩個層次的優(yōu)缺點(diǎn)。
食品安全大數(shù)據(jù)融合方法可以分為經(jīng)典融合方法和現(xiàn)代融合方法。在經(jīng)典融合方法中一般采用加權(quán)平均數(shù)法、卡爾曼濾波法、貝葉斯推理法等方法。在現(xiàn)代融合方法中常常采用神經(jīng)網(wǎng)絡(luò)、邏輯模糊法等方法。具體結(jié)構(gòu)如圖5所示。
圖5 數(shù)據(jù)融合算法結(jié)構(gòu)
(1)估計方法。
估計方法主要包括最小二乘、加權(quán)平均數(shù)、卡爾曼濾波等線性估計方法,以及一些非線性估計方法,主要有高斯濾波、擴(kuò)展的卡爾曼濾波等。
卡爾曼濾波法一般用于動態(tài)環(huán)境中多傳感器信息的實(shí)時融合,其算法核心是計算各傳感器數(shù)據(jù)之間的加權(quán)平均值,其中權(quán)值與測量方差成反比。在實(shí)際應(yīng)用中,通過調(diào)節(jié)各傳感器的方差值來改變權(quán)值,從而得到更可靠的結(jié)果。
目前國內(nèi)外對卡爾曼濾波法進(jìn)行了大量研究。文獻(xiàn)[15]提出一種基于壓縮感知的擴(kuò)展卡爾曼濾波跟蹤方法,并將該方法應(yīng)用到單目標(biāo)跟蹤中,與傳統(tǒng)卡爾曼濾波相比,該方法具有更好的精確度和穩(wěn)定度。文獻(xiàn)[16]提出基于模糊卡爾曼算法的姿態(tài)誤差補(bǔ)償方法,通過引入模糊卡爾曼濾波數(shù)據(jù)融合算法對陀螺誤差校正,與常規(guī)卡爾曼濾波算法相比,精度更高。針對食品安全大數(shù)據(jù)融合過程,采用卡爾曼濾波器對多傳感器采集的食品安全數(shù)據(jù)進(jìn)行融合,不僅可顯著提高容錯性,還可有效降低數(shù)據(jù)傳輸運(yùn)算量。但是由于數(shù)據(jù)量巨大時,該方法的實(shí)時性較差,因此還需要進(jìn)一步研究。
(2)統(tǒng)計方法。
統(tǒng)計方法一般常用的有貝葉斯推理、支持向量機(jī)理論、經(jīng)典推理等等。
貝葉斯估計提供了一種按概率理論組合多傳感器信息的方法,貝葉斯估計理論基礎(chǔ)是貝葉斯法則。
文獻(xiàn)[17]通過實(shí)驗(yàn)證明,利用貝葉斯估計方法對多傳感器數(shù)據(jù)進(jìn)行融合,可以解決數(shù)據(jù)的不確定和不一致性。通常來說,在先驗(yàn)概率已知的情況下,貝葉斯估計法是食品安全大數(shù)據(jù)融合的最佳方法。
(3)信息論方法。
信息論方法在多源數(shù)據(jù)融合中應(yīng)用數(shù)理統(tǒng)計知識研究信息的處理和傳遞,其典型算法有:熵方法、模糊理論、模板法、最小描述長度方法等。
模糊理論在數(shù)據(jù)融合領(lǐng)域應(yīng)用的實(shí)質(zhì)就是利用一個模糊映射將數(shù)據(jù)源信息作為輸入映射到融合結(jié)果的輸出空間,其基本思想就是將原本只有兩個取值0或1,擴(kuò)展到一個連續(xù)的取值范圍:[0,1],用這個區(qū)間內(nèi)的一個值來表示元素對某個模糊集的隸屬程度,通過這種度量方法能夠很好地描述和表達(dá)不確定事件。
模糊理論一定程度上克服了概率論方法的缺點(diǎn),不需要一個確定的概率表達(dá)事情可能性,它對“可能性”的分析更加貼近人的處理方式。多傳感器數(shù)據(jù)融合中,模糊集理論在處理模糊問題和模糊推理上具有顯著優(yōu)勢。文獻(xiàn)[18]通過實(shí)驗(yàn)證明,模糊集理論在多傳感器信息融合中計算量小、融合精度較高。在食品安全大數(shù)據(jù)融合過程中,模糊集理論方法可以實(shí)現(xiàn)食品安全數(shù)據(jù)的簡化,去除冗余信息。
(4)人工智能方法。
近年來人工智能方法蓬勃發(fā)展,被應(yīng)用在多個領(lǐng)域,尤其在大數(shù)據(jù)融合領(lǐng)域應(yīng)用十分廣泛。人工智能方法一般包括神經(jīng)網(wǎng)絡(luò)、遺傳算法、邏輯模糊法等。
神經(jīng)網(wǎng)絡(luò)可對復(fù)雜的非線性映射進(jìn)行模擬,具有運(yùn)算速度快、適應(yīng)能力強(qiáng)、容錯率高等特點(diǎn),使得神經(jīng)網(wǎng)絡(luò)能很好地適應(yīng)多源數(shù)據(jù)融合的處理要求。BP(back propagation)神經(jīng)網(wǎng)絡(luò)是目前使用最普遍的一種神經(jīng)網(wǎng)絡(luò),采用梯度搜索技術(shù)對輸入的樣本進(jìn)行學(xué)習(xí)。
基于神經(jīng)網(wǎng)絡(luò)方法,文獻(xiàn)[19]提出一種粗糙集結(jié)合BP神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)融合方法,該方法縮減了BP神經(jīng)網(wǎng)絡(luò)的規(guī)模,提高了數(shù)據(jù)融合效率,相比于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)融合系統(tǒng),具有較強(qiáng)的有效性。文獻(xiàn)[20]提出基于Mam dani模糊推理的神經(jīng)無網(wǎng)絡(luò),并應(yīng)用于通偵信息融合系統(tǒng)。實(shí)驗(yàn)證明該方法同時具備模糊集理論和神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn),相比于貝葉斯、DS,該方法不需要給出先驗(yàn)概率。運(yùn)用神經(jīng)網(wǎng)絡(luò)方法實(shí)現(xiàn)食品安全大數(shù)據(jù)融合,可以僅僅依賴食品安全原始數(shù)據(jù)樣本,從而大大降低了食品安全數(shù)據(jù)的處理代價。但是,由于網(wǎng)絡(luò)節(jié)點(diǎn)較多,訓(xùn)練需要大量的計算量和時間。另外,由于該方法對食品安全大數(shù)據(jù)的融合效果不是太理想,因此將神經(jīng)網(wǎng)絡(luò)與其他理論相結(jié)合還需要進(jìn)一步的改進(jìn)。
并行數(shù)據(jù)挖掘的基礎(chǔ)是并行計算。針對食品安全大數(shù)據(jù),使用Hadoop平臺的MapReduce可以實(shí)現(xiàn)并行挖掘,MapReduce是Hadoop的核心部分之一,主要用于處理大量數(shù)據(jù)集。
食品安全大數(shù)據(jù)的并行計算模式一般可以理解為兩方面內(nèi)容。首先將順序執(zhí)行的計算任務(wù)分成可以同時執(zhí)行的子任務(wù),然后通過并行執(zhí)行這些子任務(wù)從而完成整個計算任務(wù)[21]。并行計算模式的實(shí)現(xiàn)可以提高食品安全大數(shù)據(jù)計算的速度。
在MapReduce模型中,程序執(zhí)行過程主要存在兩個核心操作,即:Map操作和Reduce操作,Map是對數(shù)據(jù)進(jìn)行映射,Reduce是對數(shù)據(jù)進(jìn)行規(guī)約[22]。目前,運(yùn)行MapReduce的集群往往由數(shù)十臺、甚至數(shù)百上千臺服務(wù)器組成,用于處理大規(guī)模數(shù)據(jù)。
食品安全大數(shù)據(jù)具有海量、高速變化、噪聲、結(jié)構(gòu)復(fù)雜等特點(diǎn),對其進(jìn)行快速準(zhǔn)確的分類,是從食品安全大數(shù)據(jù)中提取符合需要的、精煉的、可理解信息的重要方法。分類技術(shù)是利用已有的訓(xùn)練樣本去訓(xùn)練,從而得到一個最佳模型,再利用這個模型對測試數(shù)據(jù)進(jìn)行類別判斷從而實(shí)現(xiàn)分類的目的,也就具有了對未知數(shù)據(jù)進(jìn)行分類的能力。本節(jié)主要介紹了幾種典型的分類算法并對它們的性能進(jìn)行簡單的比較。
5.1.1 樸素貝葉斯
樸素貝葉斯分類算法是基于貝葉斯定理,該算法的核心是概率統(tǒng)計知識,屬于監(jiān)督學(xué)習(xí)的生成模型,算法原理如下:
(1)設(shè)x={a1,a2,…,am}為一個待分類的項(xiàng),而每一個a為x的一個特征屬性;
(2)有類別集合C={y1,y2,…,yn};
(3)計算P(y1|x),P(y2|x),…,P(yn|x);
(4)如果P(yk|x)=max{P(y1|x),P(y2|x),…,P(yn|x)},則x∈yk。
其中,第3步中的每個條件概率的計算,一般采用如下步驟:
(a)找到一個已知分類的待分類項(xiàng)集合,這個集合稱為訓(xùn)練樣本集。
(b)通過統(tǒng)計得各類別下每個特征屬性的條件概率估計值,即:
P(a1|y1),P(a2|y1),…,P(am|y1);P(a1|y2),P(a2|y2),…,P(am|y2),…,P(a1|yn),
P(a2|yn),…,P(am|yn)
(c)如果特征屬性之間是條件獨(dú)立的,則根據(jù)貝葉斯定理可以得出:
對于所有類通常認(rèn)為P(x)為常數(shù),所以只要將P(x|yi)最大化即可。又由于特征屬性之間是條件獨(dú)立的,可以得出:
對于大數(shù)據(jù)分類,樸素貝葉斯分類算法的分類效率比較穩(wěn)定,尤其對于小規(guī)模數(shù)據(jù)。但在另一方面,由于食品安全大數(shù)據(jù)規(guī)模大,屬性之間的關(guān)聯(lián)性比較復(fù)雜,因此使用樸素貝葉斯分類算法效果不是太好,應(yīng)該在考慮部分關(guān)聯(lián)性的基礎(chǔ)上對貝葉斯算法做進(jìn)一步改進(jìn)。文獻(xiàn)[23]基于粗糙集的可識別矩陣,提出一種基于屬性頻率的加權(quán)樸素貝葉斯方法;文獻(xiàn)[24]結(jié)合大樣本集的缺點(diǎn),將泊松分布模型引入到樸素貝葉斯分類算法中,從而提高了分類的精度;文獻(xiàn)[25]介紹了代價敏感思想、構(gòu)造出自適應(yīng)代價函數(shù),解決了不平衡數(shù)據(jù)分類問題;文獻(xiàn)[16]給出了基于MapReduce并行化的樸素貝葉斯算法,該算法的核心處理過程由MapReduce完成,Map函數(shù)完成對訓(xùn)練文件的解析,Reduce函數(shù)完成類別屬性和特征屬性知識庫的構(gòu)建。
5.1.2 決策樹
決策樹分類算法是一種自頂向下遞歸建模算法。該算法可以分為兩大部分:構(gòu)建決策樹部分;使用決策樹分類部分。
ID3算法是決策樹分類算法的經(jīng)典算法,其用“信息增益”作為屬性選擇標(biāo)準(zhǔn)。由于ID3算法一般適用于離散型屬性,因此提出了一種優(yōu)化算法C4.5。C4.5算法用“信息增益率”進(jìn)行計算,在運(yùn)算過程中先將連續(xù)型屬性轉(zhuǎn)換為離散型,然后再進(jìn)行屬性分類。
針對食品安全大數(shù)據(jù),采用決策樹分類算法顯著提高了食品安全數(shù)據(jù)的分類效果。另外,研究人員還提出大量的改進(jìn)算法,例如,文獻(xiàn)[26]對生成決策樹算法的目標(biāo)函數(shù)進(jìn)行了改進(jìn),且對影響分類結(jié)果的約束條件中的特征進(jìn)行了多方面衡量,從而提高分類節(jié)點(diǎn)的精確度;文獻(xiàn)[27]提出一種基于粗糙模糊集的容錯粗糙模糊決策樹算法,與一般決策樹相比,該算法具有較快的學(xué)習(xí)速度和較大的收斂概率;文獻(xiàn)[28]提出一種HAC4.5決策樹算法,該算法與Hadoop平臺并行,不僅提高了運(yùn)行速度,而且提高了計算精度。
5.1.3 神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)針對規(guī)模大、復(fù)雜度高、存在噪聲等特點(diǎn)的數(shù)據(jù),具有很強(qiáng)的承受力、較高的準(zhǔn)確率和較強(qiáng)的分類速率。因此神經(jīng)網(wǎng)絡(luò)分類算法可用于食品安全大數(shù)據(jù)挖掘。但是當(dāng)食品安全大數(shù)據(jù)的隱藏節(jié)點(diǎn)數(shù)量十分大時,實(shí)現(xiàn)食品安全大數(shù)據(jù)的分類將會消耗大量的時間。針對這個問題,文獻(xiàn)[29]結(jié)合生物神經(jīng)元學(xué)習(xí)和記憶形成的特點(diǎn),提出了一種改進(jìn)的BP算法,解決了網(wǎng)絡(luò)學(xué)習(xí)慢的問題;文獻(xiàn)[30]又提出了一種基于構(gòu)造型神經(jīng)網(wǎng)絡(luò)的最大密度覆蓋分類方法,進(jìn)一步提高了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度,同時提高了神經(jīng)網(wǎng)絡(luò)分類算法的有效性?;谝陨纤姆N算法的原理,綜合分類精度、模型效率、非數(shù)值型數(shù)據(jù)處理能力、運(yùn)行速度、模型結(jié)構(gòu)等幾方面給出如表2所示的對比情況。
表2 典型分類算法綜合對比情況
食品安全大數(shù)據(jù)具有海量、高速變化、噪聲、結(jié)構(gòu)復(fù)雜等特點(diǎn),對其進(jìn)行快速準(zhǔn)確的分類,是尋找數(shù)據(jù)潛在規(guī)律的重要方法。傳統(tǒng)的數(shù)據(jù)分類算法處理大數(shù)據(jù)時存在可行性差、效率低、分類精度不高等問題。而目前基于MapReduce模型的分布式并行處理架構(gòu)成為處理海量數(shù)據(jù)的新方法。例如,文獻(xiàn)[31]提出了一種在分布式環(huán)境中執(zhí)行的決策樹分類器構(gòu)建算法,該算法與傳統(tǒng)決策樹分類器相比,對多處理器上的流數(shù)據(jù)具有可伸縮性。文獻(xiàn)[32]回顧了分布式支持向量機(jī)(DSVMs)的研究現(xiàn)狀,并分析現(xiàn)有的分布式支持向量機(jī)的優(yōu)缺點(diǎn),提出一些支持向量機(jī)算法分布的研究和有待解決的問題。文獻(xiàn)[33]設(shè)計并實(shí)現(xiàn)了一種基于MapReduce架構(gòu)的并行決策樹分類算法,相比于傳統(tǒng)的決策樹和ID3算法,該算法不僅可以處理規(guī)模比較大的數(shù)據(jù),還具有較好的可擴(kuò)展性。因此,從并行計算出發(fā),提高食品安全大數(shù)據(jù)分類算法的效率和精度是一個重要的研究方向。
食品安全大數(shù)據(jù)是食品安全科學(xué)發(fā)展的一種趨勢,同樣也是大數(shù)據(jù)研究的重要應(yīng)用領(lǐng)域之一。隨著全國科技水平的不斷提高,食品行業(yè)積累了大量、來源多樣、增長速度快、價值密度低卻應(yīng)用價值大的數(shù)據(jù),如何分析、處理和利用這些數(shù)據(jù),挖掘其內(nèi)在信息價值,成為食品安全行業(yè)重點(diǎn)關(guān)注的問題[34]。大數(shù)據(jù)作為一門綜合性科學(xué),其理論體系不斷成熟,隨著新的理論和方法的形成,將會催生新的技術(shù),這給研究人員學(xué)習(xí)利用大數(shù)據(jù)技術(shù),實(shí)現(xiàn)食品安全大數(shù)據(jù)的更多價值帶來了許多挑戰(zhàn)。主要從以下幾方面展望未來食品安全大數(shù)據(jù)所面臨的挑戰(zhàn)。
隨著大數(shù)據(jù)時代的到來,針對當(dāng)前多源、異構(gòu)、海量的食品安全大數(shù)據(jù),傳統(tǒng)單一的處理模式和方法已經(jīng)不能應(yīng)對。而提升海量數(shù)據(jù)處理能力的問題迫在眉睫,同時分布式處理是當(dāng)下最有效的手段。因此,根據(jù)不同的食品安全大數(shù)據(jù)處理要求,選擇合適的分布式處理框架和處理算法,將成為未來食品安全大數(shù)據(jù)的研究重點(diǎn)。
在大數(shù)據(jù)和人工智能的不斷發(fā)展下,深度學(xué)習(xí)越來越受重視,逐漸成為人工智能領(lǐng)域的研究熱點(diǎn)[35]。深度學(xué)習(xí)被廣泛應(yīng)用于多個領(lǐng)域,目前在圖像識別、語音識別、自然語言處理等領(lǐng)域取得了突破性的進(jìn)展。文獻(xiàn)[36]探索了深度學(xué)習(xí)在手寫字符識別中的應(yīng)用,提出卷積神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)兩種深度學(xué)習(xí)算法并在實(shí)驗(yàn)中取得了較好的結(jié)果。文獻(xiàn)[37]將DBNs運(yùn)用到視聽語音識別,測試了傳統(tǒng)的結(jié)合單模態(tài)DBNs評分的決策融合和基于單模態(tài)DBNs學(xué)習(xí)的中級特征的新特征融合兩種方法。由此可見,實(shí)現(xiàn)深度學(xué)習(xí)與食品安全大數(shù)據(jù)的結(jié)合,通過建立基于模式融合的深度學(xué)習(xí)方法,可以有效改善傳統(tǒng)食品安全大數(shù)據(jù)分析處理的缺點(diǎn),從而更大程度上實(shí)現(xiàn)食品安全大數(shù)據(jù)的信息價值。