瞿孝云 肖興寧 肖英平 劉元杰 楊 力 張建民 楊 華汪 雯
(1.華南農(nóng)業(yè)大學,人獸共患病防控制劑國家地方聯(lián)合工程實驗室,農(nóng)業(yè)農(nóng)村部人畜共患病重點實驗室,廣東省動物源性人獸共患病預(yù)防與控制重點實驗室,廣州510642;2.浙江省農(nóng)業(yè)科學院農(nóng)產(chǎn)品質(zhì)量安全與營養(yǎng)研究所,農(nóng)產(chǎn)品質(zhì)量安全危害因子與風險防控國家重點實驗室,農(nóng)業(yè)農(nóng)村部農(nóng)產(chǎn)品質(zhì)量安全風險評估實驗室(杭州),杭州310021;3.中國農(nóng)業(yè)大學信息與電氣工程學院,農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)信息獲取技術(shù)重點實驗室,現(xiàn)代精細農(nóng)業(yè)系統(tǒng)集成研究教育部重點實驗室,北京100083;4.中國計量大學信息工程學院,杭州310018)
沙門氏菌(Salmonel l a)是人畜共患的革蘭氏陰性病原菌。據(jù)統(tǒng)計,我國70%~80%的細菌性食物中毒是由沙門氏菌引起,每年病例約820萬[1]。肉雞是沙門氏菌的常見宿主,屠宰過程中的宰殺、瀝血、浸燙、掏膛、內(nèi)腔淋洗、預(yù)冷清洗等環(huán)節(jié)是造成產(chǎn)品污染的重要環(huán)節(jié),據(jù)報道,我國屠宰環(huán)節(jié)的雞肉沙門氏菌污染率高達62.9%[2]。本課題組前期基于模擬實驗數(shù)據(jù),構(gòu)建了多元非線性回歸沙門氏菌污染率預(yù)測模型,但傳統(tǒng)的回歸模型需對變量進行組合或剔除,易造成高維數(shù)據(jù)擬合的信息缺失,較難實現(xiàn)多維數(shù)據(jù)下的精準預(yù)測[3~4]。機器學習算法可從海量、復(fù)雜的數(shù)據(jù)中深度學習找到關(guān)鍵信息和變量之間的隱藏關(guān)系[5]。當前,我國大型肉雞屠宰場引入了自動化系統(tǒng),該系統(tǒng)運行積累了大量的溫度、濕度、預(yù)冷水氯濃度等傳感器檢測數(shù)據(jù),屠宰場日常微生物檢測也積累了大量的細菌污染率數(shù)據(jù)?;谕涝讏霰O(jiān)測數(shù)據(jù),利用機器學習算法構(gòu)建沙門氏菌污染率風險分析模型,對保障產(chǎn)品安全具有重要意義。
分類型機器學習算法是通過構(gòu)建模型對數(shù)據(jù)進行分類,學習數(shù)據(jù)在構(gòu)建模型的過程中起著重要的作用[6]。基于樣本數(shù)據(jù)量的差異,支持向量機、樸素貝葉斯和神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于非線性問題的預(yù)測中。支持向量機和樸素貝葉斯算法適合解決小樣本數(shù)據(jù)量問題。支持向量機通過超平面的邊界將數(shù)據(jù)劃分為具有近似值的組,對于非線性問題,通過線性核、多項式核、S形核、徑向基核函數(shù)等核函數(shù)來解決[7~8]。樸素貝葉斯是通過比較測試樣本各類別的條件概率進行預(yù)測[9]。神經(jīng)網(wǎng)絡(luò)是模擬生物神經(jīng)系統(tǒng),通過確定節(jié)點及節(jié)點之間關(guān)系以進行預(yù)測,其并行分布處理能力強,適合解決大樣本數(shù)據(jù)量問題[10~11]。
本研究分別基于支持向量機、樸素貝葉斯和神經(jīng)網(wǎng)絡(luò)3種機器學習算法,建立以日屠宰量、環(huán)境溫度、環(huán)境濕度、宰前污染率、浸燙環(huán)節(jié)交叉污染、掏膛環(huán)節(jié)交叉污染、預(yù)冷水氯濃度為輸入值,肉雞宰后污染率為輸出值的肉雞宰后沙門氏菌污染率預(yù)測模型,并通過隨機森林算法對最優(yōu)模型進行敏感性分析,為微生物污染率風險預(yù)警提供模型基礎(chǔ)。
(一)數(shù)據(jù)來源
1.環(huán)境參數(shù)和加工參數(shù)。本課題組于2016-2019年在廣州某家禽屠宰企業(yè)進行了數(shù)據(jù)收集。日屠宰量數(shù)據(jù)來源于現(xiàn)場調(diào)研;環(huán)境溫濕度數(shù)據(jù)來源于生產(chǎn)線溫濕度傳感器的監(jiān)測;預(yù)冷水氯濃度數(shù)據(jù)來源于有效氯測定儀對每小時預(yù)冷水氯濃度的監(jiān)測,結(jié)果詳見表1。
2.沙門氏菌污染率檢測。(1)主要實驗儀器。QHZ-98A/QHZ-98B全溫振蕩培養(yǎng)箱(太倉市華美生化儀器廠);SHP-250生化培養(yǎng)箱(上海精宏實驗設(shè)備有限公司);SYN-K電熱恒溫水浴鍋(北京長風儀器廠);5424R高速冷凍離心機(德國Eppendorf公司);PTC-200 PCR擴增儀(美國MJ ReSearch公司);SBD-50水浴搖床(美國MJ Re-Search公司);Gel Doc XR凝膠成像系統(tǒng)(美國Bio-Rad公司);Power Pac universal TM核酸電泳儀(美國Bio-Rad公司)。(2)沙門氏菌的分離培養(yǎng)與鑒定。每月分別采集肛拭子、浸燙后、掏膛后、預(yù)冷后雞胴體各20份,共30個月。按照GB/T 4789.4-2016《食品安全國家標準 食品微生物學檢驗 沙門氏菌檢驗》規(guī)定,經(jīng)過預(yù)增菌、增菌、劃線、純化、鑒定等步驟進行沙門氏菌鑒定。污染率檢測結(jié)果見表1。
3.宰后肉雞沙門氏菌污染率分類。我國針對鮮(凍)畜禽產(chǎn)品(GB 2707-2016)和畜禽屠宰加工(GB 12694-2016)的國家標準均未考慮微生物指標。美國和歐盟制定了雞肉產(chǎn)品沙門氏菌污染率限量標準,要求宰后雞胴體中沙門氏菌的污染率不得超過15.4%和9.8%[2]。參考歐美沙門氏菌限量標準,定義宰后污染率變化范圍<10%的數(shù)值為標簽“0”,即低污染風險;宰后污染率變化范圍≥10%且<15%的數(shù)值為標簽“1”,即中污染風險;宰后污染率變化范圍≥15%的數(shù)值為標簽“2”,即高污染風險(見表1)。
表1 肉雞屠宰環(huán)節(jié)的數(shù)據(jù)變量
(二)污染率預(yù)測模型構(gòu)建
1.支持向量機。支持向量機(Support vector machine,SVM)是一種監(jiān)督學習算法,具有強大的分類鑒別能力。SVM算法通過構(gòu)造一個(n-1)維的分離超平面來區(qū)分n維空間中的2個類,該超平面把輸入數(shù)據(jù)轉(zhuǎn)換到高維空間,生成一個n維向量,并且最大化2個數(shù)據(jù)組之間的余量來對不同類別進行最優(yōu)分離。訓練數(shù)據(jù)集設(shè)置見公式(1)[13]。
公式(1)中,zi為第i個輸入特征向量,所有描述系統(tǒng)狀態(tài)的輸入特征向量組成z;yi為第i個樣本的分類標識,yi∈{-1,1};l為樣本數(shù);n為向量空間維數(shù),求解最優(yōu)分類超平面[14]。
2.樸素貝葉斯。樸素貝葉斯建立在貝葉斯決策理論和貝葉斯網(wǎng)絡(luò)的基礎(chǔ)上,屬于監(jiān)督學習。算法主要分為2個階段:第1階段,對實驗樣本進行分類,分別計算不同條件下的概率;第2階段,輸入測試樣本,計算不同條件的概率,比較其概率大小,從而完成對測試樣本的分類。訓練數(shù)據(jù)集設(shè)置見公式 (2)[15]。
公式(2)中,X={x1,x2,...,xn}表示包含不同特征屬性的屠宰環(huán)節(jié)輸入?yún)?shù)特征集;Y={y1,y2,...,yn}表示不同宰后污染率集合。
3.神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)由大量的節(jié)點相互連接構(gòu)成。每個節(jié)點代表一種特定的輸出函數(shù),稱為激活函數(shù)。每2個節(jié)點間的連接都代表一個對于通過該連接信號的加權(quán)值,稱為權(quán)重。網(wǎng)絡(luò)的輸出則依據(jù)網(wǎng)絡(luò)的連接方式、權(quán)重值和激活函數(shù)的不同而不同[16]。本研究采用的是反向傳播人工神經(jīng)網(wǎng)絡(luò),應(yīng)用tan h激活函數(shù),神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示。
圖1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
(三)模型評價利用SAS軟件的“預(yù)測建?!蹦K進行支持向量機、樸素貝葉斯和神經(jīng)網(wǎng)絡(luò)建模。誤分類率(Error rate,ER)表示被分類器錯誤分類的元組所占百分比,反映了分類器對各類元組的正確識別情況,可通過混淆矩陣來計算。受試者工作特征曲線(Receiver operating characteristic curve,ROC)是以靈敏度為縱坐標,“1-特異度”為橫坐標繪制的曲線,若曲線下面積(Area under the curve,AUC)越接近于1,則模型的預(yù)測性能越好。均方根誤差(Root mean square error,RMSE)是用來衡量觀測值同實際值之間的偏差。采用ER、AUC和RMSE指標來評價模型預(yù)測精度,其中ER和RMSE越小,A UC越大,表示模型預(yù)測精度越高[17]。
(四)風險敏感性分析預(yù)測模型中各解釋變量對目標變量的影響存在差異,隨機森林算法可衡量單一解釋變量對目標特征的敏感性,根據(jù)逐一移除變量后模型準確性的降低程度來衡量變量重要性[18]?;赟AS軟件的隨機森林算法對日屠宰量、環(huán)境溫度、環(huán)境濕度、宰前污染率、浸燙環(huán)節(jié)交叉污染、掏膛環(huán)節(jié)交叉污染、預(yù)冷水氯濃度等因素進行重要度排序。
(一)模型評估與比較支持向量機模型對訓練數(shù)據(jù)集的擬合能力較好(AUC>0.7,ER=23.8%,RMSE=0.42)(見表2和圖2)。樸素貝葉斯和神經(jīng)網(wǎng)絡(luò)模型的AUC值較低,模型的預(yù)測效果一般,存在欠擬合風險(見表2)。研究發(fā)現(xiàn),支持向量機在解決小樣本、非線性、高維的數(shù)據(jù)預(yù)測問題上有很大優(yōu)勢,在解決分類問題方面表現(xiàn)出色[13]。袁彥彥和王興芬[19]基于21條實驗數(shù)據(jù)量,比較了支持向量機與神經(jīng)網(wǎng)絡(luò)模型對速凍水餃變溫冷藏的貨架期的預(yù)測效果,發(fā)現(xiàn)支持向量機模型的預(yù)測結(jié)果更能接近實際情況。在疾病風險預(yù)測方面,ALMANSOUR等[20]分別使用支持向量機和神經(jīng)網(wǎng)絡(luò)來分類4種腎臟疾病,結(jié)果發(fā)現(xiàn),支持向量機方法的準確率高達76.32%,并且處理時間相比神經(jīng)網(wǎng)絡(luò)縮短一半以上。支持向量機模型的最終決策函數(shù)由少數(shù)的支持向量所確定,結(jié)果不易受到模型中存在的數(shù)據(jù)擾動、噪聲及離群點的影響[14]。神經(jīng)網(wǎng)絡(luò)更適用于大樣本量的數(shù)據(jù)集,計算結(jié)果受初值影響大,系統(tǒng)訓練需要較長的時間。系統(tǒng)訓練不穩(wěn)定,當學習速率過大時,權(quán)值在修正過程中會超出誤差的最小值而永不收斂[13]。
表2 3種機器學習算法統(tǒng)計分析結(jié)果
圖2 支持向量機模型訓練集(A)及驗證集(B)ROC曲線
(二)風險敏感性分析隨機森林算法分析重要度發(fā)現(xiàn),影響宰后污染率的關(guān)鍵因素依次為環(huán)境溫度、環(huán)境濕度、宰前污染率、掏膛環(huán)節(jié)交叉污染、預(yù)冷水氯濃度、浸燙環(huán)節(jié)交叉污染、日屠宰量(見圖3)。HWANG等[21]采用隨機森林算法研究發(fā)現(xiàn),環(huán)境溫度、濕度是影響肉雞污染率的關(guān)鍵因素。據(jù)報道,微生物檢測結(jié)果易受季節(jié)變化的影響,研究發(fā)現(xiàn),夏季肉雞沙門氏菌污染率顯著高于其他季節(jié),可能是由于沙門氏菌在高溫、低濕的環(huán)境下抗性較強[20]。XIAO等[12]基于斯皮爾曼相關(guān)性分析,發(fā)現(xiàn)宰前污染程度和屠宰環(huán)節(jié)預(yù)冷水消毒劑濃度是影響肉雞沙門氏菌患病風險的關(guān)鍵因素。因此,通過加強屠宰環(huán)境溫濕度的控制、屠宰過程適當添加殺菌劑等措施可有效降低宰后的沙門氏菌污染率。
圖3 影響宰后污染率的關(guān)鍵因素排序
在細菌污染率的分類預(yù)測研究中,機器學習方法的應(yīng)用是一個重要的研究方向。如HWANG等[21]基于溫度、濕度、風速、降雨量等83個氣象變量監(jiān)測數(shù)據(jù),通過隨機森林算法構(gòu)建了養(yǎng)殖環(huán)節(jié)沙門氏菌的污染率預(yù)測模型。肖興寧等[3]建立了初始污染率、初始污染水平、次氯酸鈉濃度為顯著影響因素的廣義回歸神經(jīng)網(wǎng)絡(luò)污染率預(yù)測模型。在算法優(yōu)化方面,機器學習的集成算法可將多個單一算法集成在一起,減少模型的不確定性和誤差,使得機器學習的效果更好,如聚合多個分類或回歸模型的Stacking算法,可考慮應(yīng)用機器學習算法的集成來預(yù)測細菌污染率[22]。
機器學習的各類算法,本質(zhì)在于提取特征和標記的相互關(guān)系,因此對于特征和標記的質(zhì)量要求較高。特征和標記的質(zhì)量越高,其算法的分類效果越好[23]。算法比較依賴輸入數(shù)據(jù)的質(zhì)量,由此可見,機器學習在微生物污染風險分析中的應(yīng)用效果與相關(guān)指標檢測技術(shù)的發(fā)展息息相關(guān)。沙門氏菌的傳統(tǒng)檢測方法有菌落培養(yǎng)和計數(shù)、聚合酶鏈式反應(yīng),但是其制樣過程復(fù)雜、耗時,無法應(yīng)用于實時檢測。生物傳感器分析技術(shù)與傳統(tǒng)的檢測方法相比具有選擇性好、靈敏度高、分析速度快等優(yōu)點[24]。因此,在現(xiàn)有的溫度、氯濃度等物理和化學傳感器的基礎(chǔ)上,結(jié)合微生物快速檢測生物傳感器,通過數(shù)據(jù)無線傳輸技術(shù),可實現(xiàn)沙門氏菌污染率的實時風險分析和預(yù)警。
本研究以日屠宰量、環(huán)境溫度、環(huán)境濕度、宰前污染率、浸燙環(huán)節(jié)交叉污染、掏膛環(huán)節(jié)交叉污染、預(yù)冷水氯濃度為輸入值,肉雞宰后污染率為輸出值分別構(gòu)建了支持向量機、樸素貝葉斯和神經(jīng)網(wǎng)絡(luò)模型,支持向量機模型對沙門氏菌污染率風險預(yù)測效果優(yōu)于其他2種模型。敏感性分析表明,環(huán)境溫濕度是影響宰后污染率變化的重要因素。然而,本研究也存在一定的局限性,如樣本量較少、分類模型的預(yù)測準確性不高、模型的泛化能力還有待驗證等。在后續(xù)的研究中將進一步擴充用于構(gòu)建模型的數(shù)據(jù)樣本量,嘗試用更科學的算法構(gòu)建模型以提高模型分類準確率,使得機器學習方法能夠更好地應(yīng)用于肉雞沙門氏菌污染率的風險分析。