趙杰斌,黃穗東,孫遠(yuǎn)明,徐振林,
(1.廣東省食品質(zhì)量安全重點(diǎn)實(shí)驗(yàn)室,華南農(nóng)業(yè)大學(xué)食品學(xué)院,廣東廣州 510642;2.廣東省臺(tái)山市市場(chǎng)監(jiān)督管理局,廣東江門 529000;3.廣州市食品檢驗(yàn)所,廣東廣州 510410)
蔬菜作為人民群眾生活必需品,保障“菜籃子”產(chǎn)品的安全供應(yīng),事關(guān)民生福祉和社會(huì)穩(wěn)定。近年來(lái),隨著生活質(zhì)量的提升,人們更加注重營(yíng)養(yǎng)均衡和膳食搭配,對(duì)于蔬菜的需求量在不斷提升,根據(jù)相關(guān)研究,2020 年全國(guó)人均全年蔬菜消費(fèi)量為140 公斤,預(yù)計(jì)到達(dá)2023 年消費(fèi)量可達(dá)166 公斤[1-2]。目前,威脅蔬菜質(zhì)量安全的污染物主要以農(nóng)藥殘留和重金屬為主[3],國(guó)內(nèi)外相關(guān)國(guó)家和組織均對(duì)農(nóng)產(chǎn)品質(zhì)量安全建立風(fēng)險(xiǎn)預(yù)警體系,包括由歐洲食品安全局(European Food Safety Authority,EFSA)建立的食品與飼料快速預(yù)警系統(tǒng)(Rapid Alert System for Food and Feed,RASFF),美國(guó)疾病預(yù)防和控制中心(Centers for Disease Control and Prevention,CDC)建立的食源性疾病主動(dòng)監(jiān)測(cè)網(wǎng)絡(luò)(Foodborne Disease Active Surveillance Network,F(xiàn)oodNet),國(guó)家食品安全風(fēng)險(xiǎn)評(píng)估中心(China National Center for Food Safety Risk Assessment,CFSA),均通過(guò)對(duì)農(nóng)產(chǎn)品風(fēng)險(xiǎn)監(jiān)測(cè)的相關(guān)數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)農(nóng)產(chǎn)品安全隱患的提前預(yù)測(cè)與介入[4]。
目前,對(duì)于農(nóng)產(chǎn)品安全風(fēng)險(xiǎn)預(yù)警分析主要是基于具體抽檢數(shù)據(jù),對(duì)不合格樣本、食品種類、涉及場(chǎng)所等環(huán)節(jié)進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析,并對(duì)存在的主要問(wèn)題進(jìn)行剖析的傳統(tǒng)方法[5]。而利用數(shù)據(jù)挖掘技術(shù),對(duì)現(xiàn)有數(shù)據(jù)間內(nèi)在聯(lián)系進(jìn)行挖掘,可構(gòu)建出對(duì)問(wèn)題分析和預(yù)測(cè)的模型,人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)作為數(shù)據(jù)挖掘工具,在食品領(lǐng)域中國(guó)外已有相關(guān)的應(yīng)用研究,如Chen 等[6]利用高光譜成像測(cè)定牡蠣中總揮發(fā)性堿性氮含量,以總揮發(fā)性堿性氮含量對(duì)牡蠣新鮮度進(jìn)行評(píng)價(jià),利用BP 人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)牡蠣在貯藏期間的新鮮度;Tarafdar 等[7]以含水率、干燥效率和干燥速率為輸出干燥參數(shù),利用人工神經(jīng)網(wǎng)絡(luò)構(gòu)建了蘑菇冷凍干燥應(yīng)用模型預(yù)測(cè)生物材料的干燥過(guò)程,并與半經(jīng)驗(yàn)?zāi)P瓦M(jìn)行比較發(fā)現(xiàn),人工神經(jīng)網(wǎng)絡(luò)具有更優(yōu)秀的預(yù)測(cè)效率;Mercie 等[8]利用物理傳熱模型來(lái)計(jì)算貨柜中的溫度分布情況,并以此作為訓(xùn)練數(shù)據(jù)構(gòu)建出可預(yù)測(cè)易腐食品在運(yùn)輸過(guò)程中溫度變化的神經(jīng)網(wǎng)絡(luò)框架。國(guó)內(nèi)在食品領(lǐng)域的應(yīng)用研究中,范維等[9]基于實(shí)時(shí)聚合酶鏈?zhǔn)椒磻?yīng)法(Real-time PCR)對(duì)牛、羊肉串成分檢測(cè),并運(yùn)用BP 神經(jīng)網(wǎng)絡(luò)算法構(gòu)建牛、羊肉串摻假的風(fēng)險(xiǎn)預(yù)測(cè)模型;陳鋰等[10]參照國(guó)家食品檢驗(yàn)標(biāo)準(zhǔn)結(jié)合專家打分,對(duì)肉制品中鉛含量分成6 個(gè)風(fēng)險(xiǎn)等級(jí),利用神經(jīng)網(wǎng)絡(luò)建立三層的時(shí)間序列風(fēng)險(xiǎn)預(yù)警模型;魏泉增等[11]基于頂空固相微萃取結(jié)合氣質(zhì)聯(lián)用(GC-MS)測(cè)定花生油的揮發(fā)性成分,采用人工神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行建模和預(yù)測(cè),建立可用于鑒別不同工藝花生油的模型。相比較下,目前鮮見基于抽檢數(shù)據(jù)利用人工神經(jīng)網(wǎng)絡(luò)構(gòu)建農(nóng)產(chǎn)品質(zhì)量安全分析和預(yù)測(cè)模型的研究,有關(guān)江門市乃至廣東省抽檢數(shù)據(jù)的模型研究尚處于空白。
因此,本研究根據(jù)2016~2020 年江門市全域范圍內(nèi)蔬菜抽檢數(shù)據(jù),運(yùn)用SPSS 軟件對(duì)其質(zhì)量安全狀況進(jìn)行分析,并運(yùn)用IBM SPSS Modeler 軟件基于抽檢數(shù)據(jù)的各項(xiàng)指標(biāo),利用BP(Back-Propagation,BP)神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)挖掘,構(gòu)建出江門市蔬菜食品安全風(fēng)險(xiǎn)分析與預(yù)測(cè)模型,為監(jiān)管部門進(jìn)一步做好農(nóng)產(chǎn)品監(jiān)管提供技術(shù)參考。
蔬菜樣本 2016~2020 年,本研究從江門市四市三區(qū)的農(nóng)貿(mào)市場(chǎng)、批發(fā)市場(chǎng)、商場(chǎng)超市、餐飲服務(wù)單位等單位對(duì)10 個(gè)種類的蔬菜進(jìn)行采樣,每年各類蔬菜抽樣情況如表1 所示,共抽取蔬菜樣本1945份,其中豆類蔬菜148 份、葉菜類蔬菜469 份、根莖類和薯類蔬菜297 份、鱗莖類蔬菜116 份、瓜類蔬菜194 份、蕓薹類蔬菜196 份、茄果類蔬菜277 份、芽菜類蔬菜142 份、水生蔬菜19 份、食用菌87 份。
表1 2016~2020 年各類蔬菜采樣情況Table 1 Samples of various vegetables from 2016 to 2020
依據(jù)GB23200.113-2018《食品安全國(guó)家標(biāo)準(zhǔn) 植物源性食品中208 種農(nóng)藥及其代謝物殘留量的測(cè)定氣相色譜-質(zhì)譜聯(lián)用法》、GB 23200.121-2021《食品安全國(guó)家標(biāo)準(zhǔn) 植物源性食品中331 種農(nóng)藥及其代謝物殘留量的測(cè)定 液相色譜—質(zhì)譜聯(lián)用法》、BJS 201703《豆芽中植物生長(zhǎng)調(diào)節(jié)劑的測(cè)定》、GB 5009.12-2017《食品安全國(guó)家標(biāo)準(zhǔn) 食品中鉛的測(cè)定》、GB 5009.15-2014《食品安全國(guó)家標(biāo)準(zhǔn) 食品中鎘的測(cè)定》等標(biāo)準(zhǔn),對(duì)蔬菜中的氧樂(lè)果、毒死蜱、甲基異柳磷、克百威、水胺硫磷、氟蟲腈、腐霉利、阿維菌素、噻蟲嗪、滅蠅胺、4-氯苯氧乙酸鈉11 種農(nóng)藥殘留,鎘和鉛2 種重金屬元素進(jìn)行測(cè)定。根據(jù)GB 2762-2017《食品安全國(guó)家標(biāo)準(zhǔn) 食品中污染物限量》、GB 2763-2021《食品安全國(guó)家標(biāo)準(zhǔn) 食品中農(nóng)藥殘留最大殘留量》和《國(guó)家食品藥品監(jiān)督管理總局、農(nóng)業(yè)部、國(guó)家衛(wèi)生和計(jì)劃生育委員會(huì)關(guān)于豆芽生產(chǎn)過(guò)程中禁止使用6-芐基腺嘌呤等物質(zhì)的公告》(2015 年第11 號(hào))對(duì)檢測(cè)結(jié)果進(jìn)行判定。
1.2.1 蔬菜食品安全預(yù)測(cè)模型構(gòu)建
1.2.1.1 BP 神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建 人工神經(jīng)網(wǎng)絡(luò)(ANN)是一種模仿人腦功能,基于生物神經(jīng)系統(tǒng)結(jié)構(gòu)的數(shù)據(jù)處理系統(tǒng),通過(guò)人工神經(jīng)元之間相互連接構(gòu)建出一個(gè)非線性的自適應(yīng)系統(tǒng),可應(yīng)用于數(shù)據(jù)分析為核心的數(shù)據(jù)挖掘領(lǐng)域,實(shí)現(xiàn)對(duì)數(shù)據(jù)的預(yù)測(cè)、分類等功能,為決策制定和問(wèn)題分析提供技術(shù)參考[6,12]。BP 神經(jīng)網(wǎng)絡(luò),又稱反向傳播(back-propagation,BP)神經(jīng)網(wǎng)絡(luò),作為一種前饋、多層式網(wǎng)絡(luò),在反復(fù)向輸入的樣本學(xué)習(xí)的訓(xùn)練過(guò)程中,通過(guò)不斷調(diào)整網(wǎng)絡(luò)的權(quán)值來(lái)獲得最小的誤差,以實(shí)現(xiàn)網(wǎng)絡(luò)輸出無(wú)限逼近期望值的目標(biāo)[13-14]。本研究將利用2016 年至2020 年江門市蔬菜食品安全監(jiān)督抽檢數(shù)據(jù)為樣本,將多維度的不同抽檢數(shù)據(jù)輸入BP 神經(jīng)網(wǎng)絡(luò),通過(guò)反復(fù)的訓(xùn)練從而獲得預(yù)測(cè)目標(biāo)變量結(jié)果。
1.2.1.2 數(shù)據(jù)樣本的預(yù)處理 數(shù)據(jù)自身的數(shù)量,格式和結(jié)構(gòu)等特點(diǎn)是構(gòu)建BP 神經(jīng)模型的關(guān)鍵基礎(chǔ),除了要保證有足夠數(shù)據(jù)量作為支撐外,還需要選擇數(shù)據(jù)的特征屬性,以保證模型的準(zhǔn)確度和實(shí)用性。原始的抽檢數(shù)據(jù)中包括了受檢地址、聯(lián)系人、聯(lián)系電話、型號(hào)規(guī)格、文字商標(biāo)、檢驗(yàn)機(jī)構(gòu)等多個(gè)屬性,這些僅能代表單一樣本的屬性,無(wú)法適用于以多個(gè)樣本為基礎(chǔ)的模型構(gòu)建中[15]。由于本研究通過(guò)基于采樣時(shí)間、采樣地點(diǎn)和樣本自身屬性等多個(gè)維度,構(gòu)建蔬菜食品安全預(yù)測(cè)模型,因此選取了年份、月份、行政區(qū)域、所屬鎮(zhèn)街、監(jiān)測(cè)場(chǎng)所、蔬菜種類、蔬菜品種7 個(gè)具有代表性屬性作為輸入變量,將結(jié)論作為輸出變量(目標(biāo)變量)。
此外,蔬菜樣本在采集工作中,采樣信息時(shí)受個(gè)人理解、地方方言等影響,造成同品種蔬菜會(huì)登記成不同名字,如結(jié)球甘藍(lán)會(huì)登記為包菜、卷心菜、包心菜等,為保證數(shù)據(jù)的統(tǒng)一性,本研究將參考GB 2763-2021《食品安全國(guó)家標(biāo)準(zhǔn) 食品中農(nóng)藥最大殘留限量》中附錄A 來(lái)規(guī)范蔬菜品種名稱。為了方便數(shù)據(jù)的導(dǎo)入,對(duì)輸入數(shù)據(jù)按照屬性進(jìn)行整理,數(shù)據(jù)框類型見表2。
表2 BP 神經(jīng)網(wǎng)絡(luò)模型數(shù)據(jù)框類型Table 2 Data frame type for BP neural network model
1.2.1.3 建模流程 模型構(gòu)建的流程見圖1,通過(guò)源節(jié)點(diǎn)對(duì)整理好的excel 電子表格數(shù)據(jù)進(jìn)行導(dǎo)入;通過(guò)字段選項(xiàng)節(jié)點(diǎn)的類型選項(xiàng)對(duì)數(shù)據(jù)值進(jìn)行讀取并進(jìn)行角色調(diào)整;利用分區(qū)選項(xiàng)將輸入的數(shù)據(jù)集分為訓(xùn)練集和驗(yàn)證集;由于食品安全抽檢的結(jié)論為合格和不合格的樣本量之間是不平衡的,為提高模型對(duì)于合格和不合格樣本的預(yù)測(cè)準(zhǔn)確性,需要通過(guò)記錄節(jié)點(diǎn)的平衡選項(xiàng)對(duì)數(shù)據(jù)集進(jìn)行平衡;最后通過(guò)神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)對(duì)建模后,再利用分析節(jié)點(diǎn)和圖形評(píng)估節(jié)點(diǎn)來(lái)對(duì)模型的準(zhǔn)確度進(jìn)行分析。
圖1 模型構(gòu)建流程圖Fig.1 Flow chart of model establishment
1.2.1.4 建模參數(shù)設(shè)置 a.類型節(jié)點(diǎn)的設(shè)置:將數(shù)據(jù)導(dǎo)入后,類型節(jié)點(diǎn)將讀取數(shù)據(jù)集的值,將各項(xiàng)屬性設(shè)為名義屬性,除將檢測(cè)結(jié)果設(shè)為輸出角色,其他變量均設(shè)為輸入角色。由于神經(jīng)網(wǎng)絡(luò)只能處理數(shù)值型輸入變量,自動(dòng)數(shù)據(jù)處理會(huì)將分類變量轉(zhuǎn)化為取值為0 或1 的數(shù)值變量,對(duì)各變量進(jìn)行二進(jìn)制編碼,符合神經(jīng)網(wǎng)絡(luò)輸入的要求[16-17]。
b.分區(qū)節(jié)點(diǎn)的設(shè)置:將數(shù)據(jù)集分成訓(xùn)練集和驗(yàn)證集,以提高模型的穩(wěn)定性和延續(xù)性。本研究的分區(qū)節(jié)點(diǎn)的設(shè)置為:訓(xùn)練分區(qū)大小70%,測(cè)試分區(qū)大小30%。
c.平衡節(jié)點(diǎn)的設(shè)置:本研究中共采集的蔬菜樣本1945 份,其中不合格樣本62 份,占比3.2%,合格樣本和不合格樣本的分布比例過(guò)于懸殊,如果直接用于模型構(gòu)建,會(huì)因小概率樣本的預(yù)測(cè)結(jié)果較差,影響模型的準(zhǔn)確率。參考Linoff 的研究[18],采用過(guò)抽樣(Oversampling)或欠抽樣(Undersampling)技術(shù)來(lái)調(diào)整兩者樣本的分布比例,Linoff 認(rèn)為小概率樣本的比率維持在10%~50%之間,會(huì)獲得較好的效果。對(duì)于平衡節(jié)點(diǎn)的設(shè)定,將以模型的總體準(zhǔn)確率為判定指標(biāo),選出最佳的小概率樣本事件的比率。
d.神經(jīng)網(wǎng)絡(luò)建模節(jié)點(diǎn)的設(shè)置:神經(jīng)網(wǎng)絡(luò)模型選擇多層感知器(MLP),一種通過(guò)“誤差反向傳播算法”多層前向網(wǎng)絡(luò);模型停止規(guī)則為“無(wú)法進(jìn)一步降低誤差”,在模型訓(xùn)練環(huán)節(jié)中,模型在向樣本學(xué)習(xí)的同時(shí),通過(guò)權(quán)值進(jìn)行不斷修正,使得獲得預(yù)測(cè)誤差最低的期待模型;在模型中間隱藏層的神經(jīng)元數(shù)量設(shè)定上,根據(jù)田興國(guó)等人的研究[19],每一個(gè)BP 神經(jīng)網(wǎng)絡(luò)都有一個(gè)最優(yōu)的中間神經(jīng)元數(shù)量,通過(guò)經(jīng)驗(yàn)計(jì)算公式確定隱藏層中神經(jīng)元的數(shù)量合理范圍。
式中:n1 為隱藏層節(jié)點(diǎn)數(shù),n 為輸入節(jié)點(diǎn)數(shù),m為輸出節(jié)點(diǎn)數(shù),a介于1~10 的常數(shù)。
采用Excel 2007 軟件進(jìn)行數(shù)據(jù)統(tǒng)計(jì)和建模數(shù)據(jù)樣本預(yù)處理;SPSS 19.0 軟件進(jìn)行相關(guān)性分析和顯著性差異分析;IBM SPSS Modeler 14.1 軟件構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型;采用Origin 2019 軟件進(jìn)行繪圖。
2.1.1 各年間總體合格率的分析 本研究抽檢的1945 份蔬菜樣本,共有65 份樣本不合格,總體合格率為96.6%,各年檢測(cè)情況見圖2。采用Excel 2007和SPSS 19.0 軟件,對(duì)各年間整體合格率進(jìn)行顯著性差異分析,通過(guò)卡方檢驗(yàn)顯示χ2=10.8,P<0.05,表明各年檢整體合格率之間的差異顯著,具有統(tǒng)計(jì)學(xué)意義。除2017 年以外,均保持在95.5%以上,且維持在穩(wěn)定水平。
圖2 2016~2020 年各年間總體合格率情況Fig.2 Overall qualified rate of each year from 2016 to 2020
2.1.2 不合格樣本種類的分析 由圖3 可知,10 個(gè)種類蔬菜中,除瓜類蔬菜、水生蔬菜、食用菌以外,其余7 個(gè)種類的蔬菜均檢出不合格樣本,其中合格率最低三個(gè)蔬菜種類分別是芽菜類蔬菜81.7%、豆類蔬菜95.9%、根莖類和薯類蔬菜96.3%,均低于總體水平。
圖3 2017~2020 年抽檢不合格蔬菜種類情況Fig.3 Distribution of unqualified samples on different vegetables from 2016 to 2020
在不合格樣本中芽菜類蔬菜最多,占不合格樣本總數(shù)的40%,其次是葉菜類蔬菜,根莖類和薯類蔬菜,分別占比16.9%和21.5%。利用SPSS 19.0 軟件對(duì)上述3 個(gè)種類蔬菜的歷年采樣總數(shù)和不合格總數(shù)進(jìn)行皮爾遜(Person)相關(guān)性分析,顯示Person 相關(guān)系數(shù)ρ=0.95,P<0.05,表明采樣總數(shù)和不合格總數(shù)之間存在極強(qiáng)的相關(guān),通過(guò)增加高風(fēng)險(xiǎn)品種蔬菜的采樣量能有效地發(fā)現(xiàn)不合格樣本。
2.1.3 不合格項(xiàng)目的分析 根據(jù)農(nóng)業(yè)農(nóng)村部公布的《禁限用農(nóng)藥名錄》(2019 版)要求,毒死蜱、氟蟲腈、甲基異柳磷、克百威4 種農(nóng)藥被禁止用于蔬菜的種植種;根據(jù)原國(guó)家食藥總局在2015 年發(fā)布的《關(guān)于豆芽生產(chǎn)中禁止使用6-芐基腺嘌呤等物質(zhì)的公告》,將4-氯苯氧乙酸鈉列作農(nóng)藥登記管理,并禁止用于芽菜類蔬菜的種植種。由圖4 可知,2016 年至2020年間,江門市蔬菜食品安全問(wèn)題可分為農(nóng)藥殘留超標(biāo)、重金屬超標(biāo)和植物生長(zhǎng)激素超標(biāo)三類問(wèn)題,其中4-氯苯氧乙酸鈉、鉛元素、毒死蜱不合格批次最多,分別占不合格項(xiàng)次比例39.4%、21.2%、10.6%。可見,江門市蔬菜中禁限用農(nóng)藥殘留超標(biāo)、鉛元素蓄積和違規(guī)使用植物生長(zhǎng)激素的問(wèn)題較為突出,結(jié)論與李培武等[3]和周輝等[20]的研究相一致。
圖4 2016~2020 年抽檢不合格項(xiàng)目情況Fig.4 Distribution of unqualified sampling items from 2016 to 2020
造成上述問(wèn)題的原因:a.在豆芽生長(zhǎng)過(guò)程中加入4-氯苯氧乙酸鈉能促進(jìn)生產(chǎn),提高產(chǎn)率,使其芽軸變長(zhǎng),根部變短[21],加之4-氯苯氧乙酸鈉的無(wú)需指定銷售或購(gòu)買登記,造成部分種植戶為提高豆芽產(chǎn)量違規(guī)使用;b.除《禁限用農(nóng)藥名錄》(2019 版)中41 種禁止生產(chǎn)銷售和使用的農(nóng)藥以外,其他農(nóng)藥均可登記銷售,但對(duì)于購(gòu)買后的施藥范圍和施藥量缺乏監(jiān)管,加之農(nóng)戶安全用藥知識(shí)和意識(shí)缺乏,導(dǎo)致超范圍和超限量使用農(nóng)藥問(wèn)題的出現(xiàn);c.重金屬元素在植物代謝旺盛的器官中蓄積量最大,同時(shí)根部作為最先接觸土壤重金屬的器官,造成植物根部相對(duì)于其他部位而言蓄積量更多,根莖類和薯類蔬菜可食用部分主要是其根部,導(dǎo)致此類蔬菜在抽檢時(shí)較其他種類的蔬菜更容易出現(xiàn)鉛元素超標(biāo)的問(wèn)題[22-23]。根據(jù)胡霓紅等[24],陳志良等[25]對(duì)江門周邊城市蔬菜重金屬蓄積情況的研究結(jié)果顯示,葉菜類蔬菜的重金屬蓄積能力較其他種類蔬菜更強(qiáng),但江門市實(shí)際情況與其研究結(jié)果不一致。
2.2.1 不同平衡節(jié)點(diǎn)下模型準(zhǔn)確度對(duì)比 參考Linoff等[18]的研究,將平衡節(jié)點(diǎn)中的合格:不合格分別設(shè)置為3.4:1、7.6:1、13.0:1、20.2:1、30.4:1,其他節(jié)點(diǎn)按軟件默認(rèn)設(shè)置,所形成的模型概況如表3 所示。
表3 不同平衡節(jié)點(diǎn)設(shè)置下模型準(zhǔn)確度對(duì)比Table 3 Accuracy comparison of different balance node settings
在模型的整體準(zhǔn)確度方面,通過(guò)過(guò)抽樣的方式增加不合格樣本的比率,對(duì)于模型的總體合格率有明顯的提升,但當(dāng)合格:不合格達(dá)到13:1 時(shí),再次提升不合格樣本的比率對(duì)于整體合格率提升并不明顯。在合格樣本和不合格樣本的準(zhǔn)確度上,隨著不合格樣本的比率增加,對(duì)不合格樣本的預(yù)測(cè)準(zhǔn)確度也隨著增加,并在合格:不合格=13:1 時(shí)達(dá)到100%,與此同時(shí)對(duì)合格樣本的預(yù)測(cè)準(zhǔn)確度也在下降。因此,對(duì)于本研究模型的平衡節(jié)點(diǎn)設(shè)置采用合格:不合格=13:1。
2.2.2 不同隱藏層神經(jīng)元模型下準(zhǔn)確度對(duì)比 模型共有7 個(gè)輸入節(jié)點(diǎn)和1 個(gè)輸出節(jié)點(diǎn),根據(jù)公式(1)計(jì)算,隱藏層節(jié)點(diǎn)數(shù)取值在4 至13,按照訓(xùn)練集:驗(yàn)證集=7:3,平衡節(jié)點(diǎn)合格:不合格=13:1 設(shè)置,根據(jù)不同隱藏層節(jié)點(diǎn)數(shù)所構(gòu)成的10 個(gè)模型準(zhǔn)確度在92.7%至96.1%區(qū)間,合格樣本的預(yù)測(cè)準(zhǔn)確度在89.4%至94.5%區(qū)間,不合格樣本的預(yù)測(cè)準(zhǔn)確度在91.3%至100%區(qū)間,如圖5 所示。通過(guò)比較發(fā)現(xiàn),當(dāng)隱藏層節(jié)點(diǎn)設(shè)置為5 個(gè)時(shí),在模型總體準(zhǔn)確度、合格樣本和不合格樣本預(yù)測(cè)準(zhǔn)確度上均為最優(yōu),因此將其作為模型最優(yōu)設(shè)置參數(shù)。
圖5 不同隱藏層神經(jīng)元模型下準(zhǔn)確度對(duì)比Fig.5 Accuracy comparison of different hidden layer neuron models
2.2.3 模型優(yōu)化和評(píng)價(jià) 為進(jìn)一步提升模型的準(zhǔn)確性,采用推進(jìn)方法(Boosting)對(duì)模型進(jìn)行優(yōu)化。Boosting 是由Schapire 在1990 年提出的多項(xiàng)式級(jí)的算法[26],其原理是通過(guò)產(chǎn)生一系列“成分模型”,每個(gè)會(huì)在整理數(shù)據(jù)上進(jìn)行構(gòu)建,在構(gòu)建每個(gè)后續(xù)成分模型之前,會(huì)根據(jù)前一個(gè)模型的殘差對(duì)記錄進(jìn)行加權(quán)。具有較大殘差的會(huì)被給予較高的分析權(quán)重,下一個(gè)成分模型將更側(cè)重于這些記錄。這些成分模型共同構(gòu)建一個(gè)整體模型,同時(shí)采用組合規(guī)則對(duì)新紀(jì)錄進(jìn)行評(píng)分,可用的規(guī)則將取決于目標(biāo)的測(cè)量級(jí)別[27-28]。使用Boosting 構(gòu)建模型相對(duì)于標(biāo)準(zhǔn)模型而言,需要花費(fèi)更長(zhǎng)的構(gòu)建和評(píng)分時(shí)間,但是模型的結(jié)果預(yù)測(cè)精確度會(huì)更高。結(jié)合“2.2.1”和“2.2.2”的最優(yōu)設(shè)置參數(shù),使用Boosting 方法構(gòu)建模型后,添加分析節(jié)點(diǎn)和評(píng)估節(jié)點(diǎn),并與標(biāo)準(zhǔn)模型連接,以對(duì)比兩個(gè)模型的準(zhǔn)確性和性能。另外,還將通過(guò)交叉驗(yàn)證方法來(lái)對(duì)比兩個(gè)模型的穩(wěn)定性。
在模型的準(zhǔn)確性上,本研究將采用靈敏度(sensitivity,sen)、特異度(specificity,spe)、精度(accurary,acc)三個(gè)參數(shù),分析模型的準(zhǔn)確性。
靈敏度,代表實(shí)際為正例被判斷為正例的概率,當(dāng)靈敏度越高時(shí),反映模型對(duì)合格樣本的預(yù)測(cè)不容易出現(xiàn)誤判。
式中:TP 代表模型正確預(yù)測(cè)為合格的樣本數(shù)(true positive,TP),F(xiàn)N 代表錯(cuò)誤預(yù)測(cè)為合格的樣本數(shù)(false negative,F(xiàn)N)。
特異度,代表實(shí)際為負(fù)例被判斷為負(fù)例的概率,當(dāng)特異度越高時(shí),反映模型對(duì)不合格樣本的預(yù)測(cè)不容易出現(xiàn)漏判。
式中:TN 代表模型正確預(yù)測(cè)為不合格的樣本數(shù)(true negative,TN),F(xiàn)P 代表錯(cuò)誤預(yù)測(cè)為不合格的樣本數(shù)(false positive,F(xiàn)P)。
精度,代表預(yù)測(cè)正確的樣本占總樣本的比例,反映出模型總體分類的能力。
從表4 可知,使用Boosting 構(gòu)建的模型相比標(biāo)準(zhǔn)模型在精度上提升了2.32%;在不合格樣本預(yù)測(cè)的特異度方面,Boosting 模型被錯(cuò)判的樣本比標(biāo)準(zhǔn)模型增加4 個(gè),不合格樣本總量較少,即便被錯(cuò)判的樣本數(shù)量相差較小,造成兩者特異性差異較大,但Boosting模型特異度為83.87%仍可接受;在合格樣本預(yù)測(cè)的靈敏度方面,Boosting 模型被錯(cuò)判的樣本比標(biāo)準(zhǔn)模型減少了74 個(gè),靈敏度提升了4.37%。綜合分析,運(yùn)用Boosting 構(gòu)建的模型比標(biāo)準(zhǔn)模型精確度有明顯的提升。
表4 標(biāo)準(zhǔn)模型與優(yōu)化模型的準(zhǔn)確性比較Table 4 Accuracy comparison between normal model and optimized model
在模型性能評(píng)估上,分別選擇增益和提升兩種類型的圖,結(jié)合基線與最佳線綜合分析,在累積收益圖中,一個(gè)良好的模型,收益線會(huì)向100%徒增,然后趨于平穩(wěn)狀態(tài);在累積提升圖中,累積線始于大于1.0 的值,并向1.0 靠近,良好模型的響應(yīng)圖,圖表左側(cè)會(huì)保持較高水平,在圖表右側(cè)曲線將迅速下降。從圖6 可知,增益和提升圖表均顯示Boosting 模型和標(biāo)準(zhǔn)模型與最優(yōu)模型想接近,對(duì)于不合格樣本預(yù)測(cè)的總體性能較好,但兩個(gè)模型之間對(duì)比,Boosting 模型明顯優(yōu)于標(biāo)準(zhǔn)模型,在提升圖表中,前1 個(gè)百分位不合格預(yù)測(cè)的性能前者比后者提升15.4%。
圖6 標(biāo)準(zhǔn)模型與優(yōu)化模型性能評(píng)估圖Fig.6 Performance evaluation diagram of normal model and optimized model
在模型的穩(wěn)定性評(píng)估上,采用十折交叉驗(yàn)證(ten-fold cross validation)對(duì)標(biāo)準(zhǔn)模型和boosting 模型進(jìn)行分析,利用excel 將1945 個(gè)樣本數(shù)據(jù)隨機(jī)分為10 份,其中任意9 份作為訓(xùn)練數(shù)據(jù)集訓(xùn)練模型,剩余1 份作為測(cè)試數(shù)據(jù)集測(cè)試模型,重復(fù)10 次試驗(yàn)。
如圖7 所示,在十折交叉驗(yàn)證中,boosting 模型訓(xùn)練集正確率保持在97.8%~98.6%,方差為0.1,測(cè)試集正確率保持在91.5%~95.5%之間,方差為1.8;標(biāo)準(zhǔn)模型模型訓(xùn)練集正確率保持在91.4%~97.1%,方差為3.0,測(cè)試集正確率保持在87.5%~95.5%之間,預(yù)測(cè)正確率之間方差為6.5。由此可見,運(yùn)用boosting 構(gòu)建模型的穩(wěn)定性優(yōu)于標(biāo)準(zhǔn)模型。因此,本研究所構(gòu)建模型的最優(yōu)參數(shù)設(shè)置如表5 所示。
圖7 標(biāo)準(zhǔn)模型與優(yōu)化模型十折交叉驗(yàn)證情況Fig.7 Ten-fold cross validation of normal model and optimized model
表5 模型最優(yōu)參數(shù)設(shè)置Table 5 Optimal parameter settings for the model
本研究所構(gòu)建的模型,是通過(guò)輸入樣本的屬性來(lái)預(yù)測(cè)樣本的結(jié)果,在實(shí)際食品安全抽檢工作前作為參考,將樣本的屬性輸入到已訓(xùn)練好的BP 神經(jīng)網(wǎng)絡(luò)模型后,可根據(jù)模型預(yù)測(cè)的結(jié)果指定抽檢方案并進(jìn)行針對(duì)性檢測(cè),提升食品安全抽檢的靶向命中率,同時(shí)對(duì)于降低部分合格率高品種的抽樣量,節(jié)省人力、物力的投入,提升抽檢工作的效率,具有較高的實(shí)用價(jià)值。另外,除了在法定檢測(cè)中運(yùn)用外,也可用結(jié)合日??焖贆z測(cè)工作使用。相對(duì)比法定檢測(cè)而言,快速檢測(cè)利用快速、簡(jiǎn)便、廉價(jià)等優(yōu)勢(shì)實(shí)現(xiàn)大面積篩查,可為模型構(gòu)建提供大量的數(shù)據(jù)量,進(jìn)而對(duì)優(yōu)化模型。
但是模型構(gòu)建過(guò)程中,樣本屬性信息登記不規(guī)范、不合格樣本占比極低、樣本輸入屬性選擇等因素也會(huì)對(duì)模型的準(zhǔn)確性和實(shí)用性造成較大的影響,因此在建模過(guò)程中對(duì)數(shù)據(jù)準(zhǔn)確尤為重要,建議監(jiān)管部門豐富抽檢信息公示的內(nèi)容,并按照規(guī)范性文件規(guī)范產(chǎn)品信息填寫。此外,使用BP 神經(jīng)網(wǎng)絡(luò)構(gòu)建的模型雖然具備較高的分類精度,能自適應(yīng)和自主學(xué)習(xí),但其作為“黑箱模型”(Black box)弊端也得模型的解釋性和穩(wěn)定性較差,根據(jù)Liu 等[29]、向暉[30]、王強(qiáng)等[31]研究,將不同算法構(gòu)建的模型進(jìn)行組合,利用不同種類模型的優(yōu)勢(shì)互補(bǔ),避免單體模型的弊端,同時(shí)又共同解決同一個(gè)問(wèn)題。因此,在模型進(jìn)一步優(yōu)化中,可以此為方向,基于多種算法組合的農(nóng)產(chǎn)品質(zhì)量安全分析和預(yù)測(cè)模型。
本研究對(duì)江門市1945 份蔬菜樣本的農(nóng)藥殘留和重金屬含量情況分析發(fā)現(xiàn),芽菜類蔬菜、葉菜類蔬菜,根莖類和薯類蔬菜三類蔬菜總體合格率低于總體水平,其中以4-氯苯氧乙酸鈉、鉛元素、毒死蜱問(wèn)題較為突出。通過(guò)對(duì)上述檢測(cè)數(shù)據(jù)進(jìn)行深層挖掘,利用IBM SPSS Modeler 14.1 軟件構(gòu)建蔬菜食品安全的BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型。經(jīng)過(guò)對(duì)平衡節(jié)點(diǎn)、隱藏層神經(jīng)元、訓(xùn)練方法的優(yōu)化,構(gòu)建出3 層神經(jīng)模型的精度為96.3%,對(duì)合格樣本的靈敏度為96.8%,對(duì)不合格樣本的特異性為83.9%,結(jié)合增益和提升兩種評(píng)估圖分析,該模型的預(yù)測(cè)效果良好,可為蔬菜食品安全抽檢工作提供參考。建議在利用法定抽檢數(shù)據(jù)的進(jìn)行模型構(gòu)建的基礎(chǔ)上,結(jié)合快速檢測(cè)的優(yōu)勢(shì)獲得更大的數(shù)據(jù)量,同時(shí)通過(guò)不同算法構(gòu)建的模型組合,利用各自的優(yōu)勢(shì)來(lái)構(gòu)建準(zhǔn)確度更高,應(yīng)用面更廣的預(yù)測(cè)模型。