吳 鵬, 李 穎*, 劉 瑀, 陳 晨, 冉明衢, 李亞芳, 趙新達
1. 大連海事大學航海學院, 遼寧 大連 116026 2. 大連海事大學環(huán)境信息研究所, 遼寧 大連 116026 3. 大連海事大學環(huán)境科學與工程學院, 遼寧 大連 116026
仿刺參(Apostichopus japonicus)是海參綱(Holothuroidea)中最具營養(yǎng)價值與經(jīng)濟價值的一類[1]。 仿刺參體內(nèi)富含皂苷等高活性物質(zhì), 具有抗腫瘤, 降低血脂, 改善非酒精性脂肪肝, 抑制脂肪堆積, 抗高尿酸血癥, 促進骨髓造血, 抗高血壓等醫(yī)學功效[2]。 2017年中國共計養(yǎng)殖仿刺參538億頭, 年產(chǎn)量219 907 t, 行業(yè)總產(chǎn)值超過40億美金。 食品欺詐是一種極其有利可圖的行為, 不法商販通過不正當手段誤導, 甚至直接欺騙消費者, 從而獲取不法暴利[3]。 通過地理標志產(chǎn)品保護規(guī)定的設(shè)立, 可以有效保護質(zhì)量、 特色和聲譽取決于其產(chǎn)地地理特征的食品, 提升優(yōu)質(zhì)產(chǎn)地食品的經(jīng)濟價值[4]。 盡管法規(guī)的設(shè)立能夠預(yù)防食品產(chǎn)地欺詐事件的發(fā)生, 但面對高額的利益誘惑, 食品欺詐事件屢禁不止[5]。
氨基酸是蛋白質(zhì)的基本組成單位, 細胞的一切新生、 修復(fù)與更新都與氨基酸息息相關(guān)。 生物體中的氨基酸含量直接體現(xiàn)了其富含的營養(yǎng)價值, 不同種類氨基酸的含量反映了其攝食初級生產(chǎn)者的種類與比例[6]。 與脂肪酸相比, 仿刺參體內(nèi)含有更多的氨基酸, 氨基酸中的碳元素約占到仿刺參總碳量的一半, 是仿刺參新陳代謝活動的最主要參與者[7]。 特定化合物同位素分析技術(shù)(CSIA)結(jié)合了穩(wěn)定同位素分析技術(shù)和特定化合物組成分析技術(shù)的雙重優(yōu)勢, 可以更精確地闡述海洋食物網(wǎng)中營養(yǎng)物質(zhì)的流動路徑[8]。 特定化合物的碳穩(wěn)定同位素特征提供了一種更加深入理解營養(yǎng)物質(zhì)富集的手段, 在食品產(chǎn)地信息認證領(lǐng)域取得了良好的效果[9]。
本研究提出了一種融合多源數(shù)據(jù)處理方法認證仿刺參產(chǎn)地信息的新方法。 通過充分發(fā)揮不同描述角度數(shù)據(jù)的價值, 使其挖掘出數(shù)據(jù)背后隱含的規(guī)律, 建立了準確性更高、 穩(wěn)定性更好、 體系架構(gòu)更完善的產(chǎn)地信息認證模型。 構(gòu)建了仿刺參產(chǎn)地信息認證系統(tǒng), 有效地監(jiān)管與防止食品產(chǎn)地欺詐事件的發(fā)生, 維護品牌產(chǎn)地從業(yè)者與消費者的切身利益。
仿刺參樣品采集于2015年11月, 共采集到有效樣品156個: 其中氨基酸含量樣品78個, 氨基酸碳穩(wěn)定同位素樣品78個。 共包括長??h(CH)、 獐子島(ZZD)、 霞浦(XP)、 普蘭店(PLD)、 瓦房店(WFD)、 威海(WH)、 擔子島(DZD)、 萊州(LZ)和牟平(MP)9個產(chǎn)地的樣品。 仿刺參的體長范圍15~19 cm, 體重范圍100~130 g, 霞浦樣品的參齡為1年, 其他8個產(chǎn)地的樣品參齡均為2年。 樣品捕撈后立即存儲在無菌塑料袋中, 采用4 ℃恒溫冷藏, 防止其因高溫產(chǎn)生自溶酶而水解。 在實驗室內(nèi)解剖去除沙石、 內(nèi)臟和石灰環(huán), 留取體壁并用超純水洗凈, 冷凍干燥48 h后用玻璃研缽磨制粉末狀, 過80目網(wǎng)篩并干燥保存。
取仿刺參樣本20 mg放入pyrex(耐高溫)試管中, 加入2 mL的6 mol·L-1HCl溶液, 向試管中充N21 min去除空氣, 在110 ℃恒溫密閉條件下酸水解24 h[10]。 水解液在430 g條件下離心10 min, 取上清液注入強陽離子交換柱, 提取出純化氨基酸。 由于氨基酸為兩性離子不易揮發(fā), 而氣相色譜分析需要對象具有良好的揮發(fā)性, 因此采用Metges改進的方法將氨基酸衍生化成對應(yīng)的N-新戊?;?O-異丙醇酯(NPP)[11]。 向冷卻后的NPP中加入2 mL CH2Cl2, 將混合物逐滴通過6 cm硅膠(200~400目)層析柱(內(nèi)徑4 mm), 去除多余的酰化劑等雜質(zhì)。 在室溫下用N2將濾液吹干, 得到純化的NPP, 最后將其溶于0.2 mL乙酸乙酯中。
取1 μL氨基酸酯化溶液通過氣相色譜儀, 色譜分離(GC)條件為: 采用無分流方式進樣, 進樣口溫度280 ℃; 初始加熱至70 ℃并保持1 min, 以3 ℃·min-1的速度加熱至220 ℃, 再以10 ℃·min-1的速度加熱至300 ℃并保持8 min, 最后以1.2 mL·min-1的恒定流速充入純度≥99.999%的He作為載氣。 氣相色譜分離后酯化氨基酸再經(jīng)過氣質(zhì)聯(lián)用儀進行質(zhì)譜分析, 質(zhì)譜分析(MS)條件為: 傳輸線溫度250 ℃; 離子源溫度230 ℃; 通過能量為70 eV的EI電子進行電離。 最終由GC-MS實驗得到GC保留時間和MS譜圖, 與標準譜庫(NIST2008)進行比較, 確定出氨基酸的種類, 并計算得到每種氨基酸的含量數(shù)據(jù)。 測定氨基酸碳穩(wěn)定同位素數(shù)據(jù)時, 酯化氨基酸色譜分離后, 其中1/10通過氣質(zhì)聯(lián)用儀, 得到GC保留時間和MS譜圖, 確定出氨基酸的種類; 剩余9/10進入穩(wěn)定同位素比質(zhì)譜儀, 測定出相應(yīng)氨基酸的碳穩(wěn)定同位素數(shù)據(jù)。
現(xiàn)有食品產(chǎn)地認證方法的研究多側(cè)重于化學計量工具方面, 在數(shù)據(jù)處理方法上只停留在簡單運用已有方法進行產(chǎn)地分類的層面, 受制于樣本數(shù)量與食品實際數(shù)量的巨大差距, 將產(chǎn)地認證方法推廣到尚未測量的數(shù)據(jù)時會存在明顯偏差。 當研究人員選擇處理方法時, 會選擇一種他所期望的“最佳”分類方法, 而不是從數(shù)據(jù)自身特征的角度進行最優(yōu)方法的選取[12]。 受制于對可用方法上的知識限制與數(shù)據(jù)特征的不確定性, 選取單一認證方法無法充分發(fā)揮出數(shù)據(jù)的價值。 以深度神經(jīng)網(wǎng)絡(luò)為例, 需要通過對大量數(shù)據(jù)的不斷訓練, 才能展現(xiàn)出神奇的分類效果, 而食品產(chǎn)地信息認證領(lǐng)域往往解決的是小樣本問題, 采用結(jié)構(gòu)簡單的機器學習方法, 得到的認證結(jié)果會更加準確。
在進行數(shù)據(jù)處理方法選擇時, 遵從沒有免費午餐理論(NFLT), 即針對食品產(chǎn)地認證領(lǐng)域的所有問題, 所有方法的期望是相等的, 沒有任何一種方法可以表現(xiàn)得比其他方法更好[13]。 為了充分的挖掘出隱藏在數(shù)據(jù)背后的價值, 采用來自8個家族的12個機器學習方法進行數(shù)據(jù)處理, 利用數(shù)據(jù)自身特征主動計算出最佳方法, 消除人為選擇的干擾。 在經(jīng)過不斷訓練與優(yōu)化得到最佳分類方法之后, 沒有直接采用奧卡姆剃刀原則, 選擇性能最佳且最簡單的分類算法進行產(chǎn)地信息的認證; 而是將不同分類方法建立出的模型, 采用集成學習構(gòu)建出一個泛化能力更強的產(chǎn)地信息認證整體。
認證模型由樣品預(yù)處理、 數(shù)據(jù)測定、 主成分分析、 分類方法建立、 模型優(yōu)化、 認證方法集成和在線系統(tǒng)構(gòu)建7部分組成, 整體結(jié)構(gòu)如圖1所示。
圖1 認證模型的整體結(jié)構(gòu)
1.4.1 主成分分析提取特征
主成分分析(PCA)是數(shù)據(jù)發(fā)掘領(lǐng)域常用的一種統(tǒng)計與降維算法, 利用彼此不相關(guān)的綜合變量代替數(shù)量較多的原始變量, 在降低維度的同時保留數(shù)據(jù)自身有價值的信息。 通過總方差不變的線性變換, 提取出最具產(chǎn)地識別特性的氨基酸類別, 去除隨機誤差影響, 聚集產(chǎn)地特征, 提高模型的運算速度與計算精度。
1.4.2 機器學習分類方法選擇
為了充分發(fā)揮數(shù)據(jù)自身的價值, 選擇一定數(shù)量且具有足夠廣泛代表性的分類方法。 利用Manuel等在UCI數(shù)據(jù)庫中121個數(shù)據(jù)集上對17個分類器家族的評估結(jié)果, 選取了最優(yōu)的8個家族12個分類方法進行認證模型的訓練[12]。 選擇的12個分類方法為: 高斯徑向基為核的支持向量機、 線性為核的支持向量機、 多項式為核的支持向量機、 決策樹、 隨機森林、 樸素貝葉斯、 BP神經(jīng)網(wǎng)路、 深度神經(jīng)網(wǎng)絡(luò)、 RProp神經(jīng)網(wǎng)絡(luò)、 K鄰近、 邏輯回歸與偏最小二乘。
1.4.3 交叉驗證與粒子群優(yōu)化算法
交叉驗證是一種預(yù)測在未知數(shù)據(jù)上表現(xiàn)的模型評價方法。 通過交叉驗證可以有效了解模型的準確率、 穩(wěn)定性和對新樣本的泛化能力, 挑選出性能最優(yōu)的分類器與模型參數(shù), 預(yù)防與限制過擬合與欠擬合的發(fā)生, 挖掘出有限數(shù)據(jù)背后隱藏的價值。
采用馬爾科夫蒙特卡洛(MCMC)方法進行訓練數(shù)據(jù)的采樣, 在進行不同K值100次交叉驗證前生成一條馬爾科夫鏈使其收斂至平穩(wěn)分布, 保證待采樣的數(shù)據(jù)符合后驗分布, 消除數(shù)據(jù)劃分的干擾, 保證對于不同分類器與不同粒子的評價標準一致。
對于已經(jīng)確定好的數(shù)據(jù)集合, 通過調(diào)整分類器的參數(shù)可以使其達到最佳的工作表現(xiàn)。 因此, 采用基于遺傳交叉因子改進的粒子群優(yōu)化算法(GPSO)優(yōu)化模型參數(shù), 得到最為穩(wěn)健的單體分類器[14]。
1.4.4 認證方法的集成學習
集成學習是將一系列訓練好的分類器, 利用集成規(guī)則組合起來, 構(gòu)成一個比單體分類器更加強大的認證整體。 經(jīng)過訓練并優(yōu)化好的分類器就像是一位專家, 采用的方法是其擅長的理論, 想要一位專家解決所有問題是不現(xiàn)實的。 幸運的是, 利用集成學習將所有專家的智慧匯聚在一起, 能夠針對食品產(chǎn)地認證領(lǐng)域的所有問題提供一個接近最優(yōu)的方法[16]。
氨基酸含量樣品共測定出16種特征氨基酸, 氨基酸碳穩(wěn)定同位素樣品共測定出14種特征氨基酸。 通過置信水平為95%的單總體圖基檢驗, 剔除無法有效認證的氨基酸種類, 選取出氨基酸含量數(shù)據(jù)13種, 氨基酸碳穩(wěn)定同位素數(shù)據(jù)10種。 對不同產(chǎn)地的氨基酸數(shù)據(jù), 采用箱型圖方法分析數(shù)據(jù)的分布, 檢測異常值的干擾, 最終建立出仿刺參氨基酸數(shù)據(jù)庫。 仿刺參氨基酸樣品的氣相色譜圖如圖2所示, 產(chǎn)地為長??h的氨基酸碳穩(wěn)定同位素數(shù)據(jù)箱型圖如圖3所示。
圖2 氨基酸樣品氣相色譜圖
圖3 長海縣氨基酸碳穩(wěn)定同位素數(shù)據(jù)箱型圖
經(jīng)過主成分分析舍棄掉貢獻率小于1的主成分, 保留下氨基酸含量數(shù)據(jù)的前5個主成分; 氨基酸碳穩(wěn)定同位素數(shù)據(jù)的前7個主成分。 在保證每一類都有訓練樣本的條件下, 依次對前N個主成分進行初始種群規(guī)模為50, 遺傳進化代數(shù)為40的模型運算, 計算得到最優(yōu)前100項不同K值交叉驗證的平均準確率, 結(jié)果如表1和表2所示。
表1 氨基酸含量模型的平均準確率
表2 氨基酸碳穩(wěn)定同位素模型的平均準確率
選取前5個主成分作為氨基酸含量模型的輸入, 累計貢獻率為98.727%; 選取前5個主成分作為氨基酸碳穩(wěn)定同位素模型的輸入, 累計貢獻率為95.982%。 圖4和圖5為氨基酸含量與氨基酸碳穩(wěn)定同位素數(shù)據(jù)前3個主成分的空間分布, 氨基酸碳穩(wěn)定同位素數(shù)據(jù)具有更加顯著的產(chǎn)地聚集特性。
圖4 氨基酸含量數(shù)據(jù)主成分分析結(jié)果
圖5 氨基酸碳穩(wěn)定同位素數(shù)據(jù)主成分分析結(jié)果
利用Accord.NET與Math.NET框架下的機器學習程序集設(shè)計并優(yōu)化24個不同方法的分類器。 運用GPSO與交叉驗證方法, 在參數(shù)區(qū)間內(nèi)隨機設(shè)置每個模型參數(shù)的初始值, 進行種群規(guī)模為100, 進化代數(shù)為100, 自我學習因子c1為1.496 18, 社會學習因子c2為1.496 18, 權(quán)重w為0.752 9的模型參數(shù)優(yōu)化, 得到性能最優(yōu)的單體分類模型。
相對于傳統(tǒng)的粒子群優(yōu)化算法, 通過引入遺傳算法中的交叉變異算子, 在每次遺傳進化中以粒子不同K值各100次交叉驗證的平均準確率為適應(yīng)度, 前一半粒子直接進行下一代演化, 后一半粒子與前一半粒子進行交叉遺傳。 這樣不斷有新的粒子進入到種群中, 提高了種群的多樣性與全局尋優(yōu)能力, 在保證收斂速度的同時, 也防止了模型陷入局部最優(yōu)解的問題。
圖6為24個單體分類模型的優(yōu)化結(jié)果, 每個矩形的上邊界為最優(yōu)項的精度, 下邊界為第100項的精度, 矩形中的紅線為前100項的平均值。 最佳的前9個模型均使用氨基酸碳穩(wěn)定同位素數(shù)據(jù), 體現(xiàn)了CSIA更加優(yōu)秀的產(chǎn)地認證特性; 最佳方法為高斯徑向基為核的支持向量機與K鄰近算法, 兩者的前100項精度都達到了100%。 圖7為氨基酸碳穩(wěn)定同位素模型的優(yōu)化過程, 證明了GPSO結(jié)合交叉驗證能夠快速高效地提高模型性能。
圖6 單體分類模型優(yōu)化結(jié)果
圖7 氨基酸碳穩(wěn)定同位素模型優(yōu)化過程
以訓練好的24個單體模型的最優(yōu)項精度為權(quán)重, 選擇出100個用于集成的單體分類器, 再從對應(yīng)模型的前100項參數(shù)中隨機選取出每個分類器的參數(shù), 最后利用不同的集成學習規(guī)則進行100個好而不同分類器的集成。 選取了5種不同的集成規(guī)則進行認證, 規(guī)則的具體描述如表3所示。
表3 集成規(guī)則的描述
表4為不同集成規(guī)則認證模型進行不同K值100次交叉驗證的結(jié)果, 多數(shù)投票規(guī)則的認證準確率明顯優(yōu)于其他規(guī)則。 因此, 選取多數(shù)投票規(guī)則構(gòu)建產(chǎn)地認證模型, 平均準確率為99.67%, 形成了融合多源數(shù)據(jù)處理方法認證仿刺參產(chǎn)地信息的完整體系。
表4 不同集成規(guī)則交叉驗證結(jié)果
為了防治食品欺詐事件, 主管部門采取了加裝防偽標識的手段, 但不法商家偽造標識以次充好, 更為嚴重的是部分從業(yè)者將其他產(chǎn)地的仿刺參運輸?shù)降乩順酥井a(chǎn)地, 養(yǎng)殖幾天后佩戴上合法標識進行銷售。 通過構(gòu)建產(chǎn)地信息認證系統(tǒng),改變只能預(yù)防無法治理的局面, 為行業(yè)監(jiān)管與消費者維權(quán)提供可靠技術(shù)支撐。 用戶按照指南從終端提交仿刺參樣品的氨基酸數(shù)據(jù), 后臺進行分析運算得出認證結(jié)果, 最后生成檢測報告返回給前臺, 在線生成的檢驗報告如圖8所示。
圖8 仿刺參產(chǎn)地信息認證系統(tǒng)檢驗報告
通過氨基酸數(shù)據(jù)對仿刺參營養(yǎng)富集的詳盡刻畫, 采用主成分分析法降低數(shù)據(jù)維度, 聚集產(chǎn)地認證特性, 選取8個家族的12個分類方法, 共建立出24個單體分類模型。 運用基于遺傳交叉因子改進的粒子群優(yōu)化算法, 結(jié)合交叉驗證與MCMC采樣, 得到性能最佳的單體分類器, 最后利用集成學習匯聚單體分類器優(yōu)勢, 構(gòu)建了平均準確率為99.67%的仿刺參產(chǎn)地信息認證模型。
結(jié)果表明, 基于氨基酸的多源融合認證方法, 能夠挖掘出數(shù)據(jù)背后的價值, 保證產(chǎn)地認證準確率的同時, 有效提升模型的穩(wěn)定性與泛化能力。 借助互聯(lián)網(wǎng)技術(shù)構(gòu)建了產(chǎn)地信息認證系統(tǒng), 有效防治了仿刺參產(chǎn)地欺詐事件的發(fā)生, 促進了整個行業(yè)的平穩(wěn)健康發(fā)展。