陶 啟, 李 偉, 丁紅衛(wèi), 崔曉暉*
(1. 武漢大學(xué) 空天信息安全與可信計算教育部重點實驗室,湖北 武漢430072;2. 武漢大學(xué) 國家網(wǎng)絡(luò)安全學(xué)院,湖北 武漢430072;3. 江南大學(xué) 人工智能與計算機學(xué)院,江蘇 無錫214122;4. 江南大學(xué) 江蘇省媒體設(shè)計與軟件技術(shù)重點實驗室,江蘇 無錫214122)
隨著計算機的發(fā)展,數(shù)據(jù)采集比以往任何時候更加便利快捷,由此帶來大量的、各種類型的數(shù)據(jù)。隨著大數(shù)據(jù)技術(shù)的興起,從數(shù)據(jù)中通過分析獲取多智能的、深入的、有價值的信息正深刻影響著現(xiàn)實生活中的各行各業(yè),尤其是對于食品行業(yè)。 當前,我們國家對于食品要求已經(jīng)從“吃的飽”轉(zhuǎn)變?yōu)椤俺缘慕】怠保?而傳統(tǒng)的食品科學(xué)技術(shù)已不能滿足人們?nèi)找嬖鲩L的食品要求。 因此,將大數(shù)據(jù)技術(shù)應(yīng)用到食品科學(xué)領(lǐng)域,為食品科學(xué)提供了一種全新的思維方式和科學(xué)分析方法,可以提升食品科學(xué)在食品追蹤溯源、食物配對、食譜推薦、食品安全,食品生產(chǎn)管控、用戶食品偏好、未來食品分析上的預(yù)測性以及準確性,使得食品科學(xué)更好地為人們服務(wù)。
作者首先闡述食品大數(shù)據(jù)的應(yīng)用現(xiàn)狀,然后分析目前食品大數(shù)據(jù)面臨的挑戰(zhàn),最后總結(jié)并展望食品大數(shù)據(jù)的未來發(fā)展趨勢。
食品行業(yè)是當今最具活力的行業(yè)之一,產(chǎn)品必須隨著消費者的需求而不斷發(fā)展。 食品大數(shù)據(jù)已在食品行業(yè)獲得廣泛應(yīng)用,對消費者飲食健康、食品安全、行業(yè)拓展等領(lǐng)域影響較大,為行業(yè)創(chuàng)造了巨大經(jīng)濟價值與社會效益。 下面分別從食物配對與風(fēng)味設(shè)計、食譜推薦、食品安全管控、食品市場開拓、食品外賣應(yīng)用和打造企業(yè)品牌6 方面對食品大數(shù)據(jù)的行業(yè)應(yīng)用進行概述。
1992 年, 廚師Heston Blumenthal 和Francois Benzi 認為具有相似風(fēng)味的原料烹調(diào)效果會很好,于是有廚師就實現(xiàn)了白巧克力和魚子醬的風(fēng)味組合, 但由于白巧克力和魚子醬的化學(xué)性質(zhì)差異大,導(dǎo)致組合后的食物味道非常特殊。 隨著食品科學(xué)的發(fā)展,我們現(xiàn)在掌握了大量的食物化學(xué)物質(zhì)信息[1-4],這些物質(zhì)使得不同的食物具有不同的氣味和味道。有了這些信息,Ahn 和Ahnert 等學(xué)者[5-6]開發(fā)了一個特色風(fēng)味網(wǎng)絡(luò)(flavor network),一個由共享的風(fēng)味化合物連接的原料網(wǎng)絡(luò)。由于Ahn 等學(xué)者收集的原材料有限,因此組合后的食材風(fēng)味也有限。 鑒于此,Garg 等學(xué) 者開發(fā)了FlavorDB 數(shù)據(jù)庫[7],F(xiàn)lavorDB 數(shù)據(jù)庫比Ahn 等學(xué)者收集的食材更為豐富,但是其菜品組合網(wǎng)絡(luò)仍然是基于flavor network。 學(xué)者Simas等提升了flavor network, 并將其設(shè)計的網(wǎng)絡(luò)稱之為Food-bridging[8]。以上方法都是基于類似化學(xué)成分組合食物,很多著名的食物搭配(比如紅酒和牛肉)并沒有共同的化學(xué)成分或者風(fēng)味化合物,但是搭配一起仍然廣受人們喜愛。因此需要在更大范圍內(nèi)尋找食物配對,而不是僅僅基于風(fēng)味化合物或者化學(xué)成分。
在未來食品風(fēng)味設(shè)計方面, 香料公司McCormick 在2019 年與IBM 合作, 利用人工智能與大數(shù)據(jù)預(yù)測新的風(fēng)味組合。 通過分析來自數(shù)百萬個數(shù)據(jù)源的數(shù)據(jù)以改進該公司的“風(fēng)味預(yù)測”系統(tǒng)。該系統(tǒng)自動生成新的風(fēng)味特征并吸引了消費者的關(guān)注。
食譜推薦(recipe recommendation)也是食品大數(shù)據(jù)分析領(lǐng)域中常見的應(yīng)用場景。Teng 等學(xué)者提出利用食譜推薦算法來確定食物成分是否在菜譜中為必需品[9]。 Grace 和Maher 等學(xué)者結(jié)合基于案例(case-based)的推理和深度學(xué)習(xí)算法來生成新的菜譜[10-11]。 但是,由于深度學(xué)習(xí)的不確定性,后者可能會生成“黑暗料理”。 另外,在食譜推薦領(lǐng)域,有學(xué)者專門聚焦于“食療”。 Freyne 等學(xué)者針對肥胖癥來設(shè)計食譜推薦[12]。 他們根據(jù)醫(yī)學(xué)專業(yè)人士的建議和對肥胖人士的調(diào)研,設(shè)計旨在給肥胖癥人群個性化推薦食物。 Yoshida 等學(xué)者則聚焦于用戶食物偏好上,這是因為上述設(shè)計的食物推薦系統(tǒng)訓(xùn)練數(shù)據(jù)來源于開放的食譜網(wǎng)站[13]。 這些食譜網(wǎng)站的特點是訪問頻繁,網(wǎng)站儲存的大部分食譜非常大眾化,部分人群則有自己的食物偏好。 他們利用人們的食譜瀏覽和烹飪歷史數(shù)據(jù),提出了一種基于用戶食物偏好的個性化食譜推薦系統(tǒng),用以滿足人們的食物偏好。
1976 年聯(lián)合國衛(wèi)生組織(WHO)構(gòu)建的全球環(huán)境監(jiān)測系統(tǒng)(GEMS/Food),由各參與機構(gòu)提交食品污染物濃度數(shù)據(jù)組建數(shù)據(jù)中心,結(jié)合數(shù)據(jù)處理與分析技術(shù), 幫助各國政府、CAC 等機構(gòu)評估食品污染物污染等級與發(fā)展趨勢[14],是各國用于評估與管理食源性風(fēng)險的重要工具。 2015 年世界衛(wèi)生組織(WHO) 整合農(nóng)業(yè)、食品、公共衛(wèi)生和經(jīng)濟指數(shù)等領(lǐng)域多元化數(shù)據(jù)構(gòu)建食品安全大數(shù)據(jù)服務(wù)平臺FOSCOLLAB,通過增強采集數(shù)據(jù)源維度提升對食品安全風(fēng)險監(jiān)控效果[15]。 2014 年貴州科學(xué)院整合省內(nèi)各級政府、檢測機構(gòu)及入駐企業(yè)的產(chǎn)品數(shù)據(jù),建立食品安全與營養(yǎng)大數(shù)據(jù)云平臺, 實現(xiàn)食品防偽驗證、安全風(fēng)險監(jiān)測與預(yù)警[16]。
食品追溯系統(tǒng)中存在的數(shù)據(jù)關(guān)聯(lián)性弱、數(shù)據(jù)記錄不準確等問題,為食品召回與追溯問題源頭帶來挑戰(zhàn)。 Badia-Melis 等提出食品追溯本體應(yīng)用(FTTO)模型,基于語意分析對異構(gòu)數(shù)據(jù)庫數(shù)據(jù)進行整合建立歸一化的知識體系,基于唯一標識原則對整合后數(shù)據(jù)進行統(tǒng)一編碼處理,為溯源數(shù)據(jù)的電子交換提供一個國際、非專屬性統(tǒng)一標準[17]。
在食品市場中,產(chǎn)業(yè)鏈內(nèi)外都蘊藏著龐大的食品相關(guān)數(shù)據(jù),通過收集與分析能夠促進企業(yè)開拓市場[18]:1)通過收集商品及其零售信息進行分析能夠了解市場近況,把握競爭者的商業(yè)動態(tài),明確產(chǎn)品的市場定位,從而掌握市場先機;2)通過收集消費者消費信息建立客戶大數(shù)據(jù)庫,通過對客戶進行用戶畫像獲取消費者的喜好、消費傾向、價值傾向及當前商品的市場口碑狀況,為企業(yè)制定高效的營銷策略提供科學(xué)指導(dǎo)建議,為消費者提供優(yōu)質(zhì)服務(wù)贏得消費者信賴,讓企業(yè)在市場競爭環(huán)境下能夠不斷壯大;3)通過收集社交平臺中各種食品的各類點評信息組建產(chǎn)品需求大數(shù)據(jù),通過聚類、統(tǒng)計分析,發(fā)掘新的消費需求與產(chǎn)品的潛在質(zhì)量問題,從而改進或研發(fā)新產(chǎn)品、量化價值并制訂合理產(chǎn)品價格提升服務(wù)質(zhì)量。
我國線上外賣用戶量占網(wǎng)民總量44%以上,規(guī)模已超過3.98 億,且將繼續(xù)保持增長趨勢,外賣未來具有廣闊市場前景[19]。用戶體量大、高速增長的外賣市場產(chǎn)生了龐大的外賣數(shù)據(jù),外賣大數(shù)據(jù)服務(wù)平臺的建設(shè)與應(yīng)用將是未來發(fā)展趨勢,不僅有助于幫助政府對外賣餐飲業(yè)進行監(jiān)管,而且能夠為外賣餐飲業(yè)創(chuàng)造巨大經(jīng)濟價值與社會價值, 包括:1) 通過準確預(yù)測并告知客戶外賣送達時間,能夠避免對消費者日常計劃的影響, 幫助企業(yè)樹立良好品牌形象;2)幫助食品及其相關(guān)行業(yè)了解項目或商品的流行趨勢;3) 外賣大數(shù)據(jù)應(yīng)用平臺促使外賣供應(yīng)鏈的透明化,供應(yīng)鏈的透明性有利于建立或改善客戶與外賣企業(yè)間的信任關(guān)系,同時有助于督促企業(yè)為客戶提供更高品質(zhì)的產(chǎn)品及更優(yōu)質(zhì)的餐飲服務(wù);4) 通過分析外賣數(shù)據(jù)集能夠清晰了解城市整體運行狀態(tài)[20]。
由于外賣數(shù)據(jù)直接或間接涉及客戶地理位置、偏好、銀行、身份、通信等敏感隱私信息,一旦泄露將對客戶財產(chǎn)及生命健康帶來安全隱患,因此外賣大數(shù)據(jù)平臺構(gòu)建將面臨更為嚴格的大數(shù)據(jù)安全、效率等方面挑戰(zhàn)。
大數(shù)據(jù)技術(shù)在食品行業(yè)中的推廣普及,讓食品產(chǎn)業(yè)鏈中企業(yè)能夠更好地了解上下游客戶需求,預(yù)測食品行業(yè)發(fā)展趨勢,營造企業(yè)品牌形象。 可采取措施:1)基于市場分析結(jié)合客戶的購買歷史預(yù)測其下一步可能購買的產(chǎn)品,利用這些信息,食品企業(yè)可以制定優(yōu)惠價格及商品組合,以提高客戶滿意度并確保重復(fù)業(yè)務(wù);2)通過收集社交媒體中用戶對于食品的有關(guān)評價信息進行分詞、 聚類及情感分析,建立積極、消極或中立的態(tài)度,通過跟蹤這些不斷變化的行為和喜好,可以讓食品企業(yè)在發(fā)布負面新聞或不良反饋時采取行動;3)結(jié)合人工智能,大數(shù)據(jù)為企業(yè)提供了巨大的增長機會。 例如,以多傳感器信息融合為基礎(chǔ),將機器視覺應(yīng)用于保健酒的缺陷檢測中,可以實現(xiàn)外觀缺陷和可見異物的不合格產(chǎn)品檢測[21];4)大數(shù)據(jù)讓食品產(chǎn)業(yè)鏈更加透明,不僅能夠?qū)崿F(xiàn)產(chǎn)品的全程監(jiān)管,而且能夠以消費者眾包模式來監(jiān)督食品品質(zhì)、服務(wù)質(zhì)量及食源性疾病或食品事件的爆發(fā)趨勢。
目前食品大數(shù)據(jù)應(yīng)用系統(tǒng)中存在數(shù)據(jù)缺失、數(shù)據(jù)量不足、難以辨真?zhèn)蔚忍魬?zhàn),研究食品大數(shù)據(jù)高效采集、可信校驗與跨部門共享具有重要意義。
大數(shù)據(jù)發(fā)展的前提條件是要有豐富的數(shù)據(jù)源,即使對于數(shù)據(jù)化程度比較高的IT 行業(yè),依然缺少資源共享和信息交換機制,只能在企業(yè)內(nèi)部探索和嘗試。 政府部門缺乏數(shù)據(jù)開放的動力,由于其掌握的數(shù)據(jù)有一定的敏感性,因此趨于保守態(tài)度。 各大企業(yè)不會隨便開放自身有價值的數(shù)據(jù),因為它有巨大的商業(yè)價值,也關(guān)系到企業(yè)的生死存亡。 長此以往,不同的部門數(shù)據(jù)源獨立存在, 不能夠互相共享,形成了一個個數(shù)據(jù)孤島,無法實現(xiàn)行業(yè)跨部門全鏈條大數(shù)據(jù)體系。 大數(shù)據(jù)困境從早期的難以處理大數(shù)據(jù)到今天變?yōu)殡y以得到全鏈條大數(shù)據(jù)。 為解決該問題,政府期望采取強制手段,建立數(shù)據(jù)中心,整合管轄范圍的數(shù)據(jù),但數(shù)據(jù)隱私保護難以解決。 阿里、騰訊等互聯(lián)網(wǎng)巨頭期望通過并購來構(gòu)筑龐大的行業(yè)帝國實現(xiàn)行業(yè)全鏈條數(shù)據(jù)企業(yè)內(nèi)部化。 但行業(yè)數(shù)據(jù)壟斷的大企業(yè)會利用自身壟斷地位阻礙創(chuàng)新,使壟斷地位更加堅固。
食品大數(shù)據(jù)覆蓋從“農(nóng)田到餐桌”全過程,涉及到的部門眾多。 這種由于數(shù)據(jù)保密和隱私保護等造成的各數(shù)據(jù)擁有方不愿共享數(shù)據(jù)依然是食品大數(shù)據(jù)有效運用的主要障礙。 需要提出一種新型的去中心化數(shù)據(jù)采集、存儲、共享及智能分析機制來解決目前面臨的挑戰(zhàn)。 從目前來看,“區(qū)塊鏈+大數(shù)據(jù)”具備很大的潛力。 區(qū)塊鏈是一個公共賬本、一種集體維護的網(wǎng)上數(shù)據(jù)庫, 與傳統(tǒng)數(shù)據(jù)庫的主要區(qū)別在于:匿名性、去中心化、不可篡改、分布式存儲、多備份、隱私保護等。 從技術(shù)的角度來看,我們經(jīng)常說“區(qū)塊鏈技術(shù)”,其實并不是一種單一的技術(shù),而是多種技術(shù)整合的結(jié)果。 這些技術(shù)以新的結(jié)構(gòu)組合在一起,形成了一種新的數(shù)據(jù)記錄、存儲和表達方式。但區(qū)塊鏈也存在新型基于區(qū)塊鏈-云計算的去中心化數(shù)據(jù)采集方法與存儲機制,允許數(shù)據(jù)擁有方將原始數(shù)據(jù)保存在私有云服務(wù)器端, 實現(xiàn)鏈下存儲,同時抽提少量數(shù)字水印和屬性數(shù)據(jù),通過區(qū)塊鏈進行鏈上存儲。 通過在區(qū)塊鏈中設(shè)置校驗機制,保證鏈下存儲信息的真實性及防篡改;通過基于區(qū)塊鏈技術(shù)的多方計算架構(gòu),其他用戶可以在不直接訪問數(shù)據(jù)擁有方原始數(shù)據(jù)情況下運算數(shù)據(jù),從而實現(xiàn)對數(shù)據(jù)的私密性進行保護,杜絕數(shù)據(jù)共享中的信息安全問題。 解決全鏈條跨部門數(shù)據(jù)采集融合困難,數(shù)據(jù)孤島、完整性與可信度差的難題。
隨著科技的發(fā)展,食品行業(yè)累積了大量、來源廣泛、增長速度快、價值密度低、應(yīng)用價值大的數(shù)據(jù)。 如何使用大數(shù)據(jù)技術(shù)挖掘出食品數(shù)據(jù)中的潛在應(yīng)用價值和促進食品行業(yè)的可持續(xù)發(fā)展,已經(jīng)成為食品領(lǐng)域重點研究的問題。 食品大數(shù)據(jù)已經(jīng)在食物配對與風(fēng)味設(shè)計、食譜推薦、安全管控、市場開拓、外賣應(yīng)用和打造企業(yè)品牌等領(lǐng)域獲得良好應(yīng)用,促進了行業(yè)經(jīng)濟發(fā)展。 針對目前食品大數(shù)據(jù)應(yīng)用中存在的數(shù)據(jù)孤島、難辨真?zhèn)蔚葐栴},“區(qū)塊鏈+大數(shù)據(jù)”是解決數(shù)據(jù)擁有者間的數(shù)據(jù)共享、促進食品大數(shù)據(jù)智能分析應(yīng)用的可行方案。 面對日益劇增的糧食需求與有限資源之間矛盾凸顯,進一步利用大數(shù)據(jù)人工智能等信息技術(shù)降低資源消耗并研發(fā)新一代食品生產(chǎn)技術(shù)將是未來食品科研工作者的重點方向之一。
資源浪費及食源性疾病暴發(fā)是制約食品產(chǎn)業(yè)健康可持續(xù)發(fā)展的關(guān)鍵因素,具體包括:1)食品種養(yǎng)植過程濫用化肥、農(nóng)藥等,致使農(nóng)產(chǎn)品中農(nóng)殘超標、水土污染嚴重等問題[98];2)發(fā)展中國家易腐食品損失嚴重,發(fā)達國家消費者浪費的食物總量巨大[22];3)食品加工及運輸過程中能耗高、環(huán)境污染大;4)由于無法快速有效溯源食品污染源頭,通常將受影響食品作為病原體的潛在來源而全部丟棄。 物聯(lián)網(wǎng)、大數(shù)據(jù)、區(qū)塊鏈等信息技術(shù)將是促進食品產(chǎn)業(yè)可持續(xù)發(fā)展的核心要素。 物聯(lián)網(wǎng)能夠部署貫穿食品產(chǎn)業(yè)鏈的各個環(huán)節(jié)并采集數(shù)據(jù)。 通過對物聯(lián)網(wǎng)采集到的種植大數(shù)據(jù)與農(nóng)田地理大數(shù)據(jù)進行綜合分析實現(xiàn)精準農(nóng)業(yè),構(gòu)建優(yōu)質(zhì)、高產(chǎn)、高效的農(nóng)業(yè)生產(chǎn)模式,提高種植戶經(jīng)濟效益、降低資源浪費與水土污染;提高食品產(chǎn)業(yè)鏈透明度能夠減少食品產(chǎn)業(yè)鏈加工過程浪費、減少消費者的食品浪費數(shù)量。 區(qū)塊鏈與大數(shù)據(jù)結(jié)合可以使得食品供應(yīng)鏈完全透明,實現(xiàn):1)優(yōu)化產(chǎn)業(yè)鏈結(jié)構(gòu)減少加工浪費,優(yōu)化產(chǎn)品調(diào)度策略降低運輸能耗,減少尾氣排放;2)食源性疾病暴發(fā)時,實現(xiàn)污染源精準溯源及污染品的快速找回,保障食品供應(yīng)鏈上下游企業(yè)效益與品牌形象[23]?;诖髷?shù)據(jù)畫像技術(shù)對消費者的消費、飲食等數(shù)據(jù)進行分析,為消費者提供健康膳食建議,提升消費者生活品質(zhì),降低營養(yǎng)過剩食品損耗。
至2050 年,全球人口數(shù)量將超90 億,面對有限的資源,基于大數(shù)據(jù)、人工智能的未來食品開發(fā)也將提速增效。 未來食品的研發(fā)需要融合食品生物、食品大數(shù)據(jù)、組學(xué)大數(shù)據(jù)、深度學(xué)習(xí)醫(yī)療健康等學(xué)科知識,開發(fā)出健康美味、風(fēng)味獨特、營養(yǎng)均衡的新一代食品,滿足日益增長的人口需求。 我國要把握未來食品研究進入生物組學(xué)大數(shù)據(jù)時代的重要戰(zhàn)略機遇,盡早布局,充分融合食品分子分析、電子信息、數(shù)據(jù)建模和分析等技術(shù),根據(jù)食品營養(yǎng)組分和芳香分子特性, 通過食物配對和食品風(fēng)味搭配,設(shè)計開發(fā)新一代食品。