*騰克 王震
(1.內(nèi)蒙古自治區(qū)市場(chǎng)監(jiān)督管理審評(píng)查驗(yàn)中心 內(nèi)蒙古 010010 2.滿洲里海關(guān)技術(shù)中心 內(nèi)蒙古 021400)
近些年來(lái)我國(guó)經(jīng)濟(jì)水平快速發(fā)展,大量的進(jìn)口食品涌現(xiàn)在人們的飯桌之上。隨著進(jìn)口食品的日益豐富,隨之而來(lái)會(huì)產(chǎn)生各種各樣的問(wèn)題,使得人們開始對(duì)進(jìn)口食品質(zhì)量安全問(wèn)題越來(lái)越重視。這些進(jìn)口食品所存在的眾多食品安全問(wèn)題,對(duì)于我國(guó)目前食品監(jiān)督和檢測(cè)機(jī)構(gòu)而言面臨著巨大挑戰(zhàn)。一方面是進(jìn)口食品越來(lái)越豐富,種類越來(lái)越多,另一方面是我國(guó)食品監(jiān)督檢測(cè)機(jī)構(gòu)還沒(méi)有完全適應(yīng)互聯(lián)網(wǎng)時(shí)期進(jìn)口食品發(fā)展的新趨勢(shì)。這就使得采用現(xiàn)代化的技術(shù)手段,尤其是數(shù)據(jù)挖掘技術(shù)作為傳統(tǒng)的進(jìn)口食品質(zhì)量安全檢測(cè)的重要補(bǔ)充,成為必然選擇。作為進(jìn)口食品質(zhì)量安全檢測(cè)工作者,要能夠應(yīng)用現(xiàn)代化的科學(xué)技術(shù)手段,尤其是數(shù)據(jù)挖掘技術(shù)對(duì)進(jìn)口食品質(zhì)量安全進(jìn)行檢測(cè),能夠通過(guò)科學(xué)有效的甄別那些不符合我國(guó)衛(wèi)生標(biāo)準(zhǔn)的進(jìn)口食品,從源頭上把握與控制,使其最終不能進(jìn)入我國(guó)的市場(chǎng)流通環(huán)節(jié),這樣才能夠更好的促進(jìn)我國(guó)對(duì)于進(jìn)口食品質(zhì)量安全檢測(cè)工作的實(shí)效性。
數(shù)據(jù)挖掘技術(shù)最早源于計(jì)算機(jī)技術(shù)發(fā)展領(lǐng)域。二十世紀(jì)九十年代,伴隨著科學(xué)技術(shù)的快速發(fā)展,尤其是數(shù)據(jù)庫(kù)技術(shù)在各個(gè)領(lǐng)域之中的廣泛運(yùn)用。各個(gè)領(lǐng)域之中的大量數(shù)據(jù)被以數(shù)據(jù)存儲(chǔ)的形式存儲(chǔ)在各種各樣的數(shù)據(jù)庫(kù)之中。這些數(shù)據(jù)的存儲(chǔ)形式與傳統(tǒng)的數(shù)據(jù)存儲(chǔ)形式不同,它包括了大量的圖片、視頻、電子數(shù)據(jù)等等。同時(shí),計(jì)算機(jī)的快速發(fā)展也使得檢索技術(shù)變得越來(lái)越便捷,這為數(shù)據(jù)挖掘提供了重要的硬件條件。大量的分門別類的圖片視頻,電子等各類電子數(shù)據(jù),伴隨著互聯(lián)網(wǎng)的無(wú)限擴(kuò)張,出現(xiàn)了“數(shù)據(jù)大爆炸”現(xiàn)象。如何合理的運(yùn)用這些大量的數(shù)據(jù)?使這些大量的數(shù)據(jù)能夠服務(wù)于人們的生產(chǎn)活動(dòng)與生活活動(dòng)。大量的學(xué)者與專家進(jìn)行了深入的研究。在研究過(guò)程之中,部分專家與學(xué)者認(rèn)為簡(jiǎn)單的通過(guò)計(jì)算機(jī)對(duì)于海量數(shù)據(jù)進(jìn)行輸入、查詢與匯總并不能夠得到有效的信息。但是,如果能夠?qū)@些信息進(jìn)行統(tǒng)計(jì)與研究則可以達(dá)到部分預(yù)測(cè)未來(lái)發(fā)展趨勢(shì)作用。由此,數(shù)據(jù)挖掘技術(shù)得到了普遍的認(rèn)知并廣泛傳播。
從進(jìn)口食品質(zhì)量安全檢測(cè)數(shù)據(jù)的挖掘過(guò)程來(lái)看,可以大致分為以下幾個(gè)具體步驟。
(1)數(shù)據(jù)挖掘目標(biāo)。數(shù)據(jù)挖掘目標(biāo)的確定是最終實(shí)現(xiàn)進(jìn)口食品質(zhì)量安全檢測(cè)準(zhǔn)確與否的重中之重。明確數(shù)據(jù)挖掘目標(biāo)能夠使進(jìn)口食品質(zhì)量安全檢測(cè)數(shù)據(jù)更為精準(zhǔn)。數(shù)據(jù)挖掘目標(biāo)的確立,要明確進(jìn)口食品質(zhì)量安全檢測(cè)的基本工作流程、進(jìn)口食品質(zhì)量安全檢測(cè)的影響因素、采用何種數(shù)據(jù)挖掘手段與算法、構(gòu)建明確的數(shù)據(jù)模型、采用何種手段來(lái)保證數(shù)據(jù)挖掘的成功。
(2)數(shù)據(jù)的具體收集。對(duì)于進(jìn)口食品質(zhì)量安全檢測(cè)之中所需要的數(shù)據(jù)進(jìn)行有意識(shí)、有目的的具體收集工作將是提高進(jìn)口食品質(zhì)量安全檢測(cè)工作時(shí)效性的重要環(huán)節(jié)。從數(shù)據(jù)挖掘的具體收集工作來(lái)看,進(jìn)口食品質(zhì)量安全檢測(cè)數(shù)據(jù)所要發(fā)掘的數(shù)據(jù)目標(biāo)是指按照《國(guó)家食品安全監(jiān)督抽檢實(shí)施細(xì)則》,熟悉細(xì)則之中對(duì)于食品安全抽檢工作所涉及到的食品安全監(jiān)督抽檢要求,同時(shí),數(shù)據(jù)收集時(shí)可以結(jié)合國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局所公布的進(jìn)口食品檢驗(yàn)信息表進(jìn)行引入與運(yùn)用(例如,可以將相關(guān)數(shù)據(jù)導(dǎo)入SQL server數(shù)據(jù)管理系統(tǒng)進(jìn)行分析),作為數(shù)據(jù)挖掘目標(biāo)的重要補(bǔ)充和分析標(biāo)準(zhǔn)。同時(shí),要能夠的充分結(jié)合在自己?jiǎn)挝?、部門關(guān)于進(jìn)口食品質(zhì)量安全檢驗(yàn)檢測(cè)之中所涉及到的各項(xiàng)安全指標(biāo)數(shù)據(jù)的分析,完成數(shù)據(jù)的具體收集工作。例如,在具體的數(shù)據(jù)收集工作過(guò)程之中,可以按照食品安全檢測(cè)指標(biāo)進(jìn)行分類型(食品添加劑、微生物、理化指標(biāo)、食品中非法添加物,等等)收集。
(3)數(shù)據(jù)的選擇。由于進(jìn)口食品安全檢測(cè)之中所涉及到的數(shù)據(jù)量較大,同時(shí)分類較為復(fù)雜。不同的工作人員所收集到的進(jìn)口食品安全檢測(cè)數(shù)據(jù)各不相同。進(jìn)口食品安全檢測(cè)數(shù)據(jù)的選擇過(guò)程其目標(biāo)在于能夠?yàn)橄乱画h(huán)節(jié)的數(shù)據(jù)深入挖掘提供充分準(zhǔn)備條件。大量分散、零散的數(shù)據(jù),不利于后續(xù)對(duì)于進(jìn)口食品安全檢測(cè)進(jìn)行分析。那么如何有針對(duì)性的進(jìn)行數(shù)對(duì)選擇呢?首先,要能夠?qū)τ诂F(xiàn)有的數(shù)據(jù)進(jìn)行分門別類的收集與統(tǒng)計(jì)。對(duì)于涉及到的相對(duì)數(shù)的較少的統(tǒng)計(jì)數(shù)據(jù)可以進(jìn)行全部收錄,并且輸入SQL server數(shù)據(jù)管理系統(tǒng)進(jìn)行數(shù)據(jù)分析。如果數(shù)據(jù)量巨大,很難在較短的時(shí)間之內(nèi)或者分析所采用的計(jì)算機(jī)設(shè)備不能夠全部統(tǒng)計(jì)時(shí),這可以采用抽樣統(tǒng)計(jì)的方法進(jìn)行數(shù)據(jù)選擇。通過(guò)結(jié)合訓(xùn)練—測(cè)試—建?!?yàn)證等環(huán)節(jié)來(lái)進(jìn)行數(shù)據(jù)挖掘與數(shù)據(jù)抽樣分析,通過(guò)特定數(shù)據(jù)的選擇與驗(yàn)證,尤其是一些具有特殊特性的部分?jǐn)?shù)據(jù)抽樣,可以很快的了解特定數(shù)據(jù)集的數(shù)據(jù)抽樣特性。這對(duì)于那些巨量數(shù)據(jù)的數(shù)據(jù)挖掘與分析具有重要意義。其次,與進(jìn)口食品安全檢測(cè)所涉及到的數(shù)據(jù)選擇之中要能夠兼顧數(shù)據(jù)選擇的樣本數(shù)量與樣本質(zhì)量。所選擇的數(shù)據(jù)樣本數(shù)量要能夠反映其特征,不能夠選擇過(guò)少或者不足代表整體特性的數(shù)據(jù)。所謂樣本的質(zhì)量特征則是指,所選擇的數(shù)據(jù)要能夠反映出進(jìn)口食品安全檢測(cè)中所涉及到的具體數(shù)據(jù)。第三,進(jìn)口食品安全檢測(cè)數(shù)據(jù)選擇,在具體選擇過(guò)程之中,要能夠確定數(shù)據(jù)源的可靠性。在具體數(shù)據(jù)挖掘工作過(guò)程之中,要能夠?qū)M(jìn)口食品安全檢測(cè)數(shù)據(jù)源的可靠性采用多項(xiàng)指標(biāo)確定,進(jìn)而保證數(shù)據(jù)的安全性、完整性、準(zhǔn)確性、有效性。
(4)挖掘數(shù)據(jù)的質(zhì)量篩選。在樹立數(shù)據(jù)挖掘目標(biāo)數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)的具體收集以及數(shù)據(jù)的選擇過(guò)程后,針對(duì)進(jìn)口食品質(zhì)量安全檢測(cè)的數(shù)據(jù),無(wú)論是質(zhì)量還是準(zhǔn)確性,都得到了較大提升。如果想要達(dá)到深入挖掘相關(guān)數(shù)據(jù)的內(nèi)在目標(biāo),這必須對(duì)挖掘數(shù)據(jù)的整體質(zhì)量進(jìn)行針對(duì)性的篩選。具體而言,在進(jìn)口食品質(zhì)量安全檢測(cè)之中會(huì)形成大量的數(shù)據(jù),這些相對(duì)分散的來(lái)源于不同的數(shù)據(jù)源的數(shù)據(jù),例如,來(lái)源于具體一線檢測(cè)人員的數(shù)據(jù)、來(lái)源于以前檢測(cè)人員的歷史數(shù)據(jù)、其他地區(qū)相同工作人員的參考數(shù)據(jù)、同一標(biāo)準(zhǔn)的國(guó)家統(tǒng)一公布數(shù)據(jù),等等。這些來(lái)源于不同的數(shù)據(jù)源數(shù)據(jù),都必須經(jīng)過(guò)高級(jí)別的挖掘數(shù)據(jù)的質(zhì)量篩選后,才能夠?qū)⑦@些數(shù)據(jù)運(yùn)用于指導(dǎo)進(jìn)口食品質(zhì)量安全檢測(cè)的實(shí)踐之中。從進(jìn)口食品質(zhì)量安全檢測(cè)一線檢測(cè)人員收集的數(shù)據(jù)來(lái)看,雖然經(jīng)過(guò)前面三個(gè)步驟的選擇后,會(huì)得到整體質(zhì)量的提升。但是,往往收集的數(shù)據(jù)會(huì)存在著兩個(gè)重要問(wèn)題。第一個(gè)問(wèn)題就是數(shù)據(jù)的完整性問(wèn)題。第二個(gè)問(wèn)題就是數(shù)據(jù)整體收集的質(zhì)量性問(wèn)題。進(jìn)口食品質(zhì)量安全檢測(cè)一線檢測(cè)人員收集的數(shù)據(jù)存在著存儲(chǔ)格式不同、存儲(chǔ)設(shè)備不同、設(shè)置的變量數(shù)據(jù)填寫不清(誤填、錯(cuò)填),就會(huì)導(dǎo)致檢測(cè)數(shù)據(jù)的不完整性。如果對(duì)這些數(shù)據(jù)不能夠進(jìn)行很好的質(zhì)量篩選,那么再導(dǎo)入SQL server時(shí)就會(huì)出現(xiàn)大量的運(yùn)行錯(cuò)誤,進(jìn)而很難得到準(zhǔn)確的預(yù)測(cè)效果。由此可見(jiàn),挖掘數(shù)據(jù)的質(zhì)量篩選過(guò)程尤為重要。對(duì)于挖掘數(shù)據(jù)的質(zhì)量篩選一般可以采用頻數(shù)分析、均值分析或者數(shù)值變量分位數(shù)分析等等。
(5)數(shù)據(jù)的轉(zhuǎn)換與模型構(gòu)建。在模型構(gòu)件之間要進(jìn)行挖掘數(shù)據(jù)的轉(zhuǎn)換。挖掘數(shù)據(jù)的轉(zhuǎn)換需要運(yùn)用各類的數(shù)據(jù)轉(zhuǎn)換方法。在進(jìn)口食品安全檢測(cè)過(guò)程之中,基于數(shù)據(jù)挖掘技術(shù)所運(yùn)用到的數(shù)據(jù)轉(zhuǎn)換主要包括兩大部分。第一部分,數(shù)據(jù)挖掘相關(guān)的工具軟件。第二部分,數(shù)據(jù)挖掘技術(shù)。經(jīng)過(guò)前面四個(gè)步驟的數(shù)據(jù)收集以及數(shù)據(jù)篩選之后,要對(duì)這些數(shù)據(jù)進(jìn)行特征選擇。對(duì)于這些數(shù)據(jù)進(jìn)行特征選擇的目標(biāo)在于遴選出對(duì)于整體數(shù)據(jù)的預(yù)估變量。對(duì)那些影響整體數(shù)據(jù)預(yù)估變量的冗余變量數(shù)據(jù)進(jìn)行排除。在對(duì)進(jìn)口食品安全檢測(cè)數(shù)據(jù)的數(shù)據(jù)轉(zhuǎn)換過(guò)程之中可以采用單變量分析,通過(guò)對(duì)單一變量進(jìn)行分析,逐漸的分離出哪些變量是用于變量,哪些變量是較強(qiáng)的預(yù)估能力變量。進(jìn)而為模型的構(gòu)建提供充分的條件。從某種程度上來(lái)說(shuō),通過(guò)對(duì)于進(jìn)口食品質(zhì)量安全檢測(cè)數(shù)據(jù)的收集、數(shù)據(jù)的清理以及數(shù)據(jù)的轉(zhuǎn)換之后進(jìn)行的模型構(gòu)建是數(shù)據(jù)挖掘的核心部分。在數(shù)據(jù)模型構(gòu)建過(guò)程之中以及具體的分析時(shí)需要專業(yè)的分析員進(jìn)行合理參與,通過(guò)與專業(yè)的分析員進(jìn)行溝通與交流后,設(shè)計(jì)與進(jìn)口食品質(zhì)量安全檢測(cè)數(shù)據(jù)相適的科學(xué)的算法,這樣才能夠達(dá)到良好的分析結(jié)果。需要注意的是,進(jìn)口食品質(zhì)量安全檢測(cè)數(shù)據(jù)模型的構(gòu)建并非拘泥于一種模型的構(gòu)建。即可以通過(guò)設(shè)計(jì)不同目標(biāo)的數(shù)據(jù)挖掘之后采用不同的算法進(jìn)行多重模型構(gòu)建。而每一個(gè)模型的構(gòu)建都會(huì)反映出具體的預(yù)測(cè)數(shù)據(jù)。通過(guò)不同模型的構(gòu)件所反映出來(lái)的預(yù)測(cè)數(shù)據(jù),可以確定最終數(shù)據(jù)預(yù)測(cè)的精準(zhǔn)程度。
(6)驗(yàn)證過(guò)程。基于進(jìn)口食品質(zhì)量安全檢測(cè)數(shù)據(jù)的模型建立后,在運(yùn)用于實(shí)際工作之前,要能夠?qū)ζ溥M(jìn)行驗(yàn)證,去評(píng)估整個(gè)模型所產(chǎn)生的數(shù)據(jù)預(yù)判性、準(zhǔn)確性,進(jìn)而去判斷該模型,或者該模型組對(duì)于整體進(jìn)口食品質(zhì)量安全數(shù)據(jù)的特征性與質(zhì)量性分析程度。在此驗(yàn)證過(guò)程之中,可以通過(guò)使用各種度量值輸入模型、劃分定型集、測(cè)試集等方法來(lái)確定模型的有效性。需要注意的是,這些驗(yàn)證的方法不僅僅可以運(yùn)用于模型建立之后,在模型建立的各個(gè)過(guò)程之中,為了能夠更好的提高模型的準(zhǔn)確性,均可以采用相關(guān)的驗(yàn)證。
采用數(shù)據(jù)挖掘技術(shù)以及數(shù)據(jù)挖掘方法可以對(duì)影響進(jìn)口食品安全質(zhì)量的各個(gè)影響因素進(jìn)行分析,確定影響進(jìn)口食品安全質(zhì)量的各個(gè)風(fēng)險(xiǎn)節(jié)點(diǎn)(國(guó)家、地域、時(shí)間、種類,等等),通過(guò)對(duì)于進(jìn)口食品所涉及到的數(shù)據(jù)進(jìn)行有目的性的收集、選擇、篩選、轉(zhuǎn)換、模型構(gòu)建,加之必要的驗(yàn)證過(guò)程是形成進(jìn)口食品質(zhì)量安全檢測(cè)科學(xué)模型的必要流程。也是提升進(jìn)口食品質(zhì)量安全檢測(cè)工作的實(shí)效性的必要手段。