• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機(jī)器學(xué)習(xí)方法的吉林大米產(chǎn)地確證模型研究

      2018-11-19 03:16:42王靖會(huì)臧妍宇陳美文于合龍
      中國(guó)糧油學(xué)報(bào) 2018年9期
      關(guān)鍵詞:子集產(chǎn)地準(zhǔn)確率

      王靖會(huì) 臧妍宇 曹 崴 崔 浩 鄭 暉 陳美文 于合龍

      (吉林農(nóng)業(yè)大學(xué)信息技術(shù)學(xué)院1,長(zhǎng)春 130118)

      (吉林農(nóng)業(yè)大學(xué)食品科學(xué)與工程學(xué)院2,長(zhǎng)春 130118)

      隨著食品貿(mào)易的全球化發(fā)展和糧食供給側(cè)改革的推進(jìn)[1],具有原產(chǎn)地保護(hù)(Protected Designation of Origin,PDO)和地域特色標(biāo)志(Protected Geographic Indication,PGI)的農(nóng)產(chǎn)品在過(guò)去幾年中受到普遍的認(rèn)可[2]。吉林省地理標(biāo)志大米由于其地理位置和氣候環(huán)境獨(dú)特,其米飯清香四溢、營(yíng)養(yǎng)豐富,隨著人們對(duì)健康和天然食品的需求日益增長(zhǎng),具有多重優(yōu)勢(shì)和獨(dú)特品質(zhì)的吉林大米聞名全國(guó)。然而,由于內(nèi)在的商業(yè)價(jià)值和產(chǎn)地確證技術(shù)的欠缺,針對(duì)地理標(biāo)志大米的欺詐和模仿已嚴(yán)重干擾了大米市場(chǎng),因此,確定地標(biāo)大米(地理標(biāo)志大米)原產(chǎn)地已成為一個(gè)嚴(yán)重的社會(huì)問(wèn)題,迫切需要進(jìn)行吉林大米產(chǎn)地確證技術(shù)研究。

      國(guó)內(nèi)外文獻(xiàn)表明,產(chǎn)地確證研究應(yīng)用的機(jī)器學(xué)習(xí)技術(shù)主要有支持向量機(jī)[3]、人工神經(jīng)網(wǎng)絡(luò)[4]等技術(shù)。Alcázar等[5]為區(qū)分歐洲啤酒(德國(guó)、西班牙和葡萄牙)地理產(chǎn)地,利用線性判別分析和支持向量機(jī)對(duì)20種元素變量判別力進(jìn)行了研究,結(jié)果顯示,通過(guò)線性判別分析可在數(shù)據(jù)集中找出5個(gè)最有判別力的變量,結(jié)合交互算法可獲得支持向量機(jī)模型最優(yōu)超平面,模型的靈敏度和特異性分別(99.3 ±1.2)%、(99.5 ±0.8)%。Binetti等[6]對(duì)阿普利亞的四個(gè)最有代表性橄欖油品種進(jìn)行了神經(jīng)網(wǎng)絡(luò)訓(xùn)練和驗(yàn)證,利用四個(gè)不同的數(shù)據(jù)集標(biāo)準(zhǔn)、兩種隱藏層數(shù)量、5種神經(jīng)元數(shù)量來(lái)驗(yàn)證預(yù)測(cè)因子,其結(jié)果表明,最小絕對(duì)收縮和選擇算子算法作為預(yù)測(cè)因子的人工神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率最高(88.2%)。Chung等[7]為研究區(qū)分亞洲大米地理產(chǎn)地的可行性,通過(guò)主成分分析和最小二乘判別模型評(píng)估6個(gè)國(guó)家的地理產(chǎn)地,其研究結(jié)果表明,主成分分析無(wú)法區(qū)分日本和菲律賓的大米,最小二乘判別模型可以區(qū)分韓國(guó)和其他國(guó)家的大米。Cheajesadagul等[8]通過(guò)主成分分析和判別分析對(duì)泰國(guó)香米和法國(guó)、印度、意大利、日本和巴基斯坦大米進(jìn)行了產(chǎn)地分類,基于多變量的主成分分析結(jié)果顯示,通過(guò) B、Sr、Mo、Se、Cd、Cu、Mg 等元素可以區(qū)分泰國(guó)大米、歐洲大米和亞洲大米的地理產(chǎn)地,但主成分分析無(wú)法對(duì)泰國(guó)香米的北部、東北部和中部地區(qū)進(jìn)行分類,判別分析方法可較好地區(qū)分泰國(guó)香米的這三個(gè)產(chǎn)區(qū),結(jié)果顯示對(duì)泰國(guó)東北部地區(qū)的分類精度最高(100%),對(duì)中部地區(qū)的分類精度最低(71.43%)。

      在大米產(chǎn)地確證方面,研究對(duì)象大多限于地理空間距離較遠(yuǎn)的不同國(guó)家或省份,研究方法多采用主成分分析、判別分析等多元線性分析方法。我國(guó)現(xiàn)已擁有多個(gè)具有PDO/PGI認(rèn)證的地理標(biāo)志大米,其中多數(shù)產(chǎn)區(qū)具有相似的地域特征和屬性,由于地區(qū)氣候和地形特征等因素的制約,限制了水稻生產(chǎn)的集約化規(guī)模,又導(dǎo)致了稻作區(qū)域特征信息在地球化學(xué)因素、環(huán)境氣候、加工因素和人為因素等方面的差異性和復(fù)雜性,現(xiàn)有的化學(xué)計(jì)量學(xué)結(jié)合多元線性模型無(wú)法有效解決產(chǎn)地分類問(wèn)題。機(jī)器學(xué)習(xí)方法克服了參數(shù)和非參數(shù)統(tǒng)計(jì)方法的缺點(diǎn),如空間自相關(guān),非線性和過(guò)擬合[9],提高了空間模型的預(yù)測(cè)精度,尤其近年來(lái),隨著食品數(shù)據(jù)量的激增和產(chǎn)地分類研究的不斷深入,目標(biāo)元素的數(shù)量級(jí)別和樣本處理量越來(lái)越大,考慮到大數(shù)據(jù)分析的發(fā)展趨勢(shì)和食品認(rèn)證現(xiàn)場(chǎng)數(shù)據(jù)的潛在需求,機(jī)器學(xué)習(xí)方法對(duì)于大米產(chǎn)地確證的重要性日益明顯。

      為探究不同機(jī)器學(xué)習(xí)方法建立的產(chǎn)地確證模型對(duì)鄰近相似地域的分類效果,篩選出構(gòu)建分類模型的特征變量,深層次挖掘數(shù)據(jù)中的隱藏模式,本研究對(duì)吉林省具有PDO/PGI認(rèn)證的柳河大米與輝南大米進(jìn)行數(shù)據(jù)挖掘研究,采用支持向量機(jī)、隨機(jī)森林和人工神經(jīng)網(wǎng)絡(luò)三種機(jī)器學(xué)習(xí)方法進(jìn)行模型開發(fā),通過(guò)F-score進(jìn)行變量評(píng)估和特征選擇,為進(jìn)一步建立吉林地理標(biāo)志大米產(chǎn)地?cái)?shù)據(jù)庫(kù)及確證平臺(tái),探究農(nóng)特產(chǎn)品產(chǎn)地確證體系提供參考。

      1 材料與方法

      1.1 數(shù)據(jù)來(lái)源

      1.1.1 樣本采集

      本研究選擇吉林省柳河縣和輝南縣作為研究區(qū)域,該區(qū)域位于北緯 42.28°N ~42.68°N,東經(jīng)12125.73°E ~126.03°E。為避免在不平衡數(shù)據(jù)集中,分類器偏向大多數(shù)類,忽略了少數(shù)類的重要性,進(jìn)而影響分類模型的預(yù)測(cè)性能,本研究采用空間分層采樣方法在柳河縣采集62個(gè)樣本,輝南縣采集58個(gè)樣本,具體采樣區(qū)域及采樣點(diǎn)分布如表1所示。

      表1 大米樣本采集點(diǎn)分布表

      1.1.2 儀器與試劑

      JLGJ4.5礱谷機(jī);HNMJ3碾米機(jī);JXFM 110錘式旋風(fēng)磨;AA-6300原子吸收分光光度計(jì)。

      檢測(cè)樣本主要試劑包括硝酸、高氯酸、鹽酸和氫氟酸溶液。

      1.1.3 檢測(cè)方法

      根據(jù)我國(guó) GB/T 14609—2008、GB/T 5009.91—2003、GB5009.12—2010 檢測(cè)銅(Cu)、鋅(Zn)、鐵(Fe)、錳(Mn)、鉀(K)、鈣(Ca)、鈉(Na)、鎂(Mg)、鉛(Pb)、鎘(Cd)10種礦物質(zhì)元素。

      其中,Pb、Cd采用石墨爐原子吸收分光光度法,F(xiàn)e、Na、K、Mg、Ca、Mn、Zn、Cu 采用火焰原子吸收分光光度法。

      1.2 機(jī)器學(xué)習(xí)方法

      1.2.1 人工神經(jīng)網(wǎng)絡(luò)

      人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是基于生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的非線性統(tǒng)計(jì)數(shù)據(jù)建模工具,由一組相互關(guān)聯(lián)的計(jì)算單元或人造神經(jīng)元組成[10-11]。其中反向傳播人工神經(jīng)網(wǎng)絡(luò)(Back -Propagation Artificial Neural Network,BP -ANN)因其體系結(jié)構(gòu)簡(jiǎn)單,模型構(gòu)建方便,計(jì)算速度快被廣泛應(yīng)用。BP-ANN模型的體系結(jié)構(gòu)如圖1所示。

      圖1 反向傳播人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

      1.2.2 隨機(jī)森林

      隨機(jī)森林(Random Forest,RF)是一種集合學(xué)習(xí)算法,其主要思想:首先,利用bootstrap抽樣方法(有放回)從原始訓(xùn)練集D中抽取k個(gè)樣本集{},且每個(gè)樣本容量均與原始訓(xùn)練集一致;其次,對(duì)k個(gè)樣本集建立k個(gè)決策樹模型形成森林,每一個(gè)決策樹模型均從M個(gè)屬性中隨機(jī)選取m(m<<M)個(gè)屬性,得到組合的分類器,利用k個(gè)模型對(duì)測(cè)試集分別進(jìn)行分類,得到k種分類結(jié)果;最后對(duì)k種分類結(jié)果累計(jì)投票決定其最終分類結(jié)果[12]。這種分類方法大大降低了計(jì)算成本,加快了運(yùn)算速度[13]。

      1.2.3 支持向量機(jī)

      支持向量機(jī)(Support Vector Machines,SVM)是一種二元分類器,其主要思想是建立一個(gè)超平面作為決策曲面,使得正例和反例之間的隔離邊緣被最大化,即求最優(yōu)分類超平面[14]。這不僅減少了預(yù)測(cè)誤差的可能性,而且還降低了過(guò)度擬合的風(fēng)險(xiǎn)[15]。

      在支持向量機(jī)中可以使用核函數(shù)解決非線性分類問(wèn)題,等價(jià)于將數(shù)據(jù)映射到高維空間并定義分割超平面。常用的核函數(shù)有:多項(xiàng)式核函數(shù)(Polynomial Kernel Function)、徑向基核函數(shù)(Radial Basis Function,RBF)、Sigmoid 核函數(shù)等。

      1.3 特征選擇方法

      所有的原始變量對(duì)于建立分類模型并非都有積極作用,其中存在一些與數(shù)據(jù)集分布不相關(guān)的噪聲數(shù)據(jù),這些冗余噪聲會(huì)降低模型的分類性能并增加分類器的計(jì)算成本,同時(shí)變量間的多重共線性也會(huì)影響分類模型的預(yù)測(cè)準(zhǔn)確度。特征選擇是常見的降維方法,基本思想是從原始數(shù)據(jù)集中選擇最優(yōu)的特征變量子集去構(gòu)建分類模型,不僅能夠提高模型的泛化能力、可理解性和計(jì)算效率,而且降低了“維度災(zāi)難”的發(fā)生頻率[16]。F-score算法是典型的特征選擇方法,其本質(zhì)是選取類內(nèi)差異小,類間差異大的特征[17],可以通過(guò)衡量特征子集在兩類之間的分辨能力,從而實(shí)現(xiàn)有效特征的選擇。F值越大表明該屬性的辨別能力越強(qiáng),對(duì)分類模型的貢獻(xiàn)率就越大。F值的計(jì)算如公式(1)所示。

      1.4 模型評(píng)估方法

      為評(píng)估分類模型的性能,通常將數(shù)據(jù)分成兩組子集,一組用于訓(xùn)練模型,一組用于測(cè)試訓(xùn)練的模型。訓(xùn)練集數(shù)量一般選取樣本總數(shù)的2/3[18-20]。

      1.4.1 K 折交叉驗(yàn)證

      K折交叉驗(yàn)證技術(shù)是常用的評(píng)價(jià)模型方法,能夠解決過(guò)度適應(yīng)的問(wèn)題,因此被廣泛應(yīng)用于分類器性能評(píng)測(cè)領(lǐng)域[21]。其主要思想是將原始數(shù)據(jù)集隨機(jī)分為K份大小相近但不相交的數(shù)據(jù)集,將K-1份數(shù)據(jù)集作為訓(xùn)練集,剩余的1份作為測(cè)試集,通過(guò)訓(xùn)練集得到一個(gè)分類模型,然后用測(cè)試集調(diào)整參數(shù)Wi,i=1,…,m,即每一個(gè)個(gè)體分類器的權(quán)重因子,基于訓(xùn)練集得到的分類模型就可以通過(guò)測(cè)試集來(lái)進(jìn)行評(píng)估[22]。為了獲得穩(wěn)定的結(jié)果,將該過(guò)程重復(fù)n次,根據(jù)n次檢驗(yàn)的平均正確率作為模型分類的最終結(jié)果。

      1.4.2 混淆矩陣

      混淆矩陣是一種用可視化方式來(lái)呈現(xiàn)算法性能的評(píng)價(jià)標(biāo)準(zhǔn),它通過(guò)矩陣描述樣本數(shù)據(jù)的真實(shí)類別屬性和預(yù)測(cè)結(jié)果的關(guān)系[23]?;煜仃囉烧嬲?True Positive,TP)、假正例(False Positive,F(xiàn)P)、真反例(True Negative,TN)、假反例(False Negative,F(xiàn)N)四部分組成,總樣本數(shù)為四者之和。分類模型的準(zhǔn)確度、靈敏度和特異度三個(gè)性能指標(biāo)的計(jì)算如公式(2)、(3)、(4)所示。

      式中:TP為真正例;TN為真反例;FP為假正例;FN為假反例。

      2 結(jié)果與討論

      本研究以R語(yǔ)言實(shí)現(xiàn)BP-ANN、RF及SVM的建模過(guò)程,建立柳河大米及輝南大米的產(chǎn)地確證模型。為保證數(shù)據(jù)劃分的隨機(jī)性和一致性,運(yùn)用R3.4.2軟件內(nèi)的sampling程序包中的strata()函數(shù)實(shí)現(xiàn)分層抽樣,將原始數(shù)據(jù)集的120個(gè)樣本以2∶1的比例劃分為訓(xùn)練集和測(cè)試集,并保證來(lái)自于柳河與輝南的大米樣本比例一致,80個(gè)訓(xùn)練集樣本用于模型的建立和優(yōu)化,40個(gè)測(cè)試集樣本用于外部精度檢驗(yàn)。

      2.1 大米礦物元素的差異性

      柳河縣與輝南縣大米樣本的礦物質(zhì)元素檢測(cè)含量如表2 所示,兩產(chǎn)地中的 Cu、Zn、K、Ca、Na、Pb、Cd八種礦物質(zhì)元素之間存在極顯著差異(P<0.01),Mn元素表現(xiàn)為顯著性差異(P<0.05),Mg元素和Fe元素差異性不顯著,由此可知兩產(chǎn)地之間的Cu、Zn、K、Ca、Na、Pb、Cd、Mn 具有其各自的特征,存在一定的差異性,采用礦物元素指紋信息進(jìn)行產(chǎn)地確證具有可行性,可進(jìn)一步探討。

      表2 柳河大米和輝南大米的礦物質(zhì)元素含量

      2.2 模型建立與優(yōu)化

      2.2.1 BP -ANN 模型

      本研究運(yùn)用R3.4.2軟件的AMORE程序包建立3層BP-ANN模型。按照變量個(gè)數(shù)及輸出類目設(shè)定輸入層為10,輸出層為1,根據(jù)網(wǎng)絡(luò)訓(xùn)練時(shí)間和模型泛化能力設(shè)置中間層的隱層數(shù)為1。隱含層節(jié)點(diǎn)數(shù)對(duì)于建立BP-ANN模型至關(guān)重要,根據(jù)公式(5)計(jì)算出其選擇區(qū)間為4~14,經(jīng)遍歷后獲得隱層節(jié)點(diǎn)個(gè)數(shù)與BP-ANN模型準(zhǔn)確率的變化曲線,如圖2所示。從圖2中可以看出,隱層節(jié)點(diǎn)數(shù)為6時(shí),此時(shí)模型的分類能力最好,分類準(zhǔn)確率為72.5%;當(dāng)隱層節(jié)點(diǎn)數(shù)為7時(shí),此時(shí)模型的分類效果最差,分類準(zhǔn)確率僅為45%。所以,建立10-6-1結(jié)構(gòu)的BP-ANN

      式中:L為隱含層節(jié)點(diǎn)數(shù);n為輸入層節(jié)點(diǎn)數(shù);m為輸出層節(jié)點(diǎn)數(shù);a為0~10之間的常數(shù)。

      圖2 BP-ANN中不同隱層節(jié)點(diǎn)數(shù)的模型準(zhǔn)確率

      產(chǎn)地確證模型能夠達(dá)到產(chǎn)地分類的目的,但是分類效果一般,尚需要進(jìn)行進(jìn)一步優(yōu)化驗(yàn)證,提高模型的分類能力。

      2.2.2 RF 模型

      本研究使用R3.4.2軟件中的Random Forest程序包建立RF模型。隨機(jī)特征變量個(gè)數(shù)mtry和決策樹數(shù)量ntree兩個(gè)參數(shù)的值直接影響RF模型的性能,需要選取最優(yōu)參數(shù)值進(jìn)行模型訓(xùn)練。特征變量mtry的值,通過(guò)實(shí)際模型的袋外估計(jì)誤差進(jìn)行選擇,通常選擇誤差最小的mtry值,特征變量ntree的值則選擇誤差區(qū)域穩(wěn)定時(shí)的值,此時(shí)建立準(zhǔn)確率較高的RF模型。隨機(jī)森林mtry和ntree值誤差尋優(yōu)的過(guò)程如圖3和圖4所示。當(dāng)mtry=3時(shí),此時(shí)模型袋外誤差估計(jì)值最小,最小誤差為0.001 89;當(dāng)ntree=500時(shí),此時(shí)模型袋外誤差估計(jì)值開始趨于穩(wěn)定,不再隨著tree值的增加而波動(dòng)。因此,選擇mtry=3,ntree=500建立隨機(jī)森林模型,此時(shí)模型的準(zhǔn)確率可達(dá)到為100%,可以準(zhǔn)確的對(duì)柳河和輝南兩產(chǎn)地進(jìn)行分類。

      圖3 mtry參數(shù)尋優(yōu)

      圖4 ntree參數(shù)尋優(yōu)

      2.2.3 SVM 模型

      本研究使用R3.4.2軟件中的e1071程序包建立SVM模型,選擇對(duì)噪聲數(shù)據(jù)有良好抗干擾能力的徑向基核函數(shù)(Radial Basis Function,RBF)。RBF核函數(shù)建模時(shí)需要設(shè)置核函數(shù)gamma值和懲罰因子cost值,這兩個(gè)參數(shù)對(duì)核函數(shù)的性能有很大的影響[24]。gamma值和cost值的尋優(yōu)過(guò)程如表3所示。從表3中可以看出,當(dāng)gamma=0.062 5,cost=1時(shí)分類模型誤差最低,此時(shí),error=0。因此gamma參數(shù)值確定為0.062 5,cost參數(shù)值確定為1,此時(shí)建立的SVM模型準(zhǔn)確率可達(dá)100%。

      表3 SVM參數(shù)尋優(yōu)

      2.3 特征變量選擇

      通過(guò)F-score算法,對(duì)10種礦物質(zhì)元素(Cu、Zn、Fe、Mn、K、Ca、Na、Mg、Pb、Cd)進(jìn)行特征選擇,結(jié)果如圖 5所示,各元素的 F-score值分別為:Cu=7.593 2,Zn=2.991 9,Pb=2.644 6,Ca=2.179 4,Cd=0.769 3,K=0.661 49,Na=0.345,Mn=0.097 5,Mg=0.061 5,F(xiàn)e=0.026 9,10 個(gè)元素的整體平均值為 1.737 1,其中 Cu、Zn、Pb、Ca 4 個(gè)元素的F-score值大于整體的平均值,對(duì)于建立大米產(chǎn)地確證模型具有較高的貢獻(xiàn)率,可作為建立模型的特征變量。

      圖5 兩個(gè)產(chǎn)區(qū)大米中礦物元素的F分?jǐn)?shù)

      2.4 模型性能評(píng)估

      三個(gè)模型的建立與優(yōu)化均在相同的訓(xùn)練集中,而測(cè)試集從未參與任何模型的建立,訓(xùn)練集和測(cè)試集樣本均通過(guò)分層抽樣等比例抽取,因此基于測(cè)試集的三個(gè)模型的分類精度可以有效代表模型對(duì)未知樣本的預(yù)測(cè)能力。

      本研究中混淆矩陣的預(yù)測(cè)類別和真實(shí)類別設(shè)置如表4所示。根據(jù)每個(gè)模型的分類混淆矩陣,計(jì)算相應(yīng)的準(zhǔn)確率,靈敏度和特異度,進(jìn)而評(píng)估模型的預(yù)測(cè)性能。其中,準(zhǔn)確率表示柳河產(chǎn)區(qū)及輝南產(chǎn)區(qū)大米樣本整體的分類精度,靈敏度表示柳河產(chǎn)區(qū)大米樣本正確分類的精度,特異度表示輝南產(chǎn)區(qū)大米樣本正確分類的精度。

      表4 柳河大米和輝南大米產(chǎn)區(qū)分類的混淆矩陣

      在計(jì)算出F-score值的基礎(chǔ)上,建立特征變量集合K,K={k1,k2,…k10},子集k1僅包含貢獻(xiàn)率最高的元素,子集k2包含貢獻(xiàn)率前兩名的兩個(gè)元素,依此類推,最后一個(gè)子集k10包含所有原始變量,即變量子集 k1={Cu},k2={Cu,Zn},… ,k10={Cu,Zn,Pb,Ca,Cd,K,Na,Mg,Mn,F(xiàn)e},通過(guò)逐步添加屬性變量訓(xùn)練模型,能夠觀察到每個(gè)屬性變量對(duì)模型預(yù)測(cè)性能的影響。

      在10次10折交叉驗(yàn)證下,按照F-score值得到的變量子集,依次對(duì)BP-ANN、RF和SVM 3個(gè)模型進(jìn)行評(píng)估比較,得到準(zhǔn)確率的變化如表5所示。從表中準(zhǔn)確率判斷,僅用 Cu元素建立的產(chǎn)地確證模型就達(dá)到了較高的分類精度(BP-ANN:94.29%;RF:87.40%;SVM:91.52%);RF 模型和SVM模型的分類精度隨著特征變量的增加而提高,其中 RF 模型在變量子集為 k6(Cu、Zn、Pb、Ca、Cd、K)時(shí)判別準(zhǔn)確率達(dá)到100%,SVM在變量子集為k3(Cu、Zn、Pb)時(shí)即可達(dá)到判別準(zhǔn)確率為100%,同比BP-ANN模型的分類精度則有較大變化,在k2變量子集時(shí),判別準(zhǔn)確率為99.17%,k3變量子集中雖然增加了Pb元素,但判別準(zhǔn)確率并沒有變化,而隨著其他礦物質(zhì)元素變量的逐步增加,模型的分類精度反而呈下降趨勢(shì)。

      表5 使用不同的變量子集的模型分類精度

      BP-ANN、RF和SVM選取其準(zhǔn)確率最高的變量子集結(jié)果,計(jì)算其對(duì)應(yīng)的靈敏度和特異度,結(jié)果如表6所示,RF模型和SVM模型的靈敏度均為100%,而BP-ANN的靈敏度98.61%,存在將柳河大米數(shù)據(jù)錯(cuò)分成輝南產(chǎn)地的情況。三個(gè)模型的特異度均為100%,模型預(yù)測(cè)性能優(yōu)異。

      表6 大米產(chǎn)地確證模型的最佳性能比較

      從檢測(cè)成本及運(yùn)算代價(jià)上評(píng)價(jià),選擇Cu和Zn兩個(gè)變量建模時(shí)三個(gè)模型均達(dá)到了很高的預(yù)測(cè)精度,此時(shí) SVM(99.23%)>BP-ANN(99.17%) >RF(98.46%);從預(yù)測(cè)準(zhǔn)確率上評(píng)價(jià),SVM與RF均可達(dá)到100%,而BP-ANN最高精度為99.17%,略遜于其他兩個(gè)模型。

      三種機(jī)器學(xué)習(xí)方法就柳河縣與輝南縣兩個(gè)產(chǎn)地確證而言,各自的最佳模型分別是:用(Cu,Zn,Pb)訓(xùn)練出來(lái)的準(zhǔn)確率100%的SVM模型,用(Cu,Zn,Pb,Ca,Cd,K)訓(xùn)練出來(lái)的準(zhǔn)確率100%的RF模型,以及用(Cu,Zn)訓(xùn)練出來(lái)的準(zhǔn)確率99.17%的BP-ANN模型。

      3 結(jié)論

      研究結(jié)果表明,采用機(jī)器學(xué)習(xí)方法建立的產(chǎn)地確證模型是有效的,BP-ANN、RF和SVM三種模型均達(dá)到了較好的預(yù)測(cè)性能。通過(guò)三個(gè)模型之間交叉驗(yàn)證結(jié)果和混淆矩陣結(jié)果的比較可得到,RF模型和SVM模型分類精度優(yōu)于BP-ANN模型。SVM模型相比于RF模型對(duì)變量更加敏感,能夠以更少的特征變量建立柳河與輝南的產(chǎn)地確證模型。

      值得關(guān)注的是,在區(qū)分柳河縣與輝南縣的大米樣品過(guò)程中,Cu元素在整個(gè)模型建立過(guò)程中起著重要的作用,盡管隨著特征變量的逐漸增加,模型的性能有所提高,但不能忽視單個(gè)Cu元素就達(dá)到了較高的分類精度,可以將其作為代表該地區(qū)空間特征的典型變量。

      本研究中BP-ANN、RF和SVM產(chǎn)地確證模型的建立與比較和建模特征變量的選擇對(duì)于開發(fā)該區(qū)域地理標(biāo)志大米數(shù)據(jù)庫(kù)及確證平臺(tái)有積極意義,隨著樣本數(shù)據(jù)量與空間特征維度的不斷擴(kuò)充,機(jī)器學(xué)習(xí)方法將更能展現(xiàn)其強(qiáng)大的學(xué)習(xí)能力,產(chǎn)地確證模型也將不斷完善。該方法能夠?yàn)槲覈?guó)農(nóng)特產(chǎn)品質(zhì)量安全保障、地理標(biāo)志產(chǎn)品品牌權(quán)益保護(hù)以及建立健全產(chǎn)地確證體系提供一定的參考。

      猜你喜歡
      子集產(chǎn)地準(zhǔn)確率
      由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
      拓?fù)淇臻g中緊致子集的性質(zhì)研究
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      關(guān)于奇數(shù)階二元子集的分離序列
      警惕“洗產(chǎn)地”暗礁
      食物離產(chǎn)地越遠(yuǎn)越好
      測(cè)定不同產(chǎn)地寬筋藤中5種重金屬
      中成藥(2018年8期)2018-08-29 01:28:16
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      乐至县| 高淳县| 沈丘县| 临高县| 观塘区| 双辽市| 聂荣县| 花莲县| 兰溪市| 富蕴县| 广灵县| 临西县| 镇赉县| 昂仁县| 盐池县| 鲜城| 安吉县| 望都县| 兴城市| 修水县| 樟树市| 彭阳县| 德兴市| 大竹县| 聂拉木县| 天祝| 沙河市| 宁武县| 常山县| 静宁县| 威远县| 乌拉特前旗| 瓦房店市| 陵川县| 灵石县| 临朐县| 台安县| 克拉玛依市| 莒南县| 平阴县| 柳州市|