文/劉攀
在確定紅葡萄酒的質(zhì)量時(shí),通常通過(guò)雇用一組合格的葡萄酒評(píng)委來(lái)完成。每個(gè)葡萄酒飲用者在品嘗葡萄酒后對(duì)分類(lèi)指數(shù)進(jìn)行評(píng)分,然后對(duì)其進(jìn)行求和以獲得總分以確定葡萄酒的質(zhì)量。因此研究一種高效可靠的智能分類(lèi)識(shí)別方法很有必要;這里在紅葡萄酒的多種物理化學(xué)成份測(cè)定的基礎(chǔ)上,使用機(jī)器學(xué)習(xí)理論中的徑向基神經(jīng)網(wǎng)絡(luò)和樸素貝葉斯理論相結(jié)合的構(gòu)建分類(lèi)模型,實(shí)現(xiàn)紅葡萄酒質(zhì)量的有效分類(lèi)。
RFB(徑向基)神經(jīng)網(wǎng)絡(luò)是J.Moody和C.Darken在1988年提出的基于徑向基函數(shù)的神經(jīng)網(wǎng)絡(luò)算法。RBF神經(jīng)網(wǎng)絡(luò)是局部逼近網(wǎng)絡(luò),可以以任意精度逼近任意連續(xù)或離散函數(shù),并且可以處理系統(tǒng)內(nèi)難以分析的規(guī)則。特別適用于解決非線(xiàn)性分類(lèi)和預(yù)測(cè)問(wèn)題。然而,當(dāng)訓(xùn)練樣本的數(shù)量增加時(shí),RBF網(wǎng)絡(luò)中隱藏層神經(jīng)元的數(shù)量增加,這增加了RBF網(wǎng)絡(luò)的復(fù)雜性。結(jié)構(gòu)過(guò)于龐大,從而運(yùn)算量也有所增加。
RBF神經(jīng)網(wǎng)絡(luò)是具有三層結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),包括輸入層,隱含層和輸出層。輸入層與其他神經(jīng)網(wǎng)絡(luò)相同。其結(jié)構(gòu)圖如圖1。
圖1:RBF神經(jīng)網(wǎng)絡(luò)
圖2:RBF_NB結(jié)構(gòu)圖
如上圖,輸入層為(X1,X2,..., Xp),隱含層為(c1,c2,....,ch),輸出層為 y,(w1,w2,....,wm)則為隱含層到輸出層的連接權(quán)重。隱藏層的每個(gè)節(jié)點(diǎn)使用非線(xiàn)性函數(shù)h(x)作為徑向基函數(shù)。隱含層的作用是將向量從低維p映射到高維h,使得低維線(xiàn)性不可分割的情況可以變得對(duì)高維線(xiàn)性可分。主要就是核函數(shù)的思想。因此,網(wǎng)絡(luò)從輸入到輸出的映射是非線(xiàn)性的,而網(wǎng)絡(luò)輸出對(duì)于可調(diào)參數(shù)是線(xiàn)性的。網(wǎng)絡(luò)的權(quán)重可以通過(guò)線(xiàn)性方程直接求解,這極大地加速了學(xué)習(xí)并避免了局部最小值。
徑向基神經(jīng)網(wǎng)絡(luò)的激活函數(shù)可表示為高斯函數(shù):
徑向基神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可以如下獲得:
其中xp是第p個(gè)輸入樣本,ci是第i個(gè)中心點(diǎn),h是隱層中的節(jié)點(diǎn)數(shù)。n是樣本或分類(lèi)輸出的數(shù)量,bi是第i個(gè)神經(jīng)元的閾值。
樸素貝葉斯分類(lèi)器(NBC)是一種非常簡(jiǎn)單的分類(lèi)算法。對(duì)于要分類(lèi)的給定項(xiàng)目,在該事件發(fā)生的條件下,每個(gè)類(lèi)別的出現(xiàn)概率最大,被認(rèn)為屬于哪個(gè)類(lèi)別。樸素貝葉斯分類(lèi)的思想基礎(chǔ)如下:
(1)設(shè)x={a1, a2, a3…, am}是要分類(lèi)的項(xiàng)目,并且每個(gè)a是x的特征屬性。
(2)有類(lèi)別集合C={y1, y2, …, yn}
(3)計(jì)算P(y1|x), P(y2|x), …, P(yn|x)
(4)如果P(yk|x)=max{P(y1|x), P(y2|x), …, P(yn|x) },則x∈yk
如何計(jì)算步驟3中的各種條件概率??梢赃@么做:
(1)查找要分類(lèi)的已知分類(lèi)的集合,該集合將成為訓(xùn)練樣本集。
(2)統(tǒng)計(jì)數(shù)據(jù)為每個(gè)類(lèi)別下的每個(gè)要素屬性生成條件概率估計(jì)。即
(3)如果各個(gè)特征屬性是獨(dú)立的,那么貝葉斯定理得出以下結(jié)論:
因?yàn)榉帜笇?duì)所有類(lèi)別是相同的,因此我們只需要最大化分子,并且每個(gè)要素屬性是獨(dú)立的,所以有
NBC模型假設(shè)屬性彼此獨(dú)立,但是在現(xiàn)實(shí)數(shù)據(jù)中,各屬性會(huì)有相關(guān)性,也正是這個(gè)假設(shè),限制了NBC模型的使用。
本文中使用的數(shù)據(jù)是一組紅葡萄酒的物理化學(xué)參數(shù)。包括固定酸度,揮發(fā)酸度,檸檬酸,殘?zhí)?,氯化物,游離二氧化硫,總二氧化硫,密度,pH值,硫酸鹽,酒精,質(zhì)量,共1599個(gè)樣本。
品質(zhì)為酒的評(píng)分,分值從1到10。把紅葡萄酒等級(jí)分類(lèi),是把品質(zhì)小于5的作為第一類(lèi),把品質(zhì)為5和6的作為第二類(lèi),把大于6的作為第三類(lèi)。
在本文中,RBF神經(jīng)網(wǎng)絡(luò)和樸素貝葉斯分類(lèi)器相結(jié)合,這種分類(lèi)算法稱(chēng)為RBF_NB,結(jié)構(gòu)圖如圖2。
由圖2可知,神經(jīng)網(wǎng)絡(luò)仍由三層結(jié)構(gòu)組成,輸入層神經(jīng)元個(gè)數(shù)為11,即紅葡萄酒的11種物理化學(xué)成分指標(biāo)。 輸出層神經(jīng)元個(gè)數(shù)為3,輸出為某一樣本屬于第幾類(lèi)的概率,從三個(gè)數(shù)據(jù)中的最大值判斷樣本屬于第幾類(lèi)。 改進(jìn)的RBF_NB算法主要是修改了隱含層與輸出層的連接權(quán)重。其工作具體步驟為:
(1)數(shù)據(jù)的標(biāo)準(zhǔn)化旨在消除每個(gè)要素屬性的維度的影響。使用matlab函數(shù)mapminmax()對(duì)數(shù)據(jù)進(jìn)行歸一化處理。即y = (ymax - ymin)*(x - xmin)/(xmax - xmin) + ymin; ymax=1, ymin=-1
(2)對(duì)樣本進(jìn)行隨機(jī)排序,選擇前1270行數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),最后329行數(shù)據(jù)作為測(cè)試數(shù)據(jù)。
(3)構(gòu)建RBF神經(jīng)網(wǎng)絡(luò)。輸入層神經(jīng)元個(gè)數(shù)為11,即紅葡萄酒數(shù)據(jù)的11維特征屬性。激勵(lì)函數(shù)是高斯函數(shù),輸出層中的神經(jīng)元數(shù)量為3.隱含層中的神經(jīng)元數(shù)量設(shè)置為h,通過(guò)實(shí)驗(yàn)證明,h=15具有最佳效果。使用k-means聚類(lèi),獲取15個(gè)聚類(lèi)中心點(diǎn),方差計(jì)算公式為:
(4)利用樸素貝葉斯確定隱藏層到輸出層的權(quán)值:
(5)根據(jù)RBF神經(jīng)網(wǎng)絡(luò)原理,計(jì)算出輸出層的值,比較三個(gè)值得大小,確定分類(lèi)。
在開(kāi)始的 kmeans聚類(lèi)的操作下,相似樣本會(huì)聚到一類(lèi),而通過(guò)隱藏層的高斯函數(shù),計(jì)算出的結(jié)果正是樣本與中心點(diǎn)的距離,離中心點(diǎn)越近,輸出值越大,反之輸出值越小,而權(quán)值是該聚類(lèi)的一類(lèi)屬于最終分類(lèi)某一類(lèi)的概率,該聚類(lèi)里越多的樣本屬于最終分類(lèi)的某一類(lèi), 則概率則大,反之則小。
從收集的數(shù)據(jù)中,隨機(jī)選擇1270組作為訓(xùn)練數(shù)據(jù),并使用329組作為測(cè)試數(shù)據(jù)。分別用NBC,RBF神經(jīng)網(wǎng)絡(luò)和RBF_NB算法進(jìn)行訓(xùn)練,而表1反映了紅酒的正確分類(lèi)率。 這里為了對(duì)比的科學(xué)性,表1中的數(shù)據(jù)是進(jìn)行20次訓(xùn)練測(cè)試后的數(shù)據(jù)。
由表1可知,RBC_NB算法不僅對(duì)訓(xùn)練數(shù)據(jù)有不錯(cuò)的分類(lèi)正確率,泛化能力也不錯(cuò)。而RBF神經(jīng)網(wǎng)絡(luò)的泛化能力太差,出現(xiàn)過(guò)擬合現(xiàn)象。
RBF神經(jīng)網(wǎng)絡(luò)具有收斂速度快,泛化能力強(qiáng)等特征,但是針對(duì)所采集的紅葡萄酒物理化學(xué)成分指標(biāo)的數(shù)據(jù)學(xué)習(xí),訓(xùn)練數(shù)據(jù)可以達(dá)到很好的準(zhǔn)確率,但泛化能力不理想。 本文提出的RBF神經(jīng)網(wǎng)絡(luò)和樸素貝葉斯分類(lèi)相結(jié)合的模型,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)都有很好的正確率,分類(lèi)效果顯著。這種分類(lèi)模型對(duì)于釀酒廠對(duì)紅酒進(jìn)行分類(lèi)具有一定的參考意義。