胡善科,秦玉華*,段如敏,吳麗君,宮會(huì)麗
1. 青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院,山東 青島 266061 2. 云南中煙工業(yè)有限責(zé)任公司技術(shù)中心,云南 昆明 650024 3. 中國(guó)海洋大學(xué)信息科學(xué)與工程學(xué)院,山東 青島 266100
近紅外光譜技術(shù)具有快速、高效、準(zhǔn)確性好,不損壞樣品等特點(diǎn),目前大量用于石油化工、環(huán)境科學(xué)、食品藥品等領(lǐng)域[1]。 我國(guó)是煙草大國(guó),每年的煙葉收購(gòu)量龐大,但煙葉質(zhì)量受各種因素的影響,需首先經(jīng)過(guò)分級(jí)處理才能保證原料的合理利用。 然而目前煙葉分級(jí)主要以人工為主,煙葉分級(jí)存在主觀性強(qiáng)、效率低、誤差大,利用率低等問(wèn)題[2]。 隨著近紅外光譜技術(shù)的發(fā)展,近年來(lái),它在煙草自動(dòng)分類中得到了很好的應(yīng)用,不僅能獲得煙葉顏色的外觀特征,而且能反映煙葉的內(nèi)在質(zhì)量信息,與人工、圖像視覺(jué)提取、數(shù)學(xué)推理等分類技術(shù)相比具有天然優(yōu)勢(shì)[3]。 然而,近紅外光譜數(shù)據(jù)具有高維、頻帶重疊、噪聲大和非線性等特點(diǎn),高維空間的稀疏性與空空間等現(xiàn)象也嚴(yán)重影響了結(jié)果的準(zhǔn)確性,針對(duì)這些問(wèn)題,對(duì)高維光譜數(shù)據(jù)進(jìn)行與建模相關(guān)性高的特征提取尤為重要[4]。 魯夢(mèng)瑤等提出采用隔點(diǎn)采樣的方法對(duì)光譜數(shù)據(jù)進(jìn)行特征提取, 從而加快收斂速度,但該方法容易丟失重要特征; 何勇等[5]采用主成分分析(principal component analysis,PCA)與神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法對(duì)光譜數(shù)據(jù)進(jìn)行降維,并以PCA變換后的變量作為輸入?yún)?shù),但PCA是一種線性降維方法,無(wú)法獲取數(shù)據(jù)的非線性結(jié)構(gòu)特征; 高全學(xué)等[6]提出了改進(jìn)(local preserving projection,LPP)的非線性降維算法, 在特征提取過(guò)程中,融合了局部結(jié)構(gòu)和差分信息,但對(duì)稀疏數(shù)據(jù)的效果并不理想。
針對(duì)上述問(wèn)題,提出了一種基于聯(lián)合矩陣的局部保持投影(local preserving projection algorithm based on joint matrix, JMLPP)特征提取方法。 首先,通過(guò)基于聚類的特征提取[7]剔除類內(nèi)相關(guān)度低、類間相關(guān)度過(guò)高的特征,實(shí)現(xiàn)了光譜中噪聲信息的剔除。 其次,采用改進(jìn)的LPP算法對(duì)光譜數(shù)據(jù)進(jìn)行降維,解決了冗余特征和非線性結(jié)構(gòu)的影響。 此外,在LPP算法中引入測(cè)地線距離[8],并對(duì)邊權(quán)矩陣公式進(jìn)行了改進(jìn),解決了樣本稀疏帶來(lái)的不確定性。 JMLPP方法實(shí)現(xiàn)了煙葉分級(jí)信息的有效提取,提高了煙葉分級(jí)準(zhǔn)確性。
(1)
(2)
其中γ2∈[0,1]。 通過(guò)調(diào)節(jié)類間參數(shù)γ2找到合適類間閾值之后,篩選出的特征具有較好的離散性。 聯(lián)合類內(nèi)閾值與類間閾值對(duì)光譜數(shù)據(jù)的處理,最后得到篩選出的指標(biāo)特征矩陣。
分類方式可能有N種,可得到N個(gè)指標(biāo)特征矩陣,考慮到分級(jí)的準(zhǔn)確性,對(duì)得到的N個(gè)指標(biāo)特征矩陣進(jìn)行并集操作得到聯(lián)合矩陣。 選取與煙葉分級(jí)相關(guān)性高的成熟度與部位指標(biāo)進(jìn)行分類,從光譜矩陣中分別選出與成熟度和部位相關(guān)性高的特征,從而得到兩個(gè)特征矩陣,并集產(chǎn)生一個(gè)聯(lián)合矩陣。 通過(guò)聯(lián)合矩陣運(yùn)算可減少“維度災(zāi)難”問(wèn)題,剔除與分類無(wú)關(guān)的噪聲信息,提高計(jì)算精度,但仍存在光譜數(shù)據(jù)冗余、非線性等特點(diǎn)。
局部保持投影(LPP)算法[9]是由何小飛教授于2003年提出,LPP是一種線性降維和非線性降維相結(jié)合的降維算法。 與PCA算法相比,LPP算法能夠保留全局信息,在線性降維的同時(shí)也保留局部非線性特征。 LPP生成的表現(xiàn)映射可看作LE (laplacian eigenmap)[10]的線性近似,保留了數(shù)據(jù)的局部信息,應(yīng)用在高光譜數(shù)據(jù)和圖像識(shí)別等領(lǐng)域[11]。
給定m個(gè)在歐式空間RN的N維數(shù)據(jù)樣本X={x1,x2, …,xm},xj∈RN, (j=1, 2, …,m),LPP通過(guò)生成最近局部鄰域圖,獲得樣本數(shù)據(jù)的k近鄰域。 LPP的目標(biāo)是將高維空間非線性流行數(shù)據(jù)X投影到低維空間特征映射矩陣Y,找到最優(yōu)轉(zhuǎn)換矩陣Z,其本質(zhì)是Laplacian Eigenmap的線性逼近,如式式(3)
yj=ZTxj
(3)
優(yōu)化目標(biāo)函數(shù)后為
(4)
LPP算法為了保證映射后矩陣能最大程度保存數(shù)據(jù)局部結(jié)構(gòu)屬性,使距離較近的樣本xj,xi經(jīng)過(guò)映射后仍保持較近距離,引入相似性度量矩陣Wji
(5)
其中xj和xi互為k鄰域內(nèi)的點(diǎn),δ是一個(gè)常數(shù),W為實(shí)對(duì)稱矩陣。
對(duì)優(yōu)化目標(biāo)函數(shù)進(jìn)行變化
(6)
s.t.zTXDXTz=1
(7)
則最小化目標(biāo)函數(shù)為
argminzTXLXTz
(8)
即求解下式廣義矩陣特征值
XLXTz=λXDXTz
(9)
矩陣XDXT,XLXT是對(duì)稱且半正定的,式(9)得到前h個(gè)最小特征值的特征向量z1,z2, …,zh構(gòu)成最優(yōu)轉(zhuǎn)換矩陣W=(w1,w2, …,wz)。
LPP算法在保持全局非線性結(jié)構(gòu)的同時(shí)進(jìn)行局部線性降維,但煙葉光譜數(shù)據(jù)具有高冗余、高噪聲、重疊、離散性大等特點(diǎn),且LPP算法單純依據(jù)歐式距離構(gòu)造鄰域圖,無(wú)法表達(dá)樣本點(diǎn)間真實(shí)的拓?fù)浣Y(jié)構(gòu),對(duì)煙葉近紅外光譜數(shù)據(jù)的處理存在一定不足。 本文對(duì)LPP算法作了如下改進(jìn): 用測(cè)地線距離代替歐式距離,根據(jù)Dijkstra算法得到的最小距離構(gòu)造鄰域圖,并改進(jìn)邊權(quán)矩陣。 利用貪心算法得到樣本中某一點(diǎn)距離較近的前k個(gè)頂點(diǎn),作為k近鄰域。
設(shè)構(gòu)造的鄰域圖為:G={V,E,W}, 其中V為樣本頂點(diǎn)集合,E是邊集合,W是邊權(quán)矩陣, 設(shè)測(cè)地線距離為dG(xj,xi),則改進(jìn)后的邊權(quán)矩陣為
(10)
在離散性大的高維流形數(shù)據(jù)中,測(cè)地線距離可以較好的表達(dá)兩點(diǎn)之間的實(shí)際距離,使樣本點(diǎn)整體分布趨于均勻,相較于歐式距離具有明顯優(yōu)勢(shì),提高了LPP的降維效果。
基于聯(lián)合矩陣的局部保持投影(JMLPP)特征提取方法具體步驟如下:
(1)按N種與分類相關(guān)性強(qiáng)的指標(biāo)將樣本分為N種不同的分類方式,每種分類方式篩選k個(gè)特征進(jìn)行基于聚類的特征選擇。
(2)基于聚類的特征選擇需要挑選類內(nèi)關(guān)聯(lián)性強(qiáng),類間差異性大的特征。 通過(guò)調(diào)節(jié)類內(nèi)參數(shù)γ1、類間參數(shù)γ2確定類內(nèi)閾值D(l)與類間閾值D,分別對(duì)N種不同聚類方式篩選光譜特征區(qū)間得到N個(gè)指標(biāo)特征矩陣M1,M2,…,MN,并集操作生成聯(lián)合矩陣M。
(3)將聯(lián)合矩陣M采用改進(jìn)的LPP算法進(jìn)行降維操作,得到去噪、去冗余的數(shù)據(jù)特征子集Y={y1,y2,…,ym}。
來(lái)自某煙草企業(yè)提供的包括B2V,B1F,C4F,C1L,X2L五個(gè)不同等級(jí)共650個(gè)煙葉樣品,其中每個(gè)等級(jí)各130個(gè)。 將樣品放置在60 ℃的烘箱中干燥2 h,磨粉過(guò)60目篩,密封平衡8 h后進(jìn)行光譜采集。
使用賽默飛世爾公司Antaris Ⅱ近紅外光譜儀,采用漫反射方式,掃描范圍為3 800~10 000 cm-1,分辨率為8 cm-1, 室溫保持在18~22 ℃,每個(gè)樣品取15 g壓實(shí)后置于光譜儀中掃描3次,計(jì)算其平均值作為最終光譜。
為了消除基線漂移和噪聲的影響,需要對(duì)采集到的光譜數(shù)據(jù)進(jìn)行預(yù)處理,經(jīng)比較本文采用一階導(dǎo)數(shù)和Savitzky Golay平滑[12]。
因影響煙葉分級(jí)的關(guān)鍵指標(biāo)包括成熟度與部位,分別從650個(gè)樣品中按成熟度與部位選取部分特征明顯的煙葉樣品進(jìn)行基于聚類的特征提取。 其中按成熟度分為成熟、尚熟與假熟,共選取了420個(gè)樣品; 按部位分為上部、中部與下部,共選取了450個(gè)樣品。 具體樣品信息劃分如表1所示。
表1 聚類特征提取實(shí)驗(yàn)樣品劃分Table 1 Sample partition of cluster featureextraction experiment
首先利用基于聚類的特征提取方法分別從成熟度和部位指標(biāo)篩選與煙葉分級(jí)相關(guān)的特征。 根據(jù)文獻(xiàn)[10]與實(shí)驗(yàn)分析,類內(nèi)參數(shù)γ1、類間參數(shù)γ2的取值分別在0.9~1,0~0.01之間細(xì)化搜索得到最佳取值。 圖1和圖2分別為γ1和γ2按部位和成熟度聚類的搜索結(jié)果。
可以看出,按部位分組時(shí),類內(nèi)參數(shù)γ1=0.95,類間參數(shù)γ2=0.000 4時(shí)識(shí)別率較好,提取的光譜數(shù)據(jù)特征為983個(gè)。 按成熟度分組時(shí),類內(nèi)參數(shù)γ1=0.95,類間參數(shù)γ2=0.001 4時(shí)識(shí)別率較好,提取的光譜數(shù)據(jù)特征為892個(gè)。 為保證信息提取的完整性,本文將兩個(gè)特征子集進(jìn)行并集操作生成一個(gè)聯(lián)合矩陣,聯(lián)合矩陣的光譜特征從1 560減少到1 102個(gè),較全光譜數(shù)據(jù)減少了28.9%。
圖1 γ1細(xì)化搜索(a): γ1部位分組; (b): γ1成熟度分組Fig.1 Refined search of γ1(a): γ1 grouped by location; (b): γ1 grouped by maturity
特征選擇可消除對(duì)分級(jí)無(wú)關(guān)的噪聲特征,但篩選出的光譜數(shù)據(jù)仍存在冗余、非線性特征,這將對(duì)煙葉分級(jí)的準(zhǔn)確性產(chǎn)生影響,因此采用改進(jìn)的LPP方法對(duì)提取的特征進(jìn)行進(jìn)一步降維處理,從而消除冗余特征的影響。 圖3—圖5為JMLPP與PCA,LPP的投影對(duì)比。
圖2 γ2細(xì)化搜索(a): γ2部位分組; (b): γ2成熟度分組Fig.2 Refined search of γ2(a): γ2 grouped by location; (b): γ2 grouped by maturity
圖3 PCA投影圖Fig.3 PCA projection plot
圖4 LPP投影圖Fig.4 LPP projection plot
可以看出,PCA投影空間中樣品混合現(xiàn)象比較嚴(yán)重,各等級(jí)邊界模糊,難以實(shí)現(xiàn)煙葉等級(jí)的區(qū)分。 LPP投影空間中的煙葉等級(jí)分類效果好于PCA,但仍存在較多樣品區(qū)分模糊問(wèn)題。 而JMLPP投影空間中的煙葉樣品分類清晰,效果明顯好于PCA與LPP,說(shuō)明該方法有較好的等級(jí)區(qū)分能力。
圖5 JMLPP投影圖Fig.5 JMLPP projection plot
選取75%的樣本做為訓(xùn)練集,25%的樣本做為測(cè)試集,分別采用全譜段與PCA,LPP和JMLPP降維后的特征建立煙葉等級(jí)分類模型。 幾種降維方法選取前6個(gè)成分做為輸入指標(biāo),采用SVM做為分類器。 表2為幾種方法下郴同等級(jí)煙葉分類準(zhǔn)確性對(duì)比,為防止偶然性,準(zhǔn)確率取5次實(shí)驗(yàn)結(jié)果的平均值。
表2 煙葉分級(jí)結(jié)果對(duì)比Table 2 Comparison of tobacco leaf grading results%
由表2可以看出,對(duì)于每個(gè)等級(jí)煙葉的分類準(zhǔn)確率,全譜段做為輸入特征效果最差,主要由于高維光譜中存在較多噪聲和冗余信息,無(wú)法實(shí)現(xiàn)煙葉分級(jí)信息的有效提取,影響了分類的準(zhǔn)確性。 JMLPP方法煙葉總體分類的準(zhǔn)確率為93.8%,每個(gè)等級(jí)的分類準(zhǔn)確性都明顯高于其他方法,說(shuō)明該方法能較好的對(duì)煙葉分級(jí)信息進(jìn)行提取,這與前面投影分析結(jié)果一致。
敏感度與特異度可以分別衡量算法對(duì)于正例與負(fù)例的識(shí)別能力,表3為幾種分級(jí)算法模型對(duì)5種等級(jí)煙葉分類的敏感度與特異度對(duì)比。
表3 煙葉分級(jí)算法敏感度與特異度對(duì)比Table 3 Comparison of sensitivity and specificity of tobacco leaf classification algorithms
可以看出,JMLPP算法的敏感度、對(duì)煙葉等級(jí)的識(shí)別錯(cuò)誤率明顯好于其他幾種方法,進(jìn)一步說(shuō)明JMLPP方法具有較好的魯棒性。
基于聯(lián)合矩陣局部保持投影算法較好的解決了光譜數(shù)據(jù)高維、重疊、高噪聲的問(wèn)題。 該方法通過(guò)聚類實(shí)現(xiàn)了與分類相關(guān)性強(qiáng)的多個(gè)特征子集的提取,并集后得到聯(lián)合矩陣,有效降低了光譜數(shù)據(jù)維度,減少了噪聲干擾。 通過(guò)對(duì)LPP算法的改進(jìn),解決了高維數(shù)據(jù)歐氏距離度量不準(zhǔn)確的問(wèn)題,提高了降維效果。 實(shí)驗(yàn)結(jié)果表明,JMLPP方法對(duì)于煙葉等級(jí)判定具有更好的準(zhǔn)確率與魯棒性,可以作為煙葉分級(jí)的一種新方法。 下一步,需要提高算法效率,拓寬算法的應(yīng)用范圍。