郭 毅,丁海勇,徐晶鑫,徐 灝
(南京信息工程大學(xué)遙感學(xué)院,南京 210044)
“地溝油”,通常指的是回收的廢棄食用油、反復(fù)煎炸后的食用油、下水道垃圾提煉出的劣質(zhì)油、剩菜剩飯?zhí)釤挸龅挠汀⒘淤|(zhì)的動物內(nèi)臟提煉出的油,會對人們的身體健康和生命安全造成極大的威脅。對地溝油進行快速、高效地檢測是當(dāng)前我國政府部門必須要解決的重點民生問題之一。地溝油主要成分是甘油三酯,比真正的食用油多了許多致病、致癌的毒性物質(zhì),如:鉛、砷及黃曲霉素等。如果提煉后的地溝油與正常的食用油按照一定的比例進行混合,就更加難以準確區(qū)分地溝油與正常食用油,這為地溝油的準確檢測帶來了極大困難。
傳統(tǒng)方法檢驗地溝油,關(guān)鍵是展開4大類核心指標檢測,即對多環(huán)芳烴、膽固醇、電導(dǎo)率和特定基因組成的檢測,但是地溝油經(jīng)過人為特殊處理后,檢測發(fā)現(xiàn)并不是所有地溝油樣品都含有多環(huán)芳烴;食用油的理化指標檢測包括對酸價、過氧化值[1]、浸出油溶劑殘留、游離酚(棉籽油)、總砷、鉛、黃曲霉毒素、苯并芘及農(nóng)藥殘留共9項基本指標的檢測,然而這些指標,即使是地溝油也都可能合格,根本無法辨別地溝油。傳統(tǒng)方法的檢測結(jié)果需要經(jīng)驗,受主觀因素影響較大,難以保證準確度;而常規(guī)的理化分析方法不僅費時費力,而且需要借助昂貴的分析儀器和嚴格的實驗室條件。因此迫切需要研究一種簡單、快速、無損的食用油與地溝油的鑒別技術(shù)。
高光譜遙感具有波段多、光譜分辨率高的特點,光譜通道數(shù)多達數(shù)十甚至數(shù)百個以上,而且各光譜通道間往往是連續(xù)的[2-6],可以在多個光譜波段上對地物的物理屬性進行分析。高光譜遙感無損檢測農(nóng)產(chǎn)品的品質(zhì),包括外部品質(zhì)(大小、顏色及形狀等)和內(nèi)部品質(zhì)(糖度、酸度等),也可以應(yīng)用于物品受污染情況、病蟲害滋生以及醫(yī)學(xué)中的某些疾病檢測等[7-11]。利用熒光法[12]和紫外可見光分光度法[13]可鑒別的油品過于單一,不適合用來鑒別種類繁多的地溝油和食用油。李剛等[9]證明了高光譜技術(shù)可以同時得到被測物質(zhì)吸收系數(shù)、散射系數(shù)和各向異性因子的信息,顯著提高了高光譜數(shù)據(jù)的信噪比,使復(fù)雜混合溶液的成分及濃度的定量計算成為可能,為利用高光譜檢測復(fù)雜混合液體奠定了基礎(chǔ)。然而由于地溝油種類繁多,且組成成分與食用油相似,這種方法的應(yīng)用仍有一定的局限。DN值差異的根本原因是油品分子C-H鍵吸收方式不同[14]。本文先對光譜數(shù)據(jù)進行辨別,剔除由C-H鍵吸收方式不同導(dǎo)致的峰型、峰位具有明顯差異的波段,對于峰型、峰位差別很小,無法直接鑒別的波段進行數(shù)學(xué)處理,采用聚類分析方法對地溝油、正常的食用油以及它們的混合油的ASD高光譜數(shù)據(jù)進行分析,突出各樣品之間化學(xué)成分的微小差異,精細地提取各樣品的高光譜特征,從而準確地鑒別各種油品,為今后深入研究提供基礎(chǔ)。
聚類分析是研究“物以類聚”的一種科學(xué)有效的方法。做聚類分析時,對準備進行聚類分析的對象分別采樣,然后獲取樣本的光譜信息。樣本之間的相似程度由樣本光譜之間的距離決定,如果2個樣本的光譜距離越大,則表明2樣本之間的差別越大,反之越小。聚類分析的運算過程是:先將待聚類的n個樣品的光譜(或者變量)各自看成1類,共有n類;然后按照某個選定的方法計算每2類之間的聚類統(tǒng)計量,即某種距離(或者相似系數(shù)),將距離最小的2類聚合為1類,其余類不變,即得到n-1類;再按照前面的計算方法,對這n-1類進行計算,求出新類與其他類之間的距離(或相似系數(shù)),再將距離最小的2類并為1類,其余不變,即得到n-2類;如此下去,每次重復(fù)都減少1類,直到最后所有的樣品(或者變量)都歸為1類為止。
聚類分析過程包括2種距離的計算,一種是樣本與樣本光譜圖之間距離的計算,另一種是新建類與其他樣本光譜圖或類之間距離的計算。選擇不同的距離,聚類結(jié)果會有所差異。在油品分類中,往往采用幾種距離進行計算和對比,選擇一種較為合適的距離進行聚類。計算樣本光譜圖之間的距離方法主要有4種。
1)歐氏距離,公式為
2)明科夫斯基距離,公式為
3)切比雪夫距離,當(dāng)明科夫斯基距p→∞時,有
4)相關(guān)性距離,公式為
式(1)—(4)中:i,j為樣本編號;k為波段;xik為第i個樣本在第k個波段的DN值;n為波段數(shù),m為樣本數(shù);d為距離;p為實數(shù),p>0。
計算新建類與樣本光譜之間距離的方法有最短距離法、最長距離法、未加權(quán)平均距離法、加權(quán)平均法、質(zhì)心距離法、加權(quán)質(zhì)心距離法及內(nèi)平方和距離法等。
地溝油與食用油在成分上十分相似,利用聚類法進行樣品微小差別的鑒別分析具有很大挑戰(zhàn)性,但同時也可以提高本文理論的可靠性。
試驗用油共6種,分別是大豆油、調(diào)和油、菜子油、色拉油、地溝油A和地溝油B。前4種正常的食用油是從超市購買的,而地溝油A和B分別是食堂剩菜中提煉出的油和反復(fù)煎炸使用后的油。將2種地溝油與4種食用油分別按1∶2和1∶1混合,得到22類混合油。利用ASD高光譜儀獲取待測樣本的高光譜數(shù)據(jù)時,為了克服背景物質(zhì)對光線反射從而導(dǎo)致數(shù)據(jù)不準確,本文利用內(nèi)壁刷黑后的培養(yǎng)皿來盛放實驗用油,每個樣本用ASD高光譜儀測5條光譜曲線,計22類110條光譜曲線,隨機選取其中的66條作為實驗組,進行聚類分析,其余相同油品的光譜曲線作為驗證組,用來對實驗結(jié)果進行檢驗。
將22個樣本依次取至60 mm內(nèi)壁刷黑的培養(yǎng)皿(極小反射率)中,然后用ASD高光譜輻射儀進行光譜DN值的采集,波長范圍為350~2 500 nm。
利用View Spec Pro軟件,將實驗采集到的各個樣本的5條光譜曲線取平均值,得到22條譜線。圖1所示是編號第3類的地溝油(d3)與4種正常食用油(Z1,Z2,Z3,Z4)按比例混合(d31-1至 d34-2)之后各個譜線經(jīng)拋物線修正、拼接修正后的DN值。對所獲取的光譜數(shù)據(jù)經(jīng)過預(yù)處理后利用Matlab統(tǒng)計工具箱中的cluster函數(shù)進行聚類分析和結(jié)果顯示。
圖1 地溝油與正常食用油按比例混合譜線分布Fig.1 Hyperspectral curve of the proportionally mixed oil of waste oil and edible oil
聚類分析時應(yīng)盡量選擇信息量豐富的可見光、不可見光波段數(shù)據(jù)。地溝油在成分種類上與食用油大致相似,均為多種脂肪酸的混合物,其分子式主要包括甘油基以及多種脂肪酸基,輻射儀測得的地溝油與食用油光譜DN值在部分相同波長范圍內(nèi)具有相似的特征峰型和峰位,但是在DN值的分布范圍上具有明顯的區(qū)別。從圖1可以看出,4種正常油(曲線名稱為 Z1,Z2,Z3,Z4)DN 值分布在2 550~3 790之間,而地溝油DN值則分布在487~2 100和3 450以上的區(qū)間。在450~600 nm,650~900 nm和1 000~1 800 nm范圍內(nèi),各官能團的C-H吸收峰及灰度值排列順序較為相似且DN值分布有微小差異,帶有油品間的相似信息,而在1 825~2 500 nm區(qū)間,差異明顯,予以剔除。同時,地溝油與正常食用油在700~710 nm和740~750 nm之間均有類似的差異。其中,663~683 nm波長范圍,峰型峰位差別很小,帶有油品間的相似信息。以第3種地溝油與正常油按2種比例摻兌后該范圍內(nèi)譜線為例,不同比例摻兌后,吸收峰高度有明顯差異,具有規(guī)律性:與Z1相比,d31-1和d31-2的DN值分別降低42%和73%;與Z2相比,d32-1和d32-2的DN值分別下降了40%和72%;與Z3相比,d33-1和d33-2的DN值分別下降了41%和77%;與Z4相比,d34-1和d34-2的DN值分別下降了43%和68%;為了突出樣品之間化學(xué)成分的細小差異,取可見光范圍663~683 nm,利用化學(xué)計量方法進行數(shù)學(xué)處理,采用聚類算法進行鑒別。
為了使敏感波段的選擇更加可靠,基于聚類分析,本文定義了顯著性差異度量△μ,即
式中:△DN1=,即該油品灰度值的最大值減最小值;DNi為該油品像元灰度值的平均值(i=1,2)。
顯然,|DN1-DN2|越大,說明1類油品像元灰度的平均值和2類油品像元灰度的平均值差別就越大,從目視效果來說,越容易區(qū)分1類油品和2類油品。而△DN1愈小,說明1類油品像元灰度的反差越小,越容易使1類油品聚類。因此,顯著性度量△μ作為表征2類地物差異的量,與|DN1-DN2|成正比,與|△DN1+△DN2|成反比,△μ越大,分類效果越好。為了進一步提取敏感波段,對663~683 nm(記為 a)、700 ~710 nm(記為 b)、740~750 nm(記為c)波段各種油品的DN值進行統(tǒng)計,在油品之間兩兩求△μ的和,得出
即663~683 nm波段內(nèi)各油品光譜差異值的和最大,利用該波段聚類分析結(jié)果最符合實際。
取663~683 nm波長范圍,將22種光譜66條譜線數(shù)據(jù)作為訓(xùn)練組,將剩余44條譜線按光譜類型兩兩取平均作為驗證組。利用訓(xùn)練組數(shù)據(jù)進行DN值預(yù)處理,再采用歐氏距離、相關(guān)性、馬氏距離結(jié)合不同的聚類分析方法建立模型。選擇不同的聚類方法建立模型,其準確率不同。實驗表明:采用馬氏距離和明科夫斯基距離結(jié)合聚類方法聚類后不能將同種油品的3條光譜曲線歸為一類,不符合實際;而經(jīng)相關(guān)性結(jié)合最短距離法、最長距離法、未加權(quán)平均距離法及內(nèi)平方和距離法分析的結(jié)果均能有效地將66條光譜曲線準確地分為22類,該結(jié)果符合實際分類。圖2是經(jīng)相關(guān)性最短距離法得到的聚類樹。
圖2 基于相關(guān)性最短距離法的聚類樹Fig.2 Correlation clustering tree based on the shortest distance method
圖3 為通過相關(guān)性內(nèi)平方和距離法,分析得到的聚類樹。
圖中66條光譜曲線的序號依次每3個表示1類油品,聚類樹的分析結(jié)果顯示,該方法可以準確地將同一類且不同編號的油品歸為一類,依據(jù)各油品的DN值對其區(qū)分是基本可靠的。
圖3 基于相關(guān)性內(nèi)平方和距離法的聚類樹Fig.3 Correlation clustering tree based on the interior square sum distance
由結(jié)果看出,聚類分析模型對22種油類樣品的區(qū)分有較高準確率。為了進一步證明模型的可靠性,考察模型對預(yù)測樣品的準確率,本文利用驗證組與訓(xùn)練組混合后的譜線,采用相關(guān)分析法得到區(qū)分油品的結(jié)果(表1)。
表1 驗證組與訓(xùn)練組混合譜線不同聚類分析方法的油品區(qū)分結(jié)果Tab.1 Oil distinguish results of different clustering analysis based on the blend spectrums of validation group and training group
表中編號67—88所代表的驗證組譜線是按與訓(xùn)練組譜線相同的順序?qū)Ω饔推纷詈?條譜線兩兩取平均值得到的。由表1可知,4種聚類方法均能將驗證組的光譜曲線準確聚類到所屬的油品類別中,與實際相符。事實證明這種模型對于油品的區(qū)分有較高的準確度。
運用聚類分析法對22種地溝油、食用油品檢測的實驗結(jié)果表明,高光譜聚類分析法在油品檢測方面具有較好的效果,填補了利用油品的ASD高光譜數(shù)據(jù)鑒別地溝油的空白。相對于傳統(tǒng)的4大類核心指標檢測,高光譜聚類分析法更加精確,可以有效鑒別出地溝油與食用油,但在檢測未知油品的技術(shù)上還需改進,今后需在此基礎(chǔ)上大量采集地溝油的譜線,建立地溝油光譜DN值數(shù)據(jù)庫,以便能快速地、更好地區(qū)分未知油所屬的類別。
[1]潘劍宇,尹平河,余漢豪,等.潲水油、煎炸老油與合格食用植物油的鑒別研究[J].食品科學(xué),2003,24(8):27-29.Pan J Y,Yin P H,Yu H H,et al.Diagnostic physical and chemical target on distinguishing hogwash fat form good edible vegetable oils[J].Food Science,2003,24(8):27-29.
[2]馬翠紅,劉立業(yè).基于小波分析的光譜數(shù)據(jù)處理[J].冶金分析,2012,32(1):34-37.Ma C H,Liu L Y.Spectral data processing based on wavelet analysis[J].Metallurgical Analysis,2012,32(1):34- 37.
[3]沈掌泉,王 珂,王人潮.水稻光譜數(shù)據(jù)處理系統(tǒng)[J].浙江大學(xué)學(xué)報:農(nóng)業(yè)與生命科學(xué),1998,24(1):49-50.Sheng Z Q,Wang K,Wang R C.Study on rice spectral data processing system[J].Journal of Zhejiang Agricultural University,1998,24(1):49-50.
[4]沈掌泉,王人潮.連續(xù)型光譜數(shù)據(jù)的處理及信息提取試驗[J].浙江農(nóng)業(yè)大學(xué)學(xué)報,1993,19(s1):85-90.Sheng Z Q,Wang R C.Study on the procession and information collection of continuous spectral data[J].Journal of Zhejiang Agricultural University,1993,19(s1):85-90.
[5]謝紅接,李劍鋒,劉德長,等.高光譜數(shù)據(jù)處理及其在廣西苗兒山地區(qū)的地質(zhì)應(yīng)用研究[J].鈾礦地質(zhì),1999,15(1):47-54.Xie H J,Li J F,Liu D C,et al.Hyperspectral data processing and research on geological application in miaoershan district,Guangxi Province[J].Uranium Geology,1999,15(1):47-54.
[6]周 竹,李小昱,高海龍,等.馬鈴薯干物質(zhì)含量高光譜檢測中變量選擇方法比較[J].農(nóng)業(yè)機械學(xué)報,2012,43(2):128-133,138.Zhou Z,Li X Y,Gao H L,et al.Comparison of different variable selection methods on potato dry matter detection by hyperspectral imaging technology[J].Transactions of the Chinese Society for Agricultural Machinery,2012,43(2):128-133,138.
[7]包麗麗,齊小花,張孝芳,等.幾種常用油品拉曼光譜的檢測及分析[J].光譜學(xué)與光譜分析,2012,32(2):394-397.Bao L L,Qi X H,Zhang X F,et al.Detection and analysis of several kinds of oils with Raman spectrum[J].Spectroscopy and Spectral Analysis,2012,32(2):394-397.
[8]柳萍萍,林 輝,孫 華,等.高光譜數(shù)據(jù)的降維處理方法研究[J].中南林業(yè)科技大學(xué)學(xué)報,2011,31(11):34-38.Liu P P,Lin H,Sun H,et al.Dimensionality reduction method of hyperion EO- 1 data[J].Journal of Central South University of Forestry and Technology,2011,31(11):34-38.
[9]李 剛,熊 嬋,李家星,等.高光譜檢測復(fù)雜混合溶液的Monte Carlo仿真研究[J].光譜學(xué)與光譜分析,2011,31(11):3014-3017.Li G,Xiong C,Li J X,et al.Monte Carlo simulation of complex mixed[J].Spectroscopy and Spectral Analysis,2011,31(11):3014-3017.
[10]李 穎,劉丙新,陳 澎.高光譜遙感技術(shù)在水上溢油監(jiān)測中的研究進展[J].海洋環(huán)境科學(xué),2012,31(3):460-464.Li Y,Liu B X,Chen P.Study advancement in oil spill monitoring using hyper- spectral remote sensing[J].Marine Environmental Science,2012,31(3):460-464.
[11]呂 萍,薛 龍,何秀文,等.生姜水分含量的可見-近紅外光譜檢測[J].江西農(nóng)業(yè)大學(xué)學(xué)報,2011,33(3):602-607.Lü P,Xue L,He X W,et al.Prediction of ginger moisture content using visual near- infrared spectroscopy[J].Acta Agriculturae Universitatis Jiangxiensis,2011,33(3):602-607.
[12]劉 薇,尹平河,趙 玲.熒光法測定十二烷基苯磺酸鈉鑒別潲水油的研究[J].中國油脂,2005,30(5):24-26.Liu W,Yin P H,Zhao L.Distinguishing hogwash fat by determination of sodium dodecylbenzene sulfonate with fluorerscence spectrum analysis[J].China Oils and Fats,2005,30(5):24-26.
[13]王 耀,尹平河,梁芳慧,等.紫外可見分光光度法鑒別摻兌潲水油的花生油[J].分析實驗室,2006,25(3):92-94.Wang Y,Yin P H,Liang F H,et al.Distinguishing hogwash oil from peanut oil by ultraviolet- visible spectrophotometry[J].Chinese Journal of Analysis Laboratory,2006,25(3):92-94.
[14]劉福莉,陳華才,姜禮義,等.近紅外透射光譜聚類分析快速鑒別食用油種類[J].中國計量學(xué)院學(xué)報,2008,19(3):279-282.Liu F L,Chen H C,Jiang L Y,et al.Rapid discrimination of edible oil by near infrared transmission spectroscopy using clustering analysis[J].Journal of China Jiliang University,2008,19(3):279-282.
[15]黃 偉,鄭建軍,徐建華.地溝油的安全快速檢測研究[J].山東科技大學(xué)學(xué)報:自然科學(xué)版,2010,29(3):51-53.Huang W,Zheng J J,Xu J H.Study on safe and rapid detection of discard- oil[J].Journal of Shandong University of Science and Technology:Natural Science,2010,29(3):51-53.
[16]韓瑞梅,楊敏華.一種改進的高光譜遙感數(shù)據(jù)波段選擇方法的研究[J].測繪與空間地理信息,2010,33(3):137-139.Han R M,Yang M H.Study on an improved method of band selection of hyperspectral remote sensing data[J].Geomatics and Spatial Information Technology,2010,33(3):137-139.