摘要:為避免當歸與獨活2種中藥材混淆,結合深度學習和近紅外高光譜成像技術進行當歸與獨活的分類。首先,獲取當歸與獨活樣本的平均光譜數(shù)據(jù),并采用顯著圖選出平均光譜數(shù)據(jù)中的20個波段作為特征波段,實現(xiàn)特征提取與降維;然后,在全波段(共181個波段)和特征波段(共20個波段)的光譜數(shù)據(jù)集上,分別采用一維卷積神經(jīng)網(wǎng)絡(1D-CNN)模型和支持向量機(SVM)模型對當歸與獨活進行分類。分類結果顯示:利用全波段光譜數(shù)據(jù)集建模時,1D-CNN和SVM在測試集上的分類準確率分別為98.6%和98.1%;利用特征波段光譜數(shù)據(jù)集建模時,1D-CNN和SVM在測試集上的分類準確率分別為96.1%和95.5%。因此,將高光譜成像技術與深度學習相結合可以實現(xiàn)當歸與獨活的快速分類。
關鍵詞:高光譜成像;一維卷積神經(jīng)網(wǎng)絡;支持向量機;特征波段;分類
中圖分類號:TP391.4" " " " " "文獻標志碼:A" " " " " "文章編號:1674-2605(2023)06-0006-07
DOI:10.3969/j.issn.1674-2605.2023.06.006
Classification of Angelicae and Heracleum Based on Hyperspectral Imaging
ZHAO Lulu1" YIN Zexuan1" CHEN Hong1" LIU Cheng1,2
(1.Institute of Intelligent Manufacturing, Guangdong Academy of Science, Guangzhou 510070, China
2.Faculty of Mechanical and Electrical Engineering,Kunming University of Science and Technology,
Kunming 650051, China)
Abstract: To avoid confusion between Angelicae and Heracleum, deep learning and near-infrared hyperspectral imaging techniques were combined to classify them. Firstly, obtain the average spectral data of Angelicae and Heracleum samples, and use saliency maps to select 20 bands from the average spectral data as feature bands to achieve feature extraction and dimensionality reduction; Then, a one-dimensional convolutional neural networks (1D-CNN) model and a support vector machine (SVM) model were used to classify Angelicae and Heracleum on spectral datasets with a total of 181 bands and 20 bands, respectively. The result of classification showed that when modeling using full band spectral datasets, the accuracy of 1D-CNN and SVM on the test set was 98.6% and 98.1% in classification, respectively; When modeling using the characteristic bands spectral datasets, the accuracy of 1D-CNN and SVM on the test set was 96.1% and 95.5% in classification, respectively. Therefore, combining hyperspectral imaging technology with deep learning can achieve rapid classification of Angelicae and Heracleum.
Keywords: hyperspectral imaging; one-dimensional convolution neural networks; support vector machine; characteristic bands; classification
0" 引言
中藥材是中醫(yī)藥的核心組成部分。近年來,中藥材在生產(chǎn)與流通環(huán)節(jié)出現(xiàn)了摻雜、摻假和混淆等情況[1]。中藥材當歸與獨活在外觀上較為相似,經(jīng)驗不豐富的檢測人員較難區(qū)分。當歸具有補血活血、調(diào)經(jīng)止痛、潤腸通便等功效;獨活具有止痛、解表等功效。若誤將當歸與獨活混淆,不僅減弱治療效果,還可能引發(fā)副作用或藥物反應[2-3]。當歸與獨活區(qū)分的傳統(tǒng)方法為人工鑒別,檢測人員主要通過眼看和口嘗的方式進行區(qū)分,存在主觀性強、檢測效率低等問題。
隨著高光譜圖像的光譜分辨率不斷提高,數(shù)據(jù)處理能力不斷增強,高光譜成像技術廣泛應用于中藥材分選、食品安全、藥物檢測和飼料營養(yǎng)成分鑒別等領域。在中藥材分選領域,戰(zhàn)皓等[4]基于近紅外光譜結合偏最小二乘法對不同產(chǎn)地的獨活藥材中的蛇床子素、二氫歐山芹醇當歸酸酯等含量進行定量分析;張付杰等[5]利用可見近紅外光譜成像對三七粉進行質(zhì)量等級無損鑒定,結果表明,不同質(zhì)量等級的三七粉內(nèi)在成分的含量比例不同,在可見光譜和近紅外光譜范圍內(nèi)光譜特征也不同;孫飛等[6]基于近紅外光譜,利用數(shù)據(jù)融合的方式,提高了姜半夏紅外光譜鑒別的準確率。以上研究主要針對單類別中藥材進行光譜分析,而利用深度學習和高光譜成像技術實現(xiàn)當歸與獨活分類的研究鮮有報道。
本文提出一種基于高光譜成像的當歸與獨活分類方法。首先,基于深度學習構建當歸與獨活分類模型;然后,通過顯著圖篩選特征波段,去除冗余的光譜信息,以減輕數(shù)據(jù)存儲、計算與傳輸?shù)膲毫7];最后,利用支持向量機(support vector machine, SVM)建立全波段和特征波段光譜數(shù)據(jù)的分類模型進行對比驗證,實現(xiàn)當歸與獨活的無損分類。
1" 數(shù)據(jù)樣本
本文選用的當歸與獨活樣本是在2022年11月— 12月購買于北京同仁堂藥店,其中當歸樣本有562片,獨活樣本有401片,共963片,當歸與獨活的樣本如圖1所示。
將所有當歸與獨活樣本分別按7∶3的比例劃分為訓練集和測試集,其中訓練集有673片樣本(當歸393片,獨活280片),測試集有290片樣本(當歸169片,獨活121片)。
2" 高光譜圖像采集與處理
本文利用高光譜實驗平臺采集當歸與獨活樣本的高光譜圖像。高光譜實驗平臺主要由高光譜相機、鹵素燈、移動載物臺、計算機等組成,如圖2所示。
本文選用Specim Fx17高光譜相機獲取當歸與獨活樣本的高光譜數(shù)據(jù),其光譜范圍為900~1 700 nm,光譜分辨率為8 nm,光譜通道數(shù)為224個。
2.1" 高光譜圖像采集
首先,將高光譜相機和鹵素燈預熱30 min,以保證圖像采集過程中高光譜相機正常運轉;然后,設置高光譜相機鏡頭與樣本之間的距離為40 cm并校準鏡頭,高光譜相機的曝光時間為4.2 ms,幀率為234 f/s;接著,設置移動載物臺的移動速度為10 cm/s,此時成像效果最佳;最后,將當歸與獨活樣本隨機散放在移動載物臺上,利用圖像采集軟件SpectraVIEW采集當歸與獨活樣本的高光譜圖像。
2.2" 高光譜圖像預處理
為降低光源強度分布不均勻和相機暗電流對高光譜圖像的干擾,對采集的當歸與獨活樣本高光譜圖像進行黑白校正,校正公式為
高光譜相機采集的當歸與獨活樣本高光譜圖像不僅包含樣本信息,還包含干擾信息,這些干擾信息會影響分類模型的穩(wěn)定性和可靠性[8]。本文利用多元散射校正(multiplicative scatter correction, MSC)、標準歸一化變量(standard normalized variate, SNV)、卷積平滑(savitzky-golay, SG)[9]這3種方法分別對高光譜圖像進行預處理,并對比選出最優(yōu)的預處理方法。其中,MSC用于校正光譜散射,降低因樣本不均勻而導致的光譜差異,可有效提高光譜數(shù)據(jù)的信噪比;SNV用于校正樣本因顆粒散射而引起的光譜誤差;SG用于減少隨機噪聲,提高光譜的平滑性,通常在被平滑點的前后選取多個點進行擬合,確定該點的最佳值,進而提高光譜數(shù)據(jù)的信噪比。
為了獲取當歸與獨活樣本的平均光譜數(shù)據(jù),利用圖像掩模逐個提取當歸與獨活樣本的感興趣區(qū)域(region of interest, ROI),并將每個樣本所有像素點的平均光譜反射值作為一條光譜曲線,共有963條平均光譜曲線。平均光譜數(shù)據(jù)提取過程如圖3所示。
首先,利用高光譜相機采集當歸與獨活樣本的三通道彩圖;然后,通過閾值處理將高光譜相機采集的1 364 nm波段的灰度圖作為掩模圖像;最后,根據(jù)掩模圖像中單個樣本的掩模坐標,從高光譜圖像中提取去除背景的部分高光譜圖像作為感興趣區(qū)域,并計算其平均光譜。
當歸與獨活樣本的平均光譜曲線如圖4所示。
由圖4可知,當歸與獨活樣本的平均光譜曲線在兩端邊緣處光譜反射值波動較劇烈,受干擾較大,數(shù)據(jù)失真嚴重,影響后期的分類效果,需進行噪聲裁剪,即剔除噪聲較大的936 ~ 1 012 nm和1 652 ~ 1 720 nm邊緣波段,保留1 016 ~1 648 nm中間波段(對應224波段中的23 ~ 204,共計181個波段)進行建模分析。
3" 分類模型建立
本文分別采用深度學習中的卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN)和機器學習中SVM建立當歸與獨活分類模型。
3.1" 一維卷積神經(jīng)網(wǎng)絡建模
卷積神經(jīng)網(wǎng)絡是一種端到端的深度神經(jīng)網(wǎng)絡,主要包括輸入層、卷積層、池化層、全連接層和輸出層。本文基于LeNet-5卷積神經(jīng)網(wǎng)絡建立當歸與獨活一維卷積神經(jīng)網(wǎng)絡(1D-CNN)分類模型,主要包括3個卷積層、3個平均池化層和1個全連接層,模型框架如圖5所示。
當歸與獨活1D-CNN分類模型的參數(shù)如表1所示。
當歸與獨活1D-CNN分類模型的輸入為當歸與獨活樣本高光譜圖像經(jīng)處理后的1181(通道數(shù)波段數(shù))一維向量。除輸出層的激活函數(shù)采用Softmax函數(shù)外,其他層的激活函數(shù)均采用ReLU函數(shù)。模型訓練的批尺寸為16個。利用交叉熵損失函數(shù)評價預測值與實際值(標簽值)之間的差異,同時使用Adam優(yōu)化器優(yōu)化卷積神經(jīng)網(wǎng)絡參數(shù)。
3.2" SVM
SVM是常用的分類模型[10],因具有良好的泛化能力,在數(shù)據(jù)分類領域廣泛應用。通過網(wǎng)格搜索算法結合10折交叉驗證選擇合適的超參數(shù)(核函數(shù)、正則化系數(shù)C和核系數(shù))來優(yōu)化SVM模型。核函數(shù)、正則化系數(shù)C和核系數(shù)的調(diào)參范圍分別設置為{ploy,rbf,sigmoid}、10-5~105、10-5~103。
SVM超參數(shù)的優(yōu)化過程為:首先,確定SVM模型,并將所有當歸與獨活樣本分別按7∶3的比例劃分為訓練集和測試集,定義網(wǎng)格搜索和交叉驗證策略;然后,對超參數(shù)在交叉驗證的訓練集上訓練SVM模型,并在測試集上評估SVM模型的性能;接著,根據(jù)評估結果,選擇具有最佳性能的超參數(shù)組合;最后,利用最佳超參數(shù)組合在訓練集上重新訓練SVM模型,得到優(yōu)化后的SVM模型。
3.3" 評價指標
本文以當歸與獨活1D-CNN分類模型的準確率作為評價指標,確定最佳的預處理方法和最優(yōu)的分類模型,計算公式為
4" 光譜特征波段選擇
顯著圖是一種用于解釋深度學習模型決策的可視化方法。利用顯著圖對當歸與獨活的全波段光譜數(shù)據(jù)進行特征波段選擇[11-12],去除光譜數(shù)據(jù)中無關和冗余的特征,可減少數(shù)據(jù)計算量,增強當歸與獨活1D-CNN分類模型的分類效果。
顯著圖選擇特征波段的過程為:首先,將測試集中的數(shù)據(jù)(1181)(通道數(shù)波段數(shù))輸入到訓練好的當歸與獨活1D-CNN分類模型的輸入層,根據(jù)類別標簽進行前向傳播得出分類結果;然后,停止前向傳播進行反向傳播,傳播回輸入層后通過對輸入數(shù)據(jù)的梯度進行絕對值和歸一化處理,作為各波段的貢獻度;最后,根據(jù)貢獻度選擇相對應的20個波段作為特征波段。
5" 分類流程
當歸與獨活分類流程圖如圖6所示。
首先,采用高光譜相機獲取當歸與獨活樣本的高光譜圖像,確定高光譜圖像預處理的最佳方法并計算其平均光譜;然后,分別利用當歸與獨活1D-CNN分類模型和SVM分類模型對當歸與獨活進行分類;接著,通過顯著圖選擇當歸與獨活的特征波段,減少數(shù)據(jù)計算量;最后,在當歸與獨活數(shù)據(jù)集上基于所選的特征波段,分別采用1D-CNN分類模型和SVM分類模型實現(xiàn)當歸與獨活的分類。
6" 結果與分析
實驗采用戴爾Precision 3630臺式機,硬件為:處理器Intel(R) Core(TM) i7-8700 CPU @ 3.20 GHz六核;內(nèi)存32 GB;顯卡NVIDIA GeForce GTX 1060,顯存6 GB。在高光譜實驗平臺獲取高光譜原始圖像后,利用SpectraVIEW軟件進行高光譜圖像的黑白校正和高光譜圖像的預處理。通過PyCharm編程軟件在Anaconda3集成環(huán)境和Pytorch1.6.0深度學習框架下完成1D-CNN模型和SVM模型的建立及分類結果分析。
6.1" 高光譜數(shù)據(jù)
全部當歸與獨活樣本的平均光譜如圖7所示。
由圖7可知,當歸與獨活光譜曲線相似性高,不易區(qū)分,但在某些波段存在細微的差異。
6.2" 預處理結果
利用SVM對SNV、MSC和SG 3種高光譜圖像的預處理方法進行評估,選出最優(yōu)的預處理方法,結果如表2所示。
由表2可知,當歸與獨活樣本的原始高光譜數(shù)據(jù)經(jīng)過SG預處理后具有最高的準確率。本文1D-CNN分類模型、SVM分類模型和特征波段選擇均采用SG作為高光譜圖像的預處理方法。
6.3" 特征波段選擇
利用1D-CNN分類模型進行當歸與獨活分類,其結果如圖8所示。
由圖8可知,當歸與獨活1D-CNN分類模型在測試集上的準確率為98.6%。根據(jù)1D-CNN模型的權重,利用顯著圖可得到輸入光譜數(shù)據(jù)的顯著波段如圖9所示。
由圖9可知,波段貢獻度較大的區(qū)域分別集中在1 120 nm、1 262 nm和1 548 nm波長附近,因此選擇1 108 ~1 136 nm、1 260 ~1 284 nm和1 542 ~1 560 nm共20個波段作為特征波段。
6.4" 建模結果與分析
將選擇的特征波段測試集數(shù)據(jù)分別輸入到1D-CNN分類模型和SVM分類模型,由圖8可知,1D-CNN分類模型經(jīng)過50個Epoch后逐漸趨于平穩(wěn)。
1D-CNN分類模型和SVM分類模型分別在全波段和特征波段當歸與獨活光譜數(shù)據(jù)集上的最佳分類結果如表3所示。
由表3可知,經(jīng)過SG預處理的全波段光譜數(shù)據(jù)在1D-CNN分類模型、SVM分類模型中均有良好的分類性能,在1D-CNN分類模型中訓練集和測試集的分類準確率相差不大,均超過98%;經(jīng)過SG預處理的特征波段光譜數(shù)據(jù)在1D-CNN分類模型和SVM分類模型中的分類準確率都有不同程度的降低,但其測試集精度均超過95.5%,相比全波段光譜數(shù)據(jù)下降約3%,由此可得出,顯著圖用于特征波段選擇具有良好的效果,可有效減少數(shù)據(jù)冗余。
7" 結論
本文基于深度學習和近紅外高光譜成像技術,實現(xiàn)了當歸與獨活的分類。采用SG方法進行高光譜圖像平滑處理;利用圖像掩模逐個提取樣本的感興趣區(qū)域并獲取各樣本的平均光譜數(shù)據(jù);顯著圖被使用選擇各樣本中光譜數(shù)據(jù)的特征波段,通過1D-CNN分類模型和SVM分類模型分別對當歸與獨活的全波段光譜數(shù)據(jù)和特征波段光譜數(shù)據(jù)進行建模分析。結果表明:1D-CNN分類模型和SVM分類模型均具有較好的分類效果;由于選擇特征波段,光譜數(shù)據(jù)會丟失部分數(shù)據(jù)信息,導致SVM分類準確率稍有降低(約3%),但準確率仍達到95%以上。
在后續(xù)研究中,可以嘗試增加不同種類的當歸與獨活以及樣本數(shù)量,為當歸與獨活分類檢測提供可靠的數(shù)據(jù)支持。此外,還可以使用其他的波段選擇方法,設計更高效的深度學習模型。
參考文獻
[1] 倪琳,劉富強,靳婉君,等.建立快速篩查當歸飲片及藥材中摻假獨活和摻假量的分析方法[J].海峽藥學,2022,34(7):40-45.
[2] 車蘇容,張家源,張秋梅,等.當歸及其混淆品獨活、歐當歸的紫外鑒別[J].亞熱帶植物科學,2020,49(6):473-476.
[3] 張蕾,趙宇平,龐錕錕,等.基于高光譜成像技術的葛根與葛藤鑒別[J].中國中藥雜志,2023,48(16):4362-4369.
[4] 戰(zhàn)皓,方婧,楊濱,等.近紅外光譜法測定不同產(chǎn)地獨活中蛇床子素和二氫歐山芹醇當歸酸酯含量[J].光譜學與光譜分析,2017,37(4):1110-1113.
[5] 張付杰,史磊,李麗霞,等.高光譜成像的三七粉質(zhì)量等級無損鑒別[J].光譜學與光譜分析,2022,42(7):2255-2261.
[6] 孫飛,陳雨,王凱洋,等.基于紅外光譜數(shù)據(jù)融合的姜半夏鑒別方法研究[J].北京中醫(yī)藥大學學報,2019,42(10):862-868.
[7] 戴天虹,孫春雪,黃建平,等.基于黃金正弦混沌斑鬣狗優(yōu)化算法的高光譜波段選擇[J].激光與光電子學進展,2022,59(10):519-528.
[8] 鄭夢迪,孫咪咪,賀紫涵,等.基于ITS2序列及二級結構對易混淆藥材牛尾獨活、當歸、獨活和羌活的鑒別研究[J].藥學學報,2021,56(8):2289-2294.
[9]焦青亮,劉明,于坤,等.基于卷積神經(jīng)網(wǎng)絡的光譜預處理方法[J].光譜學與光譜分析,2022,42(1):292-297.
[10]段龍,鄢天滎,王江麗,等.結合高光譜成像和機器學習的棉種年份鑒別[J].光譜學與光譜分析,2021,41(12):3857-3863.
[11] SIMONYAN K, VEDALDI A, ZISSERMAN A. Deep inside convolutional networks: Visualising image classification models and saliency maps[J]. arXiv preprint arXiv:1312.6034, 2013.
[12] CHMIEL W, KWIECIE? J, MOTYKA K. Saliency Map and Deep Learning in Binary Classification of Brain Tumours[J]. Sensors, 2023, 23(9): 4543.
作者簡介:
趙路路,男,1995年生,碩士研究生,助理工程師,主要研究方向:復雜系統(tǒng)的集成與設計。E-mail: ll.zhao@giim.ac.cn
殷澤軒,男,1998年生,學士,助理工程師,主要研究方向:自動化工程。E-mail: zx.yin@giim.ac.cn
陳紅,女,1997年生,學士,助理工程師,主要研究方向:智能傳感技術。E-mail:chen.h@giim.ac.cn
劉誠,男,1998年生,碩士研究生,主要研究方向:復雜系統(tǒng)的集成與設計。E-mail: 805327372@qq.com