朱軍偉,顧麗娜,蘭彩霞
(1.楊凌職業(yè)技術學院 文理學院,陜西 楊凌 712100;2.甘肅政法大學 人工智能學院,甘肅 蘭州 730070)
本研究以2021 年全國大學生數(shù)學建模競賽的D題附件數(shù)據(jù)為依據(jù),通過考慮中藥材近紅外和中紅外光譜數(shù)據(jù)的有效性,對藥材光譜波數(shù)展開研究[1-3]。由于光譜波數(shù)較多,對應波段光譜照射下的吸光度較少,故首先對數(shù)據(jù)進行倒置處理,處理后的數(shù)據(jù)指標顯然存在一定的相似性,進而聚類處理,即可得到藥材種類。為進一步檢驗藥材分類的準確性,通過Matlab 數(shù)據(jù)擬合,精確描述了藥材之間的特征和差異性。
伴隨著人工智能技術的逐步成熟,以信息化方法鑒定中藥材種類的速度顯然加快,但當前大多方法忽略了中藥材呈現(xiàn)的光譜區(qū)別?;诖?,可利用藥材近紅外和中紅外的光譜數(shù)據(jù)相互驗證來鑒別中藥材的種類及產地。當樣本量不夠充足時,則可以通過近紅外和中紅外的光譜數(shù)據(jù)相互驗證來對中藥材產地進行綜合鑒別[4-5]。本文以2021 年全國大學生數(shù)學建模競賽的D 題為背景材料建立了適合鑒別中藥材種類及產地的數(shù)學模型,通過模型的定量計算與定性分析,研究了不同種類藥材、不同產地藥材的特征和差異性。
藥材種類的鑒定需要建立近紅外、中紅外光譜數(shù)據(jù)相對應的指標體系,而方差是用來判斷數(shù)據(jù)離散程度和數(shù)據(jù)波動大小的有效指標,故借助方差數(shù)值進行初步分類。具體如下:
其中S2為方差,X 為平均數(shù),為各個數(shù)據(jù),將附件數(shù)據(jù)代入可得如下結果,見表1。
表1 不同編號下吸光度的方差
考慮數(shù)據(jù)的有效性和準確性,這里只對篩選后的80 個光譜數(shù)據(jù)進行編號,顯然數(shù)據(jù)方差之間具有一定的關聯(lián)度。為進一步探究其規(guī)律,以方差為指標進行歸類,見表2。
依表2 可知,方差不同時所對應的藥材個數(shù)也不盡相同。因此,首先假設藥材種類為10 種,結合附件1所給數(shù)據(jù),能夠發(fā)現(xiàn)不同波數(shù)的吸光率有所不同,即一個“結果”是受一個或多個“因素”影響的,故對其進行單因素方差分析,結果見圖1。
表2 不同方差個數(shù)表
表3 方差分析表
圖1 單因素方差分析圖
在此基礎之上將數(shù)據(jù)合理歸類,導入Matlab 軟件中,得到不同種藥材光譜波數(shù)與吸光度的圖像,見圖2。
由圖2 可知,光譜波數(shù)在500 ~4 000時,第十種藥材吸光度峰值一直高于其他九種,但在 2 000 ~2 500這十種藥材的吸光度都有明顯下降的趨勢;光譜波數(shù)在3 000 ~3 300時,這十種中藥材的吸光度都逐漸增加,光譜波數(shù)在1 000 ~1 300時,第十種中藥材尤其特殊且一直處于峰值狀態(tài),其余藥材的峰值均有不同,由此表明10 種藥材之間具有顯著的差異性。為進一步說明10 種中藥材的存在,通過對各方差、平均值、峰值、T檢驗的對比能夠看出10 種中藥材存在差異,可以得出有10 種藥材存在,具體見表4。
表4 不同種類變量表
圖2 不同種類中藥材光譜波數(shù)與吸光度圖像
中藥材產地與種類的確定同等重要,但是在實際問題的處理過程中,藥材的中紅外光譜數(shù)據(jù)缺失會導致藥材種類無法確定,但依此卻能夠明晰藥材的產地。經(jīng)Spss 處理,可看到各藥材產地在不同波數(shù)下的方差,故用已知產地方差的范圍確定缺失數(shù)據(jù)的產地。具體見表5。
表5 不同產地方差范圍表
依據(jù)上述結果,結合已知產地數(shù)據(jù)的方差求出不同藥材所對應的具體產地,為進一步證明產地的準確性,以缺失值中第11 產地來分析,且發(fā)現(xiàn)補充后的11 產地趨勢與已知11 產地趨勢基本吻合,由此可知該數(shù)據(jù)符合題意,預測見圖3。
圖3 十一產地預測圖
綜上可知,對于藥材產地的預測基本都是建立在完整的光譜數(shù)據(jù)之下,即使有缺失值的存在,但通過對其他已知產地的詳細分析與預測,即可得到藥材未知產地的鑒定結果,見表6。
表6 不同編號產地預測表
對不同產地中紅外光譜圖進行簡單描述,繼而表征藥材之間的吸光度強弱仍存在顯著的差異性。
圖4 表明,當光譜波數(shù)在1 000~2 000 cm-1時,5 號產地的藥材吸光度明顯高于其他四組;當光譜波數(shù)在2 000~3 300 cm-1時,5 種產地的吸光度都是逐漸增加,但5 號產地的吸光度一直處于峰值,且第5 組的吸光度與其他四組的差值較大。圖5 表明,隨著藥材光譜波數(shù)的增加,光譜波數(shù)在500~1 000 cm-1,后六種藥材的吸光度都是先增加后減小。但8 號產地的吸光度一直高于其他五組,中紅外光譜圖從整體上反應出吸光效率的強弱,即使不同產地藥材的中紅外光譜大體一致,但在吸光率的形狀和強弱等方面仍存在一定的差異。由此可知這幾種藥材及其產地都具有顯著的差異性。
圖4 不同產地中紅外光譜圖
圖5 不同產地中紅外光譜圖
本文在全面分析影響中藥材中紅外光譜數(shù)據(jù)變化規(guī)律的基礎上,利用數(shù)學方法引入單因素方差分析和產地規(guī)律的指標體系,進而構造出適合鑒別中藥材種類及產地的數(shù)學模型,利用Matlab 軟件有效實現(xiàn)了數(shù)據(jù)擬合。該模型可以有效解決部分藥材種類及產地無法鑒別的問題,同時通過研究該模型,為中藥材鑒定提供了理論指導,對推動中藥材行業(yè)發(fā)展指明了方向。