王文哲
(江南大學物聯網工程學院 無錫 214000)
左旋多巴可以由酪氨酸通過羥化酶催化產生[1]。多巴和酪氨酸是合成各種蛋白質的原料。左旋多巴,屬于兒茶酚胺。兒茶酚胺是體內非常重要的神經系統(tǒng)物質。它可以調節(jié)人體的神經系統(tǒng)和器官,還可以影響人體的新陳代謝[2~3]。建立一個測量模型不僅有助于檢測血漿和尿液中的兒茶酚胺[4],而且對高血壓、甲亢、糖尿病等疾病的臨床診斷也具有重要意義。因此該研究具有重要意義。本文基于紫外光譜分析技術,建立了一種基于SVR 算法的左旋多巴酪氨酸混合溶液中左旋多巴含量的檢測方法。
紫外線吸收光譜法是一種利用物質在紫外波段特定波長處的吸收特性來定性或定量研究物質的方法。在紫外可見光(200nm~800nm)范圍內,大多數水溶性有機化合物具有吸收特性。紫外線光譜主要覆蓋100nm~400nm 的波段,而200nm~400nm 的波段是近紫外線區(qū)域。通常,選擇近紫外光譜進行定性或定量分析[5]。它具有良好的靈敏度,并由于其強大的選擇性而被廣泛使用[6]。
支持向量機算法[7](SVM)是一種基于統(tǒng)計的機器學習算法,由Vapnik 等提出?;舅枷胧窃诰€性分類器中找到最佳分類表面。支持向量機回歸(SVR)是基于SVM 的回歸算法,它是從SVM 方法開發(fā)出來的用于解決分類問題的算法。它結合了變量的選擇和回歸模型的建立,以獲得最佳的預測效果[8~10]。紫外光譜分析技術由于其靈敏性、可靠性、便利性、快速性和易推廣性而被應用于生物發(fā)酵中。
紫外光譜分析實驗數據使用測量范圍是200nm~750nm 范圍的紫外-可見光譜光譜分辨率為2cm-1,積分時間為32s。用Python 建立紫外光譜數學模型對采集的紫外光譜數據進行分析。
在實驗中,左旋多巴和酪氨酸的混合溶液由56 組光譜數據組成。使用Kennard-Stone(K-S)[11]算法,按照3:1 的比例將其分為40 個樣品和16 個樣品。分別用作校準樣品集和驗證樣品集。K-S方法是一種有效且廣泛使用的校正集選擇方法。K-S算法基于每個光譜之間的歐幾里德距離,并選擇分布范圍較廣的代表性樣本作為校準集樣本,從而避免了人工選擇的主觀盲目性。
樣品的化學成分和濃度不同時,其在不同波長處的吸光度也不同,紫外光譜圖隨之出現差異。本研究采用的多巴與酪氨酸的混液的紫外光譜圖如圖1 所示,為避免波段過寬造成光譜矩陣有大量冗余信息以及干擾,導致后續(xù)分析的準確度和效率降低,本研究首先對紫外光譜波段進行了優(yōu)化提取,選擇光譜信息較為豐富的251nm~300nm 波段作為優(yōu)選光譜區(qū)。
圖1 左旋多巴與酪氨酸混液紫外光譜圖
支持向量回歸(SVR)是基于支持向量機(SVM)的回歸算法,保留了最大間隔算法的主要特征:非線性函數可以由線性學習器在內核特征空間中獲得,而不是與要素空間參數相同。相關參數控制系統(tǒng)的容量。像分類算法一樣,學習算法需要最小化凸函數,其解決方案是稀疏的[12]。因此,需要選擇適當的損失函數[13~14]。本文使用的損失函數是軟間隔損失函數。
當x點的觀察值y與預測值f(x)的差補償預先給定的ε時,則認為在該點的預測值f(x)是無損失的,盡管預測值f(x)和觀察值y不一定相等。
如圖2,當樣本點位于兩條虛線之間時,則認為在該點沒有損失?;谥С窒蛄繖C(SVM)的規(guī)劃算法就是ε-SVR。
圖2 支持向量樣本和不敏感通道
在式(7)中,將點積替換為核函數k(xi,x),并且核函數可以執(zhí)行低維空間數據輸入以在高維特征空間中執(zhí)行點積計算而無需知道映射φ。
目前,支持向量機算法的核函數有十多種,其中最常見的為以下幾種:
線性核函數(Linear):
SVR模型優(yōu)先確定核函數,核函數的選擇將直接影響SVR的效果,另外核函數的參量對模型也會有一定影響。
這就是ε-SVR,與ε-SVR相比ν-SVR 是在上述支持向量回歸機的改進,ε不敏感損失參數的選取比較難,所以引進另外一個參數ν(ν∈( ]0,1),ν 比ε容易選取。
在定量建模之前需要對光譜數據進行校正集與驗證集的樣本劃分,通常使用隨機選擇法(Random Selection,RS)、K-S法(Kennard-Selection)等算法。其中RS 算法由于劃分樣本的隨機性較大,且本實驗樣本為酪氨酸與左旋多巴混合溶液的紫外光譜數據,可能導致樣本劃分不均勻的現象。故本文使用K-S 算法對樣本集進行劃分。使用K-S 算法選擇樣本分為以下三個步驟。
1)使用歐式距離計算樣本集中樣本之間的距離,選擇樣本集中距離最大的兩個樣本,放在校正集中。
2)對于其他樣本,計算每個樣本與第一步中選擇的樣本之間的歐氏距離,并選擇距離最短的放入校正集。
3)重復步驟1)與步驟2),直到選出合適的校正集,其余樣本組成驗證集。
K-S 算法中,各個樣本之間的距離公式為歐式距離,即為式(11)。
將剔除樣本后的51個酪氨酸多巴混液按照3:1比例劃分為38個校正集和13個驗證集。
為了使回歸模型準確反映仿真結果,需要設置模型參數。這些模型參數不易選擇,不能直接給出。為此,采用粒子群算法搜索ν-SVR模型的最佳參數C 和ν以及ε-SVR 的參數C、γ。粒子群算法具體的優(yōu)化方法如下。
步驟1:隨機產生粒子的初始位置及初始速度。
步驟2:用ν-SVR、ε-SVR 回歸訓練每個粒子,并使用k 倍交叉驗證的均方誤差作為粒子群的目標函數值。
步驟3:通過迭代搜索并輸出全局最優(yōu)值。
步驟4:從搜索中獲得的全局最優(yōu)值用作回歸的ν-SVR、ε-SVR模型的參數。
其中,ν-SVR 優(yōu)化參數為C、ν;ε-SVR 優(yōu)化的參數為C、γ。ε為默認值0.1。
使用多個方法進行對比模型的評價指標包括相關系數(R)、預測均方根偏差(RMSEP)、相對誤差(δ)、相對預測均方根誤差(RRMSEP)。其中:
式中:yi為第i個樣品的化學值;y?i為第i個樣品的預測值;m為驗證集樣本個數;yˉ為驗證集化學值的均值。
經過粒子群算法參數優(yōu)化后的ν-SVR,線性核函數最優(yōu)參數為C=511、ν=0.35;徑向基核函數最優(yōu)參數為C=41976、ν=0.65;多項式核函數最優(yōu)參數為C=11739、ν=0.84。評估指標如表1 所示,三種核函數中徑向基核函數的建模效果最佳,RMSEP 為0.826。其次為線性核函數,使用多項式核函數的建模效果一般。
表1 ν-SVR模型的評估指標
經過粒子群算法參數優(yōu)化后的ε-SVR,線性核函數最優(yōu)參數為C=356、γ=0.1;徑向基核函數最優(yōu)參數為C=6599、γ=0.1;多項式核函數最優(yōu)參數為C=93、γ=0.1。評估指標如表2 所示,三種核函數中,徑向基核函數建模效果最佳,RMSEP 較ν-SVR降低了接近0.2,其次為線性核函數。在兩種支持向量回歸機中,建模效果均為徑向基核函數好于線性核函數好于多項式核函數。
表2 ε-SVR模型的評估指標
接著將經典的PLS 算法加入比較中,如表3 所示,為ν-SVR、ε-SVR 的徑向基核函數與PLS 實驗對比。
表3 模型驗證結果對比
從表3 可以看出,三種建模方法,R 值均大于0.9995 說明建模效果較好,SVR 算法的建模效果好于PLS,其中,徑向基核函數構建的ε-SVR 模型的擬合效果最好,RMSEP、RRMSEP、δ為0.68、0.55%、0.83%,相關系數R 為0.99982。在紫外光譜建模時,使用粒子群算法優(yōu)化的ε-SVR可以達到更好的建模效果。
兩種SVR 算法對左旋多巴和酪氨酸混液紫外光譜數據的建模效果均好于傳統(tǒng)的PLS模型,基于徑向基核函數的SVR 算法的預測精度均好于線性核函數以及多項式核函數建立的SVR 算法。其中徑向基核函數的ε-SVR精度建模效果優(yōu)越,預測精度高,泛化能力強。側面表明紫外光譜技術結合SVR 算法可對左旋多巴和酪氨酸混液中濃度的預測效果明顯,且方法快速、準確、經濟環(huán)保、易于推廣。