張曉彤, 國晶晶, 任 創(chuàng), 宋麗娟*, 孫 挺
(1.遼寧石油化工大學遼寧省石油化工重點實驗室,遼寧撫順113001;2.東北大學理學院,遼寧沈陽110004)
人工神經網絡方法對鹵代聯(lián)苯化合物的QSRR研究
張曉彤1,2, 國晶晶1, 任 創(chuàng)1, 宋麗娟1*, 孫 挺2
(1.遼寧石油化工大學遼寧省石油化工重點實驗室,遼寧撫順113001;2.東北大學理學院,遼寧沈陽110004)
將鹵代聯(lián)苯化合物作為研究體系,利用基于原子類型的電子拓撲結構(E-state)和基于13種原子類型的電性距離矢量描述子(MEDV-13)作為描述符,分別應用多元線性回歸、人工神經網絡中的誤差反向傳播神經網絡和徑向基函數(shù)神經網絡的方法建立了55種鹵代聯(lián)苯化合物的QSRR模型。使用人工神經網絡的方法預測的結果比多元線性回歸的方法的結果稍好,相關系數(shù)R可以達到0.99以上,說明使用人工神經網絡的方法能夠準確地預測鹵代聯(lián)苯化合物的氣相色譜和液相色譜的保留指數(shù)。
QSRR; 鹵代聯(lián)苯化合物; 多元線性回歸; 人工神經網絡
色譜保留指數(shù),又稱科瓦茨指數(shù)(Kovats index),是色譜定性指標的一種重要參數(shù)。它是一種重現(xiàn)性較其它保留指數(shù)都好的定性參數(shù),其主要優(yōu)點是它只受色譜柱和柱溫的影響,而與其它因素無關。定量結構-色譜保留相關(Quantitative Structure-Retention Relationships,QSRR)研究的主要任務是建立分子結構參數(shù)和色譜保留值之間的定量關系,對于色譜保留值的預測、色譜分離條件的選擇以及色譜保留機制的探索等都具有重要的意義。因此,QSRR研究在色譜科學領域得到了廣泛關注[1]。鹵代聯(lián)苯化合物被廣泛地應用于工業(yè)絕緣材料和阻燃材料,這些物質很難降解,對環(huán)境以及人類的健康造成很大的影響[2]。氣相色譜和液相色譜是比較有效的分析方法之一。建立有效的鹵代聯(lián)苯化合物QSRR模型可以節(jié)省大量的人力財力,同時也可以給許多分析化學工作者提供一定的便利。
鹵代聯(lián)苯化合物的氣相色譜的保留值是在25 m×0.25mm DB-210-CB毛細管柱,膜厚度為0.2μm條件下得到的。液相色譜數(shù)據(jù)是采用C18柱以甲醇作為流動相而得到的[2]。它應用基于原子類型的電子拓撲結構(E-state)和基于13種原子類型的電性距離矢量描述子(MEDV-13)作為描述符[3]。為了確保整個數(shù)據(jù)集在QSRR模型中具有統(tǒng)計意義,應該把零值的描述符舍去。最后得出MEDV-13描述符的x14,x15,x25,x26,x36和x916個不都是零的值。應用同樣的方法,得到E-state的3個描述符包括ST(~CH~),ST(-C≈),ST(-F)。鹵代聯(lián)苯化合物名稱及編號見表1。
表1 鹵代聯(lián)苯化合物的名稱Table 1 Compounds of Polyhalogenated Biphenyls
多元線性回歸模型是最早被采用來預測色譜保留值的方法,也是目前在實際操作中應用最普遍的方法。多元線性回歸是將保留指數(shù)RI由特定的自變量參數(shù)xi來線性表達。
利用SPSS 11.5對所有的描述符進行統(tǒng)計分析,最后得出描述符和保留值之間的線性關系為:RIGC=1 836.982-4.552x15-124.906x25-178.722x26-240.601x91-55.581ST(~CH~)+141.413ST(-C≈)+1.385ST(-F)RILC=4 274.259-4.552x15-99.562x25-83.087x26-159.951x91-191.019ST(~CH~)+141.413ST(-C≈)+1.385ST(-F)
一個可靠的回歸模型應該具有較高的相關系數(shù)(R),本回歸模型的相關系數(shù)R分別為0.985 4和0.981 4。
多元線性回歸的結果列于表2中(限于篇幅,表2中只列出前10種和后10種物質的相關數(shù)據(jù)),與實驗值的對比列于圖1中。
Fig.1 Plot of the predicted RI against the experimental values based on MLR for the GC and LC圖1 基于MLR的GC和LC預測值和實驗值之間的關系
在約定顯著性水平α=0.05下,對本回歸方程進行F檢驗,查表得臨界值F(7,47)=3.35,而該方程的F值分別為224.875,175.348,F(xiàn)>F(7,47),說明模型的精密度檢驗結果是顯著性的。
人工神經網絡(Artificial Neural Network ANN)方法是QSRR研究中處理非線性問題常用的方法。人工神經網絡有多種算法,其中最常用的前饋神經網絡模型是誤差反向傳播神經網絡(Error Back Propagation,BP)和徑向基函數(shù)神經網絡(Radial Basis Function Neural Network,RBF)。QSRR數(shù)據(jù)的非線性統(tǒng)計結果比線性有較好的預測能力,神經網絡也廣泛的應用于QSRR模型的建立[3-4]。
2.2.1 誤差反向傳播神經網絡 BP網絡可廣泛應用于函數(shù)逼近,模式識別,數(shù)據(jù)的預測等等,也可以用于QSRR模型的建立[5]。BP網絡是多層前饋型網絡,分為輸入層、隱含層和輸出層,層與層之間采用全連接的方式,同一層神經元不存在相互連接。BP網絡的基本處理單元為非線性輸入—輸出關系,其學習過程由正向傳播和反向傳播組成。在正向傳播過程中,輸入信息從輸入層經隱含層(net)逐層處理并傳向輸出層(out),每一層的神經元狀態(tài)只影響下一層神經元的狀態(tài)。如果輸出層得不到期望輸出,則轉入反向傳播過程,將誤信息原來的連接線路返回,不斷修改各層神經元的權值,以達到期望輸出[6]。
選用3層的BP網絡來實現(xiàn)鹵代聯(lián)苯化合物的QSRR建模。在計算之前要對所有的數(shù)據(jù)進行歸一化。歸一化的公式為:
BP網絡在MATLAB中編譯實現(xiàn)。前44個數(shù)據(jù)作為訓練集,后11個數(shù)據(jù)作為檢測集。建立3層BP神經網絡,隱層神經元數(shù)目設為7,輸出層有1個神經元,傳遞函數(shù)分別為tansig和logsig。BP神經網絡的預測結果見圖2。
應用BP神經網絡建立的模型所得到的相關系數(shù)分別為0.992 5和0.999 0。
2.2.2 徑向基函數(shù)神經網絡 RBF網絡也是一種常用的神經網絡模型,它具有最佳逼近的特性,以及優(yōu)化過程簡單和訓練速度快的優(yōu)點,在許多領域得到廣泛的應用[7-8]。RBF網絡屬于前饋型層狀神經網絡,以訓練樣本的輸入量與隱含層節(jié)點權重向量的歐式距離作為輸入,通常采用反映概率密度的高斯型函數(shù)作為隱含層的作用函數(shù)。它的結構可以用3層網絡來描述:第1層為輸入層,第2層為隱含層,即徑向基函數(shù)層,第3層為輸出層。本模型徑向基函數(shù)采用高斯核函數(shù):
Fig.2 Plot of the predicted RI against the experimental values based on BP for the GC and LC圖2 基于BP的GC和LC預測值和實驗值之間的關系
RBF網絡在MATLAB中編譯實現(xiàn)。同樣將前44個數(shù)據(jù)作為訓練集,后11個數(shù)據(jù)作為檢測集。利用2-2-1結構的RBF。預先設定均方差精度為0.000 1和散布常數(shù)1.0來預測鹵代聯(lián)苯化合物的保留指數(shù)。預測結果見圖3。
應用RBF神經網絡建立的模型所得到的相關系數(shù)分別為0.996 6和0.996 0。
分別采用線性方法(MLR)和非線性方法(ANN)建立了鹵代聯(lián)苯化合物氣相色譜和液相色譜保留值與其結構參數(shù)間的線性和非線性定量關系模型。表3比較了采用不同方法建立的QSRR模型的預測結果,可以看出采用非線性方法(ANN)建模的結果比線性的方法(MLR)稍好,相關系數(shù)可達0.99以上。
Fig.3 Plot of the predicted RI against the experimental values based on RBF for the GC and LC圖3 GC和LC基于RBF的預測值和實驗值之間的關系
表2 保留指數(shù)的數(shù)據(jù)集和相應的實驗值Table 2 Molecular structures the selected descriptors and corresponding experimental values of RI
表3 不同建模方法的R值Table 3 Different method values ofR
通過基于原子類型的電子拓撲結構(E-state)和基于13種原子類型的電性距離矢量描述子(MEDV-13)這兩個描述符可以成功地對鹵代聯(lián)苯化合物的氣相色譜和液相色譜的保留值進行預測。建立適用廣泛的色譜保留行為模型,將為色譜保留機理、選擇性、優(yōu)化分離條件和預測保留值研究奠定良好的理論基礎。
[1]楊學瑾,李延東,王善偉,等.二茂鐵衍生物疏水參數(shù)及其保留指數(shù)與結構定量關系的研究[J].色譜,1996,14(2):86-90.
[2]Lu C,Abraham F,Adamowiciz L,et al.QSRR study for gas and liquid chromatographic retention indices of polyhalogenated biphenyls using two 2D decriptors[J].Chromatographia,2007,66(9-10):717-724.
[3]Zupan J,Gasteiger J.Neural network in chemistry and drug design[M].Weinheim:Wiley/VCH Verlag,1999.
[4]Sharma R,Singh K,Singhal D.Neural network applications for detecting process faults in packed towers[J].Chemical engineering and processing,2004,43(7):841-847.
[5]Zhang Xiaotong,Ding Ling,Sun Zhaolin.Study on quantitative structure-retention relationships for hydrocarbons in FCC gasoline[J].Chromatographia,2009,70(3-4):511-518.
[6]張曉彤,李興明,代敏,等.GBP網絡在改性石蠟性質預測中的應用[J].石油化工高等學校學報,2004,21(17):1-5.
[7]Sboner A,Echer C,Blanzieri E.Amultiple classifier system for early melanoma diagnosis[J].Artificial intelligence in medicine,2003,27(1):29-44.
[8]李紅利,張曉彤,蘭立柱,等.基于遺傳算法的RBF神經網絡的優(yōu)化設計方法[J].石油化工高等學校學報,2003,20(11):67-69.
(Ed.:YYL,Z)
QSRR Study for Polyhalogenated Biphenyls Using Artificial Neural Network
ZHANG Xiao-tong1,2,GUO Jing-jing1,REN Chuang1,SONG Li-juan1*,SUN Ting2
(1.Liaoning Key Laboratory of Petrochemical Engineering,Liaoning Shihua University,F(xiàn)ushun Liaoning113001,P,R.China;2.College of Sciences,Northeastern University,Shenyang Liaoning110004,P.R.China)
A series of polyhalogenated biphenyls have been used to develop quantitative structure-retention relationship for their gas and liquid chromatographic retention index by using two 2Ddescriptors of the atom type electrotopogical state index and the molecular electronegativity distance vector based on 13atomic types.QSRR of 55kinds of polyhalogenated biphenyls models were built by multiple liner regression and artificial neural network.The results show that using artificial neural network method is better than using multivariate linear regression,the predictive correlation coefficientRcan reach above 0.99.It is demonstrated that using artificial neural network method can accurately predict polyhalogenated biphenyls gas and liquid chromatographic retention index.
Quantitative structure-retention relationship;Polyhalogenated biphenyls;Multiple liner regression;Artificial neural network
TQ645
A
10.3696/j.issn.1006-396X.2011.01.006
2010-12-02
張曉彤(1970-),男,遼寧撫順市,副教授,在讀博士。
遼寧省教育廳資助項目(2008T110)。
*通訊聯(lián)系人。
1006-396X(2011)01-0026-04
Received2December2010;revised28December2010;accepted5January2011
*Corresponding author.Tel.:+86-413-6860048;e-mail:lsong@lnpu.edu.cn