金 飆, 柴 歡, 金 俏
(1.沈陽化工大學(xué) 環(huán)境與安全工程學(xué)院, 遼寧 沈陽 110142; 2.北京石油化工學(xué)院 化學(xué)工程學(xué)院, 北京 102600)
硝基苯類化合物是一類重要的有機(jī)化工原料,廣泛應(yīng)用于殺菌劑、殺蟲劑、染料、醫(yī)藥等化學(xué)工業(yè).硝基苯類化合物是高毒性物質(zhì),具有致突變性,且在不同的行業(yè)和環(huán)境中普遍存在,可能造成嚴(yán)重的環(huán)境和健康問題.因此進(jìn)行硝基苯類化合物的結(jié)構(gòu)與毒性的定量構(gòu)效關(guān)系研究具有重要意義[1-4].定量構(gòu)效關(guān)系(quantitative structure-activity relationships,QSAR)是預(yù)測(cè)有機(jī)物分子生態(tài)毒理學(xué)的有力工具.在QSAR研究中,已經(jīng)越來越多地將量化參數(shù)與其他常規(guī)的參數(shù)聯(lián)合使用來構(gòu)造數(shù)學(xué)模型[5-16],以往研究人員研究化合物生物毒性的定量構(gòu)效關(guān)系多用多元線性回歸法(MLR),MLR是經(jīng)典的建模方法,該方法可獲得因果模型,且模型直觀明了、物理意義明確.但該方法也存在一定的不足,如要求模型變量參數(shù)相互正交、化合物或樣本數(shù)大于描述變量等.近年來,應(yīng)用人工神經(jīng)網(wǎng)絡(luò)構(gòu)建 QSAR 模型已有報(bào)道.人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)是一種信息處理技術(shù),具有很強(qiáng)的非線性處理、自適應(yīng)學(xué)習(xí)、自組織調(diào)整及容錯(cuò)抗噪聲能力.其獨(dú)特的結(jié)構(gòu)與功能,能夠模擬任何因果關(guān)系不明確、推理規(guī)則不確定的非線性問題.人工神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的模擬多元非線性體系的能力,在有機(jī)污染物定量構(gòu)效關(guān)系研究中具有廣闊的發(fā)展前景[17-20].本文分別以MLR和ANN兩種建模方法對(duì)硝基苯類化合物的定量構(gòu)效關(guān)系進(jìn)行研究,為預(yù)測(cè)有機(jī)污染物的毒性提供理論基礎(chǔ).
硝基苯母體化合物的結(jié)構(gòu)及其可取代位置如下:
36個(gè)硝基苯的梨形四膜蟲的急性毒性數(shù)據(jù)引自參考文獻(xiàn)[21],如表1所示.
表1 硝基苯的毒性參數(shù)和部分結(jié)構(gòu)參數(shù)
注:*為預(yù)測(cè)樣本
利用Gaussian09軟件在B3LYP/6-311+G*水平下對(duì)分子結(jié)構(gòu)進(jìn)行優(yōu)化計(jì)算,計(jì)算獲得量子化學(xué)參數(shù)包括最高占據(jù)軌道能EHOMO、最低空軌道能ELUMO和EHOMO與ELUMO之差的絕對(duì)值ΔE、偶極矩μ、總能量E和表征微觀粒子基態(tài)能量的參數(shù)-零點(diǎn)振動(dòng)能(Zero-point vibration energy,EZP).
為尋找影響硝基苯類化合物對(duì)梨形四膜蟲急性毒性與各參數(shù)之間的QSAR關(guān)系,將36個(gè)化合物分為2組,前28個(gè)化合物作為訓(xùn)練樣本集,用于建立QSAR模型;后8個(gè)作為預(yù)測(cè)樣本集,用于檢驗(yàn)QSAR模型的預(yù)測(cè)能力.
應(yīng)用SPSS17.0 統(tǒng)計(jì)軟件分別對(duì)急性毒性與各量化參數(shù)進(jìn)行多元逐步回歸分析.為了控制模型的穩(wěn)定性,消除變量間共線性的影響,計(jì)算每個(gè)變量的變異膨脹因子(VIF),在α=0.05的顯著性水平上,剔除不顯著的因素,獲得急性毒性與量化參數(shù)之間的最佳方程:
-log IGC50=-0.021Ezp-43.167ELUMO-2.611
N=34,R=0.849,R2=0.721,σs=0.378,
F=40.044
計(jì)算每個(gè)變量的膨脹因子VIF,VIF均在1.0與5.0之間,說明變量之間不存在顯著的共線性,方程可以接受.
硝基苯類化合物對(duì)梨形四膜蟲急性毒性變異解釋R2為0.721,說明回歸直線與實(shí)驗(yàn)觀測(cè)值的擬合程度良好.由方程計(jì)算得到的F值為40.044,說明因變量即急性毒性-log IGC50與零點(diǎn)振動(dòng)能和最低空軌道能ELUMO顯著相關(guān),Ezp和ELOMO越小,化合物的急性毒性越大.結(jié)果表明所建多元線性回歸方程具有統(tǒng)計(jì)學(xué)意義.MLR方法下硝基苯預(yù)測(cè)值與實(shí)驗(yàn)值的相關(guān)性和回歸標(biāo)準(zhǔn)化預(yù)測(cè)值散點(diǎn)圖如圖1和圖2所示.
圖1 MLR方法下硝基苯預(yù)測(cè)值與實(shí)驗(yàn)值的相關(guān)性
圖2 MLR方法下回歸標(biāo)準(zhǔn)化預(yù)測(cè)值散點(diǎn)圖
目前應(yīng)用較為廣泛的人工神經(jīng)網(wǎng)絡(luò)(ANN)方法是誤差反向傳播(BP)法,BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的學(xué)習(xí)過程由正向傳播和反向傳播兩個(gè)過程組成.在正向傳播過程中,輸入信息由輸入層經(jīng)隱含層傳向輸出層,如果在輸出層不能得到期望的輸出,則轉(zhuǎn)入反向傳播,將誤差信號(hào)沿原來的連接通路返回,修改各層節(jié)點(diǎn)間的連接權(quán)值,如此往復(fù)調(diào)整網(wǎng)絡(luò)參數(shù),使之誤差函數(shù)達(dá)到極小為止.當(dāng)訓(xùn)練結(jié)束時(shí),將學(xué)習(xí)得到的規(guī)則表達(dá)在網(wǎng)絡(luò)的權(quán)值中,利用這組權(quán)值,根據(jù)樣本的輸入特定參數(shù),迅速輸出預(yù)測(cè)結(jié)果.
選擇36種硝基苯化合物的偶極距(μ)、分子最高占有能(EHOMO)和最低空軌道能(ELUMO)、前沿軌道能隙(ΔE=EHOMO-ELUMO)、分子總能量(E)、零點(diǎn)振動(dòng)能(EZP)、μ2這7個(gè)結(jié)構(gòu)參數(shù)作為人工神經(jīng)網(wǎng)絡(luò)的輸入層節(jié)點(diǎn),硝基苯的急性毒性-log IGC50作為輸出層,進(jìn)行分析構(gòu)建多層神經(jīng)網(wǎng)絡(luò)QSAR模型,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練終止情況、學(xué)習(xí)速率、隱藏層數(shù)和節(jié)點(diǎn)數(shù)等的選擇對(duì)網(wǎng)絡(luò)的學(xué)習(xí)和預(yù)測(cè)都有較大影響.
樣本模擬的學(xué)習(xí)結(jié)果及其與實(shí)驗(yàn)值的殘差分析結(jié)果見表2、圖3和圖4.從表2可以看出:與MLR結(jié)果相比,ANN算法得出的計(jì)算值與實(shí)驗(yàn)值之間的殘差更小.計(jì)算值與實(shí)驗(yàn)值的相關(guān)系數(shù)R為0.989,標(biāo)準(zhǔn)誤差σs為0.098,說明由該人工神經(jīng)網(wǎng)絡(luò)模型計(jì)算梨形四蟲的急性毒性更為準(zhǔn)確,擬合能力也比多元線性回歸法更好.
表2 殘差分析表
圖3 ANN方法下硝基苯預(yù)測(cè)值與實(shí)驗(yàn)值的相關(guān)性
圖4 ANN方法下回歸標(biāo)準(zhǔn)化預(yù)測(cè)散點(diǎn)
對(duì)36種硝基苯類化合物分別采用多元線性回歸(MLR)和人工神經(jīng)網(wǎng)絡(luò)(ANN)方法建立其梨形四膜蟲的急性毒性的QSAR模型,所建模型穩(wěn)健且預(yù)測(cè)能力強(qiáng).與MLR法相比ANN方法擬合精度更好,特別適合處理復(fù)雜的非線性問題.但要提供具體的關(guān)系式來探討化合物對(duì)梨形四膜蟲的急性毒性的影響機(jī)制,只能依賴于多元線性回歸分析.所建模型結(jié)果表明:梨形四膜蟲的急性毒性與零點(diǎn)振動(dòng)能Ezp和分子最高占有軌道能ELOMO成反比例關(guān)系,Ezp和ELOMO越小,-log IGC50越大.
[1] ISAYEV O,RASULEV B,GORB L,et al.Structure-toxicity Relationships of Nitroaromatic Compounds[J].Molecular Diversity,2006,10(2):233-245.
[2] BENIGNI R.Structure-activity Relationship Studies of Chemicalmutagens and Carcinogens:Mechanistic Investigations and Prediction Approaches[J].Chem Rev,2005,105(5):1767-1800.
[3] HARTTER D R.The Use and Importance of Nitroaromatic Chemicals in the Chemical Industry[C]//Rickert D E.Toxicity of Nitroaromatic Compounds.New York:Hemisphere Pub.Corp.,1985:1-13.
[4] 李俊生,徐靖,羅建武,等.硝基苯環(huán)境效應(yīng)的研究綜述[J].生態(tài)環(huán)境學(xué)報(bào),2009,18(1):368-373.
[5] 陳艷,馮長君.連接性指數(shù)對(duì)脂肪醇的QSPR/QSAR研究[J].環(huán)境化學(xué),2000,19(6):538-543.
[6] 王連生.韓朔睽.分子結(jié)構(gòu)、性質(zhì)與活性[M].北京:化學(xué)工業(yè)出版社,1997:1-412.
[7] HUANG H,WANG X D,OU W H,et al.Acute Toxicity of Benzene Derivatives to the Tadpoles(Rana Japonica) and QSAR Analyses[J].Chemosphere,2003,53(8):963-970.
[8] 許祿,吳亞平.硝基苯類化合物的結(jié)構(gòu)/毒性定量構(gòu)效關(guān)系研究[J].環(huán)境科學(xué)學(xué)報(bào),2000,20(4):456-460.
[9] 許祿,邵學(xué)廣.化學(xué)計(jì)量學(xué)方法[M].2版.北京:科學(xué)出版社,2004:1-565.
[10] CRONIN M T D,NETZEVA T I,DEARDEN J C,et al.Assessment and Modeling of the Toxicity of Organic Chemicals to Chlorella Vulgaris:Development of a Novel Database[J].Chemical Research in Toxicology,2004,17(4):545-554.
[11] HALL L H,MAYNARD E L,KIER L B.Structure-activity Relationship Studies on the Toxicity of Benzene Derivatives:Ⅲ.Predictions and Extension to New Substituents[J].Environ Toxico Chem,1989,8(5):431-436.
[12] 高碩,葛佳軍.拓?fù)?量子方法在化學(xué)事故處置中的應(yīng)用:硝基苯毒性預(yù)測(cè)[J].湖南科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,26(2):109-112.
[13] 崔鵬,崔秀君,郭英娜,等.基于DFT和分子連接性指數(shù)方法研究醇類化合物的水溶解度和分配系數(shù)[J].分子科學(xué)學(xué)報(bào),2008,24(3):180-183.
[14] ROY K,GHOSH G.QSTR with Extended Topochemical Atom(ETA) Indices.Ⅵ.Acute Toxicity of Benzene Derivatives to Tadpoles(RanaJaponica)[J].J Mol Model,2006,12(3):306-316.
[15] YAN X F,XIAO H M,GONG X D,et al.A Comparison of Semi Empirical and First Principle Methods for Establishing Toxicological QSARs of Nitroaromatics[J].Journal of Molecular Structure:THEOCHEM,2006,764(1/2/3):141-148.
[16] LANG P Z,MA X F,LU G H,et al.QSAR for the Acute Toxicity of Nitroaromatics to the Carp(Cyprinus Carpio)[J].Chemosphere,1996,32(8):1547-1552.
[18] 李仲.人工神經(jīng)網(wǎng)絡(luò)研究硝基苯化合物結(jié)構(gòu)與毒性的關(guān)系[J].分子科學(xué)學(xué)報(bào),2011,27(4):258-261.
[19] 崔秀君,張卓勇,袁星,等.主成分分析神經(jīng)網(wǎng)絡(luò)方法用于硝基苯及其同系物的QSAR研究[J].計(jì)算機(jī)與應(yīng)用化學(xué),2005,22(11):1038-1040.
[20] GAO J W,WANG X Y,LI X B,et al.Prediction of Polyamide Properties Using Quantum-chemical methods and BP Artificial Neural Networks[J].J Mol Mode,2006,12(4):513-520.
[21] CRONIN M T D,GREGORY B W,SCHULTZ T W.Quantitative Structure-activity Analyses of Nitrobenzene Toxicity to Tetrahymena Pyriformis[J].Chemical Research in Toxicology,1998,11(8):902-908.