蔡欣萍,華志萍,李建鳳,2
(1.內(nèi)江師范學(xué)院化學(xué)化工學(xué)院,中國 內(nèi)江 641100;2.四川省高等學(xué)?!肮悘U棄物資源化”重點(diǎn)實(shí)驗(yàn)室,中國 內(nèi)江 641100)
苯及衍生物常被用于各種溶劑及產(chǎn)品中,來源十分廣泛,如工業(yè)生產(chǎn)、汽車尾氣、裝修裝飾材料、辦公設(shè)備等。由于生產(chǎn)活動(dòng)和生活污染,苯及衍生物可在水、土壤、大氣等環(huán)境介質(zhì)中廣泛檢出。苯及衍生物大多有毒,對(duì)動(dòng)植物生長、繁殖產(chǎn)生負(fù)面影響,并對(duì)人體血液、神經(jīng)、生殖系統(tǒng)造成危害[1-3]。苯及衍生物種類多、數(shù)量大,可高達(dá)千萬種以上,全面了解苯及衍生物的生物毒性,對(duì)于規(guī)范其生產(chǎn)和排放具有重要的意義。定量結(jié)構(gòu)-性質(zhì)關(guān)系為獲取數(shù)以千萬計(jì)的有機(jī)污染物環(huán)境參數(shù)提供了可行的途徑且已有相關(guān)研究[4-6],化合物結(jié)構(gòu)參數(shù)化是定量結(jié)構(gòu)-性質(zhì)關(guān)系研究的第一步,目前主要有二維(2D)結(jié)構(gòu)表征法[7-9]和三維(3D)結(jié)構(gòu)表征法[10-12]。3D法能再現(xiàn)化合物分子三維立體結(jié)構(gòu)特征,能區(qū)分順反異構(gòu)體、光學(xué)異構(gòu)體等,已經(jīng)成為目前定量構(gòu)效關(guān)系研究的主流方法。二維結(jié)構(gòu)表征法由于其具有簡單易懂、計(jì)算速度快,且多數(shù)情況下也能取得較為理想的結(jié)果等特點(diǎn),在定量構(gòu)效關(guān)系中仍然被廣泛使用。本文基于苯及衍生物的2D結(jié)構(gòu),對(duì)非氫原子進(jìn)行分類并參數(shù)化染色、建立各非氫原子之間的距離關(guān)系作為結(jié)構(gòu)描述符,對(duì)苯及衍生物的結(jié)構(gòu)表征后,構(gòu)建苯及衍生物結(jié)構(gòu)-毒性關(guān)系模型,討論影響化合物毒性的結(jié)構(gòu)因素,為有機(jī)化合物結(jié)構(gòu)-性質(zhì)關(guān)系研究提供參考。
苯衍生物的毒性以其對(duì)呆鰷魚的96 h半致死量(lg(1/LC50))表示,69個(gè)苯衍生物及對(duì)呆鰷魚的96 h半致死量(lg(1/LC50))實(shí)驗(yàn)值取自文獻(xiàn)[13],按照lg(1/LC50)值大小順序列于表1。取出尾號(hào)為0和5的樣本(以“*”標(biāo)識(shí))作為測(cè)試集樣本,用于測(cè)試模型的外部預(yù)測(cè)能力;其余為訓(xùn)練集樣本,用于建立模型。
表1 化合物及毒性值(lg(1/LC50))Tab. 1 Compounds and toxicity values (lg(1/LC50))
續(xù)表
結(jié)構(gòu)表征是將研究樣本根據(jù)其不同的結(jié)構(gòu)轉(zhuǎn)變成與結(jié)構(gòu)相關(guān)的參數(shù),忽略氫原子的影響,非氫原子及非氫原子之間相互關(guān)系影響化合物的性質(zhì)。不同類型的非氫原子及其關(guān)系對(duì)化合物性質(zhì)影響不同,根據(jù)非氫原子在化合物分子中的連接情況,將非氫原子分為4 種原子類型[14-16],以Ak(k為該原子連接其他非氫原子的數(shù)量,k=1,2,3,4)表示,如某非氫原子直接連接2個(gè)其他非氫原子,則該非氫原子屬于A2(即第二類非氫原子)。根據(jù)非氫原子在周期表所處的位置、電子層結(jié)構(gòu)、成鍵情況對(duì)其進(jìn)行參數(shù)化染色[17,18],見式(1)。
(1)
式中νi為非氫原子i價(jià)電子層的電子數(shù),ni為原子i電子層數(shù),δσi表示原子i成σ鍵的電子數(shù),δ(σ+π)i為原子i參與成σ和π鍵的總電子數(shù)。
不同類型非氫原子對(duì)化合物毒性lg(1/LC50)影響不同,同種類型非氫原子對(duì)化合物毒性lg(1/LC50)影響具有加和性,按式(2)分類累加。
(2)
式中,k為非氫原子i的所屬原子類型。一個(gè)有機(jī)化合物分子中最多含有4類非氫原子,因此最終得到4項(xiàng),用x1,x2,x3,x4表示。
非氫原子之間的關(guān)系與非氫原子本身取值以及非氫原子之間的距離有關(guān),且隨非氫原子取值增大而增大,隨非氫原子之間的距離增大而減小。不同類型非氫原子之間的關(guān)系可用倒數(shù)型函數(shù)(式(3))進(jìn)行計(jì)算。
(3)
式中,rij是非氫原子i與j之間最短路徑鍵長之和與碳碳單鍵鍵長的比值;n和l表示原子所屬類型。4類非氫原子可以組合出10種不同的關(guān)系項(xiàng),如m11,m12,…,m44(簡寫為x5,x6,…,x14)。其中m12表示第一類與第二類非氫原子之間的關(guān)系,以此類推。所有化合物經(jīng)結(jié)構(gòu)表征后,最終可得與其結(jié)構(gòu)密切相關(guān)的14個(gè)變量。
化合物經(jīng)參數(shù)化表征后,每個(gè)化合物得到與結(jié)構(gòu)相關(guān)的一組結(jié)構(gòu)描述符。由于在所有的化合物中均不存在第四類非氫原子,因而得到的結(jié)構(gòu)描述符與第四類非氫原子相關(guān)的x4,x8,x11,x13,x14為“0”,剩余9個(gè)結(jié)構(gòu)描述符(如讀者需要,可向作者索取)用于建模分析。在建立多元線性回歸(MLR)模型前,對(duì)變量進(jìn)行篩選,剔除對(duì)化合物毒性影響較小的或相關(guān)性小的變量。運(yùn)用SMR以變量顯著性大小為順序依次將變量引入模型??疾旖O嚓P(guān)系數(shù)(R)及標(biāo)準(zhǔn)偏差(SD)隨逐步回歸變化情況,見圖1和圖2。
圖2 標(biāo)準(zhǔn)偏差(SD)隨逐步回歸變化情況Fig. 2 Standard deviation (SD)changes with the stepwise regression
從圖1中可以發(fā)現(xiàn),建模相關(guān)系數(shù)(R)隨著變量的引入而逐漸增大。起初建模相關(guān)系數(shù)(R)隨著變量的引入緩慢增大,當(dāng)變量達(dá)到5個(gè)時(shí)建模相關(guān)系數(shù)(R)突然迅速增大且接近最大值,當(dāng)變量超過5個(gè)時(shí),建模相關(guān)系數(shù)(R)增大不明顯。同樣,從圖2中可以發(fā)現(xiàn),標(biāo)準(zhǔn)偏差(SD)隨著變量的引入而逐漸減小。當(dāng)變量達(dá)到5個(gè)時(shí)標(biāo)準(zhǔn)偏差(SD)瞬間變小且接近最小值,之后標(biāo)準(zhǔn)偏差(SD)隨著變量的引入略有減小。以上說明應(yīng)該選擇5變量建立模型,5變量模型(M1)見式(4)。
lg(1/LC50)=10.340 7-1.403 6x2+1.201 2x5+0.458 0x6-0.297 1x7+0.261 3x9
(4)
圖3 相關(guān)系數(shù)(R2/RCV2)隨主成分?jǐn)?shù)變化情況Fig. 3 Correlation coefficient (R2/RCV2)changes with the number of principal components
變量重要性投影(VIP)見圖4,通常認(rèn)為變量重要性投影(VIP)值大于1時(shí),該變量與所研究的性質(zhì)相關(guān)性大[23,24]。苯環(huán)上的取代基種類、取代基數(shù)量和位置對(duì)化合物的分子體積、疏水參數(shù)等產(chǎn)生影響,取代基體積越大,整個(gè)化合物分子體積就越大,化合物越難穿過生物脂質(zhì)膜產(chǎn)生毒性,表現(xiàn)出毒性較小。而取代基體積越小、疏水性越強(qiáng),整個(gè)化合物分子體積就越小,越易透過生物脂質(zhì)膜產(chǎn)生毒性,表現(xiàn)出毒性較大。圖4可以看出變量x2,x3,x5,x7和x12的VIP值大于1,說明這5個(gè)變量與苯衍生物毒性lg(1/LC50)相關(guān)性大。x2和x3分別對(duì)應(yīng)第二、三類非氫原子自身對(duì)苯衍生物毒性lg(1/LC50)的影響,x5,x7和x12分別與第一類、第一與第三類、第三類非氫原子相關(guān)。第一類非氫原子即為苯環(huán)上取代基的末端原子,第三類非氫原子大部分為苯環(huán)上接有取代基的碳原子,因而圖4可以說明苯衍生物的毒性與苯環(huán)上的取代基種類、取代基數(shù)量和位置有關(guān)。
圖4 變量重要性投影Fig. 4 Variable importance projection
兩模型對(duì)化合物的毒性lg(1/LC50)預(yù)測(cè)值分別列于表1的Cal.1和Cal.2,Err.1和Err.2分別為預(yù)測(cè)誤差。圖5為以化合物的毒性lg(1/LC50)實(shí)驗(yàn)值為橫坐標(biāo)、預(yù)測(cè)值為縱坐標(biāo)繪制的相關(guān)圖,圖6為相應(yīng)的誤差分布。從圖5中可發(fā)現(xiàn)絕大部分樣本點(diǎn)都處于正方形對(duì)角線兩側(cè)并緊靠對(duì)角線,顯示出該類型化合物毒性lg(1/LC50)模型預(yù)測(cè)值與實(shí)驗(yàn)值之間良好的相關(guān)性,模型對(duì)化合物急性毒性lg(1/LC50)值預(yù)測(cè)較準(zhǔn)確。模型M2的樣本點(diǎn)更加靠近正方形對(duì)角線,說明模型M2的預(yù)測(cè)結(jié)果明顯優(yōu)于模型M1。
圖5 化合物毒性預(yù)測(cè)值與實(shí)驗(yàn)值相關(guān)圖Fig. 5 Correlation diagram of the compound toxicity prediction value and experimental value
圖6 模型預(yù)測(cè)誤差分布Fig. 6 Model prediction error distribution
從圖6中可發(fā)現(xiàn)模型M2的樣本點(diǎn)更加靠近中間“0”橫線,說明模型M2的預(yù)測(cè)誤差比模型M1的預(yù)測(cè)誤差更小,再次說明模型M2的建模及預(yù)測(cè)效果優(yōu)于模型M1。從圖6中還發(fā)現(xiàn)超過94%的樣本誤差都落在±2SD范圍,對(duì)于兩模型均僅有不足6%的樣本預(yù)測(cè)誤差超出±2SD1和±2SD2,個(gè)別樣本的預(yù)測(cè)誤差較大,說明存在特殊的結(jié)構(gòu)信息未得到充分表達(dá)。如果個(gè)別實(shí)驗(yàn)數(shù)據(jù)本身誤差較大,也會(huì)影響模型計(jì)算結(jié)果。不論是何種原因?qū)е碌拇笳`差,但這類樣本僅占5.80%,可說明模型對(duì)絕大部分化合物(94.20%,遠(yuǎn)大于80%的標(biāo)準(zhǔn))的毒性lg(1/LC50)能準(zhǔn)確預(yù)測(cè),誤差可接受,在缺乏實(shí)驗(yàn)數(shù)據(jù)的情況下,預(yù)測(cè)值具有一定的參考價(jià)值。
通過將化合物中的非氫原子進(jìn)行分類、參數(shù)化染色,在化合物二維結(jié)構(gòu)上計(jì)算各非氫原子之間的相互關(guān)系,進(jìn)而以此為結(jié)構(gòu)描述符對(duì)69個(gè)苯衍生物結(jié)構(gòu)進(jìn)行表征并建立定量結(jié)構(gòu)-毒性lg(1/LC50)關(guān)系模型。該模型經(jīng)過內(nèi)部、外部雙重檢驗(yàn),可以用于苯衍生物毒性lg(1/LC50)的預(yù)測(cè)。部分樣本毒性預(yù)測(cè)誤差較大,說明某些特殊的結(jié)構(gòu)信息未得到完整表達(dá),結(jié)構(gòu)描述符仍然具有一定的改進(jìn)空間??偟膩碚f,本文提出的結(jié)構(gòu)描述符具有較多的優(yōu)點(diǎn),如無需進(jìn)行3D結(jié)構(gòu)的優(yōu)化及復(fù)雜計(jì)算,計(jì)算時(shí)間短,簡單且重復(fù)性好,所建模型預(yù)測(cè)效果好等,有望在類似有機(jī)化合物結(jié)構(gòu)-性質(zhì)關(guān)系研究中得到進(jìn)一步應(yīng)用。